Qwen3.7-Max: 에이전트 프런티어

Qwen3.7-Max는 코딩·디버깅, 사무 자동화, 수백~수천 단계 자율 실행을 겨냥한 에이전트 중심 독점 모델임

코딩·범용 에이전트·추론·다국어 평가에서 경쟁 모델과 맞붙으며, Terminal Bench 2.0-Terminus 69.7점과 GPQA Diamond 92.4점을 기록함

35시간 자율 커널 최적화에서 1,158회 도구 호출과 432회 평가를 수행해 Triton 기준 기하평균 10.0배 속도 향상을 달성함

학습 인스턴스를 Task·Harness·Verifier로 분리해 교차 하네스 RL 학습을 수행하고, 특정 하네스 지름길보다 일반화된 문제 해결을 유도함

Alibaba Cloud Model Studio를 통해 곧 API가 제공되며, Claude Code·OpenClaw·Qwen Code 등 에이전트 프레임워크와 통합 가능함

Qwen3.7-Max는 코딩 에이전트, 범용 에이전트, STEM·추론, 일반 역량, 다국어 영역에서 여러 비교 모델과 함께 평가됨

빈 셀(--)은 점수가 아직 제공되지 않았다는 뜻임

Terminal Bench 2.0-Terminus에서 69.7점을 기록해 DS-V4-Pro Max의 67.9점을 넘어섬

SWE-Verified에서는 80.4점으로 Opus-4.6 Max 80.8점, DS-V4-Pro Max 80.6점과 비슷한 수준임

SWE-Pro 60.6점, SWE-Multilingual 78.3점, SciCode 53.5점, QwenSVG 1608점을 기록함

NL2repo는 Claude Code로 평가했으며, 특정 저장소 접근을 시도하는 pip download, pip install, git clone 같은 Bash 명령을 비활성화함

QwenWebDev는 영어·중국어 이중언어 프런트엔드 코드 생성 내부 벤치마크이며, 7개 범주와 자동 렌더링, 멀티모달 판정, BT/Elo 평점을 사용함

MCP-Mark에서 60.8점으로 GLM-5.1의 57.5점을 넘었고, MCP-Atlas에서 76.4점으로 Opus-4.6의 75.8점을 넘어섬

Skillsbench에서는 59.2점으로 K2.6의 56.2점을 상회함

Kernel Bench L3에서는 중앙값 1.98배 속도 향상과 96% 승률을 기록해 GPU 커널 최적화 역량을 보임

BFCL-V4 75.0점, Qwenclaw 64.3점, ClawEval 65.2점으로 Opus-4.6 Max에 근접함

SpreadSheetBench-v1에서는 87.0점을 기록해 사무 자동화 벤치마크에서도 높은 성능을 보임

QwenClawBench는 실제 사용자 분포를 반영한 Claw 에이전트 벤치마크로 오픈소스 공개됨

CoWorkBench는 컴퓨터과학, 금융, 법률, 의료 등 생산성 도메인의 장기 작업을 다루는 내부 협업 벤치마크임

GPQA Diamond에서 92.4점으로 Opus-4.6의 91.3점을 넘음

HLE에서는 41.4점으로 Opus-4.6의 40.0점을 넘고, HMMT 2026 Feb에서는 97.1점으로 Opus-4.6의 96.2점을 넘어섬

IMOAnswerBench에서는 90.0점으로 DS-V4-Pro의 89.8점을 넘고, Apex에서는 44.5점으로 DS-V4-Pro의 38.3점을 넘음

추론 시나리오에는 Reasoning effort is set to xhigh...로 시작하는 시스템 프롬프트가 권장됨

일반 역량과 다국어

IFBench에서 79.1점으로 DS-V4-Pro의 77.0점을 넘으며 정밀한 지시 따르기 성능을 보임

WMT24++에서 85.8점, MAXIFE에서 89.2점을 기록해 다국어 이해와 번역 품질에서도 강점을 보임

SuperGPQA에서는 73.6점, QwenWorldBench에서는 57.3점을 기록함

WMT24++는 더 어려운 WMT24 하위 집합이며, 55개 언어에서 XCOMET-XXL 평균 점수를 사용함

MAXIFE는 영어와 다국어 프롬프트 23개 설정의 정확도를 측정함

MMLU-ProX는 29개 언어의 평균 정확도를 사용함

평가 조건과 벤치마크 세부사항

Terminal-Bench 2.0은 Harbor/Terminus-2 하네스, 5시간 제한, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, 최대 80K 토큰, 256K 컨텍스트, 5회 평균으로 평가됨

SWE-Bench 계열은 내부 에이전트 스캐폴드와 Bash·파일 편집 도구를 사용하며, temp=1.0, top_p=0.95, 200K 컨텍스트 창으로 평가됨

SkillsBench는 OpenCode로 평가했으며, 외부 API 의존 작업 9개를 제외한 78개 작업에서 5회 평균을 사용함

MCP-Mark는 GitHub MCP v0.30.3을 사용하고 Playwright 응답을 32K 토큰에서 잘랐음

MCP-Atlas는 공개 세트 점수이며 gemini-2.5-pro 판정자를 사용함

Kernel Bench L3는 50개 문제에서 PyTorch eager 기준 대비 문제별 속도 향상의 중앙값과 torch.compile보다 빠른 문제 비율을 보고함

Kernel Bench L3의 각 테스트 샘플은 H100 80GB GPU 1개가 있는 격리 Docker 컨테이너에서 실행되며, 인터넷 접근은 CUTLASS 코드베이스와 공식 CUDA 문서로 제한됨

Kernel Bench L3는 500회 도구 호출 제한과 100회 비개선 턴 후 조기 중단을 사용하고, GPT-5.4(xhigh)로 잠재적 해킹 행동을 탐지하며, CUPTI로 커널 수준 타이밍을 측정함

MRCR-v2는 8개 바늘을 포함한 128K 컨텍스트 하위 집합이며 Google DeepMind eval_hub의 mrcr_v2 프로토콜을 채택함

협업 생산성 어시스턴트

Qwen3.7-Max는 현실 업무 생산성을 위한 고급 동료 역할을 목표로 하며, 복잡한 정보 종합, 심층 데이터 분석과 모델링, 출판 가능한 문서·시각화 생성을 수행함

주요 에이전트 하네스와 기본 호환성을 갖추고, 장기 작업에서는 자율 계획과 여러 시간 동안의 지속 실행을 지원함

수천 회의 도구 호출과 수십 회의 개선 반복을 통해 출력 품질을 점진적으로 높임

일반적으로 전문 팀이 1~2주 걸리는 복잡한 프로젝트를 몇 시간 안에 end-to-end로 완료할 수 있다고 제시함

에이전트 학습과 일반화

Qwen3.5에서 도입된 환경 스케일링 접근을 바탕으로, Qwen3.7에서는 에이전트 학습 환경의 품질과 다양성을 확장함

언어 모델이 다양한 사전학습 텍스트에서 일반화하듯, 에이전트 역량도 다양한 학습 환경에서 일반화된다는 관찰을 바탕으로 함

평가의 모든 벤치마크는 학습에 포함되지 않은 완전히 새로운 out-of-domain 환경으로 구성됨

환경 스케일링은 명확하고 일관된 개선 궤적을 만들며, Qwen3.7-Max는 Claude-4.6-Opus-Max에 근접한 상위 3위 평균 순위를 달성함

벤치마크 하위 집합의 성능 향상이 남은 벤치마크와 전체 평균의 상대적 향상을 예측할 만큼 일관돼, 벤치마크 특화 개선보다 역량 일반화를 시사함

스케일링 동역학과 방법론의 추가 분석은 향후 기술 보고서에서 다뤄질 예정임

교차 하네스 일반화

Rollout 환경 인프라는 각 학습 인스턴스를 Task, Harness, Verifier라는 세 가지 직교 구성요소로 분리함

다양한 하네스와 그 버전을 지원하며, 합성 프록시가 아니라 현실 환경에 기반한 환경을 사용함

분리 설계는 같은 작업을 다양한 하네스 유형·버전, 검증자와 최소한의 추가 비용으로 조합하는 조합적 스케일링을 가능하게 함

같은 작업을 서로 다른 하네스 구성에서 만나게 하는 교차 하네스·교차 검증자 RL 학습을 통해, 모델이 특정 하네스의 지름길이 아니라 일반화 가능한 문제 해결 전략을 학습하도록 함

QwenClawBench와 CoWorkBench에서 Qwen3.7-Max는 평가 시 사용되는 하네스와 무관하게 강하고 일관된 성능을 보임

실제 환경에서의 자기 진화

Extend Attention은 SGLang의 프로덕션급 가변 길이 멀티헤드 어텐션 연산자임

테스트 시나리오는 MTP와 함께 새로 생성된 토큰과 최대 32K 항목의 prefix KV-cache 사이의 어텐션 점수를 계산하는 LLM 서빙의 메모리 병목·지연 민감 커널을 다룸

기준 구현은 SGLang의 공식 Triton 구현임

미지의 PPU 아키텍처에서 커널 최적화

Qwen3.7-Max는 학습 중 본 적 없는 T-Head ZW-M890 PPU가 장착된 ECS 인스턴스에서 이 커널을 최적화함

사전 프로파일링 데이터, 하드웨어 문서, 해당 아키텍처용 예제 커널 없이 시작함

빈 작업공간에는 작업 설명, 기존 SGLang 구현, 평가 스크립트만 있었음

약 35시간 연속 자율 실행 동안 1,158회 도구 호출과 432회 커널 평가를 수행함

컴파일 실패 진단, 정합성 버그 수정, 런타임 프로파일링 기반 병목 식별, 커널 아키텍처 재설계를 모두 자체적으로 수행함

최종 결과는 여러 워크로드에서 Triton 기준 대비 기하평균 10.0배 속도 향상임

30시간이 지난 뒤에도 의미 있는 개선을 찾아내며 장기 자율 최적화의 생산성을 보임

Split-KV 병렬화로 prefix KV-cache를 쿼리당 여러 스레드 블록으로 나누고, online softmax rescaling으로 부분 결과를 병합하는 reduction 커널을 도입해 약 2시간 만에 0.33배에서 2.58배로 향상됨

per-call cudaMalloc/cudaFree를 사전 할당된 torch::empty 텐서로 대체하고, 동기 cudaMemcpy를 제거하며, 내부 루프를 2배 언롤링해 약 2.5시간 만에 5.37배로 향상됨

고정 split divisor를 워크로드 크기 기반 휴리스틱으로 바꾸고 36-SM 아키텍처의 SM wave occupancy를 높여 약 3시간 만에 6.85배로 향상됨

공유 메모리 배리어 제거, 레지스터 기반 K/V 로딩, persistent static tensor, batched softmax update, Q 사전 스케일링을 결합해 3~25시간 구간에서 8.50배로 향상됨

MTP γ=4 특화 커널은 블록당 4개 쿼리 토큰을 동시에 처리하고 쿼리 간 K/V 로드를 공유해 32~35시간 구간에서 10.0배에 도달함

Qwen3.7-Max는 코딩·디버깅, 사무 자동화, 수백~수천 단계 자율 실행을 겨냥한 에이전트 중심 독점 모델임

코딩·범용 에이전트·추론·다국어 평가에서 경쟁 모델과 맞붙으며, Terminal Bench 2.0-Terminus 69.7점과 GPQA Diamond 92.4점을 기록함

35시간 자율 커널 최적화에서 1,158회 도구 호출과 432회 평가를 수행해 Triton 기준 기하평균 10.0배 속도 향상을 달성함

학습 인스턴스를 Task·Harness·Verifier로 분리해 교차 하네스 RL 학습을 수행하고, 특정 하네스 지름길보다 일반화된 문제 해결을 유도함

Alibaba Cloud Model Studio를 통해 곧 API가 제공되며, Claude Code·OpenClaw·Qwen Code 등 에이전트 프레임워크와 통합 가능함

Qwen3.7-Max는 코딩 에이전트, 범용 에이전트, STEM·추론, 일반 역량, 다국어 영역에서 여러 비교 모델과 함께 평가됨

빈 셀(--)은 점수가 아직 제공되지 않았다는 뜻임

Terminal Bench 2.0-Terminus에서 69.7점을 기록해 DS-V4-Pro Max의 67.9점을 넘어섬

SWE-Verified에서는 80.4점으로 Opus-4.6 Max 80.8점, DS-V4-Pro Max 80.6점과 비슷한 수준임

SWE-Pro 60.6점, SWE-Multilingual 78.3점, SciCode 53.5점, QwenSVG 1608점을 기록함

NL2repo는 Claude Code로 평가했으며, 특정 저장소 접근을 시도하는 pip download, pip install, git clone 같은 Bash 명령을 비활성화함

QwenWebDev는 영어·중국어 이중언어 프런트엔드 코드 생성 내부 벤치마크이며, 7개 범주와 자동 렌더링, 멀티모달 판정, BT/Elo 평점을 사용함

MCP-Mark에서 60.8점으로 GLM-5.1의 57.5점을 넘었고, MCP-Atlas에서 76.4점으로 Opus-4.6의 75.8점을 넘어섬

Skillsbench에서는 59.2점으로 K2.6의 56.2점을 상회함

Kernel Bench L3에서는 중앙값 1.98배 속도 향상과 96% 승률을 기록해 GPU 커널 최적화 역량을 보임

BFCL-V4 75.0점, Qwenclaw 64.3점, ClawEval 65.2점으로 Opus-4.6 Max에 근접함

SpreadSheetBench-v1에서는 87.0점을 기록해 사무 자동화 벤치마크에서도 높은 성능을 보임

QwenClawBench는 실제 사용자 분포를 반영한 Claw 에이전트 벤치마크로 오픈소스 공개됨

CoWorkBench는 컴퓨터과학, 금융, 법률, 의료 등 생산성 도메인의 장기 작업을 다루는 내부 협업 벤치마크임

GPQA Diamond에서 92.4점으로 Opus-4.6의 91.3점을 넘음

HLE에서는 41.4점으로 Opus-4.6의 40.0점을 넘고, HMMT 2026 Feb에서는 97.1점으로 Opus-4.6의 96.2점을 넘어섬

IMOAnswerBench에서는 90.0점으로 DS-V4-Pro의 89.8점을 넘고, Apex에서는 44.5점으로 DS-V4-Pro의 38.3점을 넘음

추론 시나리오에는 Reasoning effort is set to xhigh...로 시작하는 시스템 프롬프트가 권장됨

일반 역량과 다국어

IFBench에서 79.1점으로 DS-V4-Pro의 77.0점을 넘으며 정밀한 지시 따르기 성능을 보임

WMT24++에서 85.8점, MAXIFE에서 89.2점을 기록해 다국어 이해와 번역 품질에서도 강점을 보임

SuperGPQA에서는 73.6점, QwenWorldBench에서는 57.3점을 기록함

WMT24++는 더 어려운 WMT24 하위 집합이며, 55개 언어에서 XCOMET-XXL 평균 점수를 사용함

MAXIFE는 영어와 다국어 프롬프트 23개 설정의 정확도를 측정함

MMLU-ProX는 29개 언어의 평균 정확도를 사용함

평가 조건과 벤치마크 세부사항

Terminal-Bench 2.0은 Harbor/Terminus-2 하네스, 5시간 제한, 12 CPU/24GB RAM, temp=1.0, top_p=0.95, top_k=20, 최대 80K 토큰, 256K 컨텍스트, 5회 평균으로 평가됨

SWE-Bench 계열은 내부 에이전트 스캐폴드와 Bash·파일 편집 도구를 사용하며, temp=1.0, top_p=0.95, 200K 컨텍스트 창으로 평가됨

SkillsBench는 OpenCode로 평가했으며, 외부 API 의존 작업 9개를 제외한 78개 작업에서 5회 평균을 사용함

MCP-Mark는 GitHub MCP v0.30.3을 사용하고 Playwright 응답을 32K 토큰에서 잘랐음

MCP-Atlas는 공개 세트 점수이며 gemini-2.5-pro 판정자를 사용함

Kernel Bench L3는 50개 문제에서 PyTorch eager 기준 대비 문제별 속도 향상의 중앙값과 torch.compile보다 빠른 문제 비율을 보고함

Kernel Bench L3의 각 테스트 샘플은 H100 80GB GPU 1개가 있는 격리 Docker 컨테이너에서 실행되며, 인터넷 접근은 CUTLASS 코드베이스와 공식 CUDA 문서로 제한됨

MRCR-v2는 8개 바늘을 포함한 128K 컨텍스트 하위 집합이며 Google DeepMind eval_hub의 mrcr_v2 프로토콜을 채택함

협업 생산성 어시스턴트

주요 에이전트 하네스와 기본 호환성을 갖추고, 장기 작업에서는 자율 계획과 여러 시간 동안의 지속 실행을 지원함

수천 회의 도구 호출과 수십 회의 개선 반복을 통해 출력 품질을 점진적으로 높임

일반적으로 전문 팀이 1~2주 걸리는 복잡한 프로젝트를 몇 시간 안에 end-to-end로 완료할 수 있다고 제시함

에이전트 학습과 일반화

Qwen3.5에서 도입된 환경 스케일링 접근을 바탕으로, Qwen3.7에서는 에이전트 학습 환경의 품질과 다양성을 확장함

언어 모델이 다양한 사전학습 텍스트에서 일반화하듯, 에이전트 역량도 다양한 학습 환경에서 일반화된다는 관찰을 바탕으로 함

평가의 모든 벤치마크는 학습에 포함되지 않은 완전히 새로운 out-of-domain 환경으로 구성됨

환경 스케일링은 명확하고 일관된 개선 궤적을 만들며, Qwen3.7-Max는 Claude-4.6-Opus-Max에 근접한 상위 3위 평균 순위를 달성함

벤치마크 하위 집합의 성능 향상이 남은 벤치마크와 전체 평균의 상대적 향상을 예측할 만큼 일관돼, 벤치마크 특화 개선보다 역량 일반화를 시사함

스케일링 동역학과 방법론의 추가 분석은 향후 기술 보고서에서 다뤄질 예정임

교차 하네스 일반화

Rollout 환경 인프라는 각 학습 인스턴스를 Task, Harness, Verifier라는 세 가지 직교 구성요소로 분리함

다양한 하네스와 그 버전을 지원하며, 합성 프록시가 아니라 현실 환경에 기반한 환경을 사용함

분리 설계는 같은 작업을 다양한 하네스 유형·버전, 검증자와 최소한의 추가 비용으로 조합하는 조합적 스케일링을 가능하게 함

QwenClawBench와 CoWorkBench에서 Qwen3.7-Max는 평가 시 사용되는 하네스와 무관하게 강하고 일관된 성능을 보임

실제 환경에서의 자기 진화

Extend Attention은 SGLang의 프로덕션급 가변 길이 멀티헤드 어텐션 연산자임

기준 구현은 SGLang의 공식 Triton 구현임

미지의 PPU 아키텍처에서 커널 최적화

Qwen3.7-Max는 학습 중 본 적 없는 T-Head ZW-M890 PPU가 장착된 ECS 인스턴스에서 이 커널을 최적화함

사전 프로파일링 데이터, 하드웨어 문서, 해당 아키텍처용 예제 커널 없이 시작함

빈 작업공간에는 작업 설명, 기존 SGLang 구현, 평가 스크립트만 있었음

약 35시간 연속 자율 실행 동안 1,158회 도구 호출과 432회 커널 평가를 수행함

컴파일 실패 진단, 정합성 버그 수정, 런타임 프로파일링 기반 병목 식별, 커널 아키텍처 재설계를 모두 자체적으로 수행함

최종 결과는 여러 워크로드에서 Triton 기준 대비 기하평균 10.0배 속도 향상임

30시간이 지난 뒤에도 의미 있는 개선을 찾아내며 장기 자율 최적화의 생산성을 보임

per-call cudaMalloc/cudaFree를 사전 할당된 torch::empty 텐서로 대체하고, 동기 cudaMemcpy를 제거하며, 내부 루프를 2배 언롤링해 약 2.5시간 만에 5.37배로 향상됨

고정 split divisor를 워크로드 크기 기반 휴리스틱으로 바꾸고 36-SM 아키텍처의 SM wave occupancy를 높여 약 3시간 만에 6.85배로 향상됨

공유 메모리 배리어 제거, 레지스터 기반 K/V 로딩, persistent static tensor, batched softmax update, Q 사전 스케일링을 결합해 3~25시간 구간에서 8.50배로 향상됨

MTP γ=4 특화 커널은 블록당 4개 쿼리 토큰을 동시에 처리하고 쿼리 간 K/V 로드를 공유해 32~35시간 구간에서 10.0배에 도달함

오픈클로(OpenClaw)-AI비서 자동화

게시판

공지 7

오픈클로(OpenClaw)-AI비서 자동화

Qwen3.7-Max: 에이전트 프런티어

Qwen3.7-Max: 에이전트 프런티어