Alibaba가 Qwen3.6-35B-A3B를 공개했다. 3.5와 동일한 하이브리드 아키텍처(40 레이어·256 experts·MoE·GatedDeltaNet+Full Attention 3:1)를 유지하면서 '금붕어 뇌' 문제 해결에 집중한 마이너 업데이트다. 핵심 3가지: (1) preserve_thinking 파라미터로 이전 턴의 reasoning trace를 유지해 다턴 에이전트의 loop-and-repeat 실패를 제거, (2) Multi-Token Prediction으로 셀프 드래프트 스펙큘레이티브 디코딩 지원(구조화 출력에서 2~3x 속도), (3) 에이전트·코딩·instruction-following 성능 개선. Terminal-Bench 2.0 +11점, NL2Repo +8.9점, SWE-bench Verified 73.4%(Claude Opus 4.7보다 14점 낮지만 Apache 2.0·로컬 24GB GPU 가능). 벤치마크는 전부 자체 보고이고 MMLU-Pro는 정체 — 범용 지식 개선이 아닌 에이전트 특화 업그레이드임을 명확히 한다.
- •preserve_thinking 파라미터로 이전 턴 reasoning trace를 유지 — 다턴 에이전트의 '같은 추론 반복' 실패 구조적 제거.
- •Multi-Token Prediction 셀프 드래프트 스펙큘레이티브 디코딩으로 구조화 출력에서 2~3x 처리량 개선.
- •35B total / 3B active MoE(256 experts 중 9개 활성) + 40레이어 3:1 DeltaNet:FullAttention 하이브리드.
- •SWE-bench Verified 73.4% (Claude Opus 4.7 87.6%와 14점 갭) 자체 보고, Apache 2.0 + 24GB GPU로 로컬 배포.
- •정적 YaRN 한계로 혼합 워크로드는 '네이티브 262K'와 'YaRN 1M' 두 인스턴스 분리 권장.
Your AI Agent Is Goldfish-Brained. Qwen3.6–35B-A3B Is the Fix.

- 1.Qwen3.6는 '금붕어 뇌' 문제 해결에 집중한 에이전트 특화 업그레이드.
- 2.preserve_thinking 파라미터로 다턴 에이전트가 이전 reasoning을 유지하는 구조적 개선.
- 3.MTP 셀프 드래프트 스펙큘레이티브 디코딩으로 구조화 출력 2~3배 처리량 개선.
- 4.SWE-bench 73.4%로 Claude Opus 4.7(87.6%)과 14점 차 — Apache 2.0 + 24GB GPU로 로컬 대안.
- 5.MMLU-Pro 정체가 보여주는 포지셔닝: 범용 지식 모델이 아닌 에이전트 특화 모델.
왜 중요한가?
자체 호스팅 오픈 모델이 '기억력 있는 에이전트'라는 실용적 문제를 아키텍처 기능으로 다루기 시작했다. Claude/GPT의 독점 에이전트 메모리 기능 대체재가 Apache 2.0으로 등장하면서 엔터프라이즈·프라이버시 민감 워크로드의 로컬화 가능성이 커졌다. SGLang MTP + 로컬 24GB GPU 조합은 '토큰 비용 vs 인프라 비용' 의사결정을 전환시킬 수 있다.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요