Z.AI가 장기 과제(long-horizon)에 특화한 플래그십 모델 GLM-5.2를 MIT 라이선스로 공개했다. 처음으로 안정적인 1M 토큰 컨텍스트를 제공하며, 4개 희소 어텐션 레이어마다 인덱서를 공유하는 IndexShare로 1M 컨텍스트에서 토큰당 FLOPs를 2.9배 줄이고, MTP 레이어 개선으로 추측 디코딩 수용 길이를 최대 20% 늘렸다. 코딩 성능에서 GLM-5.1을 크게 앞서 Terminal-Bench 2.1 81.0(이전 63.5), SWE-bench Pro 62.1을 기록했고 FrontierSWE에서 Opus 4.8에 1% 차로 근접하는 등 오픈소스 모델 중 최고 순위를 차지했다. High·Max 사고 노력(effort) 레벨로 성능과 비용을 조절할 수 있게 했으며, slime 인프라 기반 에이전트 RL과 코딩 보상 해킹을 막는 anti-hack 모듈을 도입했다. Opus급 성능의 개방형 모델이 등장했다는 점에서 의미가 크다.
- •GLM-5.2는 안정적 1M 토큰 컨텍스트와 MIT 오픈소스 라이선스(지역 제한 없음)를 제공하는 Z.AI의 플래그십 장기과제 모델이다
- •IndexShare로 4개 레이어마다 인덱서를 공유해 1M 컨텍스트에서 토큰당 FLOPs를 2.9배 절감했다
- •MTP 레이어에 IndexShare·KVShare·거부 샘플링·종단간 TV 손실을 적용해 추측 디코딩 수용 길이를 20% 향상시켰다
- •Terminal-Bench 2.1 81.0(GLM-5.1 63.5), SWE-bench Pro 62.1로 오픈소스 최고 성능이며 FrontierSWE에서 Opus 4.8에 1% 차로 근접했다
- •High·Max effort 레벨로 성능·지연·비용을 조절하고, slime 기반 에이전트 RL과 보상 해킹 방지 anti-hack 모듈을 적용했다
GLM-5.2: Built for Long-Horizon Tasks
- 1.Z.AI가 플래그십 GLM-5.2 공개, 1M 토큰 컨텍스트와 장기 과제 처리력을 MIT 라이선스로 오픈
- 2.Terminal-Bench 2.1 81.0점(GLM-5.1 63.5)으로 오픈소스 1위, Claude Opus 4.8(85.0)에 근접
- 3.IndexShare로 4개 레이어가 인덱서 공유해 1M 길이 토큰당 FLOPs 2.9배 절감, MTP 수용길이 20%↑
- 4.FrontierSWE서 Opus 4.8에 1%차·GPT-5.5 앞서 오픈모델 1위, High/Max effort 레벨 조절 지원
왜 중요한가?
오픈 웨이트 모델이 1M 토큰 컨텍스트와 장기 코딩 에이전트 벤치마크(FrontierSWE·PostTrainBench)에서 폐쇄형 프런티어 Claude Opus 4.8에 근접·일부 GPT-5.5를 앞섰다는 점에서, 자체 호스팅으로 고성능 코딩 에이전트를 구축하려는 팀에 실질적 대안이 된다.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요