JetBrains가 12B 파라미터 Mixture-of-Experts 모델 Mellum2를 오픈소스(Apache 2.0)로 공개했다. 토큰당 2.5B 파라미터만 활성화하는 MoE 아키텍처 덕분에 동급 크기 모델 대비 2배 이상 빠른 추론 속도를 제공한다. 라우팅·오케스트레이션, RAG 파이프라인, 서브에이전트, 프라이빗 배포 등 지연 시간에 민감한 소프트웨어 엔지니어링 워크로드를 위해 설계됐으며, 코드와 자연어를 모두 지원한다. 단일 프론티어 모델에 의존하는 모놀리식 구조 대신, 고빈도 중간 작업을 빠르고 저렴하게 처리하는 "focal 모델"로서 멀티 에이전트 AI 스택의 핵심 구성 요소가 될 수 있다.
- •12B 총 파라미터 중 토큰당 2.5B만 활성화하는 MoE 구조로 동급 오픈 모델 대비 2배 이상 빠른 추론 속도 달성
- •라우팅·오케스트레이션, RAG 파이프라인, 서브에이전트 등 AI 시스템 내 지연 민감 중간 작업에 최적화된 'focal 모델'로 포지셔닝
- •코드 완성 전용이었던 Mellum 1세대를 확장해 자연어·소프트웨어 엔지니어링 전반으로 적용 범위 넓힘
- •Apache 2.0 라이선스로 Hugging Face 공개; 기술 리포트(arXiv 2605.31268)에서 벤치마크·아키텍처 세부 사항 확인 가능
Introducing Mellum2: A 12B Mixture-of-Experts Model by JetBrains

- 1.JetBrains가 12B MoE 모델 Mellum2 공개 — 토큰당 2.5B 파라미터만 활성화, Apache 2.0 오픈 라이선스
- 2.동급 오픈 모델 대비 2배 이상 빠른 추론 속도로 고처리량·저지연 워크로드에 최적화
- 3.라우팅·RAG·서브에이전트·코드 완성 등 멀티모델 AI 시스템 내 중간 컴포넌트 역할 특화
- 4.프라이빗 배포 지원으로 사내 코드·내부 데이터 환경에서도 활용 가능, HuggingFace 공개
왜 중요한가?
대형 추론 모델 없이도 라우팅·RAG 등 반복·저지연 작업을 처리하는 효율적 오픈 모델로, 멀티에이전트 AI 스택 비용과 지연시간을 실질적으로 낮출 수 있다. 소프트웨어 엔지니어링 특화 인프라 설계에서 MoE 경량 모델의 현실적 선택지가 된다.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요