Allen AI가 혼합 전문가(MoE) 모델인 EMO를 공개했습니다. EMO는 1조 토큰으로 사전 학습된 14B 파라미터(1B 활성) 모델로, 인간이 정의한 도메인 없이 데이터에서 모듈 구조가 자연 발생합니다. 문서 단위 라우팅 제약을 통해 같은 문서의 토큰들이 동일한 전문가 풀을 공유하도록 하여, 전체 전문가의 12.5%만 사용해도 전체 모델 대비 약 3% 성능 하락에 그칩니다. 이를 통해 수학·코드·의료 등 특정 도메인에 최적화된 경량 배포가 가능하며, 모델 가중치와 학습 코드가 공개되었습니다.
- •EMO는 14B 파라미터(1B 활성) MoE 모델로, 사전 학습 시 인간이 정의한 도메인 없이 모듈 구조가 데이터에서 자연 발생
- •전체 전문가의 12.5%만 사용해도 전체 모델 대비 약 3% 성능 하락에 그쳐 메모리 효율적인 배포 가능
- •문서 단위 라우팅 제약으로 토큰들이 의미론적 클러스터를 형성하며, 표준 MoE 대비 훨씬 의미 있는 모듈화 달성
- •모델 가중치, 표준 MoE 기준선, 학습 코드 및 인터랙티브 시각화 도구를 모두 공개
EMO: Pretraining mixture of experts for emergent modularity

- 1.EMO는 사전학습 중 도메인별 전문가 모듈이 창발적으로 형성되는 새로운 MoE 모델
- 2.전체 전문가의 12.5%만 선택 사용해도 완전 모델 대비 성능 저하가 약 3%에 불과함
- 3.문서 단위 전문가 풀 공유 제약으로 의미론적 도메인 기반 클러스터가 자연스럽게 학습됨
- 4.AllenAI가 1B 활성·14B 총 파라미터 모델·코드·시각화 도구를 오픈소스로 공개
왜 중요한가?
기존 MoE는 전체 모델이 필요했으나 EMO는 태스크별 소수 전문가만으로 성능을 유지해 대규모 모델의 메모리 효율과 유연한 배포를 실현한다. AI 인프라 비용 절감과 맞춤형 모델 배포에 직접적인 영향을 미치는 연구 성과다.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요