IBM이 Apache 2.0 오픈소스 라이선스로 새로운 다국어 임베딩 모델 두 가지를 공개했습니다. 97M 파라미터 소형 모델은 MTEB 다국어 검색에서 60.3점을 기록하며 100M 미만 모델 중 최고 성능을 달성했으며, 311M 파라미터 풀사이즈 모델은 65.2점으로 개방형 500M 미만 모델 중 2위를 차지했습니다. 두 모델 모두 200개 이상의 언어와 32K 토큰 컨텍스트를 지원하며, LangChain, LlamaIndex, Haystack 등 주요 프레임워크와 원활하게 통합됩니다.
- •IBM이 Apache 2.0 오픈소스 라이선스로 다국어 임베딩 모델 두 가지(97M, 311M 파라미터)를 출시했습니다.
- •97M 소형 모델은 100M 미만 모델 중 MTEB 다국어 검색 최고점(60.3)을 달성했으며, 311M 풀사이즈 모델은 65.2점으로 개방형 모델 중 2위입니다.
- •두 모델 모두 200개 이상의 언어, 32K 토큰 컨텍스트, 9개 프로그래밍 언어 코드 검색을 지원합니다.
- •LangChain, LlamaIndex, Haystack, Milvus 등 주요 AI 프레임워크와 원활히 통합되며 ONNX/OpenVINO도 지원합니다.
- •311M 모델은 매트로시카 표현 학습(MRL)을 지원해 임베딩 차원을 768에서 128까지 품질 손실 없이 축소할 수 있습니다.
Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality
- 1.IBM이 Apache 2.0 라이선스로 다국어 임베딩 모델 Granite R2(97M·311M) 2종 공개
- 2.97M 모델은 MTEB 다국어 검색 60.3점으로 1억 파라미터 이하 오픈 모델 중 최고 성능 달성
- 3.32K 토큰 컨텍스트(R1 대비 64배)와 9개 프로그래밍 언어 코드 검색 지원
- 4.LangChain·LlamaIndex·Haystack·Milvus와 단 한 줄 변경으로 바로 연동 가능
왜 중요한가?
기업용 다국어 RAG 시스템에서 성능과 효율을 동시에 확보할 수 있는 오픈 임베딩 모델이 등장해 상용 API 의존도를 낮출 현실적 대안이 생겼다. 법적·보안 제약으로 외부 API 사용이 어려운 환경에서 특히 주목할 만하다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요