Soro: A Lightweight Foundation Model and Chatbot for Tajik | AIChainDay

🇰🇷 한국어 요약by Claude · 2026. 5. 28.

타지키스탄의 제한된 컴퓨팅·연결 환경에 특화된 타지크어 LLM 패밀리 Soro를 공개한다. Gemma 3 체크포인트를 출발점으로 1.9B 토큰 말뭉치로 지속 사전학습하고 4만 건 교사 스타일 예시로 지시 튜닝했으며, Hugging Face에 공개된 타지크어 벤치마크 스위트에서 동일 크기 Gemma 3 기준선을 크게 상회했다. FP8·INT4 양자화로 엣지 배포를 지원해 타지키스탄 학교 교육 파일럿에 실제 적용 중이다.

•타지크 웹 텍스트·PDF·교육 자료로 구성된 1.9B 토큰 말뫙치로 Gemma 3을 지속 사전학습했다.
•4만 건 교사 스타일 지시 튜닝 예시로 대화형 성능을 강화했다.
•자체 개발한 타지크어 벤치마크(Hugging Face 공개)에서 동급 Gemma 3 기준선을 크게 상회했다.
•FP8·INT4 양자화로 메모리 요구량을 줄여 타지키스탄 학교 엣지 배포를 지원한다.

AI2026년 5월 28일AI 점수: 95%

Soro: A Lightweight Foundation Model and Chatbot for Tajik

출처:arXiv cs.AI

✨ AI 인사이트

🧑‍💻 개발자👥 일반

1.Soro: Gemma 3 기반 타지크어 특화 LLM, 19억 토큰 말뭉치로 지속 사전학습 + 4만 건 지도학습
2.타지크어 벤치마크(일반 지식·언어·입시)에서 동규모 Gemma 3 대비 큰 격차로 우위
3.FP8·INT4 양자화로 엣지 배포 지원, 타지키스탄 교육 분야 파일럿 진행 중

💡

왜 중요한가?

디지털 자원이 극히 부족한 타지크어에 대한 고품질 LLM을 오픈소스로 공개하고 실제 교육 현장 파일럿으로 검증함으로써, 저자원 언어의 LLM 개발 방법론과 엣지 배포 가능성을 보여주는 사례다.

🏷️ 언급 프로젝트

Soro Gemma 3

📝 AIChainDay 편집노트왜 이 기사를 골랐나

타지크어에 특화된 경량 LLM 및 챗봇 'Soro'의 개발 사례는 컴퓨팅 자원 및 네트워크 제약이 있는 환경에서 파운데이션 모델을 효율적으로 활용하는 방법을 보여줍니다. 이는 국내 기업들이 특정 도메인이나 서비스 환경에 최적화된 한국어 LLM을 구축하거나, 해외 틈새시장 공략 시 참고할 수 있는 중요한 전략적 시사점을 제공합니다.

본문 미리보기

arXiv:2605.27379v1 Announce Type: new Abstract: We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning o

전체 내용이 궁금하다면?

원문을 직접 읽어보세요

원문 보기