타지키스탄의 제한된 컴퓨팅·연결 환경에 특화된 타지크어 LLM 패밀리 Soro를 공개한다. Gemma 3 체크포인트를 출발점으로 1.9B 토큰 말뭉치로 지속 사전학습하고 4만 건 교사 스타일 예시로 지시 튜닝했으며, Hugging Face에 공개된 타지크어 벤치마크 스위트에서 동일 크기 Gemma 3 기준선을 크게 상회했다. FP8·INT4 양자화로 엣지 배포를 지원해 타지키스탄 학교 교육 파일럿에 실제 적용 중이다.
- •타지크 웹 텍스트·PDF·교육 자료로 구성된 1.9B 토큰 말뫙치로 Gemma 3을 지속 사전학습했다.
- •4만 건 교사 스타일 지시 튜닝 예시로 대화형 성능을 강화했다.
- •자체 개발한 타지크어 벤치마크(Hugging Face 공개)에서 동급 Gemma 3 기준선을 크게 상회했다.
- •FP8·INT4 양자화로 메모리 요구량을 줄여 타지키스탄 학교 엣지 배포를 지원한다.
Soro: A Lightweight Foundation Model and Chatbot for Tajik
본문 미리보기
arXiv:2605.27379v1 Announce Type: new Abstract: We present Soro, a family of Tajik-specialized conversational large language models (LLMs) designed for real-world deployment under tight compute and connectivity constraints in Tajikistan. Starting from open-weight Gemma 3 checkpoints, we perform Tajik-only continual pretraining on a curated 1.9-billion-token corpus spanning filtered web text, PDF documents, and curriculum-aligned educational materials, followed by supervised instruction tuning o
전체 내용이 궁금하다면?
원문을 직접 읽어보세요