RLVR 사후 훈련을 위한 개체군 기반 비대칭 자기 대결 프레임워크 PopuLoRA를 소개한다. 교사와 학생이 공유 동결 기반 모델의 특화된 LoRA 어댑터로 작동하며, 교사는 문제를 출제하고 학생은 풀며 프로그래밍 검증기가 채점한다. 단일 에이전트 자기 보정 한계를 극복해 교사-학생 공진화 군비 경쟁을 유도하고, HumanEval+·MBPP+·AIME 등 코드·수학 벤치마크 10개에서 기준선을 모두 상회했다.
- •교사(문제 출제)와 학생(풀이)이 공유 기반 모델의 LoRA 어댑터로 공진화하는 PopuLoRA 제안
- •LoRA 가중치 공간 진화 연산자로 초 단위에 동일 랜크 개체군 구성원 생성
- •교사-학생 공진화 군비 경쟁으로 단일 에이전트의 자기 보정 한계 극복
- •코드·수학 벤치마크 10개에서 기준선 전부 상회, 가장 약한 개체군 멤버도 기준선 이김
PopuLoRA: Co-Evolving LLM Populations for Reasoning Self-Play
- 1.PopuLoRA: LoRA 어댑터 교사-학생 집단이 공진화하는 비대칭 자기 대결 강화학습 프레임워크
- 2.단일 에이전트 자기보정 한계를 집단 내 교차 평가로 극복하여 더 복잡한 문제 생성 유도
- 3.HumanEval+, MBPP+, AIME 등 10개 벤치마크에서 단일 에이전트 기준 모델 대비 우수한 성능 달성
왜 중요한가?
LLM 후훈련에서 자기 보정의 한계를 집단 기반 공진화로 극복하는 접근법으로, 코딩·수학 추론 능력의 새로운 확장 방향을 제시한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.16727v1 Announce Type: new Abstract: We introduce PopuLoRA, a population-based asymmetric self-play framework for reinforcement learning with verifiable rewards (RLVR) post-training of LLMs. Teachers and students are specialised LoRA adapters on a shared frozen base: teachers propose problems, matched students solve them under a programmatic verifier, and cross-evaluation between sub-populations replaces the self-calibration that limits single-agent self-play. A family of LoRA weight
전체 내용이 궁금하다면?
원문을 직접 읽어보세요