병렬 LLM 테스트 타임 스케일링(best-of-N)에서 N개 시퀀스가 서로 참조하지 못하는 독립성 문제를 해결하는 LaneRoPE를 제안한다. 시퀀스 간 어텐션 마스크와 시퀀스 내외 상대 위치를 동시에 포착하는 RoPE 확장으로 생성 시 시퀀스 간 협조를 가능하게 한다. 수학 추론 과제에서 제한된 시퀀스 길이 하에 추가적인 정확도 향상을 달성했으며, 기존 LLM 아키텍처에 최소 변경과 무시할 수 있는 추론 오버헤드로 적용 가능하다.
- •시퀀스 간 어텐션 마스크로 N개 병렬 시퀀스가 생성 중 서로 정보를 참조할 수 있게 한다.
- •RoPE를 확장해 시퀀스 내부 및 시퀀스 간 상대 위치를 모두 인코딩한다.
- •수학 추론 과제에서 제한된 시퀀스 길이 하에 병렬 best-of-N 대비 정확도가 향상됐다.
- •기존 LLM 아키텍처에 최소 변경과 무시할 수 있는 추론 오버헤드로 적용 가능하다.
LaneRoPE: Positional Encoding for Collaborative Parallel Reasoning and Generation
- 1.LaneRoPE: 병렬 LLM 추론(best-of-N)에서 N개 시퀀스가 서로 협력·조율하는 새로운 위치 인코딩 방법
- 2.시퀀스 간 어텐션 마스크와 내·외 상대 위치 인코딩 RoPE 확장 두 가지 핵심 아이디어
- 3.수학 추론에서 제한된 시퀀스 길이 내 추가 정확도 향상, 아키텍처 변경 최소·추론 오버헤드 무시 수준
왜 중요한가?
기존 best-of-N이 N개 시퀀스를 독립 생성해 중간 계산을 재활용하지 못하던 비효율을 시퀀스 간 협력으로 해결, 기존 LLM 추론 파이프라인에 즉시 통합 가능한 수준의 변경만으로 정확도를 높인다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.27570v1 Announce Type: new Abstract: Parallel LLM test-time scaling techniques (e.g., best-of-$N$) require drawing $N>1$ sequences conditioned on the same input prompt. These methods boost accuracy while exploiting the computational efficiency of batching $N$ generations. However, each sequence in the batch is traditionally generated independently and hence does not reuse intermediate generations, computations, or observations from other sequences. In this paper, we propose LaneRoPE
전체 내용이 궁금하다면?
원문을 직접 읽어보세요