긴 문맥 추론 수요가 늘지만 자기어텐션(SA)은 문맥 길이에 제곱으로 비용이 증가한다. SWARR은 사전학습된 SA 모델을 슬라이딩 윈도우 어텐션(SWA)으로 지도학습(SFT) 변환한 뒤 강화학습(RL)으로 정책을 적응시키는 2단계 기법이다. SFT만으로는 SWA가 여전히 SA에 뒤처지는데, 저자들은 이를 장거리 의존성을 가진 SA용 학습 데이터와 SWA 구조의 불일치 탓으로 본다. 자기 생성 궤적을 SWA 제약 아래 최적화하는 온폴리시 RL이 이 격차를 크게 좁혀, 선형 복잡도의 효율을 유지하면서 변환 시 잃었던 정확도를 상당 부분 회복했다. RL이 변환·SFT만으로 내릴 결론(SWA의 수학 추론 적합성)을 뒤집는다는 점이 핵심 발견이다.
- •사전학습 SA 모델을 SFT로 SWA 변환 후 RL로 정책 적응시키는 2단계 기법 SWARR 제안
- •SFT만으로는 SWA가 SA에 못 미치며, 원인을 SA용 데이터와 SWA 구조의 불일치로 분석
- •온폴리시 RL이 SWA 제약에 맞게 궤적을 적응시켜 변환 시 손실된 정확도를 상당 회복
- •선형 복잡도 효율을 유지하면서 SA와의 격차를 크게 축소, RL이 SWA 적합성 결론을 뒤집음을 실증
Architecture-Aware Reinforcement Learning Makes Sliding-Window Attention Competitive in Math Reasoning
- 1.슬라이딩 윈도 어텐션(SWA)을 수학 추론에 적응시키는 실용 레시피 SWARR 제안
- 2.사전학습 SA 모델을 SFT로 SWA로 전환 후 강화학습으로 정책 적응하는 2단계 구성
- 3.SFT만으로는 SWA가 SA에 못 미치며 원인을 SA용 데이터의 장거리 의존성 불일치로 진단
- 4.수학 벤치마크에서 RL이 SWA-SA 격차를 크게 좁혀 선형 복잡도 효율 유지하며 정확도 회복
왜 중요한가?
셀프어텐션이 문맥 길이에 제곱으로 늘어 장문 추론 비용이 급증하는 문제에서, 선형 복잡도 SWA의 실용성을 RL로 끌어올렸다. SFT만 보면 SWA가 부적합해 보이지만 on-policy RL이 결론을 바꾼다는 실증은 효율적 장문 추론 모델 설계에 중요한 시사점이다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11634v1 Announce Type: new Abstract: The rapid progress of reasoning and agentic large language models (LLMs) has increased the demand for long-context inference, but self-attention (SA) scales quadratically with context length. To address this, we study SWARR (Sliding-Window Attention with Reinforced Adaptation for Math Reasoning), a practical recipe for adapting SWA models to mathematical reasoning. SWARR has two stages: (1) efficient conversion from a pretrained SA model to SWA
전체 내용이 궁금하다면?
원문을 직접 읽어보세요