COLAGUARD는 다단계 안전 추론을 연속 잠재 공간으로 이전시켜 추론 효율성과 안전성을 동시에 높이는 가드레일 모델이다. 단계별 훈련 커리큘럼으로 숨겨진 상태 전파를 직접 활용해, 8개 안전 벤치마크 10개 설정에서 Llama Guard 3 대비 macro-F1 8.24점 향상, 명시적 추론 기준선 GuardReasoner와 동등한 F1을 달성하면서 12.9배 속도 향상과 22.4배 토큰 사용량 감소를 이뤘다. 잠재 추론이 안전성과 추론 효율성을 경쟁 목표 없이 동시에 개선하는 실용적 대안임을 보여준다.
- •COLAGUARD는 단계별 훈련 커리큐럼으로 다단계 안전 추론을 잠재 공간에 내재화해 추론 시 숨겨진 상태를 직접 활용한다.
- •Llama Guard 3 대비 macro-F1 8.24점 향상, 명시적 추론 기준선(GuardReasoner)과 동등한 F1을 달성하면서 12.9배 속도 향상·22.4배 토큰 사용량 감소를 기록했다.
- •8개 안전 벤치마크 10개 설정에서 프롬프트·응답 조정 모두 평가해 일관된 성능 우위를 확인했다.
- •잠재 추론은 안전 강건성과 추론 효율성을 경쟁 목표가 아닌 상호 보완 목표로 동시에 달성 가능함을 보여준다.
Robust and Efficient Guardrails with Latent Reasoning
- 1.COLAGUARD는 다단계 안전 추론을 연속 잠재 공간에 이전해 추론 기반 가드레일의 고지연·고토큰 비용 문제 해결
- 2.8개 안전 벤치마크에서 Llama Guard 3 대비 macro-F1 8.24점 향상, GuardReasoner와 동등한 성능
- 3.명시적 추론 기준선 대비 12.9배 속도 향상, 토큰 사용량 22.4배 감소
왜 중요한가?
안전성과 추론 성능을 동시에 달성하기 위해 높은 지연·토큰 비용을 감수해야 했던 추론 기반 가드레일의 트레이드오프를 잠재 공간 추론으로 타파해, 고처리량 LLM 배포 환경에서 실용적인 안전 솔루션의 가능성을 열었다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.29068v1 Announce Type: new Abstract: Maintaining the safety of large language models (LLMs) is crucial as they are increasingly deployed in real-world applications. Existing safety guardrails typically rely on single-pass classification or, more recently, distilled reasoning. Reasoning-based guardrails significantly outperform classification-only baselines, but they incur substantial query latency and token overhead that make them impractical for highthroughput deployment. To address
전체 내용이 궁금하다면?
원문을 직접 읽어보세요