실제 다중 턴 인간-모델 대화 200건을 기반으로 LLM의 감성 지능을 평가하는 AttuneBench 벤치마크를 소개했다. 참여자들이 감정 상태, 모델 행동, 선호 응답을 턴별로 주석 처리했으며, 11개 모델 평가 결과 감정 인식·행동 분류·선호 예측·응답 품질 순위가 독립적으로 분해됨을 확인했다. 감성 지능은 감정 레이블 정확도보다 특정 사용자가 원하는 맥락적 응답 유형을 예측하는 능력임을 강조한다.
- •실제 다중 턴 대화 200건과 턴별 사용자 주석을 활용한 AttuneBench 감성 지능 벤치마크 소개
- •11개 모델 평가에서 감정 인식·행동 분류·선호 예측·응답 품질 순위가 독립적으로 분리되는 다차원적 역량 확인
- •선호 정렬과 응답 품질 판단이 감정 레이블 정확도보다 모델 변별력이 훨씬 높음
- •감성 지능은 특정 사용자의 맥락적 응답 요구를 예측하는 능력으로, 단일 턴·합성 형식으로는 직접 측정 불가
AttuneBench: A Conversation-Based Benchmark for LLM Emotional Intelligence
- 1.AttuneBench: 200개 실제 다중 턴 인간-모델 대화에 기반한 LLM 감성 지능 평가 벤치마크 제안
- 2.11개 모델 평가 결과: 감정 인식·행동 분류·선호 예측·응답 품질에 대한 모델 순위가 독립적으로 분리됨
- 3.선호 정렬 및 응답 품질 판단이 감정 레이블 정확도보다 모델 차별 능력이 훨씬 뛬어난
- 4.감정 지능 행동은 분리가능한 역량들로 구성되며 에이전트 설계시 단순 감정 인식 이상의 개인 맥락 이해 필요
왜 중요한가?
LLM이 일상 대화 에이전트로 활용되는 상황에서 감성 지능을 단일 지표로 측정하는 기존 접근의 한계를 드러내며, 사용자별 맥락 적응 능력이 진정한 감성 지능의 핵심임을 구체적 데이터로 입증한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.21739v1 Announce Type: new Abstract: Emotional intelligence (EI), the ability to perceive, understand, and respond appropriately to others' emotional states, is central to human communication, and increasingly important to assess as LLMs assume conversational roles in everyday life. Existing EI benchmarks rely on synthetic prompts, single-turn cases, or third-party annotation. These approaches do not directly measure how models infer and respond to a participant's emotional state ove
전체 내용이 궁금하다면?
원문을 직접 읽어보세요