지도 서비스에 통합된 LLM 에이전트가 사용자의 비명시적 요구('암묵적 의사결정 요인')를 사전에 회복하는 능력을 평가하는 벤치마크 MapSatisfyBench를 제안했다. 일상 지도 질의는 모호해 불특정 요구가 많은데, 매번 명확화를 묻는 것은 부담이므로 에이전트가 가용 정보에서 먼저 요인을 찾아야 한다. 연구진은 '복원-식별-필터' 프레임워크로 행동 사슬 증거에서 완전한 요구를 재구성하고, 질의 이전 증거로 뒷받침되는 요인만 남겨 대규모 실제 익명 데이터로 벤치마크를 구축했다. 실험 결과 현재 에이전트는 명시적 과제 완수는 잘하지만 암묵적 요인 충족과 능동적 증거 획득에는 한계를 보였다.
- •지도 에이전트가 사용자의 암묵적 의사결정 요인을 사전에 회복하는 능력을 평가하는 MapSatisfyBench 제안
- •'복원-식별-필터' 프레임워크로 행동 사슬 증거에서 요구를 재구성, 질의 이전 증거로 뒷받침되는 요인만 보존
- •대규모 실제 익명 사용자 데이터로 구축, 5개 차원에서 정답 주석
- •현재 에이전트는 명시적 과제 완수는 우수하나 암묵 요인 충족·능동적 증거 획득에 한계
MapSatisfyBench: Benchmarking Satisfaction-Aware Map Agents through Behavior-Grounded Implicit Decision Factors
- 1.지도 서비스 에이전트의 암묵적 의사결정 요인 충족도를 평가하는 'MapSatisfyBench' 제안
- 2.복원-식별-필터 프레임워크로 행동 사슬 증거서 사용자 필요를 재구성·사전증거만 유지
- 3.실제 익명 사용자 데이터로 5개 차원 정답 주석, 만족도 요인을 정량 평가 목표로 전환
- 4.현 에이전트는 명시적 과제는 잘하나 암묵적 요인 충족·증거 능동 확보엘 한계
왜 중요한가?
사용자가 비공식적으로 표현하는 미명세 질의가 많은 지도 서비스에서, 평가 기준을 단순 과제 완수에서 만족도 인식형 공간 의사결정으로 전환하는 벤치마크를 마련했다.
🏷️ 언급 프로젝트
사용자 만족도를 고려하는 지도 에이전트의 벤치마킹은 국내 내비게이션 및 위치 기반 서비스 시장에 중요한 영향을 미칠 것입니다. 일상생활 속 비공식적인 사용자 요구를 정확히 이해하고 만족시키는 AI는 서비스 경쟁력 강화와 사용자 경험 향상에 결정적인 역할을 합니다.
본문 미리보기
arXiv:2606.17453v1 Announce Type: new Abstract: Large language model agents are increasingly integrated into map services. Since map services are embedded in everyday-life scenarios rather than professional task settings, users often express their needs informally, resulting in underspecified queries with many unspoken needs, namely, implicit decision factors that are critical for user satisfaction. Although clarification is an effective way to mitigate this issue, it increases user burden in d
전체 내용이 궁금하다면?
원문을 직접 읽어보세요
