POLAR은 장기 사용자 상호작용에 걸쳐 구현 에이전트를 개인화하는 멀티모달 메모리 증강 프레임워크다. 이전 상호작용을 의미 기억(개인화 맥락·시각 개념)과 에피소딕 기억(에이전트 궤적)을 포함한 멀티모달 지식 그래프로 조직화한다. 현재 요청 실행 시 관련 기억을 검색해 암묵적으로 지정된 목표를 해석하고 태스크 실행을 안내한다. 여러 MLLM 백본과 다양한 평가 시나리오에서 일관된 성능 향상을 보였으며, 특히 다중 상호작용 추론·멀티홉 추론·사용자 특화 맥락 추적에서 효과가 두드러졌다.
- •POLAR: 의미 기억(개인화 맥락·시각 개념)과 에피소딕 기억(에이전트 구조)을 멀티모달 지식 그래프로 조직화.
- •가새한 목표 지정(과거 상호작용으로만 표현된 대상)을 처리하기 위해 관련 기억을 검색해 현재 요청 해석에 활용.
- •여러 MLLM 백본에서 일관된 성능 향상. 다중 상호작용 추론·멀티홉 추론·사용자 특화 맥락 추적에서 효과 특히 두드러짔.
- •구현(embodied) 에이전트의 장기 개인화를 위한 기억 메커니즘의 역할과 구체적 설계 방향 제시.
Personalizing Embodied Multimodal Large Language Model Agents over Long-term User Interactions
- 1.POLAR: MLLM 체화 에이전트의 장기 개인화를 위한 멀티모달 지식 그래프 기반 프레임워크 제안
- 2.의미 기억(개인화 컨텍스트·시각 개념)과 에피소딩 기억(에이전트 트래젝토리)을 통합 관리
- 3.다중 MLLM 백본에서 기억 메커니즘이 장기 개인화 성능을 일관되게 향상시킴
- 4.멀티홉 추론·사용자별 컨텍스트 업데이트 추적 태스크에서 특히 큰 성능 향상
왜 중요한가?
단기 인스트럭션 팔로잉에서 장기 개인화 어시스턴트로의 진화에 멀티모달 지식 그래프가 효과적임을 실증해, 가정용 로봇·개인 비서 AI 개발에 실질적 청사진을 제공한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.26256v1 Announce Type: new Abstract: Multimodal large language model (MLLM)-based embodied agents have shown strong potential for solving complex tasks in physical environments. However, personalized assistance requires more than following generic instruction or recognizing object categories. In real-world scenarios, the intended target is often specified only implicitly through prior interactions, requiring agents to leverage personalized context accumulated over time. In this work,
전체 내용이 궁금하다면?
원문을 직접 읽어보세요