MindZero는 다중 모달 LLM(MLLM)의 Theory of Mind(ToM) 능력을 강화하기 위한 자기 지도 강화학습 프레임워크로, 정신 상태 주석 없이 훈련한다. 모델은 관찰된 행동의 가능도를 최대화하는 정신 상태 가설을 생성하도록 보상받으며, 학습 후에는 이 추론이 단일 패스 추론으로 내재화된다. 그리드월드 및 가정 환경의 정신 추론·AI 보조 태스크에서 LLM 단독 및 모델 기반 방법보다 정확도와 효율성 모두에서 유의미하게 우수한 성능을 보였다.
- •인간의 정신 상태를 행동에서 추론하는 ToM 능력을 명시적 정신 상태 주석 없이 자기 지도 학습으로 획득한다.
- •학습 중 모델 기반 ToM 추론이 단일 패스 빠른 추론으로 내재화되어 실시간 보조에 적합한 효율성을 확보한다.
- •LLM 단독 사용은 ToM에 불충분하며, 모델 기반 방법은 정확하지만 느리고 비용이 크다는 기존 한계를 MindZero가 극복한다.
- •그리드월드 및 가정 환경 벤치마크에서 모델 기반 방법 대비 정확도와 효율성 양면 모두 유의미하게 우수한 성능을 달성했다.
MindZero: Learning Online Mental Reasoning With Zero Annotations
- 1.MindZero: 주석 없이 학습
- 2.ToM 기반 인간 정신 상태 추론
- 3.AI 에이전트 실세계 지원
왜 중요한가?
주석 없이 인간의 정신 상태를 추론하는 '마음 이론(Theory of Mind)' 능력은 AI 에이전트가 더 자연스럽고 효과적으로 인간과 상호작용하며 실질적인 도움을 제공하는 데 필수적입니다. 이는 AI의 사회적 지능을 크게 향상시킬 수 있습니다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.00240v1 Announce Type: new Abstract: Effective real-world assistance requires AI agents with robust Theory of Mind (ToM): inferring human mental states from their behavior. Despite recent advances, several key challenges remain, including (1) online inference with robust uncertainty updates over multiple hypotheses; (2) efficient reasoning suitable for real-time assistance; and (3) the lack of ground-truth mental state annotations in real-world domains. We address these challenges by
전체 내용이 궁금하다면?
원문을 직접 읽어보세요