MemTrace: Probing What Final Accuracy Misses in Long-Term Memory
- 1.LLM 장기기억을 '지식 포인트' 단위로 평가하는 벤치마크 'MemTrace' 제안
- 2.기억 연령·질문 유형·증거 조건 3차원으로 각 사실의 거동 추적
- 3.13개 메모리 구성·4개 패러다임 평가서 동일 정확도가 서로 다른 실패를 은폐함을 발견
- 4.주요 병목은 검색이 아닌 증거 활용: 실패 시 증거는 누락보다 10배 자주 검색 가능했음
왜 중요한가?
질문 행 단위 정확도 집계가 같은 사실의 상태 변화 추적 실패를 가렸음을 드러내며, 장기기억 개선이 저장·검색 확대가 아닌 도달 가능한 증거의 활용에 달려 있음을 시사한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.17328v1 Announce Type: new Abstract: LLM agents increasingly maintain long-term memory of user facts across sessions. Yet such memory is usually evaluated by aggregating accuracy over question rows or episodes. Because this approach scores question rows independently, even when several questions probe the same fact, it cannot show how that fact behaves as conditions change. We introduce MemTrace, a benchmark whose unit of measurement is the knowledge point: a single typed fact about
전체 내용이 궁금하다면?
원문을 직접 읽어보세요