상태가 없는(stateless) LLM 에이전트가 장기 과제에서 모든 정보를 늘어나는 입력 문맥에 담아야 해 추론 품질 저하와 비용·지연이 커지는 문제를 다룬다. HORMA는 요약된 개체를 원본 궤적과 연결하는 파일시스템형 계층 구조로 경험을 조직하고, 구조화 메모리 구성과 탐색 기반 검색 두 단계로 작업 기억을 분해한다. 구성 모듈은 정보 누락에 의한 실패와 과부하·오해 문맥에 의한 실패를 구분해 구조를 정교화하고, 강화학습으로 훈련된 경량 에이전트가 계층을 순회해 최소·충분한 문맥만 검색한다. ALFWorld·LoCoMo·LongMemEval에서 제약된 문맥 예산 아래 성능을 높이면서 긴 대화 과제 토큰 사용량을 기준선의 최대 22.17%로 줄였다.
- •요약 개체를 원본 궤적과 연결하는 파일시스템형 계층 메모리 에이전트 HORMA 제안
- •구조화 메모리 구성과 탐색 기반 검색의 2단계로 작업 기억 분해
- •정보 누락 실패와 과부하·오해 문맥 실패를 구분해 메모리 구조를 반복 정교화
- •ALFWorld·LoCoMo·LongMemEval에서 긴 대화 토큰 사용량을 기준선의 최대 22.17%로 절감하며 성능 향상
Organize then Retrieve: Hierarchical Memory Navigation for Efficient Agents
- 1.LLM 에이전트의 무상태성 한계를 보완하는 계층적 기억 에이전트 HORMA 제안
- 2.경험을 파일시스템형 계층 구조로 조직, 요약 엔티티를 원본 트라젝토리에 연결해 손실 없이 효율 접근
- 3.구조화 기억 구성과 내비게이션 검색 2단계로 분해, RL 경량 에이전트가 최소 충분 컨텍스트 선택
- 4.ALFWorld·LoCoMo·LongMemEval에서 베이스라인 토큰의 최대 22.17%만 쓰며 성능·효율 동시 개선
왜 중요한가?
긴 호라이즌 작업에서 컨텍스트가 커질수록 추론 품질 저하·비용·지연이 누적되는 문제를, 손실 압축이나 유사도 검색 대신 시간·인과 구조를 보존하는 계층 메모리로 해결한다. 토큰 사용량을 5분의 1 수준으로 줄이면서 성능을 높여 장기 대화·멀티스텝 에이전트의 실전 비용 효율에 직접 기여한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11680v1 Announce Type: new Abstract: Large language model (LLM) agents struggle with long-horizon tasks due to their inherent statelessness, requiring all task-relevant information to be encoded in growing input contexts. The resulting degraded reasoning quality, increased inference cost, and higher latency necessitate efficient working memory mechanisms. However, existing approaches either rely on lossy compression or similarity-based retrieval, which often fail to capture temporal
전체 내용이 궁금하다면?
원문을 직접 읽어보세요