HOPE 기반 중첩 학습 아키텍처(CMS)와 시맨틱 유사도 캐싱을 결합한 3단계 에이전트 파이프라인(OFP)을 310개 벤치마크 프롬프트에 적용해 환각 완화 효과를 측정했다. 5가지 가중치 구성에서 THS(Total Hallucination Score)가 -31.3~-35.9% 감소했으며, 시맨틱 캐싱은 930회 잠재 호출 중 440회(47.3%) 캐시 히트로 LLM 호출을 490회로 줄여 에너지·CO2e 발자국을 절감했다. ExtremeObservability 구성이 가장 낮은 THS(-0.0709)를 달성해, 관찰 가능성 강화가 환각 완화를 저해하지 않고 오히려 강화함을 확인했다.
- •FrontEndAgent(온도=1.0)·SecondLevelReviewer·ThirdLevelReviewer의 3단계 비대칭 파이프라인이 5가지 가중치 구성에서 THS를 -31.3~-35.9% 감소시켰다.
- •시맨틱 캐싱이 47.3% 히트율(440/930)로 LLM 호출을 490회로 줄여 에너지·CO2e 절감과 생산 규모 운영 가능성을 동시에 달성했다.
- •FCD·FGR·FDF·ECS·OSR 5개 KPI를 THS로 집계해 완화-관찰 가능성 트레이드오프를 체계적으로 분석하는 평가 프레임워크를 제시했다.
- •ExtremeObservability 구성이 가장 낙은 THS(-0.0709)를 달성해, 관찰 가능성 강화가 환각 완화를 저해하지 않고 오히려 강화함을 확인했다.
Hallucination Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching
- 1.HOPE 기반 중첩 학습과 의미적 캐싱을 결합한 3단계 에이전트 파이프라인이 환각 점수를 최대 35.9% 감소
- 2.310개 프롬프트 벤치마크에서 5개 KPI 기반 THS 측정, ExtremeObservability 설정이 최고 효과 달성
- 3.의미적 캐싱이 LLM 호출 47.3% 캐시 히트로 감소 — 에너지·CO2e 절감하며 멀티 스테이지 파이프라인 실용화
왜 중요한가?
모델 재학습 없이 메모리 증강 다중 에이전트 설계만으로 사실 신뢰성·운영 효율·감사 가능성을 동시에 개선할 수 있음을 보여, 프로덕션 LLM 시스템의 환각 대응에 실용적 로드맵을 제시한다.
본문 미리보기
arXiv:2605.29055v1 Announce Type: new Abstract: Hallucination remains a major reliability barrier for production LLM systems, particularly in multi-agent pipelines where unsupported claims can propagate unchecked across stages. This paper adapts a HOPE-inspired Nested Learning architecture with Continuum Memory Systems (CMS) and semantic similarity caching to a hybrid benchmark of 310 prompts combining 217 epistemic-uncertainty prompts and 93 fabrication-induction stress-test prompts. A three-s
전체 내용이 궁금하다면?
원문을 직접 읽어보세요