이 논문은 추천 시스템의 필터 버블과 의미적 동질화 문제를 해결하기 위한 다목적 강화학습 프레임워크를 제안한다. 즉각적 참여만 단일 목적으로 최적화하는 기존 DQN은 플랫폼 유지율과 정보 다양성·제공자 공정성 같은 사회적 가치 사이의 트레이드오프를 다루지 못한다. 제안 방법은 추천을 의미적 다목적 마르코프 결정과정으로 정식화하고, 고품질 의미 임베딩과 Pareto-DQN 에이전트를 결합해 참여·다양성·공정성을 합산 불가능한 별개의 보상 신호로 취급함으로써 정적 보상 스칼라화의 함정을 피한다. MovieLens 소규모 데이터셋 실험에서 하이퍼볼륨 기반 행동 선택이 의미적 붕괴를 일으키는 피드백 루프를 끊었고, 높은 상태-궤적 분산을 유지해 참여 손실은 미미한 채 다양성·공정성 등 사회적 보조 목표에서 이득을 얻으며 파레토 경계를 효과적으로 매핑했다.
- •추천을 의미적 다목적 마르코프 결정과정(MDP)으로 정식화
- •참여·다양성·공정성을 합산 불가능한 별개 보상으로 처리해 스칼라화 함정 회피
- •의미 임베딩과 Pareto-DQN 결합으로 파레토 경계 매핑
- •하이퍼볼륨 기반 행동 선택이 의미적 붕괴 피드백 루프를 차단
- •참여 손실을 최소화하면서 다양성·공정성 등 사회적 목표 개선
Breaking the Filter Bubble: A Semantic Pareto-DQN Framework for Multi-Objective Recommendation
본문 미리보기
arXiv:2606.24042v1 Announce Type: new Abstract: Recommender systems often induce filter bubbles and semantic homogenization by monolithically optimizing for immediate user engagement. Standard single-objective models, including traditional Deep Q-Networks, are ill-equipped to navigate the trade-offs between platform retention and critical societal values like information diversity and provider fairness. To address these limitations, we introduce a multi-objective reinforcement learning framewor
전체 내용이 궁금하다면?
원문을 직접 읽어보세요