MLUBench는 멀티모달 대규모 언어모델(MLLM)에서 데이터 삭제 요청이 시간에 따라 순차적으로 들어오는 '평생 언러닝(Lifelong Unlearning)' 상황을 평가하는 대규모 벤치마크로, 9개 클래스 127개 엔티티를 포함한다. 실험 결과 기존 언러닝 기법들은 요청이 누적될수록 성능이 심각하게 저하됐으며, 특히 한 모달리티에서 계속 삭제하면 멀티모달 정렬이 깨져 모델 전체가 망가지는 고유한 문제가 드러났다. 저자들은 이를 완화하는 LUMoE 기법을 제안해 기존 베이스라인의 누적 저하를 크게 줄였다. 데이터 소유자의 삭제권 행사가 늘어나는 상황에서 MLLM 언러닝의 한계와 실용적 대안을 동시에 보여준다.
- •9개 클래스·127개 엔티티로 구성된 MLLM 평생 언러닝 평가 벤치마크 MLUBench 공개
- •기존 언러닝 기법은 순차 삭제 요청이 누적될수록 심각하고 누적적인 성능 저하를 보임
- •한 모달리티에서의 반복 삭제가 멀티모달 정렬을 훼손해 모델 전체를 저하시키는 고유 문제 규명
- •제안 기법 LUMoE가 베이스라인 대비 누적 저하를 크게 완화
- •코드와 데이터셋을 GitHub에 오픈소스로 공개
MLUBench: A Benchmark for Lifelong Unlearning Evaluation in MLLMs
- 1.MLLM 평생 언러닝 평가용 벤치마크 MLUBench 공개, 9개 클래스 127개 엔티티로 구성
- 2.기존 언러닝 기법들이 순차 삭제 요청에서 심각한 누적 성능 저하를 보임을 확인
- 3.멀티모달 정렬 유지 제약이 단일모달과 다른 고유 난제임을 규명
- 4.제안 기법 LUMoE가 기존 베이스라인의 성능 저하를 크게 완화
왜 중요한가?
데이터 삭제 요청이 순차적으로 누적되는 실제 환경에서 멀티모달 모델의 언러닝이 한 모달리티 삭제만으로 모델 전체를 망가뜨릴 수 있음을 보이고, 정렬 보존형 해법을 제시해 프라이버시·규제 대응에 실질적 단서를 준다.
국내 개인정보보호법 등 엄격한 데이터 규제 환경에서 멀티모달 LLM(MLLM)의 데이터 삭제 요청은 중요한 과제입니다. 'MLUBench'는 이러한 '지속적 망각(lifelong unlearning)' 성능을 평가하는 벤치마크로, 국내 AI 기업들이 규제 준수와 사용자 신뢰를 확보하는 데 필수적인 기술 방향을 제시합니다.
본문 미리보기
arXiv:2606.12809v1 Announce Type: new Abstract: Multimodal large language models (MLLMs) are trained on massive multimodal data, making data unlearning increasingly important as data owners may request the removal of specific content. In practice, these requests often arrive sequentially over time, giving rise to the challenging problem of MLLM Lifelong Unlearning. However, most existing benchmarks are limited in scale and scope, failing to capture the complexities of MLLM lifelong unlearning.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요