기존 머신 언러닝 검증이 출력 수준(멤버십 추론·정확도)에만 집중해 모델 내부 표현에 남은 잔류 영향을 놓치는 문제를 해결하고자 표현 수준 검증 지표 RULER를 제안한다. 오라클 비교 지표 M2와 오라클 없는 M4로 구성되며, 4가지 근사 언러닝 방법이 출력 수준 평가를 통과하지만 M2는 12개 조건 중 10개에서 유의미한 잔류를 감지(p<0.05)했다. 얼굴 인식 모델에서 어떤 방법도 정체성 수준 기억을 완전히 제거하지 못함을 보였다.
- •M2는 망각 세트 레코드의 표현 위치를 재훈련 모델과 오라클 비교해 잔류 영향을 측정한다.
- •M4는 재훈련 없이 내부 유사도 구조만으로 잔류를 탐지하는 사전 진단 지표다.
- •4가지 근사 언러닝 방법 모두 출력 수준 평가를 통과했으나 M2는 12개 조건 중 10개에서 잔류를 감지했다(p<0.05).
- •얼굴 인식 모델에서 어떤 방법도 정체성 수준 기억을 완전히 제거하지 못함을 확인했다.
RULER: Representation-Level Verification of Machine Unlearning
- 1.RULER: 머신 언러닝 효과를 출력 수준이 아닌 내부 표현 수준에서 검증하는 메트릭 세트 제안
- 2.4개 언러닝 방법 모두 출력 평가 통과 but 표현 메트릭 M2로 12개 중 10개 조건에서 잔차 탐지(p<0.05)
- 3.오라클 없는 M4로 안면인식 모델에서 어떤 방법도 완전히 지우지 못한 정체성 기억 탐지
왜 중요한가?
출력 수준 평가를 통과해도 내부 표현에 망각 정보가 잔존함을 실증해 머신 언러닝 검증 방법론에 근본적 문제를 제기한다. GDPR 삭제권 구현의 신뢰성 평가에 직결되는 연구다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.27569v1 Announce Type: new Abstract: Machine unlearning aims to remove the influence of specific training records from a deployed model without retraining from scratch. Current protocols verify this at the output level through membership inference, retain accuracy, and forget-set accuracy, but a model can satisfy all three whilst still encoding forgotten records in its intermediate representations. We introduce RULER, a set of representation-level verification metrics. The oracle-com
전체 내용이 궁금하다면?
원문을 직접 읽어보세요