OCE(Orthogonal Concept Erasure)는 기존 편집 기반 확산 모델 개념 제거 방법의 핵심 한계인 가산적 파라미터 업데이트 문제를 직교 변환으로 해결한다. 개념 의미가 뉴런 방향에, 전체 생성 능력이 뉴런 각도 기하학에 의존한다는 분석을 바탕으로, 닫힌 형식 해에서 도출한 레이어별 직교 변환을 파라미터에 적용해 개념 방향만 선택적으로 변경한다. 단일 및 다중 개념 제거 실험에서 기존 방법보다 제거 정확도와 비대상 개념 보존 모두 우수했으며, 100개 개념을 4.3초 만에 지울 수 있어 확장성도 뛰어나다.
- •기존 가산적 파라미터 업데이트는 방향·크기·각도 기하학을 얽히게 해 개념 제거와 생성 능력 보존 사이 충돌이 발생한다는 핵심 문제를 규명했다.
- •OCE는 닫힌 형식 해에서 도출한 레이어별 직교 변환을 적용해 뉴런 방향(개념 의미)만 바꾸고 크기·각도 기하학(생성 능력)을 보존한다.
- •다중 개념 제거 시 부분 공간 수준 목표와 구조적 조작으로 충돌하는 제약을 효과적으로 해결한다.
- •100개 개념을 4.3초 만에 제거하며 기존 방법 대비 제거 정확도와 비대상 보존 모두에서 우수한 성능을 실험으로 입증했다.
Orthogonal Concept Erasure for Diffusion Models
- 1.기존 편집 기반 개념 소거의 가산적 업데이트가 개념 방향·크기·각도 기하학을 뒤엉키게 해 성능 저하 유발
- 2.OCE는 폐쇄형 해 기반 레이어별 직교 변환으로 뉴런 크기·각도 보존하면서 정밀한 개념 소거
- 3.100개 개념을 4.3초 만에 소거하며 비대상 생성 품질 보존에서 기존 방법 대비 우수한 성능
왜 중요한가?
확산 모델에서 유해·저작권 개념을 정밀하게 제거하면서도 전반적 생성 품질을 유지하는 OCE는 기존 방법의 효율성-정밀도 트레이드오프를 구조적으로 해결해 프로덕션 배포에 직접 활용 가능하다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.28902v1 Announce Type: new Abstract: Concept erasure has emerged as a promising approach to mitigate undesired or unsafe content in diffusion models, yet existing methods still face significant limitations. While training-based methods are effective, their high computational cost limits scalability. Editing-based methods are more efficient and deployment-friendly, yet they struggle to simultaneously achieve precise concept erasure and preserve overall generative capacity. We identify
전체 내용이 궁금하다면?
원문을 직접 읽어보세요