데이터 요약 단계를 표적으로 한 적대적 공격과 방어를 DR-부분모듈러(submodular) 최적화 관점에서 분석한 연구다. 다중 해상도 이미지 요약 목적함수를 비음수 부분모듈러 집합함수의 다중선형 확장으로 정식화하고, 유사도 구조에 대한 하나의 교란으로 여러 요약 모델을 동시에 무력화하는 다중 표적 공격을 min-max 문제로, 이에 대한 강건 방어를 정규화된 max-min 문제로 설계했다. 실험에서 제안 공격은 낮은~중간 예산 영역에서 효과적으로 하류 작업 성능을 떨어뜨렸고, 방어 기법은 강건성-완화 트레이드오프를 개선했다. 예측 모델뿐 아니라 데이터 처리 파이프라인 상류의 신뢰성도 AI 안전성의 핵심임을 보여준다.
- •다중 해상도 이미지 요약 목적함수를 비음수 부분모듈러 함수의 다중선형 확장으로 정식화하고 m-약단조성 DR-부분모듈러 성질을 입증
- •하나의 유사도 구조 교란으로 복수 요약 모델을 동시에 저하시키는 다중 표적 공격을 min-max 문제로 구성
- •혼합 공격 유형에 대한 강건 방어를 정규화된 max-min 문제로 설계하고 이론적 보장이 있는 근사 알고리즘 제시
- •실데이터·군집 벤치마크에서 공격은 저~중 예산에서 하류 작업 성능 손실을 유발, 방어는 강건성-완화 트레이드오프를 개선
Toward Trustworthy AI: Multi-Target Adversarial Attacks and Robust Defenses for Continuous Data Summarization
- 1.데이터 요약 단계를 노린 적대적 공격 연구로, 상류 교란이 하류 학습 성능까지 저하시킴을 제시
- 2.다중 해상도 이미지 요약을 비음수 서브모듈러 함수의 다선형 확장으로 정식화, m-약단조 DR-서브모듈러성 입증
- 3.다중 표적 공격은 min-max, 강건 방어는 정규화된 max-min 문제로 정식화하고 이론적 보장 근사 알고리즘 개발
- 4.저~중 예산 공격이 효과적이며 방어는 강건성-완화 트레이드오프를 개선, 실데이터 파라미터 민감성도 드러냄
왜 중요한가?
신뢰 가능한 AI 논의가 주로 하류 예측 모델의 강건성에 집중돼 온 가운데, 데이터 요약이라는 상류 단계가 새로운 공격 표면이 될 수 있음을 형식적으로 보인 점이 새롭다. 요약 결과가 왜곡되면 후속 학습 전체가 오염되므로 데이터 파이프라인 보안 설계에 새로운 방어 지점을 제시한다.
본문 미리보기
arXiv:2606.11804v1 Announce Type: new Abstract: Trustworthy AI requires reliable data-processing pipelines, not only robust downstream predictive models. As an upstream component, data summarization determines which information is retained and passed to subsequent learning or decision modules. Therefore, adversarial perturbations to the summarization process can compromise trustworthy AI in an upstream manner: they may alter the selected summary, reduce its representativeness, and further degra
전체 내용이 궁금하다면?
원문을 직접 읽어보세요