기존 Shapley 기반 데이터 값은 데이터가 극히 적은 환경에서 저가치 데이터 제거에 최적화되지 않음을 보였습니다. 이를 해결하기 위해 제약 데이터 가치 극대화(CDVM) 기법을 제안하며, 전체 영향력 극대화와 과도한 기여 패널티를 동시에 고려하는 제약 최적화로 소량 데이터 환경에서 강인한 성능을 달성합니다. OpenDataVal 벤치마크에서 강인한 성능과 경쟁력 있는 실행 속도를 보였습니다.
- •기존 Shapley 기반 데이터 값은 소량 데이터 환경에서 저가치 데이터 제거에 최적화되지 않습니다.
- •CDVM은 전체 영향력 극대화와 과도한 기여 패널티를 동시 고려하는 제약 최적화 방식을 사용합니다.
- •OpenDataVal 벤치마크에서 강인한 성능과 경쟁력 있는 실행 속도를 달성했습니다.
Constraint-Data-Value-Maximization: Utilizing Data Attribution for Effective Data Pruning in Low-Data Environments
- 1.데이터 귀인을 활용한 저데이터 환경 프루닝을 위한 CDVM 접근법 소개
- 2.기존 Shapley 기반 데이터 값이 소량 데이터 환경에서 최적이 아님을 실증
- 3.제약 최적화로 총 영향력 최대화하면서 과도한 기여를 패널티화
- 4.OpenDataVal 벤치마크에서 강력한 성능과 경쟁력 있는 런타임 기록
왜 중요한가?
데이터가 부족한 환경에서 모델 학습을 위한 최적 데이터 선별 방법을 개선하여, 효율적인 ML 시스템 구축에 실질적 도움을 제공한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.11312v1 Announce Type: new Abstract: Attributing model behavior to training data is an evolving research field. A common benchmark is data removal, which involves eliminating data instances with either low or high values, then assessing a model's performance trained on the modified dataset. Many existing studies leverage Shapley-based data values for this task. In this paper, we demonstrate that these data values are not optimally suited for pruning low-value data when only a limited
전체 내용이 궁금하다면?
원문을 직접 읽어보세요