텍스트에서 인간 가치를 탐지·정량화하는 LLM 기반 모듈형 아키텍처를 제안한다. 특정 가치 이론이나 복잡한 프롬프트 엔지니어링에 구애받지 않고, 가치 명세 생성·명세 기반 레이블링·수사적·의미론적 지지/저항 강도 점수화의 세 모듈로 구성된다. ValueEval 데이터셋으로 검증해 좋은 탐지 성능을 확인했으며, 자율 AI 시스템의 윤리적 의사결정 정렬 연구에 범용적으로 활용 가능하다.
- •가치 명세 생성·레이블링·강도 점수화의 세 모듈을 분리해 특정 이론이나 프롬프트 없이 범용 적용 가능하다.
- •어떤 가치 이론 기반 텍스트에서도 가치 명세를 자동 생성해 재현 가능한 파이프라인을 구성한다.
- •ValueEval 데이터셋 실험에서 양호한 탐지 성능을 확인했다.
Identifying and Understanding Human Values in Text: A Tailorable LLM-based Architecture
- 1.텍스트에서 인간 가치를 탐지·정량화하는 LLM 기반 3모듈 아키텍처 제안
- 2.가치 사양 생성·레이블링·강도 측정 모듈 분리로 특정 이론·복잡한 프롬프트에 종속 탈피
- 3.ValueEval 데이터셋에서 여러 LLM 인스턴스로 평가, 파이프라인 범용성 확인
왜 중요한가?
기존 가치 탐지 접근이 특정 이론 프레임워크에 묶여 재현성·확장성이 낮았던 한계를 모듈 분리 아키텍처로 극복, AI 정렬 및 자율 시스템의 윤리 판단 기능 구현에 바로 활용 가능한 구조를 제시한다.
본문 미리보기
arXiv:2605.27373v1 Announce Type: new Abstract: As intelligent systems become more autonomous, the scientific community focuses on creating decision-making mechanisms that include ethical and moral considerations, unlike traditional utility-maximisation models. To achieve this, a key aspect is assessing how well these decisions align with human values. To this end, a promising line of research is centred on developing approaches based on Large Language Models (LLMs) to identify human values fro
전체 내용이 궁금하다면?
원문을 직접 읽어보세요