프롬프트 어조가 LLM 정확도에 미치는 영향을 50개 기본 질문(5개 어조)과 57개 과목 570개 MMLU 부분집합(7개 어조)으로 ChatGPT-4o, ChatGPT-5-nano, Gemini 2.5 Flash, Gemini 2.5 Flash Lite 4개 모델에서 체계적으로 평가했다. 어조 효과는 체계적이지만 모델에 따라 편차가 크고, 일부 모델은 작지만 통계적으로 유의미한 변동을 보인 반면 다른 모델은 어조에 따라 정확도가 크게 변동했다. 과목 수준에서도 어조 민감도 차이가 확인되며, 어조가 LLM 내부 추론 모드를 조율한다는 라우팅 프레임워크를 제시해 배포 시 어조에 따른 신뢰성 변동 가능성에 주의해야 함을 경고한다.
- •ChatGPT-4o·ChatGPT-5-nano·Gemini 2.5 Flash·Gemini 2.5 Flash Lite 4개 모델에서 5~7가지 어조 변형 프롬프트로 정확도 변화를 측정했다.
- •어조 효과는 모델별로 크게 달라 일부는 작지만 통계적으로 유의미한 변동을, 다른 모델은 어조에 따른 대규모 정확도 변동을 보였다.
- •과목 수준에서도 어조 민감도 차이가 확인되며, 어조가 모델의 내부 추론 모드를 조율할 수 있다는 라우팅 프레임워크로 해석했다.
- •LLM 배포 시 어조에 따른 신뢰성 변동 가능성을 간과하지 말아야 함을 사용자에게 경고한다.
Mind Your Tone: Does Tone Alter LLM Performance?
- 1.ChatGPT-4o·ChatGPT-5-nano·Gemini 2.5 Flash·Lite 4개 모델에 어조 변형 프롬프트 실험
- 2.어조 효과는 체계적이나 모델별로 크게 상이 — 일부 모델은 어조에 따라 큰 정확도 변동 발생
- 3.과목별 어조 민감도 차이 확인, 어조가 LLM 내부 추론 모드를 조율한다는 라우팅 프레임워크 제시
왜 중요한가?
동일 내용의 프롬프트도 어조에 따라 LLM 정확도가 달라질 수 있어 어조 일관성이 신뢰성의 전제 조건임을 시사 — 모델 비교 평가 및 프롬프트 엔지니어링 실무에 직접적 함의를 갖는다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.29027v1 Announce Type: new Abstract: The use of Large Language Models (LLMs) is proliferating, yet their performance is observed to vary based on prompting styles and tones. In this study, we investigate both whether and how tonal variations in prompts lead to disparate LLM accuracy for objective multiple-choice questions. We use two datasets: a 50-base question dataset with five tone variants and a 570-base question MMLU subset spanning 57 subjects with seven tone variants. Experime
전체 내용이 궁금하다면?
원문을 직접 읽어보세요