ServiceNow-AI가 이중언어 사용자의 코드스위칭(문장 중간 언어 전환) 음성을 프론티어 ASR 모델이 얼마나 잘 인식하는지 평가하는 벤치마크와 데이터셋을 공개했다. 스페인어·프랑스어·캐나다 프랑스어·독일어와 영어를 섞은 HR·ITSM 시나리오 음성을 WER, 의미적 WER(SWER), 답변 오류율(AER) 세 지표로 측정했다. 평가 결과 ElevenLabs Scribe V2, Gemini 3 Flash, AssemblyAI Universal 3-Pro가 최상위권을 차지했고, OpenAI Whisper는 코드스위칭 음성을 영어로 번역해버려 최하위였다. 오류는 의외로 영어 구간에 집중됐으며, 언어 전환 횟수는 오류 발생 여부를, 혼합 밀도(CMI)는 오류 크기를 예측했다. 음성 에이전트를 도입하는 기업은 실제 고객이 쓰는 언어쌍으로 직접 벤치마크해야 함을 시사한다.
- •스페인어·프랑스어·캐나다 프랑스어·독일어-영어 4개 언어쌍, 총 918개 코드스위칭 음성 레코드로 구성된 벤치마크 공개(AU-Harness로 배포)
- •ElevenLabs Scribe V2가 전사 정확도(WER)와 의미 지표(SWER·AER) 모두에서 1위, AssemblyAI·Gemini 3 Flash가 뒤를 이음
- •Whisper Large V3 Turbo는 언어 미지정 시 영어로 번역해버려 최하위, German-English에서 영어 대비 WER +0.85 악화
- •언어 전환 횟수는 오류 발생을, Code-Mixing Index는 오류 크기를 예측하는 핵심 변수
- •오류가 매트릭스 언어가 아닌 영어 구간에 집중되는 반직관적 패턴이 모든 모델·언어쌍에서 일관되게 관찰됨
Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech
- 1.ServiceNow-AI가 코드스위칭(언어 혼용) 발화용 ASR 벤치마크·데이터셋 공개, 4개 언어쌍 평가
- 2.ElevenLabs Scribe V2가 WER·SWER·AER 전 지표 1위, AssemblyAI·Gemini 3 Flash가 뒤이음
- 3.Whisper Large V3 Turbo는 혼용 음성을 영어로 번역해버려 최하위 기록
- 4.전사 오류는 영어 구간에 집중되며, 언어 전환 횟수가 오류 발생의 최강 예측 변수
왜 중요한가?
양국어를 섞어 쓰는 고객을 음성 에이전트가 제대로 처리하는지 ASR 단계에서 실증한 기업용 벤치마크다. 최상위 모델은 단일어 대비 성능 저하가 작아 코드스위칭이 더는 치명적 난제가 아님을 보여주지만, 모델·언어쌍별 편차가 커 기업은 실제 고객 언어로 직접 검증해야 한다.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요