이 연구는 스트리밍 음성인식 모델을 새 언어로 적응시킬 때 다국어(ML) 인코더와 영어 전용(EN) 인코더 중 무엇으로 워밍업해야 하는지를 통제 실험으로 규명한다. 6억 파라미터 캐시 인지 FastConformer 트랜스듀서를 8개 유럽 언어, 100~2500시간의 데이터 규모, 3개 스트리밍 단계와 오프라인 디코딩에 걸쳐 분석했다. 핵심 결과는 다국어 초기화가 지연(latency) 제약이 아니라 데이터 제약 상황에서 오는 이점이라는 것이다. FLEURS 160ms에서 EN-ML 단어오류율(WER) 격차 평균이 100시간 +4.21%p에서 2500시간 +0.20%p로 줄었고, 데이터가 두 배가 될 때마다 남은 이점이 대략 절반으로 감소하는 거듭제곱 법칙을 따랐다. 4비트 가중치 양자화는 인코더 크기를 약 3배 줄이면서 WER은 평균 0.5%p만 증가시켰다. 저데이터에서는 다국어 초기화를 쓰고, 대규모 데이터에서는 선택이 무의미하며, 지연·양자화는 독립적으로 결정하라는 지침을 제시한다.
- •다국어 초기화는 지연이 아닌 데이터 제약 상황의 이점임을 규명
- •FLEURS 160ms에서 EN-ML WER 격차가 100시간 +4.21%p에서 2500시간 +0.20%p로 감소
- •데이터 2배마다 남은 이점이 절반으로 줄어드는 거듭제곱 법칙
- •4비트 양자화로 인코더 크기 약 3배 축소, WER은 평균 0.5%p 증가에 그침
- •저데이터엔 다국어 초기화, 대규모엔 선택 무관, 지연·양자화는 독립 결정 권고
Data Scale, Not Latency, Shapes Cross-Lingual Encoder Transfer in Streaming ASR
본문 미리보기
arXiv:2606.24169v1 Announce Type: new Abstract: Adapting a streaming speech recognition model to a new language requires choosing between two plausible warm starts: a multilingual (ML) encoder or an English-only (EN) encoder. The common intuition is that the multilingual encoder should help most at low data, but it is unclear how long that advantage persists, whether tight streaming latency amplifies it, and whether it survives deployment quantization. We answer these questions with a controlle
전체 내용이 궁금하다면?
원문을 직접 읽어보세요