PaddleOCR가 경량 다국어 OCR 모델군 PP-OCRv6를 Hugging Face에 공개했다. tiny(1.5M)·small(7.7M)·medium(34.5M) 세 등급으로 나뉘며, small·medium은 중국어 간·번체, 영어, 일본어 등 50개 언어를 단일 모델군에서 지원한다. 자체 멀티시나리오 벤치마크에서 medium은 검출 Hmean 86.2%, 인식 정확도 83.2%로 PP-OCRv5_server 대비 검출 +4.6%p, 인식 +5.1%p 향상됐다. 통합 백본 PPLCNetV4, 다중 스케일 검출용 RepLKFPN, 인식용 EncoderWithLightSVTR을 새로 도입했고 Transformers·ONNX Runtime·Paddle Inference 백엔드를 지원한다. 작은 모델 크기와 유연한 배포 옵션으로 엣지부터 서버까지 실서비스 OCR을 폭넓게 적용할 수 있다.
- •세 등급(tiny 1.5M, small 7.7M, medium 34.5M)으로 구성되며 small·medium은 50개 언어를 지원
- •medium 등급은 검출 Hmean 86.2%, 인식 정확도 83.2% 달성
- •PP-OCRv5_server 대비 검출 +4.6%p, 인식 +5.1%p 정확도 개선
- •통합 백본 PPLCNetV4, 검출용 RepLKFPN, 인식용 EncoderWithLightSVTR 신규 적용
- •Transformers·ONNX Runtime·Paddle Inference 백엔드와 safetensors·ONNX 등 다양한 포맷을 Hugging Face Hub에서 제공
PP-OCRv6 on Hugging Face: 50-Language OCR from 1.5M to 34.5M Parameters
- 1.PaddleOCR가 PP-OCRv6 공개, 1.5M~34.5M의 tiny·small·medium 3개 티어 구성
- 2.medium은 탐지 Hmean 86.2%·인식 83.2%, PP-OCRv5_server 대비 +4.6%p·+5.1%p 개선
- 3.small·medium은 중국어·영어·일본어 등 50개 언어를 단일 모델로 지원
- 4.PPLCNetV4 백본에 RepLKFPN(탐지)·EncoderWithLightSVTR(인식) 적용
왜 중요한가?
VLM이 부상하는 시기에도 1.5M~34.5M의 소형 모델로 서버급 정확도를 넘어서며, 엣지·모바일·서버까지 동일 모델 패밀리로 커버해 다국어 OCR을 위한 별도 모델 운영 부담을 줄인다. Hugging Face에 safetensors·ONNX 등 다양한 포맷으로 제공돼 문서 파싱·RAG 파이프라인에 바로 통합할 수 있다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요
