Reachy Mini 로봇의 대화 스택을 클라우드 없이 완전 로컬로 실행하는 방법을 단계별로 안내한다. speech-to-speech 라이브러리가 제공하는 VAD → STT → LLM → TTS 캐스케이드 파이프라인을 활용하며, 권장 기본 구성은 Silero VAD v5, Parakeet-TDT STT, llama.cpp + Gemma 4 LLM, Qwen3-TTS이다. LLM 레이어는 llama.cpp, vLLM, MLX, Transformers, HF Inference Endpoints 등 Responses API를 구현한 어떤 백엔드로도 교체 가능하며, Realtime API 호환 WebSocket(/v1/realtime)을 통해 로봇과 연결한다. 오디오가 외부로 전송되지 않아 프라이버시를 보호하고 API 비용이 없으며, Hub에 새 모델이 공개될 때마다 파이프라인을 즉시 업그레이드할 수 있다.
- •speech-to-speech 라이브러리가 VAD→STT→LLM→TTS 캐스케이드를 Realtime API 호환 WebSocket으로 노출해, URL만 로컬로 바꾸면 Reachy Mini와 연결된다.
- •권장 기본 스택: Silero VAD v5(CPU), Parakeet-TDT STT(영어 최적화), llama.cpp+Gemma 4(-fa on, --swa-full), Qwen3-TTS(다국어·저지연).
- •LLM 백엔드는 llama.cpp, vLLM(≥0.21.0), MLX, Transformers, HF Inference Endpoints, OpenAI 등 Responses API 구현체라면 교체 가능하다.
- •vLLM 사용 시 --enable-auto-tool-choice, --tool-call-parser, thinking 비활성화 세 플래그가 필수이며, MTP 투기적 디코딩으로 지연 단축 가능.
- •전체 파이프라인이 로컬 실행되어 오디오가 외부에 전송되지 않고 API 비용 없이 Hub 최신 모델로 자유롭게 교체할 수 있다.
Reachy Mini goes fully local
- 1.Reachy Mini 로봇 음성 대화 파이프라인 완전 로컬화 — 클라우드 서버 전송 없이 온디바이스 동작
- 2.VAD(Silero v5)→STT(Parakeet-TDT)→LLM(Gemma 4)→TTS(Qwen3-TTS) 캐스케이드 파이프라인 오픈소스 제공
- 3.llama.cpp·vLLM·MLX·Transformers 등 복수 LLM 백엔드 지원, 각 스테이지 자유 교체 가능
- 4.오디오 외부 전송 차단·API 비용 제로·파이프라인 커스터마이즈 등 세 가지 장점 동시 확보
왜 중요한가?
엣지 AI 로봇에서 음성 대화를 완전 로컬로 구동하는 오픈소스 레퍼런스 스택이 처음 등장함으로써, 프라이버시·비용 문제로 클라우드 음성 API 도입이 어려웠던 산업·의료·교육 로봇 분야에 즉시 적용 가능한 기술 경로가 열렸다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요