Hugging Face 팀이 로컬 오픈웨이트 모델(Gemma·Qwen)을 에이전트 하네스에 넣어 OpenClaw 저장소의 이슈·PR을 실시간 무료로 분류·라우팅하는 시스템 'localpager'를 공개했다. 클라우드 모델 대신 128GB NVIDIA GB10(DGX Spark)에서 gemma-4-26b-a4b와 qwen3.6-35b-a3b를 구동해 전기료만으로 거의 즉각적인 Discord 알림을 구현한다. 핵심은 '에이전트 분류(agentic classification)'로, 모델이 PR 제목·본문·디프를 받은 뒤 읽기 전용 셸 reposhell로 저장소를 직접 조사해 맥락을 확인하고 구조화된 라벨을 출력하며, 프롬프트 인젝션을 막기 위해 쓰기 작업은 차단된다. 330행 평가셋에서 Gemma는 재현율(0.905)이, Qwen은 정밀도(0.831)·정확일치(0.540)가 높았고, 두 모델 모두 파인튜닝 없이 유용한 결과를 냈다.
- •로컬 오픈웨이트 모델(Gemma·Qwen)을 GB10 하드웨어에서 구동해 OpenClaw 이슈·PR을 전기료만으로 실시간 분류·Discord 알림, 클라우드 API 쿼터·비용 없이 운영
- •'에이전트 분류': 모델이 전체 정보를 한번에 받지 않고 읽기 전용 셸 reposhell로 저장소를 조사해 맥락 확보 후 구조화 라벨 출력
- •reposhell은 ls·cat·grep 등 읽기 전용 명령만 허용해 프롬프트 인젝션 공격을 차단하고, curl 등 쓰기·네트워크 명령은 거부
- •330행 평가셋: Gemma 재현율 0.905·행당 1.41초, Qwen 정밀도 0.831·정확일치 0.540. 둘 다 파인튜닝 없이 유용한 성능
- •라벨링은 에이전트로, 알림은 결정론적 규칙으로 처리하는 반에이전트 구조. 뉴스·고객지원 티켓·arXiv 필터링 등으로 확장 가능
We got local models to triage the OpenClaw repo for FREE!*
- 1.HF가 로컬 오픈웨이트 모델로 OpenClaw 저장소 PR·이슈를 무료 분류하는 localpager 공개
- 2.pi 하니스와 읽기전용 reposhell로 코드를 탐색하는 '에이전틱 분류' 방식 채택
- 3.330개 평가셋: Gemma-4-26B는 높은 재현율·속도, Qwen3.6-35B는 높은 정밀도(F1 0.82)
- 4.GB10 128GB에서 초당 수백 토큰 생성, GPT-5.5를 심판자로 실시간 성능 검증
왜 중요한가?
클로즈드 모델이 갑자기 회수될 수 있다는 우려(Claude Fable 5 사례) 속에서, 파인튜닝 없이도 중간 규모 로컬 모델이 고처리량 분류를 실용적 정확도로 수행함을 실증한다. 뉴스 분류·고객지원 티켓·콘텐츠 모더레이션 등으로 확장 가능한 'agentic classification' 레시피를 제시해, AI 스택을 자체 소유하려는 기업에 비용·통제 대안을 준다.
🏷️ 언급 프로젝트
전체 내용이 궁금하다면?
원문을 직접 읽어보세요