Hawk: Harnessing Hardware-Aware Knowledge for High-Performance NPU Kernel Generation
- 1.학습 불필요 프레임워크 Hawk으로 NPU 커널 생성 정확도 49.4%→80.0% 향상
- 2.하드웨어 사전지식 부족으로 LLM이 NPU에서 실패하는 문제를 계해섬 해결
- 3.런타임 지식 합성·병목 인식 검색·2D 검색·효과 기반 지식 증류 3대 모듈 구성
- 4.최신 기법 대비 최대 2.2배 실행 속도 향상 달성
왜 중요한가?
NPU 커널 개발은 암묵적 하드웨어 제약과 메모리 계층 탓에 LLM이 컴파일은 통과해도 런타임 크래시를 일으키는 난제였는데, Hawk는 학습 없이 실행 피드백 기반 지식을 증류해 정확도를 30%p 이상 끌어올렸다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2607.01590v1 Announce Type: new Abstract: Developing high-performance kernels for Neural Processing Units (NPUs) is a critical industry bottleneck, requiring developers to manually navigate implicit hardware constraints and strict memory hierarchies. While large language models offer immense automation potential, they fail catastrophically on NPUs due to a fundamental lack of hardware-specific priors. Naively transplanting code snippets from similar NPU kernels may pass the compiler, but
전체 내용이 궁금하다면?
원문을 직접 읽어보세요