파운데이션 모델 디코딩 한 스텝부터 수천 물리 틱의 전신 제어까지, 세 자릿수 이상 차이 나는 Physical AI 스택 전 범위를 단일 런타임에서 평가하는 인프라 DeepInsight를 제시했다. 기존엔 런타임·채점을 공유하지 않는 별도 하니스를 엮어 평가해 계층 간 회귀를 진단하기 어려웠다. DeepInsight는 과제·자원·결과라는 좁은 세 추상화로 이질성을 보존하되, 하나의 에피소드 드라이버, 모든 백엔드가 구현하는 자원 핸들 프로토콜, 단일 추적 식별 체계를 공유한다. 휴머노이드 스택 3개 계층 프로덕션에 배치돼 설정만으로 벤치마크를 온보딩하고, 발표된 참조치를 재현하며 단일 노드에서 더 빠르고 노드 간 거의 선형으로 확장된다. 핵심 이점은 계층을 넘나드는 회귀를 단일 추적에서 국소화하는 진단력이다.
- •세 자릿수 이상 차이 나는 Physical AI 스택 전 범위를 단일 런타임에서 평가하는 인프라 DeepInsight 제시
- •과제·자원·결과 세 추상화로 이질성 보존, 단일 에피소드 드라이버·자원 핸들 프로토콜·추적 식별 체계 공유
- •휴머노이드 스택 3개 계층 프로덕션 배치, 설정만으로 벤치마크 온보딩, 단일 노드 고속·노드 간 거의 선형 확장
- •핵심 이점은 계층 간 회귀를 단일 추적에서 국소화하는 진단력
DeepInsight: A Unified Evaluation Infrastructure Across the Physical AI Stack
- 1.물리 AI 스택 전 계층을 단일 런타임에서 평가하는 인프라 'DeepInsight' 제안
- 2.작업·자원·결과 3개 추상화로 이질적 영역을 통합, 단일 트레이스에 모든 이벤트 기록
- 3.휴머노이드 스택 실운영 적용, 동일 스위트를 단일 노드서 더 빠르게·노드간 준선형 확장
- 4.계층 간 회귀 추적이 가능해 한 계층서 시작된 문제를 다른 계층서도 국소화
왜 중요한가?
기존엔 계층별 개별 하니스를 엮어 평가해 공유 정체성이 없어 교차 계층 회귀 진단이 어려웠는데, 단일 트레이스로 이를 해결한 점이 임베디드 AI 개발·디버깅에 실질 이점이다.
🏷️ 언급 프로젝트
물리적 AI 스택 전반에 걸친 통합 평가 인프라 DeepInsight는 국내 로봇 및 자율주행 시스템의 신뢰성 검증에 필수적인 기술입니다. 다양한 스케일과 모달리티를 포괄하는 평가 역량은 국내 AI 기술의 상용화와 글로벌 시장 경쟁력 확보에 중요한 토대가 될 것입니다.
본문 미리보기
arXiv:2606.17574v1 Announce Type: new Abstract: Evaluating a Physical AI stack spans operators that differ by more than three orders of magnitude -- from a single foundation-model decoding step to thousands of physics ticks of whole-body control -- varying orthogonally in modality, reward semantics, and resource profile. No existing framework spans this range, so the stack is evaluated today by stitching together separate harnesses that share neither runtime nor scoring, preserving each segment
전체 내용이 궁금하다면?
원문을 직접 읽어보세요