CTRL-STEER는 Vision-Language-Action(VLA) 모델의 테스트 시간 스티어링을 고정 계수에서 적응형 폐루프 제어 신호로 대체하는 프레임워크다. 표현 추출과 조절을 분리해 동작 정렬 잔차 방향으로 스티어링하면서 PID 또는 강화학습 기반 피드백 컨트롤러가 개입 강도를 실시간 조정한다. 미세 조정된 OpenVLA 정책으로 4개 LIBERO 태스크 슈트에서 실험한 결과, 고정 계수 기준선 대비 더 안정적인 개념 조절과 향상된 스티어링-태스크 성공률 트레이드오프를 기본 모델 수정 없이 달성했다.
- •기존 VLA 스티어링 방법의 고정 계수는 태스크 상태와 개념 오차 변화를 반영 못해 과교정·진동·태스크 실패를 유발한다.
- •CTRL-STEER는 표현 추출과 조절을 분리해 동작 정렬 잔차 방향으로 스티어링하면서 피드백 컨트롤러가 개입 강도를 실시간으로 조정한다.
- •PID와 RL 기반 컨트롤러를 모두 구현해 평가했으며, OpenVLA + LIBERO 실험에서 고정 계수 기준선 대비 개념 조절 안정성과 태스크 성공 트레이드오프가 개선되었다.
- •기본 모델 수정·재훈련 없이 추론 시간에만 적용되어 기존 VLA 파이프라인에 바로 통합 가능하다.
Closed-Loop Neural Activation Control in Vision-Language-Action Models
- 1.VLA 모델 신경 활성화 제어
- 2.고정 계수 문제 해결
- 3.폐쇄 루프 제어 도입
왜 중요한가?
시각-언어-행동(VLA) 모델의 내부 작동을 정교하게 제어하는 능력은 AI가 실제 환경에서 더 유연하고 적응적으로 상호작용할 수 있게 합니다. 이는 로봇 공학 및 자율 시스템 개발에 중요합니다.
본문 미리보기
arXiv:2606.00269v1 Announce Type: new Abstract: Vision-Language-Action (VLA) models can be steered at test time by intervening on semantically meaningful internal directions, but existing methods use a fixed steering coefficient, effectively operating in open loop. This is poorly suited to embodied control, where task state and concept error evolve over time, often causing overcorrection, oscillation, and reduced task success, especially for temporal behaviors such as speed and smoothness. We p
전체 내용이 궁금하다면?
원문을 직접 읽어보세요