촉각을 활용한 상식 추론을 현실적 개방형 환경으로 확장한 연구다. 기존 촉각 추론 데이터셋의 규모·형식 한계와, 촉각 신호의 중복성·행동 특이성을 간과한 비효율적 표현이라는 두 병목을 지적한다. TouchThinker는 415개 물체, 8개 시나리오, 7종 센서를 아우르는 100만 규모 데이터셋 TouchThinker-1M과 개방형 벤치마크 TouchThinker-Bench를 구축하고, 행동 인지(action-aware) 모델링으로 촉각 표현 효율과 추론 효율을 높인다. 실험에서 여러 데이터셋에 걸쳐 최신 모델과 경쟁력 있는 성능을 달성했다. 체화 에이전트가 물리 세계를 이해하는 핵심 양식인 촉각의 대규모 학습 기반을 제시한다.
- •415개 물체·8개 시나리오·7종 센서를 포괄하는 100만 규모 촉각 추론 데이터셋 TouchThinker-1M 구축
- •보다 현실적이고 다양한 과제를 담은 개방형 벤치마크 TouchThinker-Bench 도입
- •촉각 신호의 중복성·행동 특이성을 반영한 행동 인지 모델링으로 표현·추론 효율 개선
- •다수 데이터셋에서 최신 모델과 대등한 성능 달성
TouchThinker: Scaling Tactile Commonsense Reasoning to the Open World with Large-scale Data and Action-aware Representation
- 1.촉각 상식추론을 오픈월드로 확장하는 촉각-언어 프레임워크 TouchThinker 제안
- 2.415개 객체·8개 시나리오·7개 센서 유형을 아우르는 100만 규모 데이터셋 TouchThinker-1M 구축
- 3.행동 인지 모델링으로 촉각 신호의 중복성·행동 특이성을 반영해 표현 효율과 추론 개선
- 4.신설 벤치마크 TouchThinker-Bench 등 다수 데이터셋에서 SOTA 모델과 경쟁력 있는 성능 입증
왜 중요한가?
촉각 추론 데이터가 형식·규모 면에서 제한적이고 촉각 신호의 중복·행동 특이성이 간과돼 온 두 병목을, 100만 규모 데이터셋과 행동 인지 표현으로 동시에 해소한다. 체화 에이전트가 물리 세계를 이해하는 핵심 양식인 촉각의 오픈월드 일반화를 진전시킨다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2606.11637v1 Announce Type: new Abstract: Touch is a key modality for embodied agents to understand the physical world. Although recent work has incorporated tactile signals into language systems for tactile commonsense reasoning, scaling such systems to realistic open-world settings remains challenging due to two key bottlenecks: (1) current tactile reasoning datasets remain limited in format and scale, providing insufficient supervision for reasoning from tactile observations to physica
전체 내용이 궁금하다면?
원문을 직접 읽어보세요