ITNet은 합성곱(국소성)·순환망(순차 기억)·트랜스포머(내용 의존적 상호작용)가 사실은 하나의 수학적 객체인 학습 가능한 적분 변환의 불완전한 단면일 뿐임을 보이며 이를 통합한 아키텍처다. 위치와 특성에 동시에 의존하는 학습 가능 커널을 작은 MLP로 구현해 쌍별 상호작용을 데이터로부터 적응적으로 학습하며, 합성곱·(멀티헤드 포함) 셀프어텐션·순환(LSTM·GRU·S4·Mamba)이 적절한 매개변수화 하의 특수 사례로 도출됨을 보인다. ITNet은 연속 연산자의 보편 근사자이며, 타일 커널 융합·중요도 가중 몬테카를로 적분·저랭크 분해로 효율적 계산을 구현한다. 공유 연산자와 경량 모달리티별 인코더를 쓴 단일 ITNet이 ImageNet-1K·GLUE·ModelNet40·VQA v2·NLVR2에서 특화 기준선과 동등하거나 능가하며, 단일 학습 상호작용 메커니즘이 세 아키텍처 계열의 행동을 모두 복원함을 입증한다.
- •위치·특성 의존 학습 커널(적분 변환)로 CNN·RNN·트랜스포머를 통합한 ITNet 제안
- •합성곱·셀프어텐션·순환(LSTM·GRU·S4·Mamba)이 특수 사례로 도출되며 연속 연산자 보편 근사
- •타일 커널 융합·중요도 가중 몬테카를로 적분·저랭크 분해로 효율적 확장 계산
- •단일 ITNet이 ImageNet-1K·GLUE·ModelNet40·VQA v2·NLVR2에서 특화 기준선 동등 이상 성능
ITNet: A Learnable Integral Transform That Subsumes Convolution, Attention, and Recurrence
본문 미리보기
arXiv:2606.19538v1 Announce Type: new Abstract: Convolutional networks, recurrent networks, and transformers each encode different inductive biases -- locality, sequential memory, and content-dependent pairwise interaction -- and have remained mathematically distinct since their inception. We show that this fragmentation reflects not a fundamental diversity in how signals should be processed, but rather incomplete views of a single underlying mathematical object: a learnable integral transform.
전체 내용이 궁금하다면?
원문을 직접 읽어보세요