Cognitive Categorical Transformer(CCT)는 GPT-2 Small 백본에 카테고리 이론과 인지과학에서 착안한 구성 요소를 추가한 306M 파라미터 아키텍처다. WikiText-103에서 동일 스텝·데이터·옵티마이저 조건으로 학습 시 검증 퍼플렉서티 21.27을 달성해 기준 GPT-2 Small(24.19) 대비 2.92 PPL(약 12%) 개선했다. 어블레이션 분석으로 개선의 84%가 GT-Full 심플리셜 메시지 패싱에서 비롯됨을 확인했으며, 위상적 구조를 추가하는 카테고리 사전은 효과적이지만 일관성 항등식을 강제하는 사전은 효과가 없다는 '구조/일관성 구분' 패턴을 발견했다.
- •CCT는 WikiText-103에서 GPT-2 Small 대비 21.27 vs 24.19 PPL로 약 12% 상대적 퍼플렉서티 개선을 기록했다.
- •어블레이션 분석 결과 개선의 84%(2.45/2.92 PPL)가 GT-Full 심플리셜 메시지 패싱 단독에서 발생했다.
- •위상적 구조를 추가하는 카테고리 사전(GT-Full)은 성능을 높이지만, sheaf 스무딩·adjunction round-trip·곡률 정규화 등 일관성 항등식 강제 사전 3종은 효과가 없었다.
- •306M 파라미터 규모에서 심플리셜 메시지 패싱이 언어 모델 PPL을 개선한다는 첫 어블레이션 검증 증거를 제시했다.
The Cognitive Categorical Transformer: Category-Theoretic Inductive Biases for Language Modeling
- 1.CCT는 GPT-2 Small 백본에 범주 이론·인지과학 기반 컴포넌트를 추가한 3억 600만 파라미터 아키텍처
- 2.WikiText-103에서 GPT-2 Small 대비 검증 퍼플렉시티 24.19→21.27(12% 개선) 달성
- 3.개선의 84%가 GT-Full 심플리셌었 메시지 패싱에 기인 — 306M 파라미터 규모에서 첫 에블레이션 검증
왜 중요한가?
범주 이론 기반 위상적 구조를 언어 모델에 추가하면 일관성 정체성을 강제하는 것보다 성능이 향상됨을 실증, 심플리셜 메시지 패싱이 언어 모델 귀납 편향 설계에서 유망한 방향임을 보여준다.
본문 미리보기
arXiv:2605.28864v1 Announce Type: new Abstract: The Cognitive Categorical Transformer (CCT) is a 306M-parameter architecture that augments a pretrained GPT-2 Small backbone with cognitively grounded components derived from category theory and several inspirations from cognitive science. Under a matched-step protocol (215,000 optimizer steps, matched data, matched optimizer and schedule) on WikiText-103, CCT reaches 21.27 validation perplexity, compared with 24.19 for an identically fine-tuned G
전체 내용이 궁금하다면?
원문을 직접 읽어보세요