Google DeepMind Gemma 4 아키텍처를 시스템 단위로 해부한 글. 핵심 4가지 설계 수(手): (1) 로컬 슬라이딩 윈도우가 대부분 레이어를 싼 계산으로 처리하고 소수의 글로벌 어텐션 레이어만 주기적으로 장거리 비용을 지불한다(마지막 레이어는 항상 글로벌). (2) 로컬은 표준 RoPE(θ=10k), 글로벌은 p-RoPE(θ=1M, 25% 차원만 회전)으로 이중 RoPE 체제를 써 256K 컨텍스트에서 저주파 노이즈를 누적하지 않는다. (3) E2B/E4B는 per-layer embedding 룩업 테이블을 값싼 메모리에 두어 '활성 계산 파라미터'와 '총 파라미터'를 분리했다. (4) KV 캐시 공유를 타깃 하드웨어에 맞춰 그라데이션처럼 조절(E2B 57% 공유, 워크스테이션은 공유 없음). 벤치마크 숫자가 아닌 설계 언어로 읽으라는 저자의 주문이 핵심이다.
- •하이브리드 어텐션 + 비대칭 엔지니어링 — 로컬 슬라이딩이 메인, 소수 글로벌 레이어만 장거리 비용 지불.
- •듀얼 RoPE 체제 — 로컬 θ=10k 표준 / 글로벌 θ=1M + 25% 차원만 회전하는 p-RoPE로 256K 컨텍스트 노이즈 억제.
- •per-layer embedding을 저가 메모리에 둬 '활성 파라미터 ≠ 총 파라미터'라는 설계 분리를 구체화한다.
- •KV 캐시 공유가 타깃 하드웨어별 다이얼 — 엣지(E2B) 57% vs 워크스테이션 0%.
- •벤치마크 점수가 아니라 아키텍처 '설계 선택의 문법'으로 오픈 모델을 읽어야 한다는 관점 제시.
What Gemma 4 Reveals About Where Open Model Design is Heading: Part 1

- 1.Gemma 4의 핵심은 로컬/글로벌 하이브리드 어텐션 + 듀얼 RoPE 체제.
- 2.per-layer embedding으로 '활성 파라미터'와 '총 파라미터'를 분리해 추론 경제성 개선.
- 3.KV 캐시 공유 비율이 하드웨어 타깃에 따라 조절되는 다이얼로 설계됨.
- 4.p-RoPE(25% 차원만 회전)로 256K 긴 컨텍스트의 위치 정보 품질 유지.
- 5.오픈 모델 읽기를 벤치마크 숫자가 아닌 아키텍처 설계 문법으로 해야 한다는 관점 전환.
왜 중요한가?
오픈 LLM 아키텍처 설계 트렌드(하이브리드 어텐션·듀얼 RoPE·per-layer embedding·KV 공유 다이얼)가 Gemma 4에 집결됐다. 이는 향후 Llama/Qwen/Mistral 등 경쟁 오픈 모델 설계 규범을 형성할 가능성이 크고, 엣지-클라우드 이원화 추론 스택에서 무엇을 측정할지 결정한다. 파인튜닝·서빙 엔지니어에게는 'Gemma 4 방식'을 이해해야 하는 필수 실무 자료.
🏷️ 언급 프로젝트
본문 미리보기
A visual, systems-level breakdown of the architecture choices in Google DeepMind’s newest open models, and what they tell us about where… Continue reading on Towards AI »
전체 내용이 궁금하다면?
원문을 직접 읽어보세요