텍스트에서 물리 다이어그램을 생성할 때 기존 모델들이 힘 벡터 환각, 보존 법칙 위반, 기하학 제약 무시 등의 오류를 내는 한계를 극복하기 위해 PhyDrawGen 신경-기호 파이프라인을 제안했다. LLM이 문제 텍스트에서 타입화된 장면 그래프를 추출하면, 결정론적 솔버가 이를 PSLG로 변환해 힘 균형·광학 경로·전기장 위상을 정확한 기하학 기본요소로 인코딩하고, 파인튜닝된 Qwen-VL 모델이 시각적 제약 위반을 반복 수정한다. 역학·광학·전자기학 1,449문제 벤치마크에서 GPT-5-image, Gemini 2.5 Flash, Gemini 3 Pro를 크게 능가하는 물리적 정확도를 보였다. 생성 모델의 물리 법칙 환각 문제를 구조적으로 해결하는 실용적 접근이다.
- •LLM 장면 그래프 추출 → 결정론적 물리 솔버(PSLG 인코딩) → Qwen-VL 시각 검증·수정의 3단계 신경-기호 파이프라인으로 물리 제약을 엄격히 준수한다.
- •역학·광학·전자기학 1,449문제 벤치마크에서 GPT-5-image, Gemini 2.5 Flash, Gemini 3 Pro를 큰 차이로 능가했다.
- •힘 균형·광학 경로·전기장 위상을 기하학 기본요소로 직접 인코딩해 기존 생성 모델의 물리 법칙 환각 문제를 구조적으로 해결했다.
PhyDrawGen: Physically Grounded Diagram Generation from Natural Language
- 1.LLM 씨 그래프 추출→솔버→Qwen-VL 검증 루프로 구성된 신경-기호 물리 다이어그램 생성 PhyDrawGen 제안
- 2.1,449개 역학·광학·전자기학 벤치마크에서 GPT-5-image·Gemini 2.5 Flash·Gemini 3 Pro 대비 우위
- 3.힘 균형·광경로·장 위상을 정확한 기하학적 프리미티브로 인코딩해 생성 환각·제약 위반 해결
왜 중요한가?
물리 교육·연구에서 정확한 다이어그램 생성은 STEM 교육 자동화와 과학 커뮤니케이션의 핵심이며, 신경-기호 분리 설계로 물리 법칙 위반 없는 그림을 안정적으로 생성하는 방법론을 제시한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.30512v1 Announce Type: new Abstract: Generating physics diagrams from text requires strict adherence to physical laws. While current generative models produce visually plausible outputs, they systematically hallucinate force vectors, ignore conservation laws, and violate geometric constraints. We present PhyDrawGen, a neuro-symbolic pipeline that decouples semantic scene understanding from physical constraint satisfaction. First, a large language model extracts a typed scene graph fr
전체 내용이 궁금하다면?
원문을 직접 읽어보세요