코드 생성 LLM이 차트·웹페이지·슬라이드를 만들 때 렌더링 결과를 보기 전에 코드를 확정해, 요소 겹침·텍스트 잘림·정렬 깨짐 같은 시각적 결함이 자주 발생하는 문제를 다뤘다. 저자들은 렌더링된 시각 피드백을 가중치 공유 교사의 특권 정보로 삼아 코딩 학생에게 증류하는 Visual-SDPO 프레임워크를 제안했다. 결함을 유발한 코드 구문으로 역추적해 해당 부분의 증류 신호를 증폭하는 Visual-Grounded Code Credit Weighting과, 실행 가능하고 시각 품질이 높은 롤아웃을 보상하는 시퀀스 수준 GRPO 항을 결합했다. Qwen3-VL-8B-Instruct 백본으로 ChartMimic·Design2Code·AeSlides 벤치마크에서 제로샷 대비 10점 이상, GRPO 대비 최소 2.4점 향상을 추론 비용 추가 없이 달성했다.
- •코드 생성 LLM이 렌더 전에 코드를 확정해 발생하는 시각적 결함을 자기 증류로 교정
- •렌더링 시각 피드백을 가중치 공유 교사의 특권 정보로 삼아 코딩 학생에 증류하는 Visual-SDPO 제안
- •결함 유발 코드 구문으로 역추적해 증류 신호를 증폭하는 Visual-Grounded Code Credit Weighting 도입
- •시퀀스 수준 GRPO 항으로 실행 가능·고품질 롤아웃을 보상하고 실행 실패도 학습에 활용
- •Qwen3-VL-8B로 ChartMimic·Design2Code·AeSlides에서 제로샷 대비 10점+, GRPO 대비 2.4점+ 향상
Self-Distillation Policy Optimization via Visual Feedback: Bridging Code and Visual Artifacts
- 1.Visual-SDPO, 렌더링된 시각 피드백을 교사의 특권정보로 삼는 자기증류 프레임워크
- 2.결함을 책임 코드 구문으로 역추적해 증류 신호를 공간적으로 강화
- 3.Qwen3-VL-8B-Instruct 단일 백본으로 차트·UI·슬라이드 생성 구현
- 4.ChartMimic·Design2Code·AeSlides서 제로샷 대비 10점+·GRPO 대비 2.4점+ 향상
왜 중요한가?
코드 생성 LLM이 렌더 결과를 보기 전에 코드를 확정해 요소 겹침·텍스트 잘림 등 시각 결함을 내던 문제를, 렌더 피드백을 코드 구문 단위로 되먹임해 추론 비용 증가 없이 해결한다는 점에서 실용적이다.
본문 미리보기
arXiv:2606.10334v1 Announce Type: new Abstract: Code-generating large language models (LLMs) increasingly produce visual artifacts such as charts, web pages, and slides by writing programs that are executed by non-differentiable renderers, committing to code before observing the render. As a result, otherwise executable code often yields artifacts with visually salient defects, including overlapping elements, clipped text, broken alignment, low contrast, and overflow. We study visual-feedback s
전체 내용이 궁금하다면?
원문을 직접 읽어보세요