Microsoft Bing Copilot 사용자 약 12,000명의 대화 궤적을 종단 분석해 LLM 사용 패턴 변화를 연구했다. 집단 수준 트렌드는 존재하지만 개별 사용자의 습관은 압도적으로 고착성(sticky)이 높으며, 활동성이 높은 사용자일수록 성공적인 대화 비율이 높고 더 복잡하고 전문 지향적 과제에 LLM을 사용했다. WildChat-4.8M 데이터셋은 숙련된 파워 유저에게 편향되어 있어 일반 사용자의 AI 상호작용을 대표하지 않는다는 중요한 주의점도 밝혔다.
- •~12,000명 Copilot 사용자 종단 분석 결과, 개별 사용자의 LLM 사용 습관은 압도적으로 고착성이 높아 변화하기 어렵다.
- •활동성 높은 사용자는 더 복잡하고 전문 지향적 과제에 LLM을 활용하며, 대화 성공률도 높은 도듷한 이질성이 존재한다.
- •WildChat-4.8M은 숙련 파워 유저에게 크게 편향되어 있어 일반적인 사용자-AI 상호작용을 대표하지 않는다는 중요한 주의점을 확인했다.
- •사용자 체택(adopt)이 곳 행동 적응(adapt)을 의미하지 않으며, 사용 패턴 다양성이 LLM 연구 데이터 해석에 미치는 영향을 강조한다.
Adopt $\neq$ Adapt: Longitudinal Analyses of LLM Conversations in the Wild
- 1.Bing Copilot 사용자 약 12,000명 분석 결과 개인별 사용 습관이 시간 경과에도 강하게 고착
- 2.활동성 높은 사용자는 더 복잡하고 직업적인 작업에 LLM을 활용하며 대화 성공률도 높음
- 3.WildChat-4.8M이 고숙련 파워 유저에 크게 편향돼 일반 사용자 행동을 대표하지 않음을 실증
왜 중요한가?
LLM 연구에 널리 사용되는 WildChat 데이터가 전형적 사용자 행동을 대표하지 않는다는 실증 증거를 제시, 이를 기반으로 한 연구 결론의 일반화 가능성에 중요한 주의를 요한다.
🏷️ 언급 프로젝트
본문 미리보기
arXiv:2605.29018v1 Announce Type: new Abstract: Although a growing body of research has begun to describe user--LLM interactions, the picture it paints is largely static; little is known about how individual users change their behavior over time. To address this gap, we analyze the conversational trajectories of $\sim$12,000 randomly sampled Microsoft Bing Copilot users and compare these with data from WildChat-4.8M. While the Copilot data contains significant population-level trends, we find t
전체 내용이 궁금하다면?
원문을 직접 읽어보세요