AI 성능의 병목이 모델 규모에서 '실시간 웹 데이터 확보 능력'으로 옮겨가고 있으며, 이를 해결할 새로운 웹 데이터 인프라 계층이 부상하고 있다. Bright Data CEO 오르 렌크너는 정적 학습 스냅샷만으로는 가격·소비자 심리·시장 변화를 따라잡을 수 없고, RAG를 도입해도 최신성·신뢰성 확보에 한계가 있다고 지적한다. 기사는 실무자 56%가 신뢰 향상을 위해 실시간 웹 데이터가 필요하다고 답했고, AI 조직의 97%가 실시간 웹 데이터 인프라에 의존하지만 90%는 각종 제약에 묶여 있으며, Gartner는 AI 준비가 안 된 데이터 기반 프로젝트의 60%가 연내 폐기될 것으로 본다고 전한다. Bright Data는 IP·위치 등 1,000여 개 파라미터로 사람의 브라우징을 모사해 하루 800억 회 규모로 차단 없이 데이터를 수집하고, GDPR·CCPA 등 규제를 준수하는 방식을 제시한다.
- •AI 경쟁력의 핵심이 모델 아키텍처에서 신선하고 신뢰할 수 있는 실시간 웹 데이터 검색·엔지니어링 역량으로 이동
- •Gartner: AI 준비가 안 된 데이터로 진행되는 AI 프로젝트의 60%가 연내 폐기될 전망
- •조사 결과 AI 조직의 97%가 실시간 웹 데이터 인프라에 의존하나 90%는 접근 제약에 묶여 있음
- •Bright Data는 IP·위치 등 1,000여 파라미터로 사람 브라우징을 모사해 하루 800억 회 규모로 차단 없이 공개 웹 데이터를 수집
- •지속적 데이터 수집은 거버넌스 과제를 동반하므로 GDPR·CCPA 준수, 공개 데이터 한정, 동의 기반 네트워크 등으로 대응
The emergence of the web data infrastructure layer for AI
본문 미리보기
AI is booming. New use cases are emerging each day. To capitalize on the technology’s potential, enterprises require data at scale. In many cases, though, the relevant information is blocked or unstructured, which limits its use by AI models. To understand this challenge, consider the foundation of the web itself. The web was not designed…
전체 내용이 궁금하다면?
원문을 직접 읽어보세요