OpenAI의 새로운 AI 트레이닝 웹 크롤러가 데이터를 수집하는 것을 차단하는 방법

OpenAI의 AI 트레이닝 웹 크롤러의 데이터 수집 차단 방법

ChatGPT의 개발사인 OpenAI는 GPTBot이라는 새로운 웹 크롤러를 공개하고 차단하는 방법을 안내했습니다.

ChatGPT는 최근의 지능 흔들림에도 불구하고, 지금까지 만들어진 AI 시스템 중 가장 능력이 있는 시스템 중 하나입니다. AI 챗봇을 개발한 OpenAI는 여전히 GPT-3.5와 GPT-4와 같은 큰 언어 모델을 훈련시키고 있습니다.

또한: ChatGPT는 이번 주에 여러 업데이트를 받게 됩니다. 알아야 할 정보는 다음과 같습니다.

웹 크롤러는 Google과 Bing과 같은 검색 엔진이 웹사이트를 스캔하고 콘텐츠를 색인화하는 데 사용되는 도구이며, AI 회사들도 LLM을 훈련시키기 위해 사용합니다. 이러한 모델들은 웹사이트의 콘텐츠와 개발자가 훈련시키기 위해 선택한 다른 데이터들로부터 학습합니다. 웹 크롤러를 사용하면 LLM이 대량의 데이터를 기반으로 훈련할 수 있으므로 이 과정을 가속화시킵니다.

“GPTBot이 사이트에 접근하도록 허용하면 AI 모델들이 더 정확해지고 일반적인 능력과 안전성을 향상시킬 수 있습니다.” OpenAI는 GPTBot 문서에서 이렇게 설명합니다. 이 회사는 유료 구독 필요한 웹페이지, 개인 식별 정보를 수집하는 웹페이지, OpenAI의 정책을 위반하는 텍스트가 있는 웹페이지를 걸러내고 있다고 주장합니다.

개발자들은 GPTBot이 사이트에 접근하고 그들의 정보를 훈련시키는 것을 차단할 수도 있습니다.

OpenAI는 GPTBot이 사이트에 대한 액세스를 허용하지 않거나 사용자 정의할 수 있는 방법을 설명합니다.

GPTBot이 사이트에 대한 액세스를 완전히 차단하려면 사이트 소유자는 사이트의 robots.txt에 GPTBot 토큰을 추가하고 “Disallow: /”를 입력하면 됩니다.

OpenAI는 또한 사용자들이 GPTBot의 액세스를 사용자의 사이트 일부분만 허용하도록 사용자 정의할 수 있게 해줍니다. 웹사이트의 일부분에 GPTBot의 액세스를 차단하려면 사이트의 robots.txt에 “Allow: /directory-1/”과 “Disallow: /directory-2/”를 추가하고 필요에 따라 사용자 정의할 수 있습니다.

또한: Nvidia는 AI를 위한 더 빠른 메모리를 갖춘 ‘슈퍼칩’ Grace-Hopper를 강화했습니다.

OpenAI는 ChatGPT의 무료 버전인 GPT-3.5나 ChatGPT Plus 구독자를 위한 최신 LLM인 GPT-4를 훈련시키기 위해 웹 크롤러를 사용한 사실을 이전에 발표하지 않았습니다.

GPTBot이 OpenAI의 현재 사용 가능한 LLM들을 훈련시키는 데 사용되었는지는 명확하지 않지만, 특히 회사가 7월에 이름에 상표 등록을 신청했기 때문에 GPT-5를 훈련시키는 웹 크롤러일 수 있습니다. OpenAI는 GPT-5의 출시 일정을 아직 발표하지 않았지만, 이 새로운 LLM은 현재 가장 큰 LLM인 GPT-4보다 강력하고 크기가 크다고 예상됩니다.

또한: AI 봇이 곧 새로운 고객 서비스 담당자가 될 수도 있습니다.

ChatGPT를 시작한 이후, OpenAI는 사용자들로부터 데이터를 도용한다는 여러 소송을 받아왔으며, 저작권 침해 사건으로 인해 FTC 조사의 대상이 되기도 했습니다. Stack Overflow, Reddit, Twitter와 같은 웹사이트들은 AI 회사들에게 자신들의 데이터에 액세스하기 위해 요금을 부과할 계획이라고 밝혔습니다.