OpenAI가 웹크롤러 GPTBot을 출시하고 차단하는 방법에 대한 지침

OpenAI의 GPTBot 출시 및 차단 방법 지침

OpenAI는 GPT-4와 같은 인공지능 모델을 개선하기 위해 웹 크롤러를 출시했습니다.

GPTBot이라고 불리는 이 시스템은 인터넷을 탐색하여 AI의 능력을 훈련하고 향상시킵니다. OpenAI의 블로그 게시물에 따르면, GPTBot을 사용함으로써 정확성과 안전성과 같은 측면에서 기존 AI 모델을 개선할 수 있는 잠재력이 있습니다.

“GPTBot 사용자 에이전트로 크롤링된 웹 페이지는 향후 모델의 개선을 위해 사용될 수 있으며, 페이월 액세스가 필요한 소스, 개인 식별 정보를 수집하는 소스 또는 정책을 위반하는 텍스트가 있는 소스는 필터링되어 제외됩니다,”라고 게시물에 기재되어 있습니다.

웹 사이트는 웹 크롤러의 액세스를 제한하고 GPTBot이 전체적으로 또는 일부로 사이트에 액세스하는 것을 방지할 수 있습니다. OpenAI는 웹 사이트 운영자가 해당 크롤러의 IP 주소를 차단하거나 사이트의 Robots.txt 파일에서 크롤러를 차단할 수 있다고 말했습니다.

과거에 OpenAI는 데이터 수집 방식과 저작권 침해 및 개인 정보 침해와 같은 문제로 논란이 되었습니다. 지난 6월에는 ChatGPT를 훈련시키기 위해 “개인 데이터를 훔치기” 위해 AI 플랫폼이 소송을 당했습니다.

ChatGPT 3.5와 4는 2021년 9월까지의 온라인 데이터와 텍스트로 훈련되었습니다. 그 데이터셋에서 콘텐츠를 제거하는 방법은 현재 존재하지 않습니다.

GPTBot이 웹사이트 콘텐츠 사용을 방지하는 방법

OpenAI에 따르면, 웹 사이트의 Robots.txt에 GPTBot을 추가하여 사용을 차단할 수 있습니다. 이 파일은 웹 크롤러에게 웹 사이트에서 액세스할 수 있는 것과 그렇지 않은 것에 대한 지침을 제공하는 텍스트 파일입니다.

또한, 웹 크롤러가 사용할 수 있는 부분을 사용자 정의할 수도 있으며, 특정 페이지를 허용하거나 다른 페이지를 차단할 수 있습니다.