상세 컨텐츠

본문 제목

Open AI가 알려주는 GPTBot의 웹크롤링 막는 방법

IT 소식

by 웨어러블서치 2023. 8. 9. 14:28

본문

반응형

The ChatGPT creator is training the next generation of AI systems, reportedly including GPT-5. One word can stop the crawling.

ChatGPT 개발자는 차세대 GPT-5를 포함하여 AI에 적용되고 있는 웹크롤링을 막는 방법을 알려주고 있습니다.


사진 출처) Jaap Arriens/NurPhoto via Getty Images

 

ChatGPT를 개발한 OpenAI는 새로운 웹 크롤러인 GPTBot을 출시하고 이를 차단하는 방법에 대한 지침을 공개했습니다.

ChatGPT는 지능이 떨어지고 있다는 최근의 보고에도 불구하고, 지금까지 만들어진 AI 시스템 중 가장 유능한 시스템 입니다. AI 챗봇의 개발사인 OpenAI는 GPT-3.5 및 GPT-4와 같은 대규모 언어 모델(LLM, Large Language Model)을 계속 학습하고 있으며 GPT-5를 포함한 새로운 AI 시스템을 지속적으로 개발하고 있습니다.

웹크롤링(Web Crawling)은 구글(Google)이나 빙(Bing) 같은 검색 엔진을 통해서 웹사이트를 검색하고, 보다 빠른 검색을 위해서 콘텐츠를 색인화(Indexing)하는 데 사용됩니다. AI 회사에서도 LLM을 학습시키는 데 사용하고 있습니다. 웹크롤링을 통해 웹사이트의 콘텐츠를 학습하기 위한 도구를 웹크롤러(Web Crawler)라고 하며, 이를 AI에 적용하면 LLM이 방대한 양의 빅데이터를 빠르게 학습할 수 있어 AI의 지능을 더욱 높일 수 있습니다.

GPTBot이라는 웹크롤러를 웹사이트에 액세스할 수 있도록 허용하면 AI 모델이 더 정확하고 일반적인 기능과 안전성을 개선하는 데 도움이 될 수 있다고 합니다. OpenAI는 GPTBot를 언급하면서 금전적인 지불을 통한 접근(Paywall Access)이 필요하거나, 개인 정보를 수집하거나, OpenAI의 정책을 위반하는 텍스트가 있는 웹 페이지를 필터링하고 있다고 합니다.

또한, 저작권 침해가 우려되는 웹 개발자는 GPTBot이 자신의 사이트에 액세스하지 못하도록 차단하고 정보를 사용하여 AI 시스템을 학습시키는 옵션을 선택할 수 있는 방법을 오픈하였습니다.

OpenAI에서 GPTBot 액세스를 허용하지 않도록 웹 개발자가 사이트를 지정하는 방법은 다음과 같습니다.

 

사진 출처) Maria Diaz/ZDNET

 

사이트 소유자는 GPTBot이 사이트에 액세스하는 것을 완전히 차단하려면 사이트의 robots.txt에 "Disallow: /"에 GPTBot 토큰을 추가할 수 있습니다.

또한 OpenAI를 사용하면 사이트의 특정 부분만 크롤링하도록 허용하여 GPTBot의 액세스를 사용자 지정할 수 있습니다. GPTBot이 웹사이트의 일부에 액세스하지 못하도록 차단하려면 사이트의 robots.txt에 GPTBot을 추가하고 "허용: /directory-1/" 및 "허용하지 않음: /디렉토리-2/"를 추가하고 필요에 따라 사용자 지정합니다.

OpenAI는 이전에는 웹 크롤러를 사용하여 무료 버전의 ChatGPT의 기반이 되는 LLM인 GPT-3.5 또는 ChatGPT Plus 가입자에게 제공되며 Bing AI를 구동하는 최신 LLM인 GPT-4를 훈련한다고 발표하지 않았습니다.

GPTBot이 현재 사용 가능한 OpenAI의 LLM을 학습하는 데 사용되었는지는 확실하지 않지만, 특히 7월에 상표권을 출원했기 때문에 GPT-5를 학습하는 웹 크롤러일 수 있습니다. OpenAI는 GPT-5의 출시일을 발표하지 않았지만, 새로운 LLM은 현재 사용 가능한 가장 큰 LLM인 GPT-4보다 더 강력하고 더 클 것으로 예상됩니다.

ChatGPT 출시 이후, OpenAI는 저작권 침해 소송을 비롯해 AI 도구가 사용자의 데이터를 도용하고 있다는 여러 건의 소송에 휘말렸으며, 이로 인해 FTC의 조사 대상이 되기도 했습니다. 개발자들이 프로그래밍에 대한 질문과 답변을 나누는 스택 오버플로(Stack Overflow), 미국의 대표적인 온라인 커뮤니티의 레딧(Reddit), 마이크로 블로그를 운영하고 있는 트위터 등에서는 AI 회사에 데이터 액세스 비용을 청구할 계획으로 알려지고 있습니다.


※ 기사 내용 참조

How to block OpenAI's new AI-training web crawler from ingesting your data | by Maria Diaz | Aug. 8, 2023 | https://www.zdnet.com/article/how-to-block-openais-new-ai-training-web-crawler-from-ingesting-your-data/


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역