세계 최대 기술 기업 중 일부가 허가 없이 173,000개 이상의 유튜브(YouTube) 동영상을 포함한 데이터 세트를 이용해 AI 모델을 훈련시켰다는 사실이 프루프 뉴스(Proof News)의 조사에 의해 밝혀졌습니다.
기술 제한을 반대하는 연구 그룹 엘레우테르AI(EleutherAI)라는 비영리 회사에서 데이터 세트가 노출되었는지 확인하기 위해 48,000개 이상의 채널에 있는 유튜브 동영상의 스크립트(Script, 대본)를 포함하여 확인한 결과, 애플(Apple), 엔비디아(NVIDIA), 앤트로픽(Anthropic) 등 여러 회사에서 유튜브 동영상을 무단으로 사용했다는 것을 확인했습니다. 즉, AI의 불편한 진실, 대부분 크리에이터의 동의나 보상 없이 빼낸 데이터를 기반으로 대기업들이 생성형 AI를 구축했다는 것을 증명합니다.
이 데이터 세트에는 유튜브의 동영상이나 이미지가 포함되어 있지 않지만, 1900만명의 구독자를 가지고 있는 마르케스 브라운리(Marques Brownlee), 3억명의 구독자를 가지고 있는 미스터 비스트(MrBeast) 등 플랫폼의 유명 크리에이터와 The New York Times, BBC, ABC 뉴스와 같은 대형 뉴스 퍼블리셔의 동영상 스크립트가 포함되어 있다고 합니다.
브라운리는 X에 올린 글에서 "Apple은 여러 회사로부터 AI용 데이터를 공급받았습니다."라며 "그 중 한 회사가 저를 포함한 수많은 데이터/대본을 YouTube 동영상에서 스크랩했습니다."라고 덧붙였습니다. "이는 AI가 진화하는 동안 계속 문제가 될 것입니다."
구글의 대변인은 유튜브의 데이터를 사용하여 AI 모델을 학습시키는 회사는 서비스 약관을 위반할 것이라는 유튜브 CEO 닐 모한의 이전 발언은 여전히 유효하다고 말했습니다.
지금까지 AI 기업들은 모델 학습에 사용되는 데이터에 대해 투명하게 공개하지 않았습니다. 이달 초, 아티스트와 사진작가들은 애플이 올해 수백만 대의 애플 기기에 탑재될 자체 개발 AI인 애플 인텔리전스(Apple Intelligence)의 학습 데이터 출처를 공개하지 않았다고 비판했습니다.
특히 세계 최대의 동영상 저장소인 YouTube는 스크립트 뿐 아니라 오디오, 비디오, 이미지가 풍부한 금광으로, AI 모델 학습을 위한 매력적인 데이터 세트입니다. 올해 초 OpenAI의 최고 기술 책임자인 미라 무라티는 곧 출시될 AI 동영상 생성 도구인 Sora를 훈련하는 데 YouTube 동영상을 사용했는지에 대한 월스트리트저널의 질문에 답변을 회피했습니다. 무라티는 당시 "사용된 데이터에 대해 자세히 설명하지는 않겠지만, 공개적으로 사용 가능하거나 라이선스가 있는 데이터였다"고 말했습니다. 순다르 피차이 알파벳 CEO도 기업이 YouTube의 데이터를 사용하여 AI 모델을 학습시키는 것은 플랫폼의 서비스 약관을 위반하는 것이라고 말했습니다.
비밀리에 생성형 AI를 학습하기 위해 YouTube의 채널을 구동하는 지 확인할 수 있는 도구는 아래 프루프 뉴스(Proof News) 링크에서 확인할 수 있습니다.
※ 기사 내용 참조
[Engadget] Apple, NVIDIA and Anthropic reportedly used YouTube transcripts without permission to train AI models | By Pranav Dixit | Wed, Jul 17, 2024, 7:17 AM GMT+9 | https://www.engadget.com/apple-nvidia-and-anthropic-reportedly-used-youtube-transcripts-without-permission-to-train-ai-models-170827317.html
[Proof News] Search the YouTube Videos Secretly Powering Generative AI | By Alex Reisner | Jul 16, 2024 | https://www.proofnews.org/youtube-ai-search/
[YouTube / Marques Brownlee] iOS 18 Hands-On: Top 5 Features! | https://youtu.be/ArcI4A5nvBo
구글의 새로운 픽셀 9 프로 XL 유출, 삼성 엑시노스 모뎀 5400 탑재 (0) | 2024.07.22 |
---|---|
스마트폰 중독을 방지하는 애플워치용 TinyPod 케이스 (0) | 2024.07.18 |
구글 지도 앱, Android 버전에서 길찾기 등 디자인 변경 (0) | 2024.07.15 |
구글 딥마인드, 제미나이 AI로 더욱 똑똑해진 로봇 시연 (0) | 2024.07.12 |
삼성전자의 갤럭시링, 스마트링 중에서 절대반지 될까? (0) | 2024.07.11 |
댓글 영역