상세 컨텐츠

본문 제목

메타, 텍스트 명령으로 음악이 만들어지는 오디오크래프트 AI 코드 공개

IT 소식

by 웨어러블서치 2023. 8. 3. 13:30

본문

반응형

The new open-source AI models can make sounds entirely based on a text prompt.

새로운 오픈 소스 AI 모델은 텍스트 프롬프트를 기반으로 음악을 만들어 낼 수 있습니다.


사진출처) Nick Barclay / The Verge

페이스북과 인스타그램을 운영하는 미국의 정보기술 기업인 메타(Meta)는 사용자가 제너레이티브 AI를 통해 음악과 사운드를 제작할 수 있는 새로운 오픈 소스 AI 코드인 오디오크래프트(AudioCraft)를 공개했습니다.

오디오크래프트는 세 가지 AI 모델로 구성되어 있으며, 각기 다른 사운드 생성 영역을 다룹니다. 뮤직젠(MusicGen)은 텍스트 입력을 받아 음악을 생성합니다. 이 모델은 "메타가 소유하거나 이 용도로 특별히 라이선스를 받은 20,000시간 분량의 음악"으로 학습되었습니다. 오디오젠(AudioGen)은 개 짖는 소리나 발자국 소리 등을 시뮬레이션하는 서면 프롬프트에서 오디오를 생성하며, 공공 음향 효과에 대해 학습되었습니다. 향상된 버전의 메타 엔코덱(EnCodec)디코더를 사용하면 오디오를 너무 많이 조작할 때 발생하는 인공적인 느낌이 적은 사운드를 만들 수 있습니다.

이 회사는 미디어에 오디오크래프트(AudioCraft)로 만든 샘플 오디오를 들려주었습니다. 휘파람, 사이렌, 허밍 등 생성된 소음이 매우 자연스럽게 들렸습니다. 노래의 기타 줄은 실제처럼 느껴졌지만 여전히 인위적인 느낌이 들었습니다.

출처) 메타, 오디오크래프트(AudioCraft)로 만든 음악

메타는 음악과 AI의 결합을 시도한 가장 최신 기술입니다. 구글(Google)은 텍스트 명령을 기반으로 몇 분 분량의 사운드를 생성하는 대규모 언어 모델인 MusicLM을 고안해냈지만 내부의 연구원 액세스할 수 있습니다. 그 후 미국의 래퍼인 드레이크(Drake)와 캐나다의 싱어송라이터 위켄드(The Weeknd)의 목소리를 닮은 'AI가 생성한' 노래가 입소문을 타다가 삭제되기도 했습니다. 최근에는 캐나다의 싱어송라이터 그라임스(Grimes)와 같은 일부 뮤지션이 AI가 만든 노래에 자신의 목소리를 사용하도록 장려하고 있습니다.

물론 뮤지션들은 오랫동안 일렉트로닉 오디오를 실험해 왔으며, EDM과 울트라(Ultra) 같은 페스티벌이 갑자기 등장한 것은 아닙니다. 하지만 컴퓨터로 생성된 음악은 기존 오디오에서 조작된 사운드를 내는 경우가 많습니다. 오디오크래프트와 다른 생성형 AI 제작 음악은 텍스트와 방대한 사운드 데이터 라이브러리에서 이러한 사운드를 만들어냅니다.

현재로서는 오디오크래프트가 차세대 팝 히트곡보다는 엘리베이터 음악이나 분위기를 내기 위해 틀어놓을 수 있는 스톡송에 사용될 수 있는 것처럼 들립니다. 하지만 메타는 신디사이저가 대중화되면서 음악의 판도를 바꾼 것처럼 새로운 모델이 새로운 노래의 물결을 일으킬 수 있다고 믿습니다.

메타는 블로그에서 "신디사이저가 처음 등장했을 때처럼 뮤직젠이 새로운 유형의 악기로 변모할 수 있다고 생각합니다."라고 말했습니다. 메타는 수천 개의 포인트로 작동하는 라마 2(Llama 2)와 같은 텍스트 AI 모델에 비해 오디오에는 모델에는 수백만 개의 포인트가 작동하기 때문에 음악을 만들 수 있는 AI 모델을 만드는 것이 어렵다는 점을 강조 합니다.

오디오크래프트는 학습에 사용되는 데이터를 다양화하기 위해 오픈 소싱이 필요하다고 말합니다.

"저희는 모델 학습에 사용되는 데이터 세트의 다양성이 부족하다는 것을 알고 있습니다. 특히 사용되는 음악 데이터 세트에는 서양식 음악이 대부분이고 영어로 작성된 텍스트와 메타데이터가 있는 오디오-텍스트 쌍만 포함되어 있습니다."라고 메타는 말합니다. "오디오크래프트의 코드를 공유함으로써 다른 연구자들이 생성 모델의 잠재적 편향과 오용을 제한하거나 제거하기 위한 새로운 접근법을 더 쉽게 테스트할 수 있기를 바랍니다."

음반사와 아티스트들은 이미 AI의 위험성에 대해 경종을 울렸으며, 많은 사람들이 AI 모델이 저작권이 있는 자료를 학습용으로 사용하는 것을 우려하고 있으며, 역사적으로도 소송이 빈번합니다. 최근에는 스포티파이(Sportify)가 피아노 연주 시절부터 존재해 온 법에 따라 16억 달러 규모의 소송에 직면했습니다. 에드 시런(Ed Sheeran)이 승소하긴 했지만, 2014년 발표한 '씽킹 아웃 라우드(Thinking Out Loud)라는 곡이 1973년 발매된 마빈 게이(Marvin Gaye)의 '렛츠 겟 잇 온(Let's Get It On)'를 표절했는지에 대한 소송도 있었습니다.

하지만 메타의 오디오크래프트를 시작하기 전에 누군가는 음악뿐만 아니라 기계로 만든 노래를 더 많이 원하는 팬을 끌어들일 수 있는 방법이 있는지 찾아봐야 할 것 같습니다.

사진출처) 메타


※ 기사 내용 참조

[AudioCraft] 오디오크래프트 소스코드 (Github) | https://github.com/facebookresearch/audiocraft

[Meta] Introducing AudioCraft: A Generative AI Tool For Audio and Music | August 2, 2023 | https://about.fb.com/news/2023/08/audiocraft-generative-ai-for-music-and-audio/

[The Verge] Meta’s AI music generator could be the new synthesizer — or just muzak | By Emilia David | Aug 2, 2023, 10:33 PM GMT+9 | https://www.theverge.com/2023/8/2/23816431/meta-generative-ai-music-audio


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역