상세 컨텐츠

본문 제목

엔비디아의 푸가토 AI 모델, 세상에 없는 소리도 생성

IT 소식

by 웨어러블서치 2024. 11. 26. 15:23

본문

반응형

사진출처) ChatGPT의 DALL-E AI로 만든 이미지

 

AI 연구에 관심이 있다면 텍스트 입력만으로 음성이나 음악 멜로디를 생성하는 제너레이티브 모델은 이제 익숙한 개념일 것입니다. 엔비디아(Nvidia)가 새롭게 공개한 “푸가토(Fugatto)” 모델은 이 기술을 한 단계 더 발전시켰습니다. 이 모델은 혁신적인 합성 훈련 방식과 고도화된 추론 기술을 결합해, 음악, 음성, 다양한 소리를 자유롭게 변환하고, 기존에 없던 새로운 사운드까지 합성할 수 있는 가능성을 제시합니다.

현재는 테스트 단계에 있어 공개되지는 않았지만, 웹사이트를 통해 접해 본 내용 만으로도 푸가토의 잠재력을 엿볼 수 있습니다. 색소폰 소리나 수중에서 말하는 사람의 목소리, 구급차 사이렌 같은 다양한 오디오 특성을 조합하고 변형해 새로운 사운드를 만들어내는 과정을 경험할 수 있습니다. 예를 들어, 이를 활용해 여러 오디오를 조합해 마치 합창단의 노래 소리 같은 결과물을 생성할 수 있습니다. 아직 결과물의 완성도가 아쉬울 수 있지만, 푸가토가 제공하는 다양한 기능들은 엔비디아가 이를 “사운드를 위한 스위스 아미 나이프”로 부르는 이유를 잘 보여줍니다.

데이터 품질이 성능을 결정합니다.

엔비디아 연구진은 푸가토 모델의 기반이 되는 훈련 데이터 세트를 구축하는 과정에서 직면한 도전과 해결 방안을 설명합니다. 연구 논문에 따르면, 오디오와 언어 간의 의미 있는 관계를 밝혀내는 데이터 세트를 만드는 일은 상당히 까다롭습니다. 표준 언어 모델은 텍스트 기반 데이터에서 스스로 지침을 추론할 수 있지만, 오디오 데이터에서는 이러한 일반화가 쉽지 않기 때문입니다.

 

 

 

이를 해결하기 위해, 연구진은 LLM(대형 언어 모델)을 활용하여 다양한 오디오 '페르소나'(예: 표준, 젊은 군중, 30대, 전문가)를 설명하는 템플릿 기반 및 자유 형식의 지침을 생성할 수 있는 파이썬(Python) 스크립트를 작성했습니다. 이를 통해 연구진은 페르소나에 적용 가능한 절대적 지침(예: “행복한 목소리를 합성”)과 상대적 지침(예: “이 목소리의 행복도를 높이기”)을 자동으로 만들어냈습니다.

푸가토의 기반으로 사용된 오픈 소스 오디오 데이터 세트는 이러한 특성을 명시적으로 포함하지 않는 경우가 많습니다. 이를 보완하기 위해, 연구진은 기존의 오디오 이해 모델을 활용해 훈련 클립에 대해 자연어로 ‘합성 캡션’을 생성했습니다. 이 과정에서 성별, 감정, 음성 품질과 같은 특성뿐 아니라, 기본 주파수 분산이나 리버브 같은 음향적 수준의 정보를 정량화했습니다.

또한 연구진은 동일한 텍스트에 대해 다양한 감정 표현을 비교하거나, 같은 음을 연주하는 다른 악기의 소리를 비교하는 등 한 요소를 고정하고 다른 요소를 변화시킨 데이터 세트를 구축했습니다. 이렇게 비교 데이터를 통해 모델은 예를 들어 ‘더 행복한’이라는 명령어에서 나타나는 오디오 특성이나 색소폰과 플루트의 차이를 학습할 수 있게 되었습니다.

결과적으로, 연구진은 5만 시간 이상의 오디오를 포함하는 2,000만 개 이상의 개별 샘플로 구성된 방대한 주석 데이터 세트를 만들어냈습니다. 이 데이터 세트를 기반으로, 32개의 엔비디아 텐서 코어를 활용해 25억 개의 파라미터를 가진 푸가토 모델을 개발했습니다. 푸가토는 다양한 오디오 품질 테스트에서 신뢰할 만한 성능을 보여주며, 새로운 합성 가능성을 제시하고 있습니다.

사진출처) ChatGPT의 DALL-E AI로 만든 이미지

 

엔비디아는 푸가토 모델과 함께 ComposableART 시스템(“Audio Representation Transformation”)도 선보였습니다. 이 시스템은 텍스트 또는 오디오 프롬프트를 입력받아 “조건부 안내”를 통해 사용자가 원하는 방향으로 지시와 작업을 조합하고, 훈련 데이터의 범위를 넘어선 고도로 사용자 정의된 오디오 출력을 생성할 수 있습니다. 이를 통해 훈련 데이터의 다양한 특성을 결합해 완전히 새로운 사운드를 만들어내는 것이 가능해집니다.

ComposableART 시스템은 복잡한 수학적 기법에 기반을 두고 있습니다. 논문에서는 “명령어, 프레임 인덱스, 모델 간의 벡터 필드 가중 조합” 등을 언급하지만, 이러한 이론적 설명보다도 프로젝트 웹페이지와 엔비디아 트레일러에서 확인할 수 있는 실제 사례가 더 주목을 끕니다. 예를 들어, “웃는 아기처럼 들리는 바이올린”이나 “부드러운 빗소리 속에서 연주하는 밴조” 같은 사운드, 혹은 “금속성의 고통을 비명처럼 표현하는 공장 기계 소리” 등이 있습니다. 물론, 이러한 결과물 중 일부는 더 설득력 있게 들릴 수도 있지만, 푸가토가 매우 다른 오디오 데이터를 혼합하고 특성화할 수 있음을 증명하는 사례들입니다.

푸가토의 가장 놀라운 점은 각 오디오 특성을 이진법적 구분이 아니라 조정 가능한 연속체로 다룬다는 점입니다. 예를 들어, 어쿠스틱 기타 소리와 흐르는 물 소리를 혼합할 때, 기타와 물 각각의 비중을 조정하면 완전히 다른 결과를 얻을 수 있습니다. 엔비디아는 프랑스 억양을 더 강조하거나 약화시키거나, 말하는 클립에서 “슬픔의 정도”를 조절하는 예를 들어 이를 설명합니다.

뿐만 아니라, 푸가토는 기존 오디오 작업에도 능숙합니다. 텍스트에서 감정을 바꾸거나, 음악에서 보컬 트랙을 분리하는 작업은 물론이고, MIDI 음악에서 개별 음표를 감지해 이를 다른 보컬로 대체할 수도 있습니다. 또한 음악의 비트를 분석해 리듬에 맞춰 드럼 소리부터 짖는 개, 똑딱거리는 시계 소리까지 다양한 효과를 추가하는 것도 가능합니다. 푸가토는 기존의 제너레이티브 오디오 모델을 넘어, 독창적이고 자유로운 소리의 세계를 탐구할 수 있는 새로운 지평을 열고 있습니다.

 

사진출처) Nvidia Research

 

엔비디아는 푸가토를 “데이터와 모델 규모에서 비지도 멀티태스크 학습이 열어갈 미래를 향한 첫 걸음”으로 설명하면서도, 이미 다양한 실질적 활용 가능성을 제시하고 있습니다. 예를 들어, 노래 프로토타입 제작, 동적으로 변하는 비디오 게임 사운드트랙, 국제 광고 타겟팅 등 다양한 분야에서 응용될 수 있다고 밝혔습니다. 다만, 엔비디아는 푸가토 같은 AI 모델이 오디오 아티스트의 창의적 재능을 대체하려는 것이 아니라, 그들에게 새로운 도구를 제공하기 위한 것임을 강조합니다.

 

엔비디아 인셉션(Inception) 프로그램에 참여 중인 프로듀서이자 작곡가인 이도 즈미슐라니(Ido Zmishlany)는 엔비디아 블로그 게시물에서 다음과 같이 말했습니다. "음악의 역사는 곧 기술의 역사이기도 합니다. 전기 기타는 세상에 록앤롤을 선사했고, 샘플러는 힙합의 탄생을 가능하게 했습니다. 이제 AI를 통해 우리는 음악의 새로운 장을 쓰고 있습니다. 새로운 악기와 음악을 창작하는 도구들이 생겨났고, 이 모든 것이 정말 흥미롭습니다."

 

푸가토는 단순히 기술적 혁신에 그치지 않고, 음악 창작의 패러다임을 바꾸는 도구로서 자리 잡을 가능성을 보여주고 있습니다.

 


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역