상세 컨텐츠

본문 제목

옴니휴먼-1, 사진 한장으로 생생한 영상을 만드는 틱톡의 AI 도구

IT 소식

by 웨어러블서치 2025. 2. 6. 16:13

본문

반응형

Currently, we do not offer services or downloads anywhere. Please be cautious of fraudulent information. We will provide timely updates on future developments.

현재 옴니휴먼-1은 어디에서도 서비스나 다운로드를 제공하지 않습니다. 사기성 정보에 주의하세요. 향후 개발에 대한 적시 업데이트를 제공하겠습니다.


사진출처) Leslie Katz의 OmniHuman 스크린샷

 

틱톡(TikTok)의 모회사인 바이트댄스(ByteDance)는 사진 한 장으로 말하기, 몸짓, 노래, 악기 연주 등을 하는 사람의 실물 같은 동영상을 생성할 수 있는 인공지능 시스템인 옴니휴먼-1(OmniHuman-1)이라는 AI 도구를 공개했습니다.

옴니휴먼-1의 연구 논문에서 “옴니휴먼(OmniHuman)은 오디오를 기반으로 매우 사실적인 사람의 영상을 생성하여 기존 방법보다 훨씬 뛰어난 성능을 제공합니다.”라고 설명합니다. “인물, 반신 또는 전신 이미지 등 모든 종횡비의 이미지 입력을 지원하여 다양한 시나리오에서 더욱 생생하고 고품질의 결과물을 제공합니다.”

연구원들은 옴니휴먼-1 프로젝트 페이지에서 이 AI 도구의 기능을 보여주는 샘플 동영상을 공유합니다. 여러 각도에서 본 손과 몸의 움직임, 애니메이션 캐릭터, 동물, 역사적 인물이 살아 움직이는 것과 같은 모습을 보여줍니다.

흑백 영상속의 알버트 아인슈타인은 칠판 앞에서 손짓과 미묘한 표정으로 자연스럽게 이야기 합니다. “감정이 없는 예술은 어떤 모습일까요? 공허할 것입니다. 감정이 없다면 우리 삶은 어떤 모습일까요? 가치관이 공허할 것입니다.”

마치 시간을 거슬러 올라가 알버트 아인슈타인이 대학에서 이론 물리학을 강연하는 모습을 보는 것 같지만, 영상은 최근에 만들어 진 것 입니다.

“매우 인상적입니다."라고 서던 캘리포니아 대학교(University of Southern California)의 아넨버그 커뮤니케이션 및 저널리즘 스쿨(Annenberg School for Communication and Journalism) 교수인 프레디 트랜 나거(Freddy Tran Nager)는 아래의 동영상을 본 후 인터뷰에서 다음과 같이 이야기 했다고 합니다. “험프리 보가트를 부활시켜 영화에 캐스팅할 생각이라면 어떻게 보일지는 잘 모르겠지만, 휴대폰과 같은 작은화면에서 보면 인상적입니다.”

 

사진출처) Kyle Wiggers의 OmniHuman 스크린샷

 

이 도구를 통해 바이트댄스와 틱톡은 사실적으로 보이는 생성형 AI 영상 제작과 관련된 디지털 휴먼 AI 도구의 치열한 경쟁에서 우위를 점하게 되었습니다. 이러한 디지털 휴먼은 제품을 홍보하는 가상 인플루언서, 서비스 이용을 돕는 가상의 안내원, 팬들과 즐겁게 소통하는 버추얼 스타(Virtual Star)등 모든 곳에서 등장할 수 있지만, 자칫 가짜 뉴스나 거짓 선동으로 사용 될 우려도 있습니다.

나거 교수는 교육 환경에서 강사나 학생 모두 옴니휴먼과 같은 시스템을 사용하여 마릴린 먼로가 학생들에게 통계학을 가르치는 것과 같은 일을 상상할 수 있습니다. 옴니휴먼은 틱톡과 연결되어 있기 때문에 콘텐츠 크리에이터가 자신의 가상 버전으로 사용할 수도 있다고 상상할 수 있습니다. 혹은 틱톡에서 스스로 동영상을 만들기 때문에 사람은 더 이상 필요하지 않을 수도 있습니다.

뉴욕대학교(NYC) 스타인하르트 문화, 교육 및 인간 개발 학교(Steinhardt School of Culture, Education and Human Development)의 겸임교수이자 신기술 마케팅 컨설팅 회사인 PitchFWD의 창업자인 사만다 G. 울프(Samantha G. Wolfe)도 옴니휴먼과 같은 도구의 가능성과 잠재적 위험성을 이야기 합니다.

“사진만으로 무언가를 만들어 실제로 말하고 움직이는 것처럼 보이게 만드는 것은 기술적인 관점에서 볼 때 매우 매력적이지만, 잠재적으로 부정적인 결과를 초래할 수도 있습니다."라고 그녀는 인터뷰에서 말했습니다. “비즈니스 리더나 정치 지도자가 정확하지 않은 말을 이용하여 비즈니스나 국가에 큰 영향을 미칠 수 있습니다.”

울프 교수는 AI로 생성된 동영상이 더욱 정교해짐에 따라 위험도 증가한다고 말했습니다. “점점 더 현실처럼 보이기 시작하고, 점점 더 사람이 실제로 하는 것처럼 보이기 시작하면 사람들이 가짜뉴스나 거짓선동 및 보이스피싱 같은 범죄에 이용될 가능성이 훨씬 더 커집니다."라고 이야기 합니다.

바이트댄스 팀은 텍스트, 오디오, 신체 포즈 등 다양한 유형의 입력을 결합한 18,700시간 이상의 사람이 나오는 영상 데이터를 바탕으로 옴니휴먼을 훈련시켰지만, 바이트댄스 측은 훈련 데이터에 대한 자세한 설명 요청에 즉시 응답하지 않았다고 합니다.

 

옴니휴먼은 사진 한 장으로 동영상을 생성하는 최초의 AI 도구는 아니지만, 이 AI 도구가 차별화되는 것은 접근할 수 있는 학습 데이터의 양이 엄청나다는 것입니다.틱톡 사용자가 만든 동영상이 버추얼 휴먼을 만드는 데 사용될 데이터베이스에 들어갔을 가능성이 높습니다. 더 무서운 것은 벌써 '옴니휴먼', 'OmniHuman-1'과 관련된 사기성 정보가 담긴 사이트와 앱들이 온라인에 개제되거나 출시 준비중으로 보입니다. 검색하실 때 주의가 필요합니다.


※ YouTube 영상 링크: https://youtu.be/t6U2PFKtDXo

 

※ YouTube 영상 링크: https://youtu.be/4GRyt0GIcl4

 


※ 기사 내용 참조

[Forbes] TikTok Owner’s New AI Tool Makes Lifelike Videos From A Single Photo | By Leslie Katz | Feb 5, 2025,02:36pm EST | https://www.forbes.com/sites/lesliekatz/2025/02/05/tiktok-owners-new-ai-tool-makes-lifelike-videos-from-a-single-photo/

[OmniHuman-1 연구논문] Rethinking the Scaling-Up of One-Stage Conditioned Human Animation Models | https://omnihuman-lab.github.io/


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역