상세 컨텐츠

본문 제목

구글의 이미지와 영상을 편집하는 새로운 AI, 한국에서는 아직...

IT 소식

by 웨어러블서치 2024. 12. 17. 16:22

본문

반응형

The Labs experiment lets you remix source images, but it struggles with complexity.

구글 Labs 실험은 소스 이미지를 병합할 수 있지만 복잡성 때문에 어려움을 겪습니다.


사진출처) 구글 랩스 캡쳐

 

구글은 최근 몇 가지 AI 도구를 추가했습니다. Whisk(위스크)는 기존 이미지를 프롬프트로 사용할 수 있는 이미지 도구이며, Veo2(베오2)는 비디오를 생성할 수 있는 도구로 두 가지 모두 구글 랩스(Google Labs)에서 테스트를 진행 중 입니다. 아쉽게도 한국에서 사용하기는 어려워서 해외 언론사에서 사용해 본 내용을 위주로 정리해 보았습니다.

Whisk는 새로운 이미지를 만드는 것이 아니라, 첫 번째 이미지의 본질을 이용하여 재창조합니다.즉, 원본 이미지를 편집하는 것보다 브레인스토밍과 빠른 시각화에 더 적합합니다.

구글은 Whisk를 새로운 유형의 창작 도구라고 설명합니다. 입력 화면은 스타일과 주제를 입력할 수 있는 기본 인터페이스로 시작됩니다. 이 간단한 입문용 인터페이스에서는 스티커, 에나멜 핀, 봉제 인형의 세 가지 사전 정의된 스타일 중에서만 선택할 수 있습니다. 구글은 위의 세 가지가 가장 이상적인 결과물을 만들 수 있다고 생각하는 것 같습니다.

사진출처) 구글 랩스 캡쳐 / Engadget

 

해외의 IT언론사인 엔가젯(Engadget)에서는 Whisk를 이용하여 미국의 유명한 배우이자 가수인 고(故) 윌포드 브림리(Wilford Brimley)의 봉제 인형 이미지를 만들어 냈습니다. 구글의 약관은 유명인의 사진을 금지하고 있지만, 윌포드의 이미지가 가능했다고 엔가젯에서는 이야기 합니다.

Whisk에는 고급 편집기는 메인 화면에서 'Start from scratch(처음부터 시작)'을 클릭하여 찾을 수 있다고 하며, 이 모드에서는 주제, 장면, 스타일의 세 가지 카테고리에서 텍스트 또는 소스 이미지를 사용할 수 있으며, 마무리 작업을 위해 텍스트를 더 추가할 수 있는 입력 막대도 있다고 합니다.

예를 들어 온라인에서 찾은 바다코끼리 봉제 인형 이미지 스타일의 라이트박스 장면에서 윌포트 브림리의 다른 이미지를 생성하려고 시도해 보았다고 합니다.

 

사진출처) 구글 랩스 캡쳐 / Engadget

 

라이트박스 프레임 안에서 오트밀을 먹는 윌포드 브림리를 닮은 배우를 만들어 냈습니다. 하지만 구글이 Whisk를 콘텐츠 제작에는 사용하지 말 것을 권장하는 이유를 알 수 있습니다.

Whisk는 이미지에서 특정 요소를 추출해 새롭게 이미지를 생성할 수 있는 기능을 제공합니다. 하지만 구글은 Whisk를 콘텐츠 제작 목적으로 사용하지 말 것을 권장하고 있습니다. 그 이유는 Whisk가 원본 이미지의 "몇 가지 주요 특징"만을 추출하고, 나머지는 새롭게 생성하기 때문입니다.

예를 들어, Whisk로 생성된 이미지에서는 인물의 키, 몸무게, 헤어스타일, 피부 톤 등이 원본 이미지와 다를 수 있습니다. 구글은 이 점을 사용자들에게 미리 경고하고 있습니다.

이런 결과가 나오는 이유는 Whisk의 작동 방식에 있습니다. Whisk는 사용자가 업로드한 이미지를 기반으로 Gemini라는 언어 모델이 해당 이미지에 대한 상세 설명(캡션)을 작성합니다. 그런 다음 이 설명을 Imagen 3라는 이미지 생성기에 입력해 최종 이미지를 생성합니다. 즉, 최종 이미지는 원본 이미지를 직접 바탕으로 한 것이 아니라, 이미지에 대한 텍스트 설명을 토대로 만들어진 것입니다.

사진출처) 구글 랩스 캡쳐 / Engadget

 

구글의 베오2(Veo2)는 비디오를 생성할 수 있는 도구는 최근에 기업 고객을 대상으로 한 Veo 생성 AI의 새로운 버전 입니다. 월요일에 공개된 Veo 2의 미리보기는 한층 업그레이드된 기능을 자랑합니다. 구글에 따르면 Veo 2는 “영화 촬영의 언어를 이해”한다고 하는데, 이는 특정 영화 장르, 영화 효과, 또는 렌즈 스타일을 모델에 요청해 참조할 수 있다는 의미입니다.

또한 Veo 2는 실제 물리학과 인간의 움직임을 더 잘 이해하도록 설계되었습니다. 특히, 움직이는 사람을 정확하게 모델링하는 것은 지금까지 대부분의 생성 AI가 어려움을 겪는 부분인데, Veo 2가 이 점에서 더 개선되었다는 구글의 주장은 매우 주목할 만합니다.

물론, 구글이 제공한 샘플 영상만으로는 Veo 2의 성능을 완전히 평가하기 어렵습니다. 예를 들어, 체조 선수가 루틴을 수행하는 동영상을 생성하도록 요청했을 때 얼마나 자연스러운 결과가 나오는지를 테스트해봐야 진정한 성능을 알 수 있을 것입니다. 그리고 흔히 발생하는 ‘손가락’ 문제는 다섯개 이상이거나 이상한 디테일로 나타나는 문제에 대해서도 구글은 Veo 2가 이런 오류를 “덜 자주” 생성한다고 밝혔습니다.

 

사진출처) 구글 랩스 캡쳐

 

아쉽게도 Whisk와 Veo2는 현재로서는 미국에서만 사용할 수 있습니다. Veo2의 경우는 이메일로 로그인 한 후에 Google Labs 사이트의 대기자 명단에 포함된 후 승인을 받아야 사용해 볼 수 있다고 합니다.

사진출처) 구글 랩스 캡쳐


※ 기사 내용 참조

[Engadget] Google’s new AI tool Whisk uses images as prompts | By Will Shanklin | Tue, Dec 17, 2024, 6:01 AM GMT+9 | https://www.engadget.com/ai/googles-new-ai-tool-whisk-uses-images-as-prompts-210105371.html

 

[Engadget] Google's new AI video model sucks less at physics | By Igor Bonifacic | Tue, Dec 17, 2024, 2:00 AM GMT+9 | https://www.engadget.com/ai/googles-new-ai-video-model-sucks-less-at-physics-170041204.html

[Google] Whisk | http://labs.google/whisk

[Google] Veo2 | https://deepmind.google/technologies/veo/veo-2/


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역