상세 컨텐츠

본문 제목

애플 AI도 일반 언어로 이미지 편집 가능

IT 소식

by 웨어러블서치 2024. 2. 14. 14:22

본문

반응형

MGIE, or MLLM-Guided Image Editing, will crop photos and brighten specific areas of a photo.

MGIE(MLLM-Guided Image Editing)는 사진을 자르고 사진의 특정 영역을 밝게 합니다.


사진출처) The Verge

 

애플(Apple)의 인공지능(AI) 기술이 뒤쳐져 있을 것이라고 생각할 수도 있지만, 그 동안 애플은 AI 연구원들은사람들이 상상하고 있던 것을 현실화하는데 많은 노력하고 있었습니다. 최신 논문으로 공개된 기술은 사용자가 사진 편집 소프트웨어를 사용하지 않고도 사진에서 변경하고 싶은 부분을 일반 언어로 설명하여 변경하는 새로운 모델을 출시했습니다.

애플과 캘리포니아대학교 산타바바라 캠퍼스(UC Santa Barbara / UCSB)와 함께 개발한 MGIE 모델은 텍스트 프롬프트를 통해 이미지 자르기, 크기 조정, 뒤집기, 필터 추가 등의 작업을 수행할 수 있습니다.

두 가지 다른 용도의 다중 언어 모델MLLM(Multimodal Large Language Model)을 혼합한 이미지 편집 모델 MGIE(MLLM-Guided Image Editing)로 사진의 특정 개체를 수정하여 다른 모양으로 만들거나 더 밝게 만드는 등 복잡한 이미지 편집 작업을 간단하게 할 수 있습니다. 우선 사용자 프롬프트를 해석하는 방법을 학습합니다. 다음 편집 결과가 어떻게 보일지 상상합니다. 예를 들어 사진에서 하늘을 더 파랗게 해달라는 요청은 이미지의 하늘 부분의 밝기를 높이는 것으로 바뀝니다.

MGIE로 사진을 편집할 때 사용자는 사진에서 변경하고 싶은 부분을 입력하기만 하면 됩니다. 이 문서에서는 페퍼로니 피자 이미지를 편집하는 예시를 사용했습니다. "더 건강하게"라는 메시지를 입력하면 야채 토핑이 추가됩니다. 사하라 사막의 호랑이 사진은 어둡게 보이지만 모델에게 "더 많은 빛을 시뮬레이션하기 위해 대비를 더 추가"하라고 입력하면 사진이 더 밝게 나타납니다.

 

사진출처) Apple

 

"짧지만 모호한 지침 대신 MGIE는 시각을 인식하는 명확한 의도를 도출하고 합리적인 이미지 편집을 유도합니다. 우리는 다양한 편집 측면에서 광범위한 연구를 수행하여 MGIE가 경쟁력을 유지하면서 효과적으로 성능을 향상시킨다는 것을 입증했습니다. 또한 MLLM 가이드 프레임워크가 향후 시각 및 언어 연구에 기여할 수 있다고 생각합니다."라고 애플의 AI 연구진은 논문에서 밝혔습니다.

애플은 깃허브(Github)를 통해 MGIE를 다운로드할 수 있도록 했지만, 허깅 페이스 스페이스(Hugging Face Spaces)에 대한 웹 데모도 공개했다고, 미국의 IT관련 웹사이트 벤추어비트(VentureBeat)는 보도했습니다. 애플은 연구 외에 이 모델에 대한 계획이 무엇인지에 대해서는 밝히지 않았습니다.

OpenAI의 DALL-E 3와 같은 일부 이미지 생성 플랫폼은 텍스트 입력을 통해 생성한 사진에 간단한 사진 편집 작업을 수행할 수 있습니다. 대부분의 사람들이 이미지 편집을 위해 사용하는 포토샵 제작사 Adobe도 자체 AI 편집 모델을 보유하고 있습니다. Firefly AI 모델은 생성된 배경을 사진에 추가하는 제너레이티브 채우기 기능을 제공합니다.

애플은 아직까지 마이크로소프트, 메타, 구글과 달리 제너레이티브 AI 분야에서 큰 역할을 하지는 않고있지만, 애플의 팀 쿡(Tim Cook) CEO는 올해 애플의 다양한 기기에 더 많은 AI 기능을 추가할 계획이라고 밝힌 바 있습니다. 지난 12월, Apple 연구원들은 MLX라는 오픈 소스 머신 러닝 프레임워크를 출시하여 Apple 실리콘 칩에서 AI 모델을 더 쉽게 훈련할 수 있도록 진행하고 있습니다.


※ 기사 내용 참조

[The Verge] Apple made an AI image tool that lets you make edits by describing them | By Emilia David | Feb 8, 2024, 4:49 AM GMT+9 | https://www.theverge.com/2024/2/7/24065125/apple-generative-ai-image-editing-mgie-open-source-model


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역