상세 컨텐츠

본문 제목

오픈AI, 챗지피티를 지원하는 GPT-4o '옴니' 모델 데뷔

IT 소식

by 웨어러블서치 2024. 5. 14. 15:18

본문

반응형

Chatbots, image generators and voice assistants are gradually merging into a single technology with a conversational voice.

챗봇, 이미지 생성기, 음성 어시스턴트는 대화형 음성을 갖춘 단일 기술로 점차 통합되고 있습니다.


사진출처) Open AI

 

오픈AI(OpenAI)는 5월 13일 월요일에 새로운 플래그십 제너레이티브 AI 모델인 GPT-4o를 발표했습니다. 여기서 'o'는 텍스트, 음성, 동영상을 처리하는 모델의 능력을 의미하는 '옴니'를 의미한다고 합니다. GPT-4o는 향후 몇 주에 걸쳐 개발자 및 일반 사용자 대상 제품 전반에 걸쳐 지속적으로 출시될 예정입니다.

오픈AI의 CTO 미라 무라티(Mira Murati)는 GPT-4o가 "GPT-4 수준의" 지능을 제공하지만 멀티모달(Muti Modal)과 미디어에 걸쳐 GPT-4의 기능을 개선된 것이라고 말했습니다.

무라티는 월요일 샌프란시스코에 위치한 오픈AI 사무실에서 열린 스트리밍 프레젠테이션에서 "GPT-4o는 음성, 텍스트, 시각 전반에 걸쳐 추론합니다."라고 말했습니다. "그리고 이것은 인간과 기계 간의 상호 작용의 미래를 바라보고 있기 때문에 매우 중요합니다."

OpenAI의 이전 "가장 진보된" 모델인 GPT-4 터보(Turbo)는 이미지와 텍스트의 조합으로 학습되어 이미지에서 텍스트를 추출하거나 이미지의 내용을 설명하는 등의 작업을 수행하기 위해 이미지와 텍스트를 분석할 수 있었습니다. 하지만 GPT-4o는 여기에 음성을 추가합니다.

추가된 음성 기능을 통해 여러 가지가 가능합니다.

 

사진출처) Open AI

 

GPT-4o는 오픈AI의 AI 기반 챗봇인 챗지피티(ChatGPT)의 경험을 크게 개선합니다. 이 플랫폼은 오랫동안 텍스트 음성 변환 모델을 사용하여 챗봇의 응답을 음성으로 변환하는 음성 모드를 제공해 왔지만, GPT-4o는 이를 더욱 강화하여 사용자가 챗지피티와 더욱 비서처럼 상호 작용할 수 있도록 합니다.

예를 들어, 사용자는 GPT-4o로 구동되는 챗지피티에 질문을 하고 답변하는 동안 챗지피티를 중단할 수 있습니다. 이 모델은 "실시간" 응답성을 제공하며, 사용자 목소리의 뉘앙스까지 포착하여 "다양한 감정적 스타일"(노래 포함)의 음성을 생성할 수 있다고 오픈AI는 이야기 합니다.

GPT-4o는 챗지피티의 비전 기능도 업그레이드합니다. 이제 사진이나 데스크톱 화면이 주어지면 챗지피티는 "이 소프트웨어 코드에서 무슨 일이 일어나고 있나요?"부터 "이 사람이 입고 있는 셔츠는 어떤 브랜드인가요?"에 이르기까지 관련 질문에 빠르게 답변할 수 있습니다.

 

사진출처) Open AI

 

이러한 기능은 앞으로 더욱 발전할 것이라고 무라티는 말합니다. 현재 GPT-4o는 다른 언어로 된 메뉴 사진을 보고 번역할 수 있지만, 향후에는 이 모델을 통해 예를 들어 실시간 스포츠 경기를 '시청'하고 규칙을 설명할 수 있게 될 것입니다.

무라티는 "AI 모델이 점점 더 복잡해지고 있다는 것을 알고 있지만, 상호작용 경험이 실제로 더 자연스럽고 쉬워지고 사용자가 UI와 상관없이 챗지피티와의 협업에만 집중할 수 있기를 바랍니다."라고 말합니다. "지난 몇 년 동안 우리는 이러한 모델의 지능을 개선하는 데 매우 집중해 왔습니다... 하지만 사용 편의성 측면에서 큰 진전을 이룬 것은 이번이 처음입니다."

GPT-4o는 약 50개 언어에 대한 향상된 성능을 통해 다국어 지원도 강화했다고 오픈AI는 이야기 합니다. 또한 오픈AI의 API와 마이크로소프트(Microsoft)의 애저(Azure) 오픈AI 서비스에서 GPT-4o는 GPT-4 터보보다 속도가 두 배 빠르고 가격은 절반이며 속도 제한이 더 높다고 회사 측은 말합니다.

현재 모든 고객에게 음성은 GPT-4o API의 일부가 아닙니다. 오픈AI는 오용의 위험을 언급하며 앞으로 몇 주 내에 "신뢰할 수 있는 소수의 파트너 그룹"을 대상으로 GPT-4o의 새로운 오디오 기능에 대한 지원을 먼저 시작할 계획이라고 밝혔습니다.

GPT-4o는 오늘부터 챗지피티의 무료(Free) 사용자와 5배 더 많은 메시지 한도를 제공하는 OpenAI의 프리미엄요금인 챗지피티 Plus 및 Team 요금제 가입자에게 제공됩니다. OpenAI는 사용자가 메시지 전송량 제한에 도달하면 챗지피티는 성능이 낮은 모델인 GPT-3.5로 자동 전환된다고 합니다. GPT-4o를 기반으로 하는 개선된 챗지피티 음성 환경은 기업용 옵션과 함께 다음 달 정도에 플러스 사용자들을 위한 알파 버전으로 출시될 예정입니다.

이와 관련하여 오픈AI는 새로운 홈 화면과 메시지 레이아웃을 갖춘 웹용 챗지피티 UI와 사용자가 키보드 단축키를 통해 질문하거나 스크린샷을 찍고 토론할 수 있는 macOS용 데스크톱 버전의 챗지피티를 곧 출시할 예정이라고 발표했습니다. 챗지피티 플러스 사용자는 오늘(5월 14일)부터 앱에 먼저 액세스할 수 있으며, 윈도우 버전은 올해 말에 출시될 예정입니다.

한편, OpenAI의 AI 모델을 기반으로 구축된 타사 챗봇 라이브러리 및 제작 도구인 GPT 스토어는 이제 ChatGPT의 무료 사용자도 이용할 수 있습니다. 또한 무료 사용자는 향후 상호작용을 위한 기본 설정을 기억하고, 파일과 사진을 업로드하고, 웹에서 적절한 질문에 대한 답변을 검색할 수 있는 메모리 기능을 활용할 수 있습니다.

상세 실행되는 내용에 대해서는 아래 Hello GPT-4o 링크에서 확인 할 수 있습니다.


※ 기사 내용 참조

[TechCrunch] OpenAI debuts GPT-4o ‘omni’ model now powering ChatGPT | by Kyle Wiggers | 10:06 AM PDT • May 13, 2024 | https://techcrunch.com/2024/05/13/openais-newest-model-is-gpt-4o/

[Open AI] Hello GPT-4o | https://openai.com/index/hello-gpt-4o/


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역