상세 컨텐츠

본문 제목

OpenAI, 일부 유료 사용자에게 ChatGPT의 고급 음성 모드 공개

IT 소식

by 웨어러블서치 2024. 7. 31. 16:04

본문

반응형

The advanced voice mode had been delayed to ‘reach our bar to launch.’

고급 음성 모드가 '출시 기준에 도달'하기 위해 지연되고 있습니다.


 

사진출처) Open AI

 

7월 30일에 OpenAI는 ChatGPT의 고급 음성 모드를 출시하기 시작하여 사용자들이 GPT-4o를 이용하여 영화 'Her'에서 처럼 사실적인 응답이 가능하게 되었습니다. 공개된 알파 버전은 오늘부터 일부 ChatGPT 플러스 사용자에게 제공되며, 2024년 가을에 모든 플러스 사용자에게 점진적으로 출시될 예정이라고 OpenAI는 밝혔습니다.

지난 5월 OpenAI가 처음 GPT-4o의 목소리를 선보였을 때, 이 기능은 빠른 반응과 실제 사람의 목소리와 기묘하게 닮은 목소리로 청중들에게 충격을 안겨주었습니다. 스카이(SKY)라는 목소리는 영화 'Her'에서 인공 비서 '사만다'를 연기한 배우 스칼렛 요한슨의 목소리와 매우 흡사했습니다. OpenAI의 데모 직후, 스칼렛 요한슨은 자신의 목소리를 사용하는 것을 거절했으며, GPT-4o의 데모를 본 후 변호사를 선임하여 개인 권리 보호를 주장했습니다. OpenAI는 요한슨의 목소리를 사용한 것이 아니라고 주장했지만 결국 사용된 목소리를 삭제했습니다. 그 후, 지난 6월에 OpenAI는 안전 조치를 개선하기 위하여 고급 음성 모드의 출시를 연기하겠다고 밝혔습니다.

한 달이 지나서 공개된 알파버전의 GPT-4o 데모는 아직 데모일 뿐이지만, 일부 프리미엄 사용자는 이제 ChatGPT의 고급 음성 기능은 사용해 볼 수 있습니다. 아래는 미국의 IT언론사 더버지(TheVerge)에서 인스타그램에 공개한 ChatGPT의 고급 음성 기능의 영상을 링크가 포함되어 있습니다.

 

사진출처) TheVerge Instagram

 

이제 ChatGPT가 말하고 들을 수 있습니다

ChatGPT에서 음성 모드를 이미 사용해 보셨을 수도 있지만, OpenAI는 고급 음성 모드는 확실히 다르다고 말합니다. 기존 ChatGPT의 오디오 솔루션은 음성을 텍스트로 변환하는 모델, 프롬프트를 처리하는 GPT-4, 그리고 ChatGPT의 텍스트를 음성으로 변환하는 세 가지 개별 모델을 사용했습니다. 하지만 GPT-4o는 멀티모달로 보조 모델의 도움 없이 이러한 작업을 처리할 수 있어 대기 시간이 훨씬 짧은 대화를 생성합니다. 또한 OpenAI는 GPT-4o가 슬픔, 흥분, 노래 등 사용자의 목소리에서 감정적인 억양을 감지할 수 있다고 주장합니다.

이번 시범 서비스에서 ChatGPT 플러스 사용자는 OpenAI의 고급 음성 모드가 얼마나 사실적인지 직접 확인할 수 있습니다. OpenAI는 ChatGPT의 새로운 음성을 점진적으로 업그레이드하면서 사용 현황을 면밀히 모니터링할 예정이라고 밝혔습니다. 알파 버전의 테스트 그룹에 속한 사람들에게는 ChatGPT 앱에서 알림이 전송되고, 사용 방법이 담긴 이메일이 발송됩니다.

OpenAI는 데모 이후 몇 달 동안 알파 버전을 만들기 위해 45개 언어를 구사하는 100명 이상의 외부 레드 팀원들과 함께 GPT-4o의 음성 기능을 테스트했다고 밝혔습니다. OpenAI는 6월에 출시를 연기 했던 이유인 안전 노력에 대한 보고서를 8월 초에 발표할 예정이라고 밝혔습니다.

 

사진출처) Open AI

 

고급 음성 모드는 유료 성우와 협력하여 만든 ChatGPT의 네 가지 사전 설정 음성(주니퍼, 브리즈, 코브, 엠버)으로 제한될 것이라고 밝혔습니다. OpenAI의 5월 데모에서 선보인 SKY의 음성은 더 이상 ChatGPT에서 사용할 수 없습니다. OpenAI 대변인 린제이 맥컬럼은 "ChatGPT는 개인이든 공인이든 다른 사람의 목소리를 사칭할 수 없으며, 사전 설정된 목소리외에 다른 목소리로 출력되지 않습니다."라고 이야기 합니다.

OpenAI는 딥페이크 논란을 피하기 위해 노력하고 있습니다. 지난 1월에는 AI 스타트업 일레븐랩스(ElevenLabs)에서 음성 복제 기술을 이용하여 바이든 대통령을 사칭하는 데 사용되어 뉴햄프셔의 예비 유권자들을 속인 바 있습니다.

OpenAI는 또한 음악이나 기타 저작권이 있는 오디오를 생성하려는 특정 요청을 차단하는 새로운 필터를 도입했다고 밝혔습니다. 작년에 AI 회사들은 저작권 침해로 법적 문제에 휘말렸으며, GPT-4o와 같은 오디오 모델은 완전히 새로운 문제를 촉발하였습니다. 특히, 저작권 침해에 음반사들은 이미 AI 노래 생성기인 Suno와 Udio를 유사한 문제로 고소했었습니다.


※ 기사 내용 참조

[TechCrunch] OpenAI releases ChatGPT’s hyper-realistic voice to some paying users | By Maxwell Zeff | July 30, 2024 11:30 AM PDT | https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

[TheVerge] OpenAI starts rolling out its Her-like voice mode for ChatGPT | By Jay Peters | Jul 31, 2024, 3:30 AM GMT+9 | https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode


https://pf.kakao.com/_UCxoxnT

 

웨어러블서치

기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.

pf.kakao.com

 

728x90
반응형

관련글 더보기

댓글 영역