구글(Google)은 연례 개발자 컨퍼런스인 Google I/O 2025에서 제미나이(Gemini) 2.5 모델 시리즈에 대한 중요한 업데이트를 발표하며 인공지능 분야의 혁신을 이끌고 있습니다. 이번 업데이트는 크게 모델 성능 및 기능 향상, 새로운 기능 추가, 그리고 개발자 경험 개선이라는 세 가지 핵심 주제로 요약할 수 있습니다.
제미나이 2.5 Pro는 학술 벤치마크에서 뿐 아니라 실제 사용 환경에서도 뛰어난 성능을 입증하며, 인공지능(AI) 시스템이 서로 경쟁하여 최상의 웹사이트를 생성하는 플랫폼인 'WebDev Arena' 및 다양한 언어모델을 비교 평가하는 LMArena 리더보드에서 1위를 차지하며, 코딩 능력과 사용자 선호도 면에서도 AI 모델 리더보드에서 선두에 있습니다. 컨텍스트 윈도우(Context Windows)를 통해 최첨단 긴 문장과 컨텍스트(Context) 및 유튜브 같은 비디오 이해 성능을 제공한다고 합니다.
더 나아가 제미나이 2.5 Pro는 교육 및 학습 사용 사례에 관한 시스템 안내를 따를 때 학습 과학 원리에 맞게 학습되도록 훈련된 실험용 작업별 모델인 'LearnLM'을 통해 학습 분야에서도 탁월한 성과를 보이며, 교육 전문가들이 다른 모델보다 선호하는 학습 도구로 자리매김했습니다. 이는 교육 방식과 효과성을 직접 비교 평가한 결과로, AI 시스템 구축에 사용되는 5가지 학습 과학 원칙인 능동적 참여 유도, 피드백 제공, 반복 학습, 맥락화, 개인화 같은 원칙에서 모두 최상위 모델들을 능가하는 결과를 보여주었습니다.
또한, 제미니의 추론 능력을 극한까지 끌어올리는 실험적인 기능인 Deep Think이 도입되었습니다. Deep Think은 모델이 반응하기 전에 여러 가설을 고려할 수 있게 하여, 복잡한 수학 문제와 경쟁 수준 코딩 벤치마크에서 뛰어난 성과를 달성했습니다. 현재는 안전성 평가를 거쳐 신뢰할 수 있는 테스터들에게 공개될 예정입니다.
이와 함께, 속도와 효율성에 중점을 둔 제미나이 2.5 Flash도 대폭 개선되었습니다. 추론, 멀티모달, 코드 및 긴 컨텍스트 처리 능력 등 다양한 측면에서 향상되었으며, 기존보다 토큰을 20~30% 더 적게 사용하여 효율성 또한 높아졌습니다. 현재는 미리보기로 제공되고 있으며, 6월 초에 정식 출시될 예정입니다.
이번 업데이트에서는 제미나이 2.5 Pro와 Flash에 다양한 신규 기능이 추가되어 사용자 및 개발자 경험을 한층 더 풍부하게 만들었습니다. 먼저, 네이티브 오디오 출력 및 Live API(AI와 실시간 대화하는 Application Programming Interface) 개선은 보다 자연스럽고 표현력이 풍부한 대화 환경을 가능하게 합니다.
모델이 사용자 음성에서 감정을 감지하고 적절하게 응답하는 감정적 대화, 배경 대화를 무시하고 언제 응답해야 할지 아는 사전 대응형 오디오, 그리고 제미나이의 사고 능력을 활용하여 복잡한 작업을 지원하는 Thinking in the Live API(복잡한 사고 과정을 거쳐 유용한 답변을 실시간으로 제공하는 API) 등이 초기 기능으로 제공됩니다. 또한, 텍스트 음성 변환(TTS)을 위한 미리보기가 출시되어 두 가지 음성으로 텍스트 음성 변환을 지원하며, 24개 이상의 언어를 지원하고 언어 간 전환이 원활합니다.
다음으로, Project Mariner(자동화된 브라우저 탐색을 향한 중요한 단계)의 컴퓨터 활용 기능이 제미나이 API 및 Vertex AI(학습을 80%이상 줄인 프로프래그매틱 방식의 AI)에 도입됩니다. 이는 오토매이션 애니웨어(Automation Anywhere), 유니패스(UiPath) 등 여러 기업들이 이미 잠재력을 탐구하고 있으며, 올여름 개발자들에게 더 광범위하게 출시될 예정입니다. 이 기능은 AI 모델이 컴퓨터를 사용하여 복잡한 작업을 수행할 수 있도록 지원하여, 자동화 및 생산성 향상에 크게 기여할 것으로 기대됩니다.
마지막으로, 보안 기능도 대폭 강화되었습니다. 간접 프롬프트 인젝션과 같은 보안 위협에 대한 보호 기능이 향상되어, 제미나이 2.5는 현재까지 가장 안전한 모델로 평가받고 있습니다. 이는 AI 모델이 검색하는 데이터에 악성 명령어가 삽입되는 공격으로부터 제미나이를 효과적으로 보호합니다.
구글은 개발자 경험에 대한 투자를 지속하며, 제미나이 모델을 더욱 쉽게 활용하고 제어할 수 있도록 다양한 기능을 도입했습니다.
사고 요약 기능은 제미나이 API와 Vertex AI에 추가되어, 모델의 원초적인 생각을 명확한 형식으로 정리하여 제공합니다. 이는 개발자와 사용자가 제미나이 모델과의 상호 작용을 더 쉽게 이해하고 디버깅할 수 있도록 돕습니다. 모델의 사고 과정을 체계적으로 보여줌으로써, 복잡한 문제 해결 과정을 투명하게 파악할 수 있게 된 것입니다.
또한, 사고 예산 기능이 제미나이 2.5 Pro로 확장되었습니다. 이는 개발자가 모델이 응답하기 전에 생각하는 데 사용하는 토큰 수를 제어하거나, 심지어 사고 기능을 끌 수도 있게 합니다. 이를 통해 지연 시간과 품질의 균형을 조절하여 비용을 더욱 효율적으로 관리할 수 있게 됩니다.
마지막으로, 오픈 소스 도구와의 통합을 용이하게 하기 위해 제미나이 API에 MCP(모델 컨텍스트 프로토콜) 정의에 대한 네이티브 SDK 지원이 추가되었습니다. 이는 개발자가 에이전트 애플리케이션을 더욱 쉽게 구축할 수 있도록 지원하며, MCP 서버 및 기타 호스팅 도구를 배포하는 방법도 모색 중이라고 합니다.
이러한 모든 발전은 구글이 기술을 개선하고, 안전하고 책임감 있는 AI 개발 및 출시를 위해 노력하고 있음을 보여줍니다. 아래는 제미나이 API로 제공되는 텍스트 음성 변환 기능에 대한 유튜브 영상입니다.
※ 기사 내용 참조
[Google Blog] Gemini 2.5: Our most intelligent models are getting even better | by ulsee Doshi | May 20, 2025 | https://blog.google/technology/google-deepmind/google-gemini-updates-io-2025/#performance
[Google Gemini] https://gemini.google.com/
[Google YouTube] Native Audio Outputs | https://youtu.be/n3LPxbVzVeo
웨어러블서치
기술이 어디를 향하고 개인과 사회에 어떤 영향을 미치는지 연구합니다.
pf.kakao.com
Anthropic, Claude 챗봇에 음성 모드 및 웹 검색 기능 강화 (5) | 2025.05.29 |
---|---|
iOS 19에 포함될 기능, iPhone에서 Android로 eSIM 무선 전송 가능 (3) | 2025.05.28 |
AMD 96코어 Threadripper 9995WX, 인텔보다 2.2배 빠르다! (4) | 2025.05.23 |
Google AI 모드로 쇼핑을 스마트하고 편리하게 (1) | 2025.05.21 |
이제 AI가 윈도우를 연결한다고? GitHub와 MS가 MCP에 참여 (1) | 2025.05.20 |
댓글 영역