해동일본기술정보센터 | 해동일본기술정보센터

구글, AI 모델을 업데이트 -- 경량, 고속, 저가의 'Gemini 1.5 Flash' 발표

카테고리AI/ 로봇·드론/ VR
기사일자 2024.5.15
신문사 Nikkei X-TECH
게재면 online
작성자hjtic
날짜2024-05-23 14:18:20
조회수710

Nikkei X-TECH_2024.5.15

실리콘밸리 테크프론트
구글, AI 모델을 업데이트
경량, 고속, 저가의 'Gemini 1.5 Flash' 발표

미국 구글은 미국시간 2024년 5월 14일, 연차 이벤트 ‘Google I/O’를 열어, AI(인공지능) 모델 ‘Gemini(제미나이)’의 업데이트를 발표했다. 경량에 고속인 ‘Gemini 1.5 Flash’를 모델 패밀리에 새롭게 추가한다. 미국 오픈 AI도 스피드를 중시한 AI 모델 ‘GPT-4o’를 발표한 지 얼마 되지 않았다. 지연속도(Latency)를 억제한 고속 모델이 AI의 트렌드가 되기 시작했다.

구글은 Gemini 1.5 Flash를 API(애플리케이션 프로그래밍 인터페이스)를 통해 제공한다. 대응 언어는 영어뿐이다. 구글의 개발자용 AI 개발 서비스 ‘Google AI Studio’와 AI 개발 기반 ‘Vertex AI’에서 퍼블릭 프리뷰로서 공개했다.

Gemini에는 여러 모델이 존재하며 초대 'Gemini 1.0'은 사이즈 순으로 Ultra, Pro, Nano의 3개 모델로 구성된다. 2024년 4월에는 차세대 판인 ‘Gemini 1.5 Pro’를 일반에 공개했다. 새롭게 추가된 Gemini 1.5 Flash는 1.5 Pro보다 소형 모델로, API를 통해 제공되는 가장 고속 모델이다. 대규모이면서 높은 빈도의 태스크에 최적화되어 있다고 한다.

Google I/O의 기조강연에 등단한 Google DeepMind의 데미스 하사비스(Demis Hassabis) CEO는 “우리는 많은 유스 케이스에 대응하기 위해서 여러 모델을 구축해 왔다. 유저의 피드백을 통해 애플리케이션에 따라서는 보다 적은 지연속도와 비용을 필요로 한다는 것을 알았다”라고 Gemini 1.5 Flash를 개발한 배경을 설명했다.

Gemini 1.5 Flash는 100만 토큰의 컨텍스트 윈도를 갖추고 텍스트와 음성, 이미지 등의 조합이 가능한 멀티모달이 특징이다. 유스케이스의 대부분에서 지연속도는 1초 미만으로, 일반적인 작업의 대부분에서 보다 거대한 모델과 동등한 성능을 발휘한다고 한다.

가성비도 뛰어나다. API를 통해 제공되는 Gemini 1.5 Pro의 가격이 100만 토큰 당 3.5달러이었던 것에 비해, Gemini 1.5 Flash는 0.35달러로 10분의 1로 억제했다.

구글은 Gemini 1.5 Flash의 개발에서, ‘증류(Distillation)’라고 불리는 기법을 이용했다. 부모가 되는 기존 모델의 출력을 사용해 새로운 모델을 트레이닝 하는 기법으로, 부모 모델에 비해 파라미터 수를 작게 할 수 있는 특징이 있다. Gemini 1.5 Flash는 부모 모델로서 1.5 Pro를 이용했다. Google DeepMind의 코레이 카부쿠오글루(Koray Kavukcuoglu) CTO(최고기술책임자)는 기자설명회에서 “(Flash는) Pro라는 큰 모델에서 정보를 추출해 작은 모델에서 효율적으로 사용할 수 있도록 했다”라고 설명했다.

-- Gemini 1.5 Pro는 200만 토큰에 대응 --
Gemini 1.5 Pro의 업데이트도 발표했다. 입력 토큰 길이를 기존 100만에서 200만으로 확장. 학습 데이터와 알고리즘 개선으로 코드 생성과 논리적 추론, 음성 및 이미지 이해 등을 강화했다. 많은 벤치마크에서 성능 향상을 확인할 수 있었다고 한다. 200만 토큰 이용은 API를 통해 Gemini를 사용하는 유저와 Google Cloud 고객에 한하므로 웨이팅 리스트에 등록해야 한다.

구글은 강화한 Gemini 1.5 Pro를 자사의 애플리케이션에 전개한다. 유료 AI 채팅 서비스 'Gemini Advanced'나 Gmail 등 앱 기능을 생성형 AI가 지원하는 'Gemini for Google Workspace'에 활용한다. 지금까지 두 서비스는 ‘Gemini 1.0 Ultra’를 이용하고 있었다.

최경량 모델인 'Gemini 1.0 Nano'는 이미지나 음성 입력이 가능해졌다. 지금까지는 텍스트에만 대응했었다. 스마트폰 등의 단말 상에서 멀티모달한 앱이 동작하게 된다.

-- 오픈 모델 'Gemma 2' 발표 --
개발자용 오픈 모델인 'Gemma(젬마)' 패밀리의 업데이트도 발표했다. 시각 언어 모델 ‘PaliGemma’를 공개. 이미지나 영상 등의 시각적인 입력을 텍스트로서 출력하는 AI 모델로, 이미지나 짧은 영상에 캡션을 붙이거나 이미지 내의 텍스트를 인식하는 등의 이용에 적합하다고 한다.

Gemma의 차세대 모델인 ‘Gemma 2’를 트레이닝 중인 것도 밝혔다. 270억 파라미터 모델은 미국 Meta가 제공하는 ‘Llama 2’의 700억 파라미터 모델에 필적하는 성능을 갖고 있다고 한다.

-- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

일본산업뉴스요약