일본산업뉴스요약

구글의 차세대 AI 모델 'Gemini'의 실력 -- 거의 모든 지표에서 'GPT-4'를 능가
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2023.12.7
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2023-12-14 20:23:10
  • 조회수122

Nikkei X-TECH_2023.12.7

구글의 차세대 AI 모델 'Gemini'의 실력
거의 모든 지표에서 'GPT-4'를 능가

미국 구글은 2023년 12월 6일, 차세대 AI(인공지능) 모델 ‘Gemini(제미나이)’를 발표했다. 텍스트나 이미지, 음성, 동영상, 프로그램 코드 등 다양한 종류의 정보에 대응할 수 있는 ‘멀티 모달’이 특징이다. 주요 지표 중 상당수에서 미국 오픈 AI의 ‘GPT-4’를 웃돌았다고 한다. 구글의 선다 피차이 CEO는 “Gemini는 지금까지 중에서 가장 고성능이면서 범용적인 모델이다”라고 말했다.

Gemini로 어떤 일이 가능해질까? 구글은 온라인 기자설명회에서 Gemini를 사용한 시연 동영상을 공개했다.

데모 동영상에서는 카메라로 책상 위를 촬영해 Gemini에 입력하는 모습을 담고 있다. 사람이 "무엇이 보이는지 알려달라"라고 음성으로 전달하며 탁상 종이에 선을 그리면, Gemini는 “테이블 위에 종이가 보인다. 매끄럽고 흐르는 듯한 선을 그리고 있다”라고 답했다. 사람이 오리 같은 그림을 그리면 “나한테는 새처럼 보인다. 목이 길어 오리과 물새의 일종이다”라고 답하며, 품종 등의 설명을 시작했다.

사람이 고무 오리 장난감을 카메라에 비추면서 “이건 뜰까?"라고 질문하자 "재질은 잘 모르겠지만 고무나 플라스틱 같은 느낌이 든다"라고 말한다. 인간이 장난감을 눌러 '삑삑' 소리를 내면 "삑삑 소리가 나면 무조건 뜬다. 그건 고무 오리로, 물보다 밀도가 낮은 소재로 되어 있다”라고 답했다.

사람이 세계지도를 책상에 올려놓고 “당신이 본 것을 바탕으로 게임 아이디어를 생각해 봐라”라고 지시하면, Gemini는 ‘국가 맞추기 게임’을 제안한다. "캥거루와 코알라와 그레이트 배리어 리프"라고 힌트를 제시하고 사람이 지도 위에서 호주를 가리키자 "간단하네"라고 답했다.

이처럼 데모 동영상에서는 멀티 모달의 성능을 발휘한 응답이 이어졌다. 책상 위 종이에 갈림길을 그린 후에 한쪽 길에는 곰, 다른 한쪽에는 오리 그림을 그리고 “오리는 어느 쪽으로 가야 하는가?”라고 묻자 “왼쪽에는 친구, 오른쪽에는 적이 있다.

적을 만드는 것보다 친구를 사귀는 것이 낫기 때문에 왼쪽으로 가야 한다”고 답했다. 책상 위에 올려놓은 스마트폰에 동영상을 띄우고, 그 동영상을 중간에 멈추고 “다음에 무슨 일이 일어날 것 같아?”라고 묻자 그럴듯한 스토리를 답했다.

-- 경량 모델은 발표한 날 이용 가능 --
Gemini는 용도에 따른 3종류의 모델이 있다. 복잡한 태스크에 대응하는 최대 모델인 'Gemini Ultra', 폭넓은 태스크에 대응할 수 있는 범용 모델 'Gemini Pro', 모바일에서의 태스크에 최적화한 경량 모델 'Gemini Nano'다.

Ultra는 24년 초에 공개 예정이다. Pro는 23년 12월 13일에 구글의 AI 개발 기반 ‘Vertex AI’ 등에서 API(애플리케이션 프로그래밍 인터페이스) 경유로 이용할 수 있게 된다. Nano는 23년 12월 6일부터, 구글의 스마트폰 ‘Pixel 8 Pro’ 상에서 이용 가능하다. Pixel의 녹음 앱에서 변환한 텍스트를 인터넷 접속 없이 요약할 수 있다.

"조사한 32가지 벤치마크 중 30가지에서 현재의 최첨단 모델을 훨씬 웃돌았다." Google DeepMind의 엘리 콜린스(Eli Collins) 부사장은 최대 모델인 Gemini Ultra에 대해 이렇게 설명한다. 최첨단 모델이 오픈 AI의 'GPT-4'를 지칭하는 것은 분명하다.

-- '인간 전문가를 넘어선 첫 AI 모델' --
구글에 따르면 Gemini Ultra는 수학이나 물리학, 역사, 법률 등 57개 과목을 조합해 지식과 문제해결 능력을 테스트하는 ‘MMLU’에서 90.0%를 기록했다. 인간 전문가의 퍼포먼스를 처음으로 앞지른 모델이라고 한다.

다양한 종류의 입력을 통해 멀티 모달 태스크를 계측하는 'MMMU'에서도 역대 최고 수준인 59.4%를 기록했다. 구글이 공개한 자료에 따르면 MMLU와 MMMU를 포함한 거의 모든 지표에서 GPT-4의 성능을 Gemini Ultra가 앞질렀다.

모델의 파라미터수는 공개하지 않는다. 콜린스 부사장은 “우리는 Gemini를 가장 효율적인 모델로서 제공할 수 있도록 설계했다. 파라미터수는 반드시 적절한 지표는 아니다”라고 말하는데 그쳤다.

Gemini를 기반 모델로 이용하는 서비스도 발표했다. 코드 생성 시스템 ‘AlphaCode 2’는 2년 전 구글이 발표한 ‘AlphaCode’의 차세대 버전으로, 코딩 외에도 복잡한 수학이나 컴퓨터 사이언스 문제에 대응할 수 있다.

AI 챗봇 'Bard'도 Gemini를 기반 모델로서 업데이트한다. Bard는 170개 이상의 국가와 지역에서 이용할 수 있다. 언어는 영어뿐이며 앞으로 몇 개원 안에 언어와 지역을 확대한다고 한다.

2024년 초에는 Gemini Ultra를 이용한 새로운 서비스 'Bard Advanced'도 시작한다. Bard는 현재 무료이지만 Bard Advanced의 가격에 대해 Bard 담당자는 “최고의 체험을 제공하는 데 집중하고 있다. 수익화(Monetize)도 모색해 나가겠지만 지금 공유할 수 있는 것은 없다”라고 말했다.

새로운 AI 액셀러레이터인 'Cloud TPU v5p'도 발표했다. 전세대인 ‘Cloud TPU v4’와 비교해 대규모 언어모델의 트레이닝이 2.8배 빨라진다고 한다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록