니케이 컴퓨터 2024/05/30(2) 오픈AI와 구글, 새로운 AI의 대기시간 개선 및 요금 인하

책 커버 표지
목차

IT가 위험하다
’IBM 제공’의 Notes/Domino, 서포트 종료를 둘러싼 혼란
특집
<기술자의 상주·SES·다단계 하청, 전부 안 해>
이단으로 불리는 1조엔의 SI 기업 오츠카상회
매출액 1조 엔이 눈앞, 3가지 원동력으로 성장
방문지를 AI가 등록, 크게 진화된 영업 스타일
인력에 의존하지 않고 고성장, 이례적인 SI 전략

요약

Nikkei Computer_2024.5.30

오픈AI와 구글, 새로운 AI의 대기시간 개선 및 요금 인하
텍스트와 화상, 음성, 동영상 지원

미국 오픈AI와 구글이 5월 중순, 새로운 AI(인공지능) 모델을 잇달아 발표했다. 양사 모두 레이턴시(Latency, 대기시간)를 개선, 요금을 인하하고 있다.

오픈AI는 2024년 5월 13일(미국 시간)에, 새로운 AI 모델‘GPT-4o’를 발표했다. 현행 모델인 ‘GPT-4 turbo’의 뒤를 잇는 플래그십 모델이다. GPT-4o의 ‘o’는 ‘전체’를 의미하는 접두어 ‘옴니(Omni)’에서 유래한 것으로, 텍스트나 음성, 화상 등 모든 형태의 입력을 이해하고 처리할 수 있다.

오픈AI가 특히 강조한 것은 음성을 통한 대화 성능 향상이다. GPT-4 등 기존 모델을 이용한 '챗GPT'에서도 음성 모드 이용은 가능했지만 레이턴시에 과제가 있었다. 레이턴시는 평균적으로 GPT-3.5에서는 2.8초, GPT-4에서는 5.4초였다고 한다.

GPT-4o에서는 평균 0.32초로 단축했다. GPT-4o보다 앞선 모델에서는 3개의 독립된 모델을 조합해 음성을 이용할 수 있도록 했다. 첫 번째 모델이 음성을 텍스트로 변환하고, 두 번째 모델이 텍스트를 캡쳐해 답변을 텍스트로 출력. 세 번째 모델이 텍스트를 음성으로 다시 변환하는 방식이다. 한 번 음성을 텍스트로 변환하기 때문에, 목소리의 톤이나 복수의 화자에 의한 대화 등을 정보로 받아들일 수 없고, 감정 등을 표현할 수 없었다.

이에 반해 GPT-4o는 화상이나 영상 등 시각정보, 텍스트, 음성 등을 조합해 트레이닝한 모델이다. 학습 방법의 변경을 통해 짧은 레이턴시를 실현, 감정 등을 감안할 수 있는 새로운 능력도 확보했다.

-- AI와의 자연스러운 대화가 가능해져 --
이번 온라인 발표회에서 오픈AI의 무라티 CTO(최고기술책임자)는 “지난 2, 3년간 우리는 모델의 지능을 향상시키는 데 주력해 왔다. 한편, 편리성에 관해서 큰 전진을 이룬 것은 이번이 처음이다”라고 말했다. 대화의 속도가 높아진다는 것은 ‘자연스러운 대화’로 이어지는 것을 의미한다. “GPT-4o는 AI와의 교류(인터랙션)가 보다 자연스럽고, 보다 손쉬워지는 콜라보레이션의 미래로 패러다임을 전환시키는 것이다”(무라티 CTO).

GPT-4o를 기반 기술로 한 챗GPT는 유저의 숨이 가빠지는 것을 알아채거나, 카메라로 표정을 읽고 감정을 이해하는 등의 새로운 기능을 구비하고 있다. 유저가 챗GPT에 ‘좀 더 감정을 담아달라’, ‘로봇처럼 말해라’라고 지시하면 목소리의 톤을 바꿔 대응한다.

GPT-4o는 일본어를 포함한 50개 언어를 지원한다. 텍스트나 화상에 관한 GPT-4o의 기능은 발표 당일부터 챗GPT에서 이용할 수 있다. ‘챗GPT Plus’ 등 유료 플랜에 가입하고 있는 유저뿐만 아니라, 무료 플랜 유저도 이용할 수 있다. 이용 제한은 챗GPT Plus가 무료 버전의 최대 5배. 음성 기능은 수 주 안에 알파 버전으로 제공될 예정이다.

텍스트와 화상에 관련된 기능은 API(애플리케이션프로그래밍인터페이스)에서도 제공된다. 오픈AI에 따르면 GPT-4o는 GPT-4 turbo와 비교해 2배 고속이며, 가격은 반값, API의 리퀘스트 제한은 5배 확대되었다. 음성과 영상 지원은 수 주 안에 한정된 개발자들을 대상으로 시작될 예정이다.

-- '증류'로 소형의 AI 모델 개발 --
한편의 구글은 5월 14일(미국 시간)에 연례 개발자 회의 ‘Google I/O’에서 경량 및 고속인 AI 모델 ‘Gemini 1.5 Flash’를 발표했다.

구글은 Gemini 1.5 Flash를 API 경유로 제공한다. 대응 언어는 영어만으로, 퍼블릭 프리뷰로 공개했다.

Gemini 1.5 Flash는 기존 플래그십인 Gemini 1.5 Pro보다 소형인 모델로, API를 통해 제공되는 것 중 가장 빠르다. 대규모 및 높은 빈도의 태스크에 최적화되어 있다고 한다. 구글딥마인드(Google DeepMind)의 하사비스 CEO(최고경영자)는 “유저의 피드백을 통해 애플리케이션에 따라서 보다 적은 레이턴시와 코스트가 필요하다는 것을 알게 되었다”라고 개발 배경에 대해 설명했다.

Gemini 1.5 Flash는 100만 토큰의 컨텍스트 윈도우(Context Window)를 갖추고 있으며, 텍스트와 음성, 화상 등의 조합이 가능한 멀티 모달이 특징이다. 유스케이스의 대부분에서 레이턴시는 1초 미만으로, 일반적인 대부분의 작업에서 보다 대형의 모델과 동등한 성능을 발휘한다고 한다.

가성비도 뛰어나다. API 경유의 Gemini 1.5 Pro 이용 요금이 100만 토큰 당 3.5달러인데 반해, Gemini 1.5 Flash는 그 10분의 1인 0.35달러이다.

구글은 Gemini 1.5 Flash의 개발에 있어서 ‘증류(Distillation)’라고 불리는 방법을 이용했다. 부모가 되는 기존 모델의 출력을 사용해 새로운 모델을 트레이닝 하는 방법으로, 부모 모델에 비해 파라미터 수를 작게 할 수 있다는 특징이 있다. Gemini 1.5 Flash는 부모 모델로 1.5 Pro를 이용했다. 구글딥마인드의 카브크초로 CTO(최고기술책임자)는 기자설명회에서 “(Gemini 1.5 Flash는) Gemini 1.5 Pro라는 큰 모델에서 정보를 추출해 작은 모델에서 효율적으로 사용할 수 있도록 했다”라고 설명했다.

Gemini 1.5 Pro는 입력 토큰 길이가 기존의 100만에서 200만으로 확장. 코드 생성이나 논리적인 추론, 음성이나 화상의 이해 등이 강화되었다. 강화된 Gemini 1.5 Pro는 유료 AI 채팅 서비스 'Gemini Advanced'나 Gmail 등 앱 기능을 생성 AI가 지원하는 'Gemini  for Google Workspace'에 활용한다. 지금까지 이 두 서비스는 ‘Gemini 1.0 Ultra’를 사용하고 있었다.

최경량 모델인 'Gemini 1.0 Nano'는 텍스트뿐만 아니라 화상이나 음성 입력이 가능해졌다. 스마트폰 등에서 멀티모달의 앱을 작동할 수 있다.

개발자를 위한 오픈 모델 ‘Gemma’에는 시각 언어 모델 ‘Pali Gemma’가 추가되었다. 화상이나 영상 등의 시각적인 입력을 텍스트로 출력하는 AI 모델로, 화상이나 짧은 영상에 캡션을 붙이거나, 화상 내의 텍스트를 인식하는 등의 이용에 적합하다고 한다.

 -- 끝 --

Copyright © 2020 [Nikkei Computer] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

목차 Nikkei Computer_2024.5.30

IT가 위험하다
’IBM 제공’의 Notes/Domino, 서포트 종료를 둘러싼 혼란
특집
<기술자의 상주·SES·다단계 하청, 전부 안 해>
이단으로 불리는 1조엔의 SI 기업 오츠카상회
매출액 1조 엔이 눈앞, 3가지 원동력으로 성장
방문지를 AI가 등록, 크게 진화된 영업 스타일
인력에 의존하지 않고 고성장, 이례적인 SI 전략
<인터뷰>
오오츠카상회의 오츠카 사장
다이빙의 스프링보드를 밟는 방법이 대기업과는 달라, 중견·중소기업용 시장에서 앞으로도 성장
특집
취업 준비생 3,400명이 뽑은 인기 기업
2025년 졸업생은 안정 지향
포커스
AWS에 디지털교과서, GIGA스쿨의 새로운 학교
뉴스&리포트
- 오픈AI와 구글, 새로운 AI의 대기 시간 개선 및 요금 인하
- NTT데이터그룹의 새로운 사장에 사사키 씨, 순풍 속 ‘3가지 방침’으로 과제 극복할 수 있을까?
- 정보 유출 대응 서두르는 라인야후, 소프트뱅크∙네이버와 협의
- 안전하게 통신하기 위한 증명서에 미스, 디지서트는 강제실효를 실행
- 이토추와 BCG가 이례적으로 협업, DX용 상류 컨설팅의 새로운 회사 설립
- 4대 기업 결산에서 IT 사업은 증수 증익, DX 수요가 견인했고 과제는 인력부족
<난반사>
대기업 18개 사의 2024년 1~3월 결산, 매출 2분기 연속 7%대 성장
데이터는 말한다
생성 AI에 대해 '사적으로 잘 이용'은 2.6%, 17.6%가 '생성 AI를 모른다'
케이스 스터디
히로시마은행
스마트폰 앱을 직원 스스로 제작, 국내 제조 업체 의존에서 벗어나 신속하게 개발
도전자
소네오카 ELYZA CEO -- '선택 받는 LLM'을 만든다, 특화 모델의 생성 AI로 승부
작동하지 않는 컴퓨터
[일본우정그룹]
회선 공사 지연을 둘러싼 진흙탕 싸움, SB의 약 108억 엔 배상은 취소
연재
<인력부족 시대의 개발 신조류, 플랫폼 엔지니어링>
- 해외에서는 테크 기업 이외로도 확산, 일본은 특유의 외주 모델에 과제
<실수투성이의 설계 리뷰>
- 체크 부분은 철저하게 압축해야, 집중력을 유지해 놓치지는 것을 방지
<실천 DX, 클라우드로 시작하는 데이터관리>
- 데이터에서 유익한 지식을 이끌어낸다, '데이터사이언스'도 매니지먼트
<사장의 의문에 답하는 IT전문가의 대화 기술>
- 다시 한 번 자동화를 추진하라, 난제를 선택할수록 효과가 있다
키워드
우라노스에코시스템(Ouranos Ecosystem)
오피니언
<극언정론>
- 소니, 소프트뱅크가 성공 사례, 변혁 없는 '자사의 DX'를 바로잡아라
<모바일의 일도양단>
도코모의 사장 교체 인사를 분석, 단순한 '젊은 피 수혈'로는 풀리지 않는 배경
<GAFA 심층 분석>
유니콘을 잇따라 탄생시키고 있는 UCB, 다음 테마는 'AI 멀티클라우드'
<프로그래밍으로 가자>
낡은 상식에 집착하는 사람들, 꼰대가 되지 않기 위해 할 수 있는 일
<'오늘도 누군가를 노리고 있다'>
생성AI를 악용한 ‘자율 사이버 공격’, GPT-4를 이용하면 성공률 87%
독자의 목소리
편집후기

 -- 끝 --

TOP