일경컴퓨터_2023/3/30(2)_GPT-4는 멀티모달 기반 모델

책 커버 표지
목차

요약

Nikkei Computer_2023.3.30 뉴스 & 리포트 (p13)

GPT-4는 멀티모달 기반 모델
구글도 PaLM 제공으로 추격

생성 AI(인공지능) 클라우드 서비스 경쟁이 가속화되고 있다. 시장을 선도하고 있는 미국의 오픈AI(OpenAI)는 새로운 버전의 ‘GPT-4’를 발표했다. 구글도 'PaLM API' 제공을 개시하며 추격에 시동을 걸었다.

오픈AI가 3월 14일(미국 시간)에 발표한 생성 AI의 최신판 GPT-4는 텍스트와 화상(畵像) 입력에 대응하는 멀티모달 기반 모델로, 화상의 내용을 설명하는 문장 등을 생성할 수 있다. '챗GPT(ChatGPT)'의 유상 버전 사용자는 텍스트 입력에만 대응했던 GPT-4를 이날부터 이용할 수 있게 되었다.

-- 화상과 문장을 동시에 이해 --
멀티모달 기반 모델인 GPT-4는 화상에 질문문을 첨부하여 입력하면 해당 내용에 기반한 답변문 등을 생성할 수 있다. 예를 들어, 오픈AI가 공개한 데모에서는 종이에 손으로 쓴 웹사이트 개요를 촬영한 화상에 "이를 기반으로 컬러풀한 웹사이트 HTML/JavaScript 코드를 써줘"라는 문장을 첨부해 입력하자 웹사이트를 구성하는 코드가 생성되었다.

GPT-4에서는 처리할 수 있는 텍스트의 길이가 2만 5,000단어(3만 2,768토큰)까지 증가했다. 기존보다 긴 문장을 생성할 수 있게 된 것 외에도 채팅에서의 대화도 길어져 사용자의 의도를 보다 깊이 고려한 후 답변하는 것이 가능해졌다. 기존 GPT-3.5가 처리할 수 있는 텍스트의 길이는 최대 4,097토큰이었다.

언어 모델 성능은 기계학습 모델의 파라미터 수에 좌우되지만, 오픈AI는 GPT-4의 파라미터 수를 공개하지 않고 있다. 그 대신 모의고사 성적 등이 GPT-3.5에 비해 향상되었다고 설명했다.

구글도 같은 3월 14일에 기반 모델 PaLM의 클라우드 서비스 'PaLM API'를 구글 클라우드에 추가한다고 발표했다. 구글 클라우드의 기계학습 플랫폼 'Vertex AI'에서는 구글의 자매회사인 영국의 딥마인드가 개발한 PaLM 이외의 거대 언어 모델과 텍스트뿐만 아니라 화상과 음성, 동영상, 소스코드 등을 생성할 수 있는 멀티모달 기반 모델도 이용이 가능해진다.

 

Gmail이나 Docs등으로 구성된 SaaS(Software as a Service)인 Google Workspace에도 생성 AI의 기능이 추가된다. 예를 들어, Gmail의 경우, 사용자가 메일의 내용을 항목으로 나누어 적기만 해도 격식에 맞는 본문을 생성할 수 있다. 받은 메일 내용을 요약하는 것도 가능하다. 프레젠테이션 소프트웨어인 Slides에는 텍스트에서 화상이나 음성, 동영상을 생성하는 기능, 회의 도구인 Meet에는 배경을 자동으로 생성하는 기능과 음성을 텍스트로 변환하는 기능 등이 각각 탑재된다.

기반 모델 클라우드 서비스에서는 오픈AI와 손잡은 미국 마이크로소프트가 올 1월, 'Azure OpenAI Service'의 일반 제공을 시작하는 등 앞서있다. 구글은 자사 및 그룹 계열사가 개발한 기반 모델을 제공하며 추격을 꾀하고 있다.

-- 끝 --

Copyright © 2020 [Nikkei Computer] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

TOP