일본산업뉴스요약

미국 오픈AI, 멀티모달 GPT-4 발표 -- 화상 입력 가능해져
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2023.3.15
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2023-03-23 22:41:28
  • 조회수262

Nikkei X-TECH_2023.3.15

미국 오픈AI, 멀티모달 GPT-4 발표
화상 입력 가능해져

미국의 오픈AI(OpenAI)는 3월 14일(미국 시간), 생성 AI(인공지능) 최신버전인 'GPT-4'를 발표했다. 텍스트와 화상(畵像) 입력을 지원하는 멀티모달의 거대 언어 모델로 되어 있어 화상의 내용을 설명하는 문장 등이 생성 가능. '챗GPT(ChatGPT)'의 유상 버전 사용자는 GPT-4를 당일 이용할 수 있다.

멀티모달 기능이 구비된 GPT-4는 화상에 질문 문장을 첨부해 입력하면 해당 화상의 내용에 기반한 답변문 등을 생성할 수 있다. 예를 들어, 오픈AI가 이날 공개한 GPT-4 데모에서는 노트에 손으로 쓴 웹사이트 개요를 촬영한 화상 파일에 '이것을 기반으로 컬러풀한 웹사이트의 HTML/JavaScript 코드를 써줘'와 같은 텍스트를 첨부해 입력하자 웹사이트를 구성하는 코드 등이 생성되었다.

벌써 GPT-4를 이용하는 기업도 등장했다. 덴마크의 Be My Eyes는 멀티모달 기능을 이용해 시각장애인을 위한 보조 애플리케이션인 'Virtual Volunteer'를 개발했다. 예를 들어, 스마트폰 카메라로 냉장고 안을 촬영하면 GPT-4가 냉장고 안에 있는 재료를 설명해줄 뿐만 아니라, 그 재료로 조리가 가능한 요리 등을 알려준다.

-- 보다 긴 대화를 주고받을 수 있어 --
GPT-4에서는 처리 가능한 텍스트 길이가 2만 5,000단어(3만 2,768토큰)까지 늘어났다.기존보다 긴 문장을 생성할 수 있으며, 채팅에서의 대화도 길어져 사용자의 의도를 보다 깊이 반영한 답변이 가능해졌다. 기존 GPT-3.5가 처리할 수 있는 텍스트 길이는 최대 4,097 토큰이었다.

언어 모델의 성능은 머신러닝 모델의 파라미터 수에 좌우되지만, 오픈AI는 GPT-4의 파라미터 수를 공개하지 않고 있다. 그 대신 모의고사 성적 등이 GPT-3.5에 비해 향상되었다고 설명했다.

예를 들어, GPT-4는 GPT-3.5에 비해 미국 사법시험 모의고사 성적이 크게 향상되었다고 한다. GPT-3.5의 성적은 하위 10%에 머물렀던 반면, GPT-4의 성적은 상위 10%로 합격할 수 있었다고 한다.

오픈AI는 거대 언어모델이 왜곡된 설명을 출력하는 환각(Hallucination)에 대해서도 GPT-3.5보다 크게 감소해 내부에서의 평가시험 성적이 40% 향상되었다고 밝혔다. 또한 범죄로 이어지는 행위 등에 대한 질문에는 답하지 않는 등, 안전성에 관한 성능도 향상. 허가되지 않은 내용에 대해 응답하는 비율이 GPT-3.5에 비해 82% 감소했다고 한다.

-- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록