해동일본기술정보센터 | 해동일본기술정보센터

GPT-4로 드러난 '멀티 모달'의 위력 -- 소프트웨어 기술자, 앱의 세대 교체에서 살아남을 수 있을까?

카테고리AI/ 로봇·드론/ VR
기사일자 2023.3.17
신문사 Nikkei X-TECH
게재면 online
작성자hjtic
날짜2023-03-27 21:12:22
조회수549

Nikkei X-TECH_2023.3.17

GPT-4로 드러난 '멀티 모달'의 위력
소프트웨어 기술자, 앱의 세대 교체에서 살아남을 수 있을까?

지난 3개월 간 IT업계의 화두는 '채팅' 일색이었지만, 앞으로 당분간은 '멀티 모달(Multi Modal)' 일색이 될 것이다. 미국 오픈AI(OpenAI)가 3월 14일(미국 시간), 텍스트뿐만 아니라 화상(畵像)의 의미도 이해할 수 있는 멀티모달 기능의 기반 모델 GPT-4를 내놓았기 때문이다.

멀티모달이란 복수의 종류나 형식의 데이터에 대응한다라는 의미이다. 화상도 취급할 수 있는 GPT-4가 일반 공개되는 것은 아직 멀었지만, 논문 및 데모 등을 통해 보여진 그 위력은 굉장하다. 예를 들어, GPT-4는 문장뿐만 아니라 복잡한 수식과 그림 등이 포함된 대학 수준의 물리 테스트를 풀 수 있다고 한다.

오픈AI가 GPT-4 논문을 통해 제시한 예에서 GPT-4는 프랑스 명문학교 에꼴 폴리테크니크(이공과학교)의 물리 테스트를 풀었다고 한다.

불과 몇 년 전만 해도 일본의 '로봇은 도쿄대학에 들어갈 수 있는가'(동로봇(東ロボ)) 프로젝트에서는 그림과 표, 일러스트가 포함된 물리 테스트를 AI(인공지능)가 푸는 것은 최대 난관으로 여겨졌다.

-- 동로봇은 아직 물리에 약해 --
오픈AI는 GPT-4가 미국의 사법시험에도 합격할 수 있는 레벨이라고 밝히고 있다. 화상도 취급할 수 있는 GPT-4로 도쿄 대학의 입시 문제를 풀면 어떻게 될까? 조만간 그 시도가 이루어질 수 있길 기대한다.

오픈AI는 3월 14일부터 GPT-4의 유상 제공을 시작했다. 이 날 구글도 자매회사인 영국 딥마인드(DeepMind)가 개발한 멀티모달 기반 모델을 구글 클라우드에서 이용할 수 있도록 하겠다고 발표했다.

-- 기반 모델은 앱의 새로운 '플랫폼' --
무서울 정도의 능력을 갖춘 멀티모달 기반 모델이 세상에 나옴으로써 산업과 사회에는 어떠한 변화가 일어날 수 있을까? 필자가 모든 것을 예측하는 것은 불가능하지만, 한 가지 확실하게 말할 수 있는 것이 있다. 그것은 멀티모달 기반 모델이 완전히 새로운 종류의 앱을 만들어내는 플랫폼이 되고, 이로 인해 앱의 세대 교체가 일어난다는 것이다.

15년 전 완전히 새로운 UX(사용자 체험)를 갖춘 스마트폰이라는 플랫폼이 등장하면서 앱 세대는 일신했다. 완전히 새로운 앱이 스마트폰 상에 속속 등장했고, PC용 앱의 진화는 이루어지지 못했다. 이와 비슷한 수준의 세대 교체가 다시 일어날 것이라고 필자는 생각한다.

GPT-4와 같은 멀티모달 기반 모델을 활용함으로써 앱은 어떻게 변화할까?

예를 들어, 덴마크의 Be My Eyes는 GPT-4를 이용해 시각장애인을 위한 어시스턴트 앱인 'Virtual Volunteer'를 개발했다. 사용자가 스마트폰 카메라로 냉장고 안을 촬영하면 GPT-4가 냉장고 안의 내용물을 설명해줄 뿐만 아니라, 냉장고 안 재료로 조리가 가능한 요리 등을 알려준다고 한다.

시스템 연계도 일변할 것이다. 지금까지의 앱은 API(애플리케이션 프로그래밍 인터페이스)를 경유해야만 다른 앱과 연계될 수 있었다. API가 사전에 준비되지 않은 앱은 기본적으로 다른 앱을 통해 조작할 수 없었다.

그러나 API가 없는 앱이라도 GUI(그래픽 유저 인터페이스)나 CUI(캐릭터 유저 인터페이스)는 반드시 구비되어 있다. 기반 모델을 활용함으로써 화상과 텍스트의 의미를 이해할 수 있게 된 신세대 앱은 다른 앱의 GUI나 CUI를 조작해 쉽게 다른 앱과의 연계가 가능하게 될 것이다.

구글이 2022년 8월에 발표한 로봇용 기반 모델 'PaLM-SayCan'은 사람이 모호한 말로 로봇에게 말을 거는 것만으로도 로봇이 취해야 할 행동을 AI가 판단해 행동계획을 수립할 수 있다.

예를 들어, 사람이 '음료수를 쏟았어, 도와줘'라고 로봇에게 말을 걸면 PaLM-SayCan은 로봇 주위의 상황을 카메라로 보고 무엇을 할 수 있을지 판단한 뒤 근처에 있는 스펀지를 사람이 있는 곳까지 운반하도록 로봇에게 지시한다.

PaLM-SayCan은 암형 로봇의 행동을 입안하는 AI였지만, 이 기술을 앱 조작에 활용하면 차세대 RPA(로보틱 프로세스 오토메이션)가 실현될 수 있을 것이다.

-- 동영상과 음성, 3차원 데이터의 의미도 이해할 수 있게 된다 --
중요한 것은 멀티모달이 앞으로 더욱 진화할 '예정'이라는 점이다. 현재 GPT-4가 처리할 수 있는 것은 텍스트와 화상뿐이지만, 이미 딥마인드 등이 동영상과 음성, 3차원 데이터 등도 처리할 수 있는 기반 모델을 논문으로 발표했다. 이러한 기반 모델도 조만간 이용이 가능해질 것이다.

동영상이나 음성을 이해할 수 있는 앱은 과연 무엇을 할 수 있을까? 물체의 형상에서 그 의미를 이해할 수 있는 앱은 무엇을 할 수 있을까? 소프트웨어 개발자가 앞으로 생각해야 할 앱의 아이디어는 무궁무진하다.

GPT-4는 매우 강력한 소스 코드 생성 능력을 가지고 있기 때문에 많은 소프트웨어 개발자들은 최근 며칠 '내 일자리가 없어지는 것이 아니냐'라며 걱정하고 있다. 그러나 지금은 걱정할 때가 아닐 것이다. 멀티모달 기반 모델이라는 플랫폼을 활용해 앞으로 어떤 앱을 만들어야 하는지, 지금 그것을 생각할 때가 아닐까?

-- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

일본산업뉴스요약