日経コンピュータ

일경컴퓨터_2022/09/29(1)_AI 진화의 최전선 -- '대단한 AI' 도감

日経コンピュータ

목차

더보기+

요약

Nikkei Computer_2022.9.29 특집 요약 (p22~45)

AI 진화의 최전선
산업을 바꾸는 '대단한 AI' 도감

‘문장의 내용에 근거하여 AI(인공지능)가 그림이나 동영상을 생성한다'. '사람이 쓴 것 같은 사과의 메일을 AI가 집필한다'. '2억 종류에 달하는 단백질의 입체구조를 AI가 예측한다'. 최근, 매월 아니 매주 이러한 ‘대단한 AI’가 발표되고 있다. AI의 흐름을 바꾼 것은 '기반 모델(파운데이션 모델)'이다.

이 기반 모델을 통해 텍스트, 화상, 동영상, 3차원 데이터, 화학식, 아미노산 서열 등 다양한 종류의 데이터의 의미를 AI가 정확하게 이해하고, 대량의 교사 데이터 없이 새로운 능력을 획득할 수 있게 되었다. 이와 같은 기반 모델이 탄생함에 따라 AI의 진화는 급속도로 가속화되었다. 그 놀라운 진화의 최전선을 취재했다.

Part 1. 대단한 AI가 매주 등장
그 원동력은 기반 모델

최근 AI(인공지능)의 진화는 눈부시지만 그 스피드 또한 한층 더 가속화되고 있다. 매월, 아니 매주 놀라운 능력을 갖춘 '대단한 AI'가 등장하고 있는 것이다. AI의 진화를 가속화시키는 원동력은 '기반 모델'의 탄생이다.

사람이 “음료를 쏟았어요. 도와주세요”라고 로봇에게 말을 걸면, 로봇이 주위의 상황을 카메라로 확인하고 자신이 무엇을 할 수 있는지 판단한 후, 근처에 있는 스폰지를 사람에게 가져다 준다.

구글은 8월 16일, 사람이 애매한 말로 로봇에게 말을 걸기만 해도 로봇이 취해야 할 행동을 스스로 판단하고 행동 계획을 세울 수 있도록 하는 로봇용 AI 'PaLM-SayCan'을 발표했다.

지금까지 로봇을 조작하는 경우에는 사람이 로봇에게 구체적인 행동을 지시해야 할 필요가 있었다. 이에 반해 PaLM-SayCan은 사람의 애매한 요청의 의미를 AI가 이해하고 로봇의 행동 계획을 세워준다. 사람이 로봇에 맞추는 것이 아니라 로봇이 사람에 맞춰주는 것이다.

PaLM-SayCan은 사람의 요청을 구글이 개발한 거대언어 모델인 'PaLM(Pathways Language Model)'이 해석해 사람의 요청에 대한 적절한 답변 후보를 몇 가지 도출한다. 이것은 자연언어처리(NLP)에서의 질문 응답 태스크를 응용한 것이다.

이어 Palm-SayCan은 로봇의 카메라가 촬영한 주위의 상황에서 로봇이 당장 할 수 있는 몇 가지 동작 후보를 도출한다. 로봇의 동작 패턴 등은 사전에 심층강화학습을 통해 개발이 끝난 상태이다.

그리고 PaLM-SayCan은 언어 모델이 도출한 응답 후보와 주변 환경 정보에서 도출된 가능한 동작 후보를 대조해 사람의 요구에 적합한 동작 후보를 선택하고 행동 계획을 세운다. 언어 모델이 도출한 말하는(Say) 응답 후보와, 환경 정보로부터 도출된 가능한 동작(Can)의 후보를 매칭하는 것에서 PaLM-SayCan이라고 명명되었다.

구글에 따르면, PaLm-SayCan에서 중요한 것은 언어 모델인 PaLM이 사람의 요청을 올바르게 해석할 수 있는 것이라고 한다. PaLM은 구글이 올 4월 발표한 최신 언어 모델이다. PaLM이 아닌 구글이 2021년 9월에 발표한 언어 모델 'FLAN'을 사용한 경우, ”음료를 쏟았습니다. 도와 주시겠습니까?”라는 요청에 대해 FLAN은 “죄송합니다. 흘릴 생각은 없었습니다”라는 예상 밖의 응답 후보를 도출해 적절한 로봇 행동 계획을 세울 수 없었다고 한다.

-- 가속화되는 ‘대단한 AI’의 출현 빈도 --
현재 PaLM-SayCan과 같은 놀라운 능력을 가진 '대단한 AI'가 매주 등장하고 있다. 그 빈도는 올해들어 가속화되고 있다.

예를 들어 생물학 및 제약 분야에서는 구글의 자매회사인 딥마인드가 개발한 단백질의 입체구조를 예측하는 AI ‘AlphaFold2’의 성과가 주목 받고 있다. 이 회사는 올 7월, 2억 종류의 단백질 입체구조 예측을 완료, 구조 데이터베이스로서 정비했다고 발표했다.

이것은 존재할 수 있는 거의 모든 단백질의 입체구조를 AI가 예측한 것이라고 말할 수 있으며, 이를 통해 의약품 개발의 대폭적인 고속화가 추진될 것으로 기대되고 있다.

최근 일러스트레이터 사이에서는 올 여름에 릴리스된 문장에서 화상을 생성하는 AI ‘Midjourney’와 ‘Stable Diffusion’이 화제이다. 미국의 오픈AI가 올 4월에 발표한 'DALL-E 2'를 참고로 개발된 상용 서비스와 오픈 소스이다.

-- 언어 모델의 ‘만능화’가 배경에 --
AI의 급속한 진화의 배경에는 자기주의(Self-Attention) 기구라고 불리는 'Transformer'를 베이스로 한 언어 모델의 거대화와 거대화에 수반되는 ‘만능화’가 있다.

Transformer는 구글이 기계 번역을 위해 개발한 AI 아키텍처로, 2017년에 발표했다. 자기주의 기구란 간단히 설명하면 데이터의 어디에 주의(주목)해야 할지를 데이터의 종류나 내용에 따라 변화시키는 구조이다.

기계학습에 있어서의 데이터 모델링의 핵심을 말하면 정보의 의미를 잃지 않고 압축해 계산 가능한 상태로 구조화하는 것이다. 지금까지의 심층학습 (딥러닝) 아키텍처는 모든 데이터에 동일한 필터(함수)를 적용해 데이터를 모델링해왔다. 이로 인해 모델링할 때 중요한 정보가 손실되는 경우가 발생했다.

이에 반해 자기주의 기구인 Transformer를 이용하면, 데이터의 종류나 내용에 따라 필터가 변화하기 때문에 주의해야 할 중요한 정보를 잃지 않고 데이터를 모델링할 가능성이 높아진다. 즉, 기계학습 모델의 표현력을 향상시킬 수 있는 것이다. 이것이 Transformer 약진의 원동력이 되었다.

구글은 2018년에 범용적인 언어 모델인 ‘BERT’에 Transformer를 응용했다. BERT는 문장의 분류와 질문 응답, 문장 생성 등 다양한 종류의 NLP 작업에서 높은 성능을 발휘했다.

NLP에 정통한 도쿄도립대학의 고마치(小町) 교수는 BERT에 대해 "Transformer의 층을 깊게 하면 할수록 언어 모델이 추상 내용을 기억할 수 있음을 보여줬다는 것이 중요하다”라고 지적한다. 언어 모델을 거대화함으로써 문장의 의미를 정확하게 다룰 수 있게 된 것이다.

BERT의 특징은 사람이 교사 데이터를 준비하지 않아도 사람이 쓴 대량의 문장을 ’자기 지도학습(Self-supervised learning)’을 함으로써 언어다움이란 무엇인지, 단어나 문장의 의미란 무엇인지 등을 스스로 학습하는 것에 있었다.

구체적으로는 사람이 쓴 문장의 일부를 기계적으로 마스킹한 다음, 그 단어를 예측하는 ‘빈칸 채우기 문제’나 한 문장에 이어지는 문장을 예측하는 문제 등을 풀어 지식을 획득했다. 자기지도학습을 통해 AI에게 대량의 데이터를 학습시키는 것이 용이해졌다.

BERT의 또 다른 특징은 사람이 쓴 문장을 대량으로 ‘사전 학습’한 후, 수 백 건 정도의 교사 데이터를 추가로 제공하는 ‘파인 튜닝’을 함으로써 새로운 태스크에 대응할 수 있다는 것이었다.

뿐만 아니라, 오픈AI가 2020년에 발표한 ‘GPT-3’는 기계학습 모델의 파라미터(변수)가 BERT의 3억 4,000만 파라미터에서 1,750억 파라미터로 거대화됨으로써, 수 건의 ‘프롬프트 엔지니어링’만으로 새로운 태스크에 대응할 수 있게 되었다.

프롬프트 엔지니어링은 사람이 AI에 주는 입력(프롬프트)을 고안함으로써 AI의 출력을 보다 향상시키는 작업이다. GPT-3와 같은 거대 언어 모델에서는 사람이 몇 가지 예제와 답변 사례를 입력하면 AI는 사람이 예시한 해결 방법에 따라 새로운 문제에 대응할 수 있다.

이와 병행하여 거대언어 모델은 당초의 텍스트 데이터뿐만 아니라 화상과 음성, 동영상 등 다양한 데이터의 의미를 이해할 수 있는 '멀티모달(Multi-modal)화'가 진행되었다.

Midjourney와 같은 문장에서 화상을 생성하는 AI가 실현된 것도 언어 모델이 멀티모달화되어 텍스트와 화상의 의미를 동일하게 취급할 수 있게 되었기 때문이다. 화상 생성 AI는 언어 모델이 이해한 텍스트의 의미를 기반으로 텍스트가 의미하는 화상을 생성한다.

또한 최근에는 텍스트 생성뿐만 아니라 비디오 게임의 조작이나 로봇의 행동 계획 생성 등도 할 수 있는 '멀티태스킹'도 시작되고 있다.

-- 거대언어 모델, ‘기반 모델’로 불리기 시작 --
멀티모달화 및 멀티태스킹이 진행됨에 때라 프롬프트 엔지니어링으로 새로운 문제에 바로 대응할 수 있게 된 거대언어 모델은 현재 다양한 AI 능력의 기초가 되는 ‘파운데이션 모델(Foundation Model, 기반 모델)’이라고 불리기 시작했다. 기반 모델은 미국 스탠포드대학 등의 연구자들이 2021년 8월에 제창한 개념이다. 화상이나 음성, 동영상 등을 취급할 수 있고 로봇 등도 조작할 수 있는 거대언어 모델은 이젠 언어의 틀에서 벗어난 존재가 되었다.

앞으로를 생각하는데 있어서 중요한 것은 Transformer 베이스의 기반 모델에 있어 학습에 투입되는 계산 자원과 모델의 사이즈, 학습 데이터량이 커지면 그 만큼 성능이 향상된다고 하는 ‘스케일링 법칙(Scaling Law)’이 작동한다고 여겨지고 있다는 것이다. 오픈AI는 GPT-3 등의 경험을 바탕으로 2020년 10월에 발표한 논문 'Scaling Laws for Autoregressive Generative Modeling'에서 스케일링 법칙을 제시했다.

최근 1~2년 간의 AI 발전은 오픈AI가 2020년에 발견한 스케일링 법칙으로 촉발된 측면도 있다. 다양한 조직들이 기반 모델의 크기와 학습 데이터량을 확장하여 잇따라 새로운 성과를 보여주었다. 대단한 AI는 앞으로도 속속 등장할 것으로 보인다.

Part 2. 사과문도 AI가 생성
다른 차원의 업무 자동화

‘대단한 AI’의 대표격인 거대 언어 모델이 일본어에서도 위력을 나타내기 시작했다. LINE의 'HyperCLOVA'는 사과 메일에서 시, 소설까지 유창한 일본어로 생성한다. AI가 문장의 '의미'를 판단할 수 있기 때문에 전례없는 다른 차원의 업무 자동화가 실현될 전망이다.

Part 3. 화상이나 음성도 거뜬
진화하는 언어 모델

자연 언어 처리(NLP)로 큰 성과를 거둔 Transformer 기반의 언어 모델. 이것은 현재 화상이나 동영상, 음성 등의 NLP 이외의 분야도 석권하고 있다. 흥미로운 것은 취급할 수 있는 데이터의 종류가 늘어날수록 인식 정밀도 등도 향상된다는 점이다.

Part 4. 문장에서 화상을 생성
시각 언어 모델이 열쇠

올 여름에는 ‘Midjourney’와 ‘Stable Diffusion’이 크게 주목 받았다. 문장에서 화상을 생성하는 AI를 누구나 사용할 수 있게 되었기 때문이다. 여기에는 문장과 화상의 의미를 동일하게 취급할 수 있는 '시각언어 모델'이 큰 역할을 했다.

Part 5. 신약 개발과 화학도 변혁
아직 더 남아있는 대단한 AI

'2억 종류의 단백질의 입체 구조를 예측한다'. '분자 시뮬레이션의 결과를 단시간에 재현한다'. 이와 같은 대단한 AI가 신약 개발과 재료 개발의 세계를 바꾸려 하고 있다.

-- 끝 --

TOP

전기전자/정보통신

일경컴퓨터_2022/09/29(1)_AI 진화의 최전선 -- '대단한 AI' 도감

요약

목차