책 커버 표지
일경컴퓨터_2020/10/01(2)_문장 생성 인공지능(AI)의 마력 -- GPT-3의 정체
  • 저자 : 日経BP社
  • 발행일 : 20201001
  • 페이지수/크기 : 130page/28cm

요약

Nikkei Computer_2020.10.1 특집 요약 (p50~56)

문장 생성 인공지능(AI)의 마력
GPT-3의 정체

올 여름, 한 AI가 세계적으로 화제가 되었다. 그 주인공은 미국의 오픈 AI가 발표한 문장 생성 AI ‘GPT-3’. GPT-3가 생성한 가짜 뉴스는 사람이 작성한 문장과 구분할 수가 없었다. 또한 기계학습 프로그램 코드와 웹 페이지의 레이아웃, SQL 쿼리, 악보 등, 다양한 종류의 문장을 생성해 내었다. GPT-3을 이용하기 위해서는 슈퍼컴퓨터 급의 IT 인프라가 필요하다는 약점이 있지만, 그것도 수 년 안에 해결될 가능성이 높다. 이러한 마법과 같은 최신 AI의 정체를 파헤쳐본다.

“오리지널 GPT에서 GPT-3까지의 개선 속도는 놀라울 뿐이다. 이 속도가 이어진다면 GPT-5 또는 GPT-6는 인간이 작성한 것과 구별이 불가능한 수준에 이르게 될 것이다”.

테슬라의 일론 머스크 CEO는 지난 8월, 트위터를 통해 스스로 창설한 AI 개발 비영리단체인 오픈AI가 개발한 문장 생성 AI ‘GPT-3’에 대해 이렇게 말했다.

오픈AI가 6월에 공개한 GPT-3는 문장의 ‘언어다움’을 예측하는 ‘언어 모델’이라고 불리는 AI 기술이다. 언어 모델에 대량의 문장을 학습시키면 단어와 단어, 문장과 문장의 관계를 벡터를 통해 표현하거나 어떤 단어의 뒤에 어떤 단어가 이어지는지를 통계적으로 산출할 수 있게 된다. AI는 이 언어 모델을 이용해 단어 및 문장을 이해하거나 자연스러운 문장을 생성할 수 있다. 기계독해와 질의응답, 기계번역 등에 반드시 필요한 기술이다.

GPT-3는 언어 모델 가운데에서도 문장 생성에 특화되어 있다. GPT-3에 짧은 문장을 입력하면 이에 반응하는 새로운 문장이 생성된다. 예를 들어 뉴스 기사의 타이틀과 서브타이틀을 입력하면 이에 매치하는 가짜 뉴스 기사가 생성된다.

GPT-3가 경이적이라고 느꼈던 것은 생성된 문장이 사람이 작성한 것과 구분할 수 없는 수준이었기 때문이다. 오픈AI는 718명의 피실험자들을 대상으로 GPT-3가 생성한 가짜 뉴스의 수준을 테스트하고 있다. 사람이 작성한 진짜 뉴스 기사 25개와 GPT-3가 생성한 가짜 뉴스 기사 25개를 피실험자들에게 제공하고 총 50개의 기사 중 어떤 것이 가짜 기사인지를 답하도록 했다. 그 결과, 피실험자들의 정답률은 ‘52%’였다.

이 테스트는 2개 중 1개가 가짜 기사이기 때문에 랜덤으로 답한 경우의 정답률은 50%이다. 즉, 52%라는 정답률은 이 테스트에서 피실험자들이 가짜 기사를 거의 구분할 수 없었다는 것을 의미한다.

언어 모델은 2018년에 구글이 ‘BERT’를 발표한 이래, BERT를 참고한 새로운 방법들이 잇따라 등장해 성능이 크게 향상되었다. 그 결과, 2018년에는 AI가 문장 독해의 벤치마크에서 인간의 정밀도를 뛰어넘었고 일본에서도 2019년에 AI가 센터 시험의 영어 문제에서 200점 만점 중 185점의 성적을 거두었다.

GPT-3도 BERT와 마찬가지로 ‘Transformer’라는 뉴럴 네트워크를 여러 층으로 중첩해 만든 언어 모델이다. BERT를 통해 AI는 문장 독해 능력에서 인간을 뛰어넘었고, GPT-3를 통해 문장을 작성하는 능력에서도 인간에 근접해진 것이다.

-- API 공개로 큰 반향 일으켜 --
오픈AI가 올 6월, GPT-3의 기능을 이용할 수 있는 API(Application Programming Interface)를 연구자를 대상으로 한정 공개하자, GPT-3에 대한 열광은 전세계적으로 확대. AI 연구자들은 GPT-3의 API를 이용해 놀라운 앱들을 공개하기 시작했다.

그 중 한 예로 창업자인 슈머 씨는 GPT-3를 이용해 AI의 사양에 관한 간단한 문장을 기술하면 그러한 AI를 제작하는 프로그램 코드를 생성하는 앱을 개발했다. 예를 들어 이 앱에 ‘화상을 5그룹으로 분리하는 모델을 구축, 데이터 세트는 2만 5,000개의 화상으로, 인풋은 500x500’이라는 문장을 입력하면 심층학습 프레임 워크의 ‘Keras’를 이용해 그와 같은 기계학습 모델을 만들어내기 위한 코드를 앱이 생성한다.

또 하나의 예를 들자면, 창업자 샤밈 씨는 GPT-3를 이용해 웹 페이지의 레이아웃을 생성하는 앱을 공개했다. ‘수박과 같이 생긴 버튼’이라고 입력하면 그러한 레이아웃을 실현하는 코드가 생성된다.

이 외에도 산문시를 생성하는 앱과 간단한 문장을 통해 악보를 생성하는 앱, 간단한 문장에서 SQL 쿼리를 생성하는 앱 등이 등장하고 있다.

-- 예시하는 것만으로 앱 개발이 가능 --
GPT-3에서 가장 중요한 포인트는 이러한 특정 분야에 특화된 앱을 간단히 개발할 수 있다는 점이다.

오픈AI가 API를 공개한 GPT-3는 사전에 45테라바이트(TB), 4,100억 개 단어로 이루어진 앱 상의 문장 등이 학습되어 있어 타이틀을 입력하면 자연스러운 문장이 생성된다. 사전에 학습이 완료된 GPT-3에 특정 분야에 관한 의문문과 대답문을 페어로 한 샘플을 10~100개 정도 입력하면 그 분야에 관한 문장을 생성하는 앱이 완성된다.

예를 들어 소스 코드를 만들어내는 앱의 경우, 프로그램의 요건을 설명하는 문장과 이에 대응하는 소스 코드 페어를 10~100개 정도 GPT-3에 입력하면 완성된다. 오픈AI는 GPT-3의 앱 개발이 ‘약간의 훈련(Few Shot train)’만으로 가능하다 라고 표현한다.

자연언어처리 연구자인 도쿄도리쓰(東京都立)대학의 고마치(小町) 교수는 “GPT-3에 ‘이렇게 하길 원한다’라는 예를 몇몇 제시해주는 것만으로 새로운 태스크가 완성된다. 예시를 통한 훈련은 사람이 사람에게 가르치는 방법과 동일하다”라고 설명한다.

GPT-3을 통한 앱 개발의 용이함은 다른 언어 모델과 비교해도 획기적이다. 구글의 BERT의 경우도 일반적인 문장을 언어 모델에 사전 학습을 시킨 후, ‘파인튜닝(Fine-tuning)’이라고 하는 추가학습을 시키면 특정 분야의 지식에 대응할 수 있게 된다. 하지만 파인튜닝(Fine tuning)을 하기 위해서는 사전 학습에 필요한 데이터량보다는 적지만 수 만 건의 문장 데이터가 필요했다. 이에 반해 GPT-3의 경우, 10~100개의 문장 페어만 있으면 된다.

또한 BERT는 어떤 문장을 입력하면 그 문장의 언어다움을 소성(素性) 벡터로서 표현해 출력하는 ‘인코더(Encoder)’ 기능은 갖추고 있지만, 소성 벡터를 입력하면 새로운 문장을 출력하는 ‘디코더(Decoder)’ 기능은 별도로 개발할 필요가 있다. 이에 반해 GPPT-3는 디코더가 내장되어 있어 별도의 개발이 필요 없다.

-- 거대화가 성과로 이어져 --
GPT-3가 획기적인 성과를 낼 수 있었던 이유는 무엇일까? 고마치 교수는 “GPT-3의 모델 구조는 초창기 GPT와 같다. 모델의 매개변수와 학습 데이터량을 거대화한 것만으로 생성된 문장 수준이 향상되었고 약간의 훈련만으로 새로운 태스크에 대응할 수 있게 되었다”라고 말한다.

GPT-3의 뉴럴 네트워크의 매개변수 수는 1,750억개로, 2019년 공개한 GPT-2의 15억개에 비해 100배 이상의 규모이다. 2018년에 공개된 BERT와는 500배 이상이다. 사전에 학습한 문장 데이터량도 45TB로 방대하다. 이에 비해 BERT의 사전학습 데이터량은 약 300분의 1인 16기가바이트(GB)에 불과하다.

“매개변수와 학습량을 거대화하는 것만으로 언어 모델의 성능이 향상되는 메커니즘은 아직 해명되지 않았다”(고마치 교수). 하지만 성능 향상의 이유는 거대화 외에는 존재하지 않는다. 실제로 GPT-3에 대한 논문에 따르면 GPT-3의 매개변수를 줄일 경우, 생성되는 문장의 레벨도 낮아졌다. 앞에서 소개한 가짜 뉴스 기사 판정 테스트에서는 1,750억 개의 매개변수에서의 정답률은 52%였지만, 130억개의 매개변수에서는 55%, 27억개 매개변수에서는 62%, 1억 2,500만개 매개변수에서는 76%였다. 매개변수가 적을수록 가짜 기사라고 쉽게 판단된 것이다.

GPT-3가 학습한 데이터의 종류가 풍부한 것도 중요하다고 한다. 후지쓰(富士通)연구소의 인공지능연구소에 소속되어 있는 마키노(牧野) 연구원은 “GPT-3가 소스 코드를 잘 생성할 수 있는 것은 사전에 학습한 데이터 가운데 프로그래밍에 관련된 질문 사이트 ‘Stack Overflow’의 데이터가 포함되어 있기 때문일 것이다”라고 추측한다.

-- 치즈는 냉장고에서 녹는가? --

-- 새로운 혁명 도달 --

자연언어처리는 BERT와 GPT-3 등 뉴럴 네트워크에 트랜스포머를 채택하는 움직임을 통해 큰 발전을 이루어냈다. 그리고 현재, 트랜스포머를 특징 짓는 뉴럴 네트워크 구조인 Self Attention(SA)을 다른 영역의 AI에도 적용하는 움직임이 확대되고 있다.

오픈AI는 화상 생성에 SA를 채택해 영상의 절반을 제공하면 나머지 절반을 생성하는 AI ‘Image GPT’를 개발했다. 페이스북은 화상인식에 SA를 채택해 기존의 CNN(Convolution Neural Network)만을 사용하는 방법보다 높은 정밀도를 실현했다. 구글도 SA를 도입한 심층강화학습 방법인 ‘AttentionAgent’를 개발해 심층강화학습에 필요한 계산 리소스를 크게 줄이는데 성공했다.

BERT와 GPT-3는 자연언어처리 분야에서의 ‘SA 혁명’이다. SA 혁명은 앞으로 자연언어처리를 뛰어넘어 AI 전체로 확대될 것이며 AI의 응용 범위는 현저하게 확대될 것이다.

■ SA(Self Attention)가 적용된 주요 분야
1. 자연언어처리; BERT, GPT-3 등
2. 화상 생성; 오픈AI의 ‘Image GPT’
3. 화상 인식; 페이스북의 ‘DETR’
4. 심층강화학습; 구글의 ‘AttentionAgent’

 -- 끝 --

Copyright © 2020 [Nikkei Computer] / Nikkei Business Publications, Inc. All rights reserved.

목차