해동일본기술정보센터 | 해동일본기술정보센터

인간의 뇌처럼 AI의 에너지효율을 도모 -- 구글의 언어모델 Switch Transformer

카테고리AI/ 로봇·드론/ VR
기사일자 2021.5.14
신문사 Nikkei X-TECH
게재면 online
작성자hjtic
날짜2021-05-22 20:57:42
조회수1205

Nikkei X-TECH_2021.5.14

인간의 뇌처럼 AI의 에너지효율을 도모
구글의 언어모델 Switch Transformer, 엄청난 전기를 필요로 하는 AI의 남용은 비도덕적

인간 뇌가 소비하는 에너지는 전력으로 환산하면 불과 20와트 정도로, 소비전력 수 백 와트의 GPU 수 백~수 천 개를 학습에 사용하는 최첨단 AI(인공지능)에 비하면 훨씬 에너지 효율이 뛰어나다. 이에 뇌의 움직임을 모방해 AI의 에너지효율을 도모하려는 움직임이 시작되고 있다. 그 대표적인 예가 구글의 언어 모델 Switch Transformer이다.

언어 모델은 최근 크게 주목 받고 있는 자연어 처리용 AI이다. 미국의 Open AI 재단이 2020년 6월에 발표한 언어 모델인 GPT-3는 마치 인간이 쓴 듯한 자연스러운 문장을 만들어 큰 화제가 되었다. 그러나 GPT-3는 엄청난 에너지를 소비한다.

GPT-3가 고성능인 것은 1,750억 개의 파라미터를 갖춘 기계학습모델에 45테라바이트(TB), 4,100억 단어로 이루어진 거대한 문서를 학습시켰기 때문이다. 이 학습에는 마이크로소프트가 개발한 세계 톱 5 안에 들어가는 규모의 슈퍼컴퓨터가 사용된다. 슈퍼컴퓨터에 탑재된 CPU 코어 수는 28만5,000개, GPU는 1만 개이며, GPT-3의 학습에 필요한 전력은 1,287MWh에 달한다.

스가(菅) 총리는 4월, 이산화탄소 등 온실가스 배출량을 2030년도까지 2013년 대비 46% 삭감하겠다는 목표를 공표했다. 일본을 포함한 전세계 국가들이 이산화탄소 배출량 감축을 목표로 하고 있는 상황에서 엄청난 전기를 소모하는 AI를 잇달아 만들어 남용하는 것은 비도덕적인 행위라고까지 말할 수 있을 것이다. 구글과 마이크로소프트 등 IT 대기업들은 재생가능에너지로의 전환에 주력하고 있지만, 이와 병행해 AI의 에너지효율도 기업들에게 큰 과제가 되고 있다.

-- 소비 전력이 적은 거대 언어 모델 개발 --
그렇다면 실제로 AI의 에너지효율에 대한 노력은 어떻게 진행되고 있을까? 이에 대해 구글은 4월 22일(미국 시간) 흥미로운 블로그와 논문을 공개했다. 필자는 패터슨 씨. 미국 버클리 캘리포니아대학 교수를 오랫동안 지낸 패터슨 씨는 컴퓨터과학 교과서 Computer Organization and Design(일본어 제목은 컴퓨터의 구성과 설계) 공동 저자로 알려져 있으며, 2016년부터 구글에서 근무하고 있다.

패터슨 씨는 4월에 발표한 논문 Carbon Emissions and Large Neural Network Training(탄소 배출과 거대 뉴럴 네트워크 학습)에서 자사가 개발한 거대 언어모델인 Switch Transformer와 GShard를 Open AI재단의 GPT-3와 비교, 자사의 언어모델이 소비전력이 적으며 이산화탄소 배출량도 적다는 것을 증명했다.

구글이 2020년 6월에 발표한 GShard와 올 1월에 발표한 Switch Transformer는 고성능으로 화제를 모았던 GPT-3를 한층 더 상회하는 거대한 언어 모델이다. GPT-3가 1,750억 파라미터이었던 것에 반해, GShard는 6,000억 파라미터, Switch Transformer에 이르러서는 1조 5,000억 파라미터에 달한다.

언어 모델은 파라미터와 학습량을 늘리는 것만으로 성능이 향상되는 경향이 있다. GPT-3는 2019년에 공개한 GPT-2의 15억 파라미터에 비해 100배 이상 큰 규모로, 성능이 비약적으로 향상되었다. GShard와 Switch Transformer의 성능을 GPT-3와 직접 비교하는 것은 어렵지만(이유는 추후에 설명), 상당히 성능이 높다는 것은 틀림없다.

그럼에도 불구하고 GShard의 학습에 소요되는 소비 전력은 24.1MWh, Switch Transformer의 학습에 소요되는 소비 전력은 179MWh으로, GPT-3의 1,287MWh에 비해 상당히 적다. 파라미터 수가 크지만 소비 전력은 적은 이유에 대해 패터슨 씨는 크게 2가지를 들고 있다.

하나는 GShard와 Switch Transformer가 학습할 때 거대한 기계학습 모델의 일부 밖에는 사용하지 않는다는 것이다. 언어 모델 학습에서는 문장의 일부 단어를 마스킹하고(숨김 기능) 마스킹한 단어를 전후 문맥에서 추측하는 가로 채우기 문제와 같은 작업을 여러 번 반복함으로써 보다 나은 답이 나오도록 파라미터를 조정한다.

--모델의 일부만을 가동 --
GPT-3 등 기존의 언어 모델은 태스크를 처리할 때 모델 전체가 가동되지만, GShard와 Switch Transformer는 모델 중에서 그 태스크와 관련된 일부만이 가동된다. 구체적으로는 GShard가 각 태스크를 처리할 때 가동되는 것은 전체의 0.25%, Switch Transformer는 전체의 0.10%에 불과하다.

패터슨씨는 이러한 움직임을 “인간의 뇌가 문장을 읽을 때 1,000억 개 이상 있는 뉴런의 일부만을 가동시키는 것과 비슷하다”라고 설명한다. 인간 뇌의 에너지 소비가 효율적인 것은 태스크와 관련된 뉴런만을 가동시키기 때문이다. 뇌를 닮은 움직임을 통해 GShard와 Switch Transformer는 높은 에너지효율을 이뤄낼 수 있었다는 것이다.

구글은 Switch Transformer의 기계학습 모델 가동 방식을 ‘혼합 익스퍼트(Mixture-of-Experts: MoE)’라고 부르고 있다. 거대한 언어 모델은 사실, 특수한 역할을 담당하는 전문가(엑스퍼트)로서 움직이는 작은 모델의 집합체이며, 어떤 태스크를 처리할 경우, 그 분야의 전문가만 일하고 그 외의 전문가는 쉬고 있다. 이것도 어떻게 보면 인간과 같은 움직임이라고 할 수 있다.

다만, GShard와 Switch Transformer처럼 일부 모델밖에 사용하지 않는 방식은 모델 전체를 사용하는 방식에 비해 성능 면에서는 떨어진다. 구글은 Switch Transformer에 대한 논문에서 ‘자사가 이전에 개발한 110억 파라미터의 언어 모델 ‘T5’와 비교해 정밀도를 동일하게 유지하면서 학습 속도를 7배로 늘렸다’라고 표현했다. 에너지효율과 성능은 ‘트레이드 오프’의 관계에 있다. GShard와 Switch Transformer의 파라미터가 GPT-3보다 많다고 해서 GPT-3보다 성능이 높다고는 말할 수 없을지도 모른다.

패터슨 씨는 GShard와 Switch Transformer의 소비 전력이 적은 또 하나의 이유로, 이러한 모델 학습에 구글의 기계학습 전용 프로세서인 TPU를 사용하는 것을 들고 있다. 구글은 패터슨 씨 같은 프로세서 개발의 권위자들을 영입해 기계학습 전용 프로세서를 반도체업체보다 먼저 구현해왔다. 이것이 효과를 보고 있다는 주장이다.

-- 데이터센터의 탈(脫)탄소도 추진 --
구글은 2030년까지 사무실과 데이터센터에서 사용하는 전력을 24시간 365일 모두 재생가능에너지로 충당한다는 계획을 세웠다. 구글은 2017년 시점에서 ‘재생가능에너지 100%’를 실현하고 있지만, 이것은 연간 소비 전력을 조달할 수 있을 만큼의 재생가능에너지를 구입하고 있다는 의미로, 전력 피크 시에는 그 외의 에너지를 사용하고 있다.

만일 24시간 365일의 재생가능에너지 사용이 실현된다면, 구글의 AI가 배출하는 이산화탄소는 제로가 된다. AI에 대한 윤리적인 문제로는 환경 파괴나 편견(바이어스) 등 여러 가지가 있지만 이 중 하나는 (구글 사내에서) 해결할 수 있을 것 같다.

-- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

일본산업뉴스요약