해동일본기술정보센터 | 해동일본기술정보센터

최강의 바둑 AI에서 핵융합으로 -- Deep Mind, 심층강화학습의 응용을 확장

카테고리AI/ 로봇·드론/ VR
기사일자 2022.2.18
신문사 Nikkei X-TECH
게재면 online
작성자hjtic
날짜2022-03-01 09:38:51
조회수595

Nikkei X-TECH_2022.2.18

최강의 바둑 AI에서 핵융합으로
Deep Mind, 심층강화학습의 응용을 확장

미국 알파벳 산하의 AI(인공지능) 개발 기업인 영국의 딥마인드(Deep Mind)가, 바둑 등 게임 세계에서 인간을 웃도는 성과를 낸 심층강화학습 기술을, 실제 세계의 과제를 해결하는 데 응용하고 있다. 2022년 2월에는 유튜브의 동영상 압축, 핵융합로의 플라스마 제어 등에 심층강화학습을 응용해 성과를 올렸다고 발표했다.

딥마인드의 심층강화학습 기술은 세계 최고의 바둑 기사를 이긴 AI, 알파고(AlphaGo)로 일약 유명해졌다. 또한 딥마인드는 알파고의 진화형으로서 체스나 바둑, 장기, 비디오 게임 등에 대해서 사전에 일절 지식을 주지 않고도 최고 실력의 인간 플레이어를 웃도는 솜씨로 플레이가 가능한 범용 게임 AI, 뮤제로(MuZero)를 2020년에 개발했다.

뮤제로에서의 심층강화학습이란, AI가 게임을 여러 번 플레이해서 시행착오를 겪고, 그 과정을 학습함으로써 게임의 어느 국면에서 다음에 어떤 수를 놓아야 유리한지를 판정하는 알고리즘을 생성하는 것이다. 시행착오 과정을 통해 보다 좋은 전략을 학습하는 강화학습은 이전부터 존재했다. 딥마인드는 거기에 딥러닝(심층학습)을 조합함으로써 과거에는 없던 성능을 실현했다.

-- 같은 화질로 비트레이트를 4% 삭감 --
그리고 딥마인드는 22년 2월 11일(영국시간), 이 뮤제로를 유튜브 동영상 압축 알고리즘 개발에 응용한 결과, 동일한 품질의 동영상을 전송하는데 필요한 비트레이트를 4% 절감하는 성과를 냈다고 발표했다.

유튜브의 동영상 압축 코덱에는, 미국 구글이 개발해서 오픈 소스로 공개한 VP9를 사용한다. 다만 VP9의 압축 성능은 동영상의 각 프레임을 어느 정도 압축하는가라는 ‘전략’에 따라 변동한다.

즉 동영상 압축에서는 어떤 프레임의 압축률의 고저가 그 프레임의 화질뿐만 아니라 그 뒤에 이어지는 수십~수백 장의 프레임의 화질에도 영향을 준다. 따라서 동영상 압축 알고리즘은 동영상의 그 후의 전개도 고려한 후에 각 프레임의 압축률을 결정할 필요가 있다.

이러한 동영상 압축에서의 전략 입안은, 수십, 수백 수 앞의 전개를 읽고 최선의 한 수를 생각해야 하는 바둑 등 게임에서의 전략 입안과 유사하다. 그렇게 생각한 딥마인드는 뮤제로를 동영상 압축 전략 입안에 응용한 ‘MuZero Rate-Controller(MuZero-RC)’를 개발했다.

MuZero-RC는, 대량의 동영상에 대해 조건을 바꾸면서 압축하는 시행착오를 여러 번 반복하면서 가장 효율적으로 동영상을 압축할 수 있는 전략, 즉 알고리즘을 만들어 냈다. 어떤 조건에서 압축을 한 결과, 화질이 지금까지의 압축 결과보다 좋아졌는지 나빠졌는지를 판정하고, 보다 압축 효율이 높고 화질을 유지할 수 있는 전략을 찾아나갔다. 게임 조건을 바꾸면서 여러 차례 플레이를 해서, 보다 승률이 높아지도록 알고리즘을 단련해나가는 기존 뮤제로의 학습 프로세스와 같다.

딥마인드는 22년 2월 2일(영국시간)에, 프로그래밍 콘테스트에서 인간의 평균점을 웃도는 프로그램을 생성할 수 있는 AI인 ‘AlphaCode’를 발표했다. 알고리즘을 만들어낸다는 점에서는 Muzero-RC와 AlphaCode는 같지만, 거기에서 사용되고 있는 기법은 크게 다르다.

Muzero-RC는 심층강화학습을 기반으로 하는데 반해, AlphaCode는 GPT-3나 BERT의 기초 기술인 자기주의기구(SA, Self-Attention)의 Transformer를 사용하는 거대 언어 모델을 기반으로 하고 있다.

AlphaCode는 소스코드 공유 사이트인 GitHub에 업로드된 다수의 소스코드와 인간이 집필한 대량의 글을 ‘자기 지도학습(Self-supervised Learning)’을 통해 사전 학습해, 프로그래밍이나 언어 이해가 가능한 언어 모델을 우선 개발했다. 그런 후에 프로그래밍 콘테스트에서 출제되는 문제와 해답의 편성을 추가 학습함으로써, 프로그래밍 콘테스트 문제에서 프로그램을 자동 생성할 수 있는 기계 학습 모델을 만들어 냈다.

그에 대해 Muzero-RC는, AI 자신에 의한 시행착오에만 근거해 알고리즘을 만들어내고 있다. 인간이 만들어낸 샘플은 사용하지 않았다. 심층강화학습과 Transformer를 사용하는 거대 언어 모델에 우열이 있는 것이 아니라 기법과 응용영역이 다르다는 의미이다.

-- 플라스마 제어 알고리즘을 AI가 개발 --
딥마인드는 22년 2월 16일(영국시간) 과학저널 Nature에서 핵융합로 플라스마 제어 알고리즘 개발에 심층강화학습을 응용했다고 발표했다.

핵융합로는 가스를 고온∙고압으로 만들어 플라스마화하고, 핵융합로의 끝과 끝에서 고속으로 방사한 플라스마끼리를 충돌시켜 핵융합을 발생시킨다. 플라스마는 장치의 온도나 압력, 중성자 빔의 강도 등 수천 항목 이상의 파라미터를 조정해 제어한다. 이 제어에 심층강화학습을 응용함으로써 기존보다 안정적으로 플라스마를 생성해 유지할 수 있도록 했다고 한다.

알파고가 세계 최고의 바둑 기사를 이겼을 때 “게임이라는 ‘닫힌’ 세계에서 성과를 냈을 뿐이다”라는 견해도 있었다. 그러나 심층강화학습은 현재 열린 실제 세계에서도 성과를 거두기 시작했다. 심층강화학습을 비롯한 AI의 응용 분야는 앞으로 한층 더 확산될 것으로 보인다.

-- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

일본산업뉴스요약

오류 메시지