日経サイエンス

일경사이언스_2018/01_알파고 제로, 스스로 학습하여 최강이 된 AI日経サイエンス

저자 : 日経BP社
발행일 : 20171210
페이지수/크기 : 116page/28cm

요약

Nikkei Science_2018.1 From Nature Digest (p24)

인공지능
스스로 학습하여 최강이 된 바둑 AI
‘알파고 제로’, 기보를 사용하지 않고 단기간에 바둑 섭렵

구글산하의 딥마인드(영국 런던)의 인공지능(AI) 프로그램인 ‘알파고 제로’가 인간의 기보를 가용하지 않고 바둑을 스스로 학습하여 초인적인 강력한 레벨에 도달했다는 기사가 Nature지 2017년 10월 19일호에 게재되었다. 인간에 의한 정보 입력 없이도 스스로 학습하는 능력은 어떤 업무도 해낼 수 있는 꿈의 범용 AI의 실현을 위해 궁극적으로 중요한 단계라고 볼 수 있다. 딥마인드의 최고경영책임자인 데미스 하사비스 씨는 기자회견에서 그리 멀지 않은 미래에 단백질 접힘(각 단백질에 고유한 접힌 구조가 만들어지는 과정)이나 신소재 연구 등 과학분야의 어려운 문제를 해결 할 프로그램이 만들어 질 것이라고 말했다.

당사의 기존 바둑 AI는 숙련자가 대국한 10만국 이상의 기보를 사용했다. 이에 비해 최신 프로그램인 ‘알파고 제로’는 백지상태로 랜덤 하게 지정하는 것부터 출발하여 자신과의 대국을 통해 학습한다. 40일간의 훈련과 3,000만번의 대국의 끝에, 그때까지 세계 최고의 ‘바둑기사’로 불린 당사의 AI ‘알파고 마스터’을 물리칠 수 있었다. 또한 최신 버전의 ‘알파고’에게 100전 100승을 거뒀다.

알렌 인공지능연구소(미국 시애틀)의 최고경영책임자인 에트지오니(Oren Etzioni)에 따르면 강화학습이라고 불리는 방법을 성공시키는 것은 어려우며 많은 자원을 필요로 한다. 그는 딥마인드의 팀이 이전 버전보다 적은 훈련시간과 연산 능력으로 그것들을 능가하는 알고리즘을 구축해 낸 것은 “정말이지 경이적인 결과이다”라고 말하며 혀를 내둘렀다.

-- 최고의 전략 --
알파고 제로는 이전 버전과 동일하게 뇌의 구조를 힌트로 한 ‘심층 뉴럴 네트워크’라는 타입의 AI를 이용하여 대국이 진행되고 있는 상황으로부터 추상개념을 학습한다. 처음에 바둑의 규칙만을 학습하여 유효했던 바둑의 기술에 관한 정보를 피드백 함으로써 스스로 업그레이드된다.

알파고 제로의 향상 과정에서의 첫 모습은 사람과 많이 닮아 있다. 처음에는 인간의 초보자 같이 욕심 없이 바둑을 두었으나, 3일 후에는 바둑의 고수가 사용하는 복잡한 전술을 마스터했다. “인간이 수 천년 걸려 축적해 온 지식을 이 AI는 스스로 재발견 할 수 있었던 것이다”라고 하사비스 씨는 말한다. 40일 후에는 인간이 한 번도 본 적이 없는 바둑의 기술을 펼치고 있었다.

당사에서 알파고의 개발을 이끈 과학자 실버(David Silver) 씨는 앞에서 말한 기자회견에서 순수하게 강화학습에 대한 어프로치에서는 AI능력이 일관되게 진보되고 있다고 장담할 수 없다는 것이 난점이라고 설명했다. 이전 버전을 자주 꺾고도 스스로 이전 버전에게 이긴 방법을 기억하지 못하기 때문이다. 그러나 알파고 프로젝트에 있어서 ‘완전히 제로부터 학습이 가능한 보다 안정적이고 확실한 강화학습을 실현한 것은 이번이 처음이다”라고 말한다.

이전 버전에서는 독립된 2가지의 뉴럴 네트워크를 사용했다. 하나는 최선이라고 생각되는 여러 바둑 기술을 예상하는 것과 다른 하나는 그 중에서 어떤 것이 가장 승리로 이어질까를 평가하는 것이 그것이다. 후자에서 사용된 것은 ‘롤 아웃’이라는 방법으로, 고속으로 랜덤의 대국을 다수 실행하여 얻을 수 있는 결과를 평가한다. 이것에 반해, 알파고 제로에서 사용되는 뉴럴 네트워크는 하나뿐이며, 각각의 국면에서 발생되는 결과를 탐색하는 것뿐만 아니라, 단순히 승자를 예측한다. 실버 씨는 이것은 100명의 서툰 플레이어에게 의지하는 것이 아니라, 1명의 고수에게 예측하게 하는 것에 비유할 수 있다라고 말한다. “한 명의 뛰어난 바둑기사의 예측이 훨씬 도움이 된다”.

이들 기능을 단일 뉴럴 네트워크로 한대 묶음으로써 알고리즘을 강화하여 지속적으로 효율화할 수 있었다고 실버 씨는 말한다. 그렇지만 막대한 연산 능력을 필요로 하기 때문에 ‘텐서 처리 유닛(TPU)’이라는 전용 칩을 4개 사용했으며, 하사비스의 견적에 따르면 2,500만달러(약 28억엔) 상당의 하드웨어를 사용하고 있다고 한다.

그러나 이전의 버전에 비해 칩의 수량은 10분의 1 수준이다. 학습 훈련기간도 수 개월이 아닌, 수 일로 단축시켰다. 이것은 “연산 능력 및 데이터 양보다 알고리즘이 훨씬 중요하다는 사실을 의미한다”라고 실버 씨는 말한다.

-- 끝 --

기타

요약

목차