Deep Mind, 심층강화학습의 응용을 확장
미국 알파벳 산하의 AI(인공지능) 개발 기업인 영국의 딥마인드(Deep Mind)가, 바둑 등 게임 세계에서 인간을 웃도는 성과를 낸 심층강화학습 기술을, 실제 세계의 과제를 해결하는 데 응용하고 있다. 2022년 2월에는 유튜브의 동영상 압축, 핵융합로의 플라스마 제어 등에 심층강화학습을 응용해 성과를 올렸다고 발표했다.
딥마인드의 심층강화학습 기술은 세계 최고의 바둑 기사를 이긴 AI, 알파고(AlphaGo)로 일약 유명해졌다. 또한 딥마인드는 알파고의 진화형으로서 체스나 바둑, 장기, 비디오 게임 등에 대해서 사전에 일절 지식을 주지 않고도 최고 실력의 인간 플레이어를 웃도는 솜씨로 플레이가 가능한 범용 게임 AI, 뮤제로(MuZero)를 2020년에 개발했다.
뮤제로에서의 심층강화학습이란, AI가 게임을 여러 번 플레이해서 시행착오를 겪고, 그 과정을 학습함으로써 게임의 어느 국면에서 다음에 어떤 수를 놓아야 유리한지를 판정하는 알고리즘을 생성하는 것이다. 시행착오 과정을 통해 보다 좋은 전략을 학습하는 강화학습은 이전부터 존재했다. 딥마인드는 거기에 딥러닝(심층학습)을 조합함으로써 과거에는 없던 성능을 실현했다.
그리고 딥마인드는 22년 2월 11일(영국시간), 이 뮤제로를 유튜브 동영상 압축 알고리즘 개발에 응용한 결과, 동일한 품질의 동영상을 전송하는데 필요한 비트레이트를 4% 절감하는 성과를 냈다고 발표했다.
|