일경컴퓨터_2022/09/01(2)_구글 AI의 학습 데이터, 이미지 40억 장

책 커버 표지
목차

요약

Nikkei Computer_2022.9.1 News (p112)

구글 AI의 학습 데이터, 이미지 40억 장
거대 테크 기업의 과점화 우려

미국 구글 등이 개발하는 AI(인공지능)의 거대화가 가속화되고 있다. 먼저 거대화된 것은 기계학습 모델의 크기(파라미터 수)지만, 모델에 학습시키는 데이터의 양도 거대해지고 있다. 2022년 7월 15일에 구글이 논문 발표한 기계학습 모델은 40억 장이나 되는 이미지를 학습시킨 것이 화제가 되었다.

최근의 AI 거대화 경쟁의 불쏘시개가 된 것은, 미국의 인공지능 연구소 OpenAI가 2020년 6월에 발표한 거대 언어 모델 GPT-3의 성공과, 10월에 발표한 논문 ‘Scaling Laws for Autoregressive Generative Modeling’에서 제시한 AI에서의 스케일링 규칙(Scaling Law)의 존재라고 할 수 있다.

-- AI를 진화시키는 것은 '규모의 힘' --
OpenAI의 GPT-3는 인간이 작성한 듯한 문장을 생성할 수 있어 화제가 되었다. 하지만 AI 연구자들을 더욱 놀라게 한 것은 OpenAI가 GPT-3의 모델 구조(아키텍처)를 초대 GPT에서 변화시키지 않고 모델의 파라미터 수와 학습 데이터 양을 키우는 것만으로 성능을 향상시켰다는 점이다.

OpenAI는 GPT-3 등의 경험을 바탕으로 Self-Attention(SA)인 Transformer를 다단으로 쌓는 뉴럴 네트워크 구조를 채택하는 기계학습 모델에서는 학습에 투입하는 계산 리소스나 모델의 크기, 학습 데이터 양이 커지면 커질수록 성능이 향상된다는 스케일링 규칙이 작용한다고 했다.

사실 그 전까지는 기계학습 모델의 크기를 너무 크게 하면 학습 효율이나 성능이 떨어진다고 생각했다. OpenAI는 과거의 상식을 뒤엎고 규모의 힘이야말로 AI 진화에서 중요하다는 것을 보여줬다. 이것이 AI 거대화 경쟁을 과열시켰다.

먼저 거대화된 것은 모델 크기이다. GPT-3에서는 1750억 파라미터였던 규모가 구글이 20222년 4월 발표한 Pathways Language Model(PaLM)에서는 5400억 파라미터에 달했다. PaLM은 자연어처리의 벤치마크인 Natural Language Generation(NLG)과 Natural Language Understanding(NLU)에서 GPT-3를 크게 웃도는 점수를 기록했다. 

뿐만 아니라 PaLM에게 과학논문과 수식 등을 추가로 학습시킨 Minerva는 지금까지의 AI가 어려워했던 수학문제나 물리문제 등도 풀 수 있게 되었다.

구글이 2020년 10월에 Vision Transformer를 발표했을 때 학습 데이터에는 구글 사내의 이미지 데이터 세트 JFT-300M을 사용하고 있었다. 300M(밀리온)이라는 이름이 나타내는 것처럼 3억 장의 이미지로 이루어진 데이터 세트로, 피사체 등을 나타내는 메타 데이터는 수십억 건 부여되고 있었다. 

그러나 이번 실험에서 사용한 것은 JFT-4B라고 하는 사내 데이터 세트로, 이미지는 4B(빌리온), 즉 40억 장이다. 메타 데이터 건수는 공개하지 않았다.

학습 데이터 양이 3억 장에서 40억 장으로 늘어남에 따라 이미지 인식 모델의 정확도는 몇 포인트 향상했다. “이 사실도 중요하지만 그보다 학습 데이터 양을 40억 장까지 늘리는 조직이 등장했다는 것 자체가 중요하다”라고 산업기술종합연구소(산총연)의 가타오카(片岡) 주임연구원은 지적한다.

2010년대에 이미지 인식 모델이 급속히 발전한 배경에는, 심층학습의 채용과 ImageNet이라고 하는 1,000만 장이 넘는 이미지 데이터 세트의 공개가 있었다.

-- 이미지 데이터 세트를 거대화할 수 있는 것은 구글이나 메타 정도 --
ImageNet이 누구나 이용할 수 있는 공개 데이터 세트인데 반해 구글의 JFT-4B는 구글이 웹 검색 용도 등으로 수집한 구글만이 활용할 수 있는 비공개 데이터 세트이다. 

모델 사이즈의 거대화는 비용만 들이면 누구나 따라할 수 있지만 학습 데이터 양의 거대화는 그렇지 않다. 수십억 장 규모의 학습용 이미지 데이터 세트를 직접 준비할 수 있는 것은 구글과 Instagram을 운영하는 미국 메타(Meta) 정도이다.

“미국의 유력 대학조차 구글이나 메타와 같은 거대 테크 기업을 따라잡는 것은 어렵다는 인식이 퍼지고 있다”(산총연의 가타오카 주임연구원). GPT-3 이후의 거대 기계학습 모델은 학습을 위해 사용하는 계산 비용이 수천만~수억 엔에 달하지만, 수십억 건의 이미지 데이터 세트를 정비하려면 그 이상의 비용이 들기 때문이다.

단순히 이미지 데이터를 늘리면 되는 것이 아니다. 어떠한 피사체가 찍혀 있는지 메타 데이터를 부여하거나 노이즈가 되는 데이터를 배제하는데 방대한 비용이 발생하는 것이다.

심층학습이 보급되기 시작한 2010년대 초반에도 심층학습에 필요한 계산 비용이 막대하다는 점에서 AI의 과점화를 걱정하는 목소리가 있었다. 그러나 이후 GPU 등의 성능이 극적으로 향상되고 계산 비용이 저렴해지면서 심층학습은 누구나 사용할 수 있는 존재가 되었다. 기계학습 모델과 학습 데이터 양이 거대해지면서 AI의 과점화에 대한 우려가 다시 부각되고 있다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

TOP