일경컴퓨터_2022/12/08_기반 모델(Foundation Models)

책 커버 표지
목차

요약

Nikkei Computer_2022.12.8 키워드 (p69)

기반 모델(Foundation Models)
라벨 없는 데이터로 자기주도학습 모델

기반 모델이란 대량의 ‘라벨 없는 데이터’를 마련해 ‘자기 지도 학습(Self-supervised learning)’을 실시한 대규모이자 범용적인 AI(인공지능) 모델을 가리킨다. 대량의 데이터로 학습시켰기 때문에 모델의 응용력이 높고 용도에 맞는 커스터마이징이 용이하다는 점이 특징이다.

미국 스탠퍼드대학 교수 등의 연구자들이 2021년 8월에 공표한 논문에서 이용되어 단번에 주목을 받았다. 구글의 언어처리 AI 'BERT'와 'PaLM', 미국 오픈AI의 언어처리 AI 'GPT-3'가 유명하지만, 자연어 처리 이외에도 적용할 수 있다.

자연어 처리를 예로 들면, 기반 모델의 바탕이 되는 것은 대량의 문서 데이터이다. 이 문서는 사람이 정답을 설정하지 않은 라벨이 없는 데이터이다. 이 데이터에 대해 자기 지도 학습을 실시하고, 문장이나 단어의 의미를 스스로 파악함으로써 언어 구성을 캐치한 기반 모델이 완성된다. 구체적으로는 문장 중 일부 단어를 랜덤으로 숨기고 앞뒤 단어에서 숨겨진 단어를 예측하는 등의 방법을 사용한다.

생성한 기반 모델에 대해 자동번역이나 문서분류와 같은 용도별 '라벨 부착 데이터'를 적용함으로써 기반 모델을 각 용도에 맞는 AI 모델로써 응용할 수 있다.

기존의 AI 모델은 예를 들면, 자동번역 전용 학습 데이터를 이용했을 경우에는 자동번역에 특화된 모델, 문서 분류용 학습 데이터를 이용했을 경우에는 문서 분류에 특화된 모델 등과 같이 이용 범위가 한정적이었다.

이에 반해 기반 모델의 경우, 하나의 모델을 여러 용도로 사용할 수 있다. 또한 “소량의 데이터로 커스터마이징 할 수 있는 이점이 있다”라고 일본 IBM의 구라타(倉田) 도쿄기초연구소 기술이사는 지적. 또한 “라벨 부착 데이터의 필요량이 기존 AI 대비 10분의 1, 100분의 1 등, 크게 적다”(구라타 기술이사)라고 한다.

-- 고장 예측 및 물질 탐색에도 활용 --
자기 지도 학습과 라벨 없는 학습은 지금까지도 존재해왔다. 이것들과 기반 모델의 차이는 “데이터량이 압도적으로 증가했다는 것이다”(구라타 기술이사). 보다 많은 데이터로 학습함으로써 다양한 용도에 적용이 가능하게 되었다. 또한 과거에는 자기 지도 학습을 응용할 수 있는 영역이 확립되지 않아 주목도가 낮았던 시기도 있지만, 자연어 처리를 비롯한 응용 사례들이 늘어나면서 주목받게 되었다.

기반 모델은 자연어 처리 외에도 에너지와 화학, 자동차 등 다양한 산업 영역에 적용할 수 있다. 화로나 펌프 등의 기기로부터 수집한 센서 데이터를 이용해 기존의 AI 모델보다 고정밀도로 기기의 고장을 예측하거나, 새로운 항균성 물질 후보를 기존보다 짧은 시간에 탐색 및 발견하는 등의 형태로 활용할 수 있다.

하지만, 기반 모델 보급에는 주의해야 할 점도 있다. 인터넷상에 존재하는 방대한 데이터를 수집해 학습시킬 경우, 그 과정에서 사람의 과도한 편견과 차별적 언어 등이 포함된 데이터가 유입될 수 있다는 점이다.

구라타 기술이사는 “(모델의 생성원이 되는) 데이터를 오염되지 않게 하게 하는 것도 중요하지만, 모델이 만들어지는 방법을 사전에 고려하고, 피해야 할 사용법을 주지한 다음 제공하는 등, 다양한 형태로 대책을 강구할 필요성이 있다”라고 주장한다.

-- 끝 --


Copyright © 2020 [Nikkei Computer] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

TOP