일본산업뉴스요약

[AI 도감] 이미지 인식 AI도 Transformer 베이스로 -- 정확도 향상을 전망할 수 있는 2개의 이유
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2022.8.31
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2022-09-11 21:53:07
  • 조회수226

Nikkei X-TECH_2022.8.31

산업을 바꾸는, 대단한 AI 도감
이미지 인식 AI도 Transformer 베이스로
정확도 향상을 전망할 수 있는 2개의 이유

최근의 AI(인공지능)의 중요한 트렌드는 기계번역 등 자연언어처리(NLP) 분야에서 큰 성과를 거둔 아키텍처인 ‘Transformer’가 NLP 이외의 분야에도 적용되면서 기존 기법을 뛰어넘는 성능을 보이고 있다는 점이다.

Transformer는 자기주의(Self-Attention) 기구라고 불리는 구조다. 원래는 미국 구글이 기계번역을 위해서 개발해, 2017년에 논문 ‘Attention Is All You Need’에서 상세를 발표했다. 자기주의 기구에 대해 간단히 설명하면, 데이터의 어디에 주의(주목)해야 하는지를 데이터의 종류나 내용에 따라 변화시키는 구조이다.

기계학습에서의 데이터의 모델화라는 것은 따지고 보면 정보의 의미를 잃지 않고 압축해서 계산 가능한 상태로 구조화하는 것이다. 이전까지의 심층학습(딥러닝) 아키텍처는 모든 데이터에 대해 동일한 필터(함수)를 적용해서 데이터를 모델화했었다. 그 때문에 모델화를 할 때 중요한 정보가 손실되는 일이 있었다.

이에 대해 자기주의 기구인 Transformer를 이용하면, 데이터의 종류나 내용에 따라 필터가 변화하기 때문에 주의해야 할 중요 정보를 잃지 않고 데이터를 모델화할 수 있는 가능성이 높아진다. 즉 기계학습 모델의 표현력을 향상시킬 수 있다. 이것이 Transformer 약진의 원동력이 되었다.

<표> Transformer의 진화

발표년도

명칭

개발 기업

장르

용도

2017

Transformer

구글

기계번역

기계 번역을 위해 개발된 뉴럴 네트워크로 '자기주의 기구'라고 불리는 시스템이 구현되었다

2018

BERT

구글

언어모델

'빈칸 채우기 문제' 풀기를 통한 자기지도 학습(Self-Supervised Learning)을 도입. 문장의 의미를 이해할 수 있도록 하였다

2019

Temporal Fusion Transformer

구글

시계열 분석

Transformer를 시계열 데이터 분석에 응용했다

2020

GPT-3

오픈 AI

언어모델

사전 학습이 끝난 거대 언어 모델이 프롬프트 엔지니어링을 통해 다양한 태스크에 대응할 수 있음을 보여주었다.

2020

Vision Transformer

구글

이미지 인식

Transformer를 응용한 이미지 인식 모델

2021

CLIP/DALL-E

오픈 AI

이미지 생성

텍스트와 이미지를 동일하게 벡터화하여 텍스트에서 이미지, 이미지에서 텍스트로의 변환이 가능하도록 했다.

2021

AlphaFold2

딥마인드

단백질 분자 구조 예측

단백질의 분자 구조를 예측하는 모델로, 입체 구조의 모델화에 Transformer 베이스의 Evoformer를 사용한다

2021

Decision Transformer

캘리포니아대학 버클리

강화학습

Transformer를 강화학습에 응용했다

2021

Perceiver IO

딥마인드

멀티모달

Transformer의 발전판. 텍스트, 이미지, 동영상, 음성 등을 다룰 수 있다

2021

Masked Autoencoders

메타

이미지인식

이미지 분야에도 '빈칸 채우기 문제' 풀기를 통한 자기지도 학습(Self-Supervised Learning)을 도입했다

2022

OMNIVORE

메타

멀티모달

이미지, 동영상, 3차원 데이터를 다룰 수 있는 모델. 멀티모달이 될수록 단체(單體) 태스크의 정확도가 향상됨을 보였다

2022

Flamingo

딥마인드

멀티모달

텍스트, 이미지, 동영상을 다룰 수 있는 모델

2022

Gato

딥마인드

멀티모달 & 멀티태스킹

텍스트나 이미지 등을 다룰 수 있는 멀티모달과 더불어 게임이나 채팅, 로봇 조작 등의 멀티태스킹도 실현한 모델


Transformer는 기계번역에 이어 ‘BERT’나 ‘GPT’와 같은 범용적인 언어모델에 응용되어 문장의 분류나 질문응답, 문장생성과 같은 다양한 종류의 NLP 태스크에서 높은 성능을 발휘하였다.

NLP에 정통한 도쿄도립대학의 고마치(小町) 교수는 BERT에 대해 "Transformer의 층을 깊게 하면 할수록 언어모델이 추상적인 내용을 기억할 수 있음을 보여줬다는 것이 중요했다”라고 지적한다. 언어모델은 거대화됨으로써 문장의 의미를 보다 정확하게 다룰 수 있게 되었다.

이후 Transformer는 시계열 분석과 이미지 인식, 강화학습 등 다양한 영역에 응용되기 시작했다. 특이한 점은 구글의 형제회사인 영국 DeepMind가 개발한 단백질 분자의 입체구조를 예측하는 AI ‘AlphaFold2’도 단백질 입체구조 모델화에 Transformer를 개량한 ‘Evaformer’를 사용한다.

Transformer를 텍스트나 이미지뿐만 아니라 동영상이나 음성, 3차원 데이터 등 다양한 종류(모달리티)의 데이터에 적용하는 ‘멀티모달’의 아키텍처도 차례차례 등장하고 있다.

-- 전체 윤곽 파악이 뛰어난 Vision Transformer --
이번에는 그 중에서도 특히 Transformer를 이미지 분야에 응용하는 것에 대해 다룬다. 종래에는 합성곱 신경망(Convolutional Neural Network, CNN)이 압도적인 존재감을 보였던 이 분야에서도 현재는 Transformer 베이스의 아키텍처가 침투하고 있다.

Transformer를 이미지 인식에 응용한 대표적인 예는 구글이 2020년 발표한 'Vision Transformer(ViT)'로, 현재는 Transformer 베이스의 이미지 인식 AI가 인식 정확도에서 CNN 베이스의 AI를 웃돌기 시작했다.

ViT에 정통한 산업기술종합연구소 인공지능연구센터의 가타오카(片岡) 선임연구원은 "ViT는 피사체의 형상을 파악하는데 뛰어나다. 종래의 CNN은 전체 형상을 파악하는 것이 서툴렀다”라고 지적한다.

CNN은 이미지를 먼저 작은 패치로 분할해 패치마다 특징을 추출했다. 반면에 ViT는 이미지를 분할하지 않고 전체에서 특징을 한꺼번에 추출한다. 그 때문에 ViT는 이미지 전체에 걸쳐 있는 큰 피사체의 윤곽을 적절히 파악할 수 있다.

전술한 바와 같이 Transformer는 데이터의 종류나 내용에 따라 데이터의 어디에 주목해야 하는지를 변화시킨다. 이미지 인식 태스크로 말하면 “인식하는 것이 코끼리라면, 엄니나 코의 모양, 귀의 모양 등에 주목한다.

많이 움직이기 때문에 사진에 따라 모양이 쉽게 변화하는 발 등에는 별로 주목하지 않는다. 한편, 아시아 코끼리와 아프리카 코끼리를 구별하는 태스크의 경우는 양자의 큰 차이인 귀의 모양에 주목하는 식이다”(가타오카 주임연구원).

Transformer를 이미지 등의 분야에 적용함으로써 2개의 큰 이점이 이미지 분야에 초래되기 시작했다.

첫 번째 이점은 Transformer 베이스의 단일 기계학습 모델이 다룰 수 있는 데이터의 모달리티가 늘어나면 늘어날수록 이미지 인식 등 개별 태스크의 정확도가 높아지는 것을 알았다는 것이다. 미국 메타가 22년 6월에 개최한 이미지 인식 분야의 유력 학회 'Computer Vision and Pattern Recognition(CVPR) 2022'에서 발표한 논문 'Omnivore: A Single Model for Many Visual Modalities'에서 보고되었다.

-- 멀티모달 쪽이 개별 태스크의 인식 정확도 향상 --
메타가 개발한 OMNIVORE는 단일 기계학습 모델로 이미지뿐만 아니라 동영상 및 3차원 데이터를 다룰 수 있고, 각각의 데이터에 대해 인식/분류 태스크 등을 처리할 수 있는 Transformer 베이스의 모델이다.

종래의 어프로치에서는 이미지 인식, 동영상 인식, 3차원 물체 인식 등의 태스크를 처리하기 위해서는 각각의 태스크에 특화된 기계학습 모델을 만들 필요가 있었다.

반면 OMNIVORE는 단일 기계학습 모델로 여러 태스크를 처리할 수 있을 뿐만 아니라 여러 태스크를 처리할 수 있는 모델의 인식 정확도가 단일 태스크를 처리하는 모델의 인식 정확도보다 높아진 것이다.

“3차원 데이터를 기계학습 모델이 학습하여 구조물의 기하학적 형상을 파악할 수 있게 되면 2차원 이미지나 동영상에 포함되는 구조물에 대해서도 그 배후에 있는 기하학적 형상을 파악할 수 있게 되어 인식 정밀도가 높아진다”. 산총연의 가타오카 선임연구원은 멀티모달에 의해 개별 태스크의 정밀도가 높아지는 이유를 이렇게 설명한다.

-- 이미지도 '빈칸 메우기'를 해서 자기지도 학습 --
두 번째 이점은 언어모델인 BERT에서 큰 힘을 발휘한 '빈칸 채우기 문제' 풀기를 통한 자기지도학습(Self-Supervised Learning)을 이미지 분석에도 적용할 수 있게 된 것이다.

BERT에서의 자기지도 학습이란 글의 일부를 기계적으로 가린 상태에서 그 곳의 내용을 예측하는 빈칸 채우기 문제나, 어떤 글에 이어지는 글을 예측하는 문제 등을 직접 만들고, 그것을 풀면서 언어모델을 트레이닝하는 것이었다. 인간이 정답 데이터를 태그 부착한 교사 데이터를 준비하지 않아도 대량의 데이터를 트레이닝에 이용할 수 있게 되었다.

메타가 21년 11월에 발표한 'Masked Autoencoders'는 이미지의 빈칸 채우기 문제를 통해 이미지 인식 등에 사용하는 모델을 트레이닝한다. 구체적으로는 실재하는 이미지의 75%를 가린 다음, 이미지 전체를 복원할 수 있도록 파라미터를 조정한다.

“BERT의 빈칸 채우기 문제에서는 문장의 15%를 가리는 것이 최적이었지만, 이미지의 빈칸 채우기 문제에서는 전체의 75%를 가리는 것이 최적이었다”(산총연의 가타오카 주임연구원).

즉 이미지 등의 분야에서도 인간이 교사 데이터를 만들지 않고도 대량의 데이터로 모델을 훈련할 수 있게 된 셈이다. 멀티모달과 자기지도 학습을 원동력으로 Transformer 베이스의 이미지 인식 모델은 앞으로도 그 성능을 향상시켜 나갈 것 같다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록