책 커버 표지
전자정보통신학회지_2022.5_심층학습 등장의 전야와 그 이후
  • 저자 : 電子情報通信學會
  • 발행일 : 20220501
  • 페이지수/크기 : 470page/28cm

요약

전자정보통신학회지_2022.5 특집 요약 (p360~363)

심층학습을 통해 정보·시스템 연구는 어떻게 바뀌었나?

제 1부. 총론
심층학습 등장의 전야와 그 이후

심층학습이 모든 분야에서 기술 혁신을 일으키고 있다. 심층학습은 인공 뉴럴 네트워크의 제3차 붐에 해당되지만, 지금까지의 붐과는 질적으로 다른 확산세를 보이고 있다. 심층학습은 어떻게 등장했을까? 이전의 뉴럴 네트워크(Neural Network)와는 어떤 차이가 있으며, 그 이후에는 어떻게 확대되었는지 등, 현재와 같은 캄브리아기 대폭발 못지않은 확산세 이전까지를 살펴보도록 하겠다.

1. 머리글
심층학습이란 인공 신경회로망(인공 뉴럴 네트워크, Artificial neural network)의 일종이며, 특히 ‘심층적’ 구조를 가짐으로써 그 능력을 비약적으로 증대시킨 뉴럴 네트워크를 가리킨다.

뉴럴 네트워크는 뇌의 지극히 유연한 지적 처리능력에 착안해, 뇌가 방대한 수의 신경세포 네트워크에 의한 정보처리시스템의 기능을 하고 있으므로, 소프트웨어 등으로 인공적으로 실현한 신경세포(뉴런)를 다수 조합시킨 네트워크를 통해 다양한 정보 처리를 시행하려는 계산 모델인 것이다.

뉴럴 네트워크에 관한 연구에는 뉴런 및 뇌의 기능이나 동작 원리를 해명하는 생리학적 측면과, 인간의 뇌를 통해 실현되고 있는 지능 해명의 인지심리학적 측면, 그리고 인간의 뇌처럼 유연하게 기능하는 정보처리기구를 구축하는 공학적인 측면을 겸비하고 있다. 심층학습은 특히 고도의 지적 처리를 포함한 정보처리기구의 실현이라는 점에서 널리 검토되고 있다.

뉴럴 네트워크의 역사는 오래되었으며 1940년대로 거슬러 올라간다. 심층학습에 대한 깊이 있는 이해를 위해서는 지금까지의 뉴럴 네트워크 연구의 흐름에 대해 살펴보는 것도 중요할 것이다. 본 글에서는 먼저 뉴럴 네트워크 연구의 역사에 대해 되짚어 보도록 하겠다.

2. 뉴럴 네트워크 연구의 역사
뇌는 방대한 수의 뉴런이 특정 구조를 가지고 상호 결합하면서 신호 교환을 통해 전체적으로 고도의 정보처리 시스템으로서 기능하고 있다. 1940년대에 시작된 것으로 추측되는 뉴럴 네트워크의 연구에서는 먼저 뉴런 동작에 대한 모델화가 이루어졌다.

실제의 생리 모델에 따라 정밀하게 모델화를 시행하려는 연구도 있지만, 맥컬럭-피츠(McCulloch-Pitts) 모델은 입력 신호의 선형화와 임계값 함수로 구성된 간단한 모델이며, 현재의 뉴럴 네트워크, 더 나아가서는 심층학습으로 연결된다.

헵(Hebb, D.)은 뉴런이 흥분했을(신호 출력을 시행) 경우에 그것에 기여한 다른 뉴런으로부터의 입력 연계(시냅스 결합 강도)를 강화시킴으로써 학습이 가능하다는 것을 제시했다. 주로 이 2가지 연구가 현재의 뉴럴 네트워크의 기본 원리라고 생각할 수 있다.

뉴럴 네트워크는 그 구조에 따라 계층형 네트워크와 상호 결합형 네트워크(리커런트 네트워크)로 나눠져 있다. 계층형 네트워크는 입력층, 복수의 중간층과 출력층으로 구성되며, 뉴런 간의 결합은 입력층에서 중간층을 거쳐 출력층으로 이동하는 한 방향으로만 한정되어 있다.

이를 순방향 신경망(Feedforward Network)이라고도 부른다. 현재 심층학습에서 검토되고 있는 것은 거의 이 구조의 것이다. 한편, 상호 결합형 네트워크는 뉴런 간의 결합에 이런 제한은 없다. 현재도 리커런트 뉴럴 네트워크(RNN)라고 불리며 사용되고 있다. 심층형 네트워크에서도 가장 단순한 구조로서, 1950년대에 로젠블랫이 퍼셉트론(Perceptrons)을 제안했다.

이것은 임의의 선형 관수가 표현 가능할 뿐만 아니라, 데이터를 기반으로 학습함으로써 반드시 정답으로 수렴한다는 것이 증명되어, 많은 문제가 학습을 통해 해결될 수 있다는 기대를 가져옴으로써 제 1차 뉴럴 네트워크의 붐이 일어나게 된다.

1990년경이 되면서 뉴럴 네트워크는 제2차 붐을 맞이하게 된다. 먼저, 뉴럴 네트워크의 학습 알고리즘으로서 보다 빠르고 정확한 학습이 가능한 일반화된 델타 규칙이 제안되었다.

또한 이것을 계층형 네트워크의 다수 계층에도 적용할 수 있어, 먼저 출력층부터 학습을 시작해 순차적으로 이전 단계 층의 출력 오류를 추정하면서, 출력층에서 입력층을 향해 반대 방향으로 각 층에서 일반화된 델타 규칙을 기반으로 학습을 시행하는 오차 역전파 알고리즘이 제안되었다.

이로 인해 퍼셉트론과는 달리, 다층의 중간층을 가진 계층형 네트워크 학습이 가능해져, 비선형성의 복잡한 식별도 가능하게 되었다. 심층 학습에 있어서도 기본적으로 이 알고리즘이 이용되고 있다. 한편, 이 오차 역전파 알고리즘의 원형인 다층(3계층 이상)의 뉴럴 네트워크에 대한 확률적 경사 하강법(SGD: Stochastic Gradient Descent)에 의한 학습 알고리즘은 1967년에 아마리(甘利) 씨에 의해 제안되었다.

다층 구조를 가진 계층형 네트워크는 많은 문제에 적용할 수 있으며, 식별 성능도 상당히 높았기 때문에 널리 이용되어 뉴럴 네트워크를 탑재한 가전제품이 다수 판매됨으로써 제3차 뉴럴 네트워크 붐의 절정기를 맞이하게 된다. 그러나 1990년대 중반에는 이론적으로 견고한 SVM 등의 새로운 학습 알고리즘이 제안되어 뉴럴 네트워크의 인기는 다시 시들해졌다.

3. 인공지능 연구의 역사
논리 이론가(Logic Theorist, 1956년)는 세계 최초의 인공지능 프로그램으로 잘 알려져 있다. 이것은 수학의 자동정리증명 시스템이며, 프린키피아 마테마티카의 정리 일부가 자동적으로 증명된 다트머스 회의(Dartmouth Conference)에서 공개되었다. 또한, 정신분석의를 에뮬레이트(모방)하여 인간과 대화할 수 있는 ELIZA도 등장했다. 이로써 인공지능의 1차 붐이 일어났다.

이후, 1960년대에는 화학분야 지식을 탑재하고 유기화합물을 분석하는 DENDRAL과 1970년대 의학적 지식을 탑재해 의사와의 대화를 바탕으로 혈액 질환에 대한 적절한 항생물질을 추천하는 MYCIN이라는 시스템이 제안되었다.

이들은 지식을 법적 규율화를 통해 탑재할 경우, 전문적인 문제 풀이가 가능하다고 알려진 엑스퍼트 시스템이다. 1980년대에 들어 범용의 추론 엔진에 전문가의 지식을 규율화하여 탑재한 엑스퍼트 시스템에 이목이 쏠리면서 상용 서비스까지 등장했다.

이를 통해 인공지능의 2차붐이 일어났으나, 실용적인 대규모 시스템을 구축하려면 엄청난 규모의 법적 규율이 뒷받침되어야 했으며, 인간의 지식을 규율로서 외재화(外在化) 시키는 것도 쉽지 않았다. 규율 작성과 그 유지·보수에도 어려움이 따른다는 프레임 문제로, 인공지능의 2차 붐도 수그러들게 되었다.

4. 심층학습의 등장
1990년경, 지식을 코드나 규칙으로서 기록하는 대신에 사례 데이터만을 준비해, 그것을 뉴럴 네트워크, 의사결정나무(Decision tree), SVM 등의 기계학습 시스템에 ‘탑재’시켜, 암묵적으로 지식을 획득한다는 어프로치가 주목을 받게 된다. 이러한 어프로치는 영상처리분야에 있어서 손글씨 인식이나 얼굴인식을 비롯해, 음성인식, 자연언어 처리에서도 성공을 거두게 된다.

한편, 그와 같은 접근법도 한계를 보이기 시작했다. 예를 들면 화상 인식에서는 손글씨나 얼굴 등의 특정 대상에 대해서는 충분한 성능을 실현할 수 있었지만, 일반 화상을 인식하는 것은 아직 어려웠다. 그런 연구를 추진하기 위해 일반 화상 인식을 위한 벤치마크 데이터가 구축되었다.

ImageNet은 그 중 하나로, 이 데이터를 이용한 ILSVRC(ImageNet Large Scale Visual Recognition Challenge)라는 경진대회에서는 100만여개의 이미지를 바탕으로 1,000 클래스의 화상 식별기를 구축하여, 그 개발 성능을 측정한다는 것이었다.

2012년까지의 전형적인 어프로치는 각 이미지로부터 SIFT 등의 국소 영역 특징량을 대량으로 필요로 하며, 그 특성을 통합한 VLAD 및 Fisher vector 등의 인코딩 기법을 이용해 화상을 벡터화하여, 그 특징에 맞는 커넬(Canal) 관수를 설계. 그것을 이용한 SVC에 의해 식별기를 학습하는 등의 상당히 복잡한 방법이었다.

그러나 1,000 클래스의 식별은 어려운 문제이며 좀처럼 식별 능력이 오르지 않았다. 그런 가운데 등장한 것이 뉴럴 네트워크를 바탕으로 한 화상인식 수법이었다.

2012년의 경진대회에서 월등히 높은 성능을 보여준 이 방법은 8계층이라는 많은 계층을 가진 계층형 네트워크를 바탕으로 한 방법이지만, 네트워크에 입력할 때는 이미지를 그대로 사용해도 되고 극소영역 특징량과 인코딩 등을 걱정할 필요가 없었다. 이것은 커다란 센세이션을 일으켜, 음성인식 및 자연언어처리 등 다른 분야에도 급속도로 퍼져나갔다.    

5. 심층학습 확대의 배경과 그 문제점
현재, 업무에 따라서는 심층학습으로 인간보다 높은 수준의 지적 업무 실행이 가능해졌다. 하지만 심층학습은 엔드 투 엔드 방식(end-to-end signaling)의 학습을 시행하고 있어, 대량의 입력과 출력의 조합을 통해 학습하지만, 그 문제의 해결 과정이 불투명해 ‘블랙박스화’가 되어 있다.

인간이 지적 문제 해결을 위한 프로그램을 작성하거나 규칙 기술하는 것을 그만두고, 학습을 통해 시스템을 구축하려고 했던 것이 심층학습의 성공으로 이어져, 시스템 내부의 블랙박스화가 되는 것은 불가피하게 되었다. 이런 점을 해결하기 위해 심층학습에 대한 설명 가능성을 높이려는 연구가 활발하게 검토되고 있다.

6. 맺는 글
심층학습이 등장하기까지 뉴럴 네트워크의 연구와 인공지능 연구의 역사적 관련성을 함께 되짚어 보았다. 심층학습의 중요한 구성요소 및 심층학습을 성공시킨 배경을 재확인 함과 동시에, 심층학습은 초창기에는 인간과 동일한 지적 업무를 실현하기 위해 도입된 것이며, 화상인식·음성인식·자연언어 처리 등의 지적 업무를 상당히 고성능으로 실현할 수 있게 되었다.

그런 반면, ‘인간과 동일한 지적 능력’이라는 틀에서 벗어나, 영상 부호화 및 랜더링 등으로의 응용 확대도 이뤄지고 있다. 앞으로는 더욱 광범위하며 고성능의 방법이 실현될 것으로 기대하고 있다. 

 -- 끝 --

목차