책 커버 표지
일경일렉트로닉스_2020/07_AI의 주역, DNN에서 SNN으로
  • 저자 : 日経BP社
  • 발행일 : 20200620
  • 페이지수/크기 : 106page/28cm

요약

Nikkei Electronics_2020.7 Emerging Tech 요약 (p56~62)

AI의 주역, DNN에서 SNN으로
이것이야말로 ‘뇌’ 능력의 극히 일부?

AI(인공지능) 연구는 생체 뇌의 기능을 어떻게 모델화(단순화)할 것인가에 대한 연구이기도 하다. 최근 2년 간, 지금까지의 심층신경망(DNN, Deep Neural Network)에 비해 뇌에 좀 더 가까운 ‘스파이킹 뉴럴 네트워크(SNN, Spiking Neural Network)’가 에너지 효율에서 DNN을 능가하는 결과를 낼 수 있게 되었다. 인텔, IBM 등이 연구 개발에 본격적으로 나서고 있다.

AI 기술의 대표격이던 심층신경망(DNN)에 강력한 라이벌이 등장했다. 뇌신경세포(뉴런)의 시스템을 보다 충실하게 도입한 ‘스파이킹 뉴럴 네트워크(SNN)’이다.

SNN의 S(스파이킹)란 ‘뉴런’ 간 주고 받는 신호의 파형이 스파이크, 다시 말해 침 형태의 돌기와 같은 형태이기 때문에 붙여졌다. 신호의 강약은 신호의 크기나 진폭이 아닌 빈도의 많고 적음, 타이밍 등으로 표현된다. 생체의 뉴런이 실제로 이와 같은 스파이크 신호를 이용하는 것을 모방한 것이다. 그 결과, SNN을 구현한 반도체 회로는 ‘뇌형(Neuromorphic)’이라고 불리는 경우도 많다.

한편, DNN을 구성하는 ‘뉴런’은 매우 단순화된 ‘형식 뉴런’이라는 모델을 기반으로 하고 있으며, 뉴런이 ‘발화할 지 여부’는 뉴런 간의 경로이자 스위치인 ‘시냅스’의 무게 ωi와 신호 χi의 적화 Σ ωiχi 크기로 판단한다. 매우 단순화되어 있기 때문에 뇌를 바탕으로 한 AI 기술이긴 하지만 뇌형이라고 불리는 경우는 거의 없다.

SNN 외에도 뇌형으로 불리는 AI 기술이 있다. 구체적으로는 뉴런의 구조 및 동작을 세밀하게 회로로 재현하는 것을 목표로 하는 기술들이다. 하지만 뉴런 1개의 회로 규모가 상당히 커 현시점에서는 집적에 부적합하다. 집적 가능한 뇌형 뉴럴 네트워크는 당분간 SNN 밖에는 없다고 할 수 있다.

-- 수(數)적으로는 ‘쥐 수준’으로 --
SNN 또는 뇌형 뉴럴 네트워크는 사실 그렇게 새로운 존재는 아니다. 1997년경에 이미 주목 받아 시작(試作)이 시작되었다. 본격적인 IC 형태로 등장한 것은 2014년 발표된 IBM의 ‘TrueNorth’로, 뉴런에 해당하는 기능을 100만개 집적했다.

하지만 TrueNorth는 뉴런 1개당 시냅스 수가 256개로 비교적 적다. 이 때문에 이용하는 TrueNorth의 매수를 늘리는 방법으로 뉴런을 1억 개 이상 늘려도 시냅스 수는 적어, 벌이나 개구리 정도의 뇌 규모밖에는 실현할 수 없었다.

올해 3월, 드디어 쥐의 대뇌 수준의 뉴런 수와 시냅스를 가진 SNN의 연산 시스템이 등장했다. 인텔이 발표한 ‘Pohoiki Springs’. 인텔이 2017년에 발표한 뇌형 칩 ‘Loihi’를 768장을 밀접하게 결합시켜 실현했다. Loihi는 뉴런 수가 TrueNorth의 약 1/8밖에는 안되지만, 뉴런 1개 당 시냅스 수는 약 1,000개로 많아 포유류의 뉴런과 시냅스의 관계에 가깝다. 실제로 칩의 수를 늘려 뉴런 수와 시냅스 수는 쥐의 대뇌와 비슷했다.

-- 약점을 극복, 장점이 늘기 시작 --
하지만 지금까지 뇌형 칩과 시스템은 AI 기술의 비주류로 여겨져 왔다. 그것은 집적 규모가 ‘쥐’가 아닌 ‘개구리’ 수준이었기 때문만은 아니다.

최대 이유는 분류 정밀도 등 AI 칩으로서의 성능에서 SNN이 DNN에 뒤쳐졌기 때문이다. 특히 슈퍼바이즈드 러닝(지도학습) 알고리즘에는 결정타가 없었다. DNN에서 이용되는 ‘오차역전파법(Backpropagation, BP)’을 SNN용으로 확장해 사용하지만, 좀처럼 높은 정밀도가 나오지 않았다. 또한 SNN만의 특징을 활용할 수 있는 용도를 찾아내지 못하는 등, DNN을 뛰어넘지 못했다.

이러한 상황이 최근에 들어 변하고 있다. SNN판 BP의 개선이 추진되면서 슈퍼바이즈드 러닝에서 DNN에 육박하는 정밀도를 얻을 수 있게 되었고, SNN 고유의 특징을 살릴 수 있는 용도로 실적이 계속 늘고 있다.

-- DTC 이용 시와 동일한 효과 --
SNN과 DNN의 최대 차이는 앞에서 말한 대로 SNN의 뉴런 간 신호가 스파이크 신호라는 점이다. 이를 통해 SNN는 DNN에는 없는 특징을 크게 3가지 가지고 있다. (1) 신호의 강도를 스파이크의 높이가 아닌, 빈도와 타이밍 등으로 표현하기 때문에 소비 전력이 적고 잡음에 강하다. (2) 시계열 데이터 분석에 우수해 인과관계까지도 유출할 수 있다. (3) 뉴런 간 서로의 동작을 제어할 수 있다.

(1)과 비슷한 기술은 AI 외에도 최신 무선통신 기술이나 센싱 기술에 도입되고 있다. 기존의 A-D/D-A 변환기를 대체하는 T-D(Time to Digital)/D-T(Digital to Time) 변환기가 그것으로, 신호를 진폭으로 표현하는 것이 아닌, 일정한 진폭 신호의 시간 폭이나 간격으로 표현한다. 그 결과, 진폭이 작아도 되기 때문에 소비 전력이 낮다. 또한 신호열의 일부가 잡음으로 파괴되어도 남은 부분에서 정보를 복호(複號)할 수 있기 때문에 잡음에 강하다.

-- 인과성 없는 데이터는 배제 --
(2)의 시열계 데이터에 대한 강점은 스파이크 신호와 거의 세트인 시냅스 무게의 ‘STDP(스파이크 시점 의존 가소성, spike-timing-dependent plasticity)의 역할이 크다.

STDP는 연속되는 스파이크 신호의 시간 간격이 짧으면 시냅스 결합이 강해지고, 길면 약해지는 구조이다. 신호가 밀접하게 연결되어 있는 동안에는 결합이 강해지지만, 조금 빈 공간이 생기면 망각하게 된다. 그렇기 때문에 시간적인 상관성을 샘플링 할 수 있다.

또 한 가지, STDP는 좁은 간격의 신호라도 외관과는 달리 실제로 인과관계가 없다는 것이 명확한 경우에는 결합을 단번에 약화, 또는 마이너스 값으로 해 결합을 ‘오프’로 할 수 있다.

상세한 내용은 도입 환경에 따라 다르지만, 포인트는 신호 간의 타이밍에 따라 스파이크 신호가 결합을 약화시키는 방향으로도 활용할 수 있다는 것이다. 뇌신경 분야에서는 신호를 약화하는 시냅스를 ‘억제성 시냅스’, 반대로 결합을 강화하는 시냅스를 ’흥분성 시냅스’라고 부른다. 이것은 기존의 DNN에는 없는 기능이라고 할 수 있다.

-- 직접 민주제에서 간접 민주제로 --
억제성 시냅스를 활용하면 신호 강도가 작은 것 이상으로 큰 폭의 소비 전력 저감 효과를 실현할 수 있다. 그것은 DNN이 ‘직접 민주제’적인데 반해 SNN는 ‘간접 민주제’적이기 때문이다.

CNN(합성곱신경망, Convolutional Neural Network) 등 기존의 DNN 추론 프로세스는 몇몇 특징량(의견)에 대한 입력 데이터로 인기 투표를 하는 것과 같은 것이라고 할 수 있다. 예를 들어 고양이 영상을 입력하면 그 데이터 안에 고양이다움을 결정하는 특징량(의견)이 어느 정도 있는지, 또는 개다움을 결정하는 특징량이 어느 정도 있는지 등을 비교 검토해 최종적으로 고양이라고 판정한다. CNN의 각 층에서 그 특징량(의견)의 ‘강도’는 앞의 층에 관련된 데이터 전체의 ‘투표’로 결정된다. 수 또는 양으로 결정이 이루어지는 것이다.

한편, SNN은 강한 특정량을 선택하는 원리 자체는 동일하지만, 강도는 타이밍의 속도 등으로 결정된다. 그리고 투표와는 반대로 ‘대표’가 된 뉴런이 ‘동일한 의견’을 가진 뉴런의 입을 억제성 시냅스를 통해 막아 버린다.

말하자면 의견의 대표자를 고른 후, ‘대중’은 침묵하는 간접 민주제적인 것이다. 둥지 안에서 맨 처음 태어난 뻐꾸기 새끼가 아직 알인 상태의 라이벌들을 둥지 밑으로 떨어뜨리는 것과 비슷하다는 이유로 ‘승자가 모든 것을 차지한다(Winner Takes AII, WTA)’라고도 불린다. 그 결과, SNN의 각 층에서 멤버 전원의 투표 자체가 불필요해 동작에 필요한 전력이 큰 폭으로 낮아진다.

DNN도 설계에서 이와 동일한 시스템을 도입하는 경우도 있다. CNN에서 불필요하게 긴 데이터를 압축하는 풀링(Pooling)과 DNN 전반(全般)의 출력에 대한 기여도가 낮은 노드나 결합 등을 제거하는 프루닝(Pruning)이라고 불리는 조작이다. SNN에서는 이 두 가지 기능이 자연스럽게 빌트인 되어 있다고 할 수 있다.

-- 1,000억 배의 에너지 효율성 --
이러한 SNN의 특징은 강한 분야에서 압도적 저소비 전력이라는 결과로 나타난다. 뉴런네트워크의 알고리즘을 개발하고 있는 캐나다의 Applied Brain Research는 인텔의 Loihi와 인텔의 DNN용 프로세서인 ‘Movidius’, 서버 기기용 마이크로 프로세서 ‘Xeon E5-2630’, 미국 NVIDIA의 2종류의 GPU(그래픽처리 프로세서) 등을 비교. Loihi가 5~109배의 에너지 효율성을 나타냈다고 한다.

하지만 분류 성능은 Loihi가 90.6%였던 것에 반해, Movidius는 92.7%로 DNN에 육박하지만 그것을 뛰어넘는 수준은 아니다.

인텔은 Loihi와 마이크로프로세서인 ‘Core i7’에서 Sparse approximation(희소 근사화)을 각각 실행. 그 결과, Loihi가 Core i7에 비해 연산속도가 1만배. 추론 1회 당 소비 전력량은 100만분의 1. 단위 소비 전력량에 대한 연산 속도는 100억~1,000억배라는 압도적 성능을 나타냈다.

-- 뇌의 위치인식 기능을 재현 --

-- 후각 뉴런을 모방 --

(3)의 억제성 시냅스의 제어 기능을 인과성 유무를 떠나 응용한 연구도 나오고 있다. 인텔과 미국 코넬대학은 공동으로 뇌의 후각 기능 일부를 SNN으로 모방하는 연구를 추진하고 있다.

구체적으로는 비강(鼻腔) 표면에 있는 후각 수용체의 정보를 최초로 받아들이는 뇌 부위 ‘후구(嗅球)’의 뉴런 구조를 SNN로 모방했다. 최대 성과는 한번의 학습으로 92%라고 하는 높은 분류 정밀도를 얻게 되었다는 것이다.

후구는 흥분성 뉴런의 승모세포(Mitral cell, MC)와 억제성 뉴런의 과립세포(Granular cell, GC) 등으로 구성되어 있다. MC와 GC는 ‘어트랙터(Attractor)’라고 불리는 일종의 피드백 회로를 형성하고 있다. 인텔 등을 이 구조를 후구의 일부 조직의 이름인 ‘EPL(External Plexiform Layer, 외망상층)이라고 명명, Loihi에 도입했다.

-- 냄새를 ‘악곡’으로 변환 --
-- DAE 3,000회 분의 학습을 한 번에 --

-- 히타치와 GE, 에어버스가 참가 --

인텔은 Loihi를 기반으로 한 SNN 연구 컨소시엄 ‘Intel Neuromorphic Research Community(INRC)’를 2018년 3월에 발족, 참가 멤버를 확대해 왔다. 현재 75개사·조직의 참가 멤버 대부분은 대학이나 연구 기관이지만, 2019년 11월에는 미국 Accenture, 유럽의 에어버스, 미국 제너럴일렉트릭(GE), 히타치제작소 등이 참가하고 있다.

이 외에도 SNN/뇌형 뉴럴 네트워크 개발에 적극적인 곳은 TrueNoth를 개발한 IBM과 메모리 업체인 미국의 Micron Technology 등이다. IBM은 상변화형 기록(PCM)와 저항변화형 기록(ReRAM) 등 비휘발성 메모리 기술을 이용해 SNN의 고집적화를 추진하고 있다. 현재 주류인 DNN의 자리를 머지않아 SNN가 차지할 날이 올 것으로 보인다.

 -- 끝 --

Copyright © 2020 [Nikkei Electronics] / Nikkei Business Publications, Inc. All rights reserved.

목차