- AI, 절반의 학습량으로 고정밀 인식 -- NEC, 유용 데이터 스스로 생성 기술
-
- CategoryAI/ 로봇·드론/ VR
- 기사일자 2019.9.12
- 신문사 일경산업신문
- 게재면 16면
- Writerhjtic
- Date2019-09-20 08:51:40
- Pageview379
Start Up Innovation / Science
AI, 절반의 학습량으로 고정밀 인식
NEC, 유용 데이터를 스스로 생성하는 기술 개발
NEC는 적은 양의 데이터로도 인공지능(AI)을 쉽게 활용할 수 있도록 하는 기술을 개발했다. AI의 주요 기술인 심층학습(딥러닝)을 이용해 영상이나 음성을 인식할 때 기존 데이터량의 절반이어도 성능을 발휘할 수 있다. AI의 정밀도를 좌우하는 데이터를 스스로 만들어내 효율적으로 학습하는 시스템이다. 대량의 데이터를 수집하기 어려운 케이스에서 실용화될 수 있을 것으로 NEC는 기대하고 있다.
딥러닝은 뇌의 신경회로를 모방한 AI기술인 뉴럴네트워크(Neural Network)의 한 종류이다. 뉴럴네트워크는 신경세포 간에 정보를 전달하는 시스템을 응용한 것으로, 데이터를 제공하는 ‘입력층’과 내부에서 처리하는 ‘중간층’, 결과를 내는 ‘출력층’으로 구성되어 있다.
2012년에 토론토대학 연구팀이 국제영상인식대회에서 딥러닝을 채택해 2위와 큰 차이로 우승. 구글은 같은 해에 AI로 고양이를 인식하는데 성공했다. GPU(영상처리반도체) 등 하드웨어 측면의 개선이 추진되면서 영상인식의 정밀도는 비약적으로 향상되어왔다. 이미 인간을 뛰어넘는 정밀도라고 알려져 있다.
-- ‘난해한 것’을 중점적으로 --
NEC의 이번 기술은 컴퓨터가 입력 데이터를 바탕으로 인식에 실패하기 쉬운 영상 데이터를 만들어낸다.
예를 들어 손으로 쓴 ‘4’라고 하는 숫자는 자칫 흘려 쓸 경우 ‘9’로 착각하기 쉽다. 이러한 데이터는 AI에게 약점이 된다. NEC의 기술은 이처럼 인식하기 어려운 데이터를 집중적으로 학습시켜 효율적으로 정밀도를 높인다.
NEC는 정밀도 평가에서 널리 이용되고 있는 2종류의 데이터 세트를 통해 기술을 검증했다. 하나는 0~9까지 10종류의 손으로 쓴 숫자들을 인식하기 위한 데이터 세트이다. 또 하나는 비행기나 고양이 등 10종류의 영상 데이터 세트이다. NEC의 신기술은 이 두 가지 종류의 데이터 세트를 이용해 기존의 절반의 데이터량으로도 충분한 정밀도를 낼 수 있었다.
딥러닝을 위한 학습 데이터 양을 늘리는 기술은 많은 연구자들이 개발하고 있다. 기존의 방법은 학습 데이터를 변형시켜 의사적(擬似的)으로 데이터 양을 늘린다. 예를 들어 노이즈를 추가하거나 회전시켜 만들어낸다. 이러한 변형 방법은 사전에 전문가가 설계해야 할 필요가 있다.
반면, NEC는 인식이 어려운 데이터를 만들어내는 작업을 자동으로 되풀이하는 시스템이다. 데이터 종류에 따라 전문가가 조정할 필요가 없기 때문에 폭 넓은 분야에서 범용적으로 이용될 수 있다. 예를 들어 공장이나 대규모 인프라 등의 현장에서 다양한 종류의 영상 데이터에 적용할 수 있다.
AI 분야에서는 데이터 양의 증가가 반드시 정밀도 향상으로 이어진다고는 할 수 없다. 학습 데이터를 위해 본래 있는 데이터를 복제해 만들어도 인식 정밀도가 쉽게 높아지지는 않는다. 데이터 양을 늘리는 기존 방법으로는 실제로 존재하지 않는 데이터를 만들어낼 가능성이 있고, 그것이 인식에 악영향을 미칠 가능성 또한 존재한다. 반면 NEC의 신기술은 정밀도 향상에 도움이 되는 데이터만을 집중적으로 늘릴 수 있다.
데이터의 종류를 늘리는 방법의 대표적인 예는 미국의 연구자가 2014년에 고안한 ‘적대적 생성 네트워크(Generative Adversarial Network, GAN)’이다. GAN은 영상을 만드는 AI와 영상이 진짜인지를 판별하려는 AI를 경쟁시키는 시스템이다. 결과를 피드백 해 학습하도록 함으로써 데이터 작성의 정밀도를 높일 수 있다.
GAN은 입력 데이터를 늘리기 전 단계 처리 방법으로서는 유효하다. 반면, NEC의 신기술은 AI의 내부인 중간층에서 데이터를 만들어낸다. 결과를 내는 출력층에 가깝기 때문에 악영향을 미칠 수 있는 데이터의 생성을 억제할 수 있다고 한다.
딥러닝은 GAFA 등 대량의 데이터를 취급하는 거대 기업들이 연구 개발을 리드해왔다. 사람의 얼굴이나 물체 등 범용적 용도에는 인터넷 상에 있는 데이터가 도움이 된다. 대량의 데이터를 대규모 컴퓨터로 분석할 경우에는 AI를 도입하기 쉽다. 예를 들어 구글이 2012년에 고양이 영상을 인식했을 때, 유튜브에서 100만장의 고양이 영상을 추출해 학습시켰다.
몬트리올대학의 벤지오 교수의 저서에 따르면, 수용 가능한 정밀도에 도달하기 위해서는 인식 대상 당 5,000건의 데이터가 필요. 더 나아가 사람과 같은 수준 이상의 정밀도에 도달하기 위해서는 최소 1,000만건의 데이터가 필요하다고 한다.
한편, 산업용으로 영상인식 등에 AI를 이용하는 경우에는 공장 등에 대한 고유의 데이터를 학습시킬 필요가 있다. 하지만 이 때 인터넷 상에서와 같이 대량의 데이터를 수집하는 것은 어렵다. 특히 대량의 데이터를 구축할 여유가 없는 스타트업 기업들이나 데이터가 발생하기 어려운 이상 감지 등은 적은 양의 데이터로 분석하지 않으면 안 된다.
-- 중소기업에 도입 제안 --
적은 양의 데이터로 높은 정밀도를 실현할 수 있는 기술이 보급된다면 대량의 데이터를 보유하고 있지 않은 중소기업들도 활용할 수 있게 된다. NEC는 인프라 점검이나 공장의 자동화, 물류 관리와 같은 분야를 도입처로 상정하고 있다.
데이터사이언스연구소의 사토(佐藤) 주석연구원은 “한정된 데이터로 AI의 성능을 어떻게 향상시킬 것인가는 중요한 테마가 되고 있다. 다른 연구 기관과도 연대해 기술 개발을 추진해나가고 싶다”라고 말한다.
NEC는 이전부터 AI전문가 등 AI 관련 우수한 인재들을 많이 보유하고 있다. 특히 얼굴 인식과 데이터 분석에 강점을 가지고 있다. 반면 독자적 기술을 키워나가는 프로세스에 과제도 있다. NEC는 이번 신기술로 ‘사회에 도움이 되는 AI’를 비즈니스로서 보급시켜나갈 수 있을지 주목된다.
-- 끝 --