- AI 최고위 논문에 빛나는 30세 일본인 -- 딥마인드를 통한 연구 경험 활용
-
- 카테고리AI/ 로봇·드론/ VR
- 기사일자 2021.1.8
- 신문사 Nikkei X-TECH
- 게재면 online
- 작성자hjtic
- 날짜2021-01-16 21:23:23
- 조회수565
Nikkei X-TECH_2021.01.08
AI 최고위 논문에 빛나는 30세 일본인
딥마인드를 통한 연구 경험 활용
이번 NeurIPS(신경정보처리시스템학회) 2020에서는 젊은 일본인 연구자들의 활약이 눈에 띄었다. 이들 가운데 딥러닝의 유행을 계기로 타 분야에서 AI 분야로 넘어온 연구자도 적지 않았다. 오키나와과학기술대학원대학의 오즈노(小津野, 30) 씨도 그 중 한 사람이다. 이번 참여는 그의 2번째 도전으로, 집필 논문이 1% 채택율의 구두 발표의 영광을 차지했다. 이번 논문은 구글 및 영국의 딥마인드와의 공동 연구이기도 하다. 어떻게 AI연구의 세계 최고위를 차지할 수 있게 되었는지 오즈노 씨에게 질문해보았다.
Q. 어떻게 AI, 특히 이번 논문 성과로 이어진 강화학습 논문을 연구하게 되었는가?
A. “고등전문학교에서는 반도체공학을 전공했지만, 오사카대학 편입 이후, 신경과학에 흥미를 갖게 되었다. 오키나와과학기술대학원대학(OIST)에 들어가 신경과학을 계속 공부하려고 마음먹었을 때 딥러닝이 유행하기 시작했다. 2014년 즈음이라고 생각한다”.
“딥러닝을 공부해보니 재미있었고 이것이 내가 진짜 하고 싶은 것이라고 느껴 연구하게 되었다. 그리고 딥러닝의 네트워크를 연구하면서 어떤 이유로 이것이 정확하게 움직이는 지를 밝히는 이론에 흥미를 갖게 되어 이를 분석하기 시작했다. 이것이 이번 성과로 이어졌다”.
-- 딥마인드가 새로운 연구소 개설 --
이 이론 분석은 주위에 설명해주는 연구자가 없어 스스로 연구를 추진할 수 밖에 없었지만 2018년에 기회가 찾아왔다. 이번 논문을 함께 집필한 무노스 씨가 OIST에 방문한 것이다. OIST는 외부에 연구 계획에 대한 자세한 조사를 의뢰하고 있어 그 시험관으로서 왔다. 무노스 씨로부터 딥마인드가 파리에 연구소를 신설한다는 이야기를 듣고 인턴을 모집할 때 참여할 수 있도록 해달라고 부탁했다.
이것이 계기가 되어 2019년 9~12월까지 딥마인드의 파리 사무실에서 공동연구를 했다. 원래 예정된 기간은 반년이었지만 비자 문제로 3개월밖에는 머물지 못했다. 하지만 귀국 이후에도 원격으로 공동연구를 지속했고 이번 논문으로 이어졌다.
이번 논문의 제1저자인 구글리서치 브레인 팀의 뷔엘라드 씨가 실험을 담당, 나는 제2저자로 이론 분석과 이론 집필을 담당했다. 딥마인드의 파리연구소 책임자가 된 무노스 씨도 논문에 참가했다.
-- 강화학습의 정밀도가 높은 이유를 증명 --
Q. 이번 논문의 성과는 무엇인가?
A. “이번 논문은 현재의 환경에서 학습해 진화해나가는 강화학습의 알고리즘 분야에 대한 것이다. 이 분야에서는 대상으로 하는 에이전트의 움직임인 방책을 쿨백라이블러(Kullback-Leibler)정보량이라는 방법으로 제약하는 것이 유행하고 있다. 그러나 학습 정밀도가 높은 반면, 그 이유에 대해서는 밝혀지지 않았다. 이번 논문으로 그것을 이론적으로 증명한 것이 성과이다”.
“구체적으로는 기존의 ‘MD-VI’라고 하는 근사적 동적계획(Approximate dynamic programming)의 알고리즘을 분석해 최적의 행동 패턴과 학습한 것의 오차에 대한 이론 분석을 시행. 이 오차가 ‘타임 허라이즌(Time Horizon)’의 2승 오더라고 알려져 있었지만 1승 오더라는 것을 증명했다. 타임 허라이즌이란 보수(報酬)를 계산할 때의 시간 폭이지만 누적 오차가 1승 오더를 넘지 않는다는 점 때문에 정밀도가 높다. 이러한 알고리즘이 존재한다는 것은 지금까지 밝혀지지 않았다. 20년 이상 해명되지 않았던 것이다”.
Q 다음 단계로 무엇을 계획하고 있는가?
A. “이론적 방향성을 이야기한다면 현재 환경 모델을 이용하지 않는 ‘모델 프리’라고 불리는 알고리즘을 분석하고 있다. 모델 프리는 환경 모델을 이용하는 ‘모델 베이스’와는 달리 복잡한 환경 모델을 학습하지 않아도 한다. 하지만 샘플을 통해 학습할 때의 효율이 나쁘다는 단점이 있다. 학습에 필요한 샘플의 데이터 수에는 하한이 있지만 모델 베이스에서는 이 하한으로 달성할 수 있는 알고리즘이 존재한다. 한편 모델 프리의 경우 이 하한을 달성하는 알고리즘이 존재하는지는 밝혀지지 않고 있다”.
“이번 논문 성과는 이 연구에 도움이 될 것으로 생각된다. 강화학습 자체는 응용 범위가 매우 넓기 때문에 다양한 분야에서 활용될 수 있을 것이다”.
-- 매일매일이 의미가 있고 즐거웠던 파리연구소 --
Q. 이번 논문 성과로 이어진 딥마인드와의 공동연구는 어떤 환경 속에서 연구가 이뤄졌는가?
A. “딥마인드의 파리연구소는 강화학습과 게임 이론에 특화된 곳으로, 당시 20명 정도 재직하고 있었다. 서로 지식을 공유하는 문화가 있어 매일매일이 의미가 있었다. 모두들 다양한 것들에 흥미를 가지고 있었고 전문 분야도 달랐다. 예를 들어 기계학습뿐만 아니라 물리학이나 신경과학도 연구하고 있는 사람들도 있어 대화하는 것이 즐거웠다. 자주 저녁식사를 함께하던 인턴 동기와는 현재도 공동연구를 하고 있다”.
“파리연구소 사무실은 연구에 최적화된 환경이라고 느꼈다. 식당에서의 식사나 스낵뿐만 아니라 키보드와 헤드폰, 케이블 등까지도 무료로 제공되어 놀랐다. 파리에서 생활을 시작했을 당시 은행계좌도 없었기 때문에 이러한 물품들이 없었다면 상당히 힘들었을 것이다. 식당에서는 여러 종류의 치즈가 제공되었고 바리스타가 커피를 만들어주는 등, 프랑스 특유의 분위기를 느낄 수 있었다. 인턴으로서 연구에 집중하고 싶어 참가하지는 않았지만 매주 금요일에는 구글이 파티를 개최했다”.
“인턴 초기에는 사내 인프라 이용 방법을 학습하는 기간이기 때문에 연구멤버 중 한 명이 전담해 도움을 주었다. 또한 연구자와 엔지니어가 한 팀이 되어 연구를 하는 점도 효율적이라고 느꼈다. 엔지니어들이 여러 가지 툴을 개발해주었다”.
Q. 2021년 이후에는 어디에서 연구할 계획인가?
A. “강화학습에서 세계적으로 유명한 캐나다의 서튼 교수가 있는 곳에서 박사후연구원으로서 강화학습의 이론 분석 연구를 계속 추진할 계획이다. 앨버타대학의 Reinforcement Learning and Artificial Intelligence lab이라는 기관이다. RLAI라고도 부른다”.
“이번 논문은 비교적 간단한 것을 다뤘기 때문에 앞으로는 좀더 깊이 분석하고 싶다. 특히 강화학습은 비선형 함수 근사기를 이용한 분석이 추진되지 않고 있다. 함수 근사기에 제약이 있기 때문이지만 이 문제를 해결하고 싶다”.
-- 일본의 연구자들도 해외에서 인맥을 구축해야 --
Q. NeurIPS의 구두 발표에 이번 논문이 통과해 기업이나 연구기관으로부터 영입 제안이 많이 들어오고 있는가?
A. 아직까지는 없다. 박사후연구원 과정 이후엔 기업에서 일하고 싶다.
Q. 이번 NeurIPS에서는 젊은 연구자들을 중심으로 일본이 선전했다. 하지만 역시 미국과 중국에 비해 연구자 층이 얇다는 인상을 갖게 된다. 앞으로 일본이 AI 연구에서 존재감을 발휘하기 위해 필요한 것은 무엇인가?
A. 어려운 질문이다. 그러나 개인적으로는 일본에서 해외로 나가 연구하는 연구자들이 적다고 생각된다. 중국이나 한국의 연구자들은 미국 및 유럽에 적극적으로 나가고 있다. 인턴십 등으로 해외에 나가 공동연구를 하며 새로운 네트워크를 구축하는 것이 중요하다. 이러한 네트워크 속에서 지식을 공유하며 연구를 추진하는 것이 필요하다.
내가 다음 연구 장소로 캐나다를 선택한 것은 강화학습 분야에서 유명한 서튼 교수의 연구소가 있는 곳이기 때문이다. 해외는 연구자 층이 두텁다. 이론 및 응용의 제1선의 연구자들이 있기 때문에 해외에서 자신을 발전시키고 싶다.
-- 끝 --
Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.