책 커버 표지
니케이로보틱스_2020/01_애플이 추진하는 자율주행 연구
  • 저자 : 日経テクノロジーオンライン
  • 발행일 : 20191210
  • 페이지수/크기 : 35page/28cm

요약

Nikkei Robotics_2020.1 Sexy Technology (p5-10)

애플이 추진하는 자율주행 연구
운전의 공격성을 바꿀 수 있는 강화학습 기술 개발

자율주행 기술을 비밀리에 개발하고 있는 미국의 애플. 애플의 자율주행용 AI 기술의 일단이 밝혀지기 시작했다. 애플은 구글, 아마존닷컴, 페이스북 등 AI 첨단기업과 마찬가지로 기계학습 분야 연구자를 많이 채용하고 있다. 이번에는 그들이 개발한 자율주행용 기계학습 기술의 일례를 소개하려 한다.

-- 우여곡절을 거친 자율주행 --
애플의 자율주행 개발 부문은 한 때 200명 규모의 인원을 삭감한다는 뉴스도 보도됐지만 19년 6월에는 자율주행 스타트업 기업 Drive.ai를 인수하는 등 여전히 적극적인 자세를 취하고 있다. 18년에는 애플 출신으로 최근까지 테슬라에서 Senior Vice President Engineering를 맡았던 Doug Field 씨가 다시 애플에 입사. 테슬라에서 Vice President Engineering를 맡았던 Michael Schwekutsch 씨도 19년에 애플에 입사하는 등 인재 채용을 강화하고 있다. 미국 캘리포니아 주에서 공공도로 시험을 시행하는 자율주행 차도 대수를 급속하게 늘리고 있다. 당국으로부터 승인을 받은 차량은 이미 70대 이상에 달한다. 자율주행에 필수 센서인 LIDAR을 자사 개발하고 있다는 소문도 있을 정도다.

그 중에서도 애플이 자율주행 관련해서 주력하고 있는 것이 주위 환경을 인식하거나 운전 행동을 생성하는 AI의 개발이다. 예를 들면, 심층학습 기술의 아버지라고도 불리는 Geoffrey Hinton 씨(캐나다 토론토대학 교수)의 제자인 Ruslan Salakhutdinov 씨가 16년에 애플에 입사. 현재 Director of AI Research로서 애플의 AI 연구를 총괄하고 있다.

Salakhutdinov 씨는 심층학습 기술이 붐을 일으키기 전부터 Hinton 씨와 함께 Deep Neural Networks(DNN)의 연구를 하고 있던 인물로, 볼츠만 머신형의 DNN ‘Deep Boltzmann Machines’을 제창하거나 붐이 일어난 후에도 DNN의 ‘Dropout’를 고안하는 등 심층학습 분야에서 많은 실적을 쌓아 온 저명한 연구자다. 이번에 소개하는 자율주행용 AI 기술도 이 Salakhutdinov 씨 등이 개발한 것이다.

-- 위험을 감안한 강화학습 --
그럼 애플은 구체적으로 어떤 자율주행 AI를 개발하고 있는 것일까? 전모가 밝혀진 것은 아니지만 이번에 그 일단이 밝혀진 것은 Safety Critical용 강화학습 기술 ‘risk-sensitive RL(Reinforcement Learning)’이다. 위험을 감안해 그 위험을 적절하게 제어할 수 있도록 하는 방법이다.

강화학습 기술이라는 것은 환경 속에서 시행착오를 거치면서 에이전트에게 적절한 행동을 학습시키는 방법이다. 교사 없는 학습의 일종으로, 현재 AI 벤처기업이나 자동차업체들은 이 강화학습 기술을 자율주행용으로 연구하고 있다.

강화학습 기술은 환경 속에서 에이전트가 스스로 학습해 나가기 때문에 교사가 있는 학습과 달리 사람에 의한 주석 등은 필요 없다. 단, 설계자가 에이전트의 행동을 명확한 ‘사양’으로서 규정할 수 있는 여지는 교사가 있는 학습과 비교하면 크지 않다. 주로 지정할 수 있는 것은 시행착오 때 평가 기준으로서 부여하는 ‘보상 함수’ 정도다.

가령 특정 위험 사태(다른 차량과의 충돌 등)를 피하는 등의 평가 기준을 보상 함수로서 부여했다고 해도 아직 과제는 남는다. 일반적으로 강화학습에서는 에이전트가 경험하는 다양한 국면을 종합해 ‘평균적’으로 평가한다. 그리고 그 평균화한 정보를 바탕으로 해서 제어기가 되는 방침(policy)을 학습시키는 점이다.

가능한 한 많은 편익을 지향하는 의미에서는, 이 통계적으로 ‘평균을 취하는’ 강화학습 전략은 합리적이다. 그러나 자율주행과 같은 Safety Critical용 용도에서는 보다 보수적인 운전 동작을 도출하고 싶기도 하다. 특히 자동차에서는 주위에 거친 운전을 하는 드라이버가 있을 가능성도 있기 때문에 환경의 불확실성이 높다. 또한 수많은 센서를 탑재했다고 해도 환경 속의 모든 정보를 계측할 수는 없다. 사각지대 등에서 관측이 불가능한 정보가 많이 있다는 점도 불확실성이 높아지는 요인이다.

이처럼 안전을 가장 중요시하고 환경의 불확실성도 높은 태스크의 경우는 ‘편익은 높지만 아주 드물게 발생하는 사태’도 감안해, 그 편익도 목표로 학습해 버리는 것은 바람직하지 않다. 또한 아주 드물게만 발생하기는 하지만 손실이 큰 파괴적인 사태를 평균적으로 캐치하는 것도 바람직하지 않다. 드물게만 발생하는 사태이기 때문에 에이전트의 행동이 설계자가 목표한 것에서 벗어나 왜곡되거나 중요한 사태를 그다지 고려하지 않는 행동을 할 가능성이 있다.

예를 들면 “때마침 거리가 비어 있었기 때문에 속도를 상당히 올릴 수 있었다”라는 식의 드물게 발생하는 사태는 보수적인 행동을 취하고 싶을 경우에는 별로 기대를 해서는 안 된다. 통상의 강화학습에서는 시행착오를 통해 이러한 사태를 경험하면 그 결과도 평균적으로 감안해 포괄적으로 학습해 버린다.

-- 공격성을 제어 --
그래서 애플은 에이전트의 운전 동작의 ‘공격성(Aggressive)’이나 ‘보수적인 정도’를 자유롭게 지정해 바꿀 수 있는 강화학습 기술 ‘WCPG(Worst Cases Policy Gradients)’를 고안했다. 문자대로 Worst Cases를 감안해 학습할 수 있도록 하는 기술이다. 19년 10월에 개최된 기계학습 콘퍼런스 강연에서 애플의 Yichuan Charlie Tang 씨가 밝혔다. Tang 씨도 앞에서 언급한 Salakhutdinov 씨와 마찬가지로 캐나다의 토론토대학 출신으로 Hinton 씨의 제자다.

위험을 감안한 강화학습인 risk-sensitive RL이나 Safe RL은 지금까지도 활발하게 연구되고 있으며 주로 2개의 어프로치로 대별할 수 있다. 하나는 (1)시행착오에 의한 탐색 과정에서 위험한 영역을 피하도록 하는 것이다. 위험 지표를 명시적으로 외부에서 부여함으로써 시행할 때 그것을 피하도록 하거나 사람의 샘플이나 조언을 바탕으로 위험한 상태 공간을 피하는 등의 방법이 있다.

다른 하나는 (2)최적화의 목적 함수 자체를 위험을 감안한 것으로 변경하는 것이다. 목적 함수에서 누적 보상의 확률적인 분산의 크기를 가미하거나 지수형 효용 함수(exponential utility function)를 이용하는 방법 등이 있으며, 위험의 선호도를 파라미터로서 지정할 수 있는 것이 많다. 이번 애플의 방법도 이 (2)타입이다.

-- 금융의 위험평가지표 CVaR을 이용 --
그럼 애플의 강화학습 방법 WCPG의 내용을 구체적으로 살펴보자. WCPG는 앞에서 말한 (2)타입인 risk-sensitive RL이기 때문에 목적 함수 자체를 바꾸고 있다. 애플이 목적 함수에 이용한 것은 ‘CVaR(Conditional Value at Risk)’이라는 지표다. 금융공학 등의 분야에서 자주 이용되는 위험 지표다.

통상의 강화학습에서는 미래에 얻을 수 있을 것으로 예상되는 수익(할인누적 보상, 리턴)의 기대치를 목적 함수로 하고 있다. 이 기대치는 어떠한 상태 s로, 어떠한 행동 α를 취했을 때(방침 π)의 리턴 R의 분포 pπ(R|s, α)를 생각했을 때 그 평균에 해당한다.

어떠한 국면 s에서 어떠한 행동 α를 취하는가에 따라서 이 리턴의 분포 모양은 변한다. 즉, 방침(s에서 α의 맵핑 π)를 바꾸면 분포 모양이 변한다. Policy Gradient 베이스의 강화학습 등에서는 방침을 다양하게 바꿈으로써 이 리턴의 분포 모양 자체를 변경함으로써 최적화의 목적인 기대치(Q(s, α))를 가능한 최대화할 수 있도록 학습해 나간다.

이 어프로치 문제는 ‘리턴(수익)은 높지만 극히 드물게 발생하는 사태’도 가미해 버린다는 점이다. 그림3(좌)에서는 녹색 점선 영역이 그것이다. 확률 분포에서 산이 낮다는 것(세로 축의 수치가 작다는 것)은 이 영역은 발생할 확률(빈도)이 상당히 적다는 것을 의미한다. 통상의 강화학습에서는 어디까지 이 분포의 평균을 취하기 때문에 아무리 빈도가 적더라도 이 영역의 존재는 평균치에 영향을 미친다. 특히 이 수익이 높은 영역이 ‘롱테일(long-tail)형’으로, 가로로 얇게 넓게 늘어나는 경우는 그 영향이 현저하다. 모두 빈도는 매우 적음에도 불구하고 리턴이 상당히 높은 케이스가 많이 포함되어 있으면, 평균치는 그 높은 리턴에 이끌려 오른쪽으로 시프트한다. 오른쪽으로 시프트하는 것은 언뜻 좋아 보일지도 모르지만 실제로는 그것은 극히 드문 현상에 기댄 지나치게 낙관적인 행동이다.

그래서 애플의 WCPG에서는 학습을 경신할 때, 이 리턴의 확률 분포의 모든 영역을 가미하는 것이 아니라 하위의 일정 비율의 영역, α%의 부분 만을 가미하도록 했다. 그림3(우)처럼 분포에서 리턴(수익)이 낮은 왼쪽의 핑크색 영역만을 기대치 계산에 포함하도록 한다.

가령 핑크색 영역만을 가미하면 그 기대치(평균)는 적색선 근처가 된다. 이 하위 α%의 영역에서의 기대치를 CVaR이라고 부른다. ‘하위 영역 α%’라는 파라미터로, 리턴의 확률 분포에 조건(Conditional)이 달렸다는 의미다. 이른바 극히 드물게 발생하는 고수익 영역은 계산에서 제외해, 보다 비관적으로 수익이 적은 영역에만 초점을 맞춰서 에이전트를 학습시키려는 지침이다. α의 수치가 작아지면 문자 그대로 Worst Cases에 근접해 간다. α가 100%라면 통상의 강화학습과 등가가 된다. α가 그대로 리스크 선호도가 되는 것이다. 또한 조건이 붙지 않는 단순한 ‘VaR’은 α% 영역의 오른쪽 끝의 수치를 나타낸다.

-- 수익의 분포를 DNN으로 추정 --
CVaR이라는 위험 지표를 강화학습에 채용하려는 시도는 이전에도 있었지만 애플이 연구한 것은 CVaR 수치를 추정하는 방법이다. 기존 연구에서는 CVaR의 기울기를 직접, 샘플링 방법으로 견적하고 있어 계산 부하가 높았다. 그러나 애플은 보다 심플한 어프로치로 쉽게 산출하는 것을 목표했다.

여기서 애플이 베이스로 한 것이 최근 몇 년간 활발하게 연구되고 있는 ‘distributional RL’이라는 타입의 강화학습 방법이다. 본 기사의 전반부에서 리턴의 확률 분포에 대해 설명했지만 실제로 통상의 강화학습 방법에서는 이 리턴의 분포 모양 자체는 산출하지 않는다. 통상의 강화학습에서 목적 함수가 된 것은 어디까지 리턴(수익)의 ‘기대치’라는 스칼라량(量)뿐이기 때문에 분포 자체의 모양까지 일부러 산출할 필요가 없다. 기대치(평균)만 얻을 수 있으면 충분하다. 예를 들면 DNN을 이용해 이 기대치를 스칼라량으로서 근사 추정하는 것이 유행하고 있다.

이에 대해 distributional RL이라는 것은 문자 그대로 리턴의 분포(distribution) 자체를 추정해 학습하는 방법이다. 스칼라량의 기대치만 추정하는 것과는 달리, 리턴의 분포 자체를 얻을 수 있으면 보다 풍부한 정보를 취득할 수 있기 때문에 에이전트의 행동의 질을 높이는데 활용할 수 있다는 입장이다. 기대치만을 추정하는 것과 비교하면 수고가 들지만 분포 자체의 모양을 얻을 수 있다면 이번 애플의 WCPG처럼 위험을 감안한 강화학습도 쉬워진다.

-- 분포에는 Gaussian을 가정 --
-- 신호 없는 좌회전 등에서 실험 --


 -- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

목차