책 커버 표지
니케이로보틱스_2022/04(1)_4족 로봇이 등산에 성공
  • 저자 : 日経BP社
  • 발행일 : 20220310
  • 페이지수/크기 : 43page/28cm

요약

Nikkei Robotics_22.4 Sexy Technology (p3-10)

4족 로봇이 등산에 성공
강화학습으로 넘어짐 제로, sim-to-real이 실용 레벨로

강화학습 베이스의 4족 보행 로봇이 스위스의 산 속에서 저산(低山) 하이킹에 성공했다. 표고 차 120m 정도의 자연의 산길을 자율적으로 등반해 정상에 도달했다. 그대로 하산해서 등산로 입구로 돌아올 때가지 한번도 넘어지지 않고, 1시간 정도를 사람의 도움 없이 안정적으로 완수했다.

산길에는 나무 뿌리가 돌출된 경사면, 돌이 여기저기에 깔린 길, 최대 38%의 경사, 그리고 나무 계단 등이 있었지만 그런 험준한 자연의 산길을 센서를 사용해 환경을 인식하면서 안정적으로 주행했다.

돌파 시간도 사람보다 짧았다. 이 기술은 적설기에도 대응했을 정도다. 지금까지 로봇용 강화학습은 오랫동안 학습되어 왔지만 실용 면에서는 인간이 만든 제어기가 뛰어난 경향이 강했다. 그러한 서열이 뒤집힌 사례 중 하나라고 말할 수 있다.

이를 실현한 것은, 오랫동안 보행 로봇을 연구해 온 스위스 취리히연방공대(ETH Zurich)의 Marco Hutter 교수의 연구팀이다. 취리히연방공대에서 개발된 4족 보행 로봇 ‘애니멀(ANYmal)’을 상용화하기 위해 스핀아웃해 설립한 기업인 애니보틱스(ANYbotics)의 ‘ANYmal C’를 이용했다.

ANYmal은 다리의 3축에 직렬탄성 엑추에이터(SEA: series elastic actuator)’를 채용했다. 원래 충격 흡수에 뛰어나지만 이번에는 기계학습의 힘을 이용해서 제어 측면에서 보행의 강인성을 대폭 높였다. 미국 인텔, 한국 KAIST도 참여했다.

강화학습의 실천에서는 로봇용 강화학습의 왕도라고도 할 수 있는 ‘sim-to-real’을 채용. 시뮬레이터 상에서 대량의 시행 착오를 시행한 후, 거기서 얻은 제어기(방책)를 ‘증류’를 매개로 사용해 실기에서 작동시켰다.

실기 상에서의 재학습∙fine-tuning은 일체 없다. sim-to-real이라는 강화학습의 이상형이 산길과 같은 현실적인 환경에서 그대로 통용된다는 것을 증명했다. 큰 의의가 있는 성과라고 할 수 있다.

-- DARPA의 경기대회에서 우승 --
이번 기술을 개발한 연구팀은, 실은 21년 9월에 개최된 미국방위고등연구계획국(DARPA)의 국제로봇경기대회 ‘DARPA Subterranean Challenge(이하 SubT)’ 결승에서 우승한 팀이기도 하다.

DARPA의 SubT는 재해 구조 등의 유스케이스를 상정하고, 어두운 지하 공간을 자율주행 로봇으로 탐색해서 각종 태스크의 포인트를 겨루는 이벤트다.

이 이벤트에서, 취리히연방공대는 영국의 옥스퍼드대학과 미국 캘리포니아대학교 버클리 등과 함께 ‘Team CERBERUS’라는 이름으로 참여. 4대의 ANYmal C와 드론 등을 활용해 우승했다. 우승 상금은 200만 달러(약 2억 엔)에 달한다.

이번 강화학습 베이스의 컨트롤러는 이 SubT에서 우승할 때 전면적으로 사용되었다. 좁은 지하 공간에서 약 1.7km를 주행하면서 한번도 넘어지지 않았다. 저산 하이킹뿐 아니라 국제적인 난관 극복 경기대회에서도 이미 실적을 내고 있는 것이다.

SubT는 18년부터 20년에 걸쳐서 여러 차례의 예선이 열렸다. 취리히연방공대도 예선 도중까지는 사람이 만든 모델 베이스의 컨트롤러를 ANYmal의 보행 제어에 이용하고 있었다.

그러나 막상 이번 강화학습 베이스의 컨트롤러가 완성되자, 강인성 측면에서 강화학습 베이스가 모델 베이스를 크게 능가하고 있었다. 그래서 20년 2월부터는 강화학습 베이스의 컨트롤러로 전면적으로 대체했고, 결승에서도 그 구성으로 임했다. 결과적으로 그것이 우승이라는 실적으로 이어졌다.

SubT의 결승은 미국 켄터키주에 있는 탄광터에서 진행되었다. 수평의 채굴 갱뿐 아니라 수직 갱도 있기 때문에 보행 로봇 이외에도 드론이나 바퀴형 등 복수의 로봇을 병행해 이용한다. 일괄적으로 보행 로봇의 강인성∙속도만으로 결과가 정해지는 것은 아니다.

하지만 갱 내부에는 분진이나 안개, 물웅덩이 등도 있어 험난한 조건이다. 센서 정보를 고려해 적절한 보행 동작을 이끌어내는 기계학습 베이스의 제어기가 도움이 된 것은 분명해 보인다. SubT에서는 미국 보스턴 다이내믹의 상용 4족 보행 로봇 ‘Spot’을 이용하는 팀도 있었는데, 그 팀을 누르고 우승을 차지했다.

-- 기계학습에서 센서 융합 --
이번 기술의 최대 핵심은 다른 종류(Modal)의 센서 정보를 기계학습의 힘을 사용해 통합∙융합하고 있는 점이다. 구체적으로는 LIDAR 등 외부를 계측하는 센서계(exteroceptive), 관절각이나 IMU처럼 로봇 자신의 신체 감각에 관한 내부 센서계(proprioceptive), 그들 2개 계통의 정보를 서로 감안해 심층신경망(Deep Neural Net)으로 통합하고 있다. 강화학습 그 자체보다도 강화학습 에이전트에 주력하는 상태량의 작성 방법에 큰 특징이 있는 것이다.

다른 Modal의 센서 정보를 유연하게 통합하면 험한 환경에서도 주위의 인식이 강해진다. 그것을 신뢰할 수 있는 안정적인 상태량이, ANYmal의 보행 동작의 강인성으로 이어져 있다.

이미지적으로는 예를 들면, 어느 센서가 어려워하는 국면에 돌입했을 때는 다른 센서에 폴백(fallback)해서 최저한의 동작을 확보한다. 한편, 환경이 양호한 경우는 모든 센서 정보를 풀로 이용해 보행 속도를 높이는 것이 가능해진다.

이러한 복수 Modal 간 정보의 감안∙통합은 인간이 설계한 휴리스틱한 함수∙조건에서 시행하는 것이 아니라, 이번 기술에서는 완전하게 기계학습 베이스에서 실시하고 있다.

어떤 국면에서 모덜 간 배분을 바꿀 것인가 등은 사람이 결정짓는 조건이 아니라 방대한 시행착오를 통한 대량 데이터에 의존해서 학습으로 도출한다. 멀티 모덜이나 센서 퓨전을 현대적인 기계학습에 의해 실천한 것이라고 말할 수 있다.

-- 복수 Modal을 상호 보완 --
지형 등 주위의 환경을 강하게 인식하는 것은 이동 로봇 중에서도 보행 로봇에서는 특히 중요하다. 보행 로봇의 의의는 다리를 사용해서 복잡한 지형에 유연하게 대처할 수 있다는 것이다. 단차가 있거나 노면이 기울어져 있으면 통상의 바퀴형 로봇은 신체 전체가 크게 기운다.

그러나 다리가 있으면 그 경사 정도에 따라 요철을 흡수해 신체를 안정된 상태로 유지하기 쉽다. 넘어질 것 같은 때는 그 방향으로 다리를 뻗을 수도 있다. 급한 경사면이나 심하게 울퉁불퉁한 지형에서 안정적으로 다리를 둘 수 있는 장소가, 아주 작은 면적이라도 있으면 그곳에 다리를 놓으면서 돌파할 수 있다.

이처럼 보행 로봇이 악조건의 지형을 잘 돌파하기 위해서는 발을 둘 위치를 얼마나 적절하게 선택하느냐가 포인트가 된다. 앞의 지형을 보면서 최적의 위치를 선택해 계획적으로 나가는 것이다.

그러나 얼마나 교묘하게 발 둘 위치를 계획해도 원래 전제로 삼고 있는 지형 데이터의 신뢰성이 낮고 부정확해서는 의미가 없다. 예를 들면, LIDAR 등으로 지형의 3차원 모양을 계측해도 유리와 같은 투명한 물건이 있거나 수면처럼 반사율이 높은 물체가 있으면 거리 계측은 흐트러지기 쉽다.

또한 LIDAR 등으로 아무리 정확하게 계측했다고 해도 유연한 물건에 대해서는 대처하기 어렵다. 예를 들면, 키가 큰 풀이 우거져 있는 곳은 보행 로봇이라면 풀을 헤치면서 나아가는 것이 가능하다. 하지만 LIDAR로 어느 순간의 스냅 샷으로서 계측했을 경우는 가늘고 긴 장해물이 다수 있는 공간으로밖에 파악하지 못한다.

이번 기술은 이러한 국면에 대해서도 “센서의 한계니까 어쩔 수 없다”라고 포기하는 것이 아니라, 동물처럼 멀티 Modal한 수단으로 유연하게 대처하는 것을 지향한 것이다. 예를 들면, LIDAR의 데이터에 외부 자극이나 잡음이 들어가 부정확한 점군 데이터가 들어왔다고 하자.

그 경우, 아무리 LIDAR의 데이터가 부정확해도 실제로 지면에 다리를 두고 있으면 신체를 통한 감촉(고유감각)으로서 확실하게 그곳에 지면이 있다는 것, 어느 정도의 요철인지, 기울어져 있는 지면인지, 신체를 통해 대략 어느 정도의 거리에 지면이 있는지는 인간 등의 동물은 추정할 수 있다.

키가 큰 풀이 우거져 있는 곳에서도 풀을 옆으로 눕히거나 헤쳐가면서 다리를 지면에 두고 앞으로 나가는 것은 동물이라면 추측 가능하다. LIDAR를 신뢰할 수 없는 국면에서는 이러한 내부 센서 정보를 신용하는 편이 좋다.

한편, 내부 센서도 이점만 있는 것은 아니다. LIDAR처럼 빛을 이용하는 센서와 달리, 내부 센서에서는 접촉이 발생하지 않는 한 외부 세계는 추정할 수 없다. 발 끝 등의 신체가 지면이나 장해물 등과 접촉하지 않는 한 외계 정보는 아무것도 얻을 수 없다.

어디까지 첫 한 걸음은 위험을 각오하고 밟아볼 필요가 있다. 외계 센서를 신뢰할 수 없는 국면에서의 ‘백업 수단’으로서는 유효하지만 LIDAR 등을 사용할 수 있다면 그들 정보를 의지해서 전방의 지형을 먼저 읽어 두는 편이 효율적으로 전진할 수 있다.

-- sim-to-real을 실천 --
취리히연방공대는 22년 1월에 이 기술에 대한 논문을 발표했다. 이 논문의 제1저자는 일본 출신 연구자 미키(三木) 씨다.

이번 기술에서는 앞에서 말했듯이 sim-to-real의 어프로치를 채용하고 있다. 강화학습의 시행착오는 물리연산 시뮬레이터 상에서만 시행하고, 학습이 끝나면 그 제어기(방책)를 실기로 옮겨 실행하는 것이다. 시뮬레이터 상에서 시행착오를 시킴으로써 실시간보다도 빠르게 시간을 진행시킬 수 있고, 시행착오에 의해 실기나 환경을 파괴하는 일도 방지할 수 있다.

시뮬레이터로서는 취리히연방공대가 직접 개발한 ‘RaiSim’을 이용했다. 시뮬레이션을 크게 고속화할 수 있도록 환경은 1000개분을 병렬로 실행했다. 강화학습의 알고리즘은 로봇용에서 자주 사용되는 on-policy형 ‘PPO(Proximal Policy Optimization)’이다.

학습은 2개의 국면을 거쳐 시행한다. (1)시물레이터 상에서 teacher 방책의 강화학습, (2)실기용의 방책(student 방책)에 대한 지식 증류(Knowledge Distillation)이다.

(1)의 국면에서는 모든 파라미터가 손에 들어오는 시뮬레이터 상에서의 학습이라는 것을 활용해, 잡음이나 외부자극 등이 들어오지 않는 진짜 관측치(외계 센서계), 실기에서는 계측할 수 있는 외부의 힘이나 마찰 계수 등 완전한 상태량을 줘서 학습시킨다. 지형에 관한 완전한 정보를 얻을 수 있기 때문에 이 teacher 방책은 시행착오를 통해 최적의 행동을 탐색할 수 있다.

sim-to-real에서 일반적으로 시행되는 domain randomization도 (1)의 국면에서는 실시했다. 물리연산 시뮬레이터에서는 현실 환경과의 차이는 반드시 발생한다. 너무 복잡한 물리 현상은 모의가 불가능하고, 모델의 파라미터에도 오차가 있기 때문이다. 이러한 사실 때문에 어떤 아이디어도 없이 sim-to-real을 시행하면, 완성된 제어기(방책)는 현실 환경에서 전혀 통용되지 않는 것이 된다.

그래서 domain randomization에서는 모델 내의 각종 파라미터나 거동을 랜덤화해 폭을 둠으로써 현실 환경도 그 속에 들어가 있기를 기대한다. 이번 기술에서는 로봇의 질량이나 제어의 질량 등을 시행할 때마다 램덤화했다.

또한 시행 중인 로봇에 병진력(translational force)이나 토크 등의 외부 힘을 추가하거나, 발 끝의 마찰 계수를 일시적으로 낮춰서 슬립을 모의하거나 했다.

-- 센서 융합을 담당하는 DNN --
-- 보수로 원하는 보행을 지정 --


 -- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

 

목차