책 커버 표지
니케이로보틱스_2023/01_로봇 동작계획에도 대규모 데이터의 효과
  • 저자 : 日経BP社
  • 발행일 : 20221210
  • 페이지수/크기 : 39page/28cm

요약

Nikkei Robotics_2023.1 Sexy Technology (p3-9)

로봇 동작계획에도 대규모 데이터의 효과
NVIDIA와 미국 대학, 학습 데이터 300만 이상을 자동 생성

로봇의 매니퓰레이션(Manipulation)에서 다관절 암의 움직임을 생성하는, 이른바 동작계획(Motion Planning)에도 심층학습 기술에 의한 데이터 구동/대규모화의 흐름이 도래했다.

300만개나 되는 학습데이터를 이용해 딥뉴럴네트워크(DNN)를 훈련시켜, 암의 동작계획에서 기존 기술을 웃도는 성능을 실현했다는 보고가 나왔다. 미국 NVIDIA와 워싱텅대학교(이하 UW)가 실현한 기술 ‘Motion Policy Networks(M Nets)’다.

NVIDIA는 로봇 분야의 연구개발에도 주력하고 있고, 미국 시애틀에 로봇 연구 거점 ‘Seattle Robotics Lab’를 두고, 인간의 생활 공간에서 활동하는 로봇에 대해 UW와 공동연구를 추진해 왔다. 본지가 19년 9월호에서 해설한 것처럼, 중에서도 동작계획 기술은 특히 적극적으로 개발하고 있고, 이번 M Nets도 그 성과이다.

-- 동작계획에 심층학습 --
동작계획에 심층학습 기술을 적용하는 것은 심층학습 기술의 부흥 이래 계속해서 시도되어 왔다. 동작계획의 어느 부분에 심층학습 기술을 조합할 것인가, 그 사고방식이나 어프로치는 다양하지만 가장 심플한 것이 동작계획 전체를 end-to-end(E2E)로 DNN에 맡기는 방법, 이른바 ‘뉴럴 동작계획기’라고도 부르는 방법이다.

사전에 샘플링 베이스 등 기존의 동작계획기로 대량의 궤도 예시를 생성해 두고, 그것을 오프라인에서 DNN에 지도학습(Supervised Learning)시킨다.

현재, 샘플링 베이스의 동작계획기는 로봇 암의 플래닝에서 주류이지만 수초~10초 정도의 긴 시간이 필요하다는 점이 과제다. DNN 베이스의 뉴럴 동작계획기로 바꾸면 수백 ms 정도면 궤도를 얻을 수 있는 큰 이점이 있다.

수백 ms에 플래닝이 가능하다면 1초에 여러 번의 동작계획을 할 수 있다. 뉴럴 동작계획기 자체는 동적인 장해물을 명시적으로 고려하고 있는 것은 아니지만 수 Hz 정도로 플래닝을 반복하면 상당히 빠른 장애물이 아니면 피할 수 있다.

다만 E2E 심층학습 베이스의 동작계획기는 어디까지나 사전 지식을 바탕으로 적절하다고 생각되는 궤도를 추정한다. 그래프나 공간 내를 빈틈없이 탐색하는 것이 아니기 때문에 장해물에 대한 충돌 등 부적절한 궤도를 출력하는 일도 있다.

예를 들면, E2E 심층학습 베이스의 대표적인 동작계획기 ‘MPNets(Motion Planning Networks)’는 7축 암의 궤도 생성에서는 생성한 다수의 궤도 중에서 충돌 없는 궤도의 비율, 이른바 성공률이 80%대 후반에 그친다.

10회의 궤도 생성을 하면 1회 정도는 실패 궤도를 생성한다는 것이다. E2E형 뉴럴 동작계획기는 순식간에 궤도를 얻을 수 있다는 이점은 있지만 고전적인 동작계획기와 비교해 성공률이 크게 떨어진다는 결점이 있었다. 질적인 면에서 과제가 있었던 것이다.

-- 대규모화로 질을 개선 --
그러한 가운데 이번에 NVIDIA와 UW는 대규모화 등 여러 아이디어를 통해 E2E형 심층학습 베이스의 동작계획기 성공률을 대폭 높이는 데 성공했다. 7축 암의 동작계획에서 NVIDIA와 UW의 실험조건에서는 기존의 MPNets는 65.28%의 성공률이었지만 이번의 M Nets에서는 95.33%로 실패율을 약 1/7로 떨어뜨렸다.

학습에서 본보기(100%에 상당)로 삼은 기존 방법(expert)에 가까운 레벨이라고 할 수 있다. 어디까지나 기계학습 베이스이기 때문에 100%에는 도달하지 못했지만 실용에 견딜 수 있는 정밀도는 됐다고 말할 수 있다.

또한 동작계획에 심층학습 기술을 조합하는 방법은 비단 이번 E2E형과 같은 단순한 어프로치만 있는 것은 아니다. 이외에도 많이 고안되고 있다. 기존의 동작계획기의 내부 모듈에 DNN을 적용해 사용 편의성이나 성능을 높이는 어프로치도 있다.

예를 들면, 탐색 베이스 플래너에서는 탐색 시에 노드를 평가하는 함수를 DNN으로 구성하거나, 그래프를 전처리하여 탐색을 쉽게 하는 처리에 DNN을 적용하는 등의 대응이 있다. 본지가 21년 11월호에서 소개한 오므론의 AI 자회사(OMRON SINIC X)의 ‘Neural A*’는 후자 타입이다.

샘플링 베이스의 플래너에 대해서도 E2E형처럼 단순히 그 입출력 관계를 지도학습시키는 것이 아니라 내부에 DNN을 적용하는 시도가 있다. 예를 들면, 미국 구글이 고안한 ‘Learned FMT*’에서는 샘플링 베이스 방법 ‘FMT*’에서의 샘플링 조작을 생성모델형 DNN ‘conditional variational autoencoder(cVAE)’로 바꾸고 있다.

cVAE는 인코더부의 잠재 변수에 대해 정규분포 파라미터(평균/분산)를 출력하고, 그 분포 파라미터와 잡음을 바탕으로 해서 디코더부에서 추정치를 출력한다. 통상의 결정론적인 DNN과 달리 내부에 잡음원을 갖고 확률적인 행동을 한다. Learned FMT*는 이러한 cVAE의 성질을 이용해 학습으로 얻은 사전 지식을 바탕으로 유망할 것 같은 영역에 샘플 점을 찍는 것을 노린 방법이다.

-- 시뮬레이터 상에서 데이터 생성 --
그럼 NVIDIA와 UW가 개발한 M Nets의 구체적인 구상을 살펴보자. 시스템 구성으로는 로봇 암, 환경을 계측하기 위한 외부의 거리 이미지 센서가 필요하다. 거리 이미지 센서로 장해물이나 로봇 자신의 점군을 계측하고, 그것을 M Nets에 입력하면 다음 시각의 관절 좌표의 목표치가 나온다.

Open Loop로 단번에 궤도 생성을 한다면, 이 다음 시각의 플래닝을 축차적으로 시행해 종점까지 연결한다. Closed Loop에서 작동시킨다면 계측과 플래닝을 수 Hz의 주기로 시행하게 된다.

M Nets에서의 학습 흐름은 기본적으로 기존의 동작계획기를 본보기로 한 모방학습(imitation learning)과 같은 틀이다. (1) 시뮬레이터 상에서 학습 데이터 생성, (2) DNN 학습, (3) 실천에 대한 적용이라는 3단계가 있다.

M Nets로 궁리한 것은 DNN에 입력하는 형식이다. 통상 뉴럴 동작계획이라면 암의 자세는 6~7차원의 관절 좌표 벡터로서만 입력하는 일이 많다. 한편 M Nets에서는 로봇이나 핸드의 표면에 대해 명시적으로 점군으로 표현해 DNN에 입력하기로 했다. 즉, 장해물의 정보를 점군으로 표현해 입력할 뿐만 아니라 그 점군에 로봇 자신의 점군 정보도 섞어서 DNN에 입력한다.

-- 점군에 정보를 집약 --
개개의 점이 어느 물체의 점인지 판별할 수 있도록 입력하는 점군에는 라벨을 부여해 둔다. 학습단계에서는 시뮬레이터 상의 로봇의 3차원 모델에서 로봇 표면의 점을 샘플로 뽑아 점군으로 한다.

실제 기기에서는 계측 점군에 대해 어떠한 세그먼테이션 처리를 사전에 시행해 두고, 라벨을 부여한다. 센서로 계측한 로봇의 점군은 한번 삭제하고, 관절 좌표 정보로부터 시뮬레이터 상에서 샘플로 뽑은 점군을 다시 인위적으로 삽입한다.

단순히 관절 좌표의 정보를 사용할 뿐만 아니라 명시적으로 라벨을 붙인 로봇의 점군도 섞어서 DNN에 입력함으로써 관절 좌표만을 사용하는 구성과 비교해 플래닝의 성공률을 30%나 끌어올릴 수 있었다. 점군이 있기 때문에 로봇의 모양을 보다 정확하게 DNN에 전달할 수 있다.

가능한 한 점군에 정보를 집약하려고 하는 자세는 철저하다. M Nets에서는 장해물이나 로봇 자신뿐만 아니라 동작계획의 골 위치(종점) 정보도 라벨 부착된 점군으로서 섞어 넣는다.

시뮬레이터 상에서 골 위치에 상당하는 장소에, 암에서 분리한 핸드만 있는 모델을 배치하고, 그 표면을 샘플링해서 점군으로 한다. 즉, DNN에 입력하는 점군에는 장해물, 로봇 자신, 목표 위치의 핸드라는 3종류의 라벨이 부여되고 있다.

또한 이처럼 점군에 정보를 집약한다는 방침은 시뮬레이터 상의 데이터와 실제 환경의 데이터의 갭을 최소한으로 억제할 수 있다는 이점도 있다. 학습 후의 DNN을 그대로 실제 기기로 옮기는, 이른바 ‘sim-to-real’을 실시하기 쉽다.

실제 거리 이미지 센서에서는 점군에 계측오차, 잡음이 더해지기 때문에 시뮬레이터와의 갭은 제로는 아니다. 하지만 RGB 이미지에서의 CG 이미지와 실제 카메라 사이의 갭과 비교하면 크게 적다.

시뮬레이터 상에서 RGB 이미지의 학습 데이터를 CG 등으로 대량으로 생성한 경우, 그것을 현실의 어피어런스에 근접시키기 위한 처리(GAN 등을 이용)가 별도로 필요하지만 점군이라면 그러한 처리는 필요 없다.

이번 기술은 모방 학습의 틀이지만 심층강화학습의 sim-to-real에서도 같은 문제는 있고, 모달이 점군뿐이라면 sim-to-real을 실시하기 쉽지만 RGB 이미지라면 현실과의 갭이 커진다.

-- 인코더와 디코더로 구성 --
DNN의 아키텍처로는 3종류의 DNN을 준비했다. 7차원 관절좌표를 잠재표현으로 바꾸는 인코더, 앞에서 말할 라벨 부착 점군을 잠재표현으로 바꾸는 인코더, 그들의 잠재표현을 받아 다음 시각의 관절 좌표를 출력하는 디코더이다. 점군용 인코더로는 원시 점군 정보를 직접 받는 DNN ‘PointNet++’을 이용했다. DNN의 파라미터 수는 총 1900만 정도이다.

학습 시의 목적함수에서는 모방학습을 위해 교사데이터와의 오차를 취하는 항과 함께 장해물과의 충돌을 억제하는 항도 만들었다. 학습 단계에서는 시뮬레이터를 사용할 수 있기 때문에 장해물과 로봇 자신의 3차원 모델을 사용해, 그들 사이의 거리정보(부호 있는 거리 함수: Signed Distance Function)를 이용한다. 로봇과 장해물이 접촉해서 내부에 박히면, 그 정도에 따른 손실값이 된다.

시뮬레이터에서는 물리연산엔진인 ‘PyBullet’을 이용했다. 매니퓰레이션을 위한 공간으로는 ‘서랍’ ‘선반’ ‘테이블 위의 오브젝트’라는 3종류의 환경을 준비. 복수의 서랍(열어 둔 상태)이나 선반의 구획에 핸드를 꺼내고 넣는 동작, 테이블 위의 오브젝트를 피하면서 암을 움직이는 것이 태스크였다.

이 3종류의 환경에서 핸드의 시작점과 종점을 랜덤을 생성한다. 시작점은 어떤 서랍 속, 종점은 다른 서랍 속이 되는 것이다. 그리고 시작점, 종점을 잇는 궤도를 기존의 동작계획기로 플래닝하고, 출력 결과 궤도를 학습 데이터로 한다.

학습 데이터로는 본보기가 되는 동작계획기를 이용해 2종류의 데이터세트를 생성했다. 하나는 샘플링 베이스의 ‘AIT*’를 이용한 데이터세트 A, 다른 하나는 AIT*에 로컬형 동작계획 방법 ‘Geometric Fabrics(GF)’를 조합한 데이터세트 B이다. 데이터세트 A에서는 654만 개, 데이터세트 B에서는 327만 개의 궤도를 생성했다.

데이터세트 B에서 이용한 GF와 같은 로컬형 동작계획 방법은 샘플링 베이스 방법처럼 점근적인 최적성은 보증하지 않지만 고속에 매끄러운 생성 궤도를 얻을 수 있는 특징이 있다.

GF는 NVIDIA가 고안한 동작계획 방법으로, 본지가 19년 9월호에서 해설한 NVIDIA의 동작계획 방법 ‘RMP(Riemannian motion policy) flow’의 후계가 된다. 포텐셜법을 확장한 구조다. 데이터세트 B에서는 핸드의 궤도만 AIT*로 생성하고, 남은 계획을 GF로 생성함으로써 보다 원활한 궤도를 생성했다.

-- 규모에 따라 성능이 확대 --
M Nets는 실제 환경에서 동작하지만 성능의 검증은 여러 방법들 사이에서 조건을 갖추기 위해 시뮬레이터 상에서 실시했다. 데이터세트 B에서 학습시킨 M Nets은 다른 방법과 비교해 가장 성공률이 높아졌다. 목표 위치에 대한 수렴 정도나 장해물과의 충돌 발생률도 비기계학습 베이스의 로컬형과 비교해 M Nets는 양호하다.

M Nets는 학습데이터양에 따라서 성능이 확대되는 것도 이점이다. 100만 개 정도까지는 데이터를 늘리면 성공률이 단조 증가한다. 한편, 같은 DNN 베이스의 뉴럴 동작계획기라도 기존의 MPNets는 데이터양에 따른 스케일 효과가 보이지 않았고 거의 일정했다.

동작계획(추론)은 수백 ms에 끝나기 때문에 상당히 빠른 장애물이 아니면 직전에 점군으로서 감지해 회피궤도를 생성할 수 있다.

-- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

목차