책 커버 표지
니케이로보틱스_2021/8_중국 EC 기업 징둥닷컴의 로봇 기술력
  • 저자 : 日経BP社
  • 발행일 : 20210710
  • 페이지수/크기 : 41page/28cm

요약

Nikkei Robotics_2021.8 Sexy Technology (p3-10)

중국 EC 기업 징둥닷컴의 로봇 기술력
라스트원마일 배송 로봇을 직접 개발

세계 최대 규모를 보유하고 있는 중국의 EC(전자상거래) 시장. 그곳에서 알리바바 다음으로 큰 점유율을 차지하는 것이 징둥닷컴(JD.com)이다. 매출은 약 11조 엔, 연간 유통 총액은 약 40조 엔에 달한다.

징둥닷컴은 일명 ‘BAT’라고 부르는 바이두, 알리바바, 텐센트의 중국 거대 IT기업들과 비교하면 첨단기술에 대한 이미지가 약할지도 모른다. 그러나 실제로는 로봇이나 AI 기술을 적극적으로 개발하고 있다.

징둥닷컴은 알리바바와 달리 자사에서 EC용 물류 인프라망∙배달원을 확보하고 있고, 당일 배송 등 스피드 배송을 장점으로 하고 있다. 그러한 물류를 지원하는 기술로서, 로봇이나 AI 기술을 사내 연구소에서 활발하게 자주적으로 개발하고 있다.

징둥닷컴은 거대 EC 사업자이기 때문에 자사의 물류센터에서 선반 운반형 로봇이나 분류 로봇, 일본 로봇기업 무진(Mujin)의 피킹 로봇 등 물류용 로봇을 다수 이용하고 있다. 그러나 단순히 그러한 로봇을 이용하는 기업에 그치는 것이 아니라 미국 아마존닷컴처럼 연구 부문을 보유하며 스스로 물류용 로봇 기술에 투자하고 있다.

-- 물건을 싣고 공도를 주행 --
징둥닷컴은 사내에서 로봇이나 AI, 드론 등을 개발하는 연구조직 ‘JDX(X사업부)’를 보유하고 있다. 그 JDX의 대응 중에서도 백미라고 할 수 있는 것이, 자동 배송 로봇(ADV: autonomous delivery vehicle)이다. LIDAR나 카메라 등의 센서를 탑재해 공도를 주행하며, 지역에 있는 자사의 물류 거점에서 EC 주문자인 개인에게까지 상품을 배달한다. 이른바 라스트원마일 배송을 담당하는 로봇이다. 배송이라는 자사의 코어 사업을 로봇으로 효율화하려는 의욕적인 시도다.

ADV는 4륜 주행 로봇으로, 차량의 중앙부에는 상품을 탑재하기 위한 로커가 10개 정도 있다. 합계 650L 정도의 용량을 준비, 150kg 정도의 물건을 운반할 수 있다. 물류거점을 출발해서 주문자의 자택 등 목적지에 도착하면, 주문자에게 SMS나 전화로 도착했음을 통지하고 패스코드를 전송한다. 주문자가 ADV의 후부에 있는 터치패널을 이용해 패스코드를 입력하면, 얼굴 인증을 거쳐 자신의 주문 상품이 들어 있는 로커가 열리는 구조다. 목적지에 도달할 때까지의 루트는 고정밀도 지도(HD map) 정보를 바탕으로 직접 계획한다. 징둥닷컴에 따르면, 만약 자사에서 취급하는 주문의 10%를 이 ADV로 배송할 수 있게 되면, 연간 1.1억 달러의 비용 절감을 전망할 수 있다고 한다.

징둥닷컴은 16년에 JDX에서 ADV 개발에 착수한 이래로 단계적으로 기체를 업데이트해 왔다. 16년 9월에 최초의 프로토타입을 완성시키고, 18년 6월에는 3세대 기체를 개발. 18년 7월부터는 허베이성의 국가 프로젝트 특구 ‘슝안 신구’에서 주행을 시작했다. 현재는 쑤저우, 창수 등 중국 국내의 수십 개 도시에서 테스트나 실제 배송 업무에 이용하고 있다. 베이징에서는 신선식품도 배송한다. 20년 11월 시점에서의 누계 주행 거리는 115만km에 달한다.

-- ADV의 시스템 구성 --
징둥닷컴이 개발한 ADV의 최고 속도는 시속 30km로, 그렇게 고속은 아니다. 그러나 공도를 자율주행하는 로봇이기 때문에, ADV에서 이용하는 기술은 기본적으로 자율주행 차량에서 이용되는 기술과 공통된다. 예를 들면, 센서는 루프 부분에 16층 LIDAR, 측면에 1층 LIDAR을 갖추고, 주위 4방향에는 다른 차량 등을 인식하기 위한 단안 카메라, 전면에는 신호 등을 인식하기 위한 HDR형의 고해상도 카메라가 있다.

인식 시스템에는, 이미지 상의 오브젝트 검출이나 segmentation을 위한 딥 뉴럴 네트워크(CNN), 점군 상에서의 오브젝트 검출, 단안 depth 추정 등 자율주행 차량에서 상정되는 기술이 이용되고 있다. 자기 위치 추정에서는 GPS와 LIDAR, 카메라, 오도메트리 등을 복합적으로 이용하고 있다. LIDAR로 얻은 점군은 GICP(generalized iterative closest point)에 의해 고정밀도 지도와 매칭한다. 고정밀도 지도는 내부 제작한 것이다.

ADV에 사람은 탑승하지 않기 때문에 징둥닷컴은 불규칙한 교통 상황이나 긴급 시를 대비해, ADV에 오퍼레이터에 의한 원격 감시 및 제어 시스템을 갖추고 있다. 실시간으로 로봇의 상황을 감시할 수 있도록 하고 있고, 어떤 이상 상태가 발생했을 때는 오퍼레이터가 로봇의 제어를 대행하고, 이상 상태에서 벗어날 수 있도록 지원한다.

-- 자동차끼리의 상호 작용을 고려 --
인식 시스템에서는 segmentation용 DNN(Deep Neural Network)  등 실적이 있는 기술을 많이 채용하고 있지만 징둥닷컴은 ADV 전용의 최신 심층학습 기술도 개발하고 있다. 바로 궤도 예측 모듈이다. 다른 차량이나 보행자, 자전거 등 주위의 오브젝트가 그 후에 어떻게 움직일 것인지, 거동을 예측하는 것이다. 아래에서는 이 기술의 핵심을 살펴본다.

궤도 예측 자체는 많은 자율주행 차량에서 필수 기능이지만, 징둥닷컴은 여기에 ‘그래프 뉴럴 네트워크(Graph Neural Network)’를 바탕으로 한 ‘DGAN(Dynamic Graph Attention Network)’이라는 독자 기술을 개발하고 있다. 자연언어처리용 심층학습 기술 ‘Transformer’ 등에서 활발하게 이용되고 있는 ‘attention’이라는 기술을, 그래프 뉴럴 네트워크와 조합한 것이다. ‘GAN’이라는 명칭이 붙어 있지만, 심층학습 기술 베이스의 생성모델 ‘GAN(Generative Adversarial Network)’과는 관계가 없다.

복잡한 교통 상황에서 오브젝트의 궤도를 적절하게 예측하기 위해서는, 주위의 오브젝트 간의 상호 작용을 고려할 필요가 있다. 자동차나 보행자 등은 독립적으로 움직이는 것이 아니라, 주위의 오브젝트를 보고 서로 영향을 주면서 움직이고 있다. 예를 들면, 선행 차량이 속도를 떨어뜨리면 후속 차량도 차간 거리를 유지하기 위해 속도를 떨어뜨린다. 차도의 좌측 끝에 자전거가 주행하고 있으면, 그 뒤를 주행하는 자동차는 자전거를 피하려고 오른쪽으로 이동해 올 것이다. 횡단보도 부근에 보행자가 서 있으면, 접근해 온 자동차는 정지하려고 한다. 비어 있는 주행 차선이 있으면, 그곳으로 차선을 변경하려는 자동차도 나온다.

그러한 상호 작용을 고려하면, 궤도 예측에서도 개개의 오브젝트의 장래 궤도를 독립적으로 예측해도 그다가 유용하지 않다. 그 오브젝트의 과거 궤도를 외삽하는 것만이 아니라, 그 오브젝트가 주변 오브젝트로부터 받는 영향을 명시적으로 고려하는 편이 적절한 예측이 가능하다.

-- 그래프 뉴럴 네트워크를 응용 --
이러한 오브젝트끼리의 상호 작용을 명시적으로 모델화하기 위해, 징둥닷컴은 궤도예측에서 그래프 뉴럴 네트워크를 이용하기로 했다. 그래프 뉴럴 네트워크란, 어떤 토폴로지를 가진 그래프 구조를 뉴럴 네트워크로 다루기 위해 고안된 모델이다.

원래 CNN 등의 다층 뉴럴 네트워크 자체도 그래프의 일종이라고 할 수 있지만, 그래프 뉴럴 네트워크는 그것과는 다르다. 분자 구조나 소셜 네트워크의 그래프, 웹의 하이퍼링크 관계, 회로 등 원래 데이터 구조로서 그래프로 표시되어 있는 것을 직접 입력으로서 받는 것이 그래프 뉴럴 네트워크다.

그래프 뉴럴 네트워크에는 다양한 형식이 있다. 그래프 구조를 입력으로서 받은 후에, 각 노드에 콘볼루션 연산 등의 필터 조작을 하는 일이 많다. 어느 노드의 주변 노드 정보를 고려해, 각 노드를 다음의 상태로 이동시킨다. 이를 반복함으로써 최종적으로 입력 그래프 전체나 각 노드에 관한 특징량을 얻는다. 각 노드 자체의 분류∙회귀, 그래프 전체에 대한 분류, 링크 예측 등에 사용할 수 있다.

이 그래프 뉴럴 네트워크는 그래프 구조를 직접 처리하는 것이기 때문에, 도로에서의 오브젝트 간의 상호 작용을 나타내는 것에 적합하다. 자동차나 자전거, 보행자 등이 서로를 어떻게 보고 있는지를 나타낼 수 있다.

다만 통상의 그래프 뉴럴 네트워크는 주변의 노드 정보를 바탕으로 필터 조작을 할 때, CNN 등 통상의 뉴럴 네트워크와 마찬가지로 학습으로 도출한 고정 가중치를 사용할 뿐이다. 각 노드가 어떠한 상태에 있는지는 고려하지 않고 항상 학습으로 얻은 동일한 가중치를 사용하게 된다.

이는 도로 위의 오브젝트에 비유하면, 속도가 빠른 상태나 늦은 상태나 모두에 동일한 가중치 값을 사용한다는 의미다. 도로 위 오브젝트 간의 상호 작용을 고려한다면, 각 오브젝트의 현재 상태에 따라서 ‘동적으로 값이 바뀌는’ 가중치를 사용하는 편이 타당하다고 할 수 있다. 즉, 각 오브젝트의 상태에 따라서 주위에서 주워 오는 정보를 동적으로 바꿀 수 있는 편이 바람직할 것이다.

-- 자연언어처리에서 나오는 attention --
그래서 징둥닷컴은 궤도 예측의 그래프 뉴럴 네트워크에서 attention 시스템을 도입했다. attention이라는 것은 본지에서도 여러 번 소개했듯이, 자연언어처리용 심층학습 기술에서 자주 이용되는 것으로, 유닛 값에 따라서 주변의 어느 유닛에서 나오는 정보를 보다 중시할지, 동적으로 바꾸는 시스템이다. 자연언어처리에서는, attention 이용을 통해 문맥에 따라서 의미적으로 관련된 먼 곳의 단어 정보를 참조할 수 있게 되면서 처리의 질이 대폭으로 향상되었다.

그래프 뉴럴 네트워크에 attention을 적용한 것으로는, 심층학습 기술의 거장인 캐나다 몬트리올 대학의 요슈아 벤지오 교수 연구팀이 17년에 ‘GAT(Graph Attention Network)’를 제안했다. 징둥닷컴은 궤도 예측의 그래프 뉴럴 네트워크로서 이 GAT를 이용했다.

예측 결과는 자동차나 자전거, 보행자 등 개개의 오브젝트 별로 출력한다. 사전에 정의한 복수의 궤도 후보(앵커)의 확률 및 거기로부터의 오프셋으로서 예측한다.

DGAN에 대한 입력은 개개의 오브젝트의 관측 궤도, 현재 상태와 더불어 ‘BEV(Bird-Eye-View)’라는 표현 형식을 이용했다. BEV란, 도로를 바로 위에서 바라본 이미지로, 각 오브젝트의 위치나 도로의 레인 등을 나타낸다. 자율주행 차량에서 자주 이용되는 형식이며, 그 장소의 교통 상황을 전체적으로 나타낼 수 있다. LIDAR나 카메라 등으로 각 오브젝트의 위치나 자세를 계측하고, BEV 이미지 상에 플롯해서 작성한다.

DGAN에서는 이 BEV 이미지에 대해 우선 CNN으로 특징을 추출한다. 그 후에 각 오브젝트의 특징량을 산출해서, 그래프 뉴럴 네트워크의 각 노드의 상태량으로 한다. 각 오브젝트의 특징량은 관측 궤도, 현재 상태, BEV에서의 특징량을 바탕으로 산출한다.

-- 다른 방법을 능가 --
궤도 예측에는 자사에서 수집한 배송 로봇용 데이터 세트를 이용하고 있다. 징둥닷컴의 본사가 있는 베이징 시내를 주행하면서 LIDAR나 RGB 카메라, 레이더 등으로 계측한 데이터다. 전체 데이터 세트에는 합계 약 80만의 오브젝트가 찍혀 있다.

확률치가 큰 궤도는 거의 정답 데이터를 따른다는 것을 알 수 있다. DGAN의 성능은 LSTM이나 GAN 베이스의 방법과 비교해 적은 오차로 예측이 가능하다.

 -- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

목차