니케이로보틱스_2018/02_ARC에서의 MIT 등의 도전

책 커버 표지
목차

요약

Nikkei Robotics_2018.2 Sexy Technology 요약 (p10~14)

Amazon Robotics Challenge에서의 MIT 등의 도전
학습하지 않은 미지의 물체를 어떻게 인식하는가

아마존그룹이 2017년 7월에 개최한 피킹 자동화 로봇 국제경기대회 ‘Amazon Robotics Challenge(ARC) 2017’. 인터넷 통신판매의 물류센터 업무를 상정하고 열리는 대회다. 다양한 종류의 상품이 진열되어 있는 선반에서 지정된 상품을 로봇이 자동으로 찾아내서 피킹하여 상자에 넣는다. ARC에서는 그 작업의 정확성과 신속성을 경쟁한다. 전세계에서 16개 팀이 참가하였다. 목적한 상품이 선반의 어디에 있는지, 어디를 잡으면 안정적으로 꺼낼 수 있는지 등을 자동으로 추정하기 위해 최신 딥러닝 기술 등이 사용되었다.

ARC의 전체 동향과 신형 딥러닝 기술인 ‘RefineNet’을 사용하여 우승한 호주의 ACRV(Australian Centre for Robotic Vision)팀의 기술에 대한 자세한 내용은 본지 2017년 10월호에서 소개하였다. 그러나 ARC에서는 ACRV팀 외에도 눈에 띄는 인식 기술을 독자적으로 개발하여 성과를 올린 팀이 있었다. 그것은 미국의 MIT와 프린스턴 대학의 연구자들로 구성된 ‘MIT-프린스턴’팀이다.

일반적으로 딥러닝과 같은 기계학습의 경우는 라벨이 붙어 있는 대량의 학습데이터가 필요하다. 그러나 MIT-프린스턴이 도전한 것은 불과 하나의 샘플 데이터밖에 없는 상황에서도 그것이 어떤 물체인가를 식별하는 기술이다. 기계학습 영역에서 ‘one-shot learning’이라고 불리는 어프로치다.

ARC는 이번이 세 번째지만 이와 같은 방법을 이용한 것은 MIT-프린스턴이 처음이다. ARC는 상품을 선반에 넣는 ‘Stow부문’과 선반에서 상품을 피킹하는 ‘Pick부문’이 있는데, MIT-프린스턴은 이 기술을 활용하여 Stow부문에서 1위를 차지하였다. 이번에는 ARC 상세 보고의 후편으로서 MIT-프린스턴의 기술을 소개한다.

-- 아마존의 의향을 이해하는 MIT --
원래 MIT-프린스턴이 one-shot learning에 도전한 이유는 ARC를 주최하는 아마존그룹이 물류현장에 대해 갖고 있는 문제의식을 충분히 이해했기 때문이다. 아마존의 인터넷 통신판매는 방대한 종류의 상품을 갖추고 있다. 또한 새롭게 취급하는 상품의 수도 세계 전체적으로 하루에 약 49만 종류에 달한다.

현재, 아마존의 물류현장에서는 상품이 수납된 선반은 로봇이 사람에게 자동으로 반송해 주지만 선반에서 상품을 꺼내는 작업은 사람의 일이다. 가령, 이 피킹 작업을 로봇으로 자동화하기 위해 Deep Neural Network(DNN)로 인식시키려고 했을 경우, 매일 50만 종류의 신상품의 모양 데이터를 취득하여 인식용 DNN을 재학습시켜야 한다. 이것은 현실적이지 못하다. 그래서 ARC를 주최하는 아마존 로보틱스(옛, Kiva Systems)는 이번 ARC에서 새로운 제약을 마련하였다. 그것은 각 팀에 사전에 알려주지 않은 미지의 상품을 피킹 대상에 포함한다는 것이다.

ARC에서는 피킹 대상 상품은 일반적으로 사전에 상품 현물이나 상품 이미지 등이 대회 몇 개월 전에 각 팀에 배포된다. 이 때문에 각 팀은 용이하게 상품 모양이나 이미지 등을 계측하여 인식 시스템을 학습시켜 둘 수 있었다. 그러나 이번부터 도입된 미지 상품은 경기 개시 불과 30분 전에 현물과 상품 이미지가 각 팀에 전달되었다. DNN을 사전에 학습시키기 어려운 경기 룰로 함으로써 ‘매번 학습시킬 시간이 없을 정도로 대량의 신상품이 매일 발생한다’라는 아마존의 물류현장의 요청을 경기에 반영하였다. ARC를 통괄하는 아마존 로보틱스의 최고 기술자인 Tye Brady 씨는 “기계학습 기술의 진전을 촉진하기 위해 일부러 경기 개시 전 30분간이라는 엄격한 제약을 추가하였다”라고 말한다.

이번 ARC에 참전한 대부분의 팀은 경기 개시 30분 전에 미지 상품이 배포되면, 그 상품들을 회전 테이블 등에 올려서 거리 이미지센서나 카메라 등을 사용하여 빠르게 신상품의 모양 데이터나 여러 방향에서 이미지를 촬영하였다. 이들 데이터를 사용하여 현장에서 인식 시스템을 재학습시킨 팀도 있었다.

한편, MIT-프린스턴 팀의 일원이며 이번 기술 개발을 주도한 프린스턴 대학의 Andy Zeng 씨는 ARC의 경기장에서 본지의 취재에 대해 이렇게 말했다. “우리 팀에서는 미지 상품이 배포돼도 이미지 촬영이나 DNN 재학습 등은 일체 필요 없다. 물류현장의 요청을 반영한 것이다”.

-- 파지 후의 식별로 정밀도 향상 --
그럼 MIT-프린스턴은 어떤 방법으로 미지의 상품을 전혀 학습하지 않고도 피킹이나 식별을 가능하게 했을까? 우선 MIT-프린스턴의 어프로치에서 특징적인 것이 파지 전에는 상품 종류의 식별을 하지 않고 상품을 파지한 후에 식별한다는 점이다. ARC에서는 지정된 상품을 피킹하거나 선반의 어느 구획에 어느 상품을 진열했는가 등, 경기 후의 상품 배치 정보를 신고할 필요가 있다. 신고 내용에 오류가 있으면 감점되기 때문에 로봇은 단순히 상품을 파지하는 것뿐 아니라 상품의 종류(라벨)를 정확하게 인식할 필요가 있다.

대부분의 팀은 파지 전에 거리 이미지센서 등으로 대상물의 모양이나 이미지를 취득하여 그들을 DNN 등의 식별 모델에 입력하여 라벨 추정을 한다. 라벨을 알면 사전에 계측해 둔 그 상품의 점군 데이터를 불러올 수 있기 때문에 상품의 어디를 파지하면 좋을지 등을 ‘shape primitive’ 등의 방법을 통해 이끌어 낼 수 있다. 식별→파지의 흐름이다.

이에 대해 MIT-프린스턴은 파지한 후에 식별을 한다. 파지 전에 상품을 식별할 경우는, 선반이나 상자 속에 다양한 상품이 잡다하게 놓여져 있어 앞에 있는 물건이 뒤에 있는 물건을 가려서 보지 못하는 일도 발생하기 때문에 인식에는 바람직하지 못하다. 파지한 후라면 파지한 시점에서 다른 상품과 물리적으로 분리되기 때문에 식별이 쉬워진다.

 파지의 경우는 ARC에 참가한 많은 팀이 하는 것과 마찬가지로, 모든 층을 Convolution layer로 한 DNN인 FCN(Fully Convolutional Network)으로 파지의 용이함을 화소 단위로 추정하여, 그 수치가 가장 높은 장소를 파지하도록 하였다. MIT-프린스턴은 흡인 핸드와 그리퍼의 전환식을 채용하고 있기 때문에 각 핸드 별로 개별 FCN을 준비하였다. 그리퍼의 회전 방향은 점군 데이터를 16개 방향으로 사전에 회전시켜, 회전 후의 데이터를 FCN에 입력하도록 하였다.

-- 특징 공간에 매핑하여 식별 --
문제는 어떻게 미지의 이미지를 식별할까다. ARC의 태스크 설정에서는 경기 개시 30분 전이기는 하지만 주최 측으로부터 미지 상품의 현물과 이미지 데이터는 배포된다. MIT-프린스턴은 이 중 배포된 이미지 데이터만을 이용하여 인식 시스템을 만드는 것으로 하였다. 현물은 사용하지 않는다. 그러나 한 종류의 상품에 대해 불과 한 장의 이미지 데이터만으로는 통상의 기계학습 시스템에서는 학습 자체가 불가능하다. 그래서 MIT-프린스턴은 ‘cross-domain image matching’이라는 어프로치를 이용하였다.

여기서 말하는 도메인이라는 것은 상품 이미지를 촬영한 시추에이션을 말한다. 같은 상품이라도 다른 배경이나 앵글로 촬영된 이미지는 외관상 모습이 다르다. cross-domain image matching은 이러한 다른 시추에이션(도메인)으로 촬영된 이미지 간의 유사도 등의 상관 관계를 합리적으로 파악할 수 있도록 하기 위한 시스템이다.

ARC에서 다루는 이미지에는 주로 2개의 도메인이 있다. 하나는 주최자 측에서 배포되는 상품 이미지(product image)다. EC의 상품 카탈로그에 실려 있는 이미지처럼 하얀색을 배경으로 상품만을 정면에서 촬영한 것이다. 다른 하나는 경기 중에 로봇 등의 카메라로 촬영하는 이미지(observed image)다. 이것은 배경이 하얀색 하나만이 아니라 주위 광경이 포함되고 조명 조건이나 앵글 등도 일정하지 않다.

MIT-프린스턴은 이 product image와 observed image라는 2개의 다른 도메인의 이미지 사이에서, 찍힌 상품이 동일한지 아닌지를 식별할 수 있도록 하였다. 외관상 모습이 다른 이미지를 화소 레벨에서 매칭해도 의미가 없기 때문에 식별은 전용의 특징 공간에서 실시한다. 학습 데이터가 대량으로 있는 경우라면 라벨이 있는 이미지를 지도 학습시켜, 식별에 적합한 특징 공간을 DNN으로 도출하면 된다. 그러나 이번에는 미지의 이미지가 불과 1장의 샘플밖에 없다.

-- ImageNet을 이용 --
그래서 MIT-프린스턴은 이 특징 공간으로서, 일반 물체의 이미지 인식 경연대회인 ‘ImageNet’의 학습 데이터로 훈련된 DNN 모델을 이용하는 것으로 하였다. DNN의 출력인 2048차원의 특징 벡터 공간이다. product image와 observed image의 각각을 별개의 CNN으로 2048차원의 공간에 매핑(사상(寫像))한다.

product image는 경기 전에 사전에 입수할 수 있기 때문에 미리 매핑해 두고, 경기 중에 촬영한 observed image를 그 때마다, 이 공간에 매핑한다. 라벨을 알고 있는 product image와의 거리가 일정한 기준치 이하면 observed image는 그 라벨이라고 식별하도록 하였다.

product image를 이 특징 공간에 매핑하는 CNN은 ImageNet의 모델을 그대로 사용하고, 학습은 하지 않는다고 결론지었다. ImageNet의 모델은 다양한 물체로 학습을 마쳤기 때문에 ARC에서 다루는 미지의 상품 이미지를 새롭게 재학습시키지 않아도 어느 정도 식별에 적합한 특징 공간이 만들어진다고 판단하였다. MIT-프린스턴이 미지 이미지를 재학습하지 않아도 됐던 것은 이것이 포인트다.

경기 중에 파지하여 촬영한 이미지(observed image)는 product image용과는 별개의 CNN으로 같은 공간에 매핑한다. 이 CNN은 기지(旣知) 상품의 observed image로 사전에 학습시켜 둔다. 학습 자체는 기지 상품의 observed image로 하지만, 같은 CNN을 미지 상품의 observed image의 매핑에서도 사용한다.

MIT-프린스턴은 이러한 cross-domain image matching 구조로 ARC의 Stow부문에서 상품 인식에 오류 없이 100%의 정밀도를 달성하였다. Stow부문에서 상자에 들어 있는 기지와 미지의 20개의 상품을 모두 선반에 진열하는데 성공한 팀은 MIT-프린스턴뿐이다.

또한, 딥러닝의 프레임워크는 Torch를 사용하였다. MIT-프린스턴은 2016년 대회에서는 프린스턴 대학이 독자 개발한 딥러닝 프레임워크 ‘Marvin’을 이용하였다. 그러나 그 후에 프린스턴 대학이 “Marvin 개발에 참여하지 않게 되면서 이번에는 유연성이 뛰어난 Torch를 사용하였다”라고 프린스턴 대학의 Zeng 씨는 말한다.

  -- 끝 --

TOP

목차

TOP