니케이 로보틱스 2023/11 Meta가 추진하는 로봇 AI 연구

책 커버 표지
목차

요약

Nikkei Robotics_2023.11 (p4-10)

Sexy Technology
Meta가 추진하는 로봇 AI 연구
가정 환경에서 Spot을 사용한 로봇 강화학습도

미국 Meta Platform(구 페이스북)은 심층학습 기술의 거장인 얀 르쿤(Yann LeCun) 씨가 Chief AI Scientist로서 재직하는 등 AI 기술에 주력하는 기업으로 알려져 있다. 파이토치(PyTorch) 개발, 컴퓨터비전, 그리고 대규모언어모델과 같은 자연언어처리 이미지가 강하지만 실은 로봇용 AI 기술에도 주력하고 있다.

2018년 무렵에 미국 CMU(카네기멜론대학)가 위치한 피츠버그에 자사의 연구 거점을 개설. CMU 출신의 로봇 연구자를 많이 채용해 로봇 AI의 연구에 주력하기 시작했다. 2019년에는 로봇용 기계학습 컨퍼런스 ‘CoRL 2019’에서 한 번에 4개의 논문을 발표. 로봇 분야 연구를 시작했다는 것을 커뮤니티에서 강렬하게 어필하기 시작했다.

Meta의 연구조직 FAIR(Fundamental AI Research)에서 로봇 분야의 Research Director를 CMU의 Jessica Hodgins 교수가 처음에 맡았었지만 현재는 미국 Georgia Institute of Technology(GT)의 Dhruv Batra 교수가 맡아 연구를 이끌고 있다. 로봇 AI에 대해서는 처음에는 이론적 연구가 많았지만 발족한 지 5년이 지난 지금은 로봇 실기를 사용한 보다 실천적인 연구에 착수하고 있다.

이번에는 그런 Meta의 로봇 AI 연구의 일례로서 ‘ASC(Adaptive Skill Coordination)’라는 기술을 살펴보자. 로봇 AI 연구에는 미국 구글도 상당히 주력하고 있다.

구글의 경우, 모델이나 데이터 양 등의 규모를 활용해 힘에 의한 정면 돌파와 같은 어프로치를 채택하는 경우가 많다. 하지만 Meta의 이 ASC라는 기술은 조금 더 primitive함을 지향했다. 방대한 파라미터수의 뉴럴 네트워크를 monolithic하게 사용하는 기법과는 꽤 다르다. GT와 공동개발했다.

-- 이동 매니퓰레이터에 적용 --
대상은 이동 매니퓰레이터의 태스크다. 가정 내 환경 등을 상정하고, 테이블이나 캐비닛 등 가구 위에 있는 오브젝트를 파지하고, 그것을 다른 장소로 가지고 가서, 다른 가구 위에 놓는 태스크다.

오브젝트를 파지하거나 내려놓거나 또는 그것을 집은 채로 이동하는 등 여러 종류의 동작을 연속적으로 연결하며 실시해야 하는, 이른바 long-horizon 태스크다. 오브젝트를 파지하지 않고 빈 손으로 목적지에 도착하면 태스크 완수가 아니기 때문에 스스로 처한 상황을 적절하게 판단해서 올바른 순서대로 각 동작을 해내야 한다.

‘서랍을 열다’와 같은 단발적인 태스크와는 다른 어려움이 있다. 본지가 간간히 소개하고 있는 구글의 SayCan에서 다루고 있는 것과 행동 자체는 비슷한 태스크라고도 할 수 있다.

ASC에는 이동을 담당하는 ‘Nav 스킬’, 오브젝트 파지를 담당하는 ‘Pick 스킬’, 오브젝트를 내려놓는 동작을 담당하는 ‘Place 스킬’의 3종류 방책 모듈이 있다. 복수의 방책을 병렬로 늘어놓는, 이른바 ‘Mixture-of-Experts(MoE)’ 구성이다.

3개의 기술을 통합하는 뒷단 측에는 ‘coordination(협조) 방책’이라고 부르는 모듈을 설치했는데, 이 모듈은 3종류의 스킬을 상황에 따라서 0/1로 온오프하는 게이트 역할을 한다.

3종류의 방책은 각각 다른 보상함수를 만들어, 개별적으로 강화학습을 시켰다. 모두 시뮬레이터 상에서 학습을 하고, 학습 후에는 fine-tuning 없이 그대로 실기로 옮긴다(sim-to-real).

ASC에서 특징적인 것이 이들 MoE 부분의 외측에 ‘corrective(보정) 방책’이라는 모듈을 만들어 둔 점이다. 3개의 방책은 Nav 스킬은 이동 태스크, Pict 스킬은 파지 태스크와 같이 각각의 태스크에 대해서만 short-horizon으로 학습시킨다.

이 때문에 일련의 스킬을 통합적이고 연속적으로 실시하는 long-horizon의 상황이 되면, 각 스킬은 학습 시에 경험하지 못한 보다 복잡한 상황에 조우하게 되면서 성능이 떨어지게 된다.

그래서 corrective 방책은 그러한 상황이 됐을 때, 각 스킬을 대신해 동작을 출력한다. Coordination 방책에서 어느 스킬도 선택되지 못한 경우에 corrective 방책이 출동한다. 이렇게 함으로써 각 스킬의 학습 내용을 망각하지 않고 새로운 상황에 대처할 수 있다.

왜 corrective 방책이 그러한 상황에 대처할 수 있는지 이상하게 생각할 수도 있겠지만 ASC에서는 이 corrective 방책 자체도 보상함수(태스크의 성공, 충돌이나 후진의 벌칙항 등)에서 강화학습을 시켜 획득한다. 강화학습에서의 시행착오를 통해 대처 방법을 탐색한다.

-- Spot의 API를 활용 --
Meta와 GT는 ASC를 시험하는 이동 매니퓰레이터의 실기로서 미국 보스턴 다이내믹스의 4족 보행 로봇 ‘Spot’을 이용하고 있다. Spot의 상부에 암이나 그리퍼를 부착한 구성이다. ASC의 방책에 의한 출력은 이 Spot의 API를 통해 목표치로서 실기에 전송된다.

구글의 SayCan 등에서는 입력은 유저가 입력한 텍스트에 의한 태스크 지시문이지만 Meta 등의 ASC에서는 (a)파지해야 할 오브젝트가 올려져 있는 가구의 좌표/자세, (b)그 오브젝트를 놓아야 할 가구의 좌표/자세, (c)오브젝트를 놓아야 할 장소의 3차원 좌표의 3개 정보를 태스크 지시로서 부여한다(SayCan과 같은 텍스트 입력 타입도 시험하고 있으며, 이것은 후술한다).

태스크 달성을 위해 관측 가능한 상태량은 스킬 별로 다르다. 우선 로봇 자체의 이동을 관장하는 Nav 스킬에서는 Spot 전면 카메라의 거리 이미지 및 Spot의 API에서 취득하는 자기위치/자세, 그리고 태스크 목표인 a의 정보를 입력한다.

ASC의 태스크에서는 명시적인 지도를 작성하지 않으므로 자기위치/자세는 Spot의 API를 통해 얻는 스타트 지점에서의 상대 좌표/자세다. 이동출력은 병진속도와 각속도이다.

ASC에서는 다리 로봇인 Spot을 이용하고 있다. 이 로봇에서는 API에 의해 목표 병진속도와 목표 각속도를 주면 걸음걸이 자체의 제어는 Spot의 펌웨어가 자동으로 하도록 되어 있다.

Nav 태스크에서는 현재 있는 곳과 목적지의 좌표가 주어져 있기 때문에 방책으로서는 목적지를 향하도록 속도 지령을 내리기만 하면 된다고 생각할지도 모른다. 다만, ASC에서는 복수의 방이 있는 가정 내 환경을 대상으로 하고 있어 꼭 직선 이동만 할 수 있는 것은 아니다. 도중에는 테이블이나 가구 등의 장해물도 있기 때문에 그것들을 피하면서 나아갈 필요가 있다.

ASC에서는 지도를 사용하지 않고, 만들지 않는다는 문제 설정을 하고 있기 때문에 이러한 장해물이 있는 장소나 모양은 알 수 없다. 사전에 경로 계획을 하는 것도 불가능하다. 거리 이미지의 화각에 들어간 시점에서 동적으로 대처할 필요가 있다. 즉, Nav 태스크는 전방의 거리 이미지를 보면서 동적으로 장해물을 피하며 목표지점으로 향해 가는 기능을 강화학습을 통해 획득하고 있다고 볼 수 있다.

Nav 태스크의 강화학습 환경으로서는 실내 환경을 3차원 스캔한 데이터세트인 ‘Habitat-Matterport 3D(HM3D)’를 이용했다. 태스크의 성공이나 가구 등과의 충돌, 후퇴 동작 등을 보상함수에 넣어, 8개의 GPU를 이용해 14시간 시행착오를 하도록 했다.

Nav 태스크의 작용으로 오브젝트가 올려져 있는 가구의 근처까지 오면, 그 다음에 파지를 담당하는 Pick 태스크가 등장한다. ASC에서는 파지 대상인 오브젝트의 정확한 좌표는 주지 않는 문제 설정을 하고 있다. 오브젝트가 올려져 있는 가구 자체의 좌표는 주지만 그 가구가 어느 정도의 크기이며, 가구 위 어디에 있는지는 직접 탐색해야 한다.

ASC에서는 이 오브젝트를 탐색하는 역할은 외부 오브젝트 검출 모듈(Mask R-CNN)에 맡기도록 했다. Pick 스킬은 이 검출 결과인 bounding box, 그리퍼 내에 있는 카메라의 거리 이미지, 암의 관절 좌표를 입력하고, 목표 관절각에 대한 변위량을 출력한다.

최종적인 오브젝트의 파지는 ASC에서는 Spot의 기능을 이용하고 있다. Spot에는 파지용 API가 있고, 그리퍼의 카메라 시야 중앙에 있는 오브젝트를 암으로 자동으로 파지하도록 되어 있다. 이 때문에 Pick 스킬을 bounding box의 정보를 바탕으로 거리 이미지의 시야 중앙에 오브젝트가 오도록 암을 제어하면 된다.

Pick 스킬의 학습에 대해서는 가정 내 환경에서 이동 가능한 오브젝트 등이 배치되어 있는 데이터세트 ‘ReplicaCAD’를 이용했다. Pick 스킬은 파지 계획은 하지 않고 Spot 측에 맡기는 구조이기 때문에 학습에서도 파지 동작은 시뮬레이터 하지 않고 그리퍼가 오브젝트 근처에 오면 자동적으로 흡착되면서 파지하는 설정으로 강화학습을 시켰다.

파지한 오브젝트를 소정 장소에 두는 Place 스킬은, 기본적인 구성은 Place 스킬과 거의 동일하다. 다만 Spot의 그리퍼는 오브젝트를 파지하고 있는 상태에서는 그리퍼 내의 카메라의 시야가 차단되는 구조이다.

때문에 오브젝트를 파지한 상태에서 시행하는 Place 스킬에서는 카메라 이미지는 사용하지 않고, 암의 관절각 정보만을 사용해 블라인드 상태에서 목표 위치에 두도록 한다. Pick 스킬 및 Place 스킬에서는 1개의 GPU로 22시간 강화학습을 시켰다.

-- 높은 태스크 성공률을 실현 --
시뮬레이터 상에서 학습시킨 방책들은 그대로 실제 환경에 전개했다. ASC의 태스크 성공률은 가정 내 환경(Apartment)에서는 96.7%, 실험실(Lab)에서는 100%라는 높은 태스크 성공률을 보였다.

ASC와 같은 복수의 방책이 병렬로 배치된 MoE 구성이 아니라 단일의 심층신경망(DNN)으로 monolithic한 구성으로 한 경우는 30%대의 성공률을 보였으며, ASC처럼 스킬마다 개별적으로 학습시키는 것이 효과가 있다고 할 수 있다. 단순한 태스크에서 개별로 학습을 시킬 경우, 보상함수를 심플하게 할 수 있다는 이점도 있다.

Corrective 방책이 없을 경우는 성공률이 10% 정도 떨어지기 때문에 이 방책에도 유의미한 효과가 있다고 할 수 있다. 단, ASC는 오브젝트의 검출 자체를 외부 검출기에 의존하고 있기 때문에 새로운 오브젝트에 대한 대응 등에서는 아무 효과가 없다.

경로에 사람 등 동적인 장해물이 막고 있는 경우도 ASC는 장해물을 피하면서 목적지로 향했다. 원래 ASC의 Nav 스킬은 지도 등의 명시적인 모델은 참조하지 않고, 전방의 거리 이미지만을 바탕으로 primitive하게 경로를 정하는 구성이기 때문에 동적인 장해물에도 대처하기 쉽다고 할 수 있다. 오브젝트의 위치 등을 사람이 직전에 움직이는 등 외부 혼란을 준 경우에도 ASC의 Pick 스킬은 암을 움직이는 것만이 아니라 대차 부분도 협조적으로 움직이면서 오브젝트를 추적할 수 있었다. Coordination 방책이나 corrective 방책이 제대로 작용하고 있다고 할 수 있다.

Meta는 구글 SayCan처럼 언어 지시로 long-horizon 태스크를 실시하는 구성도 전개하고 있다. ‘Language-guided Skill Coordination(LSC)’라는 것이다.

유저의 태스크 지시 스킬과 카메라 이미지의 특징량을 대규모언어모델(LLM)에 입력하고, Low-level의 명령렬에 LLM이 breakdown한다. 그 후에 각 명령을 ASC에서 얻은 스킬로 순차 실행한다. ASC와 동일한 기체와 실험 환경에서 테스트한 결과, 정상적으로 태스크를 성공시킬 수 있었다.

-- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

Sexy Technology
비전과 언어계뿐만 아닌 메타의 AI 기술
-- 가정 환경에서 ‘Spot’ 사용해 로봇 강화학습도
Sexy Technology
KDDI 종합연구소, 최고 정밀도 지속학습 기술
-- 망각을 억제하면서 효율적으로 태스크 추가
Case Study
니치레이푸드, 볶음밥 외관 검사 협동로봇 도입
-- semantic segmentation으로 눌은 것을 검출하여 제거
AI 최전선
연재 100회차를 맞이하여
-- PFN의 오카노하라 씨의 AI 해설
Global Watch
자율주행차 개발 지식을 잔디깎기 로봇에 활용
-- Yard 공동창업자 겸 CEO에게 듣다
생성 AI 활용을 가속화하는 삼성
모든 가전에 도입, 고객의 업무 효율화도 지원
Robotics 법률상담실
미국에서의 AI 규제는 어떤 상황에 있는가
건물의 로봇 프렌들리화
규격의 풍화를 저지하기 위해 창업
Octa Robotics의 로봇 친화적 사업
Professor’s Eye
챗GPT는 로봇의 적인가 아군인가

 

TOP