니케이 로보틱스 2024/02 전세계 로봇 연구 데이터의 통합

책 커버 표지
목차

요약

Nikkei Robotics_2024.2 Sexy Technology (p3-10)

전세계 로봇 연구 데이터의 통합
구글이 주도, 140만 궤도의 이기종 데이터셋

로봇 기계학습 영역에서 지금까지 없었던 규모의 오픈 데이터셋이 등장했다. 로봇 기계학습에 대해 적극적으로 대응하는 미국 구글이 전세계의 연구기관 등에 요청해, 각 기관이 보유한 로봇용 학습 데이터를 수집했다.

로봇을 모방 학습시키는데 반드시 필요한 인간의 원격 조작 데이터, 그 때의 카메라 영상 등 합계 4.4T바이트나 되는 데이터를 1개의 표준적인 포맷에 집약해, 누구나가 액세스할 수 있는 저장소(Repository) ‘Open X-Embodiment(OXE)’의 형태로 공개했다. 학습이 끝난 모델이나 구글 자신이 지금까지의 로봇 기계학습 연구에서 사용해 온 학습 데이터도 포함되어 있다.

딥러닝 기술에서는 모델의 규모(파라미터 수)나 학습 데이터의 양을 늘리면 성능이 향상되는 ‘스케일링 법칙(멱법칙)’이 있다는 것을 알고 있다. 이미지나 언어의 영역에서는 이 스케일링 법칙에 따라 모델 규모나 학습 데이터의 양을 순차적으로 확대하는 움직임이 최근 몇 년간 계속되어 왔다. 챗GPT나 GPT-4 등의 대규모언어모델(LLM)도 그러한 대응 성과의 하나다.

하지만 로봇 영역에서는 좀처럼 이렇게 되지 않았다. 로봇용 학습 데이터를 작성하기 위해서는 로봇이 태스크를 실시할 수 있는 환경을 갖추고, 그 로봇을 인간이 원격 조작해야 한다. 하나의 태스크에 대해 몇 번이나 이러한 조작을 시행하고, 다수의 태스크에 대해서도 같은 조작을 반복한다. 취급하는 오브젝트도 다양한 종류의 실물을 준비한다.

이미지 등의 어노테이션과 비교하면 훨씬 많은 수고와 비용이 든다. 이러한 이유로 지금까지 로봇 영역에서는 모델의 파라미터 수를 수백 억까지 늘리는 경우는 있어도, 그 능력을 전부 사용할 정도의 방대한 학습 데이터를 준비하는 것은 어려웠다. 이번 데이터셋은 이 과제를 해소하기 위해 첫발을 내디딘 것이다.

-- 다른 기종의 다양한 데이터 통합 --
이번에 구글의 요청으로 로봇용 학습 데이터를 제공한 곳은 미국과 독일, 일본, 중국 등 전세계 20여 개 이상의 연구기관이다. 총 34개 연구실이 참여했다. 대부분은 미국 대학이며, 일본에서는 도쿄대학의 마쓰오 연구실, JSK 등이 데이터를 제공했다.

각 연구실은 이미 자신들의 연구를 위해 자체 데이터셋을 갖고 있으며, 그것들을 OXE의 포맷에 맞도록 변환한 뒤에 제공했다. 수집된 데이터셋은 60개, 총 에피소드 수는 140만개에 달한다. 대부분은 인간이 로봇을 원격 조작했을 때의 데이터지만, 일부는 강화학습 등으로 얻은 에이전트에서 취득한 행동 데이터도 포함되어 있다.

또한 OXE의 포맷은 구글이 2021년에 제창한 ‘RLDS(Reinforcement Learning Datasets)’라는 형식을 채택하고 있다. RLDS는 로봇 제어 등 순차적 의사결정의 데이터 저장 등을 위한 것으로, 보수 등 강화학습용 필드도 준비돼 있지만 모방학습 데이터도 다룰 수 있다. TensorFlow에서 구축되어 있으며, Protocol buffers(Protobuf)로 직렬화(Serialize)해서 파일에 담는다.

OXE의 최대 특징이 로봇의 기체/종류에 대해 이기종(Heterogeneous) 데이터셋으로 돼 있다는 점이다. Franka, xArm, WidowX 등 22종류의 다양한 로봇이 사용되고 있다. OXE의 명칭에 있는 ‘X-Embodiment’라는 말도 ‘모든(X)’ ‘기체(Embodiment)’의 뉘앙스를 나타내고 있다.

기존의 로봇 학습용 데이터셋은 별개의 연구 주체가 자체에서 사용하는 로봇을 위해 구축하는 것이 많고, 데이터셋에 포함되는 로봇의 종류는 모든 에피소드에 대해 동일하다. 즉 1종류의 로봇만을 다룬 호모지니어스 구성으로 돼 있는 경우가 많았다. 원래 모델 측이 소규모로 능력이 크지 않을 경우는 다른 로봇의 데이터를 수집해도 그 다양성을 흡수해 활용하는 것이 어렵다는 사정도 있다.

-- 모델 측은 이미 거대화 --
한편, 이번의 OXE 대응을 요청한 구글의 경우는 조금 사정이 다르다. 구글의 경우, 모델 측의 능력과 규모를 스케일링 법칙에 따라 확대하는 시도는 이미 최대한이라고 말할 수 있을 정도로 실시하고 있다.

심층신경망(DNN)을 로봇의 방책에 사용하는 경우는 제어 주기를 충분히 단축시킬 필요가 있으며, 함부로 모델의 파라미터 수를 늘려도 이 제어 주기를 달성할 수 없게 되는데, 그 제약의 범위 내에서는 구글은 이미 최대한으로 모델 규모를 늘리고 있다.

예를 들면, 2022년 12월에 발표한 방책용 기술 ‘RT(robotics transformer)-1’에서는 구글은 3Hz의 제어 주기를 확보하면서 모델 규모를 3500만 파라미터까지 확대했다. 2023년 7월에 발표한 ‘RT-2’에서는 무려 대규모언어모델 자체를 로봇 방책으로 삼는다는 놀라운 구성을 선택했다.

550억 파라미터의 진정한 대규모언어모델을 클라우드에서 움직이면서, 거기에서 직접 물리적인 로봇의 목표 자세를 출력시키도록 했다. 클라우드에서 자사의 액셀러레이터 ‘Cloud TPU’를 대량으로 분산 실행시킴으로써, 550억 파라미터의 대규모언어모델이면서 1~3Hz의 제어 주기를 실현했다.

모델 측을 확대하는 대응은 충분히 시행했다면, 남은 과제는 학습 데이터 측이다. 구글은 자사 내에서 강화학습을 통한 대응도 시행하고 있으며 동시에 모방학습에도 대응하고 있다. 인간에 의한 원격조작 데이터를 최근 1~2년 사이에 시간을 들여 착실하게 축적해 왔다. 자사의 이동 매니퓰레이터에서는 수십 만 에피소드의 데이터를 취득, 그 외의 로봇에서도 수십만 규모의 데이터를 구축하고 있다.

-- 양보다 다양성 --
이것 만으로도 충분한 규모의 데이터인데, 왜 구글은 이번에 다른 연구기관에 협력을 요청하면서까지 전세계의 데이터를 수집하려고 했을까? 그것은 데이터의 다양성을 높이기 위해서다.

구글은 오픈 데이터셋을 구축해 연구 커뮤니티에 공헌한다는 목적을 표명하고 있지만 가장 관심사는 ‘전세계의 로봇에게서 수집한 이기종이면서 다양한 데이터를, 대규모 RT-2에 부여하면 어떻게 될까?’를 관찰하기 위해서라고 생각한다.

로봇의 기체뿐만 아니라 태스크를 시행하는 환경이나 장면, 다루는 오브젝트에 대해서도 자사에서는 물론 전세계 연구실로부터 수집하면 데이터의 다양성은 극적으로 늘어난다.

구글은 다양성을 늘리면 로봇의 성능을 확실하게 높일 수 있다는 것을 이미 RT-1에 대응했을 때 확인했다. RT-1은 당초에는 자사의 이동 매니퓰레이터에서 취득한 데이터로 방책을 학습시켰지만 전혀 다른 단완(單腕) 팔 ‘Kukaiiwa’에서 수집한 데이터를 이 모델에 부여해 추가 학습을 시켰을 경우, 기존 태스크의 성능을 거의 떨어뜨리지 않고 다른 태스크에 대한 성능이 향상되었기 때문이다.

또한 RT-1의 실험에서는 데이터 건수를 줄이면 성능은 완만하게 떨어질 뿐이지만 데이터의 다양성(다루고 있는 태스크 수)을 줄이면 그 이상으로 급격하게 성능이 저하되는 경향을 보였다.

즉, 겉으로 보이는 데이터 건수에 연연하기 보다는 얼마나 데이터의 내용, 즉 다양성을 확보할 수 있는가가 모델의 성능을 높이는 데 있어서 중요하다는 것을 알았다. 가령 형태가 다른 로봇의 데이터라도 추가적으로 부여해 데이터의 다양성을 늘리는 것이 성능 향상으로 이어진다. 구글은 이러한 지식을 RT-1을 통해 얻었기 때문에 이번 OXE의 대응을 전세계에 요청한 것이다.

-- 성공률이 1.5배로 --
그럼 실제로 OXE를 이용해 로봇의 성능은 향상됐을까? 구글과 세계의 연구기관은 이번에 수집한 데이터를 이용해 RT-1이나 RT-2를 학습시켜, 태스크 성공률을 살펴보는 실험을 했다.

우선 데이터셋을 제공한 각 연구실의 오리지널 기법, 모델과 비교했다. 9종류의 로봇에서 수집한 이기종 데이터를 사용해, 그것으로 학습시킨 구글의 모델 ‘RT-1-X’를 각 연구실에 배포했다.

각각의 연구실에서 그들의 로봇 기체를 이용해 이 모델을 실행하도록 해 성공률을 비교했다. 모델은 구글의 것이지만 실시한 태스크나 로봇 기체는 각 연구실의 것이다. 미국 UC 버클리나 뉴욕대학교, 독일 프라이부르크 대학교 등이 이 실험에 협력했다.

또한 OXE에는 총 22종류의 로봇 데이터가 있지만 이 실험에서 9종류의 로봇 데이터만 사용했다. 이유는 이 실험을 실시한 시점에서는 아직 OXE 전체 데이터가 갖춰지지 않았고 9종류만 있었기 때문이다. 그래도 이기종 데이터의 효과를 관찰하기에는 충분하다고 할 수 있다.

결과적으로는 평균 약 50% 이상, 태스크 성공률이 향상되었다. 구글이 자의적으로 정의한 태스크가 아니라 전세계의 다양한 연구실에 자체적으로 실시하고 있는 태스크에서 이정도의 향상 효과가 있었기 때문에 OXE를 학습 데이터로서 사용하는 것은 많은 로봇 태스크에서 큰 의의가 있다. 적어도 RT-1같은 3500만 파라미터 정도의 규모가 있다면 이기종 데이터의 이점을 흡수할 수 있다고 할 수 있다.

-- 550억 파라미터를 활용 --
위에서 말한 실험에서는 각 연구실의 원래의 기법으로 소규모 데이터를 사용하고 있었지만 원래의 기법이 대규모 데이터였던 경우도 검증했다. 미국 스탠포드 대학교와 UC 버클리의 대규모 데이터셋/태스크 ‘Bridge’를 이용해 평가했다.

원래의 기법에서는 태스크 성공률은 13% 정도였지만 이 Bridge의 데이터만으로 학습시킨 RT-1(3500만 파라미터)은 태스크 성공률이 30~40%로 향상되었다. 그러나 9종류의 이기종 데이터(Bridge를 포함)로 학습시킨 RT-1-X에서는 역으로 성공률이 27%로 떨어졌다. 이는 3500만 파라미터 정도의 능력의 RT-1에서는 이기종 데이터의 다양성을 다 흡수하지 못했던 것이라고 할 수 있다.

한편 같은 9종류의 이기종 데이터를 550억 파라미터인 RT-2에 학습시킨 ‘RT-2-X’에서는 성공률이 30~50%로 향상되었다. 원 데이터가 나름대로 대규모였던 경우는 모델의 규모가 수백 억 규모에서 비로서 이기종 데이터를 완전히 흡수할 수 있다는 것이다.

학습 데이터 속에 나타나지 않는 아직 보지 못한 오브젝트, 환경, 스킬에 얼마나 잘 대처할 수 있는가, 이른바 보편성을 보는 실험도 RT-2로 시행했다.

구글이 원래 보유한 데이터 만으로 학습시킨 경우, 아직 보지 못한 스킬에서의 성공률은 27.3%에 그쳤지만 9종류의 로봇을 사용한 데이터에서는 모델 규모가 같은 상태에서도 성공률이 75.8%로 극적으로 향상되었다. 학습 분포 외에서의 성능은 이번 OXE와 같은 이기종 데이터셋을 사용하면 특히 향상 효과가 크다고 할 수 있다.

 -- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

[Sexy Technology]
・구글 주도 전 세계 로봇 연구 데이터 수집 통합, 100만 건 이상의 다른 기종 데이터 세트
[Cool Topic]
・시스멕스, 암 유전자 검사 작업의 자동화를 협동 로봇으로
・감촉을 전달하는 6축의 역각 피드백 장치 닛테쓰가 개발, 유저의 입장에서 외판 나선다
[Sexy Technology]
・파나소닉이 이미지 인식 기반모델 최고 수준 성능으로 24년도 실용화
[Global Watch]
・가격/품질에서 중국 제품에 뒤지지 않는 협동로봇, 한국 Rainbow Robotics사 CEO에게 묻다
・새 이미지 센서로 소니를 쫓는 삼성, 로봇산업에 대한 전략 투자로 정부도 뒷받침
[AI 최전선]
・ReconFusion: NeRF와 확산 모델의 협조를 통한 3차원 복원
[Robotics 법률상담실]
・'농업 기계의 자율주행에 관한 안전성 확보 가이드라인'이란 어떤 것인가

TOP