니케이 로보틱스 2024/1 도요타 TRI 등, 확산 모델로 로봇을 가동

책 커버 표지
목차

요약

Nikkei Robotics_2024.1 Sexy Technology (p3-11)

도요타 TRI 등, 확산 모델로 로봇을 가동
이미지 생성 AI 기술로 궤도 생성, 모방학습을 실현

‘DALL/E3’나 ‘Stable Diffusion’ 등 이미지 생성 AI로서 큰 주목을 받은 딥러닝 기술 기반의 확산(diffusion) 모델. 높은 생성 품질이나 학습의 안정성 등 모델로서 뛰어난 성능이 세계적인 붐을 뒷받침하고 있다.

그리고 이를 로봇의 행동 생성 AI로서 응용하는 신기술을 도요타자동차 그룹의 연구조직인 미국 TRI(Toyota Research Institute)와 컬럼비아대학교, MIT가 개발했다. 로봇 기계학습 영역에서 전통적인 어프로치인 ‘모방학습(imitation learning)’의 틀에 확산 모델을 본격 적용했다.

지금은 확산 모델이라고 하면 이미지 생성을 생각하지만 그 원류는 물리학 분야에 있다. 물리의 비평형 열역학 연구에서 큰 진전이 있었고, 모델로서 뛰어난 성능이 평가를 받아 기계학습/AI 분야에 확산 모델이 ‘수입’된 경위가 있다.

그런 경위가 있었기 때문에 애초부터 로봇 분야에서도 이 확산 모델을 행동 생성에 응용하려는 시도는 지속적으로 이루어져 왔다. 다만, 확산 모델을 어떻게 로봇에 응용하면 좋을지는 명확하지 않았기 때문에 지금까지 다양한 어프로치가 모색되어 왔다. 포인트는 ‘이러한 동작을 시키고 싶다’는 유저 측의 의도를 ‘어떻게 반영할 것인가’이다.

-- 시행착오의 역사 --
처음에 시도된 것은 강화학습에서 자주 사용되는 ‘보상’에서 힌트를 얻어 원하는 동작을 실현하고자 아는 어프로치다. 예를 들면, 2022년 5월에 발표된 ‘Guided Diffusion Planning’이라는 기법에서는, 학습 후의 확산 모델이 상태행동열을 생성할 때 가하는 노이즈를 누적 보상으로 가중치를 부여하면서 생성해 나간다. 보상으로 ‘가이드’하면서 생성해 나가기 때문에 guided라고 이름 붙였다.

원래 ‘이런 동작을 시키고 싶다’는 의도가 있다면 그것을 일종의 제약 조건으로 해서 ‘확산 모델에 직접 입력하면 되지 않을까?’라고 생각할지도 모르겠다. 위에서 언급한 Guided Diffusion Planning에서 그러한 방법을 채택하지 않은 이유는 당시에는 아직 기계학습 분야에서 확산 모델을 이용하는 것이 초기 단계로, ‘조건부 입력’을 효율적으로 부여하는 유용한 방법을 찾지 못했기 때문이다.

그래서 Guided Diffusion Planning 개발자들은 데이터를 생성할 때 사용하는 노이즈를 보상으로 가중치를 부여하는 방법을 택했다. 그러나 2022년 7월에 확산 모델에서 조건부 입력을 효율적으로 실현하는 기술 ‘classifier free guidance’가 등장하면서 조건부 입력이 단번에 쉬워졌다.

그 결과, 로봇 기계학습 영역에서도 2022년 11월, 이 classifier free guidance를 사용한 기법이 빠르게 등장한다. 그것이 MIT의 ‘Decision Diffuser’라는 기술이다. Guided Diffusion Planning처럼 나중에 보상 정보를 입력하는 것이 아니라 처음부터 확산 모델에 보상 정보를 입력하도록 했다.

다만 이 Decision Diffuser도 아직 트리키한 측면이 있었다. 로봇 행동이라는 것은 때로 고주파 성분을 포함하거나 이산적 행동을 취하기도 한다. 이러한 행동은 당시에 확산 모델로 생성하기 어려웠기 때문에 Decision Diffuser로는 행동을 생성하는 대신에 상태량을 예측(생성)하도록 했다.

그리고 확산 모델이 생성한 상태량 계열을 다른 모델(역동력학 모델)에게 주고, 행동은 거기에서 추출하도록 한 것이다. 조건부 입력을 채택했다고는 해도 이 단계에서도 아직 로봇 행동을 확산 모델로 스트레이트로 생성하지는 못했었다.

2023년 2월에는 완전히 다른 어프로치도 등장했다. 본지가 2023년 5월호에서 소개한, 구글의 ‘UniPi’라는 기술이다. UniPi는 Guided Diffusion Planning이나 Decision Diffuser와는 달리, 유저의 태스크 지시 텍스트를 바탕으로 로봇이 그 태스크를 실시하는 모습을 동영상으로 생성한다.

현재 유행하는 이미지 생성 AI 기술을 최대한 그대로 살리기 위해, 한 번 동영상 생성을 통한 접근 방식을 채택한 것이다. 그리고 생성된 동영상을 이미지 인식기에 걸어, 거기서 로봇의 궤도(행동)를 추정한다.

행동과는 별개의 데이터를 한 번 생성하고, 그리고 별개의 모델로 행동을 추출한다는 점에서 UniPi는 앞에서 언급한 Decision Diffuser와 마찬가지로 다소 에두른 어프로치를 채택했다. 또한 UniPi는 동영상을 생성하는 모델이기 때문에 계산 부하도 상당히 컸었다.

그런 가운데 이번에 TRI 등이 개발한 ‘Diffusion Policy’라는 기술은 그러한 과거의 확산 모델을 거쳐, 드디어 확산 모델 자체가 로봇 행동을 직접 생성하게 되었다.

원하는 로봇 행동을 학습 데이터로서 부여하면, 그에 따른 행동을 확산 모델이 생성한다. 이름에 ‘Policy’가 붙는 것도 확산 모델 자체가 행동을 생성하는 모듈 ‘방책(Policy)’이 됐기 때문이다. 다양한 시행착오를 거쳐, 드디어 정통(Orthodox)의 모방학습 스타일을 실현할 수 있게 되었다.

실은 이번 Diffusion Policy도 포함해, 위에서 언급한 로봇용 확산 모델의 모든 개발에 관여한 인물이 있다. 바로 MIT 박사과정에 있는 Yilun Du 씨다. UniPi의 경우는 구글 브레인에서의 인턴 시절에 Yilun Du 씨가 논문 제1저자로서 개발했다. Decision Diffuser도 Yilun Du 씨가 논문 제1저자다.

그리고 이번 Diffusion Policy라는 기술도 Yilun Du 씨가 개발자 중 한 사람으로서 참여했다. 확산 모델을 로봇용으로 응용하는데 열의를 갖고, 가장 적극적으로 행동하고 있는 인물이라고 할 수 있다. 로봇용 확산 모델 기술은 구글이나 이번 TRI 등 다양한 조직에서 나오고 있지만 모두 Yilun Du 씨의 공헌에 의한 것이다.

-- 다봉성(Multimodal) 분포를 재현 --
확산 모델을 로봇용으로 응용할 때는 구체적으로 어떤 점이 좋을까? 최대 특징은 고차원 데이터에 대해 멀티모달의 행동 분포를 재현하기 쉽다는 것이다.

멀티모달이란, 로봇 분야에서 ‘이미지와 언어’ 등 ‘복수의 수단(모달)’을 의미하기도 하지만, 여기서 말하는 모달은 그 의미가 아니라 ‘확률분포의 봉우리(모드)’를 말한다. 확률분포가 단일의 피크로 구성돼 있는 것이 아니라 복수의 봉우리(피크)으로 구성돼 있다는 것을 의미한다.

로봇 행동이란 ‘어느 상태량일 때 특정 행동을 취할 확률이 얼마나 될까’라는 지표로 나타낼 수 있다. 가로축에 행동 파라미터를 놓고, 각각의 행동이 어느 정도의 확률일지를 세로축에 플롯하면 어떤 분포 모양이 생긴다.

이 분포가 단봉성, 즉 피크가 하나의 산으로 이루어져 있는 경우에는, 그 피크에 있는 부근의 행동을 취할 확률이 가장 높다. 그리고 그 행동에서 먼 행동이 될수록 확률이 낮아진다.

한편 2개의 봉우리가 있는 분포의 경우, 어느 국면에서 자주 선택될 수 있는 행동이 2종류 있다는 것이다. 가령 봉우리의 높이(확률값)가 2개 모두 비슷하다면 어느 쪽 행동도 비슷한 확률로 출현한다는 것이다. 유저의 의도대로(정답) 되는 행동이 꼭 하나로 좁혀지는 것이 아니라 어느 쪽 행동도 정답이라고 할 수 있는 경우, 그러한 복수의 봉우리가 있는 분포가 적절한 행동이라고 할 수 있다.

단일 피크로 이루어진 행동 분포는 오히려 부자연스럽고 편중돼 있다고도 할 수 있을 것이다. 로봇의 행동을 결정하는 방책이 결정론적이 아니라 확률적인 시점에서, 행동의 미스나 폭은 표현할 수 있지만 분포가 멀티모달이라면 전혀 다른 복수의 정답 패턴을 편중되는 일 없이 균등하게 표현할 수 있다.

확산 모델이 다봉성을 잘 표현할 수 있는 하나의 요인은 ‘로그우도(Log Likelihood)의 경사’(스코어라고 부른다)를 사용하는 수리적으로 교묘한 시스템으로 학습하기 때문이다.

‘energy-based model’ 등 우도 베이스의 기존 기술에서는 학습할 때 필요한 샘플링의 효율이 나쁘고, 복수의 피크도 취하기 어려웠다. 확산 모델에서는 우도 그 자체가 아니라 경사 정보를 사용함으로써 좋은 답이 있는 장소를 효율적으로 탐색할 수 있게 되었다.

확산 모델에서는 이미지용인지 로봇용인지와 관계없이 랜덤 노이즈(잡음)를 바탕으로 해서 데이터를 생성하고 있다. 그리고 그 잡음을 서서히 제거해(denoise) 나가면서 어떠한 의미가 있는 데이터를 생성한다.

잡음을 제거하는 뉴럴 네트워크로는 ‘DAE(Denoising Autoencoder)’도 있는데 DAE는 1회 조작으로 한 번에 잡음을 제거한다. 이에 대해 확산 모델은 같은 잡음 제거 모델을 반복해 적용함으로써 서서히(incremental) 잡음을 제거하고 데이터 생성을 한다.

1회당 갱신은 아주 작아도 되기 때문에 모델 측 부담은 적어진다. 그리고 갱신을 반복한 때는 전체적으로 보다 복잡한 처리를 실현할 수 있다. 이미지 생성 AI에서 확산 모델이 현실로 오인하는 화질을 실현할 수 있었던 데는 이러한 incremental한 갱신이 주효했다.

로봇용 응용에서도 단순히 다봉성을 잘 표현할 수 있을 뿐만 아니라 incremental하고 아주 작은 갱신을 반복해 최종적인 행동을 얻는 것이 좋은 성과로 이어진다.

또한 이번 Diffusion Policy는 이름 대로 방책이 되었으며, 확산 모델 자체가 직접 행동을 출력한다고 했지만 정확히 말하면 조금 다르다. 확산 모델은 앞에서 언급한대로 잡음을 incremental하게 깨끗이 제거해 나가는 것이기 때문에 1회당 확산 모델이 출력하는 것은 행동 그 자체가 아니라 ‘행동의 갱신량’이다.

갱신을 10회 반복한다면 확산 모델이 각 회에서 출력하는 것은 1회분 갱신량, 즉 차분(差分)이다. 점화식과 같은 스타일로 잡음제거/데이터생성을 하고 있으며, 확산 모델은 그 1회당 차분을 뉴럴 네트워크를 사용해 예측하고 있는 것이다. 차분 예측을 10회 거듭하면 정답이 되는 최종적인 행동값이 얻어진다는 것이다.

-- 잡음 제거에 Transformer --
확산 모델은 행동A의 갱신량(제거해야 하는 잡음 성분의 양)을 뉴럴 네트워크로 예측하기 때문에, 행동A에서 뉴럴 네트워크의 예측량을 감산해서 다음 시각의 행동을 얻는다. 행동 갱신량 예측은 로봇의 작업 풍경을 촬영한 카메라 이미지와 암의 손끝 위치를 바탕으로 한다.

카메라 이미지는 이미지 특징 추출용 DNN에서 특징량으로 변환하고 나서 확산 모델에 넣는다. 입력은 복수 프레임 분량 입력하고, 출력도 일정 구간(horizon)의 예측을 한 번에 내도록 했다.

Diffusion Policy에서는 실제로 잡음 성분을 예측하는 네트워크로서는 2종류의 아키텍처를 시험했다. 하나는 CNN, 다른 하나는 Transformer다. 확산 모델을 로봇용으로 이용한 기존 기술에서는 고주파 행동이나 이산적 행동에 대응하기 어려웠다고 기술했지만 이번 Diffusion Policy에서는 확산 모델에 Transformer를 채택함으로써 이러한 복잡한 행동에 대응시키는 것을 노렸다.

또한 전자인 CNN은 이미지용 확산 모델에서 사용되는 2차원 CNN이 아니라 시간 축 상의 1차원 CNN이다. CNN판이 하이퍼파라미터 조정 등의 수고가 적고, 학습이 안정적으로 진행된다. 비교적 용이한 태스크라면 CNN판이 적합하다. 한편, 고주파 행동이나 이산적 행동에 대응시키고 싶은 경우는 Transformer판이 적합하다고 한다. 다만, CNN판보다 하이퍼파라미터의 설정이 어려워져 태스크마다 조정을 해야 한다.

-- RNN 등과 비교해 대폭 성능 향상 --
개발자들은 로봇 실기로 3종류의 태스크를 실시해서 Diffusion Policy의 성능을 검증했다.

(1) T자 모양의 블록을 막대를 이용해 소정의 위치로 옮기는 ‘Push-T’ 태스크, (2) 랜덤하게 놓인 머그컵을 파지해, 손잡이 부분을 왼쪽을 향하게 해서 위아래를 뒤집어 다시 놓는 ‘Mug Flipping’ 태스크, (3) 피자 소스를 볼에서 일정량 덜어내, 그것을 피자 반죽에 골고루 펴 바르는 ‘Sauce Pouring & Spreading’ 태스크다. (1)에서는 오브젝트와의 점접촉이나 블록의 다이내믹을 잘 다루는지를 본다.

Push-T의 실험에서는 로봇의 손 끝에 막대를 장착하고, 이 막대로 T자 블록을 눌러 지정 영역에 딱 맞도록 한다. 확산 모델은 8개 프래임 분량의 행동을 10Hz 주기로 생성하고, 그것을 외부 컨트롤러로 125Hz로 보정해 로봇에게 준다. 확산 모델에서의 반복 횟수는 16회이다.

RNN(LSTM)을 사용하는 기존 방법과 비교해 Diffusion Policy는 최종적인 블록 위치의 미스가 압도적으로 적었다. 성공률은 RNN에서는 20% 이하였는데 반해, Diffusion Policy의 CNN판에서는 95%에 달했다. 카메라 이미지를 특징 추출하는 visual encoder는 ImageNet 등으로 사전 학습시킨 것보다도 스크래치로 학습시킨 버전이 결과는 좋았다.

모방학습에서는 기존의 방책 출력을 손 끝의 위치 좌표가 아니라 속도로 하는 경우가 많았다. 일반적으로 행동 공간을 위치 좌표로 하면, 그 행동 분포는 다봉성이 되기 쉽다.

기존 기술에서는 다봉성 분포를 다루기 어려웠기 때문에 다봉성의 어려움이 현재화되기 어려운 속도를 행동 공간으로 선택하는 일이 많았다. 실제로 기존 기술에서는 행동 공간을 속도에서 위치 좌표로 변경하면 태스크의 성공률이 악화됐었다.

한편, 이번 Diffusion Policy는 기존 기술과는 반대로 위치 좌표의 행동공간(위치제어)으로 한 것이 속도제어의 겨우보다도 성능이 향상되었다. 확산 모델을 이용하고 있어 다봉성 행동분포라도 잘 다룰 수 있는 것이 영향을 미친 것으로 생각된다.

 -- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

Sexy Technology
・도요타 TRI와 콜롬비아대학 등, 확산 모델로 로봇을 가동 -- 이미지 생성 AI 기술로 궤도 생성, 모방학습을 실현
・언어 모델의 논리추론 능력을 크게 개선 -- 히타치가 학습용 코퍼스 자동생성 기술
Cool Topic
・아식스, 로봇을 이용한 슈즈 생산 자동화 기술 -- 복잡한 곡면에서도 접착제 도포 영역을 기계학습으로 추정
・야스카와전기, AI에 몰빵한 신 로봇시리즈 투입 -- GPU를 모든 모델에 표준 탑재, AI 자회사의 성과 싹트다
Robotics 법률상담실
사이버 시큐리티 관련 법령에는 어떤 것이 있을까?
Global Watch
・로봇 이용자 누구나가 데이터 애널리스트로 -- 미국 Formant 창업자에게 듣다
・생성 AI ‘Samsung Gauss’ 드디어 공개 -- 신형 갤럭시에 온디바이스 AI로서 탑재
AI 최전선
・Clifford Group Equivariant Neural Network(CGENN) -- 고차원 대칭성을 어떻게 도입할까?
Flash News
Flash News/편집후기

TOP