오류 메시지

Deprecated function: Array and string offset access syntax with curly braces is deprecated in include_once() (line 20 of /hjtic1/www/includes/file.phar.inc).

니케이 로보틱스 2025/10 Diffusion Policy의 본가인 도요타의 TRI

책 커버 표지
목차

요약

Nikkei Robotics_25.10호 (p3)


Diffusion Policy의 본가인 도요타의 TRI
멀티 태스킹 로봇 기반 모델의 스케일링 법칙을 엄밀하게 실증

로봇을 움직이기 위한 ‘두뇌’로 기대를 모으고 있는 AI 로봇 기반 모델(AI robot foundation model). 휴머노이드나 양팔 매니퓰레이터(Dual-arm Manipulator) 등, 복잡한 동작을 고려해 만들어진 로봇에는 방대한 데이터를 통해 학습해 다양한 태스크를 실행할 수 있는 범용성을 갖춘 로봇 기반 모델이 필요하다. 이러한 AI 로봇 기반 모델은 아직 실용화 수준에 도달하진 않았지만, 멀티 모달 대규모 언어 모델 등을 기반으로 전 세계에서 개발이 활발하게 추진되고 있다. 이에 대해서는 닛케이로보틱스에서 거의 매번 소개해왔다.

이러한 현재의 로봇 기반 모델에 있어서 중요한 역할을 하고 있는 것이 화상(이미지) 생성 등의 영역에서 혁신을 일으킨 기술인 ‘확산 모델(Diffusion model)’이다. 로봇 기반 모델이라고 하면 그 베이스가 되는 대규모 언어 모델이 가장 먼저 떠오르지만, 사실, 최근 로봇 AI 분야를 선도하고 있는 구글 출신 로봇 전문가들이 설립한 스타트업 Physical Intelligence의 ‘π0’를 포함해 현재의 최첨단 로봇 기반 모델에는 확산 모델 관련 기술들이 도입되고 있다.

화상 생성 영역에서 확산 모델의 성질이 매우 우수하다는 사실이 알려지면서 이것을 로봇의 행동 생성에 응용하려는 움직임이 2022년경부터 나타나기 시작했다. 다양한 접근법이 모색되었지만, 확산 모델을 모방학습의 틀에 적용해 로봇 행동의 질을 크게 높이는 데 성공한 것이 도요타자동차의 연구 기관인 ‘TRI(Toyota Research Institute)’이다.

TRI는 2023년에 확산 모델을 베이스로 한 로봇 행동 생성 방법 ‘Diffusion Policy’를 발표해 전 세계 로봇 기술자 및 연구자들로부터 큰 주목을 받았다. 그 후, 이 Diffusion Policy 기술은 대규모 언어 모델을 베이스로 한 로봇 기반 모델에도 도입되어 사실상 디펙트 스탠다드로 자리잡고 있다. 현재의 로봇 AI 성능을 크게 향상시킨 중요 기술 중 하나로 여겨지고 있어, 기념비적 성과라고 할 수 있다.

이 Diffusion Policy를 고안한 TRI이 이번에 후속이라고 할 수 있는 새로운 성과를 발표했다. 그것이 ‘LBM(Large Behavior Model)1’이다. 원래 Diffusion Policy는 심플한 모방학습 스타일이기 때문에 싱글 태스크가 전제였지만, 그것을 현대적인 멀티 태스크로 확장한 것이 LBM1이다. 대량의 데이터로 사전학습을 실시해 로봇 기반 모델이라고 부를 수 있는 기술로 완성했다. 데이터 입력에도 대응하며, 언어를 통해 태스크 지시가 가능하다. Diffusion Policy를 보다 범용적인 로봇 기반 모델로 진화시킨 것으로, ‘피지컬 AI’의 일종이라고도 할 수 있을 것이다.

LBM1의 최대 특징은 대규모 멀티 태스크 사전학습의 효능을 통계적 관점에서 엄밀하게 검증했다는 점이다. 대규모 사전학습은 현재, 로봇 기반 모델 개발에서 광범위하게 실시되고 있으며 그 효능도 보고되고 있지만, 통계적으로 엄밀하게 실시되지 않고 있다는 것이 TRI의 주장이다. 기존의 로봇 기반 모델 실험에서는 엄밀함이 결여되어 있어, 통계적 노이즈를 관측하고 있을 가능성이 있다는 것이다.

로봇 AI 성능을 실험을 통해 평가할 경우, 실제 환경이기 때문에 어쩔 수 없이 초기 조건의 변동, 평가자의 실수 등이 발생하기 쉽다. 이러한 변동을 극한까지 억제할 수 있는 평가 프로토콜을 이번에 TRI는 LBM1으로 고안했다.

예를 들어, 태스크 성공률이나 태스크 완료도와 같은 지표의 경우, 지금까지는 여러 번의 테스트를 거쳐서 그 평균값만을 가지로 평가하는 경우가 많았지만, 통계적인 엄밀함을 추구한 TRI는 LBM1에 있어서 평균값으로 끝내는 것이 아닌, 통계적인 분포까지 분석했다. 평균값이라는 ‘점’에 머무르는 것이 아니라, 여러 번의 테스트를 통한 ‘분포’의 형태∙폭, 불확실성(Uncertainty) 등을 엄밀하게 분석한 것이다. 사전학습의 조건을 바꿀 경우, 그것들에 통계적으로 유의미한 차이가 발생하는지 여부에 대해서도 가설 검정(檢定)의 틀에서 엄밀하게 A/B 테스트를 실시했다.

로봇 기반 모델에 있어서의 사전학습 효과를 이 정도까지 엄밀하게 평가∙검증한 사례는 아마도 처음일 것이다. 엄밀한 평가 프로토콜을 통해 로봇 기반 모델의 성질을 정확하게 파악하는 것이 보다 범용적인 모델을 개발하기 위한 길을 열 것이라는 것이 TRI의 입장이다.

-- 이산(離散)에서 연속으로 변환 --
LBM1에 대해 상세하게 소개하기 전에 Diffusion Policy가 광범위하게 보급되고 있는 이유에 대해 살펴보자. 로봇 기반 모델은 당초, 대규모 언어 모델을 베이스로 시작되었다. 구글이 자사의 대규모 언어 모델을 로봇 행동 생성에 응용한 ‘SayCan’이 그 출발점이라고 할 수 있다. 구글은 그 후 1~2년에 걸쳐 대규모 언어 모델을 베이스로 SayCan 기술을 진화시켜 나갔다.

하지만, 대규모 언어 모델은 텍스트를 만들어내는 것이기 때문에 그 출력은 이산적(Discrete, 연결되지 않고 끊어져 흩어져 있는 상태)일 수 밖에 없다. 사전에 정의된 고정 수의 어휘에 상당하는 토큰만을 출력할 수 있다. 그렇기 때문에 로봇의 행동을 출력시킬 때 구글은 행동 공간을 몇 개의 단계로 이산화하고, 각 단계에 토큰을 배분하는 방법을 채택했다. 이것은 언어를 처리하는 대규모 언어 모델에 로봇 행동을 배분한다는 의미에서 혁신적이었지만, 본래, 로봇 행동이라는 것은 연속값으로 표현되어야 하는 것이다. 당초의 대규모 언어 모델 베이스의 로봇 AI 움직임이 부자연스러웠던 것은 행동 공간이 이산적이었기 때문인 것도 한 요인이라고 할 수 있다.

그래서 TRI는 대규모 언어 모델과 함께 생성 AI로서 주목 받고 있는 또 하나의 기술인 확산 모델을 로봇 행동 생성에 응용했다. 확산 모델은 텍스트와 같은 이산적∙기호적인 정보를 출력하는 것이 아닌, 보다 자연계∙물리 세계에 가까운 화상을 출력하는 것이기 때문에 출력은 연속값으로 되어 있다. 이 때문에 대규모 언어 모델을 베이스로 한 로봇 AI 보다 자연스러운 행동을 생성할 수 있게 되었다. 모델 자체의 성질도 우수해 다양성이 있는 출력 분포도 재현할 수 있다. 이러한 점이 높이 평가되면서 TRI의 Diffusion Policy는 로봇 연구 커뮤니티에 널리 확산되었다.

이산값 출력의 대규모 언어 모델 베이스와 연속값 출력의 Diffusion Policy는 한 동안 병존했지만, 구글의 로봇 AI 연구의 정예 30명 정도가 독립해 창업한 Physical Intelligence는 2024년 10월, 이 2가지 계통의 모델을 융합시킨 접근법 π0를 발표. 대규모 언어 모델의 후단에 연속값을 출력하는 Diffusion Policy 모델을 헤드로 추가하는 아키텍처를 고안해내었다. 인터넷에서부터의 방대한 지식을 가지고 있는 대규모 언어 모델의 장점과 자연스러운 연속값의 행동을 생성할 수 있는 Diffusion Policy의 장점을 양립시키는 것에 성공. 그 후, 이러한 대규모 언어 모델과 확산 모델의 하이브리드형 아키텍처를 다른 기업들도 도입하게 되면서 현재의 로봇 기반 모델에서 주류가 되고 있다. 헤드 부분에는 확산 모델의 발전 모델이라고도 말할 수 있는 ‘Flow matching’도 도입되면서 더욱 성능이 향상되었다고 한다.

-- 분석에 적합한 난이도를 설정 --
그렇다면, 지금부터는 TRI의 LBM1에 대해 자세하게 알아보자. LBM1은 최근의 로봇 기반 모델과 동일하게 양팔을 이용한 복잡한 매니퓰레이션 태스크를 대상으로 한다. 예를 들어, 나이프나 심 제거기를 사용해 사과를 슬라이스하거나, 자전거의 로터를 바퀴에 끼우는 등, 상당히 기술이 요구되는 태스크가 대상이다. 그것은 LBM1의 연구 목적이 ‘아키텍처 고안을 통해 태스크의 성능을 향상시키는 것’이 아닌, ‘사전학습 효과를 통계적으로 측정한다는 것’에 중점을 두고 있기 때문이다.

예를 들어, 평가 태스크가 모두다 너무 쉬우면 각 평가 대상 그룹(모델)의 성능이 모두 좋게 나오게 되고, 그 결과, 그룹 간의 성능 차이를 알기가 어려워진다. 그룹 간 차이를 통계적으로 보려고 해도 실험 데이터로 차이를 알 수 없게 된다면 분석하기 어렵다. 한편, 태스크가 너무 어려워도 차이를 알기 어려운 것은 마찬가지이다. 그래서 TRI는 로봇 기계학습의 연구로는 어려운 편이라고 할 수 있는 50% 정도의 성공률의 태스크를 LMB1의 평가 태스크로 설정했다. 이렇게 함으로써, 사전학습 조건을 바꾼 그룹 간 성능 수치의 차이가 쉽게 나타나 분석이 용이해졌다.

일반적으로 모델의 성능을 좋게 보이게 하기 위해서는 실용상 유용한지 여부에 관계 없이 그 모델에 있어서 적절한 난이도의 태스크를 설정하는 것이 좋다. 태스크가 너무 쉬우면 임팩트가 약해지고, 너무 어려우면 성공률의 절대값이 내려가 모델에 안 좋은 이미지를 주게 된다. 어느 정도 난이도가 있는 태스크를 설정해 높은 성공률을 어필하는 편이 좋은 이미지를 줄 수 있다. 로봇 기계학습 연구에서는 지금까지 이러한 경향을 적지 않게 볼 수 있었다.  하지만, LBM1은 아키텍처 측면의 신규성을 어필하는 연구가 아니기 때문에 이러한 경향은 일체 없다고 할 수 있다.

LBM1에서 평가 대상으로 한 것은 주로 3가지 타입의 모델이다. 첫 번째는 (A)원조 Diffusion Policy에 상응하는 것이다. 최근의 기반 모델과 같은 방대한 사전학습은 일체 실시하지 않고, 특정 싱글 태스크의 데이터만을 이용해 단일 뉴럴 네트워크를 기계학습시킨 것이다. 두 번째는 (B)다양한 태스크를 포함한 대량의 데이터로 모델을 사전학습시킨 것이다. 100% 사전학습만을 시킨 것을 그 상태 그대로 평가하는 것이 B이다.  세 번째는 (C)이 B의 모델에 대해 특정 태스크의 데이터로 추가적인 파인튜닝(Fine-tuning)을 실시한 것이다. 기반 모델이 목표로 하는 기준에 따르면 이 ‘사전학습 x 파인튜닝’인 C가 가장 성능이 좋을 것이라는 가설이 성립될 것이다.

-- 블라인드 및 랜덤으로 --
이러한 A~C모델의 성능 차이를 검증하기 위해 TRI는 기존의 로봇 기반 모델 연구에서는 볼 수 없었던 수준의 엄밀함으로 평가 프로토콜을 설계했다. 로봇 기반 모델 연구에서는 표준적인 로봇이 확립되어 있지 않아 실제 로봇 평가에서는 재현성이 낮다는 점을 고려해 시뮬레이터 상에서의 평가도 실시하고 있다. 시뮬레이터는 실험의 각 테스트에서 초기 조건을 통일하는 등, 공평성을 담보하기 쉽다는 장점도 있다.

하지만, 시뮬레이터만으로는 실제 환경과의 격차가 발생하기 때문에 LBM1에서는 실제 로봇과 시뮬레이터의 각각의 장점을 살려 두 가지를 병용하기로 했다. 실제 로봇을 사용한 평가를 메인으로 하면서 시뮬레이터 상에서의 평가도 추가하고 있다.

실제 로봇 평가에서 문제가 되기 쉬운 것은 테스트 별 초기 조건의 불균일성, 태스크 성공 등을 판단하는 평가자의 실수 및 판단의 편향 등이 있다. 그래서 TRI는 이번에 이러한 요인을 강력하게 억제하기 위한 장치를 곳곳에 마련했다. 우선, 평가하는 A~C모델을 완전하게 블라인드로 테스트로 했다. 즉, 평가자는 지금 어떤 모델이 로봇 상에서 실행되고 있는지에 대해 전혀 모른다.

또한, A~C 중 어떤 모델을 어떤 순서로 테스트할지는 랜덤으로 결정했다. 특정 순서로 하면, 조명 등 환경 조건에 편향이 발생할 가능성이 있기 때문이다. 초기 조건을 리셋할 때마다 그 실험 내(Bundle이라고 불리는 군)에서의 순서를 랜덤으로 결정했다. 블라인드와 랜덤은 마치 신약 개발의 치험(治驗)과 같은 엄격한 기준이라고 할 수 있다.

매니퓰레이션 실험에서는 취급하는 오브젝트 등을 사람이 나열해 초기 상태를 만들 필요가 있다. 이 상태에 A~C 사이에서 편향이나 차이가 발생할 경우, 엄밀한 분석이 어려워진다. 그래서 시뮬레이터 상에서 실제 로봇과 동일한 환경을 마련한 태스크에 대해서는 그 시뮬레이터 상에서 먼저 초기 상태를 만들고 그것을 실제 환경에 오버레이한다. 사람이 그것을 보면서 초기 상태를 세팅함으로써 균일함이 유지되고, 사람에 의한 실수나 편향이 발생하기 어렵게 된다. 실제 로봇의 태스크 성공 여부나 태스크 완료도는 사람이 평가하지만, 이때도 불균일이 발생하지 않도록 하기 위해 상세한 평가 기준표(Rubric)를 작성했다. 또한, 평가 결과의 일부를 추출해 데이터에 부정합이 발생하지 않았는지 여부를 확인하는 ‘QA(품질보증)’ 공정도 마련했다.

LBM1의 아키텍처는 그림 7과 같다. Diffusion Policy을 고안한 TRI가 언어 지시가 가능한 멀티 태스크 버전도 발표했다는 것은 의미가 깊지만, 이미 로봇 기계학습의 영역에서는 언어 지시가 가능하며, 방대한 멀티 태스크 사전학습을 실시하는 것 자체도 일반화되어 있다. 즉, TRI가 스스로 인정한 바와 같이 아키텍처 측면에서의 신규성은 높지 않다. 이번 실험 환경에는 최대 6개의 카메라가 있으며, 그 화상은 ViT(Vision Transformer)를 통해 입력된다. 텍스트에 의한 태스크 지시는 CLIP로 인코딩되어 입력된다. 행동 출력은 20차원으로, ACT 등과 동일하게 복수 구간(16스텝)의 행동을 한번에 출력한다. 파라미터 수는 5.6억이다.

학습 데이터는 로봇의 원격조작, 그리고 TRI가 미국 스탠포드대학 및 콜럼비아대학과 공동 개발한 핸드헬드(Handheld)형의 교시(敎示)용 디바이스 ‘Universal Manipulation Interface(UMI)’를 통해 수집했다. TRI가 자체적으로 수집한 545시간의 데이터셋 ‘TRI-Ramen’과 함께 오픈 로봇 학습 데이터셋 ‘OXE(Open X-Embodiment)’에서 일부 데이터를 추출한 1,150시간 분의 데이터셋 ‘OXE-Ramen’도 사용했다.

-- 가설 검정 실시 --
TRI는 앞에서 소개한 A~C모델의 성능에 대해 통계적으로 유의미한 차이가 발생하는지를 조사하기 위해 실험 결과에 대해 가설 검정을 실시했다. 평가 지표는 태스크 성공률(Success rate)와 태스크 완료도(Task completion) 2종류이다. 태스크 성공률은 성공과 실패라는 2개의 값만의 계측에 기반해 있으며, ‘거의 성공의 문턱까지 왔지만, 끝내 실패했다’와 같은 아까운 케이스도 ‘실패’로 분류하지 않을 수 없기 때문에 태스크 진행 과정에 몇 개의 마일스톤을 마련해 추이 정도를 평가할 수 있는 태스크 완료도도 병용했다. 실패해도 프로세스에서의 노력을 평가할 수 있는 것이다. 성공률에 대해서는 통상적인 Pairwise 방식의 t검정을 엄격한 평가로 확장한 ‘순차 가설 검정(Sequential test)’으로 A~C 간의 유의미한 차이를 측정, 완료도는 ‘Welch의 t검정’을 사용했다.

실험 결과를 정리한 것이 그림9와 그림10이다. 그림9는 사전학습 데이터 내에 있는 태스크로 평가한 것(Seen), 그림10은 사전학습 데이터 내에 없는 신규 태스크로 평가한 것(Unseen)이다. Unseen은 모델의 범용성을 보는 것이다. 예를 들어, 그림1과 그림3에 있는 태스크는 모두 Unseen 태스크이다.

그림9의 Seen의 경우, 평가 태스크 별 성공률로 가시화했다. 성공률이기 때문에 균일하게 Beta 분포를 사전 분포(Prior)로 해 실험 데이터를 기반으로 사후 분포(Posterior)를 구하고 바이올린 플롯(Violin plot)으로 표시했다. 플롯의 가로 폭이 굵은 부분이 분포가 많다는 것을 나타낸다. 바이올린 플롯의 중앙 부근에 있는 검은 색 플롯은 평균값을 나타낸다. 플롯의 옆에 있는 알파벳 소문자(a~c)는 가상 검정 결과를 가시화하는 방법인 ‘Compact Letter Display(CLD)법’의 결과를 나타낸다.

CLD법에서는 동일한 알파벳이 표시된 모델 간은 ‘절대적 유의미한 차이가 없다’라는 것을 나타낸다. 어떤 태스크에서 B와 C 모두 ‘b’가 표시되어 있는 경우는 B와 C의 성능에 유의미한 차이가 없다는 것을 의미한다. 더 나아가 A에 ‘a’라고 표시되어 있을 경우, A는 ‘B와 C’에 대해 유의미한 차이가 있다는 것을 의미한다. A, B, C에 서로 다른 알파벳이 표시되어 있는 경우에는 3개의 모델 모두 서로에게 유의미한 차이가 있다는 것이 된다. 혼동하기 쉽지만, CLD법의 알파벳은 단순히 ‘유의미한 차이가 없는 그룹 간에 같은 문자를 표시한다’는 것에 불과하기 때문에 비교 대상인 모델의 문자(A~C)와는 직접적인 관계가 없다.

그림9의 상단을 보면, 실제 로봇에서는 빨간 색 플롯인 C모델(사전학습 x 파인튜닝)이 전체적으로 가장 성능이 높다. 가설 검정 CLD의 결과를 보아도 C의 빨간 색 플롯은 회색의 A나 녹색의 B와는 다른 문자가 표시되어 있어, 통계적으로 유의미한 차이가 있다는 것을 확인할 수 있다.

하지만, 태스크(17)(TurnMugRightsideUp)과 같이 싱글 태스크 버전과 유의미한 차이가 없는 것도 있었다. 시뮬레이션 실험의 경우에는 실제 로봇 실험과 비교해 차이가 작았으며, CLD에서 3개 모두 동일한 문자가 표시되어 있는 태스크도 증가했다.

그림9의 하단은 모델의 강건성(Robustness)을 보기 위해 환경 조건에 대해 사전학습 데이터 안에 없는 변동(분포 시프트)을 추가한 것이다. 실제 로봇에서는 실험에 사용되는 플랫폼(Station)을 변경하거나, 태스크에 관계 없는 오브젝트를 디스트렉터(Distractor)로 추가했다.

Station 변동에서 C는 유의미한 차이가 있지만, 오브젝트 변동에 대한 강건성은 조금 약했다. 시뮬레이션 실험의 경우, 주로 외관 변경의 변동을 추가했다. 조명 광원의 추가, 카메라 파라미터의 변경, 오브젝트의 색과 텍스처 변경 등이다.

 -- 끝 –

 

Copyright © 2026 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

목차_Nikkei Robotics_25.10호

Sexy Technology

Diffusion Policy의 본가 도요타 TRI가 멀티태스킹 로봇 기반 모델의 스케일 법칙을 엄밀하게 실증
NTT가 새로운 파인튜닝 기술 개발, 사전 모델을 경신해도 재학습 필요 없어

AI 최전선
제 123회 GPT-5와 GPT-OSS

Robotics 법률 상담실
제 122회 생성 AI를 이용한 대화형 로봇에는 어떤 윤리적∙법적 문제가 있을까?

Case Study
기린베버리지, 로봇과 자동 지게차를 구사해 에비나에 컨베이어가 없는 음료용 물류 센터 개설

Global Watch
미국 - 건설 현장에 이송이 가능한 로봇 공장
       조립식 주택의 판넬을 저렴하게 제조
한국 - 현대자동차가 미국에 로봇의 양산 공장 건설
       2029년까지 260억 달러 투입

 -- 끝 --

 

Copyright © 2026 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP