- 휴머노이드 로봇으로 대규모 행동모델 실증 -- 도요타와 보스턴다이나믹스
-
- CategoryAI/ 로봇·드론/ VR
- 기사일자 2025.9.02
- 신문사 Nikkei X-TECH
- 게재면 online
- Writerhjtic
- Date2025-09-25 09:49:36
- Pageview66
휴머노이드 로봇으로 대규모 행동모델 실증
도요타와 보스턴다이나믹스
도요타자동차의 미국 연구개발 자회사 Toyota Research Institute(TRI)는 미국의 보스턴 다이내믹스(Boston Dynamics)와 공동으로 인공지능(AI)을 탑재한 휴머노이드 로봇으로 대규모 행동모델(LBM: Large Behavior Model)을 실증했다고 밝혔다. LBM은 로봇의 센서로 데이터를 수집하고 그 정보를 바탕으로 행동을 출력하는 AI 시스템이다. 이를 통해 수작업의 프로그래밍을 하지 않아도 로봇이 다양한 환경에서 복잡한 작업을 수행할 수 있게 된다.
양사는 공동으로 ‘Getting a Leg up with End-to-end Neural Networks’라는 제목의 동영상을 공개해 실증 내용을 선보였다. 동영상에서는 휴머노이드 로봇 ‘Atlas’가 뚜껑이 달린 작은 상자에서 다양한 형상의 부품을 꺼내 큰 상자에 넣는 작업을 실시하고 있었다. 로봇은 쪼그리고 앉아 부품이 깨지지 않게 부품의 모양에 맞춰 잡아 올려서 옆에 놓인 큰 상자에 넣어 나갔다. 도중에 사람이 상자의 뚜껑을 닫거나, 상자를 움직이거나, 상자 밖에 부품을 놓아도 로봇은 스스로 행동을 조정해 작업을 수행해 나갔다.
-- 전신 운동을 제어 --
로봇은 이 작업을 할 때 보행, 정확한 다리의 위치 결정, 쭈그리고 앉기/일어나기, 중심의 이동, 들어올리기/손 떼기와 같은 전신 운동을 실시할 수 있다. 지금까지 휴머노이드 로봇은 저준위 보행과 균형 제어, 물체 이동을 조작하는 팔 제어 등이 각각 분리되어 있었다. 이번에 LBM을 통해 로봇 전체를 직접 제어해 손과 발을 거의 동시에 움직일 수 있게 된 것이다.
복수의 조작 태스크를 실행할 수 있도록 단일 뉴럴 네트워크를 훈련함으로써 보다 뛰어난 범용성을 얻을 수 있게 되었다고 한다. 휴머노이드 로봇의 주요 가치 중 하나로 다양한 태스크를 동시에 실행하는 것을 들 수 있다. 그러나, 다양한 태스크를 모두 프로그래밍하는 기존의 접근 방식은 여러 가지 과제에 대응할 수 있을 정도의 확장성이 없었다. LBM은 이러한 과제에 대응할 수 있는 근본적으로 새로운 방법이라고 한다.
LBM이 태스크에 대해 폴리시를 구축하는 프로세스에는 4가지 기본적 단계가 있다고 한다. (1)실제 로봇의 하드웨어와 시뮬레이션 양측에서 원격 조작을 통해 구체적인 동작 데이터를 수집한다. (2)이 데이터를 기계학습 파이프라인에 도입해 예측 모델을 작성하기 위한 데이터 처리, 태그 붙이기, 정리를 실시한다. 3)모든 태스크와 관련된 데이터를 사용하여 뉴럴 네트워크 폴리시를 훈련한다. 4)태스크에 대한 일련의 테스트를 실시해 폴리시를 평가한다. 이러한4단계의 결과는 어떤 추가 데이터를 수집할지, 어떤 추론 전략이 성능 향상으로 이어질지에 대한 의사결정에 도움이 된다.
-- 폴리시가 지능적으로 반응 --
예를 들어, 부품이 상자 밖으로 떨어지거나, 상자 뚜껑이 닫히는 문제가 발생할 경우에 중요한 기능은 폴리시가 지능적으로 반응하는 것이다. 당초의 폴리시에는 문제로부터 회복하는 기능은 없었다. 그러나 회복 사례를 제공해 네트워크를 재학습시킨 결과, 알고리즘이나 엔지니어링의 변경 없이 새로운 반응형 폴리시를 펼칠 수 있게 되었다.
이것은 로봇의 센서 정보를 통해 주위의 상태를 효과적으로 추정하고 학습을 통해 얻은 경험을 바탕으로 적절히 반응할 수 있기 때문이다. 이로 인해 새로운 동작을 프로그래밍할 필요가 없어 로봇의 동작 개발을 확대할 수 있다. 사람이 시연함으로써 신속하게 로봇에 스킬을 추가할 수도 있다. 또한 LBM이 강화됨에 따라 보다 확실한 동작을 할 수 있도록 하기 위한 데모가 적어진다.
양사는 향후에도 태스크의 다양성과 난이도 향상, 데이터량의 증가, 품질 향상 등을 도모하고, 이와 동시에, 촉각 피드백에 의한 그립력 제어나 고속의 동적 조작과 같은 로봇 공학 관련, 다양한 데이터 소스의 도입, 시각언어행동모델(VLA)의 강화학습(RL) 개선, 복잡한 태스크와 오픈엔드(Open-ended) 추론을 가능하게 하는 대규모 시각언어모델(VLM)/VLA 아키텍처 등, 복수의 연구 영역을 추구해 나간다고 한다.
-- 끝 –
Copyright © 2025 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.