니케이로보틱스_2022/11_거대 크레인 제어에 강화학습 기술

책 커버 표지
목차

요약

Nikkei Robotics_22.11 Sexy Technology (p4-9)

거대 크레인 제어에 강화학습 기술
부족 구동에서도 오버슈트 없이 조종 자동화

높이 수십 미터나 되는 거대한 건설기계인 크레인의 조종을 자동화하는 기술이 등장했다. 강화학습 기술을 개발하는 AI 벤처기업 DeepX와, 대형 건설용 크레인 업체인 TADANO가 공동개발했다.

크레인은 수십 미터 정도 높이의 와이어에 짐을 매달고 있어 거대한 진자 모양처럼 보인다. 조작을 하면 와이어가 휘거나 흔들리기도 하고, 와이어를 매다는 강철제 붐 자체도 휘는 등 다른 건설기계와 비교해 조종이 매우 어렵다고 한다. 한 사람의 전문 오퍼레이터를 육성하는 데는 긴 기간이 필요하다.

이번에 DeepX와 TADANO는 강화학습 기술을 사용해 2지점 사이에서 짐을 운반할 때 거의 오버슈트와 같은 흔들림 없이 자동 조종이 가능하도록 했다. 건설분야에서 발생하고 있는 숙련 오퍼레이터의 고령화/부족 문제에 대처할 수 있게 된다. 작업 반경 내에서 사람을 어떻게 격리할지 등 건설기계를 자동 조작할 때의 안전기준이 정비되면 현장에서 이용할 수 있게 된다.

2016년 창업한 DeepX는 도쿄대학 대학원 마쓰오(松尾) 교수 연구실발 벤처기업이다. TADANO는 처음에는 마쓰오 연구실과 공동연구를 진행했지만 DeepX를 창업한 후에는 DeepX와 크레인 자동화를 개발해 왔다. 5년 이상의 세월이 투입됐다는 사실이 크레인의 자동화가 얼마나 어려운지를 보여준다.

DeepX는 건설분야에서는 대형 건설기업인 후지타와도 협업하고 있으며, 굴착기를 이용한 굴착 작업을 강화학습으로 자동화하는 기술을 18년에 개발했다. 이번 개발은 그에 이어지는 것이라고 할 수 있다.

-- 3자유도만 가능한 부족한 구동 --
크레인의 태스크는 무거운 짐을 2지점 사이서 운반하는 것이다. 로봇 분야에 비유하면, 운반용 로봇 암이 하는 역할과 같다. 그러나 로봇과는 다른 점도 많다. 그 중 하나가 자유도다. 로봇 암은 통상 6축 이상인 것이 많지만 건설용 크레인은 불과 3축뿐이다.

붐을 올렸다 내렸다 하는 피치축(pitch axis), 붐 전체를 수평 회전시키는 요축(yaw axis), 와이어를 감아 올리거나 내리거나 하며 매달린 짐의 높이를 바꾸는 윈치축(와이어 길이)이다.

3축밖에 없기 때문에 오퍼레이터가 제어할 수 있는 것은 대상물의 3차원 좌표뿐이며, 대상물의 자세(방향)는 원래 제어하지 못한다. 그렇기 때문에 건설 현장에서는 운반 물건의 방향을 조정할 때는 물건 끝을 인력으로 잡아당기는 방법 등으로 조정하는 경우가 많다.

크레인은 자유도가 적기 때문에 결과적으로 부족 구동(underactuated)이 되는 것도 어려운 점 중 하나다. 부족 구동이라는 것은 액추에이터로 능동적으로 조작할 수 있는 자유도가 대상 시스템의 자유도보다 적은 것을 말한다. 크레인은 붐의 끝에서 와이어로 짐을 매달기 때문에 짐은 붐의 끝을 중심으로 해서 기본적으로 자유 회전하게 된다.

그 지점에서의 와이어 길이를 반경으로 한 구(球)의 표면 상에서 자유롭게 움직이는 것이다. 이른바 하중 스윙(Load Swing)이다. 대상물의 자세를 제어할 수 없을 뿐만 아니라 3차원 좌표의 위치 결정에서도 수동적인 추가 2자유도가 더해진다.

시스템 속에 구동하지 못하는 자유도가 있으면 어떻게 될까? 예를 들면, 짐을 목표 지점으로 이동시키기 위해 피치축이나 요축을 구동하면, 짐은 관성에 의해 그 자리에서 머물려고 하면서 수평면 내에서 붐 끝 좌표와의 불일치가 발생한다.

역으로 운반 중에 피치축이나 요축의 구동을 멈춰도 관성에 의해 짐은 바로 멈추지 않고 오버슈트한다. 기하적인 키네마틱스(운동학)까지 충분히 고려할 필요가 있다. 또한 하중 스윙을 잘 억제할 수 있었다고 해도 바람이 불면 다시 이 제어 불가능한 2자유도(구면) 상에서 진동이 발생하게 된다.

이 외에 건설기계는 전기 모터로 구동하는 로봇과 달리 유압 액추에이터로 동작하는 것이 대부분이다. 와이어를 감아 올리는 윈치에서도 전기 모터가 아니라 유압 모터를 이용하는 것이 일반적이다. 유압 액추에이터는 튼튼하고 큰 토크를 출력하는 등 이점이 있다. 그러나 히스테리시스(이력) 특성이 있어 제어 면에서는 전동 모터보다도 까다롭다.

전통적인 로봇공학에서는 이러한 대상물은 제어공학 지식으로 대처하는 것이 일반적이지만 이번 DeepX는 기계학습 기술을 활용해 이 과제에 도전했다.

또한 일반적으로 크레인의 와이어 끝은 수동적인 훅(Hook)으로 돼 있는 경우가 많다. 이 경우, 로봇 암의 핸드처럼 능동적으로 무언가를 잡는 시스템은 아니다. 때문에 크레인으로 짐을 운반할 때는 우선은 사람이 직접 짐을 훅에 걸고, 운반 후에는 사람이 훅에서 짐을 빼는 작업을 해야 한다.

이러한 작업은 노동안전위생법상, 전용 강습을 수강한 사람이 해야 한다. 크레인을 조종하는 것 자체도 자격(면허)은 필요하고, 주변에서 훅에 짐을 걸고 빼는 작업을 하는 사람도 자격이 있어야 한다. 이번 자동화 기술은 어디까지나 크레인 조종이 대상이며, 훅에 짐을 걸고 빼는 작업은 대상에서 제외된다.

건설용 크레인은 자율주행이 가능한 것이 많다. 하지만 차륜(휠)으로 이동하는 타입에 대해서는, 크레인으로 운반할 때는 자세를 안정시키기 위해 차륜으로 접지시키는 것이 아니라 전용 아웃트리거(Outrigger, 전도방지지지대)를 설치, 그 자리에 고정해서 사용한다. 이 때문에 건설기계 그 자체의 이동에 대해서도 이번 자동화 기술은 대상 외가 된다.

-- 하중 스윙량은 카메라로 계측 --
센서 등으로 얻은 상태량을 강화학습으로 획득한 컨트롤러에 전송하고, 거기서 피치축, 요축, 위치축의 3축분의 조작량을 출력한다.

직접 제어하지 못하는 자유도인 하중 스윙량에 대해서는 붐 첨단에 연직 방향으로 카메라를 설치, 사진을 통해 계측하도록 했다. 액추에이터로 구동할 수 있는 3축의 관절 좌표와 속도에 대해서는 원래 TADANO의 건설기계 측에 센서가 장착되어 있기 때문에, 거기서 CAN 인터페이스를 통해 전자적으로 취득하도록 했다.

DeepX는 대형 건설기업인 후지타와 착수하고 있는 굴착기의 자동화 프로젝트에서는 건설기계 업체의 종별을 불문하고 이용할 수 있도록 하기 위해 셔블(Shovel)의 암의 관절 좌표를 외부 카메라로 계측하고 있었지만 이번에는 건설기계 업체인 TADANO와의 공동개발이기 때문에 이러한 상태량을 취득하는 것은 용이했다. 3축의 조작량의 지령에 대해서도 CAN을 통해 출력한다.

-- 모델 베이스형을 채용 --
컨트롤러는 내부에 다이내믹 모델을 갖춘 ‘모델 베이스 강화학습’으로 구성했다. 일반적으로 강화학습은 다이내믹 모델을 명시적으로 취급하지 않는 ‘모델 프리형’과, 다이내믹 모델을 명시적으로 갖추고, 그것을 제어에 직접 활용하는 ‘모델 베이스형’이 있다.

DeepX는 2018년에 발표한 굴착기 자동화에서는 모델 프리형을 이용했지만 이번에는 학습 효율을 높이기 쉬운 모델 베이스형을 선택했다. 최근에는 ‘세계 모델(world model)’이라 불리는 강화학습 방법이 주목을 받고 있다. 이번 호에서도 파나소닉의 세계 모델에 대한 대응을 소개하고 있으며, 이 세계 모델도 모델 베이스형의 일종이다.

건설기계와 같은 거대한 장치는 로봇과 마찬가지로 실제 장치에서 시행착오가 발생하면 매우 위험하기 때문에 강화학습의 시행착오는 시뮬레이터 상에서 실시했다(sim-to-real). 학습 시간은 약 1주일이다. 온프레미스(On-Premises)나 클라우드 상의 GPU를 활용했다.

강화학습에서는 환경 파라미터를 일정 범위 내에서 램덤으로 흩뜨림으로써 제어기의 견고성(Robustness)를 높이는 ‘domain randomization’을 실시하는 경우가 많다. 이번 대응에서도 크레인의 초기 자세나 유압 액추에이터계 파라미터, 센서 노이즈 등에 대해 domain randomization을 실시했다. 이 외에 시뮬레이터에서는 와이어의 휨 정도, 바람의 영향 등도 추가했다.

-- 뉴럴 네트워크 사용하지 않는 방책 --
주목해야 할 점은 강화학습 에이전트 내의 방책(policy)에 대해, 딥러닝 뉴럴 네트워크(DNN)을 사용하지 않는다는 점이다. 방책이나 가치함수 등 강화학습 내의 모듈에 DNN을 사용하는 타입은 ‘심층강화학습(DRL: Deep Reinforcement Learning)이라 불리는데 특히 모델 프리형에서는 지금까지 큰 주목을 받고 있었다.

최근에도 본지가 2022년 4월호에서 소개했듯이 스위스 ETH Zurich가 4족 보행 로봇 제어에서 심층강화학습을 채용해 낮은 산을 돌파하는 데 성공하는 등 실용적인 성과도 내고 있다.

<표1> 강화학습 방법의 비교

 

비심층강화학습

심층강화학습

모델 베이스 강화학습

모델 프리 강화학습

방법 예

이번 DeepX의 방법

세계 모델
(Dreamer 등)

TRPO, QT-Opt 등

다이내믹 모델

있음 (물리 모델)

있음 (RNN으로 구성)

없음

방책

뉴럴 네트워크는
사용하지 않는다

뉴럴 네트워크 베이스

뉴럴 네트워크 베이스 등

DeepX도 굴착기 대응에서는 일찍이 심층강화학습을 이용하고 있었다. 원래 DeepX라는 회사 이름도 심층강화학습에서 따온 것이지만 이번 대응에서는 심층강화학습에서 완전히 벗어났다. DeepX의 나스노(那須野) CEO에 따르면, 방책에 DNN을 이용하면 하드웨어 측이 바뀐 경우에 재학습이 필요하게 되고, 결과적으로 많은 DNN 모델을 관리할 필요가 생긴다.

또한 DNN을 sim-to-real에서 이용하는 경우는 domain randomization의 폭을 상당히 넓게 취해야 하기 때문에 학습 비용이 비싸진다. 때문에 최근에는 방책에 DNN을 이용하는 것의 이점을 찾기 어려워졌다고 한다.

나스노 CEO는 “미국 구글처럼 사내에 풍부한 연산 자원을 갖춘 일부 기업이라면 domain randomization의 폭을 넓혀 심층강화학습을 실용에 제공할 수 있을지도 모른다. 하지만 그렇게 학습 비용을 지불할 수 없는 기업은 실무적으로는 방책에서 DNN을 이용하기 어렵다고 현재로서는 생각한다”라고 말한다.

DeepX에서는 강화학습의 틀 자체는 기간 기술로서 계속 사용하고 있지만, 이 방책 측에서의 DNN에 대해서는 현재로서는 사내의 모든 프로젝트에서 채용하지 않는다고 한다.

방책에 DNN은 사용하지 않지만 모델 베이스 강화학습의 틀을 이용하고 있으며 ‘모델 예측 제어(MPC: Model Predictive Control)’에 가까운 스타일을 채용하고 있는 것 같다. 다만 상세한 내용은 비공개라고 한다.

 -- 끝 --

Copyright © 2020 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

TOP