일본산업뉴스요약

로봇은 대규모 언어모델로 변할 것인가 -- 2024년의 '로봇과 AI'
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2024.1.19
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2024-01-29 22:09:05
  • 조회수115

Nikkei X-TECH_2024.1.19

편집장이 전망하는 2024년
로봇은 대규모 언어모델로 변할 것인가
2024년의 '로봇과 AI'

2023년은 대규모 언어모델(LLM: large language model)이 큰 주목을 받은 해였다. 2022년 11월에 등장한 챗GPT가 폭발적으로 보급되면서 전 세계인의 AI에 대한 시각을 확 바꾼 것이 2023년이었다. 그리고 2023년은 로봇 기술 영역에서도 LLM을 도입한 제안이 많이 등장한 한 해였다.

일반인들 입장에서는 챗GPT야말로 LLM의 불쏘시개가 되었다는 이미지를 갖고 있을지도 모르지만, 로봇 영역에서는 사실 챗GPT가 등장하기 반년 이상 전인 2022년 4월 단계부터 이미 구글에 의해 LLM의 응용이 시도되었다. 그러한 대응의 흐름이 한층 가속화된 것이 2023년이었다고 할 수 있다.

그럼 2024년에는 과연 이 흐름은 어떻게 될까? 로봇/AI 기술 전문지 ‘닛케이 Robotics’의 편집장으로서 이 분야의 동향을 조금만 전망해 보고 싶다.

먼저 로봇에 대한 LLM 응용이라고 하면 커뮤니케이션 로봇처럼 LLM을 로봇의 대화 엔진으로 사용하는 방향성이 떠오를 수 있다. LLM은 비연속적으로 진화했기 때문에 이것은 이것으로 유의미한 응용이기는 하지만 커뮤니케이션 로봇은 거의 LLM 그대로의 응용 형태이므로 본고에서는 지면을 할애하겠다.

“흐름이 가속되기 시작했다”라고 필자가 말한 것은, 그러한 대화 엔진으로서의 LLM 응용이 아니라 로봇 행동을 만드는 부분, 즉 ‘행동 생성 AI’로서 LLM을 사용하자는 이야기이다.

최근의 LLM은 언어를 해석할 뿐만 아니라 이미지 등 멀티모달한 정보를 해석할 수 있게 되었다. 그러한 멀티모달한 LLM이, 로봇의 카메라 영상 등을 통해 주위 상황을 판단하고, 유저의 지시(프롬프트)를 달성할 수 있도록 로봇의 물리적인 동작을 계속 하는 것이다.

그렇다. LLM은 말을 만들어낼 뿐만 아니라 로봇의 모션과 같은 수치 데이터도 만들어낼 수 있는 것이다. 이동 로봇이면 대차를 어떻게 움직일지 LLM이 판단하고, 로봇 팔이면 팔의 움직임 자체를 LLM가 생성하도록 하자는 이야기이다.

이러한 방향성이 시도되고는 있지만 솔직히 말해서 지금 실현되고 있는 것은 아직은 허술한 레벨이다. LLM의 기반이 되고 있는 딥러닝 기술은 이미지, 음성, 언어라는 3가지 영역에서 성과가 나온 것이지만 아쉽게도 로봇 영역에는 아직 그 혁명이 미치지 못했다.

작년에도 이 '편집장이 전망한다'라는 칼럼에서 필자는 거의 비슷한 취지의 말을 했었다. ‘사회에서 즉시 도움이 되는가’라는 큰 목표에서 바라보면 유감스럽게도 현재도 상황에 별 변화가 없다고 할 수 있을 것이다. 다만 중요한 것은 '사회에서 즉시 도움이 된다'까지 이르지 않더라도 물밑에서 '꾸준한 진보'는 일어나고 있다는 점이다.

애초에 챗GPT만 해도 일반인들 입장에서는 '갑자기 나타났다'는 이미지를 갖고 있을지도 모르지만 기술적으로 보면 반드시 그런 것은 아니다. 최근 10년 정도의 기간 동안에 '꾸준한 기술 진보'의 축적이 다수 있었기 때문에 드디어 실현되었다고도 말할 수 있다.

자연언어 처리 영역에서는 8년 전만 해도 RNN이 활발히 사용되고 있어 빈말로도 '화려한 성과'라고 말하기 어려운 상황이었다. 딥러닝 기술의 혁명이 왔다고 해도 그것은 주로 이미지나 음성 영역이었고, 언어에는 아직 그 혁명은 미치지 못하고 있다고 말할 수 있는 상황이었다.

그러나 2017년에 self-attention 기구를 풀 활용하는 ‘Transformer’가 등장. 그 후에도 2018년에 마스크에 의한 학습을 대대적으로 도입한 ‘BERT’가 등장, 게다가 모델 규모/학습 데이터/계산 자원을 확대시키는 ‘스케일링 법칙(scaling law)’이 2020년 무렵에 가시화된 것 등이 쌓이면서 착실하게 진화했다. 그리고 실용화를 위한 마지막 푸시는 ‘RLHF(reinforcement learning from human feedback)’였다.

이것이 있었기 때문에 챗GPT와 같은 LLM이 처음으로 전문가 이외의 일반인들에게도 큰 주목을 받게 되었다고 할 수 있다. Transformer는 큰 진보였지만 적어도 언어 영역에서는 그것 만으로는 실용화에 이르지 못했고, 챗GPT의 출현까지는 거기서 5년이나 더 시간이 필요했다.

일반적으로 어떤 기술이 실용화되고 폭발적으로 보급되려면 다양한 피스가 갖추어져야 한다. 스마트폰의 경우도 애플의 설계 능력이 기여한 면이 크다고는 하지만, 액정 패널 등의 얇고 가벼운 플랫 패널 디스플레이, 대용량의 NAND 플래시 메모리, 저소비 전력의 CPU/SoC, 광대역의 이동통신과 같은 피스가 갖추어지면서 비로소 세계에 보급시킬 수 있는 바탕이 마련되었다.

디스플레이 기술로서 브라운관밖에 없는 시대에 아무리 스마트폰과 같은 제품 기획을 하더라도 실용화에는 이르지 못한다는 것이다. 한편, 일단 피스가 갖추어지면 신기술은 지금까지와는 다른 비연속적인 변화를 사회에 초래하고, 단번에 보급하는 것이다.

그런 의미에서 필자는 로봇 AI에는 아직 부족한 피스가 많다고 느끼고 있다. 'LLM을 로봇의 행동 생성 AI로서 사용한다'는 어프로치는 로봇 AI의 영역에 '착실한 진보'를 가져왔다고 생각하고 있다. 하지만 본격적으로 사회에서 활용하기 위해서는 그것 만으로는 많이 부족하고, 아직 앞으로도 많은 돌파구가 필요할 것 같다.

앞에서 언급한 것처럼 언어 영역에서도 Transformer의 등장부터 챗GPT의 히트까지 5년의 세월이 걸렸다. 로봇 AI에서도 진정한 실용화가 도래할 때까지 약간의 시간이 필요할 것이다. 어쩌면 다음 피스가 채워지지 않은 채 '로봇 AI 겨울 시대'로 접어들 수도 있다.

어쨌든 'LLM을 로봇의 행동 생성 AI로서 사용한다'는 어프로치가 나옴으로써 로봇 AI 연구가 활성화된 것은 확실하다. 로봇 AI 국제학회 등에서도 LLM을 응용한 제안이 많이 늘어나기 시작했다. 딥러닝 기술 혁명이 언제 로봇 영역으로 파급될지 그 시기를 예측하기는 어렵지만 확실하게 말할 수 있는 것은 '꾸준한 진보'는 일어나고 있다는 것이다.

그럼, 그 ‘꾸준한 진보’란 구체적으로 무엇을 말하는 것일까? 닛케이 Robotics에서는 이러한 로봇 AI의 첨단 동향에 대해 매 호 주력해서 지면을 구성하고 있다. 이번 기회에 우리 잡지의 구독을 검토해 주시면 감사하겠다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록