니케이 로보틱스 2025/12 자율주행차량에 구두로 장소를 지시
Nikkei Robotics요약
Nikkei Robotics_25.12호 (p24)
자율주행차량에 구두로 장소를 지시
게이오대학과 혼다가 개발한 고정밀도의 대화 기술
화상(이미지)도 처리할 수 있는 대규모 언어 모델(VLM)의 발전이 현저하다. 하지만 아직까지 현실 세계에 대한 인식 능력이 충분하다고는 말할 수 없다. 예를 들어, ‘책장 앞에 물건을 놓는다’, ‘자동차 뒤로 짐을 운반한다’와 같은 태스크가 있을 경우, 물체를 운반할 목적지의 위치를 제대로 특정하지 못하는 경우가 있다. VLM에 현장의 화상을 입력한 후, ‘책장 앞’이나 ‘차량 옆’을 표시하도록 지시해도 영역을 나타내는 마스크를 적절하게 생성하지 못하는 경우도 있다. 그 원인 중 하나는 통상적인 화상 인식 작업에서 ‘물체(thing)’로 취급되는 책장이나 차 등은 경계가 명확한 반면, ‘영역(stuff)’으로 취급되는 지면 등에는 명확한 경계가 없어 분할이 어렵다는 점이다.
-- 자율주행에서 중요한 능력 --
자율주행차량에 VLM을 응용하는 것을 목표로 이 문제 해결에 도전하고 있는 것이 게이오기주쿠(慶応義塾)대학의 스기우라(杉浦) 교수 연구팀과 혼다(本田)기술연구소의 연구팀으로 구성된 연구 그룹(이하, 연구 그룹)이다. 연구 그룹은 승객이 자율주행 차량에 구두로 지시한 목적지를 차량 전방을 촬영하는 카메라의 영상에서 특정하는 ‘참조 이동 가능 영역(RNR: Referring Navigable Regions)’ 태스크의 실행 기술을 개발해왔다. 그 최신 성과가 2025년 9월에 개최된 로봇 기계학습 국제 컨퍼런스 ‘CoRL 2025’에서 발표한 ‘GENNAV’이다. GENNAV는 RNR을 처리하는 기존의 방법 및 대표적인 VLM에 비해 지시한 위치를 빠르고 높은 정밀도로 특정할 수 있다. 더 나아가 대상 영역이 복수인 경우, 또는 존재하지 않는 경우에도 대응할 수 있다.
연구 그룹은 RNR 태스크의 실행을 유저와 자율주행차량 간의 대화에 필요한 핵심 기능 중 하나로 규정하고 있다. 연구 그룹이 개발된 기술은 이 태스크에 특화되어 있으며, 지시에 해당하는 영역이 여러 개 있을 경우에 하나로 특정하거나, 지정한 장소로 이동하는 등의 기능은 후속 시스템에 맡긴다. 예를 들어, 영역 특정에는 음성으로 지시하는 것뿐만 아니라, 화면상에서 선택하는 등 여러 가지 선택지가 있기 때문에 자율주행차량의 판단에 맡겨야 한다고 연구팀은 판단했다.
실제로 혼다기술연구소는 이번 연구와 병행하여 이동이 어려운 사람 등의 이용을 상정해 개발한 소형 자율주행차량(마이크로 모빌리티)과 사람과 차량의 협업을 위한 각종 AI 기술을 개발하고 있다. 하지만 이번 연구 성과를 마이크로 모빌리티 개발 등에 구체적으로 어떻게 활용할지에 대해서는 아직 불분명하다.
이번에 개발된 GENNAVI는 RNR 태스크 전용 기술이지만, 이와 같은 발상은 실내나 실외에서 활동하는 로봇과의 대화 등에도 활용할 수 있다. RNR은 화상 내에서 유저의 말에 대응하는 부분을 추출하는 ‘참조 표현 세그멘테이션(RES)’과 같은 보다 광범위한 태스크의 일종이며, 구두로 장소를 특정하는 각종 용도로도 응용이 가능할 것으로 보인다.
-- 다양한 지식을 병용 --
RNR 태스크의 실행 성능을 최대한 높이기 위해 연구 그룹은 태스크에 특화된 모델과 대상 영역을 명시적으로 지정한 학습용 데이터셋을 개발했다.
모델 개발에서는 위치 특정으로 이어지는 정보를 가능한 한 많이 추출하여 활용 하는 방안을 채택했다. RNR 태스크를 제안한 인도 IIT의 기술[arXiv: 2112.13031]은 모델에 입력하는 화상과 텍스트에서 그대로 얻은 특징량만을 사용하며, 연구 그룹의 기존 방식인 ‘TRNSM’은 화상의 시맨틱 세그멘테이션 결과도 병용하는 데 반해, GENNAV에는 성능 향상에 기여하는 지식이 더욱 많이 반영되어 있다.
먼저, 입력된 화상에서 랜드마크가 존재할 것으로 보이는 영역을 여러 개 픽업해 입력된 화상 전체와 동일한 화소 수로 처리하도록 했다. 심층학습 모델에서는 화상을 224×224 화소 등, 사전에 정해진 화소 수로 변환한 후 처리하는 것이 일반적이다. 이때 랜드마크 부분의 화소 수가 줄어들어 모델이 제대로 인식하지 못할 가능성이 있다.
이를 피하기 위해 연구 그룹은 입력된 화상에서 총 4 곳을 픽업해 각각을 추가 화상으로 처리. 픽업하는 부분에 대해서는 차량에 탑재된 카메라로 촬영된 다수의 화상 중에서 보다 많은 랜드마크가 분포하는 화상 내 위치(도로 위나 도로 주변에 해당)를 사전에 조사하여 결정했다. 이러한 일련의 처리를 실행하는 모듈을 ‘LDPM (Land mark Distribution Patchification Module)’이라고 부른다.
-- 학습된 DNN 을 복수 활용 --
또한, 입력된 화상을 통해 예측한 심도(카메라와 피사체 간의 거리)도 활용했다. 기존 기술에서는 화상 내의 전후 관계를 잘못 판단하는 경우가 있었기 때문이다. 추정한 심도(유사심도)는 입력된 화상에 중첩해 RGB 화상으로 처리했다. 화상의 특징량을 추출하는 DNN(DINOv2)로 처리할 때, RGB 화상으로 하는 편이 성능이 더 높았기 때문이라고 한다.
이 처리를 실행하는 ‘VLSIM(Visual Linguistic Spatial Integration Module)’에서는 원래의 입력된 화상 및 유사심도 화상과 함께 입력된 화상에서 세그멘테이션용 DNN(PIDNet)으로 특정된 도로 부분의 마스크도 활용했다. RNR 태스크에서 문제가 되는 영역(stuff)은 도로이며, 그 위치를 명시적으로 모델에 전달함으로써 성능이 향상될 것이라고 연구 그룹은 생각했다.
심도 추정과 세그멘테이션, 화상 및 텍스트의 특징량 추출에는 기존의 학습이 완료된 파리미터를 동결해 이용했다. 예를 들어, 모델 전체를 학습시킨 데이터셋에 심도 정보를 추가하는 것보다, 기존의 DNN이 학습한 지식을 활용하는 편이 더 효율적이라고 판단했기 때문이다. 활용한 DNN은 성능이나 속도 관점에서 선택한 것으로, 더 나은 모델이 등장할 경우, 교체를 검토할 예정이다. 이미 텍스트 임베딩에는 논문 집필 시에 이용했던 GISTEmbed와는 다른 모델 사용을 추진하고 있다고 한다.
-- 영역의 유무와 위치를 별도로 출력 --
텍스트와 각각의 화상에서 추출한 특징량은 요소 별 덧셈이나 곱셈 등을 통해 융합한 후, 디코더에 상당하는 ‘ExPo (Existence aware Polygon segmentation module)’로 전송된다.
이 모듈에는 두 가지 출력이 있다. 하나는 텍스트가 지시하는 대상 영역이 입력된 화상에 몇 개 존재하는지를 나타내는 것으로, 영역이 ‘단일’, ‘복수(사전에 2개 영역으로 고정)’、 ‘존재하지 않음’ 등에 대한 각각의 확률을 출력한다. 다른 하나는 대상 영역의 세그멘테이션 결과로, 다각형의 꼭지점(사전에 6개로 고정) 좌표를 2개 영역으로 예측한다. 전자의 결과에 기반하여 다각형 또는 ‘영역이 존재하지 않음’을 알리는 메시지를 출력한다.
모델 전체의 학습에는 독자적 기술로 작성한 ‘GRIN-Drive’ 데이터셋을 사용했다. 목적 함수에는 2개의 ExPo 출력과 절대적으로 올바른 값 사이의 오차를 가중치를 두어 가산한 것을 사용했다. 확률은 크로스 엔트로피 오차, 다각형의 좌표는 L1 오차(차이의 절대값)이다. 학습 시키는 파라미터 수는 67.9M. 학습에는 NVIDIA의 GPU ‘GeForce RTX 4090’(VRAM은 24GB)과 Intel의 ‘Core i9-13900KF’를 사용하여 약 3시간 만에 끝낼 수 있었다고 한다.
-- 편향되지 않은 지표를 고찰 --
연구 그룹은 GRIN-Drive 데이터셋을 사용해 GENNAV의 성능을 평가했다. 비교 대상은 동일한 데이터셋으로 학습 시킨 기존 기술과 제로샷(추가 학습 없이 즉석에서 인식하고 처리)을 사용한 VLM이다.
대상 영역이 존재하지 않는 경우가 있는 RNR 태스크에서도 모델 성능을 편향 없이 평가하기 위해 연구 그룹은 새로운 평가 지표를 개발했다. 복수의 대상이나 대상이 없는 경우까지 포함될 수 있도록 일반화된 참조 표현 세그멘테이션(RES) 태스크에서는 gIoU(generalized Intersection over Union) [2306.00968]이라는 지표가 이미 있다. 이 지표는 대상 영역이 존재하는 경우, 예측한 마스크와 정답 간의 중첩(IoU)의 평균값 (mean IoU)을 사용한다(대상이 없다고 판단하면 0). 대상 영역이 없는 경우, 정답이면 1, 오답이면 0으로 한다.
gIoU에서는 대상 영역이 있을 경우의 정답값이 거의 확실하게 1보다 작기 때문에 대상 영역이 없는 경우의 정답값이 상대적으로 높게 평가된다. 그 결과, 보다 정확한 마스크를 구하는 것보다 대상의 유무 판단을 우선시하는 편향이 발생한다. 실제로 GRIN-Drive 데이터셋의 테스트 샘플을 통해 평가한 결과, 모든 샘플에서 대상이 없다고 답했을 때의 gIoU가 0.33이었던 반면, 대상이 있는 샘플에 사람이 마스크를 그려 넣어 구한 gIoU는 0.17로 현저히 낮았다고 한다.
이러한 편향을 제거하기 위해 연구 그룹은 msIoU라고 불리는 지표를 새롭게 개발했다. gIoU와의 차이는 대상이 있는 경우의 값을 계산하는 방법이다. 마스크와 정답의 중첩(IoU)에 대해 임계값 K를 설정하고, IoU가 임계값을 넘을 경우에는 1, 그 미만일 경우에는 완만하게 값이 줄어들도록 고안했다. 또한, 복수의 K에 대한 sloU를 구해 평균화함으로써, 대상 영역의 유무와 마스크 위치의 예측 간의 균형을 더욱 잘 맞출 수 있도록 했다.
-- 타의 추종을 불허하는 성능을 고속으로 달성 --
연구 그룹은 실험 결과를 바탕으로 새로운 지표와 기존의 지표를 사용하여 GENNAV와 다른 방식의 성능을 비교했다. 기존 지표로는 IoU가 임계값 K를 초과하는 것을 정답으로 했을 때의 적합율 P@K를 사용. 영역의 유무에 대한 정오(正誤)로 구한 정밀도를 활용했다. 그 결과, 두 지표 모두 GENNAV가 최고값을 기록했으며, 태스크를 입수하여 실행한 경우에 가장 가까웠다.
그림 5에는 평가 결과의 일부가 표시되어 있다. GENNAV가 정답에 가까운 마스크를 생성하고 있는 반면, 다른 방법들은 정답과 동떨어진 위치에 마스크를 그리거나, 대상 영역이 존재하지 않는다고 주장하고 있다.
태스크 처리 속도 측면에서도 GENNAVI가 우위에 있었다. 데이터셋으로 학습시킨 모델은 학습 시와 동일한 하드웨어, VLM은 클라우드 상에서 태스크를 실행하여 1개의 샘플 당 실행 시간을 측정한 결과가 그림 6이다. GENNAV는 1개 샘플 당 31ms로, 동영상의 경우, 1초 간 30프레임 이상을 처리할 수 있는 속도를 기록했다. 기존 방법 중 성능이 가장 높았던 게이오대학의 기존 방식과 비교하면 약 16배 더 빠르다. 기존에는 대상 영역을 화소 단위로 구했지만, GENNAV에서는 다각형의 꼭지점만을 처리하는 방법으로 바꾼 것이 큰 역할을 했다.
학습된 모델을 제로샷으로 일본의 도로에 적용한 경우의 성능도 조사 했다. 학습에 사용된 데이터셋은 해외의 데이터를 사용하고 있어 좌핸들 차량을 전제로 했다. 우핸들인 일본의 환경에서 어느 정도까지 통용될지는 미지수였다. 4종류의 자동차로 5개의 각각 다른 지역에서 촬영한 영상을 사용해 조사한 결과, 역시 GENNAV의 성능이 가장 높았다.
다만, 현재의 성능은 실용 수준에 도달했다고는 말할 수 없는 수준으로, 오류를 더욱 줄일 필요가 있다고 한다. 연구 그룹은 PIDNet보다 강력한 세그멘테이션용 DNN의 임베딩과 동영상 내 전후 프레임과의 정합성을 고려하는 등의 방법을 검토하고 있다.
-- 끝 --
Copyright © 2026 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.
목차

목차_Nikkei Robotics_25.12호
Sexy Technology
Amazon의 강화학습을 이용한 사후학습 방법
더 이상 모방학습에만 의존하지 않는다, 다섯 손가락으로 성공률 증폭
Robotics 법률 상담실
제 124회 2족 보행 로봇은 도로를 통행할 수 있는가?
AI 최전선
제 125회 앞으로의 로봇 기반 모델
Case Study
마루베니로지스틱스, 컨테이너 하역 자동화
쓰쿠바 거점에서 중국 XYZ Robotics의 로봇 도입
Professor’s Eye
‘세계 모델을 어디까지 정교하게 만들어낼 수 있을까’라는 난제
Global Watch
미국 - 의도적으로 휴머노이드 로봇을 이용해 수술을 자동화, 의료 현장에 도입하기 쉬운 제너럴리스트로
한국 - 서울에서 휴머노이드 로봇 국제 학회 개최
삼성전자는 로봇핸드에 주력
-- 끝 --
Copyright © 2026 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

