- 행동의 의도를 이해하는 후지쓰의 ‘공간 월드 모델’ -- 일반 환경에서의 피지컬 AI 실현을 목표로
-
- 카테고리AI/ 로봇·드론/ VR
- 기사일자 2026.02.26
- 신문사 Nikkei X-TECH
- 게재면 online
- 작성자hjtic
- 날짜2026-04-24 09:22:10
- 조회수100
행동의 의도를 이해하는 후지쓰의 ‘공간 월드 모델’
일반 환경에서의 피지컬 AI 실현을 목표로
현실 세계를 이해하고, 다음에 일어날 수 있는 현상을 예측할 수 있는 ‘월드 모델(World Model)’. 월드 모델을 다루는 이번 특집의 제 2회에서는 후지쓰가 개발한 월드 모델을 소개한다. 후지쓰가 ‘공간 월드 모델(Spatial World Model)’이라고 부르는 기술은 사람과 로봇, 물체가 혼재하는 공간의 상태를 넓은 범위에서 파악하고, 미래를 예측할 수 있다. 후지쓰는 이 기술을 활용해 상업 시설이나 시가지 등 일반 환경에서의 피지컬 AI(인공지능) 실현을 목표로 하고 있다.
‘수상한 행동을 할 것 같다’, ‘짐을 가지고 들어오려 한다’, ‘제한 구역에 짐을 방치할 것 같다’. 짐을 든 사람이 의심스러운 행동을 하며 제한 구역에 들어가려 하면 경고 메시지가 표시되고, 순찰 중이던 4족 보행 로봇이 현장으로 향한다.
이것은 후지쓰가 2026년 1월에 개최된 국제기술박람회 ‘CES 2026’에서 공개한 공간 월드 모델의 데모 장면이다. 공간 월드 모델은 로봇에 탑재된 카메라와 벽·천장 등에 설치된 고정 카메라의 정보를 활용해 공간 전체의 상태를 파악한다. 또한, 사람이 짐을 부자연스럽게 숨기는 등의 ‘수상한 행동’을 통해 사람의 행동 의도와 목적을 파악할 수 있다는 것이 공간 월드 모델l의 특징이다.
왜 후지쓰는 ‘공간’이라는 키워드를 월드 모델에 추가했을까? 그 배경에는 기존의 월드 모델이 가지고 있는 문제가 있다. 이에 대해 후지쓰 로보틱 연구센터의 아베(安部) 시니어 리서치 디렉터는 “(기존의 월드 모델은) 로봇 단독으로 관측 가능한 범위에서만 예측할 수 있었다.”라고 지적한다.
복수의 로봇이 참여하는 축구 경기를 예로 들어 생각해 보자. 기존의 월드 모델은 로봇이 자신의 시야 안에 있는 다른 로봇이나 공의 움직임을 예측할 수 있었다. 반면, 그 로봇이 관측할 수 없는 위치에 있는 로봇이 어떤 움직임을 보일지에 대해서는 예측할 수 없었다. 로봇이 자신의 카메라와 센서 정보만을 기반으로 미래 상황을 예측하는 경우, 이러한 문제가 발생한다.
제어 대상이 되는 로봇에 탑재된 카메라와 센서뿐만 아니라, 다른 로봇의 카메라 및 공간 내에 설치된 고정 카메라를 통해서도 정보를 취득. 취득한 정보를 통합해 공간 내에서 발생하는 현상을 실시간으로 예측할 수 있도록 한 것이 공간 월드 모델이다.
-- 사람이나 로봇의 관계성을 모델화 --
공간 월드 모델은 ‘공간 파악’과 ‘미래 예측’이라는 두 가지 프로세스를 거쳐 구축된다. 공간 파악은 공간 월드 모델에 입력된 정보를 정리하는 프로세스이며, 미래 예측은 공간 내의 사람이나 로봇, 물체 간의 관계와 의도를 파악한 뒤 미래를 예측하는 프로세스이다.
공간 파악에서는 로봇에 탑재된 카메라(로봇 카메라)와 천장 등에 고정된 카메라(공간 카메라)에서 얻은 영상을 실시간으로 통합한다. 여기서 문제되는 것이 각 카메라에서 취득한 영상의 화각(畵角) 및 영상 취득 타이밍이 서로 다르다는 것이다. 이 때문에 화소 레벨에서의 통합이 어렵다.
그래서 공간 월드 모델에서는 각 카메라의 영상 데이터에서 사람이나 로봇과 같은 오브젝트를 검출. 오브젝트 단위로 연결해 카메라 간의 시각 차이를 상호 보정하는 방식을 개발했다. 이를 통해 공간 전체의 사람이나 로봇의 위치와 궤적을 실시간으로 파악할 수 있게 되었다.
한편, 미래 예측에서는 공간 파악을 통해 검출한 사람이나 로봇의 행동을 예측한다. 이때 카메라에서 취득한 영상 데이터를 그대로 사용하면 계산량이 늘어나기 때문에 각 오브젝트의 행동 의도 및 관계성을 모델화한 ‘3D Scene Graph’로 변환해 둔다.
3D Scene Graph로의 변환에 후지쓰는 축적해 온 행동 분석 기술을 활용했다. 예를 들어, 사람이 무엇을 보고 있는지, 무엇을 향해 이동하고 있는지 등의 관계성을 포함한 형태로 시계열의 3D Scene Graph을 모델화하고, 이것을 공간 월드 모델에 학습시켰다.
이렇게 구축된 공간 월드 모델은 ‘누가’, ‘어떤 상황에서’, ‘어떤 의도를 가지고’, ‘다음에 어떻게 움직일지’를 공간 전체에서 추론할 수 있다. 실제로 카메라를 통해 사람의 행동이나 행동 목적을 추정하는 벤치마크 ‘JRDB‑Social’에서 타인의 행동 의도를 기존 대비 3배 높은 정밀도로 추정할 수 있다는 것을 확인했다고 한다.
공간 월드 모델에서는 사람이나 로봇의 행동 의도와 관계성을 파악한 다음에 미래를 예측한다. 그 결과, 사람이나 로봇이 오가는 복잡한 환경에서도 혼잡 회피, 충돌 회피, 경로 조정, 최적 작업 할당 등, 로봇의 협업 동작 계획을 생성할 수 있게 된다. CES 2026에서 공개했을 때에도 관람객들로부터 복수 로봇의 협동 동작 실현에 대한 기대의 목소리가 높았다고 한다.
공간 월드 모델을 연구·개발하고 있는 후지쓰의 공간로보틱스연구센터는 2025년 4월에 설립되었다. 이 센터에는 생체 인증, 행동 분석, 인물 추적 등에 대한 지식을 가진 연구자들이 많이 소속되어 있다. 이러한 지식은 사람의 행동 의도와 목적을 고려해 미래를 예측하는 공간 월드 모델 실현에 활용되었다.
후지쓰는 향후, 공간 월드 모델 기술을 상업 시설의 경비나 재난 지원, 자원 탐색 등에 응용할 계획이다. 올해 안에 가와사키(川崎)시에 있는 후지쓰 본사 사무실에서 실증을 진행할 예정이다. 현재는 활용 장면 별로 공간 월드 모델을 구축해야 하지만, “모든 활용 장면에 공통된 베이스를 만들고 용도에 맞게 최적화하는 루프를 돌릴 수 있도록 하고 싶다.”(아베 시니어 리서치 디렉터)라고 한다.
-- 끝 --
Copyright © 2026 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.