- PFN의 볼륨 캡처 시스템, 심층학습으로 '공간을 통째로 취득' -- 스튜디오 불필요, 배경도 재현
-
- CategoryAI/ 로봇·드론/ VR
- 기사일자 2022.10.25
- 신문사 Nikkei X-TECH
- 게재면 online
- Writerhjtic
- Date2022-10-31 21:34:12
- Pageview224
Nikkei X-TECH_2022.10.25
메타버스로 영상 혁명
PFN의 볼륨 캡처 시스템, 심층학습으로 '공간을 통째로 취득'
스튜디오 불필요, 배경도 재현
일본을 대표하는 AI(인공지능) 개발 스타트업기업인 프리퍼드네트웍스(Preferred Networks 이하 PFN, 도쿄)는 심층학습(딥러닝)을 활용한 독자적인 볼륨 캡처 시스템 ‘PFN4D Scan’을 개발했다.
타사의 시스템과 같이 전용 스튜디오는 불필요하다. 가반형 시스템으로, 실내뿐 아니라 실외에서도 실존 인물이나 인물의 움직임, 배경 등 공간 전체를 3차원(3D) 데이터로 통째로 캡처해 자유시점의 3D CG(컴퓨터 그래픽스) 동영상을 제작할 수 있다.
기존 시스템은 얼굴 표정이나 머리카락, 천의 질감 등 미세한 표현이 어려웠지만, 심층학습을 사용함으로써 현실 외형에 가까운 모습을 재현할 수 있다는 점도 큰 특징이다.
PFN은 이 시스템을 10월 26일~10월 28일에 개최되는 전시회 ‘제1회 메타버스 종합전 【가을】'(주최:RX Japan, 전시장: 마쿠하리멧세)에서 최초로 공개한다. 전시회에서의 반응을 보면서 향후 비즈니스 전개를 검토해나갈 방침으로, 미술관이나 유원지 등에서의 체험형 콘텐츠, 영상·CG 제작, 음악 라이브, 가상 공간 ‘메타버스’ 등에서의 이용을 상정하고 있다.
-- 기존과 전혀 다른 접근 방식 --
최근 몇 년 사이 국내에서 볼륨 캡처 전용 스튜디오를 개설하는 기업들이 속속 등장하고 있다. 캐논, 소니 그룹, NTT도코모, 소프트뱅크, NHK 방송기술연구소 등이다. 전용 스튜디오는 피사체의 인물 등을 배경에서 오려내기 쉽도록 녹색으로 배경이 통일된 공간을 둘러싸듯이 다수의 4K 카메라를 배치해 동영상으로 촬영을 한다.
그리고 카메라로 촬영한 영상으로부터 3D 형상을 나타내는 모델(폴리곤 메쉬 등)을 생성하고, 거기에 카메라 화상(텍스처)을 붙여 고품질화된 데이터 처리를 실시해 3D의 CG 모델을 만들 수 있다.
그러나 이와 같은 방식은 해상감이 거칠고, 복잡한 형상을 표현할 수 없으며, 천 등의 질감도 표현할 수 없다는 등의 약점을 가지고 있다. 이 때문에 얼굴의 클로즈업 등 '뷰티샷'에는 쓸 수 없다. 물론 폴리곤 메쉬의 입도를 세밀하게 해나가면 개선할 수 있지만, 그러면 필요한 계산량이 더 방대해지고 만다.
이러한 기존 방법과 달리 PFN은 전혀 다른 접근 방법을 채택했다. 각 장면의 입체 구조 및 시간 변화를 모두 심층학습 모델로 표현한 것이다. 단적으로 말하면, 다수의 화상을 뉴럴 네트워크에 입력해 학습시키는 것만으로 폴리곤 메쉬와 같은 명시적인 3D 모델을 거치지 않고 직접 자유 시점의 영상을 생성할 수 있다.
그 기반이 된 것이 구글 리서치와 미국 버클리 캘리포니아대학의 공동연구팀이 2020년 발표한 'NeRF(Neural Radiance Field)'라는 기술이다. PFN 4D Scan 개발을 담당한 PFN의 마쓰모토(松本) 엔지니어링 매니저 리서처는 “NeRF 등의 등장으로 최근 몇 년 사이 심층학습으로 도형을 표현하는 기술이 빠르게 진화하고 있다. 그 기세는 매년 세계를 바꾸는 정도의 것으로, 우리도 지금 개발하지 않으면 안 되겠다라고 생각했다”라고 개발 배경을 밝혔다.
그리고 “자세히 말할 수는 없지만, 우리의 기술은 NeRF를 베이스로 하며 그것을 독자적으로 발전시킨 것이다”라고 한다.
구체적으로는 3차원 공간의 XYZ 좌표에 대해 그 장소의 색상과 체적 밀도를 재생하는 예측 모델을 뉴럴네트워크로 표현한다. 예를 들어, 어떤 시점에서 물체를 보고 특정 장소에 무엇이 비치는지를 계산할 때 카메라로 촬영하고 있는 광선 상 좌표의 색상이나 체적 밀도를 뉴럴네트워크로 계산한다. 체적 밀도가 높은 곳에 물체가 있기 때문에 그 장소의 색상 정보와 조합하면 3D 모델이 완성되는 것이다.
-- 촬영 장비는 자동차 한 대로 옮길 수 있어 --
PFN 4D Scan의 하드웨어의 특징은 차량 1대로 옮길 수 있는 가반식 촬영 장치에 있다. 4K 동영상 촬영이 가능한 카메라(소니 'RX0Ⅱ')를 각각 10대 정도 장착한 프레임을 8대 제작해 그것을 촬영 대상에 맞추어 나열한다. 즉, 총 카메라 80대 정도로 촬영하는 것이다.
프레임 배치는 촬영 대상에 따라 각각 다르다. 촬영 범위는 좁아지지만 주위를 에워싸기도 하고, 부채꼴로 배치할 수도 있다. 전용 스튜디오에서 촬영해야 하는 기존 시스템과의 큰 차이점은 배경도 그대로 3D로 캡처한다는 것이다.
가반형 시스템이기 때문에 전용 스튜디오를 이용하는 시스템과 비교하면 비용은 월등히 낮다고 한다. “계산 처리를 하기 위한 컴퓨터 비용과 인건비를 제외하면 1천 수 백만엔 정도”(마쓰모토 리서처)라고 한다.
물론 과제도 있다. 동영상 렌더링에는 PFN이 보유한 슈퍼컴퓨터를 사용하지만, “예를 들면 유도 시합의 동영상 렌더링의 경우, 프레임 당 30분 정도 걸린다. 현재는 튜닝을 하고 있는 중이며, 향후에는 10분으로 줄일 수 있을 가능성이 있다”(마쓰모토 리서처)라고 하고 있다.
배경이 초록색인 경우 인물 등 피사체를 추출할 수 있기 때문에 계산 부하를 줄일 수 있지만, PFN의 시스템의 경우에는 배경도 전부 렌더링할 필요가 있기 때문에 계산해야 할 정보량이 커진다고 한다.
PFN는 향후 누구나 자신의 스마트폰으로 자유 시점 동영상을 볼 수 있는 세계의 실현을 목표로 하고 있다. 현재는 콘텐츠의 재생에 고성능의 GPU(화상 처리 반도체)를 탑재한 게임용 PC가 필요하지만, “앞으로는 재생의 고속화 및 효율화를 추진. ‘자유 시점 유튜브’와 같은 세계를 실현하고 싶다”라고 마쓰모토 리서처는 말한다.
-- 끝 --
Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.