일본산업뉴스요약

[메타버스로 영상 혁명] 사이버에이전트, 리얼 3D 아바타 연구소 개설 -- 실제 사람 같은 캐릭터를 실시간 생성
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2021.12.10
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2021-12-16 20:44:15
  • 조회수269

Nikkei X-TECH_2021.12.10

메타버스로 영상 혁명
사이버에
이전트, 리얼 3D 아바타 연구소 개설
목적은 실제 사람 같은 캐릭터를 실시간 생성

사이버에이전트(도쿄)는 AI(인공지능) 기술의 연구개발 조직 ‘AI Lab’에서, 심층학습에 근거한 사실적인 인체 표현을 실현하기 위해 CG(컴퓨터 그래픽스) 연구 전문 조직 ‘디지털휴먼연구센터’를 21년 10월에 개설했다. 이 조직의 기술고문으로는 CG 연구 분야에서 국내외에서 높은 평가를 받고 있는, 와세다대학 이공학술원 모리시마(森島) 교수가 맡았다. 디지털휴먼연구센터의 대응과 디지털 휴먼 연구의 최신 동향 등에 대해 물었다.

Q: 이번에 사이버 에이전트인 디지털휴먼연구센터의 기술 고문으로 취임하게 된 경위가 궁금하다.

A: 최근에는 사실적인 캐릭터의 CG를 생성하는 다양한 기술이 갖춰지기 시작했다. 노력만 들이면 리얼리티를 얼마든지 추구할 수 있는 시대가 되었다.

그러나 새로운 캐릭터를 도입할 때마다 매번 오랜 시간을 투자해 디자인을 하는 것은 비효율적이다. 어떻게 하면 노력을 들이지 않고 가능한 한 자동적으로 CG를 생성하는가가 중요하다고 생각한다. 그래서 우리 연구실에서는 이전부터 1장의 이미지에서 모델을 생성하는 것을 집중 연구하고 있다. 예를 들면, 18년에는 1장의 셀카 사진에서 3D 입체 이미지를 생성하거나 얼굴 형상이나 빛의 반사 특성(알베도, 스페큘러, 디스플레이스먼트) 등을 재현하는 연구를 해 왔다. 또한 19년에는 1장의 전신 이미지에서 옷을 입은 상태의 3D 형상의 복원과 원래 이미지에 비치지 않은 반대 측의 텍스처를 추정하는 기술을 발표했다. 그런 배경에서 이번에 사이버 에이전트의 기술고문을 맡게 되었다.

구체적인 대응을 예로 들면, 사이버에이전트가 설립한 CyberHuman Productions가 개발한, 트럭을 이용한 출장 대응 스캔 시스템 ‘THE AVATAR TRUCK’에서는 정지한 상태에서의 얼굴 형상이나 반사 특성, 표면의 요철은 계측할 수 있다. 그러나 시간의 변화, 즉 그 사람다운 표정의 동적인 변화를 계측하는 것은 향후의 연구 과제다.

또한 최근에는 AI를 이용해 동영상 속 인물의 얼굴을 다른 인물의 것으로 바꾸는 '딥 페이크' 기술이 발달했다. 앞으로는 가짜 캐릭터가 TV나 유튜브에 등장해 장난을 치는 일도 만연할 가능성이 있다. 그래서 딥 페이크 이미지를 검출해서 파괴하는 기술도 연구 대상으로 삼고 있다. 예를 들면, 초상권이 있는 인물의 이미지를 딥 페이크로 처리하려고 하면, 그런 이미지를 못하도록 만들어 놓고 파괴하는 기술이다. 이처럼 디지털 휴먼의 생성과 방어라는 두 기술에 대응해 나갈 것이다.

Q: 디지털 휴먼의 완성도를 높여가면 어떤 일이 실현되나?

A: 사이버 에이전트가 생업으로 삼는 광고의 세계에서는, 지금까지는 스튜디오에서 수록해서 방송하는 텔레비전 전용의 CM이 주류였다. 그러나 인터넷의 시대가 되면서 인터랙티브 콘텐츠에 액세스할 수 있게 되었다. 앞으로 디지털 휴먼의 기술이 발전하면, 실시간으로 반응하며 개개인의 취향을 반영한 캐릭터가 등장하게 될 지도 모른다.

현재의 CG 기술은 캐릭터가 움직이는 즉시 CG라는 것을 아는 수준이다. 정말 실제 사람처럼 움직이기 위해서는 얼굴에 주름이 잡히거나 얼굴에 미묘한 음영이 생기는 등 세세한 변화를 충실히 재현할 수 있어야 한다. 우리의 최종 목표는 인간으로서의 생기를 느낄 수 있는 캐릭터로 만드는 것이다.

또한 그 캐릭터를 유저가 좋아하는 시점, 즉 자유 시점에서 볼 수 있도록 하는 것도 중요하다. 이러한 것들을 실현할 수 있다면, 동영상 콘텐츠의 시청률이 지금보다 높아져 비즈니스에 도움이 될 것이다.

인간의 표정 변화도 파악할 수 있는 기술로는, 다수의 카메라로 촬영한 동영상에서 3D의 CG 모델을 생성하는 볼루메트릭 캡처(Volumetric Capture)라는 기술이 있다. 그러나 현시점에서는 데이터의 양이 방대해지는 등의 과제도 남아 있다.

현재는 전용 스튜디오에서 촬영하는 등 이용이 한정적이지만 앞으로는 1대의 스마트폰으로 찍으면 볼루메트릭 캡처와 같은 3DCG를 작성할 수 있게 될 것이다. 이미 연구 차원에서는 다양한 대응이 있다. 아마 5년이 지나면 실용화가 현실화 될지도 모른다.

사람의 신체 움직임을 데이터화하는 모션 캡처도, 연구 차원에서는 1대의 카메라 동영상에서 AI로 3D 골격의 움직임을 정밀하게 추정하는 것이 가능해지기 시작했다. 이것과 비슷한 일이 일어날 것이다.

예를 들면, 우리 연구실이 개발해서 컴퓨터비전 국제회의 ‘ICCV 2019’에서 발표한 ‘PIFu(Pixel-aligned Implicit Function)’라는 기술에서는, 심층학습을 사용해 인물의 1장의 전신 사진에서 점군 데이터(포인트 클라우드)와 텍스처를 추정해 3D의 CG 모델을 생성할 수 있다. 3장의 사진이 있으면 추정 정밀도는 더 높아진다.

다양한 바리에이션의 옷을 입고 임의의 포즈를 취하고 있는 범용적인 데이터 세트가 있다. 때문에 3D 형상의 정답치와 자유로운 조명 환경 하에서 렌더링한 이미지를 트레이닝 데이터로서 뉴럴 네트워크에 입력해 학습시키면 3DCG가 몇 초 만에 생성된다.

하이엔드 GPU를 탑재한 하이 스펙 컴퓨터를 사용하면 실시간 생성도 꿈이 아니다. 그렇게 되면, 앞으로는 온라인 회의에서 이야기하고 있는 사람의 3DCG를 그 자리에서 생성해서 동작을 충실히 재현한 리얼한 영상을 만들 수 있게 될 것이다. 원격 진료로 의사가 환자를 현재의 2D 영상보다 더 자세히 볼 수 있게 될지도 모른다.

최근 ‘CVPR’을 비롯한 컴퓨터 비전에 대한 세계 최고 수준의 국제회의에서는 자유 시점 영상 자동 생성 기술이 뜨거운 토픽 중 하나다. 특히 최근 기술에서 주목을 받고 있는 것이 'NeRF(Neural Radiance Field)'다. 이는 볼루메트릭 캡처와 같은 명시적인 3D 모델을 매개체로 사용하지 않고 직접 자유 시점 영상을 만드는 기술이다.

여러 이미지를 뉴럴 네트워크에 입력해서 학습시키는 것만으로 자유 시점 영상을 생성할 수 있다. 아직 연구 레벨의 기술이지만 학습의 효율화, 리얼타임화, 고화질화를 실현하기 위해 활발하게 연구가 진행되고 있다. 차기 Break through라고 할 수 있다.

이러한 기술의 개발에는 구글이나 메타(구, 페이스북) 등 미국의 열강이 주력하고 있기 때문에 진화의 속도는 빠를 것이다. 일본도 지지 않기 위해서는 그들을 따라가지 않으면 안 된다.

 -- 끝 –


Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록