책 커버 표지
일경일렉트로닉스_2020/08_소리도 초현실로 변화 -- 영상과 소리로 주위의 공간을 조정하는 세계
  • 저자 : 日経BP社
  • 발행일 : 20200720
  • 페이지수/크기 : 106page/28cm

요약

Nikkei Electronics_2020.8 Breakthrough요약 (p26~51)

소리도 초현실로 변화
영상과 소리로 주위의 공간을 조정하는 세계

제1부: 트랜드
어느 사이에 소리가 3D로/ 몰입, 그리고 현실 개변(改變)으로

2차원에서 3차원으로---. 전자기기로 재생되는 소리의 세계가 지금 크게 변화하고 있다. 그 견인 역할을 하는 것은 적은 스피커로 입체적인 소리를 들려주는 ‘캐주얼 3D 오디오(입체 음향)’이다. 이미 스마트폰이나 태블릿 단말기, TV 등에 비치되고, 온라인 전송 환경도 조성되어 가고 있다. 그 너머에는 영상과 소리로 주위의 공간을 조정하는 세계가 기다리고 있다.

소리의 세계는 지금, 조용하지만 커다란 변혁이 일어나려 하고 있다. 음성 재생이 주류였던 스테레오가 입체 음향으로 변화하고 있다.

그 핵심적인 역할을 하는 것은 TV나 핸드폰, 사운드 바와 같은 사용이 손쉬운 재생기기이다. 미국 Dolby Laboratories 및 미국 DTS와 같은 음성코덱 개발 대기업이 가전제품 제조사와 함께 기기로의 탑재를 추진하고 있으며 그 외에도 소니 및 애플 등이 헤드폰으로도 이용할 수 있는 입체 음향의 보급에 착수했다. 미국 넷플릭스(Netflix), 아마존닷컴 등의 대형 영상∙음악 스트리밍 서비스업체도 입체 음향 대응의 콘텐츠에 주력하기 시작했다.

-- 어느 사이에 3D로 --
지금까지 가정에서 입체 음향을 들으려고 하면, 전방의 좌우 가운데에 3개, 측면과 후방에 5개, 저음역을 재생하는 서브우퍼 1개, 그리고 천장에 스피커를 4개 배치하는 ‘7.1.4ch’ 등 스피커를 10대 이상 사용하는 것이 일반적이었다. 준비하는 기재가 복잡해 그야말로 마니아들을 위한 콘텐츠라고 할 수 있다.

그러나 지금, 그런 마니아용이었던 입체 음향을 대중화하는 입체 음향의 캐주얼화 움직임이 시작되고 있다. 포인트는 유저가 일부러 입체 음향 전용 기기를 구매하지 않아도 스마트폰이나 TV 등 주변 기기를 새로 교체함으로써 어느새 인가 이용할 수 있는 환경이 갖춰지게 된다는 것이다.

기존의 입체 음향의 재생 환경과 캐주얼 입체 음향의 재생 환경에 있어서 커다란 차이는 필요로 하는 스피커 수의 차이라고 할 수 있다. 캐주얼 입체 음향의 경우, 전후∙좌우∙상하 모든 방향에 있어서 어느 방향에서 소리가 들려오는 지를 알 수 있게 된다. 헤드폰에서도 마찬가지로 마치 머리 부분 가까이에 음원이 있는 것처럼 음원과 리스너의 위치 관계를 느낄 수 있게 된다.

-- 연산 성능의 향상으로 캐주얼화 --
-- 애플은 Airpods Pro’로 실현 --
-- 영화에서 음악, 게임으로 확대 --

-- 용도 확대, ‘소리의 AR’로 --

이처럼 3D 오디오(입체 음향)의 전송∙재생의 환경이 폭넓게 갖춰짐에 따라 영상, 음악, 게임과 같은 콘텐츠에 있어서 입체 음향은 스테레오로 바뀌는 새로운 음악 포맷으로서 침투되어 갈 것이 분명하다. 또한 그 이후에는 3차원만이 가능한 새로운 소리의 체험도 제공할 수 있게 될 전망이다.

특히 지금까지와 크게 다른 것은 소리의 방향이라는 새로운 정보를 부여할 수 있다는 것이다. 예를 들어 (1)새로운 음악 표현, (2)박물관∙역사적 건축물 등에서의 활용, (3)영상 회의, (4)음성 에이전트 등의 사용 방식을 실현할 수 있다.

(1)의 새로운 음악 표현이란 머리 위나 발 밑, 또는 몸 속 등 현실 세계에서는 불가능한 장소에서도 소리를 내게 한다는 것이다. 지금까지 음악 콘텐츠에서는 스튜디오나 라이브 공연장을 충실히 재현하는 것을 목표로 해왔다. 앞으로는 3차원적으로 소리를 배치해 이것들을 공간 안에서 이동시킴으로써 일상에는 없는 음장을 창출해 내는 새로운 아티스트가 탄생하게 될 것이다.

(2)의 박물관이나 역사 건축물에서는 전시물의 설명 및 당시의 정서가 담긴 경치를 재현하는 등에 사용할 수 있다. 구체적으로는 전시물의 방향으로부터 소리를 틀고 마치 전시물이 말하고 있는 것처럼 정보를 제공할 수 있을 뿐 아니라, 역사의 한 장면을 그 장소에 있는 것처럼 체험할 수 있게 하는 것이 가능하다. 이 때, AR(증강 현실)에 의한 재현 영상도 함께하면 당시의 정경(情景)의 재현도와 임장감(臨場感)을 줄 수 있다.

(3)의 영상 회의에서는 이제까지는 없었던 임장감을 제공할 수 있다. 현재의 영상 회의 시스템에서는 평면적인 음성이지만, 입체 음향으로 목소리를 서로 전달할 수 있다면 대화하고 있는 공간의 분위기를 전달하기 쉬워지며 목소리가 들리는 방향도 알 수 있으므로 상대가 마치 눈 앞에 있는 것과 같은 실재감을 얻을 수 있다.

(4)의 음성 에이전트는 애플의 ‘시리(Siri)’와 같은 보이스 에이전트를 주변으로 ‘소환’한다는 것이다. 마치 영화에 나오는 요정처럼 귓가에 정보를 속삭인다. 동일한 기술을 사용해 방향을 섞은 길안내 및 위험 접근을 알리는 내비게이션도 실현할 수 있다.

입체 음향의 침투와 더불어, 녹음 환경 및 오서링 툴(Authoring Tool), 음원도 갖춰져 간다. 현 시점에서는 상상할 수 없는 새로운 사용 방식이 새롭게 탄생할 가능성이 높다.

제2부: 용도
전송
방송은 캐주얼 하게/ 오락 시설은 고품격으로 진화

입체 음향이 주위로 퍼져나간다. 개인 사용으로는 영상 및 음악 전송, 방송 서비스에서 이며, 시설을 이용한 엔터테인먼트 서비스로는 영화관 및 콘서트 홀, 테마파크가 있다. 전자는 간소한 기기로 실현하는 ‘캐주얼 입체 음향’을, 후자는 다수의 스피커를 필요로 하는 ‘고품격 입체 음향’을 구사해 더욱 진화한다.

본격적인 입체 음향(고품격 입체 음향)에는 다수의 스피커가 필요하다. 소리를 ‘몸으로 느끼기 위해’ 사람 주위에 음장을 창출해내지 않으면 안 되기 때문이다.

하지만 가정에서는 서라운드에 필요한 5개의 스피커를 설치하는 것 또한 쉽지 않다. 밖에서 음악을 즐기기 위해서는 이어폰이나 헤드폰과 같은 수단 밖에는 없다. 그래서 제1부에서 말한 것처럼 간단한 기기로 입체 음향을 다루는 캐주얼 입체 음향에 기기 제조 업체들이 힘을 쏟고 있다.

고품격과 캐주얼---. 이 2가지는 소리를 즐기는 장소에 따라 그 쓰임새가 나눠진다. 전자는 영화관이나 극장, 테마파크와 같은 시설 전체에서 음장을 창출해 사람에게 비일상적인 느낌을 주는 장소. 후자는 일상에 있어서 사람들이 생활하는 장소이다.

캐주얼 입체 음향
캐주얼 입체 음향을 이용하는 서비스의 중심은 TV나 스마트폰, 태블릿 단말기용 영상 전송 및 게임이다. 미국 DTS의 ‘DTS:X’ 및 미국 Dolby Laboratories의 ‘Dolby Atmos’와 같은 입체 음향 형식에 대응한 영화 콘텐츠가 다수 전송되고 있으며 전송 플랫폼도 다방면에 걸쳐있다.

대응 서비스도 호조이다. 예를 들어 캐나다 IMAX와 DTS가 공동으로 영상과 음향을 인증하는 규격 ‘ IMAX Enhanced’ 대응 콘텐츠의 전송을 2019년 11월에 ‘TSUTAYA TV’에서 개시한 결과, “서비스 개시로부터 약 6개월만에 대응 타이틀 수가 4배 이상, 등록 유저 수도 3배로 늘어났다”(XPERI Japan(dts Japan) 스태프 엔지니어 팀 매니저 야마구치 씨)고 한다.

게임에서도 마찬가지다. 입체 음향 형식 중에서도 역사가 있는 Dolby Atmos에 대응한 게임뿐만 아니라, 미들웨어로서 게임 엔진에 탑재해 이용할 수 있는 야마하의 ‘Sound xR’ 등을 이용해 캐주얼 입체 음향에 대응한 게임이 등장하고 있다. 앞으로 입체 음향이 게임기에서 표준이 된다면 보다 다수의 콘텐츠가 등장할 것으로 보인다.

-- 22.2ch를 캐주얼 입체 음향으로 변환 --
-- 음악만이 가능한 3D 표현 --


고품격 입체 음향
복수의 스피커로 공간 전체에 음장을 만드는 고품격 입체 음향은 이미 다양한 장소에서 도입이 추진되고 있다. 그 한 예가 차재 오디오이다.

자동차는 고품격 입체 음향과 궁합이 잘 맞는다. 복수의 스피커를 인테리어에 내장할 수 있어 한 번의 설계로 동일한 차종에서 차내 음향 특성의 설정을 공유할 수 있기 때문이다. 좌석 등받이의 헤드레스트 등 귀에 가까운 위치에 스피커를 설치할 수 있는 매리트도 있다.

소니는 앞에서 말한 360 Reality Audio를 자동차에도 탑재하려고 하고 있다. 소니가 개발한 전기자동차(EV)의 시작차인 ‘VISION-S’의 차내 시트의 전방과 측방, 시트 부분 등에 대량의 스피커를 내장해 입체 음향을 구사하게 했다.

입체 음향을 재생할 수 있는 복수의 스피커를 갖춘 성능이 뛰어난 시판 자동차는 이미 등장하고 있다. 예를 들어 독일의 포르쉐(Porche)는 서브우퍼를 포함해 총 21개의 스피커를 차내에 배치하는 음향 시스템을 복수의 차종에 탑재하고 있다. 이 시스템에서는 벨기에의 Auro Technologies의 입체 음향 형식 ‘Auro-3D’에 대응한다. 미국 테슬라(Tesla)도 EV의 ‘모델3’ 등에서 서브우퍼를 포함해 15개의 스피커를 탑재하는 등, 차내 공간을 활용한 소리의 표현에 주력하고 있다.

자율주행 등의 기술 진화가 진전되는 가운데, 자동차의 본연의 모습도 달라진다. 소니 대표이사 겸 최고 경영책임자인 요시다(吉田) 씨는 2020년 1월의 ‘CES 2020’에서 “자동차는 새로운 엔터테인먼트 공간으로서 발전해 나갈 것이다”라고 말했다.

입체 음향의 창시자라고 할 수 있는 Auro Technologies 회장인 Baelen 씨도 “자동차 분야는 매우 중요하다”리고 말한다. 일본을 포함해 복수의 자동차 제조사와 Auro-3D에 대응한 음향 시스템의 도입을 추진하고 있다고 한다.

자동차에 있어서 입체 음향은 엔터테인먼트 이외에 부차적인 효과도 있다고 한다. “입체 음향 쪽이 더 릴렉스 할 수 있어 운전에 집중할 수 있게 해준다는 것이 확인되었다”(Baelen 씨). 그에 따르면 2008년에 Auro Technologies가 오스트리아 대학의 뇌 과학자와 공동으로 조사해 릴렉스 효과를 얻을 수 있었다고 한다.

-- 영화관 및 홀에서 음향 효과 활용 --
-- 여러 사람이 동시에 체험 가능 --


제3부: 기술
음성 포맷은 3방식/ 스피커는 가상화도 진전


입체 음향은 오브젝트(객체) 기반 방식, 채널 기반 방식, 씬(Scene) 기반 방식으로 나눠져 각각 개발이 진행된다. 이 같은 방식에 사람 귀의 음향 특성을 고려한 소리를 창출하는 기술을 조합함으로써 적은 스피커 개수로 입체 음향을 실현할 수 있다. 입체 음향의 보급을 위해 콘텐츠 제작 환경의 정비도 추진되고 있다.

재생 기술의 진보에 따라 입체 음향의 재생 환경이 갖춰져 왔다. 지금까지의 스테레오 및 서라운드에 비해, 문자 그대로 차원이 업그레이드 된 3차원 공간을 표현하게 된 것이 3D 오디오(입체 음향)이다.

입체 음향의 표현 방식에는 크게 3가지가 있다. (1)오브젝트(객체) 기반 방식, (2)채널 기반 방식, (3)씬(Scene) 기반 방식이다.

-- 음원에 메타 데이터를 부여 --
(1)의 오브젝트 기반 방식이란, 소프트웨어 상에서 3차원 공간에 음원을 배치해 어떻게 리스너의 귀에 들리는 지를 계산한 신호 처리를 추가함으로써 입체적으로 소리를 느끼게 하는 기술이다.

특징은 음원에 위치 좌표 등의 메타 데이터를 부여하는 것에 있다. 공간의 어느 장소에 배치할 지를 지정할 수 있으므로 음원이 어디서부터 도달하는 지를 콘텐츠 제작 측에서 만들 수 있게 된다. 예를 들어 가상 음원을 어디에 배치할 지, 거리 및 각도를 기반으로 3차원적인 방향 성분에 의해 위치 좌표(x,y,z)를 정해 그 위치로부터 소리가 들려오도록 콘텐츠를 제작한다.

이 메타 데이터에는 별도의 이용 방법도 있다. 예를 들어 방송 분야에서는 부음성 및 다언어 대응의 음성 데이터를 전송할 수 있다. 시청자 측에서 좋아하는 음성을 선택해 청취할 수 있게 되는 것이다. 스포츠 중계일 경우, 실화 중계자의 해설 및 코멘트를 바꾸거나 다른 언어로 지정하거나 할 수 있다. 배경 소리로서 스타디움 안의 여러 장소의 소리를 전송하는 사용 방법도 있다. 유저 측에서 좋아하는 팀의 환성만을 크게 할 수 있다.

-- 가상 음원 위치를 2D에서 3D로 --

-- 사전에 스피커에 소리를 할당 --

(2)의 채널 기반 방식이란, 사용하는 스피커 수 및 배치가 이미 정해져 있는 상태로, 각각 어느 스피커에서 소리를 내보낼 지를 콘텐츠 제작 시에 조정하는 방법이다.

오브젝트 기반과의 차이점은 소리를 렌더링(생성)하는 타이밍이다. 예를 들어 2채널의 스테레오 스피커의 경우, 좌우의 어느 쪽의 스피커로부터 소리를 어느 정도 음량으로 재생할 지 등을 제작 단계에서 미리 정해서 제작한다. 오브젝트 기반의 경우에는 재생 환경에 대응해 재생기 측에서 위치에 맞게 소리를 만들어낸다.

채널 기반 방식의 대표적인 예는 NHK방송기술연구소가 제창한 ’22.2ch 음향 시스템’이다. 가정용으로 스피커를 늘려 나갔던 멀티 채널형 입체 음향 시스템의 도달점이라고 할 수 있어 ‘이 이상 스피커를 늘려도 체감이 변하지 않는 수준’(NHK방송기술연구소)이라고 한다.

22.2ch 음향 시스템은 2012년에 국제전기통신연합(ITU)의 무선방송 부문인 ITU-R이 제시한 8K 방송에 있어서의 임장감 음향 방식의 요구 조건을 충족시킬 수 있게 NHK방송기술연구소가 시뮬레이션 해서 고안한 스피커 구조이다.

-- 환경음을 전천주(全天周) 마이크로 수록 --
오브젝트 기반이 가상적인 스피커를 공간 상에 설치해 가는 것과, 채널 기반이 물리적으로 존재하는 스피커에 소리를 할당해 가는 것에 반해, (3)의 씬 기반 방식은 어느 1점 둘러싼 소리를 그대로 기록하는 방식이다. 오브젝트 기반 방식으로는 재현이 어려운 ‘환경음’이나 ‘배경음’의 작업에 적합하다. 현실 세계에서는 모든 사물이 소리를 내고 있으며, 또한 주위의 물체에 반사한 소리도 들려온다. 만약 오브젝트 기반 방식으로 그것들의 음원을 모두 배치해 나간다면 무수한 소리가 필요해진다.

특히 360도 영상을 VR(가상 현실)용 HMD(Head Mounted Display) 등으로 시청할 경우, 얼굴 방향에 따라 소리의 들리는 방식을 바꾸는 방법으로 소리도 입체화시키는 것이 씬 기반 방식의 목적 중 하나다. 360도 카메라가 대중화되어 양안 입체시가 가능한 콘텐츠도 많아졌지만, 소리는 2채널의 스테레오 재생의 경우가 많았다. 이에 영상과 동시에 소리도 입체적으로 체감할 수 있게 하기 위해 이용되기 시작했다.

여기서 필요한 것은 주위 소리를 통째로 기록할 수 있는 전천주 마이크이다. 예를 들어 야마하의 ‘ViReal Mic’는 64개의 마이크를 내장한 구형의 마이크이다. KDDI 종합연구소가 ‘소리의 VR’ 콘텐츠 제작으로 사용했던 것은 19개 마이크를 탑재한 폴란드 ZYLIA의 ‘ZM-1’이었다.

마이크 수가 늘어날수록 공간의 임장감이 증가하지만, 대응하는 제품은 아직 많지 않다. 전천주 마이크를 실제로 사용할 경우, 360도 카메라와 동시에 사용해 영상과 소리를 동시에 수록하는 경우가 많다. 복수의 마이크를 탑재한 360도 카메라 제품도 나오고 있으나, 그 대부분은 마이크 개수가 4개 정도이다.

-- 2 스피커로 3D를 실현한다--
이처럼 입체 음향에는 3가지 표현 방식이 있지만, 오브젝트 기반과 채널 기반은 다수의 스피커를 전제로 하고 있다. 다만, 일반 유저는 자택에 다수의 스피커를 갖추는 것은 불가능하다. 이에 각 사가 주력하는 것이 스테레오 스피커나 헤드폰과 같은 작은 스피커로 가상으로 다수의 스피커를 창출하는 트랜스오랄(Transoral) 재생법인 것이다.

트랜스오랄 재생법은 앞에서 설명한 진폭 패닝과는 다르며, 사람 귀의 음향 특성을 두부(頭部)전달관수(HRTF)로서 알고리즘화 시켜 이것을 통한 소리를 2개의 스피커로 들려줌으로써 입체음을 만들어내는 방법이다.

-- 사람의 귀 형태에서 음향 특성을 계산 --
-- 제작 툴로 작업 단축이 가능할까? --
-- 게임 및 앱 개발에 직결 --


 -- 끝 --

Copyright © 2020 [Nikkei Electronics] / Nikkei Business Publications, Inc. All rights reserved.

목차