Nikkei Electroincs

일경일렉트로닉스_2019/08_뜨고 있는 음성, 음성합성기술 용도 확대Nikkei Electroincs

저자 : 日経BP社
발행일 : 20190720
페이지수/크기 : 122page/28cm

요약

Nikkei Electronics_2019.8 Breakthrough 요약 (p26~45)

뜨고 있는 음성
음성합성기술의 용도 확대

제 1부: 트렌드
인위적으로 만들어진 음성이 산업 전체로, 권리화를 위한 움직임도

음성 합성 기술의 용도가 확대되고 있다. 음성을 이용해 제품 및 서비스 가치를 높이려는 기업들이 늘고 있기 때문이다. 뿐만 아니라 음성 자체나 음성 합성 엔진을 유통시키는 플랫폼 비즈니스도 등장했다. 그러한 상황 속에서 음성 소유자의 권리 확립을 위한 움직임도 보이기 시작했다.

텍스트 정보로부터 음성을 인공적으로 생성하는 음성 합성(Text-to Speech) 기술이 폭넓은 산업에 변화를 가져오고 있다. 기술의 진화에 따라 용도가 확대되고 있을 뿐만 아니라, 음성 자체나 합성기(합성 엔진)를 유통시키는 새로운 비즈니스 모델이 등장하거나 음성에 관한 권리 확립을 위한 대응이 시작되고 있다.

용도의 확대에 대해서는 억양이나 감정 표현 등 인간에 가까운 ‘자연스런 말투’가 실현될 수 있었던 것이 뒷받침이 되고 있다. 기존의 음성 합성 기술에 의한 합성 음성은 ‘인공적인’, ‘기계적인 말투’라고 표현 되었듯이 억양이나 감정 표현 등이 부족해 콜 센터의 자동응답 등의 용도로 사용되고 있었다. 그러나 ‘실제 사람이 말하는 것과 같은 음성’에 근접해져 최근에는 커뮤니케이션 로봇이나 디지털 사이니지(Digital Signage), TV/라디오 방송, 공공 교통기관의 각종 안내 등 다양한 분야에 보급되고 있다.

뿐만 아니라, 음성 합성 기술에 관련된 기술로서 악곡(가사나 음계 등의 정보)에 맞춘 가성(歌声: 노랫소리)를 생성하는 가성(歌声) 합성기술 및 가성을 다른 사람의 것으로 바꾸는 성질(声質) 변환기술에 대해서도 연구개발 및 실용화의 움직임이 가속화되고 있다. 엔터테인먼트 업계를 중심으로 이용자 쪽에서 음성 합성 기술을 채택하는 기업도 늘어나고 있다.

일반적으로 인간이 오감을 통해 얻고 있는 정보 중 80% 이상은 시각에 의한 것이라고 한다. 그러나 시각 정보를 표시하는 공간 및 시각 정보로서 표현할 수 있는 내용은 한정되어 있다. 시각으로는 전달할 수 없는 정보 및 가치를 제공하는 수단으로서 음성 합성 기술 및 그 관련 기술이 주목을 받고 있는 것이다.

-- 위기인가, 아니면 찬스인가 --
음성 합성 기술에 의해 음성이 인간의 신체로부터 ‘독립’하게 될 경우, 음성 자체나 음성 합성 엔진을 시스템의 ‘부품’으로서 유통시키는 것이 가능해진다. 그런 비즈니스 모델의 구상 자체는 과거에도 있었으나, 음성을 수집∙활용하기 위한 단말기로서의 기능도 갖추고 있는 스마트폰의 보급 및 그 인프라가 되는 클라우드 컴퓨팅의 비용이 저렴해지면서 빠르게 현실화되고 있다.

음성 및 합성 엔진이 시장에서 유통된다면 지금까지 없었던 갈등이 새롭게 발생될 것으로 예상된다. 예를 들어, 합의되지 않은 범위에서 자신의 음성이나 음성으로 작성된 합성 엔진이 도용 당하는 경우를 들 수 있다. 이른바 ‘페이크 뉴스(허위 정보)’ 및 사기 등에 악용될 우려가 있다.

음성 합성 기술에서는 기본적으로 어떤 내용이든 말을 하게 할 수 있으므로 실제로는 말하지 않은 것을 마치 말한 것처럼 위장하는 것 또한 가능하다. 과거에는 앞에서 말한 바와 같이 억양이나 감정 표현 등의 부자연스러움 때문에 음성 합성 기술을 비교적 간단히 알아차릴 수 있었으나, 앞으로 품질이 향상되면 그것을 분별해 내기가 어려워진다.

이 같은 상황은 성우나 나레이터, 가수 등 목소리를 직업으로 삼는 사람들에게는 위기일 수도 있으나 반대로 찬스일 수도 있다. 여기에서 말하는 위기란 ‘합성 음성에 의해 일자리를 빼앗기는 것’을 가리킨다. 한편, 음성 합성 엔진만 있다면 얼마든지 자신의 음성을 만들어 낼 수 있기 때문에 할 수 있는 업무량이 비약적으로 늘어날 수 있다는 점에서는 찬스가 될 수도 있다. 본인은 ‘육성’ ‘라이브 노래’가 요구되는 업무에 주력하고 그렇지 않은 업무에는 합성 음성으로 대응할 수 있어 수익증가로 이어질 가능성도 있다. 음성에 관한 권리 확립을 목표로 한 단체가 성우 사무소나 광고 대리점 등을 중심으로 설립되는 등 그러한 미래를 내다본 움직임도 나오고 있다.

-- 가성(歌声: 노랫소리) 합성 및 성질(声質)변환도 채택 --
-- 합성과 수록을 구분해서 사용 --
-- 플랫폼 비즈니스를 전개 --
-- 공통적인 규범이 필요 --

제 2부: 음성 합성 기술
심층 학습과 기존 수법이 융합, 라이브 감과 다양성을 양립

음성 합성 기술은 시대의 요구에 부응하는 형태로 진화해 그 용도 또한 확대되어 왔다. 현재는 심층학습 기술의 활용에 대한 관심이 높아지고 있다. 음성 합성 기술 그 자체의 진화에 그치지 않고 제어나 센싱과 같은 기술과의 조합을 통해 음성 능력을 한층 더 끄집어 내려는 움직임도 늘고 있다.

‘인공적인 기계 음성’에서 ‘마치 사람이 말하고 있는 것 같은 음성’으로---. 텍스트 정보로부터 음성을 인공적으로 생성하는 음성 합성(텍스트 음성 합성, Text-to Speech) 기술의 용도가 확대되고 있는 배경에는 ‘자연스러운 말투’를 실현하는 등 꾸준한 기술의 진화가 있다.

NTT 테크노크로스(TechnoCross, 도쿄) 미디어 이노베이션사업부 제2비즈니스유닛 매니저인 도리이(鳥居) 씨에 따르면, 음성 합성 기술은 시대의 요구에 부응하기 위해 진화를 거듭해 온 역사가 있다고 한다. 그 대략적인 흐름으로는 과거에 주류였던 ‘파형 접속형’의 약점을 해소하기 위해 통계적 수법인 Hidden Markov Model을 적용한 ‘HMM형’의 보급이 진전되어 현재는 양쪽의 특징을 두루 갖춘 심층학습 기술을 적용한 ‘DNN형’이 등장했다. 그러나 기존 수법이 새로운 수법에 의해 당장 쓰이지 않게 되는 것이 아니라, 당분간 용도에 따라 구분해서 쓰이게 될 전망이다.

-- 역사적으로 요구에 지속적으로 부응해 왔다 --
-- 구글의 참여로 심층학습 기술 각광 --
-- 상황에 따라 말하는 내용이 변화 --

제 3부: 가성 합성 기술
‘자연스러움’보다 ‘개성’ 중시, ‘사람’을 지향하는 것이 아닌 자유로운 가창으로

기계학습 덕분에 생성된 목소리의 질이 향상된 것은 가성 합성 기술에서도 같다. 그러나 보다 자연스런 가성(노랫소리, 歌声)을 낼 수 있게 되더라도 단순히 사람의 가성에 근접해지는 것만이 가성 합성 기술의 목표는 아니다. 사람이 표현할 수 없는 뛰어난 음성 및 속도로 가창하거나 사람이 생각지도 못했던 노래 방식을 하는 등 가성의 다양성을 창출하는 방향으로 진화되기 시작했다.

음성 합성 기술을 크게 발전시킨 기계학습은 말하는 단어뿐만 아니라 ‘가성’에도 변화를 가져다 주고 있다. 음성 학습 기술이 억양이나 감정을 표현할 수 있게 된 것처럼 가성 합성 기술에 있어서도 성질(声質)이나 표현 방법이 향상되어 생성된 가성을 보다 인간의 가성에 가깝게 만들 수 있게 되었다.

원래 가성 합성 시스템은 음성 합성과 크게 다르지 않다. 예를 들어, 통계 모델을 이용한 가성 합성 엔진에서는 가성 및 멜로디(음계), 가사 등의 정보를 이용해 가성의 파형과의 대응 관계를 사전에 학습시켜 통계 모델을 작성한다. 음성 합성 엔진과의 차이는 음성 언어를 학습시키는가 아니면 가성을 학습시키는가 이다. 가성을 생성할 때는 악곡의 가사와 더불어 멜로디 정보 및 가이드(guide)곡의 음성 데이터를 입력해 파형을 출력한다.

-- ‘기계 음성’에서 ‘사람 음성’으로 --
얼마 전에 붐이었던 HMM(Hidden Markov Model)을 이용한 기계학습에 의해 어느 정도 자연스러운 가성에 근접해졌다고는 하지만, 음성 합성처럼 ‘기계가 노래하는 듯한 목소리’가 되고 만다. 반대로, 그런 특징적인 가성(歌声)을 개성으로 인식하는 사용자도 많이 있었지만, 가성의 품질을 향상시켜 보다 인간의 가성에 가깝게 하려는 수요도 많았다. 거기서 도입한 기술이 심층학습(딥러닝)이다.

예를 들어, HOYA가 개발한 가성 합성 엔진은 HMM으로 작성한 통계 모델을 사용하면서도 그 이후에 DNN(Deep Neural network)을 통해 원조 음성으로 작성한 포스트필터를 덮어씌워 보다 자연스러운 가성을 실현시켰다. “HMM만으로는 기계적인 가성이 되고 만다”(HOYA MD부문 ReadSpeaker SBU기술그룹 오누마(小沼) 씨).

나고야공업대학 발(發) 벤처로 음성 합성∙가성 합성 기술을 취급하는 테크노 스피치는 심층학습으로 음질이나 노래방식의 습관 등을 학습시켜, 보다 자연스럽게 사람의 가성을 실현할 수 있는 가성 합성 엔진을 2018년 12월에 발표했다.

이 가성 합성 엔진 중에서는 통계 모델 부문과 파형을 생성하는 보코더 부분에 심층학습을 사용한다. 통계 모델 부문에서는 지금까지 이용하고 있었던 HMM에서 심층학습으로 변경함으로써 모델화의 정밀도가 향상되어 보다 자연스러운 노래를 실현할 수 있었다. 보코더 부분에서는 미국 구글 산하의 영국 딥마인드가 개발한 ‘WaveNet’을 사용함으로써 생성되는 음성의 질을 크게 향상시킬 수 있었다.

일반적으로는 통계 모델의 작성에만 심층학습을 사용하는 경우가 많다. 왜냐하면 WaveNet은 필요로 하는 리소스가 커서 합성 엔진마다 튜닝에 신경 써야 할 필요가 있기 때문에 도입이 비교적 어렵다는 것이 이유 중 하나였다. 그렇지만 보코더에 심층학습을 이용하는 장점은 크다. “어느 쪽이든 하나를 변경한 경우에도 가성에 대한 평가는 향상되었으나, 겸용하는 것을 통해 높은 평가로 이어졌다”(테크노스피치 대표이사역으로 나고야공업대학대학원 교수인 도쿠다(徳田) 씨.

-- 인공지능(AI) 여고생이 메이저 무대 데뷔 --
-- 사람이 생각하지 못한 노래 방식이 매력적 --
-- 음성 합성의 매력은 ‘표현과 다양성’ --
-- 고인의 가성을 음원(音源)을 통해 재현 --
-- 새로운 기능으로 유저 확대를 노린다 --
-- 사용하기 쉬운 전자악기를 목표로 --

제 4부: 성질(声質) 변환 기술
사람 목소리를 ‘똑같이 흉내 낸다”, 음성 합성과 태그로 용도 대폭 확대

최근에 와서 ‘목소리를 바꾸는’ 수요가 급속도로 확대되고 있다. 이전에는 효과를 넣어 다른 목소리로 변환하는 경우가 많았지만 한정된 용도였다. 그러나 성질 변환 기술의 진화에 의해 다른 사람의 목소리로 똑같이 변환시킬 수 있다는 또 다른 방향성이 제시되었다. 또한 음성 합성과 조합시킨 새로운 수요가 창출되고 있다.

성질(声質) 변환 기술은 음성을 가공하는 ‘보이스 체인저’ 이외에 새로운 수요를 확보하기 시작했다. 예를 들어 테마파크 및 대규모 이벤트에서의 활용이 있다. 지금까지는 애니메이션이나 영화의 등장인물의 인형을 사용해 대화를 할 경우, 등장인물의 목소리로 말하는 것은 어려웠다. 성질 변환 기술을 이용해 나레이터의 목소리를 등장인물의 목소리로 변환시킬 수 있다면 테마파크의 세계관 및 내방객의 체험 퀄리티를 보다 향상시킬 수 있다. 그 외에도 샤프의 ‘로보혼(RoBoHon)‘처럼 음성 합성 및 가성 합성으로 생성된 음성을 다른 사람의 음성으로 바꾸는 용도 또한 주목을 받기 시작했다.

-- 목소리를 바꿀까, 목소리를 흉내 낼까 --
성질(声質) 변환으로 불리는 기술은 크게 2가지로 나눌 수 있다. 하나는 이전부터 보이스 체인저로서 알려진 기술이다. 목소리를 가공해 로봇 음성이나 모자이크가 된 것 같은 목소리로 변환한다. 이용자 자신의 목소리를 본인의 목소리라고 인식되지 않게 바꾸는 것이 주된 목적이었다.

또 하나는 심층학습 등을 이용한 성질 변환 기술이다. 말하는 사람의 음색의 특징량 등을 변환시켜 어느 특정 사람의 목소리와 똑같이 흉내 낸 목소리를 출력하는 것이다. 앞에서 말했던 것처럼 인형 목소리를 나레이터가 담당할 경우에 이 기술이 사용된다. 실시간으로 변환하기 위해서는 저(低)지연인 것이 중요해진다. 심층학습 등을 이용함으로써 변환 정밀도가 향상되고 지연도 줄일 수 있게 되어 실용적으로 가능하게 되었다. 이 성질 변환 시스템을 이용하는 순서는 크게 2가지로 부분으로 나눠진다.

먼저, 변환에 이용되는 통계 모델의 작성을 시행하는 사전 학습부분이 있다. 변환원(變換元)인 화자A와 변환 후의 목소리를 가진 화자B의 2명이 같은 문장을 읽은 음성을 수록한다. 다음은 이 2가지 음성 데이터를 학습시켜 특징량의 추출 등을 시행해 화자A의 목소리의 특징량을 화자B의 특징량으로 변환할 수 있게 한다. 실제 운용할 경우에는 이 통계 모델을 사용한 성질 변환 시스템을 사용해 화자A의 음성 데이터를 입력하게 되면 음색을 화자B로 변환시킨 음성 파형을 생성해 출력할 수 있다.

-- ‘GAN’으로 변환 정밀도 향상 --
도쿄대학 대학원 정보이공학계 연구과 시스템정보학 전공교수인 사루와타리(猿渡) 교수 팀의 연구실은 DMM.com과 추진하는 사회연대 강좌에서 실시간으로 다른 사람의 목소리로 변환할 수 있는 음성 변환 시스템을 개발했다.

성질 변환의 정밀도를 높이기 위해 음성 변환 모델의 학습에는 영상 생성 및 로봇의 동작 생성에 있어서 성과를 올리고 있는 ‘GAN(Generative Adversarial Networks, 적대적 생성 네트워크)를 응용했다. 생성된 음성을 음성 식별용의 별도의 DNN(Deep Neural Network)을 통해 감쪽같이 다른 사람 목소리로 변환시킬 수 있을 때까지 음성을 여러 번 생성하는 수법으로 자기학습을 반복한다.

-- 민생 용도로 앱 제공 시작 --
-- 출력부, 파형 생성 기술도 진화 --
-- 라이브 목소리와 성질(声質) 변환한 목소리를 혼합 --
-- 영화의 더빙을 ‘라이브 목소리’로 --

-- 목소리의 사칭 대책은 ‘제자리 걸음’ --
음성 합성 및 성질 변환에 의한 목소리의 사칭에 대한 우려는 1999년부터 제창되어 왔으나, 최근의 정밀도 향상에 따라 예전보다 주목을 받고 있다. 영상 분야에서는 심층학습을 이용해 ‘페이크 뉴스’를 만들어 내는 기술이 문제가 되고 있지만, 음성 분야에서도 마찬가지이다. 국제학회에서는 합성음성의 검출 및 판정 기술의 워크숍도 개최되고 있으나, “악용하는 상대와는 어떻게 해도 ‘다람쥐 쳇바퀴 돌 듯’ 해결책을 찾기 힘들다”(테크노 스피치 대표이사 겸 나고야공업대학 대학원 교수인 도쿠다(徳田) 씨).

목소리의 사칭에 대한 대책은 앞으로도 연구가 계속될 전망이다.

-- 끝 --

전기전자/정보통신

요약

목차