책 커버 표지
일경오토모티브_2021/12(3)_엔비디아, HMI를 매력적으로 -- 표현력 풍부한 음성 합성 기술 개발
  • 저자 : 日経BP社
  • 발행일 : 20211111
  • 페이지수/크기 : 90page/28cm

요약

Nikkei Automotive_2021.12 특집 요약 (p26-27)

엔비디아, HMI를 매력적으로
표현력 풍부한 음성 합성 기술 개발

미국 엔비디아(NVIDIA)가 표현력 풍부한 음성을 합성하는 기술을 개발했다. 특정 개인의 음성에 근거해 학습시키면, 임의의 텍스트 데이터를 그 사람의 목소리로 음성화할 수 있다. 아니면 어떤 사람의 음성을, 학습시켜 놓은 다른 사람의 목소리로 바꿀 수 있다. 여배우 같은 목소리의 휴먼 머신 인터페이스(HMI)를 만들 수도 있다. 차량탑재 대화형 HMI에 적용하면 고객체험(DX)을 보다 풍부하게 할 가능성이 있다.

기존 기술로 합성된 음성은 단조로웠다. 인간과 같은 복잡한 리듬이나 억양을 가한 것이 아니기 때문에 자연스러운 음성과 격차가 컸다. “(음성 합성 모델을 학습할 때 사용하는 음성 인식 모델에) 자연스러운 음성을 인식할 수 있는 모델이 없었던 것이 한 요인이다”(엔비디아 Vice President of Applied Deep Learning Research인 Bryan Catanzaro 씨).

“음성에 리듬이나 피치, 강약이 존재하면 다양성이 늘어나게 되고, 음성 인식 모델은 이러한 말을 잘 알아듣지 못한다. 그 때문에 기존에는 모노톤의 음성을 학습에 이용했었다”(Bryan 씨). 최근에 자연스러운 음성을 인식할 수 있는 모델이 등장하기 시작하면서 학습 데이터도 고도화할 수 있게 되었다. “다양성이 풍부한 학습 데이터로 교육함으로써 감정을 이해한 후에 음성 합성을 실시할 수 있게 되었다”(Bryan 씨).

엔비디아가 표현력 풍부한 음성을 합성할 수 있게 된 것은, 그러한 음성 인식 모델의 진화화 함께 2개의 Break through를 가능하게 했기 때문이다. 하나는 음성 데이터와 텍스트 데이터 사이에 어떤 문자와 어떤 음소를 시간적으로 일치시키는가 하는 얼라인먼트 작업을, 음성 합성 모델의 학습과 동시에 실행할 수 있는 새로운 프레임워크(얼라인먼트 프레임워크)를 개발한 것이다.

기존에는 음성 합성 모델을 학습하기 전에 얼라이너라는 외부 툴을 이용해 학습에 사용하는 음성 데이터와 텍스트 데이터의 얼라인먼트를 실행해야 했다. 그 때문에 학습에 사용하는 음성 데이터는, 얼라이너가 혼란스럽지 않을 정도로 복잡함을 억제할 필요가 있었다. 또한 얼라이너의 오류에 의한 신뢰성의 저하나 언어마다 얼라이너를 준비해야 하는 마이너스적인 면도 있었다.

새로운 얼라인먼트 프레임워크의 경우는 사전에 얼라인먼트를 실시할 필요가 없고, 음성 데이터와 텍스트 데이터를 음성 합성 모델에 직접 투입할 수 있다. 게다가 복잡한 음성 데이터 입력과 다국어에 대한 대응도 가능하고 신뢰성도 향상된다고 한다.

-- 분포를 배워 복잡성을 다룰 수 있도록 --
또 하나의 Break through는 여러 가지 음성 데이터 샘플에서 분포를 배우고, 그 분포에서 다양한 음성을 잘라 출력하는 구조를 고안한 것이다. “리듬이나 피치, 강약 등 음성에는 많은 다양성이 있고, 너무 복잡해 직접 모델화하는 것은 어렵다. 분포를 배움으로써 복잡성을 다룰 수 있게 되었다”(Bryan 씨).

그리고 이 분포를 배우기 위해서 엔비디아가 이용하고 있는 것은 Laurent Dinh 씨가 개발한 ‘플로우 기반 생성 모델’이라고 한다.

플로우 기반 생성 모델은 1개의 뉴럴 네트워크(NN) 모델만으로, 데이터의 샘플에서 분포를 출력하거나 분포에서 데이터의 샘플을 출력하는 등 쌍방향을 다룰 수 있다. 즉, 음성 데이터의 데이터 세트로 분포를 학습하고, 학습한 분포에서 샘플을 출력하고, 그 샘플을 이용해 반복 분포를 학습하는 자기 학습이 가능하게 된다. 정확히는 입력 데이터(피치, 리듬, 강도)와 목표 분포(가우스 분포 등 사용하기 쉬운 것으로 설정) 사이의 가역함수를 학습한다. “이를 통해 음성의 다양한 측면을 보다 많이 파악한 음성 합성 모델을 생성할 수 있다”(Bryan 씨).

“플로우 기반 생성 모델은 (이미지 인식 등에서 사용되는) 적대적 생성 네트워크(GAN)와 같은 일을 하고 있다. 다만 음성에 대해서는 GAN보다 우수하다. GAN은 복잡한 음성 데이터 세트를 다루는 데 과제가 있다”(Bryan 씨).

즉, GAN에서는 음성 합성용 NN 모델에서 생성한 음성을, 음성 식별용의 다른 NN 모델에 통과시켜 자연스러운 음성이라고 속일 수 있을 때까지 자기 학습을 반복한다. 2개의 NN 모델을 사용하기 때문에 부정합이 생겨 옵티마이저가 오류를 일으키는 케이스가 나온다. 플로우 기반 생성 모델에서는 1개의 NN 모델로 자기 학습을 반복하기 때문에 그러한 부정합은 생기지 않는다.

엔비디아가 이번에 개발한 음성 합성 기술은 이러한 얼라인먼트 프레임워크와 플로우 기반 생성 모델이라는 2개의 기술을 담아 구축한 학습 가능한 NN 모델이다. 엔비디아는 이를 ‘RAD-TTS’라고 부르며 자연언어처리(NLP)나 자동음성인식(ASR)의 각 NN 모델과 함께 오픈소스 툴 키트 ‘NeMo’로서 제공한다.

NeMo에는 이들 NN 모델을 학습시키거나 커스터마이즈하는 인터페이스가 포함되어 있다. NeMo에서 학습 및 커스터마이즈한 NN 모델은 NVIDIA의 GPU에서 효율적으로 실행할 수 있도록 최적화된다. NeMo는 자동차의 대화형 HMI 이외에도 헬스케어, 콜센터, 교육, 게이밍 등의 분야에서 활용할 수 있을 것으로 기대된다. 이미 실제 앱에 적용하거나 시험해 보는 기업도 나오고 있다고 한다.

 -- 끝 --

Copyright © 2020 [Nikkei Automotive] / Nikkei Business Publications, Inc. All rights reserved.

목차