해동일본기술정보센터 | 해동일본기술정보센터

NVIDIA가 HMI를 매력적으로 구현 표현력 풍부한 음성합성 기술을 오픈소스화

카테고리AI/ 로봇·드론/ VR
기사일자 2021.10.1
신문사 Nikkei X-TECH
게재면 online
작성자hjtic
날짜2021-10-07 21:06:06
조회수444

Nikkei X-TECH_2021.10.1

NVIDIA가 HMI를 매력적으로 구현
표현력 풍부한 음성합성 기술을 오픈소스화

미국 NVIDIA(엔비디아)가 표현력 풍부한 음성을 합성하는 기술을 개발했다. 특정 개인의 음성을 기반으로 학습시키면, 임의의 텍스트 데이터를 그 사람의 목소리로 음성화할 수 있다. 또는, 특정인의 음성을 학습시켜 다른 사람의 목소리로 바꿀 수 있다. 여배우 같은 목소리의 휴먼머신인터페이스(HMI)를 만들 수도 있다. 차량 탑재의 대화형 HMI에 적용하면 보다 풍부한 고객체험(DX)을 할 수 있을 가능성이 있다.

기존 기술로 합성된 음성은 단조롭고 인간처럼 복잡한 리듬이나 억양을 추가한 것이 아니라 자연스러운 음성과는 거리가 멀었다. 엔비디아의 Vice President of Applied Deep Learning Research(딥러닝 응용연구 담당 바이스 프레지던트)의 브라이언 씨에 따르면, “(음성합성 모델의 학습 시에 사용하는 음성 인식 모델에) 자연스러운 음성을 인식할 수 있는 모델이 없었다”는 것이 그 요인 중 하나였다.

“음성에 리듬이나 피치, 강약이 존재하면 다양성이 늘어나, 음성 인식 모델이 말을 알아듣기 어려워진다. 그런 이유로, 기존에는 모노톤의 음성을 학습에 이용하고 있었다”(브라이언 씨). 최근에 자연스러운 음성을 인식할 수 있는 모델이 등장함으로써 학습 데이터도 고도화될 수 있게 되었다. “다양성이 풍부한 학습 데이터로 교육함으로써 감정을 이해한 후에 음성합성을 실시하는 단계를 밟을 수 있게 되었다”(브라이언 씨)라고 한다.

엔비디아가 표현력이 풍부한 음성을 합성할 수 있게 된 것은 그러한 음성 인식 모델의 진화와 더불어, 2가지 돌파구를 찾았기 때문이다. 하나는 음성 데이터와 텍스트 데이터 간에 어떤 문자와 어떤 음소를 시간적으로 일치시키는가와 같은 얼라인먼트(정렬) 작업을 음성합성 모델의 학습과 동시에 실행할 수 있는 새로운 프레임워크(얼라인먼트 프레임워크)를 개발한 것이다.

기존에는 음성합성 모델을 학습하기 전에 얼라이너(Aligner)라는 외부 툴을 이용해 학습에 사용하는 음성 데이터와 텍스트 데이터의 얼라이먼트를 실행해야 했다. 그 때문에, 학습에 사용하는 음성 데이터는 얼라이너가 혼동되지 않을 정도로 복잡함을 억제할 필요가 있었다. 또한, 얼라이너의 결함에 의한 신뢰성 저하 및 언어별로 얼라이너를 준비하지 않으면 안 된다고 하는 마이너스 면도 있었다.

새로운 얼라인먼트 프레임워크에서는 사전에 얼라인먼트를 실시할 필요가 없으며, 음성 데이터와 텍스트 데이터를 음성합성 모델에 직접 투입할 수 있다. 뿐만 아니라, 복잡한 음성 데이터의 입력 및 다언어로의 대응도 가능하며, 신뢰성도 향상된다고 한다.

-- 분포를 학습함으로써 복잡성을 다룰 수 있게 --
또 하나의 돌파구는 여러 가지 음성 데이터의 샘플로부터 분포를 학습해, 그 분포로부터 다양한 음성을 도출하여 출력하는 구조를 고안한 것이다. 카탄자로 씨는 “리듬 및 피치, 강약 등 음성에는 많은 다양성이 있으며 상당히 복잡하여 직접 모델화하는 것은 어렵다. 분포를 학습함으로써 복잡성을 다룰 수 있게 되었다”라고 설명한다.

그리고, 이 분포를 학습하기 위해서 엔비디아가 이용하고 있는 것이 딘 씨가 개발한 ‘플로우(Flow) 기반의 생성 모델’이라는 것이다.

플로우 기반의 생성 모델은 1개의 뉴럴 네트워크(NN) 모델만으로, 데이터의 샘플로부터 분포를 출력하거나 분포로부터 데이터의 샘플을 출력하는 등 쌍방향을 취급할 수 있다. 즉, 음성 데이터의 데이터 세트로부터 분포를 학습해, 학습한 분포를 통해 샘플을 출력하고, 그 샘플을 이용하여 반복 분포를 학습하는 자가학습이 가능해진다. “이에 따라, 음성의 다양한 측면을 보다 많이 파악한 음성합성 모델을 생성할 수 있다”(카탄자로 씨)라고 한다.

플로우 기반의 생성 모델은 (화상 인식 등에서 사용되는) 적대적 생성 네트워크(GAN)와 같은 일을 하고 있다. 다만, 음성에 대해서는 GAN보다 우수하다. GAN은 복잡한 음성의 데이터 세트를 취급하는 것에 과제가 있다”라고 카탄자로 씨는 설명한다.

다시 말해, GAN에서는 음성합성용 NN 모델로 생성한 음성을 음성 식별용의 다른 NN 모델에 통과시켜 자연스러운 음성과 구분이 안될 때까지 자가학습을 반복한다. 이처럼 2개의 NN 모델을 사용하기 때문에 결함이 생겨 옵티마이저가 문제를 일으키는 케이스가 발생한다. 플로우 기반의 생성 모델에서는 1개의 NN 모델로 자가학습을 반복하기 때문에 그러한 결함은 발생하지 않는다.

엔비디아가 이번에 개발한 음성합성 기술은 이러한 얼라인먼트 프레임워크와 플로우 기반의 생성 모델이라는 2가지 기술을 통합해 구축한 학습 가능한 NN 모델이다. 이 회사는 이를 RAD-TTS라고 부르며 자연언어처리(NLP) 및 자동음성인식(ASR)의 각 NN 모델과 함께 오픈소스 툴 키트 NeMo로 제공한다. NeMo에는 이들 NN 모델을 학습시키거나 커스터마이즈 하는 인터페이스가 포함되어 있으며, NeMo로 학습 및 커스터마이즈를 실행한 NN 모델은 엔비디아의 GPU에서 효율적으로 실행될 수 있도록 최적화되어 있다.

NeMo는 자동차의 대화형 HMI 외에도, 헬스케어, 콜 센터, 교육, 게이밍 등의 분야에서의 활용이 기대되고 있으며, 이미 실제 애플리케이션에 적용하거나 시도하는 기업도 등장하고 있다고 한다.

-- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

일본산업뉴스요약

오류 메시지