일본산업뉴스요약

'인공 음성 1개에 500엔'으로 시장 개척 -- 도쿄공업대학발 벤처 Yellston, 사람 목소리에 근접
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2021.4.8
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2021-04-15 15:05:27
  • 조회수289

Nikkei X-TECH_2021.4.8

'인공 음성 1개에 500엔'으로 시장 개척
도쿄공업대학발 벤처 Yellston, 사람 목소리에 근접

귀를 통해 정보를 얻을 수 있는 음성 뉴스나 오디오북 등의 콘텐츠가 증가하고 있다. 그에 따라서 사람의 목소리를 인공적으로 만들어내는 음성 합성 기술의 적용 범위도 확대되고 있다. 실용화된 지 40년 이상 지난 음성합성 기술이지만 품질에 대한 유저의 불만은 해결되지 못했다. 문장 사이의 간격, 액센트, 템포 등이 부자연스럽게 느껴지는 경우가 적지 않다. 도쿄공업대학에 다니는 현역 대학생이 20년 11월에 설립한 Yellston(도쿄, 하야카와(早川) 사장)은 듣기 쉬운 음성을 저가격에 제공해 음성 콘텐츠 시장 개척을 목표하고 있다.

“음성 1개를 500엔에 작성∙제공할 수 있도록 한다”(하야카와 사장). 또한 인공음성으로 발성하는 문자 수에 따라서 이용 요금을 정하도록 한다. 구체적으로는 1문자당 0.1~0.2엔을 생각하고 있다. “경쟁 타사는 음성 작성 비용 등이 아직 비싸다”(하야카와 사장). 인공음성 원음 이용에 서브스크립션을 적용하고 있는 기업도 있다. 그래서 Yellston은 가볍게 이용할 수 있는 가격 설정을 통해 유저의 참여 장벽을 낮춘다.

Yellston이 생각하는 시장은 음성 뉴스, 오디오북, 게임 등이다. 사람의 목소리로 수록하게 되면 수록 시간, 스튜디오 확보 등의 비용이 발생한다. “인공 음성을 이용하면 이에 드는 비용 등을 억제해 음성 콘텐츠를 작성할 수 있다. 그렇게 되면 다양한 콘텐츠에 음성을 적용할 수 있게 될 것이다”(하야카와 사장).

목소리 프로인 아나운서나 성우 입장에서도 이점이 있다고 한다. Yellston은 인공 음성을 공개할 수 있는 서비스 기반도 구축할 계획이다. 아나운서나 성우가 생성한 인공 음성을 공개하면, 이용 상황에 따라서 요금을 환원하는 시스템을 생각하고 있다. 즉, 유저와 제공자가 ‘목소리’라는 상품을 매매하는 기반으로 만들어 갈 생각이다. 또한 아나운서나 성우 이외의 일반인도 목소리를 제공할 수 있도록 한다.

-- 아나운서 활용으로 품질 향상 --
Yellston은 가격 억제뿐 아니라 목소리 그 자체의 품질도 향상시켜 시장을 확대해 나간다. “기존의 방법으로 작성한 음성은 부자연스러운 액센트 등 과제가 있다. 그래서 특히 액센트에 중점을 두고 개발을 추진한다”(하야카와 사장). 구체적으로는 심층학습으로 문장을 판독하고, 적절한 액센트를 추측하는 기술을 적용하고 있다. 또한 적대적 생성 네트워크(Generative Adversarial Networks:GAN) 등을 적용해 인간의 발화에 가까운 낭독을 표현할 수 있도록 했다고 한다. 아나운서나 성우와 같은 목소리 제공자가 마이크에 대고 말을 하면, 그 목소리 색과 비슷한 인공 음성을 작성할 수 있다.

현재는 일반인이 판별하지 못하는 품질의 음성을 생성할 수 있게 되었다. 그러나 “아나운서나 성우 등은 인공 음성을 구별해낸다. 일부 말에서 발성이 정확하지 않다는 지적을 받았다”(하야카와 사장). 앞으로 아나운서 등 프로로 활약하고 있는 사람의 데이터를 중심으로 학습을 계속해, 보다 사람의 목소리에 가까운 인공 음성을 만들어 나갈 계획이다. 21년 상반기에 음성합성 기술을 이용한 고품질 서비스 제공을 목표한다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록