일본산업뉴스요약

구강 내 동영상으로 음성 합성 -- 초음파 에코를 활용한 음성 합성 AI 개발
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2019.3.27
  • 신문사 일간공업신문
  • 게재면 8면
  • 작성자hjtic
  • 날짜2019-04-04 22:42:53
  • 조회수389

구강 내 동영상으로 음성 합성
초음파 에코를 활용한 음성 합성 AI 개발

도쿄대학의 레키혼(暦本) 교수와 기무라(木村) 대학원생은 구강의 초음파 에코 동영상에서 본인의 목소리를 합성하는 인공지능(AI) 기술 ‘소토보체(Sotto Voce)’를 개발했다. 실제로 소리를 내지 않아도 입의 움직임에서 말을 생성할 수 있다. 합성음성으로 AI 스피커의 키워드 검출 기능을 사용하는 것에 성공했다. 웨어러블 초음파 에코 기기를 개발해나간다.

-- 본인의 음성 재현 --
웨어러블 초음파 에코 기기로 만들면 몸에 부착해두면 에코 동영상과 음성을 자동수집할 수 있어 병으로 목소리를 내지 못해도 본인의 음성으로 말할 수 있게 된다고 기대된다.

현재 시스템은 초음파 에코를 턱 밑에 데고 소리를 낼 때 혀와 구강 안의 움직임을 촬영한다. 이 동영상 데이터에 대해 발성한 음성을 정답 데이터로 딥러닝을 거듭했다. 1 구간 당 30음성을 학습해 본인스러운 합성 음성을 생성할 수 있었다.

초음파 에코는 입술 움직임의 촬영이 불충분해 ‘마’와 ‘파’ 등의 입술을 사용하는 발음의 재현성은 낮다. 하지만 인간은 말의 단편적인 음을 듣고 문맥을 포함해 단어를 인식하기 때문에 커뮤니케이션 상 커다란 문제가 되지 않는다고 한다. 실제로 AI 스피커의 키워드 인식 기능을 합성 음성으로 조작할 수 있었다.

음성은 합성과 인식의 두 측면에서 AI 기술이 침투하고 있어 기능을 서로 보완할 수 있다. 키워드 생성과 인식은 이용 장면과 문맥을 반영하면 식별 정확도를 올릴 수 있다. 자유문장의 생성은 대량의 에코 동영상과 음성 데이터가 필요하다.

-- 끝 --

목록