해동일본기술정보센터 | 해동일본기술정보센터

NTT, 특정인의 목소리 AI로 식별 -- 개성 분석, 대화∙잡음 있어도 고정밀 분석

카테고리AI/ 로봇·드론/ VR
기사일자 2018.6.01
신문사 일경산업신문
게재면 6면
작성자hjtic
날짜2018-06-08 08:34:25
조회수536

NTT, 특정인의 목소리 AI로 식별
목소리 특징으로 개성 분석, 대화∙잡음 있어도 고정밀 분석

NTT는 여러 사람의 목소리가 섞여 있는 음성에서 특정 사람의 목소리만을 추출하여 들을 수 있는 기술을 개발하였다. 미리 듣고 싶은 특정 인물의 목소리를 녹음하여 AI로 분석, 목소리의 특징 등을 바탕으로 식별한다. 사람의 대화를 이해하는 로봇이나 보이스 레코더 등의 정밀도 향상으로 이어질 수 있는 기술로서, 이르면 2년 후의 실용화를 목표한다.

스마트 스피커나 최신 스마트폰에는 사람의 목소리를 알아듣는 음성인식 기술이 탑재되어 있다. 인식 정밀도의 향상은 이들 기기의 편리성을 높이는데 중요하다. 실제 생활에서는 다른 사람의 목소리도 섞여 들리거나 텔레비전 음성 등의 잡음이 들리거나 하여 특정 사람의 목소리만을 알아듣는데 장해가 되고 있다.

NTT는 목소리 높이나 음질, 억양 등의 다양한 특징을 바탕으로 특정 사람의 목소리 개성을 캐치하는 기술을 개발하였다. 특정 사람에게 미리 10초간 마이크 가까이에서 말을 하게 한다. 그 후에는 여러 사람이 동시에 말을 해도 심층학습을 사용하여 목적하는 사람의 목소리를 선택적으로 추출하여 알아들을 수 있다.

기존에는 두 사람의 목소리가 섞인 상태에서는 특정 사람의 목소리는 20%밖에 들을 수 없었다. 그러나 신기술을 사용하자 80%의 정밀도로 들을 수 있게 되었다.

특정 사람의 목소리를 AI가 식별하는 기술은 지금까지도 있었지만 여러 개의 마이크를 사용하여 목소리가 나는 방향에서 판정했었다. 사람에게는 시끄러운 곳에서도 대화가 가능하거나 자신이 관심 있는 이야기는 골라 들을 수 있는 ‘칵테일 파티 효과’라는 능력이 있다. 이 능력을 AI에 내장하였다.

현재는 닮은 목소리의 사람은 식별하지 못하는 경우가 있다. 목소리의 특징을 인식하는 정밀도를 보다 높여, 목소리가 나는 방향으로 판단하는 기술도 조합하여 불특정 다수의 사람이 말하거나 잡음이 큰 상황에서도 들을 수 있도록 한다.

-- 끝 --

일본산업뉴스요약