- 회의나 강연 내용 1~2초에 자막으로 -- 도시바, 자동음성자막시스템 개발
-
- 카테고리AI/ 로봇·드론/ VR
- 기사일자 2019.4.9
- 신문사 일경산업신문
- 게재면 4면
- 작성자hjtic
- 날짜2019-04-17 14:20:33
- 조회수400
회의나 강연 내용 1~2초에 자막으로
도시바, 자동음성자막시스템 개발/ 다음 단어를 고정밀도 예측
도시바가 강연이나 회의에서 사용하는 자동음성자막시스템을 개발하였다. 발언 내용을 거의 실시간으로 문자로 표시한다. 인공지능(AI)을 사용하여 대화를 고정밀도로 인식한다. 대화의 연결 표현이나 머뭇거림도 검출할 수 있다. 회의나 강연에서 간단하게 자막을 달 수 있다. 또한 내용을 기록하는 작업자의 부담도 크게 경감할 수 있다. 개발 경위에 대해 연구개발센터의 후지무라(藤村) 연구주무에게 물었다.
Q: 자동자막시스템의 구조를 알려 주세요.
A: “자막시스템에서 사용하는 음성인식 엔진의 경우는 ‘아, 이, 우, 에, 오’ 등의 음운을 식별하는 구조와, 어느 단어의 다음에 어느 단어가 오는지를 예측하는 구조를 사용한다. 음성을 고정밀도로 실시간 인식할 수 있다. 연결 표현이나 말을 머뭇거릴 때의 특징도 학습하여 순식간에 검출할 수 있도록 하였다”
“내용을 이해하는데 불필요한 연결 표현이나 머뭇거림은 자막으로 표시할 때 흐린 색으로 표시한다. 그렇게 하는 이유는 청각에 장해가 있는 사람들로부터 ‘화자의 입 모양과 표시 내용에 차이가 있으면 위화감을 느낀다’라는 의견이 있었기 때문에 지우지는 않기로 하였다. 그러나 회의나 강연의 내용을 문자로 바꿀 때는 연결 표현 등은 삭제하고 작성할 수도 있다”
Q: 인식 정밀도는 어떻게 되나요?
A: “정보처리학회가 주최한 5개의 강연에서 실증실험을 한 결과, 사전에 특별한 설정을 하지 않은 상태에서 평균 음성인식 정밀도는 85%였다. 발언 내용을 파악할 수 있다는 75~90%의 범위에 들었다. 발화하고 나서 1~2초의 시간 차로 발화 내용을 표시하기 때문에 즉시성도 확보하였다”
“예를 들면 ‘키, 오늘의 발표는’이라는 발언이 있었다고 하자. 검출 기술이 없으면 ‘키’를 그대로 표시한다. 아니면 다음에 오는 단어를 예측하는데 방해가 된다. 지금까지는 이러한 것들이 정밀도 저하로 이어졌다. 머뭇거림을 검출할 수 있게 되면서 그것을 무시하고 다음 단어를 예측할 수 있다”
Q: 어떻게 사업화를 추진해 나갈 계획입니까?
A: “당사의 AI ‘RECAIUS’의 표준 음성인식 서비스로서 내장하여 회의나 강연에서 자막을 표시하거나 회의 내용을 글로 작성하는 서비스를 검토하고 있다. 청각에 장해가 있는 사람이나 난청이 있는 사람들은 내용을 이해할 수 있게 된다. 또한 문자로 작성하는 부담이 크게 경감되기 때문에 업무 방식 개혁에 기여할 것으로 생각된다”
Q: 검색용 음성인식 기술은 이미 보급되고 있습니다.
A: 일반적인 대화를 대상으로 하는 기존의 서비스와는 차별화하고 싶다. 불특정 다수의 이용자를 상정하는 인터넷 검색의 음성인식 서비스에서는 미국의 구글 등이 강하다. 도시바는 전문 용어나 업계의 독특한 표현을 정확하게 표시할 수 있도록 만들어 비즈니스 용도 등을 개척한다”
-- 끝 --