- Next Tech 2030: AI 동시통역으로 원활하게 -- 일영 번역은 고난이도
-
- 카테고리AI/ 로봇·드론/ VR
- 기사일자 2019.4.19
- 신문사 일경산업신문
- 게재면 6면
- 작성자hjtic
- 날짜2019-04-28 20:26:17
- 조회수357
Next Tech 2030
AI 동시통역으로 원활하게
정보통신기구, 일영 번역은 고난이도
인기 만화 ‘도라에몽’의 비밀도구 ‘번역 곤약’이 곧 실현될지도 모른다. 만화에서는 먹기만 하면 외국어가 모국어처럼 들린다. 최신 연구는 인공지능(AI)와 컴퓨터를 사용하여 회화 음성을 바로 통역하는 기계 번역에 도전한다. 그러나 번역의 정밀도가 높아지는 것은 문장의 번역에는 도움이 되지만 외국인과의 대화에서 사용하기에는 충분하지 못하다. 언어의 장벽을 없애기 위해서는 발화한 내용을 실시간으로 통역하는 동시통역이 필요하다. 정보통신연구기구를 중심으로 2025년의 실용화를 목표하고 있다.
AI 붐의 계기가 된 심층학습은 기계번역의 정밀도를 극적으로 향상시켰다. 일영 번역도 예외는 아니다. 정보통신기구는 17년에 일영 번역 엔진에 심층학습을 도입하였다. 영어 능력 시험인 ‘TOEIC’에서 90점 이상에 상당하는 정밀도의 서비스도 등장하였다.
회화에 사용되는 현재의 기계번역은 사람이 말을 끝낸 단계에서 통역을 시작한다. 회화 중에 공백 시간이 생겨 원활한 의사 소통을 방해한다. 이를 극복하는 기술로서 기대를 받고 있는 것이 AI에 의한 동시통역이다.
통역을 시작하는 타이밍을 AI가 판단한다. 정보통신기구의 스미다(隅田) 펠로우는 “동시통역은 사람도 일부 프로 통역사만이 할 수 있다”라고 지적한다. 회화에서는 문장의 쉼표나 마침표와 같은 단락을 구별하는 표시가 없다. 일반적인 사람의 능력을 훨씬 능가하는 기술이라고 강조한다.
정보통신기구는 도쿄올림픽∙패럴림픽이 개최되는 2020년까지 번역 자체의 정밀도를 높인다. 21년 이후에 AI의 동시통역 연구를 본격화하고 25년에는 실용화한다는 계획이다. 30년에는 사회에서 널리 사용되는 서비스로 만든다.
통역을 시작하는 타이밍을 결정하는데 있어서 일영 동시통역은 특히 난이도가 높다. 주어나 술어가 나오는 어순이 크게 다르기 때문이다. 동시통역이 중요하다고 해서 번역을 일찍 시작하면 불완전한 문절을 통역하게 되어 정밀도가 떨어진다. 하나의 문장이 길어질 때는 짧게 끊는 기술이 필요하다.
동시통역 연구에서 앞서고 있는 것이 문장을 구별하는 AI 기술이다. 하나의 문장을 끝내고 나서 4단어 정도 후에는 앞 문장이 끝났다는 것을 인식하여 통역을 시작하는 기술을 이미 개발하고 있다고 한다. 문장 속에서 의미를 구별하는 것과 비교하면 문장을 구별하는 것은 쉽다. 대량의 문장과 문장의 구별을 AI에게 학습시킴으로써 자동으로 문장의 단락을 판단할 수 있게 되었다.
21년 이후에는 번역 정밀도가 떨어지지 않는 범위에서, AI가 짧게 단락을 끊어 이야기하는 기술 개발에 착수한다. 참고가 될만한 것이 동시통역사 등이 사용하는 ‘Slash Reading’이라는 기술이다. 의미 단락마다 슬래시를 넣어 끊어 읽는다. 슬래시를 넣는 법을 AI에게 학습시키면 의미 단락을 자동으로 판단할 수 있게 된다.
일영의 경우는 어순이 다르기 때문에 동시통역사는 말할 내용을 예측하면서 통역한다. 단, 일본어는 문장 말미의 ‘합니다’와 ‘하지 않습니다’는 의미가 다르다. 짧게 끊을수록 오역이 발생하기 쉽다. AI의 동시통역에도 실수를 알아차린 시점에서 바로 정정하는 기술이 필요하다.
-- 문맥 파악은 다음 과제 --
AI의 심층학습을 사용하여 정밀도가 높아진 기계번역 자체에도 과제는 많이 남아 있다. 현재의 기계학습은 한 문장 별로 번역을 하고 있다. 전후 문맥에서 얻어진 정보는 활용하지 않고 있다. 사람은 주위 상황이나 상대의 표정 등을 말하는 내용을 이해하는데 활용하지만 현재의 기계번역은 발화된 말만을 번역하고 있다. 문맥이나 주위 상황과 같은 정보를 AI가 활용할 수 있도록 개선하는 것은 번역 정밀도 향상을 위한 다음 과제다.
AI가 문맥도 활용하여 번역할 수 있도록 하기 위해서는 문장 전체를 사람이 번역한 후에, 2언어의 문장을 쌍으로 만들어 이를 하나의 데이터로서 AI에게 학습시킬 필요가 있다. 각 문장 쌍을 따로따로 학습시킨 경우와 비교해 데이터의 수가 크게 줄어든다. 때문에 데이터가 되는 문장이나 고성능 계산기를 얼마나 확보하는가가 관건이 된다.
그 자리에 맞는 번역에는 시각 정보도 사용하는 편이 좋다. 버스 정거장에서 ‘이제 곧 도착합니다’라는 표시가 있을 경우 ‘We will arrive shortly’보다는 ‘Bus approaching’이 더 적절한 표현이다. “일본어는 주어 등의 생략이 많아 번역이 특히 어렵다”(스미다 펠로우). 이미지인식 등의 다른 기술과 기계번역을 조합하는 아이디어가 중요하다.
● 기계번역의 정밀도 향상
1946년 |
기계번역의 연구 개시 |
82년 |
서로 다른 번역 문장의 관계를 분석하는 방법 등장 |
2016년 |
미국 구글이 번역에 심층학습을 활용 |
17년 |
정보통신기구가 일영번역에 심층학습을 활용 |
정보통신기구가 기업 등으로부터 번역 데이터를 접수하는 '번역 뱅크'를 개시 |
|
18년 |
NTT커뮤니케이션이 TOEIC 900점 이상에 상당하는 AI 번역 서비스를 개시 |
21년 |
AI 동시통역이 주요한 연구 테마로 |
30년 무렵 |
AI 동시통역이 본격 보급 |
-- 끝 --