- 기계번역의 정밀도 향상 -- 통계∙신경회로망의 기술이 공헌
-
- Category미래기술,전망/첨단산업
- 기사일자 2017.1.6
- 신문사 일경산업신문
- 게재면 8면
- Writerhjtic
- Date2017-01-12 16:52:56
- Pageview618
Techno Trend
기계번역의 정밀도 향상
통계∙신경회로망의 기술이 공헌
컴퓨터를 이용하는 기계변역의 정밀도가 향상되고 있다. Big Data를 이용하여 자동적으로 번역 모델을 만드는「통계번역」이라는 기술이 국내외에서 발전하고 있다. Neural Network(신경회로망)를 사용한 번역기술을 Google과 Microsoft가 작년 후반에 채용하는 등 경쟁이 격화되고 있다.
의사「컨디션이 언제부터 나빠졌습니까?」
환자「열흘 전입니다.」
의사「정기적으로 건강검진을 받고 있습니까?」
환자「네, 작년에 받았습니다.」
일본어를 못하는 환자를 상대로 의사가 문진을 하고 있다. 두 사람 사이에 놓인 태블릿 단말이 의사의 질문을 번역하여 영어 합성 음성을 들려준다. 이어서 환자의 대답을 일본어로 들려준다.「혈당치」와 같은 전문용어도 정확하게 번역되면서 지체 없이 회화가 진행된다.
이것은 Fujitsu와 정보통신연구기구(NICT)가 개발한 의료용 다언어 음성번역 시스템이다. 핸즈프리로 조작할 수 있는 등 사용하기 편한 점이 좋다. 심장부인 기계 번역 엔진에 NICT의 최신 다언어 번역 어플리케이션「VoiceTra」를 사용하고 있다.
NICT는 문서번역에 사용되는 번역 어플리케이션「TexTra」를 인터넷에 공개하였다. 난해한 내용으로 알려진 특허문서를 일영, 일중으로 번역하는 시스템도 개발하고 있다.「예전에는 별로 도움이 안 된다고 여겼던 자동번역이지만, 번역 정밀도는 크게 개선되었다」고 NICT의 스미다(隅田) 선진적 번역기술연구 실장은 말한다.
정밀도가 향상된 이유는 번역 알고리즘을 바꿨기 때문이다. 기계번역은 약 60년의 역사를 가지고 있으며, 오랫동안 사용되고 있는 것이「룰 번역」이다. 전문가가 언어의 구조를 해석하여 번역 규칙을 만들고, 이것에 기초하여 기계가 번역한다.
이에 반해, 약 10년 전부터 본격적으로 연구가 진행되고 있는 것인 통계번역이다. 대역 데이터를 대량으로 수집하여 통계 처리함으로써, 번역 규칙이나 번역 사전에 해당하는 번역 모델을 자동적으로 만든다. 수집한 데이터가 많을수록 번역의 정밀도가 향상된다.
통계번역은 많은 언어에 대응할 수 있다는 점도 특징이다. 특정 언어의 문법이나 단어 의미를 몰라도 대역 데이터만 수집한다면 번역 모델을 만들 수 있기 때문이다. NICT의 VoiceTra는 중국어, 미얀마어 등 현재 31개의 언어에 대응하고 있다.
작년 후반에 새로운 번역 기술이 등장하였다. Google과 Microsoft는 뇌 활동을 모방한 Neural Network에 의한 번역 기술을 개발하였다. 인터넷에서 이용 가능한「Google 번역」이나「Microsoft Translator」에서 사용할 수 있도록 하였다.
새로운 방식도 통계번역과 마찬가지로 대량의 대역 데이터를 학습하여 번역 모델을 만든다. 단, 기존처럼 문장을 쪼개서 작은 단위로 번역하는 것이 아니라, 문장 단위로 문맥을 파악함으로써 보다 적절한 역어를 발견한다. Google은 통계번역에 의한 번역과 비교하면 번역 오류를 평균적으로 60% 줄였다고 설명하고 있다.
Neural Network 번역은 교토대학 등 국내에서도 연구를 진행하고 있으며, NICT도 도입 시기를 찾고 있다.「Neural Network 번역에도 단점은 있기 때문에, 통계번역과의 하이브리드형 시스템을 선택할 지도 모른다」(스미다 씨)고 말한다.
통계번역이나 Neural Network 번역이나 시스템에 학습시키는 데이터의 양이 많을수록 정밀도가 높아진다. NICT는 인터넷상이나 기업이 보유한 대역 데이터를 수집함과 동시에, 앞으로는「실시간으로 대역 데이터를 수집하는 방법에 대해 생각하고 싶다」(스미다 씨)고 한다. 시스템 개발과 함께 어떻게 데이터를 수집할 것인가도 경쟁분야가 될 것 같다.
-- 끝 --