일본산업뉴스요약

2020년 AI 예측 (4): 103개국 언어 다루는 외국어 수재 -- 사람 습성도 재현
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2020.1.7
  • 신문사 일본경제신문
  • 게재면 17면
  • 작성자hjtic
  • 날짜2020-01-13 17:06:11
  • 조회수381

2020년 AI 예측 (4)
103개국 언어를 다루는 외국어 수재
사람의 습성도 재현, 일상적인 회화는 서툴다

영어의 작문이 이해가 안 된다, 읽는 것이 귀찮다. 그럴 때면 스마트폰으로 미국 구글의 번역 앱을 실행시키는 사람이 많을 것이다. 103개국∙지역의 언어에 대응하는 구글 서비스는 세계에서도 최대급이다.

구글은 2016년에 사람의 뇌 안의 신경세포의 움직임을 모방한 데이터 분석 모델인 ‘뉴럴 네트워크’를 인공지능(AI) 번역에 도입. 정밀도를 비약적으로 향상시켰다.

그 전의 구글 번역은 대량의 말을 수록한 사전에서 단어를 골라내어 그럴듯하게 늘어놓는 기술이다. 다만, 문장의 전후 관계는 고려하지 않는다. 예를 들어 영어의 ‘Bank’에 대해 일본어의 ‘은행’과 ‘둑’으로 혼동해서 번역하는 경우도 적지 않았다. 뉴럴 네트워크의 기술로 “단어뿐만 아니라 문장의 전후 관계를 분석하면서 판단해 번역할 수 있게 되었다”(소프트웨어 엔지니어 가자와(賀沢) 씨). Bank가 들어간 문장 중에 River라는 말이 있다면 둑을 적합한 번역으로 인식하는 식의 구조이다.

AI번역은 전문 언어학자에게 의지하지 않고도 컴퓨터가 언어 데이터를 대량으로 입력시킴으로써 레벨이 올라간다. 이것을 비즈니스 찬스로 인식해 구글 이외에도 참여하는 기업이 늘어나기 시작했다.

자동번역의 로제타는 2020년부터 재무제표 및 특허용 오더메이드형 번역 시스템 제공을 시작한다. 예를 들어 의료기관에서의 특수한 단어의 선택법 및 애매한 부분을 최대한 줄인 법률사무소의 표현 수법 등 기업 특유의 표현을 AI가 대량의 데이터로부터 학습해 번역한다.

뿐만 아니라 로제타의 AI는 “사람이 알아채지 못하는 문장의 성격도 찾아낸다”(로제타). 사람은 원문의 문체와는 상관없이 단순한 번역만 하기 쉽지만, ‘습성(특징)’도 재현할 수 있는 것이다.

AI번역은 테스트도 주특기 분야이다. NTT가 자신들이 개발한 AI에 대학입시 센터 시험을 풀게 한 결과, 200점 만점에 185점, 편차치가 64.1로 인간 중에서도 상위권에 들어가는 성적을 냈다. 예를 들어 문맥을 읽고 부자연스러운 문장을 제거하는 문제. 내용의 흐름에 맞지 않는 문장을 넣은 데이터를 대량으로 학습함으로써 문맥을 이해할 수 있게 되었다.

한편 데이터 양이 적은 ‘일상적인 회화’의 번역에는 아직 과제가 남아있다. AI 스타트업 기업의 페어리디바이시스(Fairydevices, 도쿄)는 다른 언어를 말하는 사람끼리 대화가 가능한 AI통역 서비스를 제공하고 있다. 다만 장문에는 서툴러 오역인 상태로 회화를 이어가는 경우도 있다. 후지노(藤野) 대표이사는 “일상회화를 번역하는 능력은 초등학교 저학년 수준으로 개선이 필요하다”라고 밝혔다.

만화의 번역도 잘 하지 못한다. AI의 Mantra(도쿄)는 기간(旣刊) 번역 만화에서 학습 데이터를 자동으로 생성하는 기술을 개발해 문자 검출 및 문맥 이해의 정밀도를 높이고 있다. 그렇지만 그림과 목소리 속의 문자와의 관계를 AI가 이해하지 못하는 경우가 있어 어색한 번역이 되는 경우가 있다.

AI 번역은 낯선 세계의 언어를 이해하는 길을 열어주었다. 일상 대화에 대한 대응이 진행된다면 커뮤니케이션의 폭도 넓어져 언어의 벽은 점점 낮아지게 될 것이다.

▶ 2020년 AI의 예측 (4단계 평가)

체육
(로봇)

A

영어뿐만 아니라 많은 언어를 이해할 수 있게 되었다.

국어∙미술
(표현)

B

단어 별이 아닌 문장의 문맥에 따라 번역하게 되었다.

수학
(데이터 해석)

B

법률 등 전문 분야의 사람들로부터 편리하다는 칭찬을 받았다.

외국어
(통역)

C

좀 더 복잡한 회화를 깔끔하게 통역할 수 있으면 좋겠다.

사회
(윤리)

C

만화 번역에도 도전하면 좋겠다.

종합 평가

(♧, ◎, ○, △의 순서) 

(‘A = 잘한다’ ‘B = 대략 잘한다’ ‘C = 조금 더 노력’ ‘D = 아직 부족’)

-- (5)로 계속 --

목록