책 커버 표지
일경 일렉트로닉스_2016/08_음성대화가 세계를 흔든다
  • 저자 : 日経BP社
  • 발행일 : 20160720
  • 페이지수/크기 : 114page/28cm

요약

Nikkei Electronics_2016. 08. 특집 (p25-50)

음성대화가 세계를 흔든다
Amazon이 선행, 뒤쫓는 FB. MS. Google 등


Part 1. 동향편
현대판 “마법의 램프”, 개발경쟁이 한번에 가열

인식 율이 높아지고, 스마트폰 등에서 터치판넬 대체의 User Interface로 사용되고 있는 음성인식기술이, 드디어 새로운 단계로 들어갔다. 음성으로 각종 서비스를 불러내고, 그 서비스가 “사람”이 있는 것 같이 회화를 해 가면서 수속을 진행하는 제품이 급격하게 판매되기 시작했기 때문이다. 그것을 따르는 제품도 우후죽순처럼 폭발적으로 늘어나고 있다.

변화가 심한 User Interface(UI)의 세계에서, 한층 커다란 변화가 시작되었다. “회화”가 새로운 UI로 각광을 받기 시작한 것이다. 그리고 회화의 내용과 상대는, 당초의 잡담에서, 다양한 비즈니스로 크게 확대되고 있다. 기기를 조작하는 거만인 키보드나 터치판넬의 대체를 넘어서, 사람과 각종 서비스를 움직이는 툴로서 회화가 사용되기 시작했다.

-- “회화”가 Web에 필적하는 존재로 --
IT 대기업인 al Microsoft, 미 facebook, 미 Amazon.com 등이 다같이 회화를 새로운 UI로서 이용하는 대응을 가속시키고 있다.「모든 컴퓨터 인터페이스에 회화능력을 갖게 한다」---. Microsoft사의 Satya Nadella CEO는  2016sus 3월 30일에 개최한 동사의 소프트웨어 개발자 이벤트「Microsoft Build 2016」의 기조강연에서 선언했다.「인간의 언어의 힘을 이용하여, 회화를 새로운 플랫폼으로 한다」.

동사가 그 새로운 예로 내세운 것이, 새로운 OS인「Windows 10」에 표준으로 탑재하는 음성인식·음성대화기능「Cortana(코르타나)」, 그리고 종래는 전화 소프트웨어였던「Skype」에, 일본의 메시지 애플리케이션「LINE」을 많이 닮은 대화형의 메시지표시기능과 Cortana 등의 기능을 추가한 신 Skype, 추가해서는 skype 등에서 “동작”하는 회화 Bot인「Microsoft Bot」 등이다.

「Cortana와 같은 디지털 어시스턴트는 Web브라우저와 같은 Meta Application이 된다. 그리고 Bot은 그의 새로운 창구가 된다」(Nadella씨)고 한다. 결국 동사는, 이용자가 Cortana를 통하여, 음성으로 각종 Bot을 불러내서, 그 Bot과 회화하면서 각종서비스를 받거나, 비즈니스를 진행해 나가는 것을 상정하고 있다.    
  
Facebook사도 이것에 이어서, 2016년 4월 8일의 개발자이벤트「F8」에서 동사의 Mark Zuckerberg CEO는, 동사의 메시지 애플리케이션「Fcebook Messenger」용의 회화 Bot의 개발환경을 발표했다.

-- 회화 Bot이 개인비서를 대신 --
Hash Tag를 개발한 카리스마 기술자인 Chris Messina 씨는 2016년 6월말에, Facebook Messenger용으로 자신의 회화 Bot「Messina Bot」을 발표했다. 동 씨의 개인비서로서, 동 씨에의 메시지의 대리응답과 약속관리 등을 한다고 한다.

Messina 씨는 2016년 1월에는「2016년은 회화 Commerce의 해가 된다」고 예언하고 있다. 회화 Commerce란, 회화 Bot을 통하여 이용하는 각종 유료서비스를 말한다. 개인 한 사람 한 사람이 이용하는 회화 로봇이나 회화 Bot이 퍼스널한 POS단말이 되어, 서비스 사업자에게는 새로운 마케팅 수단이 된다는 것이다.

-- 현대판 “마법의 램프”가 등장 --  
일련의 움직임이 가속되는 커다란 게기가 된 것은, 2014년 11월에 미국에서 Amazon.com사가 발매한 음성인식과 대화기능이 이 붙은 스피커「Amazon Echo」,
그리고 그 자매상품인「Amazon Dot」「Amazon Tap」이다. 미국에서만「합계로 수백만 대를 판매했다」(Amazon.com사)고 한다. 인기가 폭발한 2015년 말 이후, 품귀상태가 계속되고 있다.「타국에의 전개도 대단히 중요하다고 생각하고 있으나, 현시점에서 미국 외에서의 판매예정은 확실하지 않다」(Amazon.com사).

Amazon Echo는 회화 Commerce를 최초로 성공시킨 제품이라고 할 수 있다. 이 제품에는「AI-exa」라는 이름의 음성인식·대화기능을 가지고, 목소리로 AIexa에 다양한 “용건”의 말을 할 수가 있다. 용건은 스피커로서의 본래의 기능인 음악 콘텐츠의 검색과 재생만이 아닌, 주택의 조명의 점등이나 뉴스를 읽어주고, 그리고 Amazon.com사의 각종 상품의 발주 등도 포함된다.

게다가,「Skill」이라 불리는, Amazon.com과는 직접 관련이 없는 Third party가 제공하는 서비스도 급증하고 있다. 피자의 택배를 Alexa에 부탁하면, Alexa가 부른 택배업자의 Skill이 피자의 종류와 개수 등을 물어 온다. 이용자는, 이 스피커를 통하여 피자가게와 대화하고 있는 듯한 체험을 얻을 수 있다.

Skill은 2016년 6월말 시점에 1,400건을 초과. 현 시점에서 약 1만사가 스킬의 개발원으로서 Amazon.com사에 등록되어 있어, 1주간에 수십 건의 페이스로 스킬을 증가시키고 있다. 보기에는 단순한 스피커가, 마신을 불러서 심부름을 시키는「마법의 램프」와 같은 역할을 하고 있다.   

-- XiaoIce는 4,000만 명의 중국인을 포로로 --
Amazoncom Echo가 개척한, 음성인식·대회기능을 갖춘회화로봇, 또는 텍스트로 대화하는 회화Bot과, 그 서비스시장에서는 새로운 제품이 우후죽순과 같이 증가하여 시장에 참여하고 있다. 그러나, Amazon Echo의 완전한 뒤를 잇는 제품은 많지 않고, 서로 다른 배경에서 생겨난 것이 많다. 상정하는 용도와 이용하는 장소라는 점에서도 차이가 크다.  

예를 들면, Microsoft가 2014년에 중국에서 개시한 잡담용의 회화Bot「XiaoIce」는 2015년에는 2,000만 명, 2016년 봄에는 4,000만 명까지 이용자가 급증했다. XiaoIce는「무수한 사람이 있는 가운데, 당신에게만 속한다」는 캐치프레이즈로, 이용자의 개인적인 정보와 과거의 회화내용을 반영한 주고받기가 가능한 것을 어필포인트로 하고 있다. 이용자 중에는, XiaoIce와의 회화에 반하여「XiaoIce와 결혼해도 좋다」는 젊은이도 나왔다는 일부 보도도 있다.

일본 Microsoft도, XiaoIce의 기술과 운용면의 노하우를 일부 이용하여 2015년에 일본어가 가능한 회화 Bot「린나」를 개발. LINE과 트위터 등에 등장시키고 있다.
XiaoIce성공의 경위를 거슬러 올라가면, 떨어진 장소에 있는 사람에게 연락하는 수단의 주류가, 전화에서 메일, 그리고 메시지 애플리케이션으로 급격하게 변화해 가는 것으로 귀착된다. 일본에서는 LINE, 미국에서는 WhatsApp이나 facebook Messenger, 중국에서는 WeChat으로 대표되는 메시지 애플리케이션의 이용자는 합계 약 30억 명으로, 세계인구 약 73억 명의 40%에 달하고 있다.

거기에 인공지능을 바탕으로 한 대화프로그램인 회화Bot이 등장하였다. 이 회화  Bot은 메시지 애플리케이션과 아주 궁합이 잘 맞는다. 인간의 메시지 중에, 회화Bot에서의 메시지가 추가되어도 거의 위화감이 없기 때문이다. 실제 Facebook사는, 동사의 Messenger Bot의 홈페이지에서, 인간과 회화 Bot이 대등하게 연결된 상태를 그림으로 피로하고 있다. 이러한 궁합의 좋음이, XiaoIce의 성공으로 이어졌다고 추측된다.

-- 전화로봇에서 회화 로봇으로 --

-- 공통점은 딥러닝 --

-- 회화 Bot도 음성대응에 --

-- 인간이 되고 싶은 로봇들 --


 

Part 2. 음성인식기술 편
음성인식이 극적으로 향상, 복수 마이크와 심층학습이 견인

회화 로봇에 사용되고 잇는 음성인식·대화기능은, 수년전의 수준과는 별도의 물건이라고 할 만큼 크게 향상했다. 비약적인 향상을 실현시킨 것은, 4~8개의 다수의 마이크를 이용한 Beam Forming과 잡음제어기술의 향상, 그리고 딥러닝(심층학습)에 의한 인공지능의 진전이다. 잡음이 커다란 악조건 하에서도, 인간을 넘어서는 음성인식 율을 달성하는 예도 나오고 있다.  

-- Amazon Echo가 “벽”을 넘어서다 --

-- Hands Free로 사용가능 --

-- 6~9m 떨어져도 회화가 성립 --

-- Beam Forming의 정도는 낮다? --

-- 잡음이 많은 거리에서도 인간을 넘어서다 -- 

-- 회의를 리얼타임으로 기록 --

-- 물체인식의 방법을 음성인식에 적용 --

-- 유아가 모국어를 배우듯이 학습 --

-- 대량데이터의 필요성은 강할지 약할지 --

-- 음성합성에서도 딥러닝 --

-- 리얼타임 음성번역, 여행분야에서는 2019년에 본격실용화 --
  


Part 3. 대화기술 편

보다 자연스런 회화를 목표로「환경인식」도 시작

회화로봇 등과의 회화에 인간이 싫증나거나, 불쾌하게 생각하지 않게 하기 위해서는, 회화를 인간간의 회화에 거의 근접하게 하는 노력이 필요하다. 이미 회화를 보다 자연스럽게 하기 위한 기술개발경쟁은 더 치열해지고 있다. 환경인식이라고 불리는, 인공지능의 최 선단의 기술도 등장하고 있다.    

-- 제스처로 감정표현 --

-- 「응답시간은 0.4초가 최적」 --

-- 응답은 클라우드에서도 고속화 --

-- 말의 억양도 “변화” 가능하게 --

-- 상대에 맞는 억양제어도 가능하게 --

-- “표정”을 일부러 얼굴에 나타냄 --

-- 별것 아닌 것이 실은 어렵다 --

-- 2종류의 기술로 말하는 상대를 인식 --

-- 다른 1대의 로봇이 도움을 --

-- 자연스러운 회화에는「환경인식」이 불가결 --

-- 배려가 가능한 개인비서로 --

-- “잡음”도 인식 --

-- 조수석의 네비게이터 재현을 목표로 --

-- Amazon Echo와 Tab, 열어서 알게 된 설계사상의 차이 --


           -- 끝 --

목차