- 구글이 연구 중인 새로운 AI 공개 -- 자연스러운 대화, 의도를 이해하는 검색
-
- 카테고리AI/ 로봇·드론/ VR
- 기사일자 2021.5.25
- 신문사 Nikkei X-TECH
- 게재면 online
- 작성자hjtic
- 날짜2021-06-02 09:35:08
- 조회수468
Nikkei X-TECH_2021.5.25
구글이 연구 중인 새로운 AI 공개
자연스러운 대화, 의도를 이해하는 검색
미국 구글은 개발자회의 ‘Google I/O 2021’에서 연구개발 중인 새로운 AI(인공지능) 기술을 발표했다. 자연스러운 대화가 가능한 ‘LaMDA(Language Model for Dialogue Applications)’와, 보다 고도의 검색이 가능한 ‘MUM(Multitask Unified Model)’이다. 구글의 선다 피차이 CEO는 기조강연에 등단해, 의인화한 ‘명왕성’이나 ‘종이비행기’가 LaMDA를 이용해 사람과 자연스럽게 대화하는 모습을 선보였다. MUM에서는 유저가 스마트폰으로 등산화 사진을 찍어, 후지산을 등반할 때 사용할 수 있는지 여부를 질문하면 그에 대답해 주는 식의 고도의 검색을 공개했다. 양 기술은 지금까지의 AI로는 실현이 어려웠던 기능으로, 획기적인 성과라고 할 수 있다.
LaMDA는 대화에 초점을 맞춘 언어모델이다. 네트워크아키텍처 ‘Transformer’를 이용했다. 같은 아키텍처를 이용한 ‘BERT’나 ‘GPT-3’와 같은 다른 모델과는, 대화로 학습시킨 점이 크게 다르다고 한다. 그 결과, LaMDA는 마치 사람과 대화를 하는 듯한 느낌이 들 정도로 유연하게 화제를 바꾸면서 자연스럽게 대화할 수 있다. 사람과 사람이 대화를 할 때는, 예를 들면 처음에는 날씨에 대해서 이야기를 나누다가 마지막에는 축구 이야기로 끝나기도 하는 것처럼, 대화 중에 화제를 바꿔가며 대화하는 경우가 자주 있다.
LaMDA는 모델을 재학습시키지 않고도 다양한 화제에 대응할 수 있기 때문에, 이러한 사람과 사람이 대화를 나누는 듯한 기능이 가능해진다고 한다. 또한 학습이 끝난 LaMDA에 파인 튜닝(개량)을 하면, 보다 ‘사려 깊은 응답’이 가능해지는 등 개량의 여지가 크다고 설명한다.
LaMDA는 어디까지 연구의 초기 단계에 있다. 지금은 구글 내에서 이용하는 데 그치고 있다. 피차이 CEO는 “그렇지만 LaMDA와 같은 자연스러운 대화 기능은 정보검색이나 컴퓨팅을 보다 친숙하게 만든다”라고 말한다. 가까운 미래에 ‘구글 어시스턴트’나 검색엔진, 비즈니스 툴 ‘Google Workspace(구, G-Suite)’와 같은 구글 제품에 탑재할 계획이라고 한다. 또한 외부 개발자나 고객기업에게 LaMDA를 제공하는 방법도 검토 중이라고 한다.
LaMDA는 현재 텍스트로 학습시킨다고 한다. 그러나 현실에는 사람은 텍스트뿐 아니라 사진이나 음성, 동영상 등 다양한 수단으로 커뮤니케이션을 한다. 그래서 다양한 종류의 정보에 대응하는 ‘멀티 모달 모델’이 앞으로 필요해질 것이라고 피차이 CEO는 말한다. 멀티 모달 모델을 실현할 수 있다면, 예를 들면, 아름다운 산의 경치를 볼 수 있는 드라이브 루트를 검색할 수 있다. 사자의 모습을 촬영한 동영상을 보고 ‘해질녘에 사자가 울부짖는 장면을 보고 싶다’고 요청하면, 동영상 내의 해당 장면으로 순식간에 이동하는 것도 가능해진다.
-- BERT와 비교해 1,000배 이상 파워풀 --
그런 멀티 모달화에 대응하고 있는 것이 MUM이다. MUM도 Transformer를 베이스로 하고 있다. 75개 종류의 언어와 다수의 다른 태스크로 동시에 학습시킴으로써, 기존의 기계학습 모델과 비교해 정보를 보다 포괄적으로 이해할 수 있다고 한다. LaMDA보다는 보다 실용화에 가까운 단계에 있다고 한다. 첫 응용처로서 검색을 생각하고 있다. 검색엔진에 적용했을 경우, 다른 언어에 걸쳐서 텍스트나 사진과 같은 다양한 형식의 정보를 횡단적으로 검색해서 결과를 보여준다.
구글은 Transformer를 이용하는 BERT를 19년 가을부터 검색서비스를 도입하고 있는데, 지금의 BERT와 비교해서 1,000배 이상 파워풀하다고 자신한다. 무슨 근거로 ‘1,000배’, ‘파워풀’이라고 말하는 것일까? Google I/O의 기조강연에서는 구체적인 지표를 공개하지는 않았지만 소개한 검색 시연을 통해 그 실력을 엿볼 수 있었다.
기조강연에서는 “워싱턴주의 아담스산을 올랐기 때문에 다음 가을에는 후지산을 오르고 싶다. 어떤 다른 준비를 하면 되나?”라고 MUM에게 질문한 경우의 결과를 공개했다. 이러한 질문의 경우, 질문자는 아담스산과 후지산을 비교하면서 후지산 등반 준비를 하고 싶다고 생각한다. 또한 ‘준비’라는 말에는 ‘어떤 트레이닝을 해야 하는가?’ ‘가을 후지산의 날씨에 맞춰서 어떠한 장비가 필요한가’ 등의 뉘앙스도 포함되어 있다. MUM의 경우는 이러한 질문자의 의도를 이해해서 검색한 결과를 보여준다고 한다. 예를 들면 가을 후지산은 비가 자주 내리기 때문에 방수성 장비가 필요하다는 정보(검색결과)를 제시할 수 있다.
MUM은 다언어에 대응한다는 점도 특징이다. 검색할 때 가장 큰 장벽은 언어의 차이다. 후지산에 관한 정보는 일본어 웹사이트에 풍부하다. 그러나 기존의 검색엔진은 미국에서 영어로 검색하면 이러한 일본어 정보에 접근하기가 어렵다. MUM의 경우는 서로 다른 언어에 걸쳐서 검색이 가능하기 때문에 영어로 후지산에 대해 검색해도 일본어로 쓰여진 풍부한 정보에서 보다 포괄적인 검색 결과를 제시할 수 있게 된다.
MUM은 멀티모달화의 초기 단계에 있고, 텍스트와 이미지를 횡단해서 검색할 수 있다고 한다. 예를 들면, 등산화를 촬영해서, 이 등산화로 후지산을 오를 수 있는지 질문하면 Yes나 No를 제시한다. 또한 후지산 등산에서 필요한 추천 장비 리스트를 소개하는 것도 가능하다고 한다.
현재, MUM은 텍스트와 사진만 이해하지만 멀티 모달화를 계속 추진해 나간다. 장기적으로는 동영상이나 음성 정보도 포함해서 검색할 수 있게 될 것으로 보고 있다.
LaMDA나 MUM은 모두 실용화할 때는 구글 내부의 공평성이나 정확성, 안전성, 프라이버시에 관한 기준을 충족하도록 한다고 한다. 실제로 18년에 발표한 BERT도 검색에 적용한 것은 19년 가을이다. 시간을 들여 이러한 점을 검토했다고 한다. 가까운 미래의 실용화를 생각하고 있는 MUM의 경우는 BERT 실용화와 동일한 공정을 거친다고 한다.
-- 끝 --
Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.