해동일본기술정보센터 | 해동일본기술정보센터

프리퍼드 등도 참가하는 NII의 국산 LLM 개발 시동 '-- 오픈AI만으로는 건전하지 않아'

카테고리AI/ 로봇·드론/ VR
기사일자 2023.10.30
신문사 Nikkei X-TECH
게재면 online
작성자hjtic
날짜2023-11-07 00:17:34
조회수350

Nikkei X-TECH_2023.10.30

생성 AI의 등장으로 제조업 어떻게 변화할까?
프리퍼드 등도 참가하는 NII의 국산 LLM 개발 시동
'오픈AI만으로는 건전하지 않아'

생성 AI(인공지능)의 급속한 성장으로 일본 내에서도 대규모 언어 모델(LLM: Large Language Model)을 개발하려는 움직임이 가속화되고 있다. 생성 AI의 기반이 되는 LLM은 미국의 오픈AI(OpenAI)가 선도하는 형태로 개발이 추진, 일본 기업들도 이를 추격하는 형태로 개발을 서두르고 있다.

국립정보학연구소(NII)는 기업과 대학의 연구자 등 500명 이상으로 구성된 조직을 설립해 올 10월, 학습 데이터 등을 오픈한 LLM 모델을 공개했다. NII에서 국산 LLM 개발을 주도하는 구로하시(黑橋) 소장에게 개발의 방향성 등에 대해 물었다.

챗GPT의 이용자가 두 달 만에 1억 명에 달하는 등, 생성 AI의 활용이 빠르게 확산되고 있다. 그 가장 큰 이유는 모두를 놀라게 한 ‘스마트함’이라고 생각한다. 사람의 말을 이해할 수 있는 AI는 대단한 것으로, 이미 사용할 수 있는 수준에 도달했다.

기계 번역 분야에서는 이미 뉴럴 네트워크 등의 기술을 통해 유창한 언어로 번역할 수 있는 등의 진화가 있었지만, 번역에 그치지 않고 어플리케이션이 확산된 것이 생성 AI의 임팩트라고 생각한다. 하지만 생성 AI가 왜 이렇게 스마트한지에 대해서는 해명되지 않고 있다.

왜 스마트한지를 검증하려면 먼저 그것을 스스로 만들지 않으면 안 된다. 광대한 네트워크를 분석해보아도 알 수 없기 때문에 우리가 설립한 ‘LLM 스터디 그룹’ 안에서 LLM을 만들어보려고 한다. 뇌과학 분야에서 뇌를 해명하기 위해 인공 뇌를 만들려는 시도가 있는데 이러한 접근법과 유사하다.

그러나 LLM 구축에는 1회 계산에 수억 엔 규모의 비용이 소요된다. 대학의 연구실이이나 벤처 기업만으로는 전혀 대응할 수 없기 때문에 다 같이 추진하자라는 것이 우리 입장이다. 그런 다음, 정보를 모두 오픈해 나가려고 생각하고 있다.

이와 뜻을 같이하는 대학과 연구 기관, 기업으로부터 500명 이상의 연구자 및 기술자들이 모였다. 사이버 에이전트, LINE 야후, 마이크로소프트, Preferred Networks(도쿄) 등의 기업에 재직하고 있는 사람들이 참가하고 있다.

-- 안심하고 사용할 수 있는 국산 LLM을 --
챗GPT를 사용하고 있는 기업은 현재 상당히 불안감을 느끼고 있을 것이라고 생각한다. 회사의 기밀 정보를 입력해 대화하는 곳은 거의 없을 것이다. 어떤 데이터를 바탕으로 학습했는지를 명백히 알 수 있는 국산 LLM이 완성된다면 이용하기 쉬워질 것이다.

오픈AI라는 한 회사의 LLM상에서 일본 전역의 지적 검토가 이루어지는 것은 건전하지 않다. 현재 공개된 오픈AI의 LLM은 무엇을 바탕으로 학습했는지 공개되지 않고 있기 때문이다.

LLM 스터디그룹은 올 7월부터 13B(130억) 파라미터의 LLM 개발에 착수했으며, 계산 자원도 포함해 완성될 전망이 보이고 있다. 올해 안에는 GPT-3 수준의 175B(1,750억) 파라미터의 LLM 개발을 목표로 하고 있다.

1년 차에는 아무래도 GPT를 따라잡는 것에 주력할 것으로 생각되지만, 어느 정도 완성되면 확실히 이렇게 만들면 이렇게까지 스마트해진다라는 것을 이해할 수 있을 것이다. 그 때 부족한 점을 알게 되면 좀 더 새로운 모델을 개발해나갈 때 토대가 될 수 있을 것이라고 생각한다.

-- 일본어를 깊이 이해할 수 있는 것이 중요 --
그러기 위해서는 우선, 학습용의 대규모이면서 양질의 코퍼스(Corpus, 텍스트를 모아 데이터베이스화한 것)를 마련할 필요가 있다. 현재는 비영리단체 Common Crawl이 제공하는 인터넷상을 크롤링한 데이터를 베이스로 정밀 조사한 것을 사용하고 있지만, 이것만으로는 크기나 양이 부족하다.

그래서 후보 중 하나로 국립국회도서관에 있는 방대한 서적 데이터의 활용을 검토하고 있다. 이 밖에도, 자치체의 홈페이지에 있는 회의록이나 논문, 출판사와 신문사 등과의 교섭을 통해서 서적이나 신문 데이터를 활용. 저작권이 밝혀진 최대한 양질의 일본어 코퍼스를 학습에 사용하고 싶다.

일본어를 깊이 이해할 수 있다는 것은 매우 중요하다. 일본의 법률이나 의료 현장에서 일본어가 사용되고 있기 때문에 전문 용어도 포함해 일본어 데이터를 제대로 입력해둘 필요가 있다고 생각한다.

지금의 챗GPT는 일본인의 이름이나 일본의 문화를 어느 정도 학습하지 않으면 일본 고유의 질문에 대답할 수 없을 가능성이 있다. 하지만 GPT-3에서는 일본어 코퍼스가 겨우 0.11%에 불과하지만 상당히 똑똑하다. 언어에 의존하지 않는 공간에서 LLM이 만들어졌다고 밖에 생각되지 않는다. 이것도 LLM 스터디 그룹에서의 독자적 LLM 개발을 통해서 해명하고 싶은 점 중 하나이다.

-- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

일본산업뉴스요약