일본산업뉴스요약

일본산 '소형 LLM', 올 봄에 잇따라 등장 -- NEC와 NTT가 발견한 2가지 승리 공식
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2024.2.8
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2024-02-18 18:30:15
  • 조회수71

Nikkei X-TECH_2024.2.8

국내 IT 대기업의 생성 AI 전략, ‘소형 LLM’에서 찾는 승산
일본산 '소형 LLM', 올 봄에 잇따라 등장
NEC와 NTT가 발견한 2가지 승리 공식

국내 대형 IT 벤더들이 올해 드디어 대규모언어모델(Large Language Models: LLM) 서비스 제공을 개시한다. NTT는 3월에 ‘츠즈미(tsuzumi)’를, NEC는 올 봄 경에 ‘코토미(cotomi)’를 각각 제공할 예정이다. 또한 소프트뱅크도 올해 안에 LLM을 개발한다고 밝혔다.

NTT와 NEC가 제공하는 국산 LLM은 모두 ‘대규모 언어모델’이라고는 하지만, 미국 오픈AI의 ‘GPT’ 등에 비하면 컴팩트하게 만들어진 것이다. 사실 이 규모를 선택한 것이야말로 그들이 찾아낸 승리 공식이기도 하다. 과연 두 회사는 ‘GPT 1강’이라고 할 수 있는 시장에 변화의 바람을 불러일으킬 수 있을까? 국내 업체와 해외 업체의 차이를 분석하면서 양 사의 전략을 살펴보자.

-- '대규모'이지만 '소형'인 국산 LLM --
지금까지 GPT를 비롯한 트랜스포머(Transformer) 기반의 LLM은 파라미터 수를 늘림으로써 성능을 높여왔다.

GPT를 예로 들면, 2018년에 발표한 ‘GPT-1’은 1억 1,700만 파라미터였다. 파라미터 수는 그 후, 2019년에 발표한 GPT-2에서 15억으로 GPT-1의 약 10배가 되었고, 2020년에 발표한 GPT-3는 1,750억으로 단번에 GPT-2의 100배 이상으로 커졌다.

이에 반해 국산 LLM은 파라미터 수 관점에서 보면 GPT 등에 비해 '소형 LLM'이라고 할 수 있는 것이 특징이다. 구체적으로는 NEC의 코토미는 130억, NTT의 츠즈미는 70억과 6억 등 2 종류로 제공된다. GPT-3와 비교하면 코토미는 100분의 1 이하, 츠즈미는 경량판 모델의 경우 225분의 1이다. 물론 분류상으로는 ‘대규모언어모델’이지만, 상대적으로는 지극히 작은 LLM이라고 말할 수 있다.

NTT와 NEC가 각각 이러한 소형 LLM을 선택한 목적 중 하나는 유저 기업이 자체적으로 보유하는 온프레미스 환경에 있어서의 LLM 이용이라고 하는 새로운 수요를 개척하는 것이다. LLM을 가동시키는 전용 하드웨어를 세트로 유저 기업에 제공, 유저 기업의 데이터센터 등에 설치한다. 유저 기업은 거점 네트워크 외부로 데이터를 내보내지 않고 LLM을 이용할 수 있다.

GPT를 사내 시스템 등에 도입해 이용하는 경우, 일반적으로 API(애플리케이션 프로그래밍 인터페이스)를 이용한다. 이 경우, LLM 자체는 벤더 측의 환경에 두어야 하며, 유저 측이 자사의 온프레미스 환경에 두고 싶어도 실현이 어려운 실정이다.

GPT의 경우, 마이크로소프트의 애저(Azure) 환경을 이용해 적절하게 옵트아웃(Opt Out)을 설정하는 등의 대책을 마련하지 않으면 사내 기밀정보가 LLM의 재학습에 이용. 다른 유저로의 출력에 반영되어 누설되는 등의 리스크를 가지고 있다. 국산 소형 LLM의 경우, 온프레미스 환경에도 무리 없이 둘 수 있어 상술한 과제를 해결할 수 있다.

-- '소형 LLM'이라면 적은 리소스, 낮은 코스트로 도입 및 운용이 가능 --
소형 LLM의 또 하나의 목적은 작다는 특성을 활용해 유저 기업의 시스템에 LLM을 도입하기 위한 계산 리소스 및 학습의 번거로움, 코스트 등을 최소화해 도입·운용하기 쉽도록 하는 것이다. 노무라종합연구소 DX기반사업본부 IT기반기술전략실의 사기모리(鷺森) 엑스퍼트 리서처는 소형 LLM의 최대 이점을 “학습이나 추론에 드는 계산 리소스가 적다는 것”이라고 말한다.

파인 튜닝 등 유저 기업에 있어서의 LLM 학습은 간단히 말하면 LLM의 도입·운용 시 파라미터의 설정을 데이터를 통해 최적화하는 것이다. 이렇게 최적화한 파라미터를 사용해 입력된 데이터에 연산을 실시해서 출력하는 것이 추론이다. 파라미터 수가 적으면 학습에 의해 최적화하는 대상, 추론에 필요한 연산량이나 연산 시간이 적어진다.

준비해야 할 계산 리소스가 적어지면 학습 코스트도 최소화할 수 있다. NTT의 추산에 따르면, GPT-3와 같은 1,750억 파라미터의 LLM 이용 시 퍼블릭클라우드를 이용해 3000억 토큰의 데이터를 학습시키는 데 드는 비용은 4억 7,000만엔 정도. 한편, 70억 파라미터의 츠즈미에 같은 양의 데이터를 학습시키는 데 드는 비용은 약 25분의 1인 1,900만 엔, 6억 파라미터에서는 약 300분의 1인 160만 엔 정도라고 한다.

하지만 일반적으로 파라미터 수가 작은 LLM의 정밀도를 높이려면, 파라미터 수가 큰 LLM보다 많은 데이터를 학습시킬 필요가 있다. 추산 결과를 통해 일률적으로 비교할 수는 없지만, 학습에 드는 코스트를 큰 폭으로 낮출 수 있을 것으로 전망된다.

또한 학습이나 추론에 필요한 계산 리소스가 적으면, 유저 기업에 필요한 하드웨어 환경도 낮은 비용으로 마련할 수 있다. NTT서비스이노베이션종합연구소/인간정보연구소의 미야자키(宮崎) 주간연구원은 츠즈미에 대해 “70억 파라미터의 츠즈미는 1개의 GPU로, 6억 파라미터의 츠즈미는 CPU로 동작할 수 있다”라고 말한다. 이러한 이점이 국산 LLM의 새로운 제공 방법 실현을 뒷받침하고 있다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록