오류 메시지

Deprecated function: Array and string offset access syntax with curly braces is deprecated in include_once() (line 20 of /hjtic1/www/includes/file.phar.inc).

니케이 로보틱스 2025/6 NTT가 LLM의 컨텍스트 길이를 확장할 수 있는 신기술 개발

책 커버 표지
목차

요약

Nikkei Robotics_2025.6 (p24-29)

NTT가 LLM의 컨텍스트 길이를 확장할 수 있는 신기술 개발
웨이블릿 함수로 위치를 표현

대규모언어모델(LLM)이나 로봇용 VLA(vision-language-action) 모델 등, 다양한 DNN에서 폭넓게 활용되는 아키텍처가 Transformer이다. 그러나 그 약점 중 하나는 한 번에 다룰 수 있는 토큰열의 최대 길이(문맥 윈도우, 컨텍스트 길이)를 확장하기 어렵다는 점이다. 이 문제의 돌파구가 될 수 있는 기술을 NTT 인간정보연구소가 개발했다. ‘웨이블릿 위치부호화’라 부르는 방식으로, 2025년 4월 개최되는 심층학습 분야 컨퍼런스 중 하나인 ‘ICLR 2025’에 논문이 채택되었다.

개발한 기술의 대상은 입력되는 토큰의 위치 관계를 표현하는 방식이다. Transformer는 각각의 토큰을 시퀀스 내 위치를 고려하지 않고 처리하는 반면, 실제 처리 대상 데이터(문장 등)에서는 토큰의 순서나 배열 방식이 큰 의미를 갖는다. 따라서 이러한 정보를 처리에 활용하려면 각 토큰에 위치를 나타내는 부호를 추가할 필요가 있다. 원조 Transformer 이후, 지금까지 다양한 위치부호화 방식이 제안되어 왔다.

그러나 이 부호화 방식이 문맥 창 크기를 제약하는 요인이 될 수 있다. Transformer를 학습할 때는 하드웨어 성능을 고려해 토큰열의 최대값 Ltrain을 설정한다. 하지만 추론 시 그보다 긴 토큰열을 입력하면, 부호화 방식에 따라 성능이 크게 떨어진다. 예를 들면, 기존의 많은 LLM이 사용하는 방식 ‘RoPE’에는 이 문제가 있다. RoPE의 개선법이 여럿 제시되었지만, Ltrain을 초과하는 토큰열의 성능을 근본적으로 끌어올리려면 기본적으로 재학습(파인튜닝)이 필요하다.

NTT의 웨이블릿 위치부호화는 재학습 없이도 Ltrain을 초과한 토큰열을 입력해도 높은 성능 수준을 유지할 수 있다. 기존에도 ALiBi 등 재학습이 필요 없는 방식은 있었지만, 그것들과 비교해도 높은 성능을 실현할 수 있음을 실험으로 확인했다. 웨이블릿 위치부호화를 사용한 언어 모델은 Ltrain의 약 5배 길이의 토큰열에서도 고품질의 출력이 가능한 데다, 짧은 문맥부터 긴 문맥까지 일관되게 고성능을 실현할 수 있었다. 향후 검토에서는 Ltrain의 5배보다 더 긴 토큰열에 대응할 가능성도 있다.

-- 연산 효율화와 조합하여 이용 --
Transformer의 문맥 창 확장에는 그 외에도 큰 난관이 존재한다. Transformer의 핵심 처리인 Self-Attention(자기주의기구)의 연산량이 토큰열의 길이 L의 제곱으로 급격히 증가하는 것이다. 이미 많은 개선 기술이 제안되었으며, 웨이블릿 위치부호화는 그것들과 조합하여 사용할 수 있다.

문맥 창이 커지면 보다 많은 데이터를 참고한 추론이 가능해지며, 이는 LLM과 VLA 모델의 성능 향상에 직접적인 영향을 준다. 이 때문에 최첨단 LLM에서는 문맥 창의 확장을 위한 경쟁이 계속되고 있다. 2025년 4월, 미국 Meta Platforms가 발표한 ‘Llama 4 Scout’는 1M 토큰을 달성했다고 한다. 문맥을 확장하는 특수한 데이터셋 등을 사용한 학습을 계속하고 있어, 막대한 자금과 계산 자원을 투입하고 있음을 알 수 있다.

이러한 대응이 어려운 많은 기업들에게 재학습이 필요 없는 웨이블릿 위치부호화는 매력적인 선택지가 된다. 또한 이론적으로는 RoPE를 개선한 여러 부호화 방식도 통일적으로 다룰 수 있는 틀이 될 가능성이 있다고 한다. 이는 웨이블릿 위치부호화와 RoPE에는 유사성이 있어, 전자는 후자를 확장한 방식으로 해석할 수 있기 때문이다.

다만 현재의 웨이블릿 위치부호화는 아직 연구 단계이며, NTT의 언어모델 ‘tsuzumi’ 등에 채택하기에는 시기상조라고 본다. 향후에는 이론적 검증과 성능의 추가 검토, 그리고 계산량이 많다는 과제 해결에도 계속해서 노력을 기울일 것이다.

-- 상대적으로 위치를 표현 --
웨이블릿 위치부호화는 Transformer의 여러 위치부호화 방식 중에서도 상대적 위치부호화(RPE)에 속하는 방식의 하나이다. 각 토큰과, 어텐션을 계산하는 상대 토큰의 상대적 위치를 이용함으로써 문맥을 확장해도 계산에 사용되는 위치 범위를 충분히 커버할 수 있다. 초기의 Transformer[arXiv 번호: 1706.03762]는 토큰마다 번호를 부여했기 때문에(절대위치), Ltrain을 초과하면 학습 시점에는 알 수 없었던 위치부호가 등장하여 성능 저하를 일으켰었다.

상대적 위치부호화에서는 Transformer가 갖는 Self-Attention에서 어텐션을 계산하는 토큰에 대해, 다른 토큰과의 상대적인 위치를 나타내는 부호를 부여한다. 쿼리와 키의 내적(Inner Product)으로 어텐션 스코어를 계산할 때, 쿼리와 키 각각이 대표하는 토큰의 상대적 거리에 대응한 값 PE를 가산한다.

PE는 다양한 값을 취할 수 있다. RPE를 제안한 논문[1803.02155]에서는 학습 가능한 파라미터와 쿼리의 내적을 사용한다. 그 후에 나타난 개선 방식 중에서도 처리가 가볍고 효과가 높다고 알려진 ALiBi는 상대적 거리가 증가할수록 선형적으로 감소하는 값을 이용한다. 이들 방식은 Ltrain을 초과하는 토큰열에서 성능 향상 효과가 있지만, 예를 들어 ALiBi는 짧은 문맥 영역에서 RoPE에 뒤처지는 등 약점이 있었다.

NTT의 웨이블릿 위치부호화는 기존 방식보다 우수한 특성을 실현하기 위해, RPE가 이용하는 학습 가능한 파라미터 대신 웨이블릿 함수를 이용하기로 했다. 웨이블릿 함수는 ‘웨이블릿’이라 불리는 파형의 범위(스케일)와 위치(시프트)를, 2개의 파라미터(a, b)에 의해 조정할 수 있도록 한 것이다. 웨이블릿 위치부호화는 특정 상대적 위치를 파라미터를 바꾼 여러 파형(웨이블릿 함수)으로 표현함으로써 효과적으로 위치를 전달하는 방식이라고 할 수 있다.

-- RoPE도 일종의 웨이블릿 방식 --
NTT가 웨이블릿 함수 활용에 착안하게 된 배경에는 RoPE의 이론적 분석이 있다. NTT는 RoPE가 웨이블릿 함수를 부호화에 이용한 방식으로 해석 가능하다는 점을 논문에서 증명하였다.

RoPE는 쿼리와 키 각각의 벡터에 절대위치 m과 n에 대응한 회전을 한다. 구체적으로는 원래 Transformer가 이용하는 것과 동일한 사인 함수를 사용해, 벡터의 차원을 2개씩 페어로 구분하여 각각의 페어를 차원 d에 대응한 다른 각도로 회전시킨다.

NTT는 잘 알려진 Haar 웨이블릿과 유사한 성질의 웨이블릿을 정의함으로써 이 조작이 스케일을 고정하고, 시프트를 변화시킨 웨이블릿 함수의 적용에 상당하는 점을 증명하였다. 그리고 웨이블릿 함수의 스케일도 변경함으로써 RoPE보다 뛰어난 부호화를 실현할 수 있다고 보고, 이번 방식을 개발하기에 이르렀다.

다만 RoPE와 웨이블릿 위치부호화는 본질적인 차이가 존재한다. 파라미터의 변화로 인해 파형이 움직이는 범위가, RoPE는 쿼리와 키 벡터의 차원 방향인데 반해, 웨이블릿 위치부호화에서는 토큰열의 방향이라는 것이다. NTT는 RoPE와 같은 방향으로 웨이블릿 부호화를 적용하는 것도 시도했지만 여러 이유로 인해 단념했다. 원래 웨이블릿 함수는 파형을 시간축과 주파수축의 양면에서 해석하는 웨이블릿 변환에서 사용하는 도구이며, 시간축에 상당하는 토큰열 방향에서 적용하는 것이 적절하다고 생각할 수 있다.

-- 짧은 문맥부터 초과 영영까지 고성능 --
NTT는 웨이블릿 위치부호화의 효과를 여러 실험을 통해 확인했다. 먼저 Transformer 데코더를 사용한 언어모델에 적용하여, 학습 시의 최대 토큰 수 Ltrain을 초과한 영역에서도 성능을 유지할 수 있는지 조사했다. 비교 대상은 기존의 RoPE, 각도 파라미터를 50배로 늘려 짧은 문맥에서 성능을 높인 RoPE, Transformer-XL 방식, 위치부호화를 사용하지 않는 방식(NoPE), ALiBi이다.

모든 조건에서 웨이블릿 위치부호화를 적용한 모델은 성능 지표로 사용한 Perplexity를 가장 낮게 유지했다. 특히 토큰열이 Ltrain을 초과한 경우에도 RoPE의 성능이 상대적으로 높게 유지된 이유는 토큰열을 Ltrain 길이의 여러 세그먼트로 분할하고, 각 세그먼트의 성능을 평균한 값이기 때문이다. 이 조건을 제거하면, RoPE는 토큰 수가 Ltrain의 2배를 넘어서면 NoPE보다 성능이 떨어지고, 더 큰 토큰 수에서는 성능 저하가 매우 크게 나타나는 것을 확인할 수 있다. 또한 토큰 수가 적은 영역에서도 ALiBi나 Transformer-XL보다 RoPE의 성능이 높지만, 웨이블릿 위치부호화는 이를 더 상회하는 성능을 보여주었다.

NTT는 동일한 조건에서 서로 다른 웨이블릿을 사용했을 때의 효과도 조사했다. RoPE를 의식해 Haar 웨이블릿의 스케일을 고정한 경우를 포함한 결과, 다른 웨이블릿과 비교해 성능 저하가 심했다. 다른 웨이블릿은 대개 양호한 성능을 보였는데, 중에서도 가장 성능이 좋았던 것이 NTT가 채택한 Ricker 웨이블릿이었다.

-- 긴 문맥에 대한 평가는 이제부터 --
NTT는 학습 시와 추론 시의 토큰 수를 각각 크게 늘렸을 때의 평가 결과도 제시하고 있다. 파라미터 수가 약 70억 모델(Llama-2-7b)에서, Ltrain을 4k(=4096)까지 확대해도 웨이블릿 위치부호화가 문제없이 동작하는 것을 확인했다. 다만, 성능을 측정한 것은 웨이블릿 위치부호화와 RoPE만으로, 학습에 사용한 데이터도 10억 토큰에 그치는 등 본격적으로 조사하기 전의 예비적인 실험이라고 할 수 있다.

Perplexity를 비교한 결과에서는, 토큰열을 Ltrain으로 구분한 RoPE에 유리한 조건에서 얻은 결과임에도 불구하고 웨이블릿 위치부호화가 일관되게 높은 성능을 보였다. 학습시킨 언어모델로 여러 종류의 태스크를 수행하는 평가도 진행했다. 벤치마크 테스트 ‘LongBench’를 포함하는 질의응답과 요약 태스크를 수행시켜 본 결과, 웨이블릿 위치부호화를 사용한 모델 쪽이 전반적으로 성능이 높았다. NTT는 이들 결과를 잠정적인 것으로 보고 있으며, 보다 큰 데이터셋이나 긴 문맥에 대응할 수 있는 다양한 언어모델을 사용한 평가를 실시할 계획이다.

 -- 끝 --

 

Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

Nikkei Robotics_2025.6 목차

[Sexy Technology]
약진하는 중국의 로봇AI, 휴머노이드 AgiBot이 100만 건의 데이터 공개, 잠재 공간에서 행동 생성형 VLA

NTT가 LLM의 콘텍스트 길이를 확장할 수 있는 신기술, 웨이블릿 함수로 위치 표현

[Case Study]
슈퍼마켓 체인 벨크가 '후토마키' 담기 작업에 촉각 센서 도입, 산산하 홈델리카 공장에서 난이도 높은 식품 적용에 도전

[AI 최전선]
제119회 AI에 의한 소프트웨어 개발 에이전트의 진전과 전망

[Robotics 법률상담실]
제118회 애자일 거버넌스란 무엇인가

[Global Watch]
(미국) 2000종의 식재료에 대응한 담기 로봇, 트레이나 컨베이어도 다양한 타입을 학습
(한국) 50개의 단체와 기업이 ‘K-휴머노이드 연합’, 2030년까지 관민으로 1조원을 투자

 -- 끝 --

Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

 

TOP