오류 메시지

Deprecated function: Array and string offset access syntax with curly braces is deprecated in include_once() (line 20 of /hjtic1/www/includes/file.phar.inc).

니케이 로보틱스 2025/8 뉴럴네트워크에 대한 작업의 추가∙삭제가 용이해져

책 커버 표지
목차

요약

닛케이로보틱스_25.08호

뉴럴네트워크에 대한 작업의 추가∙삭제가 용이해져
도쿄과학대학과 ZOZO 등이 개발한 새로운 정칙화 기술

심층학습의 가장 큰 과제인 학습 부담을 줄이는 방법으로 학습하지 않고 DNN의 파라미터를 직접 편집하는 기술이 최근 주목받고 있다. 그 대표적인 것 중 하나가 테스크 산술(task arithmetic)[arXive: 2212.04089]이다. 동일한 아키텍처 모델 간에 같은 부분의 파라미터 값을 더하거나 뺌으로써 작업 처리 능력을 추가하거나, 삭제할 수 있다. 하지만, 파라미터의 단순한 가감산으로는 실현할 수 있는 성능이 낮다는 등, 문제가 많았다.

그러한 문제 개선에 성과를 거둔 곳이 도쿄과학대학과 ZOZO연구소, 캐나다의 Université de Montréal 등으로 구성된 연구그룹이다. 파라미터를 가감산하기 전의 모델 학습에 사용되는 정칙화(正則化, Regularization) 기법으로 Jp라고 불리는 양을 사용하는 방식을 제안했다. 이것을 이용하여 학습시킨 모델은 다른 작업의 악영향(간섭)을 사전에 억제할 수 있다. 이러한 모델들을 태스크 산술에 이용해 멀티태스킹 모델로 작성하면, 개별 모델과 비교해도 손색없는 성능을 달성할 수 있다. 또한, 태스크 산술에서 불가결했던 작업별 최적 계수의 탐색이 기본적으로 불필요하다는 등의 이점도 있다. 이 기술은 학회에서 높은 평가를 받아, 올 4월에 개최된 심층학습 학회 중 하나인 ‘ICLR 2025'에 채택되었다.

Jp 정칙화가 전제로 하는 것은 범용적 지식을 갖춘 사전학습 모델을 개별 작업을 통해 파인튜닝한 복수의 모델로 만드는 상황이다. 파인튜닝 전후의 파라미터 차이를 ‘태스크벡터(Task Vector)’라고 부르며, 이것을 사전학습 모델의 파라미터에 가감산하는 것만으로, 다양한 개별 모델의 능력을 부여하거나 삭제할 수 있게 된다. 복수 작업의 처리 능력을 하나의 모델로 쉽게 통합할 수 있고, 부적절한 동작을 모델에서 빼거나, 작업 자체는 같아도 오래된 파라미터를 삭제하고 새로운 데이터로 학습시킨 파라미터로 교체하는 것도 가능하다.

-- 병합이나 MTL과 비교해 이점 --
모델의 파라미터를 편집하는 기술에는 기존 모델의 파라미터나 층을 조합해 새로운 모델을 만드는 ‘모델머지(Model Merging)기술’도 있다. 태스크 산출은 모델머지를 실행하는 수단 중 하나라고 말할 수 있다. 연구그룹은 후술하는 실험을 통해 Jp 정칙화를 사용함으로써 복수의 기존 모델머지기술보다도 성능이 높은 멀티태스킹 모델을 구성할 수 있다는 것을 밝혔다. 또한, 모델머지기술에서는 각 모델 계수 외에 하이퍼파라미터 조정이 필요한 경우도 있지만, Jp 정칙화에서는 그러한 번거로움이 없다.

이번 기술은 그전까지 학습시킨 지식을 없애지 않고 새로운 작업의 지식을 추가할 수 있기 때문에 지속학습기술의 일종이라고도 볼 수 있다. 연구그룹은 Jp 정칙화에 기반한 멀티태스킹 모델에 학습 당시에는 미지였던 작업을 추가하는 조건에서도 높은 효과를 얻을 수 있다는 사실도 확인했다. 멀티태스킹 모델을 구성할 때에는 모든 작업을 동시에 학습시키는 멀티태스크학습(MTL)이 성능 향상에는 유리하지만, 멀티태스크학습으로 작성한 모델에는 그러한 유연성이 없다.

하지만, 현재의 Jp 정칙화는 아직 연구 단계의 기술이다. 공동연구에 참여한 ZOZO연구소도 이것을 현재의 사업과는 직접적으로는 관련이 없는 기초연구로 규정, 바로 이용할 예정은 없다고 한다.

향후 개선되어야 할 점은 여러 가지가 있다. 도쿄과학대학과 ZOZO 연구소 등은 계산량 경감이나 적용 조건 완화와 같은 개선을 추진해 실용성을 높여 나갈 방침이라고 한다.

-- 작업간 간섭의 새로운 지표 --
이번 기술의 바탕에 있는 것은 ‘태스크 산술로 작성한 멀티태스킹 모델의 성능이 개별 작업만으로 학습시킨 모델보다 낮은 이유는 작업간 간섭에 있다'라는 아이디어이다. 이 간섭을 제로로 할 수 있다면 두 모델의 출력은 같아진다. 반대로 말하면, 작업간 간섭 정도는 멀티태스킹 모델과 개별태스킹 모델에 동일한 데이터를 입력했을 때, 각각 출력된 결과의 차이로 나타나는 것이다. 대상이 되는 작업의 모든 입력 데이터에서 이 두 모델의 출력이 일치하면 간섭이 전혀 없다고 말할 수 있는 것이다.

이러한 발상에 따라 2개의 작업간 간섭 정도를 나타내는 지표로 ‘무게 분리 오차’[2305.12827]가 있다. 하지만, 이 지표는 미분할 수 없기 때문에 학습의 정칙화에는 이용할 수 없었다.

연구그룹이 주목한 것은 위의 논문[2305.12827]이 무게 분리 오차를 줄일 수 있는 방법으로 제안한 ‘모델을 선형근사한 다음 학습시키는 방법’이다. 연구그룹은 이 근사를 각 모델의 출력을 나타내는 수식에 적용하면 멀티태스킹 모델과 개별 모델의 출력 차이가 하나의 항에 집약된다는 사실을 알아냈다. 구체적으로는, 간섭을 없애고 싶은 작업의 태스크벡터 와 해당 작업의 데이터를 입력해 구한 사전학습 모델의 기울기(야코비행렬)의 곱이다.

이 값이 제로가 되면 멀티태스킹 모델과 개별 모델의 출력은 일치한다. 이것은 한쪽 작업의 태스크벡터와 다른 쪽 작업에서 사전학습 모델을 사용했을 경우의 기울기가 직교한 상태를 의미한다. 대략적으로 말하면, 다른 쪽의 작업과 직교하는 방향으로 태스크벡터가 향하면 두 작업간 간섭은 제로가 된다.

두 작업간 간섭을 고려했을 때, 태스크벡터와 야코비 행렬의 곱은 2가지가 있다. 연구그룹은 이 2가지의 곱을 정리한 값을 작업간 간섭의 지표 Jp’라고 정의했다. 선형근사 모델에서는 Jp가 작을수록 두 개의 출력이 가까워지고, 제로가 되면 간섭도 제로가 된다는 것을 이론상 보증할 수 있다. 더 나아가 Jp는 미분이 가능하기 때문에 학습의 정칙화에 이용할 수 있다.

-- 선형근사 모델을 정칙화 --
이 지표를 바탕으로 연구그룹이 제안한 것이 Jp 정칙화이다. 통상적인 손실함수에 Jp 에 기반한 정칙화항(項)을 추가해 선형근사 모델을 학습시키는 방법이다. 정칙화항에서는 간섭을 방지하고 싶은 모든 작업에 대해 Jp를 구해 합산하는 대신 이터레이션(Iteration)별로 선택한 하나의 작업에 대해서만 Jp를 계산함으로써 계산 부하를 억제했다. 이 방법을 사용하면, 전체 작업분을 합산하는 경우와 비교해 정밀도 열화를 최소화하면서 계산에 필요한 시간을 대폭 줄일 수 있다.

연구그룹은 제안한 방법의 효과를 복수의 실험을 통해 확인했다. 우선, 2개의 작업간 간섭을 어느 정도 억제할 수 있는지를 조사한 결과가 그림4이다. 작업 추가 시 각 작업의 계수를 변경했을 때, 간섭 정도(무게 분리 오차)가 어떻게 변화하는지를 나타내고 있다. 정칙화가 실시되지 않은 경우(선형 파인튜닝), 계수의 조합에 따라 간섭 정도가 크게 바뀌는데 반해, Jp 정칙화에서는 큰 차이가 없다.

-- 화상 처리나 NLP에서 높은 효과 --
실제로 태스크 산술을 실행했을 때의 효과도 조사했다. 8종류의 화상인식 작업에서 사전학습 모델을 파인튜닝한 8개의 개별 모델을 마련하고, 그 모델들의 태스크벡터를 사전 학습모델에 가감산한 모델을 작성. 그 성능을 기존의 태스크 산술이나 모델머지의 방식으로 작성한 모델과 비교했다. 그 결과, Jp 정칙화에 기반한 모델은 어떤 가감산을 실시한 경우에도 다른 방법보다 높은 성능을 실현했다.

특히 가산의 경우에는 모델별 계수를 1로 해도 다른 것들에 비해 최고의 정밀도를 실현했다. 이론상 Jp 정칙화에서는 간섭이 제로인 경우, 두 모델의 계수가 1일 때 최적이 되기 때문에 계수 탐색이 불필요하다. 실제 실험에서 이 주장이 증명된 것이다.

하지만, 작업 삭제의 경우, 계수 1에서는 효과가 낮아 Jp 정칙화에서도 그리드서치가 필요했다. 작업 삭제에서는 간섭이 전혀 없는 경우에 대한 이론상의 최적 계수는 음의 무한대이지만, 실제로는 간섭이 아주 조금은 남아 있기 때문에 계수 탐색이 필요하다고 한다.

자연어처리(NLP) 작업에서 동일한 실험을 한 결과가 그림 6이다. 이 실험에서도 Jp 정칙화의 우위성이 부각되었다. 작업을 삭제하는 실험에서는 보류 중인 작업의 성능(Perplexity)이 다른 방식보다 약간 뒤떨어지지만, 그 외의 지표에서는 기본적으로 다른 것들을 능가하고 있다.

-- 연속학습이나 기존 모델의 활용도 --
이상의 실험에서는 정칙화항의 값을 다른 모든 작업에 대해 구했다. 이에 반해 태스크를 추가해 나갈 때 간섭을 배제하는 대상을 이전에 추가한 작업으로만 했을 경우에는 어떻게 될지도 연구그룹은 조사했다. 그 결과, 이러한 조건에서도 전체 작업을 대상으로 한 경우와 비슷한 정밀도를 실현할 수 있다는 것을 알 수 있었다.

이 특징은 태스크 산술을 이용하여 새로운 작업을 지속적으로 학습시키는 경우에 중요하다. 개별 작업을 파인튜닝할 때는 앞으로 어떤 작업이 추가될지 미지수이기 때문이다. 또한, 새롭게 추가하는 작업의 정칙화에서는 그 전까지 추가한 모든 작업의 데이터가 필요하다. 단, 이용하는 것은 입력 데이터만으로, 정답 레이블은 불필요하다.

연구팀은 이번 방식이 선형 파인튜닝으로 학습이 완료된 모델에 많이 적용할 수 있을 것으로 생각하고 있다. 그래서 기존 모델을 초기 값으로 하여 Jp 정칙화로 추가 학습을 시켰을 때, 작업 추가 후 모델의 성능이 어떻게 변하는지를 조사했다. 그 결과, 성능이 양호하며, 100 이터레이션 학습시킨 것만으로 정밀도가 개별 모델의 99% 이상에 달했으며, 300 이터레이션에서는 99.5%를 넘었다. 또한, 추가 학습에 이용하는 데이터의 양은 통상적인 파인튜닝과 비교해 적어도 된다고 한다. 어디까지 줄일 수 있을지는 향후 검토 과제이다.

앞으로 개선해야 할 큰 문제는 학습 시간의 길이다. 상술한 독창적 방법을 통해 통상적인 선형 파인튜닝에 비해 오버헤드는 줄일 수 있지만, 선형 파인튜닝 자체가 일반 파인튜닝의 2~3배의 시간을 필요로 한다고 한다. 이미 LoRA와 선형 파인튜닝을 조합한 기법[2310.04742]이 등장하고 있어, 연구그룹도 이와 같은 방향을 생각하고 있다고 한다. 이 외에도, 선형근사 모델뿐만 아니라, 통상적인 모델 학습에  정칙화항을 이용할 수 있을지에 대해서도 검토할 계획이다.

 

 -- 끝 --

Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP

목차

Nikkei Robotics_2024.8 목차

[Sexy Technology]
〮 구글이 Asimov 3원칙을 현대적으로 재고
  대규모 언어모델에 의한 로봇 헌법 등장
〮 뉴럴네트워크에 대한 작업의 추가∙삭제가 용이해져
  도쿄과학대학과 ZOZO 등의 새로운 정칙화 기술

[AI 최전선]
제 121회 AlphaEvolve: 진화하는 프로그램

[Robotics 법률 상담실]
제 120회 사이버네틱 아바타를 둘러싼 법적 문제 검토는 현재 어느 단계에 와있나?

[Case Study]
호텔 선루트 플라자 신주쿠가 자율배송로봇 도입
극적으로 간소화된 엘리베이터와의 연계, Octa의 LCI가 기여

[Global Watch]
<미국>
〮 꿀벌 50만 마리를 키우는 로봇 양봉상자
  AI로 건강 상태를 확인하며 환경을 자동으로 제어
<한국>
〮 한국의 새로운 정부, 민관이 독자적인 AI 기반 모델을 개발
  SK와 LG는 그룹 차원에서 AI 데이터센터에 주력

  -- 끝 –

 

Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

TOP