니케이 로보틱스 2025/11 파나소닉이 LVM의 고속화 기술 개발
Nikkei Robotics요약
Nikkei Robotics_25.11호 (p24)
파나소닉이 LVM의 고속화 기술 개발
텍스트 내용을 기반으로 화상 토큰을 가지치기 압축
파나소닉 홀딩스가 미국 캘리포니아대학 버클리캠퍼스(UCB) 등과 협력해 개발한 'SparseVLM'은 시각 언어 모델(VLM: Vision Language Model)의 추론 처리를 인식 정밀도를 거의 유지하면서 고속화할 수 있는 기술이다. 정지 영상이나 동영상에 관련된 질의응답 등, 문장(프롬프트)과 동시에 화상(이미지)을 입력하는 다양한 태스크를 기존의 VLM 모델에 추가하는 것만으로 고속으로 실행할 수 있으며, 추가 학습은 전혀 필요 없다.
통상적인 LLM과 비교하면, VLM의 실행에는 엄청난 연산 능력과 메모리가 필요하다. 입력된 화상을 변환한 토큰이 문장의 토큰에 비해 압도적으로 많기 때문이다. 특히 고해상도의 정지 영상이나 장시간의 동영상을 모두 토큰으로 변환하면 그 수가 방대해져 한정된 컨텍스트 길이의 한계에 가까워진다.
-- 토큰을 줄여서 처리를 경감 --
실제로 태스크를 실행하는 데 있어 화상 전체에 대응하는 토큰 그룹이 반드시 필요한 것은 아니다. 그렇기 때문에 화상 토큰의 수를 줄임으로써 VLM의 처리를 고속화하는 기술이 지금까지도 다수 제안되어 왔다.
그 중에서도 SparseVLM은 토큰 수를 크게 줄여도 다른 방식과 비교해 성능 저하가 적다. 나중에 소개할 파나소닉과 UCB 등이 실시한 실험에서는, 예를 들어, 화상 1개당 토큰 수를 576개에서 128개로 1/4.5로 줄여도 정밀도 저하는 3.3%에 그쳤다. 비교 대상이었던 기존 방식은 정밀도가 5.7~18.1%나 저하되었다. 이 설정의 경우, SparseVLM과 조합한 VLM의 처리 시간은 원래의 약 4배 이상 감소한다. 속도로 환산하면 1.7배 이상이다.
SparseVLM으로 이와 같은 결과를 얻을 수 있었던 것은 화상과 동시에 입력하는 문장(프롬프트)을 활용해 화상 토큰의 열(Sequence)을 제거하는 방법을 사용했기 때문이다. 기존 방법에서는 프롬프트의 활용을 간과하고 화상 정보만으로 토큰을 줄이는 방법이 많았다. 연구자들 사이에서 SparseVLM에 대한 평가는 높으며, 논문은 2025년 7월에 개최된 기계학습 관련 컨퍼런스인 ‘ICML 2025’에 채택되었다.
이번 성과는 UCB의 산학 연계 프로그램 ‘BAIR (Berkeley Artificial Intelligence Research) Commons’에 기반하고 있다. 파나소닉이 이 프로그램에 참여한 이유는 최첨단 연구를 신속하게 실용화하기 위함이다. 이번 기술도 5년 이내에 어떠한 용도로든 실용화할 방침이라고 한다.
우선은 클라우드 상에서 실행되는 VLM으로의 적용을 상정하고 있으며, 엣지 측으로의 도입도 시야에 넣고 있다. SparseVLM을 이용해 모델을 경량화함으로써, 상대적으로 성능이 낮은 엣지 디바이스로도 보다 높은 정밀도의 모델을 이용할 수 있게 될 것으로 파나소닉은 기대하고 있다. 언젠가는 물리적인 환경에서 작동하는 기기로 실시간 상세하게 환경을 인식하기 위해 VLM을 활용하고 싶다고 한다.
파나소닉과 UCB 등은 SparseVLM의 후속에 해당하는 연구를 현재 진행하고 있다. 상세한 내용에 대해서는 공개하지 않고 있으며, 보다 응용에 가까운 연구라고 한다.
-- 선택한 단어로 중요도를 평가 --
SparseVLM의 기본은 각각의 화상 패치(화상의 분할 결과로, 토큰에 대응)의 중요도를 구하고, 중요도가 작은 것부터 단계적으로 패치를 제거해 나가는 방식이다. 화상 패치(토큰)의 중요도로는 화상과 동시에 입력되는 문장(프롬프트)과의 유사도를 선택했다. 통상적으로 VLM에서는 입력된 문장과 화상의 토큰을 동일한 임베딩 공간에 매핑하기 때문에 토큰 간의 거리 등을 이용해 문장과 화상 사이의 유사도를 측정할 수 있다.
하지만, 문장 전체의 토큰 열과의 사이에서 유사도를 구하면, ‘the’나 ‘is’와 같은 태스크와 직접 관련이 없는 단어들도 포함된다. 이러한 단어 토큰은 계산 부하를 늘릴 뿐만 아니라, 노이즈로 작용해 처리를 방해할 수 있다. 이 때문에 SparseVLM에서는 사전에 유효한 단어의 토큰만을 골라내 평가용 토큰으로 사용하는 방법을 채택했다.
구체적인 처리 절차는 그림 3과 같다. ①가장 먼저 평가용 토큰을 선택한다. 문장 전체의 토큰 열과 화상 전체의 토큰 열 사이에서 각 토큰의 내적을 계산하고, 각 문장의 토큰 별로 화상 토큰 열 전체에서 평균화한 값을 구한다. 이 값을 각각의 문장 토큰의 유효도라고 생각하고, 유효도가 평균보다 높은 문장 토큰을 평가용 토큰으로 선택한다.
-- 제거한 토큰의 재이용도 --
그 다음 처리는 트랜스포머 디코더 내의 처리 블록 별로 실행한다. ②우선 중요도가 낮은 화상 토큰을 제거하고 ③제거한 화상 토큰 가운데에서 일부를 재이용하는 흐름이다.
②에서는 트랜스포머 블록 내의 자기주의 메커니즘으로 계산한 값을 사용해 각 화상 토큰의 중요도를 구한다. 평가 토큰을 쿼리, 화상 토큰을 키로 할 경우의 주의를 이용한다. 이 주의의 값을 각각의 화상 토큰 별로 문장 토큰 열 전체에서 평균화해 그 화상 토큰의 중요도 삼는다. 중요도가 낮은 것부터 N개의 화상 토큰을 제거하고, 나머지를 다음 처리(MLP)로 보낸다. 이때 N은 사전에 지정하고, 화상 토큰 간의 중복도를 고려해 트랜스포머 블록 별로 제거하는 방법도 제안했다.
③은 제거된 토큰 중에도 유용한 정보가 남아있다는 생각에 기반해 있다. 제거된 토큰 중에서 비교적 중요도가 높은 것을 선택하고, 그것들을 한데 묶은 토큰을 화상 토큰으로 재이용하면 정보 유실을 방지할 수 있다고 생각했다. 구체적으로는 먼저, 선택한 토큰을 임베딩 공간 내 거리에 따라서 복수의 클러스터로 나눈다. 그 다음에 클러스터 별로 소속되어 있는 모든 토큰을 요소 별로 가산한 토큰을 작성한다.
-- 정밀도를 유지하며 부하를 경감 --
SparseVLM의 효과는 복수의 실험을 통해 검증되었다. 우선, VLM의 능력을 측정하는 8종류의 벤치마크 테스트를 이용해 기존 VLM(LLaVA- 1.5)과 SparseVLM이 조합된 것의 성능을 조사했다. 화상 토큰을 제거하는 기존 방법인 ToMe, FastV, PDrop을 비교 대상으로 해 원래의 토큰 수(576)를 줄인 경우에 인식 정밀도와 지연 시간이 어느 정도 변화하는지를 측정했다.
그 결과, 토큰 수를 원래의 1/3~1/9까지 제거해도 SparseVLM의 정밀도는 일관적으로 다른 방식보다 크게 높았다. 토큰 수 128(원래의 1/4.5)에서는 원래의 약 97%, 토큰 수 64(원래의 1/9)에서도 원래의 89%의 정밀도를 유지했다. 그림 속 수치는 8종류의 벤치마크의 평균으로, 각각의 벤치마크의 평가에서도 SparseVLM의 정밀도는 거의 모든 경우에서 다른 방식보다 높았다(24개 평가 중 20개 평가).
지연 시간은 ToMe와 FastV보다 약간 길었지만, 128토큰에서 원래의 42.4% 감소, 64토큰에서 원래의 48.3% 감소를 기록, 속도로 환산하면 2배에 가깝다.
이 밖에도 VLM을 Mini-Gemini(2403.18814)로 바꿔서 POPE, TextVQA, GQA로 ToMe, FastV와 비교한 실험에서도 그림 5와 같이 토큰 수가 줄어들수록 정밀도에 차이가 나는 결과가 나왔다. 화상 토큰 수를 다이나믹하게 바꾸는 Qwen2-VL(2409.12191)을 VLM으로 사용해 MMB, POPE, TextVQA를 실행시키는 경우에도 SparseVLM에 의한 정밀도 저하는 매우 작았다.
파나소닉과 UCB 등은 동영상을 대상으로 한 4종류의 벤치마크 테스트의 결과도 공개했다. VLM은 Video-LLaVA로, 비교 대상은 FastV였다. SparseVLM로 토큰 수를 원래의 2,048에서 194(9.5%)까지 줄여도 평균 정밀도는 원래의 95.0%로, FastV의 80.3%보다 크게 앞섰다.
-- 2가지 고안의 유효성도 검증 --
파나소닉과 UCB는 SparseVLM의 특징인 입력된 문장(프롬프트)에서 평가용 토큰을 선택하는 방법과 제거한 토큰을 재이용하는 방법의 효과에 대해서도 조사했다. 전자는 화상 토큰의 중요도를 측정하기 위해 모든 토큰과의 사이의 주의를 이용하는 방법 및 모든 문장 토큰과의 주의를 이용하는 방법과 평가용 토큰을 사용하는 방법을 비교했다. 그 결과, 벤치마크에 따라 다르지만, 정밀도가 수 포인트 향상되는 효과를 확인할 수 있었다.
제거한 토큰의 재이용 효과를 나타낸 것이 그림 7이다. 재이용의 유무가 토큰 제거 후의 성능에 어느 정도 영향을 미치는지를 2종류의 벤치마크 테스트를 통해 확인했다. 모든 벤치마크에서 토큰 수가 줄어들수록 재이용 효과가 뚜렷하게 나타났다.
-- 끝 --
Copyright © 2026 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.
목차

목차_Nikkei Robotics_25.11호
Sexy Technology
드디어 대규모 로봇 기반 모델에 강화학습의 파도가
Diffusion Policy의 노이즈 조작 거동 최적화, 파인튜닝 필요 없어
파나소닉이 VLM의 고속화 기술 개발
텍스트의 내용을 바탕으로 화상 토큰을 가지치기 압축
Robotics 법률 상담실
제 123회 도쿄 도내의 로봇 택시 구현을 목표로 한 도로교통법상의 논점 정리
Case Study
파스코의 시키시마제빵, 빵 제조에 처음으로 로봇 도입
머스터드 등 토핑을 자동화, 개체 차이에 대응
Global Watch
스위스 - 로봇팔이 라스트의 자세를 자동으로 제어
스프레이 분사로 갑피 제조를 3분으로 단축
한국 - 삼성전자가 9번째 AI 포럼 개최
반도체에 특화된 AI 에이전트의 업무 활용을 목표로
AI 최전선
제124회 장기 태스크 능력의 지수적 진화
-- 끝 --
Copyright © 2026 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

