니케이 로보틱스 2025/9 소니AI, 경량의 화상 기반 모델 개발
Nikkei Robotics요약
닛케이 ROBOTICS_25.09호 (p24~29)
소니AI, 경량의 화상 기반 모델 개발
10개 이상의 작업에서 최고 수준의 성능 실현
10개 이상의 화상(畵像)인식 작업을 실행할 수 있을 뿐만 아니라, 그 대부분에서 규모가 비슷하거나 그 이상의 모델보다 높은 성능을 실현할 수 있다. 소량의 데이터세트로 전용 디코더만을 파인튜닝할 경우, 새로운 작업 추가도 용이하다. 화상의 특징량 추출에 이용되는 기간 부분(백본)의 파라미터 수도 1억(100M)개로, 비교적 작은 규모이다.
소니그룹 산하의 소니AI가 개발한 이 화상 기반 모델(VFM: Vision Foundation Model)은 인상적인 특징을 여러 개 가지고 있다. 소니AI는 이 VFM에 그리스신화에 나오는 100개의 눈을 가진 거인 '아르고스(Argus)'의 이름을 따와 붙이고, 최고 권위의 컴퓨터비전 학회인 'CPVR 2025'에서 발표했다.
-- 엣지 기기용을 염두에 --
소니AI가 발표한 논문을 통해 알 수 있는 아르고스의 실력은 눈부시다. 소니AI는 아르고스의 높은 성능을 많은 모델들과 비교해 실증했다. 화상 기반 모델 총 10종류, 특정 작업 전용 모델 2종류, 멀티태스킹 모델 2종류를 비교 대상으로 했다. 그 결과, 12개의 작업 중 10개에서 최고 성능을 달성했고, 나머지 2개도 2위였다.
쉽게 작업을 추가할 수 있다는 것도 확인되었다. 아르고스 연구팀의 리더인 Lingjuan Lyu 씨에 따르면, 논문에서 발표한 아르고스 버전1은 9개월 간의 연구 기간 동안 12개 작업을 구현했다. 그 후 6개월 동안에 완성된 버전1.5에서는 5개의 작업을 더 추가, 실행 가능한 작업은 총 17개까지 증가했다. 새롭게 추가된 작업에는 초해상이나 데노이징(Denoising)과 같은 낮은 레벨의 화상 처리와 OCR 기능이 포함되어 있다. 아르고스 연구팀은 이후에도 개발을 추진해오고 있으며, 현재는 화상의 인식∙이해∙생성을 종합한 차세대 모델을 개발하고 있다.
아르고스의 주된 목적은 이른바 엣지 기기로의 응용인 것으로 보인다. Lyu씨는 "아르고스와 같은 컴팩트한 모델이 메모리나 계산 능력이 한정되어 있는 엣지 기기용 AI의 미래에 기여할 수 있다'라고 소니AI의 블로그에서 밝혔다. 본지의 취재에서 그는 실용상의 첫 번째 과제는 상용에 버틸 수 있는 데이터세트를 이용한 모델의 재학습이라고 언급. 두 번째 과제로는 소규모 또는 증류한 버전이 향후 필요하게 될 가능성을 지적했다. 센서나 계산 자원이 한정된 기기에 응용하기 위해서라고 한다.
하지만, 구체적인 실용화 계획은 일체 밝히지 않고 있다. 향후, 소니 및 파트너사 제품에 대한 지원이 연구의 최종 목적이라고 표명한 정도에 불과하다. 또한, GitHub에서의 공개 등, 아르고스의 오픈소스화는 사내에서 검토 중이라고 한다.
-- 작업에 맞는 특징량을 추출 --
소니AI가 아르고스에서 채택한 것은 이미 존재하는 화상 기반 모델의 이점을 활용하면서 부족한 부분을 강화하는 접근법이다. 소니AI는 대량의 화상 데이터로 학습이 완료된 모델을 인터넷을 통해 입수해 입력 화상의 특징량을 추출하는 백본의 일부에 이용했다. 그런 다음, 기존 모델을 보완하고 개별 작업을 고려한 특징량을 출력할 수 있는 소규모 DNN(Deep Neural Network)을 백본의 일부로 조합했다.
어댑터라고 불리는 이 DNN을 복수의 기본적인 화상 인식 작업을 통해 학습시킴으로써 백본이 폭넓은 용도로 사용될 수 있는 특징량을 출력할 수 있게 된다. 많은 작업에서 공통의 범용적인 특징량을 기존 모델이 출력하고, 각각의 작업을 의식한 특징량을 어댑터가 보완하는 이미지이다. 아르고스가 많은 작업을 높은 성능으로 실행할 수 있는 것은 어댑터의 보완 이후의 특징량이 우수하기 때문으로 보인다.
소니AI는 아르고스에 다수의 작업 실행 능력을 갖게 하기 위해 2단계의 학습을 실행했다. 첫 번째가 앞에서 서술한 백본의 학습이다. 아르고스는 백본에 각각의 작업 전용의 디코더를 연결한 구성을 채택하고 있다. 1단계 학습에서는 소니가 화상 인식의 핵심 작업으로 평가하고 있는 5개의 작업용 디코더를 연결한 다음, 그것들을 병행하여 학습시키는 멀티태스킹 학습을 실행했다. 백본 중 기존 모델에는 Meta Platforms의 DINOv2를 이용, 작업용의 디코더에는 각각의 작업에 적합한 DNN을 사용했다.
2단계 학습에서는 백본의 파라미터를 모두 동결한 상태에서 새롭게 추가되는 작업을 각각 학습시킨다. 이 단계에서 갱신하는 것은 작업용 디코더뿐이다. 그 결과, 아르고스에서는 공통 백본을 모든 작업에서 돌아가며 사용할 수 있게 된다.
-- 멀티태스킹 학습이 열쇠 --
복수의 작업을 실행하는 모델에서는 작업이 추가되면 기존 작업의 성능이 열화(劣化)되는 경우가 있지만, 백본의 파라미터를 변경하지 않는 아르고스 기법에서는 그럴 걱정이 없다. 작업을 추가할 때에는 디코더의 학습만으로 끝나기 때문에 학습 부담도 적다. 어떤 작업이든 백본이 동일하기 때문에 모델 관리도 편하다. 아르고스의 이용자는 목적으로 하지 않은 작업의 디코더를 생략할 수 있기 때문에 모델의 규모를 불필요하게 크게 하지 않아도 된다.
이러한 구성이 가능해진 것은 학습 후의 어댑터가 적절하게 특징량을 보완하기 때문이다. 이것을 실현할 수 있었던 열쇠는 5종류의 핵심 작업을 사용한 멀티태스킹 학습에 있다고 소니AI는 보고 있다. 소니AI가 선택한 핵심 작업은 화상 전체의 정보를 통해 판단하는 화상 분류, 화상 속 영역을 구별하는 물체 검출과 자세 추정, 화소 단위로 판단하는 세그먼테이션(Segmentation)과 같은 서로 다른 수준의 특징을 대상으로 한다. 이것들을 동시에 학습시킴으로써 복수의 해상도 특징량을 균형 있게 추출할 수 있으며, 각 작업의 디코더는 그 중에서 유용한 것을 포착하여 이용할 수 있게 된다.
-- 3가지 개선으로 성능 향상 --
소니AI는 백본의 아키텍처도 고안했다. 어댑터에 CNN 베이스의 구조를 채택하여 4종류의 해상도 특징 맵을 추출. 그것들과 DINOv2의 특징량이 상호주의 기구를 통해 서로 반영하도록 했다.
동일한 구성을 이용하는 모델은 이전에도 있었지만, 소니AI는 크게 3가지 개량을 실시하여 성능을 끌어올렸다. (1)우선, DINOv2의 파라미터를 동결하고, 멀티태스킹 학습 등을 할 때, 변경하지 않았다. 이 방법으로 성능이 높아진다는 것을 실험을 통해 밝혀냈다. 학습 시에 DINOv2의 파라미터를 갱신할 경우, 학습된 지식이 없어진다는 것이 이유라고 한다.
(2)그 다음에 어댑터 중의 배치 정칙화(Batch Normalization)를 그룹 정칙화로 교체했다. 백본에 배치 정칙화층을 이용할 경우, 추론 시에 서로 다른 작업의 데이터가 포함된 평균이나 분산을 이용하게 되고, 이것이 성능 열화의 원인이 된다. 하나의 샘플 안에서 평균이나 분산을 계산해 정칙화하는 그룹 정칙화의 경우, 이러한 문제는 발생하지 않는다.
(3)마지막으로, 어댑터의 특징량과의 상호주의를 계산하기 전에 DINOv2의 내부에서 구한 특징량 벡터(토큰)을 스케일링했다. 사전 학습이 끝난 ViT인 DINOv2의 내부에서는 ViT 블록의 처리가 증가할수록 특징량의 노름(Norm)이 증대한다. 그 결과, 처리를 통해 노름과 같은 정도의 범위에 들어가는 어댑터 측의 특징량 간의 부정합이 발생한다. 이러한 상태로는 계산에 악영향이 있기 때문에 ViT 측 특징량의 노름이 같은 정도의 범위에 들어가도록 스케일링해 문제를 피했다.
-- 눈에 띄는 높은 성능 --
아르고스와 다른 모델의 성능을 비교한 결과가 그림 4와 그림 5이다. 전자는 핵심 작업, 후자는 추가 작업의 결과로, 두 가지 모두 아르고스가 모델들 가운데 최고의 성능을 달성했다. 그래프에는 없지만, 그림 4의 화상 분류와 물체 검출에서는 Florence-2-B의 선행 모델인 Florence(파라미터 수 893M)가 각각 90.0%, 62.4%를 달성하였으며, 아르고스는 그 뒤를 이어 2위를 기록했다. 모든 성능 비교 중에서 아르고스가 다른 모델에 뒤처진 것은 이 2가지 작업뿐이다.
주목할 만한 것은 아르고스의 백본 파라미터 수가 총 100M인 반면, 그 2배~20배 이상인 모델과 비교해도 성능이 같거나 그 이상이라는 점이다. 화상 분류나 물체 검출에서는 파라미터 수 308M의 Uni-perciever v2-B와 같은 정도이며, 인스턴스 세그멘테이션에서는 더 높다. 2.9B의 Unified-IO XL과 비교하면, 화상 분류와 심도 추정에서 아르고스가 더 높다.
아르고스는 용도에 보다 특화된 모델과 비교해도 좋은 결과를 기록했다. 자세 추정에서는 전용 모델 ViTPose (파라미터 수 86M)를 뛰어넘고, 이상 검출에서도 전용인 DREAM(69M)을 능가한다. 멀티태스킹 모델인 InvPT(176M)나 TaskExpert(347M)도 파라미터 수가 많음에도 불구하고 아르고스에 미치지 못한다.
-- 학습법이나 데이터 품질의 개선도 --
모든 작업에서 비교 대상으로 삼은 것이 백본의 일부로 이용한 DINOv2이다. DINOv2의 파라미터를 동결하고, 아르고스와 같은 디코더를 연결하여 추가 학습을 시킨 결과, 모든 작업에서 아르고스의 성능이 높았다. 이것은 DINOv2에 어댑터를 연결하여 멀티태스킹 학습을 시킨 것이 성능 향상에 크게 기여했다는 증거라고 할 수 있다.
아르고스의 성능을 한층 더 향상시키는 방법은 모델 규모의 확대이다. 실제로 DINOv2와 어댑터의 파라미터 수를 늘리면 성능이 높아진다는 것을 소니AI는 확인했다. 하지만, 엣지 기기로의 응용을 상정하면 규모 확대는 바람직한 것은 아니다. 그 외의 방법으로 소니AI는 작업 간의 경합을 방지할 수 있는 멀티태스킹 학습방식의 개선과 품질이 높은 학습 데이터의 이용 등이 유망하다고 보고 있다.
-- 끝 –
Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.
목차

Nikkei Robotics_2024.9 목차
[Cool Topic]
〮 Physical Intelligence와 협업하는 일본 스타트업
275억 엔을 조달해 Telexistence 개발, 로봇 AI의 실용화를 목표로
[Robotics 법률 상담실]
<제 121회>
자율주행 시대의 막을 열기 위해 필요한 법제도 정비, 지금 어떻게 추진되고 있나?
[Case Study]
〮 게이오대학병원이 미국의 Relay에서 가와사키중공업의 반송로봇으로 교체
가반 용량을 확대해 약제뿐만 아니라, 검체 반송에도 이용
[Sexy Technology]
〮 소니AI가 경량의 화상 기반 모델 발매
10개 이상의 작업에서 최고 수준의 성능 달성
[Global Watch]
<미국>
로스엔젤레스 시가지에서 단련된 식사배송로봇
올해 2,000대 도입 추진
<한국>
LG그룹, 제품 개발에서의 AI 활용 확대
LLM ‘EXAONE’의 B2B 비즈니스도 강화
[AI 최전선]
<제 122회>
수학과 AI
- Terence Tao가 말하는 미래
-- 끝 --
Copyright © 2025 [Nikkei Robotics] / Nikkei Business Publications, Inc. All rights reserved.

