일본산업뉴스요약

메타, 새로운 AI 모델 공개 -- 화상의 누락 부분을 고정밀도로 예측
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2023.7.3
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2023-07-10 19:59:44
  • 조회수254

Nikkei X-TECH_2023.7.3

메타, 새로운 AI 모델 공개
화상의 누락 부분을 고정밀도로 예측

미국의 메타플랫폼스(이하, 메타)는 기존의 AI(인공지능)보다 더 사람다운 AI 모델 ‘I-JEPA(Image Joint Embedding Predictive Architecture)’를 개발했다고 자사의 블로그에서 발표했다. 사람처럼 수동적으로 세계를 관찰하는 것만으로도 세계에 관한 이미지 등 추상적인 표현을 비교할 수 있다고 한다.

구체적으로는, 일부가 누락된 화상으로부터 누락된 부분을 고정밀도로 예측할 수 있다. 또한 이 모델은 화상인식 등의 문제에 대해 기존 방법보다 계산 효율이 뛰어나 큰 조정 없이 다양한 애플리케이션에 이용할 수 있다.

-- 메타의 블로그 기사 --
메타는 6월 18~22일 캐나다 밴쿠버에서 개최된 컴퓨터 비전 분야의 국제 회의 ‘The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023(CVPR 2023)’에서 I-JEPA에 대해 발표. 학습 모델 등을 오픈 소스로 공개했다.

I-JEPA는 메타의 수석 AI 사이언티스트인 얀 루칸 박사가 제안한 모델에 기반하고 있다. I-JEPA 개발 배경에 있는 사고방식은 사람이 가진 일반적인 이해에 가까운 추상적인 표현으로 누락 정보를 예측하는 것이다.

일부가 누락된 화상에 대해 I-JEPA는 누락 부분의 외측 부분을 부호화해 예측기에 제공한다. 예측기는 누락 부분에 무엇이 있었는지를 예측한 표현을 출력한다. 예측을 시각화하기 위해 예측기의 출력으로 표현된 내용의 스케치를 묘사하는 생성 모델을 트레이닝했다. 메타가 블로그에서 공개한 결과에서는 예측기가 개의 정수리, 새나 늑대의 발, 건물 반대측 등 사람에게 의미 있는 정보를 인식하고 있었다.

메타에 따르면, 기존의 생성 AI는 무관한 부분에 지나치게 주목하는 성질이 있어, 사람에게는 있을 수 없는 실수를 일으키는 원인이 되고 있다고 한다. 예를 들어, 생성 AI에 있어서 사람의 손을 정확하게 표현하는 것은 매우 어렵다고 알려져 있는데, 그것은 이러한 성질 때문이다.

I-JEPA는 학습의 계산 효율도 뛰어나다. 예를 들면, 미국 엔비디아(NVIDIA)의 GPU(화상처리반도체) ‘A100 Tensor Core GPU’를 16대 사용해, 약 6억 3,200만 개의 파라미터로 이루어진 시각 분류 모델을 72시간 동안 훈련한 결과, 화상 데이터베이스 ‘ImageNet’을 사용한 ‘로우샷 분류’에서 높은 성능을 나타냈다. 기존 방법으로 동등한 결과를 내기 위해서는 210배의 계산 시간이 필요하며, 오답율도 높았다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록