일본산업뉴스요약

오픈AI, 최대 1분 동영상 출력하는 생성 AI 'Sora' 발표 'AGI 달성을 위한 마일스톤'
  • 카테고리AI/ 로봇·드론/ VR
  • 기사일자 2024.2.16
  • 신문사 Nikkei X-TECH
  • 게재면 online
  • 작성자hjtic
  • 날짜2024-02-26 20:05:32
  • 조회수45

Nikkei X-TECH_2024.2.16

오픈AI, 최대 1 동영상 출력하는 생성 AI 'Sora' 발표
'AGI 달성을 위한 마일스톤'

미국 오픈AI(OpenAI)는 미국 시간 2월 15일, 텍스트의 지시를 기반으로 최대 1분의 동영상을 출력할 수 있는 생성 AI(인공지능) ‘Sora’를 발표했다. 일반인에게는 공개하지 않고, 디자이너나 영화 제작자 등에게만 접속을 허가. 당분간은 전문가로부터 모델의 피드백을 받는다고 한다. 오픈AI는 “AGI(범용인공지능)를 달성하기 위한 중요한 마일스톤이 될 것으로 생각하고 있다”라고 밝혔다.

Sora는 텍스트를 동영상으로 변환하는 AI 모델로, 유저의 프롬프트를 이해할 뿐만 아니라, “그 지시가 물리 세계에 어떻게 존재하는지도 이해할 수 있다”(오픈AI)라고 한다. 고도의 동영상 생성 능력과 함께 길이도 최대 1분이라는 것도 특징이다. 미국 런웨이(Runway)의 동영상 생성 AI ‘Gen2’는 최대 16초, 미국 메타(Meta)의 ‘Emu Video’는 최대 4초에 불과하다.

아키텍처는 대규모언어모델(LLM) ‘GPT-4’ 등과 같이 트랜스포머(Transformer)를 채택. GPT와 ‘DALL-E’ 등 오픈AI의 모델에 대한 연구를 베이스로 개발했다고 한다.

오픈AI는 이번 발표 자료에서 Sora의 약점도 언급했다. 복잡한 장면을 정확하게 시뮬레이션하지 못하고, 원인과 결과라는 인과관계를 이해하지 못할 수 있다고 한다. 예를 들어, 사람이 쿠키를 베어 먹은 후 쿠키에 그 흔적이 남지 않는 일이 일어날 수 있다고 한다. 공간 파악에서도 왼쪽과 오른쪽을 혼동할 가능성이 있다.

일반에 공개될 때까지 오픈AI는 중요한 안전대책도 마련할 예정이다. 동영상이 Sora에 의해 언제 생성되었는지를 판별하는 콘텐츠 검출 툴 등을 개발하고 있다고 한다.

 -- 끝 --

Copyright © 2020 [Nikkei XTECH] / Nikkei Business Publications, Inc. All rights reserved.

목록