책 커버 표지
일경사이언스_2019/01_속이는 AI vs. 꿰뚫어보는 AI
  • 저자 : 日経BP社
  • 발행일 : 20190101
  • 페이지수/크기 : 112page/28cm

요약

Nikkei Science_2019.1 특집 요약 (p44~49)

특집: Fake를 타파
속이는 AI vs. 꿰뚫어보는 AI
가짜 동영상을 간파하는 기술

 

동영상 제작에 대한 기술 없이도 AI를 활용해 가짜 동영상을 만들 수 있게 되었다. 가짜 동영상을 만드는 AI. 하지만 그것을 판별하는데도 AI가 활약하고 있다. AI의 가짜 동영상 생성 방법의 약점을 통해 판별해낸다고 한다.

일본경쟁신문사의 연구 조직, ‘닛케이(日経) 이노베이션 연구실’의 협력을 얻어 실제로 가짜 동영상을 제작해보았다. 필자가 비디오카메라 기능이 있는 노트북 앞에서 표정을 취하자, 화면에 비춰진 트럼프 대통령이 자신과 똑같이 입을 벌리거나 고개를 끄덕였다.

시스템 개발에 필요한 시간은 실질적으로 일주일 정도. 표준 기술을 가진 엔지니어라면 특별한 지식 없이도 간단히 만들 수 있다고 한다. 필요한 장비는 노트북뿐이며 별도로 특별한 장치를 구매할 필요가 없다.

가짜 동영상을 만드는 기술은 나날이 발전하고 있다. 자세히 보지 않으면 가짜인지 알 수 없는 정교한 가짜 동영상도 등장하고 있다. 이러한 가짜 동영상의 양산이 간단히 이루어진다면, 정치가의 연설이나 감시 카메라 동영상을 신용할 수 없게 되는 등 사회에 큰 위협이 될 것이다.

이러한 시대에 대비하기 위해 AI로 만든 가짜 동영상을 AI로 판별하는 기술의 연구가 일본에서도 이미 시작되었다. 국립정보학연구소가 개발한 것은 높은 확률로 진짜와 가짜를 판별하는 AI 기술이다. 사람이 판별해낼 수 없는 진짜와 가짜의 차이를 AI는 어떻게 간파해 낼 수 있는 것일까? 그 열쇠는 가짜 동영상을 만드는 AI의 한 가지 성질에 있다.

“노트북 앞에 앉아주세요”. 도쿄 오테마치(大手町)에 있는 닛케이 이노베이션 연구소 사무실. 이곳의 나카지마(中島) 상석연구원은 이렇게 말하며 필자에게 의자를 권했다. 노트북 화면에는 트럼프 대통령의 얼굴이 비춰지고 있었다. 필자가 크게 입을 벌리자 화면 속 트럼프 대통령도 똑같이 입을 벌렸다. 고개를 왼쪽으로 돌리자 트럼프 대통령도 왼쪽으로 움직였고 크게 웃자 화면 속 트럼프 대통령도 웃었다.

-- 가짜 동영상을 제작해보다 --
시스템을 개발한 것은 닛케이 이노베이션 랩의 연구원들이다. 컴퓨터에 탑재된 카메라로 촬영한 사람의 표정을 만들고 싶은 가짜 동영상의 인물의 표정으로 합성하는 ‘Face2Face’로 불리는 방법을 이용. 현재 주류인 가짜 동영상 제작 방법 중 하나이다.

우선 소재를 준비한다. 이번 실험에 사용된 영상은 트럼프 대통령의 기자회견 모습을 촬영한 30분 정도의 동영상이다. 트럼프 대통령의 얼굴이 확대되어 나온 장면 중에서 약 400장의 정지 화면 프레임을 무작위로 추출. 그 중에는 화난 표정이나 웃음 등 다양한 표정과 각도의 트럼프 대통령의 모습이 포함되어 있었다.

그 다음 인터넷에서 공개되고 있는 영상 처리 프로그램을 이용해 각각의 프레임 영상에서 얼굴의 윤곽과 눈, 코, 입의 위치 등 68가지 특징을 추출. 얼굴을 추상화해 개인의 얼굴 형태를 특정하는 정보를 제거하고 표정 정보만을 추출하는 처리 방법이다.

여기서부터가 AI가 나설 차례다. 이번 실험에서는 GAN(Generative Adversarial Network, 생성적 적대 신경망)라는 기술을 이용, 표정 정보를 통해 트럼프 대통령의 본래 얼굴을 재현하는 뉴럴네트워크(Neural Network)를 만들었다. GAN은 라이벌 관계에 있는 2개의 뉴럴네트워크를 조합해 서로의 정밀도를 효율적으로 높이는 방법이다. 이번 실험에는 한 쪽이 표정 정보를 통해 진짜 트럼프 대통령의 영상을 재현하는 ‘영상 생성 AI’, 또 하나는 재현된 영상이 오리지널이 아니라는 것을 판별하는 ‘판정 AI’이다.

영상 생성 AI가 만든 재현 영상을 판정 AI가 분석하고 그 결과는 영상 제작 AI에게 보고된다. 판정 AI가 ‘오리지널이다’라고 판단할 때까지 영상 제작 AI는 몇 번이고 영상 제작 방법에 대한 학습을 반복한다. 한편, 판정 AI도 영상 제작 AI가 만든 영상을 ‘오리지널이 아니다’라고 계속 판단할 수 있도록 학습을 반복한다. 이 2가지 AI의 학습을 교대로 시행해 쌍방의 정밀도를 높여나가는 것이다.

이 2가지 학습에 걸리는 시간은 반나절에서 하루 정도. 학습에는 대량의 계산이 필요하지만, 아마존 등이 제공하고 있는 클라우드 컴퓨팅 서비스를 통해 실행할 수 있다. 학습을 통해 완성된 영상 생성 AI는 임의의 표정을 입력하면 그 표정에 가까운 얼굴의 트럼프 대통령을 재현한 영상을 만들어낸다.

-- 리얼한 ‘얼굴 합성’ --
이번에 실험한 Face2Face는 실시간으로 가짜 동영상을 만드는 방법이지만, 동영상의 얼굴을 다른 사람의 얼굴과 바꾸는 ‘DeepFake’라는 방법도 있다. 해외에서는 배우인 니콜라스 케이지의 얼굴을 다른 배우의 얼굴로 바꿔 출연하지 않은 영화에 출연시키는 놀이가 유행하고 있다.

여기에는 오토인코더(Autoencoder)라고 하는 AI 기술이 이용된다. AI가 학습할 때에 입력되는 데이터가 ‘인코더’라고 하는 뉴럴네트워크 과정에서 압축된 후, ‘디코더(Decoder)’라고 하는 뉴럴네트워크 과정을 통해 재현된다. 예를 들어 사람의 얼굴 영상을 오토인코더에 입력하면 그 영상을 데이터 규모가 현저하게 적은 ‘특징량’의 수열로 변환된다. 디코더는 이 수열에서 진짜 영상에 가까운 영상을 재현한다.

이러한 압축과 재현의 규칙은 사전에 정해진 것이 아니다. 인코더와 디코더가 몇 번이고 시행착오를 거치면서 최대한 진짜에 가까운 영상을 재현할 수 있도록 AI가 최적의 압축과 재현의 규칙을 학습해나간다. 압축 시에 어떤 정보를 추출할지는 인코더에 달렸다. Face2Face는 얼굴 영상에서 표정 정보를 추출하지만, 오토인코더로는 어떤 것이 추출될지 알 수 없다. 아마도 얼굴이 향하는 방향이나 색깔, 눈의 형태 등의 요소가 혼합되어 특징량으로서 추출되는 것으로 보인다.

DeepFake에서는 2개의 오토인코더를 준비한다. 하나의 오토인코더에는 A씨의 얼굴 영상 데이터를, 다른 오토인코더에는 B씨의 얼굴 영상 데이터를 대량으로 입력, 각각에 압력과 재현을 학습시킨다. 이 때 두 인코더 간 서로의 학습 결과를 공유하도록 하는 것이 포인트이다. 즉, 두 인코더는 같은 규범을 통해 특징량을 추출할 수 있게 되는 것이다.

한편, 디코더의 학습 결과는 공유되지 않는다. 동일한 특징량의 수열이 제공되어도 A씨의 디코더는 A씨의 얼굴 영상을, B씨의 디코더는 B시의 얼굴 영상을 재현하려 한다. 이 때 A씨의 인코더를 B씨의 디코더에 연결하면 재미있는 현상이 일어난다.

A씨의 얼굴 영상을 입력하면 인코더를 통해 추출된 특징량이 B씨의 디코더로 전송되어 B씨의 얼굴에서 재현되는 것이다. 인코더가 추출한 특징량에는 입 모양과 얼굴 방향 등이 포함되어 있기 때문에 A씨의 표정이 B씨의 얼굴에서 재현된다. 동영상의 각 프레임에서 이 처리를 시행한다면 A씨의 얼굴 움직임이 모두 B씨의 얼굴에서 재현되는 것이다.

-- AI의 페이크를 AI가 간파한다 --
향후, 실제로 본인을 촬영한 것과 구별이 힘든 가짜 동영상이 대량으로 유포된다면 사회 곳곳에서 혼란이 발생할 가능성이 있다. 이러한 시대를 대비한 연구가 이미 시작되고 있다. 국립정보학연구소의 야마기시(山岸) 조교와 프랑스의 파리에스트마른느라발레 대학의 노지크(Nozick) 조교 연구팀은 가짜 동영상을 판별해내는 AI 개발을 추진하고 있다.

개발 전략은 심플한 것으로, DeepFake의 동영상과 실제로 촬영된 동영상을 딥러닝(심층학습) 기술을 이용해 정확하게 구별하는 것이다. 우선 다양한 사람들의 얼굴이 있는 가짜 동영상과 실제 동영상에서 각각 5,000장의 얼굴 영상을 추출한다. 여기에 ‘가짜’ 또는 ‘진짜’라는 태그를 부착, 합성곱 뉴럴네트워크(CNN, Convolutional Neural Network)에 입력해 2개의 동영상을 구별하는 방법을 학습시키는 것이다.

판별할 때에는 대상의 동영상을 프레임 별로 분해해 각 프레임에 대해 뉴럴네트워크가 진짜인지 가짜인지를 판별. 판별 결과의 평균을 내서 동영상 전체가 진짜인지 가짜인지를 판단하는 것이다. 실제로 실험해본 결과, DeepFake로 만들어진 가짜 동영상 중 98%의 동영상을 가짜로 판별했다.

뉴럴네트워크는 어떻게 가짜를 구별해낼 수 있는 것일까? 야마기시 조교 연구팀은 뉴럴네트워크가 영상의 어느 부분에 주목하고 있는지 DeepFake로 만든 영상과 진짜 영상을 이용해 조사해보았다. 그 결과, 진짜 영상에서는 촬영된 인물의 눈 주위에 주목하고 있는데 반해 DeepFake 영상에서는 얼굴보다도 배경에 주목하고 있었다.

뉴럴네트워크는 영상 속 어느 부분에 색과 선의 형태가 복잡한 곳이 있는지를 통해 진짜와 가짜를 구별하는 것으로 보인다. 진짜 영상에서는 눈 주위의 색과 선의 형태가 특히 복잡하다. 반면 DeepFake 영상은 얼굴이 흐릿하게 보이기 때문에 얼굴 외의 배경에 있는 오리지널 색과 선들이 더 복잡하다고 연구팀은 보고 있다.

DeepFake에 의해 만들어진 얼굴 영상은 미세한 색의 변화와 형태의 일그러짐 등 세세한 디테일이 부족한 경우가 많다. 디코더는 대량의 영상 데이터에서 제작과 관련된 규칙을 학습하기 때문에 그 규칙을 바탕으로 제작된 영상은 학습된 영상의 평균적 표현을 사용하는 경향이 있다. 예를 들어 아래 사진에 보이는 힐러리 클린턴의 DeepFake 영상도 자연스럽게 보이기는 하지만 자세히 보면 오리지널의 힐러리보다 표정의 표현력이 떨어진다. 사람이 보기에는 가짜인지 알아차리지 못하는 경우도 많지만 DeepFake로 제작된 얼굴은 전체적으로 평면적으로 정리되어 있다. 이것은 AI에게 DeepFake 영상을 진짜와 구별하는데 필요한 중요한 단서가 된다. 말하자면 DeepFake의 ‘약점’인 것이다.

물론 앞으로 이러한 약점을 보강한 새로운 알리고리즘이 등장할 가능성은 있다. 만드는 AI과 그것을 판별하는 AI의 숨바꼭질은 계속될 것이다. 하지만 아마기시 조교는 “판별하는 AI가 유리하다”라고 말한다. 가짜라는 것을 알아낼 수 없는 동영상을 만들려면 동영상의 세세한 부분까지 모든 것을 합성할 필요가 있다. 하지만 판별하는 AI는 한 곳이라도 부자연스러운 부분을 찾기만 하면 된다.

-- 정교한 가짜 동영상 제작 기술을 연마 --
가짜 동영상을 만들어내는 기술과 그것을 판별하는 기술은 동전의 앞면과 뒷면과도 같다. 2016년에 발족된 오사카대학의 바바구치(馬場口) 교수 팀과 국립정보학연구소 등 공동 연구팀은 정교한 가짜 동영상을 만들어내는 연구 개발을 추진하고 있다. 그 목적은 가짜 동영상을 판별하는 것으로 야마기시 조교도 멤버 중 한 명이다.

공동 연구팀이 현재 추진하고 있는 테마 중 하나가 음성과 연동된 가짜 동영상을 제작하는 기술이다. Face2Face와 DeepFake는 무음이지만, 소리가 나오는 동영상은 보다 설득력이 있다. 하지만 음성과 연동된 동영상을 제작하기 위해서는 목소리에 맞춰 입 모양을 만드는 처리가 필요하다. 연구팀은 서로 다른 타이밍으로 수록된 동일 인물의 음성과 동영상을 조합해 음성에 맞는 얼굴 동영상을 새롭게 제작하는 방법 개발을 계획하고 있다.

연구팀은 동영상과 음성 이외의 페이크에도 도전하고 있다. 그 중 하나가 손 글씨이다. 다양한 손 글씨 문자의 특징을 AI에게 학습시켜 두면 어떤 사람이 쓴 아주 짧은 필적으로도 거기에 포함되지 않은 글자의 특징을 추정할 수 있다. 컴퓨터로 쓴 자료를 자신의 필적으로 인쇄하거나, 역사 속 인물의 필적을 일러스트나 디자인에 활용하는 등 다양한 응용이 가능하다.

바바구치 교수는 “정교한 페이크를 만들어냄으로써 판별 기술을 향상시킬 수 있다”라고 말한다. 예를 들어 심층학습을 이용해 진짜와 가짜를 구별하는 정밀도를 높이려면 학습 과정에서 진짜와 같은 가짜 데이터를 제공할 필요가 있다.

하지만 앞으로 더욱 가짜 동영상 제작 수준이 높아진다면 심층학습으로는 구별할 수 없게 될 것으로 바바구치 교수는 보고 있다. “그 때에는 좀 더 강력한 패러다임이 필요하다”. 이를 위해서라도 가짜 동영상 제작과 판별에 대한 연구는 지속될 필요가 있다고 한다.

페이크에 대한 연구는 얼굴에서 받는 ‘인상’에 대한 연구이기도 하다. 사람에 가까운 얼굴을 한 로봇에 불쾌함을 느끼는 현상을 ‘불쾌한 골짜기(Uncanny Valley)’라고 부르기도 하지만, “미디어 표현에서 사람이 느끼는 불쾌한 골짜기는 깊지 않다”(바바구치 교수)라고 한다. 사람은 정교한 얼굴을 한 로봇을 불쾌해 하지만 합성된 가짜 얼굴에는 깜빡 속아 넘어간다. 과연 사람이 느끼는 진짜와 가짜의 차이는 무엇일까? 페이크를 둘러싼 연구는 궁극적으로는 ‘미디어가 표현하는 인간다움, 자연스러움이란 무엇인가?’라는 테마에 도달하게 된다고 바바구치 교수는 말한다. 골치덩어리인 가짜 동영상 AI가 언젠간 사람에게 이에 대한 해답을 알려줄지도 모른다.

 -- 끝 --

목차