Offcanvas

AI / How To / 디지털 디바이스 / 라이프 / 머신러닝|딥러닝 / 보안

사람을 속이는 딥페이크, 어느 수준까지 와있을까?

2020.09.17 Martin Heller  |  InfoWorld
딥페이크란 누군가가 실제로 말하거나 하지 않은 행동을 마치 말하고 행동한 것처럼 보이도록 하기 위해 딥러닝을 기반으로 영상이나 음성을 제작, 조작, 합성하는 것을 의미한다. 

과거 미 커뮤니티 레딧의 /u/deepfake 라는 카테고리에, 포르노 배우의 몸에 다른 여배우의 얼굴을 합성한 영상이 올라온 적이 있다. 최초의 딥페이크 사례로 알려진 이 영상은 당시 비윤리적이긴 했지만 불법은 아니었다. 이후로 유명인이 말했던 내용이나 언어를 바꾼 딥페이크도 등장했다. 
 
ⓒGetty Images Bank

딥페이크는 수십 년에 걸쳐 축적된 '영상(혹은 영화) 합성'의 개념의 연장선상에 있다. 영상 합성에는 상당한 수준의 기술과 시간, 장비가 요구된다. 반면 딥페이크는 (GPU가 있으면) 대단한 기술이나 시간, 장비가 없어도 만들 수 있다. 눈썰미 있는 시청자라면 금방 눈치채긴 하더라도 말이다. 

딥페이크를 만드는 방법
원래 딥페이크 제작에는 비지도 뉴럴 네트워크의 일종인 오토인코더(autoencoders)가 사용됐다. 물론 지금도 널리 사용되고 있기는 하다. 그러다가 몇몇 사람들이 GANs(아래에서 설명)를 이용하도록 영상 제작 기법을 발전시켰다. 여타 다른 머신러닝 기법 또한 사용되었으며, 몇몇 영상에는 머신러닝과 상관없는 기법이 활용되기도 했다. 이로 인해 다양한 딥페이크가 만들어졌다.

오토인코더
기본적으로 오토인코더(Autoencoder)는 이미지 속 얼굴을 딥페이크로 바꾸기 위해 두 단계를 거친다. 첫 번째 단계에서는 뉴럴 네트워크를 이용해 소스 이미지로부터 얼굴을 추출한 뒤, 이를 몇 가지 특징들과 마스크 모양으로 인코딩한다. 이때 몇몇 2D 콘볼루션 레이어와 몇 개의 덴스 레이어, 소프트맥스 레이어를 이용한다. 두 번째 단계에서는 또 다른 뉴럴 네트워크를 이용해 특징들을 디코딩하고, 생성된 얼굴을 업스케일하고, 필요에 따라 회전이나 크기 조정을 한 뒤, 업스케일된 얼굴을 다른 이미지에 적용한다.

오토인코더를 학습시켜 얼굴을 딥페이크로 바꾸려면, 수많은 원본 이미지와, 다양한 각도 및 조명 환경에서 찍은 타깃 얼굴 이미지가 필요하다. GPU가 없다면 인공지능을 학습시키는 데 몇 주씩 소요될 수도 있지만 GPU를 이용하면 그보다 훨씬 더 빨리 끝날 수 있다.

GAN
GAN(Generative Adversarial Networks)를 이용하면 2개의 뉴럴 네트워크를 서로 맞붙이는 등의 방법을 통해 오토인코더의 결과물을 정제할 수 있다. 생성 네트워크(Generative networks)는 원본과 동일한 통계들을 가진 견본들을 만들고, 분별 네트워크(Discriminative networks)는 원본 데이터 분포의 편차를 감지한다.

GAN 트레이닝은 시간이 많이 소요되는 반복 작업이다. 오토인코더보다 연산 시간 측면에서 드는 비용이 훨씬 더 높다. 현재 GAN은 딥페이크 제작보다는 실제 같은 가상의 단일 이미지를 생성하는 작업에 더 적합하다(예컨대, StyleGAN). 하지만 딥러닝 하드웨어가 빠른 속도로 발전하고 있기 때문에 양상이 바뀔 수 있다. 

딥페이크를 구별하는 방법
2020년대 초, AWS와 페이스북, 마이크로소프트가 참여하는 컨소시엄인 ‘AI 미디어 온전성 조정 위원회 파트너십(Partnership on AI’s Media Integrity Steering Committee)과 학계는 4개월 간 캐글(Kaggle)에서 딥페이크 디텍션 챌린지(DFDC)를 열었다. 

이 경진대회에는 2개의 프로토타입 솔루션인 ‘인트로덕션(introduction)’과 ‘’스타터 키트(starter kit)’를 잘 정리해 대회 참여자들에게 제공했다. 우승을 차지한 셀림 세페르베코프의 솔루션에도 꽤 좋은 내용이 들어있다. 

딥 뉴럴 네트워크와 이미지 처리에 대해 잘 모른다면, 위 솔루션의 세부 내용을 이해하기는 힘들 것이다. 대회서 우승한 솔루션은 프레임별로 얼굴을 감지했으며, SSIM(Structural Similarity) 인덱스 마스크를 추출했다. 이 소프트웨어는 얼굴을 감지할 때 원본 이미지보다 30%의 여백을 더 크롭(crop)했다(정확성이 떨어진다는 의미다). 인코딩(분류)에는 이미지넷(ImageNet)에서 사전에 트레이닝된 EfficientNet B7을 사용했다. 이 솔루션은 현재 오픈소스로 공개돼 있다. 

유감스러운 점은, 우승한 솔루션조차 DFDC 테스트 데이터베이스의 딥페이크 중 약 2/3만 딥페이크임을 구별할 수 있었다는 사실이다. 

딥페이크 생성 및 감지 애플리케이션
현재 오픈소스 딥페이크 제작 애플리케이션 중에서는 고유의 딥페이크 알고리즘을 바탕으로 만들어진 페이스스왑(Faceswap)이 특히 탁월하다. 아르스 테크니카(Ars Technica)의 기자인 팀 리가 이용했던 도구가 바로 이것이다. 그는 페이스스왑(Faceswap)을 사용해 국회 청문회를 하는 마크 저커버그 영상에서 마크 저커버그의 얼굴을, 브렌트 스파이너가 연기한 ‘스타트랙: 넥스트 제너레이션’의 다타 소령 얼굴로 바꿨다. 그는 딥페이크를 만드는 데 2주가 걸렸다. 

대다수 딥페이크는 그다지 정교하지 않다. 그래픽에 대해 좀 알고 있는 사람이라면 금방 판별할 수 있을 정도다. 다시 말해, 딥페이크 기술은 아직 쓸 만한 정도는 아니다. 드물게 예외적인 경우도 있지만, 기술보다는 ‘만든 사람’의 스킬에 영상의 퀄리티가 좌우되는 수준이다. DFDC 감지 솔루션이 그렇게 좋지 않았다는 점을 감안하면 다행스러운 일이라 할 수 있다.

마이크로소프트는 마이크로소프트 '비디오 인증'(Video Authenticator)이라는 도구를 발표했다. 이 글을 쓰는 시점을 기준으로 아직 출시 되지는 않았다. 마이크로소프트에 따르면, 비디오 인증은 사진이나 비디오를 분석해 미디어가 인위적으로 조작되었을 확률 혹은 신뢰할 만한 점수를 제공한다.

비디오 인증은 DFDC 데이터세트를 대상으로 테스트된 바 있다. 그러나 마이크로소프트는 아직 세페르베코프가 만든 캐글 솔루션보다 얼마나 더 나은 도구인지 가늠할 만한 정보를 제공하지 않고 있다. AI 콘테스트를 후원한 기업들은 경진대회에서 우승한 솔루션 위에 뭔가를 덧붙이거나 개선하곤 한다. 

페이스북 또한 딥페이크 감지 도구를 만들 것이라고 약속했지만, 소스 코드는 공개하지 않을 예정이다. 여기에는 이유가 있다. 세페르베코프가 만든 오픈소스 딥페이크 감지 도구의 문제점 중 하나는 딥페이크를 만드는 개발자들이 이 감지 도구를 GAN의 분별 도구로 활용할 수 있다는 점이다. 즉 이는 가짜 미디어들이 더욱 정교한 딥페이크를 만들어 감지 도구를 피할 수 있는 계기를 제공해줄 수 있다.

음성의 경우, 디스크립트 오버더브(Descript Overdub)와 어도비가 시연만 하고 아직 출시를 하지 않은 보코(VoCo)가 실제와 아주 비슷한 ‘텍스트-투-스피치’(TTS)를 만들어낼 수 있다. 10분 정도 오버더브를 학습시키면 자신의 목소리를 모방한 가짜 목소리를 만들 수 있다. 학습을 마치면 텍스트로 음성을 편집할 수 있다.

구글도 웨이브넷이라는 음성 합성 기술을 만들어냈다. 웨이브넷은 일반적인 텍스트-투-스피치 음성보다 더 실제처럼 음성을 합성해 낸다. 그러나 구글 자체 테스트에 따르면, 음성은 완전히 자연스럽게 들리지는 않는다. 구글 어시스턴트, 구글 검색, 구글 번역의 음성이 바로 웨이브넷의 음성이다.

딥페이크 그리고 합의되지 않은 포르노
앞서 언급했듯, 포르노 배우의 얼굴을 여배우의 얼굴로 교체한 영상이 딥페이크의 첫 번째 사례다. 레딧은 이 딥페이크가 게시된 /r/deepfake라는 서브-레딧을 차단했다. 대부분 합의되지 않은 포르노였기 때문이다. 이 포르노들은 현재 일부 지역에서는 불법이다. 

포르노 외의 딥페이크가 게시되는 또 다른 서브-레딧인 /r/SFWdeepfakes도 존재한다. 이 서브-레딧에 상주하는 사람들은 자신들이 좋은 일을 한다고 주장한다. 로드 설링의 몸에 조 바이든의 얼굴을 올려놓은 딥페이크에 가치가 있는지, 딥페이크가 진짜 같은지 여부는 직접 판단하기 바란다. 개인적으로 판단할 때 그중 일부는 진짜 같아 보이지만 대부분은 조악한 수준이다.

/r/deepfake 서브 레딧이 차단됐다고 해서 합의되지 않은 포르노가 모두 사라진 것은 아니다. 리벤지 포르노 등 여러 이유로 딥페이크가 만들어진다. 미국에서는 범죄 행위이다. 지피캣(Gifycat)과 트위터, 디스코드, 구글, 폰허브 등도 합의되지 않은 딥페이크 포르노를 차단했다. 마지막으로 (이보다 훨씬 더 늦게) 페이스북과 인스타그램도 딥페이크를 차단했다. 

캘리포니아의 경우, 자신의 동의없이 성적인 딥페이크 콘텐츠의 표적이 된 사람은 콘텐츠를 만든 사람에게 소송을 제기할 수 있다. 또한, 캘리포니아는 선거일로부터 60일 이내인 시점에서는 공직에 출마하는 후보자를 표적으로 하는 악의적인 딥페이크 음성 및 영상 콘텐츠의 배포를 금지하고 있다. 중국의 경우, 딥페이크에 명확히 딥페이크라는 표시를 하도록 하고 있다. 

정치 관련 딥페이크
정치적 딥페이크를 규제하는 법이 존재하지 않는 사법관할권이 많다. 이는 큰 문제가 될 수 있다. 특히 정치인을 표적으로 하는 고품질 딥페이크가 광범위하게 배포될 경우 문제가 발생할 수 있다. 예컨대, 미 하원 의장 낸시 펠로시가 술에 취한 목소리로 말을 하는 가짜 영상이라면 더욱 그럴 것이다. 이와 관련해 CNN 영상을 참고해봄직 하다. 2020년 대선과 관련된 딥페이크를 집중적으로 소개한 내용이다.

딥페이크를 변명으로
한편 창피하지만 실제인 영상이 유출됐을 때, 정치인들이 이를 ‘딥페이크’라고 둘러댈 가능성도 있다. 최근 말레이시아에서 이런 일이 일어났다(일어났을 수 있다고 표현할 수도 있겠다). 경제부 장관이 동성애 관련 영상을 딥페이크라고 말한 사건이다. 그러나 영상에 등장한 상대방 남성은 이 영상이 진짜라고 말했다.

가봉에서는 병든 알리 봉고 대통령이 등장하는 아마추어 딥페이크가 퍼진 이후, 봉고 대통령에 저항하는 군사 쿠데타가 일어나 대통령이 축출됐다. 봉고 대통령은 오랜 기간 언론에 노출되지 않은 상태였고, 이 딥페이크는 군이 잘못된 판단을 내리도록 만들었다. 

기타 딥페이크 사례
최근 ‘올스타’ 딥페이크에는 1999년 노래인 스매시 마우스(Smash Mouth)가 덧씌워져 있다. 이는 립싱크 딥페이크 영상의 사례이다 (이 경우, 여러 인기 영화들을 혼합). 이 딥페이크를 만든 유튜브 사용자 ontyj는 “wav2lip을 사용해 만들었다”라고 설명했다. 진짜 같아 보이지는 않지만 가짜 영상의 입술 움직임이 얼마나 더 나아졌는지 볼 수 있다. 몇 년 전만 하더라도 가짜 영상의 입술 움직임은 부자연스러웠다. 

상황이 훨씬 더 나쁠 수도 있다. 링크된 영상을 보기 바란다. 미국 배우인 조던 필의 얼굴과 영상으로부터 소스를 얻은 다음 오바마 대통령의 이미지를 합성해 만든 딥페이크다. 만약 이 영상이 가짜라는 것을 추론할 정보가 없다고 생각해보자. 또 오바마 대통령이 특정한 행동을 선동한다고 상상해보자. 상상만 해도 무섭지 않은가? ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.