2020.09.23

드림웍스가 코로나 속에서도 영화 제작을 이어갈 수 있었던 이유··· 'AI옵스'

Thor Olavsrud | CIO
비즈니스 연속성 계획과 애널리틱스를 통한 예측 그리고 멀티 테넌트 클라우드 아키텍처 덕분에 드림웍스는 차질 없이 영화를 제작할 수 있게 됐다.

드림웍스 애니메이션(DreamWorks Animation, 이하 드림웍스)은 여러가지 면에서 디지털 데이터 제조사로 부를 수 있다. 드림웍스에서 제작하는 영화는 용량이 수 테라바이트에 달하며, 여러 팀의 수많은 아티스트가 복잡한 데이터 파이프라인을 바탕으로 정교한 디지털 애니메이션 도구를 이용해 작업한다. 드림웍스는 코로나19 대유행으로 인해 애니메이션 작업실 문을 닫아야 했을 때에도 계속 애니메이션을 제작할 수 있었다. 업무 연속성 계획, 애널리틱스, 그리고 멀티 테넌트 클라우드 아키텍처 덕분이었다. 
 
ⓒGetty Images Bank

드림웍스 플랫폼 및 서비스 아키텍처 담당 부사장 겸 기술 연구원 스코티 밀러는 “스트리밍 서비스로 보든 극장에서 디지털 프로젝터로 보든 관객이 보는 드림웍스 애니메이션은 데이터다”라고 말했다.

그는 “사내 어디서든 일할 수 있는, 멀티테넌트 환경 덕분에 드림웍스에서는 코로나 사태 속에서도 크게 달라진 게 없다. 드림웍스는 여전히 멀티테넌트 클라우드처럼 운영되고 있고 데이터는 여전히 글렌데일과 라스베가스 두 곳에 두고 있다. 직원들은 사무실에서 멀리 떨어진 자신의 자신들의 집으로 출근했다”라고 설명했다. 

드림웍스는 올4월 초에 최신작인 <트롤: 월드 투어(Trolls: World Tour)>를 선보였다. 미국 대부분의 지역에 봉쇄령이 떨어지던 시점이었다. 용량이 1,200TB에 달하는 이 영화를 만들기 위해 제작 팀은 5억 개에 달하는 디지털 파일을 관리했다. 드림웍스는 4~ 6개월에 한 번꼴로 비슷한 분량의 영화 제작에 착수하며, 제작이 완료되기까지는 2년 6개월에서 3년이 소요된다.

드림웍스 IT부서는 급여, HR, 시스템 지원 등 통상적인 업무도 수행하지만 그중 가장 중요한 책무는 디지털 프로덕션 시설을 지원하는 일이다.

드림웍스 소속 아티스트가 사용하는 툴은 회사에서 직접 개발한 것이 대부분이며, 업체에서 구입한 뒤 대폭 개량한 것도 있다. 아티스트는 이러한 툴로 데이터를 만들어낸다. 컴퓨팅 작업, 장면과 시퀀스의 복잡성, 한 장면에 투입된 시간 등을 기록한 메타데이터로 구성된 2차 계층도 존재한다. 모든 데이터는 빅데이터 파이프라인으로 들어가 드림웍스의 예측 분석을 돕는다. 이때 사용하는 AI옵스(AIOps)란 AI와 머신러닝을 활용해 운영 간 발생 이슈를 모니터링하고 경감하는 작업을 자동화하는 것을 뜻한다. 넷앱 액티브IQ가 이런 기능을 지원하고 있다.

드림웍스 CTO 제프 와이크는 “매우 복잡하면서도 역동적인 환경이다. 인프라나 툴이 제대로 작동하지 않으면 드림웍스의 업무는 직접적인 타격을 입는다. 드림웍스의 영화 제작 역량과 기술은 직접적인 상관 관계가 있다”라고 설명했다. 

느낌에서 사실로
드림웍스는 업무 연속성 계획을 세우는 데 익숙하다. 캘리포니아 주 글렌데일에 본사가 위치해 있어 지진과 산불 발생을 피할 수 없기 때문이다.

와이크는 “어떻게 해야 업무를 계속 이어나갈 수 있을지 고민한다”라며 “바이러스 대유행 사태에만 한정된 고민거리는 아니다. 우리는 늘 어떻게 하면 데이터를 분산시킬 수 있을지 생각했다. 또 컴퓨팅은 어떻게 분산시킬 것이며, 유사시 직원들의 업무에 차질이 빚어지지 않게 하려면 어떻게 해야 할지 생각했다”라고 말했다. 

드림웍스가 업무 연속성을 지니게 된 핵심 배경에는 데이터 관리 시스템이 있다. 25년 전 드림웍스가 처음 생겼을 당시에는 아티스트가 이용하는 개인 워크스테이션들에 데이터가 산재해 있었다. 한 아티스트가 자기 할 일을 마쳐야 데이터가 워크플로상에 있는 다음 아티스트로 넘어갔다. 데이터 사일로 현상이 심했다. 이 문제는 드림웍스가 고성능 공유 스토리지 클러스터로 작업 기반을 이전한 후에야 해결되었다. 

민첩성을 높이고 아티스트 간 협업을 지원하기 위해서 드림웍스는 멀티테넌트 클라우드 환경과 가상 데스크톱을 채택했다. 이를 통해 각 아티스트는 회사 내 어디에서든 워크스테이션과 워크플로우에 접근할 수 있게 됐다. 

작업 환경이 점점 복잡해짐에 따라 모니터링의 중요성도 커졌다. 몇 년 전, IT부서는 사내 아키텍처를 대대적으로 재설계했는데 그 중에는 코드 전체를 인스트루먼테이션(instrumentation)하는 작업도 포함되어 있었다. 이에 따라 '오늘따라 네트워크가 느린 것 같다'와 같은 말은 더 이상 나올 수가 없었다. 작업 과정에서 일어나는 일을 정확하게 모니터링할 수 있어야 했다.

“우리는 이를 느낌에서 사실로의 이동이라고 불렀다”라며 와이크는 회상했다.

모니터링뿐 아니라 분석과 자동화도 중요했다. 제조업체들은 예상치 못한 가동 중지로 생산이 중단되지 않도록 장비 결함을 사전에 발견해 관리하려고 한다. 드림웍스도 마찬가지다. 가령, 특정 파일 서비스나 파일의 엔드포인트에 유독 지연이 발생하는 경우 즉시 알아채야 했다. 그래야 엔지니어들이 애플리케이션을 손보거나 애플리케이션의 데이터 접근 방식을 바꿔, 지연으로 인해 최종 사용자 경험이 영향을 받는 것을 미연에 방지할 수 있기 때문이다. 

밀러는 “운영 최적화를 통해 엔지니어들이 어려운 작업을 처리할 시간을 확보해 주는 게 우리의 목표다. 엔지니어들이 네트워크나 스토리지 시스템을 모니터링하기보다는 미래를 새롭게 만들어 나가는 일을 하기를 원한다”라고 설명했다.

AI옵스의 중요성
바로 여기서 AI옵스가 필요하다. 드림웍스는 넷앱을 이용해 합성 트랜잭션을 실행한다. 이를 통해 아티스트의 워크플로우를 복제해 기준점을 설정한다. 이후 머신러닝 알고리즘이 결함을 살펴보고, 있으면 경고 메시지를 보낸다. 와이크에 따르면, 군중 담당 부서가 한 장면에 15만 명을 집어넣기로 결정한 뒤 그 장면을 한 번에 렌더링한다면 성능에 큰 부담이 초래될 수 있다. 여기서 IT부서는 이런 애로사항을 반영해 제작 환경을 변경함으로써 꾸준한 퍼포먼스를 낼 수 있도록 하는 역할을 맡는다. 

밀러는 “장비나 툴에 문제가 생긴 걸 아티스트가 뒤늦게 알아채는 순간이 오지 않기를 바란다. 잘못된 방향으로 작업이 진행되어 버리기 전에 합성 트랜잭션과 모니터링 프레임워크를 통해 감지해 바로잡을 수 있기를 원한다”라고 설명했다. 

밀러는 이어 “예전에는 문제가 생기면 문제를 찾고 있었거나 시스템이 보낸 경고 메시지 때문에 조사에 나선 엔지니어가 포착하곤 했다. 그런데 이제는 문제가 대개 수정 권고 사항과 함께 드러난다. 또한, 엔지니어가 참여하기도 전에 해결책이 함께 제시되는 경우도 많다. 그 결과, 시스템을 계속 모니터링하는 사람의 수를 줄이면서도 24시간 내내 지원이 가능하게끔 운영할 수 있다”라고 덧붙였다. 

연속성, 협업, 모니터링 및 분석이 가능하도록 작업을 한 덕분에, 드림웍스는 유사시에도 거의 완벽하게 재택근무 환경으로 전환할 수 있었다. 밀러에 따르면, 사내 스튜디오 장치가 반드시 필요한 일부 워크플로우를 제외하면 거의 모든 직원이 사무실에 있는 것처럼 재택근무를 할 수 있다. 

와이크는 “분석 기능 덕분에 드림웍스는 전 직원이 나란히 앉아 일하던 환경에서 전 직원이 분산된 환경으로 하루 아침에 지체 없이 변경할 수 있었다. 며칠 만에 영화 제작 작업을 재개했다. 드림웍스 영화는 모두 순조롭게 진행 중이다”라고 말했다. ciokr@idg.co.kr



2020.09.23

드림웍스가 코로나 속에서도 영화 제작을 이어갈 수 있었던 이유··· 'AI옵스'

Thor Olavsrud | CIO
비즈니스 연속성 계획과 애널리틱스를 통한 예측 그리고 멀티 테넌트 클라우드 아키텍처 덕분에 드림웍스는 차질 없이 영화를 제작할 수 있게 됐다.

드림웍스 애니메이션(DreamWorks Animation, 이하 드림웍스)은 여러가지 면에서 디지털 데이터 제조사로 부를 수 있다. 드림웍스에서 제작하는 영화는 용량이 수 테라바이트에 달하며, 여러 팀의 수많은 아티스트가 복잡한 데이터 파이프라인을 바탕으로 정교한 디지털 애니메이션 도구를 이용해 작업한다. 드림웍스는 코로나19 대유행으로 인해 애니메이션 작업실 문을 닫아야 했을 때에도 계속 애니메이션을 제작할 수 있었다. 업무 연속성 계획, 애널리틱스, 그리고 멀티 테넌트 클라우드 아키텍처 덕분이었다. 
 
ⓒGetty Images Bank

드림웍스 플랫폼 및 서비스 아키텍처 담당 부사장 겸 기술 연구원 스코티 밀러는 “스트리밍 서비스로 보든 극장에서 디지털 프로젝터로 보든 관객이 보는 드림웍스 애니메이션은 데이터다”라고 말했다.

그는 “사내 어디서든 일할 수 있는, 멀티테넌트 환경 덕분에 드림웍스에서는 코로나 사태 속에서도 크게 달라진 게 없다. 드림웍스는 여전히 멀티테넌트 클라우드처럼 운영되고 있고 데이터는 여전히 글렌데일과 라스베가스 두 곳에 두고 있다. 직원들은 사무실에서 멀리 떨어진 자신의 자신들의 집으로 출근했다”라고 설명했다. 

드림웍스는 올4월 초에 최신작인 <트롤: 월드 투어(Trolls: World Tour)>를 선보였다. 미국 대부분의 지역에 봉쇄령이 떨어지던 시점이었다. 용량이 1,200TB에 달하는 이 영화를 만들기 위해 제작 팀은 5억 개에 달하는 디지털 파일을 관리했다. 드림웍스는 4~ 6개월에 한 번꼴로 비슷한 분량의 영화 제작에 착수하며, 제작이 완료되기까지는 2년 6개월에서 3년이 소요된다.

드림웍스 IT부서는 급여, HR, 시스템 지원 등 통상적인 업무도 수행하지만 그중 가장 중요한 책무는 디지털 프로덕션 시설을 지원하는 일이다.

드림웍스 소속 아티스트가 사용하는 툴은 회사에서 직접 개발한 것이 대부분이며, 업체에서 구입한 뒤 대폭 개량한 것도 있다. 아티스트는 이러한 툴로 데이터를 만들어낸다. 컴퓨팅 작업, 장면과 시퀀스의 복잡성, 한 장면에 투입된 시간 등을 기록한 메타데이터로 구성된 2차 계층도 존재한다. 모든 데이터는 빅데이터 파이프라인으로 들어가 드림웍스의 예측 분석을 돕는다. 이때 사용하는 AI옵스(AIOps)란 AI와 머신러닝을 활용해 운영 간 발생 이슈를 모니터링하고 경감하는 작업을 자동화하는 것을 뜻한다. 넷앱 액티브IQ가 이런 기능을 지원하고 있다.

드림웍스 CTO 제프 와이크는 “매우 복잡하면서도 역동적인 환경이다. 인프라나 툴이 제대로 작동하지 않으면 드림웍스의 업무는 직접적인 타격을 입는다. 드림웍스의 영화 제작 역량과 기술은 직접적인 상관 관계가 있다”라고 설명했다. 

느낌에서 사실로
드림웍스는 업무 연속성 계획을 세우는 데 익숙하다. 캘리포니아 주 글렌데일에 본사가 위치해 있어 지진과 산불 발생을 피할 수 없기 때문이다.

와이크는 “어떻게 해야 업무를 계속 이어나갈 수 있을지 고민한다”라며 “바이러스 대유행 사태에만 한정된 고민거리는 아니다. 우리는 늘 어떻게 하면 데이터를 분산시킬 수 있을지 생각했다. 또 컴퓨팅은 어떻게 분산시킬 것이며, 유사시 직원들의 업무에 차질이 빚어지지 않게 하려면 어떻게 해야 할지 생각했다”라고 말했다. 

드림웍스가 업무 연속성을 지니게 된 핵심 배경에는 데이터 관리 시스템이 있다. 25년 전 드림웍스가 처음 생겼을 당시에는 아티스트가 이용하는 개인 워크스테이션들에 데이터가 산재해 있었다. 한 아티스트가 자기 할 일을 마쳐야 데이터가 워크플로상에 있는 다음 아티스트로 넘어갔다. 데이터 사일로 현상이 심했다. 이 문제는 드림웍스가 고성능 공유 스토리지 클러스터로 작업 기반을 이전한 후에야 해결되었다. 

민첩성을 높이고 아티스트 간 협업을 지원하기 위해서 드림웍스는 멀티테넌트 클라우드 환경과 가상 데스크톱을 채택했다. 이를 통해 각 아티스트는 회사 내 어디에서든 워크스테이션과 워크플로우에 접근할 수 있게 됐다. 

작업 환경이 점점 복잡해짐에 따라 모니터링의 중요성도 커졌다. 몇 년 전, IT부서는 사내 아키텍처를 대대적으로 재설계했는데 그 중에는 코드 전체를 인스트루먼테이션(instrumentation)하는 작업도 포함되어 있었다. 이에 따라 '오늘따라 네트워크가 느린 것 같다'와 같은 말은 더 이상 나올 수가 없었다. 작업 과정에서 일어나는 일을 정확하게 모니터링할 수 있어야 했다.

“우리는 이를 느낌에서 사실로의 이동이라고 불렀다”라며 와이크는 회상했다.

모니터링뿐 아니라 분석과 자동화도 중요했다. 제조업체들은 예상치 못한 가동 중지로 생산이 중단되지 않도록 장비 결함을 사전에 발견해 관리하려고 한다. 드림웍스도 마찬가지다. 가령, 특정 파일 서비스나 파일의 엔드포인트에 유독 지연이 발생하는 경우 즉시 알아채야 했다. 그래야 엔지니어들이 애플리케이션을 손보거나 애플리케이션의 데이터 접근 방식을 바꿔, 지연으로 인해 최종 사용자 경험이 영향을 받는 것을 미연에 방지할 수 있기 때문이다. 

밀러는 “운영 최적화를 통해 엔지니어들이 어려운 작업을 처리할 시간을 확보해 주는 게 우리의 목표다. 엔지니어들이 네트워크나 스토리지 시스템을 모니터링하기보다는 미래를 새롭게 만들어 나가는 일을 하기를 원한다”라고 설명했다.

AI옵스의 중요성
바로 여기서 AI옵스가 필요하다. 드림웍스는 넷앱을 이용해 합성 트랜잭션을 실행한다. 이를 통해 아티스트의 워크플로우를 복제해 기준점을 설정한다. 이후 머신러닝 알고리즘이 결함을 살펴보고, 있으면 경고 메시지를 보낸다. 와이크에 따르면, 군중 담당 부서가 한 장면에 15만 명을 집어넣기로 결정한 뒤 그 장면을 한 번에 렌더링한다면 성능에 큰 부담이 초래될 수 있다. 여기서 IT부서는 이런 애로사항을 반영해 제작 환경을 변경함으로써 꾸준한 퍼포먼스를 낼 수 있도록 하는 역할을 맡는다. 

밀러는 “장비나 툴에 문제가 생긴 걸 아티스트가 뒤늦게 알아채는 순간이 오지 않기를 바란다. 잘못된 방향으로 작업이 진행되어 버리기 전에 합성 트랜잭션과 모니터링 프레임워크를 통해 감지해 바로잡을 수 있기를 원한다”라고 설명했다. 

밀러는 이어 “예전에는 문제가 생기면 문제를 찾고 있었거나 시스템이 보낸 경고 메시지 때문에 조사에 나선 엔지니어가 포착하곤 했다. 그런데 이제는 문제가 대개 수정 권고 사항과 함께 드러난다. 또한, 엔지니어가 참여하기도 전에 해결책이 함께 제시되는 경우도 많다. 그 결과, 시스템을 계속 모니터링하는 사람의 수를 줄이면서도 24시간 내내 지원이 가능하게끔 운영할 수 있다”라고 덧붙였다. 

연속성, 협업, 모니터링 및 분석이 가능하도록 작업을 한 덕분에, 드림웍스는 유사시에도 거의 완벽하게 재택근무 환경으로 전환할 수 있었다. 밀러에 따르면, 사내 스튜디오 장치가 반드시 필요한 일부 워크플로우를 제외하면 거의 모든 직원이 사무실에 있는 것처럼 재택근무를 할 수 있다. 

와이크는 “분석 기능 덕분에 드림웍스는 전 직원이 나란히 앉아 일하던 환경에서 전 직원이 분산된 환경으로 하루 아침에 지체 없이 변경할 수 있었다. 며칠 만에 영화 제작 작업을 재개했다. 드림웍스 영화는 모두 순조롭게 진행 중이다”라고 말했다. ciokr@idg.co.kr

X