글로벌 피자 브랜드 도미노(Domino’s)가 ‘ML옵스(MLOps)’를 활용하고 있다. ML옵스는 도미노의 데이터 과학팀이 IT 지원 없이도 데이터 모델을 갱신하고 프로덕션 환경에 투입할 수 있도록 지원한다.
다른 대형 브랜드와 마찬가지로 도미노 피자도 고객 서비스 향상을 위해 데이터를 많이 활용하고 있다. 그런데 세계 1위 피자 브랜드 도미노의 데이터 과학팀에는 의사결정 속도를 높이는 비밀 재료가 있다. 모델을 프로덕션 환경에 더욱더 빠르게 제공하도록 지원하는 머신러닝(Machin Learning; ML) 호스팅 플랫폼이 바로 그것이다.
도미노의 데이터 과학팀은 이 플랫폼을 사용해 다양한 ML 및 AI 모델을 실행하고 정제하며 검증한다. 또한 컴퓨팅 리소스와 관련된 IT 의존도를 낮추고 있기도 하다. 도미노의 데이터 과학 및 AI 부문 책임자 잭 프라고소에 따르면 이는 역사적으로 오랜 마찰을 빚어왔던 부분이다.
그는 “피자 주문이 상당히 많다. 데이터 과학팀은 이 주문 데이터를 처리한다”라며, “하지만 모델을 프로덕션 환경으로 투입할 방법이 빠져 있었다”라고 말했다.
비즈니스 인사이트를 얻기 위해 애널리틱스를 활용하는 건 그 자체로도 충분히 어려운 일이다. 여기에 더해 데이터 과학팀 실무자들은 IT로부터 서버, 소프트웨어 개발 환경 등 필요한 모든 것을 조달하느라 딜레이가 발생하는 문제도 해결했다.
이러한 딜레이는 의사결정 속도를 높이고 원하는 비즈니스 결과를 얻고자 ‘시간에 민감한(time-sensitive)’ 데이터 모델을 구축하는 데이터 과학팀에게 문제를 야기한다고 프라고소는 전했다.
ML옵스를 향한 도미노의 여정
140억 달러의 연매출을 올리는 도미노는 5년 차 스타트업 데이터트론(Datatron)과 협력해 이 문제를 부분적으로 완화했다. 데이터트론은 ML 모델 운영(일명 ML옵스)을 지원하는 플랫폼 구축 업체로, 이 분야에서 데이터로봇(DataRobot), 구글(Google) 등과 경쟁하고 있다.
도미노가 데이터트론과 협력하기 시작한 건 비교적 최근의 일이다. 지난 2018년 프라고소가 도미노의 데이터 과학팀에 일곱 번째 직원으로 합류했을 때 이 회사는 전자상거래 시스템용 모델을 전통적인 방식으로 실행하고 있었다.
그에 따르면 데이터 과학팀은 데이터 모델을 재훈련하기 위해 도미노 매장에서 매일 추출되는 데이터를 기다려야 했고, 이를 거쳐 갱신한 모델을 최신 데이터로 실행하기 위해 필요한 리소스를 IT팀에 신청해야 했다. 그리고 이런 24시간 내지 48시간의 지연시간으로 데이터 정확성이 저하됐다.
플라고소는 “양손이 묶인 상태였다. 필요 없는 업데이트를 하느라 들이는 시간과 처리해야 할 단계가 너무 많았다”라고 당시를 회상했다.
현재 도미노의 데이터 과학팀은 총 63명으로 구성돼 있으며, 이 팀은 프라이빗 클라우드에서 실행되는 데이터트론 및 쿠버네티스 컨테이너 오케스트레이션 소프트웨어를 사용해 ML 모델을 배치, 실행, 재조정하고 있다.
그는 “데이터트론 소프트웨어의 시각화 기능 덕분에 데이터 과학팀은 고객 경험 및 매장 운영에 관한 예측이 시간에 따라 어떻게 변하는지 파악할 수 있었다. 또 이는 새로운 데이터를 기반으로 모델을 새로 갱신할 수 있도록 지원한다”라고 설명했다.
예를 들면 도미노의 데이터 과학팀은 데이터트론을 사용해 적은 양의 트래픽을 B 사이트로 라우팅하여 새로운 모델을 검증하는 A/B 테스트를 실행한다. 이 모든 작업은 전자상거래팀이나 매장 운영 관계자들에게 영향을 미치지 않는다. 프라고소는 “새 데이터가 들어오면 이에 따라 지속적으로 모델을 개선하고 개발하고 업데이트한다”라고 덧붙였다.
도미노의 데이터 과학팀과 데이터트론의 협력은 (궁극적으로) 각 매장별 적정인력 예측을 통한 업무 일정 개선, 배달 운전자를 위한 차량 경로 최적화, 신규 매장 위치 파악에 도움을 줬다. 또 도미노가 데이터 모델 드리프트를 추적하는 데도 도움을 줬다. 그는 “만약 어떤 부분이든 변경됐다면 새로운 현실이 반영되도록 모델을 업데이트해야 한다”라고 전했다.
대부분의 경우 복잡한 신기술을 구현하는 과정에서 갈등이 발생할 수 있다. 자존심 강한 개인들을 잘 어루만져줘야 한다. 이는 변화 관리의 일반적인 요건이다. 도미노에서는 데이터트론이 바로 이러한 상황에 직면했었다. 전통적으로 IT가 데이터 과학팀의 프로덕션 업무에 많이 관여했기 때문이다. 프라고소는 “하지만 확실한 성과 덕분에 데이터 과학팀이 이런 걱정을 덜 수 있었다”라고 언급했다.
이어서 그는 “데이터 과학팀과 IT 모두 이득을 보는 상황이었다”라면서, “데이터 과학팀이 훨씬 더 적극적으로 참여하는 한편, IT는 데이터 과학팀의 요청을 처리하기 위해 리소스를 할애할 필요가 없었다”라고 덧붙였다.
ML옵스 고군분투기는 현실이다
도미노는 데이터 모델을 구축하고 실제 프로덕션 환경에서 실행하고자 고군분투하는 수많은 회사 가운데 하나다. 이러한 동지가 많다. 지난 2020년 발표된 가트너 보고서에 따르면 50%의 IT 리더가 기술 장애, 열악한 데이터 품질 등의 이유로 2023년까지 예측 프로젝트를 PoC에서 프로덕션으로 옮기는 데 어려움을 겪게 될 전망이다.
부서 간 정치도 상황을 힘들게 만드는 요소다. 이에 따라 데이터 과학자, 소스 시스템 전문가, 시스템 아키텍트, 애플리케이션 개발자 간의 긴밀한 협력이 필요하다.
데이터트론 CEO 하리시 도디는 많은 데이터 과학자가 통계, 물리 등은 잘 알고 있지만 컴퓨터 과학이나 프로그래밍 경험은 없으며 모델을 확장할 수 있는 소프트웨어 인프라 및 프로세스를 사용할 수 있는 능력도 없다고 언급했다.
반대로 대부분의 인프라 엔지니어는 데이터 모델 구축 경험이 부족하다. 그렇기에 데이터 과학팀과 IT 간의 협업과 협상이 필요하다고 그는 강조했다. 도디는 데이터트론을 창업하기 전에 리프트(Lyft), 스냅(Snap), 트위터(Twitter)에서 소프트웨어 엔지니어로 근무하면서 이러한 지식 격차를 눈으로 확인한 바 있다고 전했다.
일반적인 AI 모델 라이프사이클에서 데이터 과학자는 모델을 개발한 다음 인프라 엔지니어에게 넘기고, 인프라 엔지니어는 개발된 모델을 프로덕션 환경에 투입한다.
데이터트론의 소프트웨어는 데이터 과학팀이 SAS, R 언어, 머신러닝, 회귀 모델 등을 실행하기 위해 수행해야 하는 많은 기술을 자동화한다. 또 프로덕션 환경에 있는 모델을 모니터링해 데이터 변화에 따라 예측 속성이 약해지는 모델 드리프트를 방지할 수 있도록 지원한다.
도디는 “AI 모델은 프로덕션에 투입돼야 비로소 생산적”이라면서, “ML옵스는 데이터 과학자가 이를 향해 갈 수 있는 다리를 짓도록 지원할 수 있다”라고 말했다.