데이터옵스(DataOps)는 데이터 운영을 의미한다. 개발 운영이라는 뜻의 데브옵스(DevOps)에 데이터 공학자와 데이터 과학자 역할을 결합한 신조어다. 데이터 중심 기업에 필요한 도구와 공정, 조직 구조를 제공하는 것이 목적이다.
맵알 테크놀로지(MapR Technologies)의 최고 응용프로그램 설계자이자 <머신 러닝 로지스틱스(Machine Learning Logistics): 현실 세계에서의 모범 경영>의 공동 저자 테드 더닝은 “데브옵스도 비교적 새로운 개념이지만, 최근에는 여기에 데이터 과학 기능까지 요구되는 사례가 늘고 있다. 이제 데브옵스 팀에는 데이터 중심 사고를 하는 사람이 필수다”라고 말했다.
데이터옵스 원칙
데이터옵스는 데브옵스와 마찬가지로 애자일(agile) 방법론에서 시작한다. 고객 만족을 위해 끊임없이 분석 통찰력을 제공한다. 따라서 데이터옵스 팀이 가장 중시하는 것은 ‘효과적인’ 분석이다. 그들은 분석 성과를 측정하고 변화를 추구하며 시시각각 변하는 고객 요구사항을 지속적으로 이해하고자 한다.
데이터옵스 팀은 목표를 중심으로 스스로 조직한다. ‘영웅주의'는 피하면서, 지속 가능하고 확장 가능한 팀과 공정을 지향한다. 이를 위해 처음부터 끝까지 데이터와 도구, 코드, 환경 전체를 장악하려 한다. 재생산 가능한 결과물은 필수이며, 분석 파이프라인을 군살 뺀 제조 설비와 비슷하게 보는 경향도 있다.
데이터옵스가 적합한 업무
더닝에 따르면 오늘날 기업은 광범위한 제품과 서비스에 머신러닝을 접목하고 있고 이는 데이터옵스의 목표 중 하나이기도 하다. 데이터옵스 방식은 머신러닝의 엔드투엔드(end-to-end) 수요를 맞추기 위한 것이기 때문이다. 예를 들어 데이터 과학자가 머신러닝 분석 모델을 실제 시스템에 적용할 때 필요한 것을 확보하기 위해서는 소프트웨어 공학의 도움을 받는 것이 더 수월하다.
머신러닝 외에도 데이터옵스 방식의 조직은 거의 모든 데이터 지향 업무에 유용하다. 기업이 데이터 패브릭의 장점을 잘 활용할 수 있도록 지원한다. 마이크로서비스 아키텍처와 잘 조화를 이루는 것도 장점이다.
데이터옵스의 실제
더닝과 프리드먼에 따르면, 기업이 빅데이터 같은 새로운 데이터 기술을 수용할 때 광범위한 데이터 활용 능력과 이벤트에 대한 실시간 대응 능력을 개선해야 한다. 두 사람은 저서를 통해 "문제는 전통적인 사일로 업무의 경우 지나치게 경직되고 느려 빅데이터 방식이 적합하지 않다는 것이다. 이럴 때는 데이터옵스 방식이 더 유용하다”라고 설명했다.
데브옵스 방식에서는 소프트웨어 개발 전문가와 운영 전문가가 협업해 개발 작업과 현업의 목표를 통합하고, 이에 따라 개발 주기를 단축하며 배치 빈도를 늘린다. 이 과정에서 운영과 소프트웨어 공학, 설계 및 계획, 제품 관리 등 여러 기술을 조합하는 교차기능 팀(cross-functional teams)이 강조된다. 데이터옵스는 여기에 데이터 과학과 데이터 공학 역할을 추가한다. 개발자와 운영 담당자, 데이터 전문가 3자 간의 협업이 필요하다.
더닝은 이러한 3자간 협업을 위해서는 데브옵스 팀에 데이터 과학자가 반드시 포함돼야 한다고 지적했다. 그는 “이 때 가장 중요한 것은 데이터 과학자와 개발 팀이 동떨어져 있는 전통적인 상아탑 조직을 고집하지 않는 것이다. 데이터옵스 팀에 데이터 과학자를 포함해 같은 공간에서 같은 음식을 먹고 같은 불평을 듣다 보면 자연스럽게 동화된다. 현업의 의견을 들어 우선순위 정하고 같은 해결책을 내는 일종의 ‘몰입’ 과정을 함께 경험하는 것이 핵심이다”라고 말했다.
이런 몰입의 경험을 공유했다면, 데이터옵스 팀에 데이터 과학자가 반드시 영구적으로 포함될 필요는 없다. 더닝은 “일반적으로 데이터옵스 팀에 데이터 과학자를 일정 기간 배속한다. 데이터과학자의 능력과 감성이 팀내에 퍼지기 시작하면 팀 내 누군가가 일종의 ‘보급형' 데이터 과학자 역할을 맡게 된다. 그러면 팀에 포함된 실제 데이터 과학자가 빠져도 상관없다. 상황에 따라 적절하게 판단하면 된다”라고 말했다.
데이터옵스 팀 구축하기
또한, 데이터옵스 팀을 구축하기 위해 반드시 관련 전문가를 새로 채용해야 하는 것도 아니다. 프리드먼에 따르면, 많은 경우 기존 데브옵스 팀에 데이터옵스 팀의 핵심 구성원이 이미 존재한다. 따라서 중요한 것은 데이터 집약적 개발이 필요한 프로젝트와 데이터 훈련을 받은 사람을 파악하는 것이다. 그 사람은 정식 데이터 과학자가 아닌 데이터 공학자일 수도 있다.
프리드먼은 “공통 목표를 위해 다양한 기술이 필요하지만 이런 역할을 맡을 많은 사람을 새로 채용해야 하는 것은 아니다. 많은 경우 핵심 역량을 갖춘 인재가 이미 내부에 있으므로 역할에 따라 재배치만 하면 된다. 오히려 더 중요한 것은 서로 다른 기술을 가진 사람들 간의 협업 절차를 개선해 그들의 시간과 전문성을 더 효과적으로 활용하고 효율성을 높일 방안을 찾는 것이다”라고 말했다.
대규모 프로젝트에서는 특정 데이터옵스 역할을 여러 명이 수행할 수도 있다. 반면, 작은 프로젝트에서는 한 명이 여러 가지 역할을 겸하는 경우도 흔하다. 더닝과 프리드먼의 공동 저서를 보면, 예를 들어 운영 기술과 소프트웨어 공학 기술은 겹치는 부분이 많다. 소프트웨어 공학 경험이 있는 팀원이 데이터 공학자 자격을 갖춘 경우도 있다. 또한, 데이터 과학자는 데이터 공학 기술을 보유한 경우가 많다. 그러나 데이터 과학 분야와 운영 분야가 겹치는 경우는 드물다.
마지막으로 더닝은 데이터옵스 팀이 공통 목표를 공유하는 것이 중요하다고 지적했다. 그들이 지원하는 서비스의 데이터 관련 요구에 대응하는 것이기도 하다. 그는 “팀과 공학자를 모두 잘 갖췄다면 이제 해야 할 일은 목표를 잘 설정하는 것 뿐이다. 일단 문제 해결이라는 공통 목표가 생기면 팀은 이 문제를 풀기 위해 스스로 구성되는 경우가 많다”라고 말했다.
오히려 문제는 사람마다 문제를 다른 측면으로 보는 경우다. 더닝은 "예를 들어 운영 담당자는 신뢰성을 우려하고, 특정 시간 안에 해법을 찾아야 한다. 반면 데이터 과학 담당자는 해법의 정확성에 집중하는 경향이 있다. 분명히 차이가 있다. 그러나 해결하고자 하는 문제가 같고, 그 해법에 있어 타협할 수 있다는 태도만 유지하면 데이터옵스 팀 구조에서 성과를 도출하기 어렵지 않다”라고 말했다. ciokr@idg.co.kr