Offcanvas

How To / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스

'데이터 기반 비즈니스의 실현' 데이터옵스 A to Z

2023.05.08 Thor Olavsrud  |  CIO
데이터옵스(Data Operations의 줄임말)는 데브옵스 데이터 엔지니어, 데이터 과학자를 모아 데이터 기반 기업을 실현하기 위한 툴과 프로세스, 기술을 제공한다.
 
ⓒ Getty Images Bank
 

데이터옵스란?

데이터옵스는 분석을 개발하고 제공하기 위한 민첩한 프로세스 지향 방법론이다. 데브옵스팀과 데이터 엔지니어, 데이터 과학자를 모아 데이터 중심의 기업을 지원하기 위한 툴, 프로세스, 조직 구조를 제공한다. 시장조사 업체 가트너는 데이터옵스를 “조직 전반의 데이터 관리자와 데이터 소비자 간 데이터 흐름의 커뮤니케이션과 통합, 자동화를 개선”하는 데 초점을 둔 방법론으로 기술한다.
 

데이터옵스의 목표

데이터버시티(Dataversity)에 따르면, 데이터옵스의 목표는 데이터와 데이터 분석을 기반으로 애플리케이션의 설계, 개발, 유지보수를 능률화하는 데 있다. 데이터 관리 및 제품 생산 방식을 개선하고, 이와 같은 개선을 비즈니스 목표와 조율한다. 또한 가트너에 따르면, 데이터옵스의 목표에는 “데이터와 데이터 모델 및 관련 아티팩트의 예측 가능한 전달(delivery)과 변화 관리를 통해 더 빠르게 가치를 제공”하는 것도 포함된다.
 

데이터옵스와 데브옵스

데브옵스는 소프트웨어 개발 방법론으로, 개발팀과 운영팀을 제품 또는 서비스를 책임지는 하나의 단위로 결합해서 시스템 개발 수명 주기에 지속적인 제공이라는 개념을 접목한다. 데이터옵스는 이 개념을 바탕으로 데이터 전문가(데이터 분석가, 데이터 개발자, 데이터 엔지니어, 데이터 과학자)를 추가해 조직 전반적으로 데이터 흐름의 협업적 개발과 지속적인 데이터 사용에 초점을 둔다.

데이터옵스 관찰가능성 및 자동화 소프트웨어 전문 업체인 데이터키친(DataKitchen)은 데이터옵스가 단순히 “데이터를 위한 데브옵스”가 아니라고 주장한다. 두 가지 방법 모두 소프트웨어 개발 속도를 높이는 데 주력하지만(데이터옵스의 경우 분석을 활용하는 소프트웨어), 데이터옵스는 이와 동시에 데이터 운영도 관리해야 한다.
 

데이터옵스 원칙

데이터옵스 역시 데브옵스와 마찬가지로 출발점은 애자일 방법론이다. 이 접근 방식은 고객 만족을 주 목표로 지속적인 분석 인사이트를 제공하는 데 가치를 둔다.

데이터옵스 성명서에 따르면, 데이터옵스팀은 실제로 작동하는 분석에 가치를 두며 데이터 분석이 제공하는 인사이트를 기준으로 데이터 분석의 성과를 측정한다. 또한 데이터옵스팀은 변화를 수용하고, 진화하는 고객 요구를 끊임없이 이해하기 위해 노력한다. 이들은 목표를 중심으로 자체 조직화하며 지속 가능하고 확장 가능한 팀과 프로세스를 중시하고 “영웅주의”를 지양한다.

또한 데이터옵스팀은 재현 가능한 결과를 제공하기 위해 데이터, 툴, 코드, 환경을 처음부터 끝까지 조율한다. 데이터옵스팀은 대체로 분석 파이프라인을 린(lean) 제조 라인과 유사하게 보며 고객, 팀원 및 운영 통계에 의해 제공되는 피드백을 정기적으로 반영한다.
 

데이터옵스가 잘 맞는 분야

오늘날 기업은 방대한 제품과 서비스를 대상으로 머신러닝 도입을 확대하고 있는데, 데이터옵스는 머신 러닝의 엔드 투 엔드 요구사항을 지원하는 데 적합한 접근 방식이다.

테드 더닝과 엘렌 프리드먼은 공동 저술한 책 머신 러닝 실행 계획(Machine Learning Logistics)에서 “예를 들어 이 스타일을 사용하면 배포 과정에서 모델이 운영 부서로 전달될 때 데이터 과학자가 필요한 요소를 제공하기 위해 소프트웨어 엔지니어링의 지원을 받을 수 있는 가능성이 높아진다”고 말했다.

또 “데이터옵스 접근 방식은 머신러닝에 제한되지 않는다. 이 스타일의 조직은 모든 데이터 지향 작업에 유용하며, 글로벌 데이터 패브릭 구축을 통해 제공되는 혜택을 더 쉽게 활용할 수 있다”고 덧붙였다. 또한 이들은 데이터옵스가 마이크로서비스 아키텍처에도 잘 맞는다고 언급했다.
 

실무의 데이터옵스

더닝과 프리드먼에 따르면, 데이터옵스를 최대한 활용하려면 기업은 데이터를 대규모로 처리하고 실제 발생하는 이벤트에 대응할 수 있도록 데이터 관리 전략을 발전시켜야 한다.

데이터옵스는 데브옵스를 기반으로 하므로 운영, 소프트웨어 엔지니어링, 아키텍처, 계획, 제품 관리, 데이터 분석, 데이터 개발, 데이터 엔지니어링과 같은 “기술 집단”을 포괄하는 교차 기능팀이 필수적이며, 개발자와 운영 전문가, 데이터 전문가 간의 협업과 커뮤니케이션이 강화되도록 데이터옵스팀을 관리해야 한다.

더닝에 따르면, 데이터 과학자는 데이터옵스팀의 핵심 구성원으로 포함될 수도 있다. 더닝은 “여기서 가장 중요한 것은 데이터 과학자와 개발팀이 서로 동떨어진, 전통적인 상아탑 형태의 조직에 머물지 않는 것이다. 가장 중요한 단계는 데브옵스팀에서 실제로 데이터 과학자를 포용하는 것이다. 같은 사무실에서 일하고 같은 음식을 먹고 같은 불만을 듣다 보면 자연스럽게 서로 맞추게 된다”고 말했다.

그러나 더닝은 데이터 과학자가 데이터옵스팀에 영구적으로 포함될 필요는 없다는 점도 강조했다.

더닝은 “일반적으로 데이터 과학자는 일정 기간만 팀에 포함된다. 이들의 역량과 감각이 주변에 전파되기 시작한다. 팀에서 누군가가 데이터 엔지니어의 역할을 맡아 일종의 저예산 데이터 과학자가 된다. 그러면 팀에 포함된 실제 데이터 과학자는 다른 곳으로 이동할 수 있다. 유동적인 환경”이라고 말했다.
 

데이터옵스팀을 구성하는 방법

대부분의 데브옵스 기반 기업은 데이터옵스팀의 핵심 요소를 이미 보유하고 있다. 데이터 집약적 개발이 필요한 프로젝트를 파악했다면 데이터 교육을 받은 사람을 팀에 추가하기만 하면 된다. 이 사람은 데이터 과학자보다는 데이터 엔지니어인 경우가 많다. 데이터키친은 데이터 조직 내의 팀워크를 실현하는 프로세스를 만들고 구현하는 데 특화된 데이터옵스 엔지니어를 찾을 것을 권장한다. 이들은 개발부터 프로덕션까지 작업이 원활하게 흐르도록 하는 오케스트레이션을 설계하고 하드웨어, 소프트웨어, 데이터 및 기타 리소스가 필요에 따라 사용 가능하도록 보장한다.

많은 팀이 서로 겹치는 기술을 보유한 개인으로 구성된다. 또는 개인들이 각자의 전문성에 따라 데이터옵스팀에서 여러 역할을 맡을 수 있다.

포레스터의 부사장 겸 수석 분석가인 미셸 고츠에 따르면 데이터옵스팀의 주요 전문 영역에는 다음이 포함된다.
 
  • 데이터베이스
  • 통합
  • 데이터에서 프로세스까지 오케스트레이션
  • 데이터 정책 배포
  • 데이터 및 모델 통합
  • 데이터 보안 및 개인정보 통제

어떤 식으로 구성되든 데이터옵스팀은 팀이 지원하는 서비스가 데이터 기반이 되어야 한다는 공통의 목표를 공유해야 한다.  

 

데이터옵스 역할

고츠에 따르면 데이터옵스팀원에 포함되는 역할은 다음과 같다.
 
  • 데이터 전문가 : 데이터 환경과 개발 모범사례 지원
  • 데이터 엔지니어 : BI, 분석 및 비즈니스 애플리케이션을 위한 임시 및 시스템 지원 제공
  • 수석 데이터 엔지니어 : 제품 및 고객 대면 결과물을 다루는 개발자
 

데이터옵스 연봉

페이스케일(PayScale) 데이터에 따르면, 데이터옵스와 관련된 가장 인기 있는 직종과 각각의 평균 연봉은 다음과 같다.
 
  • 분석 관리자 : 7만 2,000달러 ~ 13만 4,000달러
  • 부 데이터 과학자 : 6만 1,000달러 ~ 10만 1,000달러
  • 데이터 분석가 : 4만 6,000달러 ~ 8만 9,000달러
  • 데이터 설계자 : 8만 1,000달러 ~ 16만 2,000달러
  • 데이터 엔지니어 : 6만 7,000달러 ~ 13만 4,000달러
  • 데이터 과학자 : 7만 달러 ~ 13만 7,000달러
 

데이터옵스 툴

가장 인기 있는 데이터옵스 툴은 다음과 같다.
 
  • 센서스(Census) : 데이터 웨어하우스 같은 SSOT(Single Source of Truth)의 데이터를 CRM, 광고 플랫폼과 같은 실무 시스템에 동기화하는 프로세스인 리버스 ETL에 특화된 운영 분석 플랫폼
  • 데이터브릭스 레이크하우스 플랫폼(Databricks Lakehouse Platform) : 데이터 웨어하우징과 AI 사용 사례를 통합하는 데이터 관리 플랫폼
  • 데이터폴드(Datafold) : 데이터 품질 문제를 감지 및 수정하기 위한 데이터 품질 플랫폼
  • 데이터키친(DataKitchen) : 엔드 투 엔드 다중 툴, 다중 환경 데이터 파이프라인을 조율하는 데이터 관찰가능성 및 자동화 플랫폼
  • Dbt : 데이터 파이프라인을 만들기 위한 데이터 변환 툴
  • 텡구(Tengu) : 데이터 및 파이프라인 관리를 위한 데이터옵스 오케스트레이션 플랫폼
editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.