2019.06.25

'애자일과 데이터 관리의 결합'··· '데이터옵스'의 정의와 주요 기술

Isaac Sacolick | InfoWorld
대부분 기업이 데이터로 많은 것을 시도하고 있다. 데이터 사이언스 프로그램, 셀프 서비스 비즈니스 인텔리전스 툴, 인공지능 프로그램, 데이터 지향적 의사 결정 등에 집중적으로 투자하고 있다.
 
ⓒ Getty Images Bank

데이터 시각화를 웹과 모바일 제품에 내장하거나 센서(사물 인터넷), 웨어러블, 제3자 API로부터 새로운 형태의 데이터를 수집해 고객용 애플리케이션을 개발하기도 한다. 문서, 이미지, 비디오, 구어 등 구조화되지 않은 데이터 소스로부터 얻은 정보를 이용하고 있는 기업도 있다.

데이터 및 분석에 대한 업무의 상당 부분은 충분한 가치가 있다. 의사 결정에 사용하는 대시보드, 보고서, 기타 데이터 시각화, 데이터 사이언티스트가 결과를 예측하기 위해 생성하는 모델, 데이터, 분석, 모델이 통합된 애플리케이션 등이 모두 포함된다.

이처럼 사람들이 데이터를 분석해 애플리케이션을 형성한 후 최종 사용자에게 제공하기 위해 필요한 기본적인 데이터 운영 작업 이른바 '데이터옵스(DataOps)'라고 한다. 구체적으로는 데이터 소싱, 처리, 정리, 관리를 위한 모든 작업에 포함된다. 데이터 통합, 데이터 랭글링(Data Wrangling), ETL(Extract, Transform, Load), 데이터 준비, 데이터 품질, 마스터 데이터 관리, 데이터 마스킹(Data Masking), 데이터 관리 등 복잡한 전문 용어로 표현하는 작업이 해당한다.

하지만 자동차가 단순히 부품의 결합이 아닌 것처럼 이런 기능을 모은다고 해서 데이터옵스가 되는 것은 아니다. 데이터옵스는 현실적으로 임원, 데이터 사이언티스트, 애플리케이션 등 데이터 사용자가 데이터로부터 비즈니스 가치를 제공할 수 있도록 하는 일련의 데이터 관리 활동을 가리키는 포괄적인 용어다.

데이터옵스와 기타 기술 활동 사이의 관계
데이터옵스는 데이터 처리 지표 및 품질에 있어서 반복적인 개선을 유도하기 때문에 일부 애자일 방법론을 공유한다. 특히 데이터 흐름 자동화, 더 빈번한 데이터 처리 능력의 변화 활성화, 데이터 운영 장애에 대응할 때의 복구 시간 감소 등 데브옵스의 측면도 공유한다. 심지어 문화(지속적인 고객 만족), 팀 역학(자기 조직화, 매일 상호작용), 기술적 활동(이용 가능한 환경 생성), 품질(품질 및 성능 모니터링) 등에 관한 20가지의 원칙을 정립한 데이터옵스 선언문(DataOps Manifesto)도 존재한다.

데이터옵스 선언문이 유용한 이유는 대화를 간소화하고 데이터옵스의 필수 비즈니스 기능을 정의하기 때문이다. 투자를 유도하고 팀을 정리하며 비즈니스 결과에 대한 우선순위를 정의하는 데도 도움이 된다. 이 용어를 이해하는 더 좋은 방법은 사람, 프로세스, 기술, 문화를 중심으로 정의하는 것이다.

데이터옵스의 인간적 측면을 이해하라
데이터옵스에서는 다음과 같이 다양한 사람이 참여할 수 있다.

- 고객은 데이터, 분석, 애플리케이션, 생성되는 머신 러닝의 직접적인 수혜자다. 분석을 이용해 의사를 결정하는 임원과 리더 또는 비즈니스 프로세스의 일환으로 데이터를 사용하는 기타 직원 등 실제 제품 또는 서비스 고객이나 내부 고객일 수 있다.
- 데이터 최종 사용자에는 데이터 사이언티스트, 대시보드 개발자, 보고서 작성자, 애플리케이션 개발자, 시민 데이터 사이언티스트, 데이터를 이용해 애플리케이션, 데이터 시각화, API, 기타 툴을 통해 결과를 제공하는 사람이 포함된다.
- 데이터베이스 엔지니어, 데이터 엔지니어, 데이터 흐름과 대시보드 툴을 관리하는 기타 개발자 등 데이터옵스에 직접 관련된 사람들.
- 데이터 품질, 정의, 연결성을 담당하는 데이터 스튜어드.
- 소싱, 재정 지원, 정책 생성, 처리(데이터 공급망)에 대한 데이터 서비스와 자체 의사결정의 구매자인 비즈니스 소유자


데이터옵스 흐름, 개발, 운영 프로세스를 정의하라
데이터옵스는 프로세스와 분야가 다양하지만 조직이 대대적으로 투자하고 발전시키는 것은 비즈니스 필요, 데이터 유형, 데이터 복잡성, 서비스 레벨 요건, 준수성 요건 등이다.

데이터옵스는 소스로부터 인도 시까지 데이터 흐름을 의미하기도 한다. 데이터옵스 개발 및 운영 프로세스를 통해 관리되는 제조 프로세스이기도 하다. 데이터 흐름 또는 데이터 파이프라인은 다양한 데이터 통합 기술, 데이터 정리 기술, 데이터 관리 플랫폼에서 개발할 수 있다. 이런 프로세스는 데이터를 유입시킬 뿐 아니라 데이터 스튜어드가 데이터 품질 및 마스터 데이터 규칙에 대한 예외를 관리하고 데이터 혈통 및 기타 메타데이터 기능을 활성화하며 데이터 저장 및 제거 절차를 수행하는 데 대한 예외를 관리하는 툴도 제공한다.

데이터옵스의 두 번째 측면은 데이터 흐름의 측면을 유지하고 개선하는 개발 프로세스다. 이 프로세스에 대한 적절한 설명은 “데이터옵스는 단순히 데이터를 위한 데브옵스가 아니다”라는 기사에서 확인할 수 있다. 개발 프로세스에는 샌드박스 관리, 개발, 오케스트레이션, 테스트, 배포, 모니터링 등 여러 단계가 포함된다. 오케스트레이션, 테스트, 배포 단계는 데브옵스 CI/CD 파이프라인과 유사하다.

데이터옵스 프로세스의 최종 측면에는 운영 및 인프라 관리가 포함된다. 데브옵스와 마찬가지로 이 작업의 일부는 생산 데이터 흐름 관리 및 신뢰성, 보안, 성능 확보 등과 관련돼 있다. 특히 머신 러닝에 대한 데이터 사이언스 워크플로는 매우 변동적이기 때문에 확장할 수 있고 성능이 높은 티어 업 및 다운 개발과 다양한 작업 부하를 뒷받침하기 위한 데이터 사이언스 환경에 대한 책임 문제도 중요하다.

광범위한 데이터옵스 기술 영역
데이터옵스는 많은 데이터 오케스트레이션, 처리, 관리 기능을 다루기 때문에 이 용어가 많은 기술에 적용된다. 또한 많은 기업이 빅 데이터, 데이터 사이언스, 머신 러닝 역량에 투자하고 있으므로 이 영역에서 경쟁하는 업체의 수가 많다. 주요 업체를 간략하게 살펴보자.

- AWS는 일반적인 관계형 데이터베이스부터 문서 스토어 및 키 값 데이터베이스까지 7가지 유형의 데이터베이스를 제공한다. 애저도 여러 데이터베이스 유형을 지원한다.
- 많은 툴이 데이터 통합과 데이터 스트리밍 등 데이터를 통합하고 데이터 흐름을 생성한다. 하나의 데이터 흐름 안에는 데이터 품질마스터 데이터 관리가 존재한다.
- 데이터옵스의 개발, 데이터 사이언스, 테스트 측면과 관련된 다양한 툴이 존재한다. 많은 기업이 주피터(Jupyter)를 사용하지만 데이터 사이언스 작업을 위한 다양한 옵션이 있다. 델픽스(Delphix), 쿼리서지(QuerySurge) 등의 툴도 검토할 만하다.
- 알테릭스(Alteryx), 데이터브릭스(Databricks), 데이터이쿠(Dataiku), ai 등은 데이터옵스, 데이터 사이언스, 데브옵스 역량을 융합한 E2E 분석 및 머신 러닝 플랫폼을 제공한다.
- 다른 툴은 데이터 보안, 데이터 마스킹, 기타 데이터 운영을 제공한다.

 
경쟁력 있는 정보가 데이터옵스 문화를 유도한다
데브옵스는 운영팀이 신뢰성, 성능, 보안을 위해 처리 속도를 늦출 수밖에 없는 상황에서 코드를 빈번하게 공개해야 하는 애자일 개발 프로세스를 운영하는 애플리케이션 개발팀 사이의 긴장감 때문에 생겨났다. 데브옵스 팀은 두 가지를 모두 잘 수행해야 한다는 공통의 목표가 있었으며 기술 공백을 메우기 위해 CI/CD, 자동화된 테스트, 코드형 인프라, 중앙 모니터링 등의 자동화에 투자했다.

이제 데이터옵스를 통해 또 다른 그룹이 합류하게 된다. 데이터 사이언티스트, 대시보드 개발자, 데이터 엔지니어, 기타 엔지니어가 데이터 흐름과 데이터 품질을 위해 노력한다. 인프라의 공개 속도와 성능, 신뢰성, 보안을 관리하는 것 외에 데이터옵스는 데이터, 분석, 머신러닝 모델, 기타 데이터 제공물의 가치를 더 경쟁력 있게 만든다.

경쟁력 있는 가치는 전체적인 분석 제공물로 유도되기도 하지만 데이터옵스 팀이 데이터 처리의 복잡성을 어떻게 극복하는지도 중요하다. 데이터가 얼마나 빨리 데이터 흐름을 통과할까? 어느 정도 규모의 데이터와 어떤 수준의 품질이 뒷받침되는가? 팀이 새로운 데이터 소스를 얼마나 신속하게 통합할 수 있으며 증가하는 다양한 데이터 모델링의 요건을 뒷받침하기 위해 데이터베이스 플랫폼은 얼마나 활용도가 높은가 같은 질문의 답을 찾는 과정이다.

따라서 데이터옵스 팀은 이런 문제와 성능 지표를 반드시 검토해야 한다. 데이터 및 분석 투자로부터 비즈니스 가치를 달성하는 기업이 늘어나면서 데이터옵스 활동과 문화에 눈을 돌리는 기업도 늘어날 것이다. ciokr@idg.co.kr



2019.06.25

'애자일과 데이터 관리의 결합'··· '데이터옵스'의 정의와 주요 기술

Isaac Sacolick | InfoWorld
대부분 기업이 데이터로 많은 것을 시도하고 있다. 데이터 사이언스 프로그램, 셀프 서비스 비즈니스 인텔리전스 툴, 인공지능 프로그램, 데이터 지향적 의사 결정 등에 집중적으로 투자하고 있다.
 
ⓒ Getty Images Bank

데이터 시각화를 웹과 모바일 제품에 내장하거나 센서(사물 인터넷), 웨어러블, 제3자 API로부터 새로운 형태의 데이터를 수집해 고객용 애플리케이션을 개발하기도 한다. 문서, 이미지, 비디오, 구어 등 구조화되지 않은 데이터 소스로부터 얻은 정보를 이용하고 있는 기업도 있다.

데이터 및 분석에 대한 업무의 상당 부분은 충분한 가치가 있다. 의사 결정에 사용하는 대시보드, 보고서, 기타 데이터 시각화, 데이터 사이언티스트가 결과를 예측하기 위해 생성하는 모델, 데이터, 분석, 모델이 통합된 애플리케이션 등이 모두 포함된다.

이처럼 사람들이 데이터를 분석해 애플리케이션을 형성한 후 최종 사용자에게 제공하기 위해 필요한 기본적인 데이터 운영 작업 이른바 '데이터옵스(DataOps)'라고 한다. 구체적으로는 데이터 소싱, 처리, 정리, 관리를 위한 모든 작업에 포함된다. 데이터 통합, 데이터 랭글링(Data Wrangling), ETL(Extract, Transform, Load), 데이터 준비, 데이터 품질, 마스터 데이터 관리, 데이터 마스킹(Data Masking), 데이터 관리 등 복잡한 전문 용어로 표현하는 작업이 해당한다.

하지만 자동차가 단순히 부품의 결합이 아닌 것처럼 이런 기능을 모은다고 해서 데이터옵스가 되는 것은 아니다. 데이터옵스는 현실적으로 임원, 데이터 사이언티스트, 애플리케이션 등 데이터 사용자가 데이터로부터 비즈니스 가치를 제공할 수 있도록 하는 일련의 데이터 관리 활동을 가리키는 포괄적인 용어다.

데이터옵스와 기타 기술 활동 사이의 관계
데이터옵스는 데이터 처리 지표 및 품질에 있어서 반복적인 개선을 유도하기 때문에 일부 애자일 방법론을 공유한다. 특히 데이터 흐름 자동화, 더 빈번한 데이터 처리 능력의 변화 활성화, 데이터 운영 장애에 대응할 때의 복구 시간 감소 등 데브옵스의 측면도 공유한다. 심지어 문화(지속적인 고객 만족), 팀 역학(자기 조직화, 매일 상호작용), 기술적 활동(이용 가능한 환경 생성), 품질(품질 및 성능 모니터링) 등에 관한 20가지의 원칙을 정립한 데이터옵스 선언문(DataOps Manifesto)도 존재한다.

데이터옵스 선언문이 유용한 이유는 대화를 간소화하고 데이터옵스의 필수 비즈니스 기능을 정의하기 때문이다. 투자를 유도하고 팀을 정리하며 비즈니스 결과에 대한 우선순위를 정의하는 데도 도움이 된다. 이 용어를 이해하는 더 좋은 방법은 사람, 프로세스, 기술, 문화를 중심으로 정의하는 것이다.

데이터옵스의 인간적 측면을 이해하라
데이터옵스에서는 다음과 같이 다양한 사람이 참여할 수 있다.

- 고객은 데이터, 분석, 애플리케이션, 생성되는 머신 러닝의 직접적인 수혜자다. 분석을 이용해 의사를 결정하는 임원과 리더 또는 비즈니스 프로세스의 일환으로 데이터를 사용하는 기타 직원 등 실제 제품 또는 서비스 고객이나 내부 고객일 수 있다.
- 데이터 최종 사용자에는 데이터 사이언티스트, 대시보드 개발자, 보고서 작성자, 애플리케이션 개발자, 시민 데이터 사이언티스트, 데이터를 이용해 애플리케이션, 데이터 시각화, API, 기타 툴을 통해 결과를 제공하는 사람이 포함된다.
- 데이터베이스 엔지니어, 데이터 엔지니어, 데이터 흐름과 대시보드 툴을 관리하는 기타 개발자 등 데이터옵스에 직접 관련된 사람들.
- 데이터 품질, 정의, 연결성을 담당하는 데이터 스튜어드.
- 소싱, 재정 지원, 정책 생성, 처리(데이터 공급망)에 대한 데이터 서비스와 자체 의사결정의 구매자인 비즈니스 소유자


데이터옵스 흐름, 개발, 운영 프로세스를 정의하라
데이터옵스는 프로세스와 분야가 다양하지만 조직이 대대적으로 투자하고 발전시키는 것은 비즈니스 필요, 데이터 유형, 데이터 복잡성, 서비스 레벨 요건, 준수성 요건 등이다.

데이터옵스는 소스로부터 인도 시까지 데이터 흐름을 의미하기도 한다. 데이터옵스 개발 및 운영 프로세스를 통해 관리되는 제조 프로세스이기도 하다. 데이터 흐름 또는 데이터 파이프라인은 다양한 데이터 통합 기술, 데이터 정리 기술, 데이터 관리 플랫폼에서 개발할 수 있다. 이런 프로세스는 데이터를 유입시킬 뿐 아니라 데이터 스튜어드가 데이터 품질 및 마스터 데이터 규칙에 대한 예외를 관리하고 데이터 혈통 및 기타 메타데이터 기능을 활성화하며 데이터 저장 및 제거 절차를 수행하는 데 대한 예외를 관리하는 툴도 제공한다.

데이터옵스의 두 번째 측면은 데이터 흐름의 측면을 유지하고 개선하는 개발 프로세스다. 이 프로세스에 대한 적절한 설명은 “데이터옵스는 단순히 데이터를 위한 데브옵스가 아니다”라는 기사에서 확인할 수 있다. 개발 프로세스에는 샌드박스 관리, 개발, 오케스트레이션, 테스트, 배포, 모니터링 등 여러 단계가 포함된다. 오케스트레이션, 테스트, 배포 단계는 데브옵스 CI/CD 파이프라인과 유사하다.

데이터옵스 프로세스의 최종 측면에는 운영 및 인프라 관리가 포함된다. 데브옵스와 마찬가지로 이 작업의 일부는 생산 데이터 흐름 관리 및 신뢰성, 보안, 성능 확보 등과 관련돼 있다. 특히 머신 러닝에 대한 데이터 사이언스 워크플로는 매우 변동적이기 때문에 확장할 수 있고 성능이 높은 티어 업 및 다운 개발과 다양한 작업 부하를 뒷받침하기 위한 데이터 사이언스 환경에 대한 책임 문제도 중요하다.

광범위한 데이터옵스 기술 영역
데이터옵스는 많은 데이터 오케스트레이션, 처리, 관리 기능을 다루기 때문에 이 용어가 많은 기술에 적용된다. 또한 많은 기업이 빅 데이터, 데이터 사이언스, 머신 러닝 역량에 투자하고 있으므로 이 영역에서 경쟁하는 업체의 수가 많다. 주요 업체를 간략하게 살펴보자.

- AWS는 일반적인 관계형 데이터베이스부터 문서 스토어 및 키 값 데이터베이스까지 7가지 유형의 데이터베이스를 제공한다. 애저도 여러 데이터베이스 유형을 지원한다.
- 많은 툴이 데이터 통합과 데이터 스트리밍 등 데이터를 통합하고 데이터 흐름을 생성한다. 하나의 데이터 흐름 안에는 데이터 품질마스터 데이터 관리가 존재한다.
- 데이터옵스의 개발, 데이터 사이언스, 테스트 측면과 관련된 다양한 툴이 존재한다. 많은 기업이 주피터(Jupyter)를 사용하지만 데이터 사이언스 작업을 위한 다양한 옵션이 있다. 델픽스(Delphix), 쿼리서지(QuerySurge) 등의 툴도 검토할 만하다.
- 알테릭스(Alteryx), 데이터브릭스(Databricks), 데이터이쿠(Dataiku), ai 등은 데이터옵스, 데이터 사이언스, 데브옵스 역량을 융합한 E2E 분석 및 머신 러닝 플랫폼을 제공한다.
- 다른 툴은 데이터 보안, 데이터 마스킹, 기타 데이터 운영을 제공한다.

 
경쟁력 있는 정보가 데이터옵스 문화를 유도한다
데브옵스는 운영팀이 신뢰성, 성능, 보안을 위해 처리 속도를 늦출 수밖에 없는 상황에서 코드를 빈번하게 공개해야 하는 애자일 개발 프로세스를 운영하는 애플리케이션 개발팀 사이의 긴장감 때문에 생겨났다. 데브옵스 팀은 두 가지를 모두 잘 수행해야 한다는 공통의 목표가 있었으며 기술 공백을 메우기 위해 CI/CD, 자동화된 테스트, 코드형 인프라, 중앙 모니터링 등의 자동화에 투자했다.

이제 데이터옵스를 통해 또 다른 그룹이 합류하게 된다. 데이터 사이언티스트, 대시보드 개발자, 데이터 엔지니어, 기타 엔지니어가 데이터 흐름과 데이터 품질을 위해 노력한다. 인프라의 공개 속도와 성능, 신뢰성, 보안을 관리하는 것 외에 데이터옵스는 데이터, 분석, 머신러닝 모델, 기타 데이터 제공물의 가치를 더 경쟁력 있게 만든다.

경쟁력 있는 가치는 전체적인 분석 제공물로 유도되기도 하지만 데이터옵스 팀이 데이터 처리의 복잡성을 어떻게 극복하는지도 중요하다. 데이터가 얼마나 빨리 데이터 흐름을 통과할까? 어느 정도 규모의 데이터와 어떤 수준의 품질이 뒷받침되는가? 팀이 새로운 데이터 소스를 얼마나 신속하게 통합할 수 있으며 증가하는 다양한 데이터 모델링의 요건을 뒷받침하기 위해 데이터베이스 플랫폼은 얼마나 활용도가 높은가 같은 질문의 답을 찾는 과정이다.

따라서 데이터옵스 팀은 이런 문제와 성능 지표를 반드시 검토해야 한다. 데이터 및 분석 투자로부터 비즈니스 가치를 달성하는 기업이 늘어나면서 데이터옵스 활동과 문화에 눈을 돌리는 기업도 늘어날 것이다. ciokr@idg.co.kr

X