Offcanvas

BI / How To / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 애플리케이션

네가 있어 웃는다··· '데이터 준비 도구' 따라잡기

2019.11.07 Thor Olavsrud  |  CIO
기업 내 데이터를 활용함에 있어 걸림돌로 손꼽히는 과정이 ‘데이터 준비’(Data preparation)다. 올바른 데이터 준비 도구를 선택하면 이 어려운 난관을 돌파하는데 큰 도움이 된다. 
 
ⓒ Image Credit : Getty Images Bank


데이터 분석(애널리틱스)의 혜택을 실현시키기 위해 가장 먼저 할 일은 데이터를 제대로 준비하는 것이다. 그렇지만 가트너의 최근 조사 결과에 따르면, 데이터 준비가 중대한 ‘장애물’인 기업과 기관이 많다. 70%의 시간을 데이터 준비 활동에 쏟고 있는 것으로 조사됐다. 

가트너가 발행한 ‘데이터 준비 도구에 대한 시장 가이드(Market Guide for Data Preparation Tools)’의 책임 저자인 가트너 데이터 & 분석 팀의 에티샴 자이디 시니어 디렉터 애널리스트는 “과거나 지금이나 적합한 인재를 활용해 시기 적절하게 데이터를 찾고, 여기에 접근하고, 정제(클리닝)하고, 변환하고, 공유하는 작업이 주요 장애물 중 하나다”라고 말했다.

즉 애널리틱스로 비즈니스를 트랜스포메이션하기 원하는 기업이 먼저 해결해야 할 문제는 AI에 대해 정통해지는 것보다 데이터 파이프라인에 대해 정통해지는 것이다.

히타치 반타라(Hitachi Vantara)의 조나단 마틴 최고 마케팅 책임자(CMO)는 “가장 힘든 부분이 데이터 준비이다. 데이터가 위치한 장소를 어떻게 파악할까? 포트폴리오를 구축할 수 있을까? 자동화된 방식으로 모든 데이터 소스를 함께 연결하고, 관리 및 통제된 방식으로 데이터를 적합한 장소, 사람, 머신에 제때 전달할 수 있는 파이프라인을 만들 수 있을까? 이런 부분들을 해결해야 한다”라고 설명했다.

다음은 데이터 준비가 오늘날 애널리틱스 있어 중대한 도전과제인 이유, 이런 문제를 해결할 수 있게끔 발전한 각종 데이터 준비 도구들, 데이터 준비 도구를 선택할 때 고려해야 할 사항들을 정리한 내용이다.

데이터 준비라는 도전과제
데이터 준비를 까다로운 도전과제로 만드는 여러 요소와 요인들이 있다. 

첫째, 분석에 필요한 데이터 소스와 종류의 수와 복잡성이 기하급수적으로 커지고 있다. 기업 내부와 외부의 분산된 데이터 생태계 곳곳에 위치한 데이터 소스에 액세스하려면 많은 시간, 리소스를 투자해야 하고, 이를 위한 스킬과 도구들이 필요하다.

IDC의 데이터 통합 및 무결성 소프트웨어 서비스 부문 리서치 디렉터인 스튜어트 본드는 “현재 데이터 환경이 아주 복잡하다. 예를 들어, 데이터 종류와 유형이 아주 다양하다. 트랜젝션 데이터, 마스터 데이터, 소셜 미디어 데이터, 구조화 데이터, 비구조화 데이터, 로그 파일 데이터, 그래프 데이터 등이 있다. 데이터 종류가 정말 다양하고, 이런 데이터가 저장된 기술도 무척 다양하다”라고 설명했다.

둘째, 셀프서비스 데이터 액세스와 통합을 요구하는 수가 증가하고 있고, IT 부문은 이에 대응하기 버거워하고 있다. 이제 더 이상 데이터 통합에 중앙화된 IT모델을 적용할 수 없다는 신호이다.

자이디는 “IT는 비즈니스 사용자가 쉽게 이해하고 사용할 수 있는 도구를 통해 데이터 액세스와 통합을 프로비저닝해야 한다. 데이터 준비에 대한 요구가 훨씬 더 높아지는 지점이다”라고 말했다.

셋째, 데이터 요건이 계속 변하고 있다. 비즈니스 애널리스트, 시민 통합가, LoB 사용자, 데이터 엔지니어, 데이터 사이언티스트 모두 자신의 프로젝트에 대한 데이터 요구사항이 다르다.

자이디는 “이로 인해 데이터를 한 차례 준비해 요구사항이 계속 바뀌는 여러 다양한 소비자가 이용할 수 있도록 제공하는 것이 사실상 불가능해진다”라고 말했다.
 
 

차세대 데이터 준비 도구들
자이디는 데이터 준비 도구들이 성숙해짐에 따라 도전과제 또한 바뀌는 양상이라고 덧붙였다. 그에 따르면 과거에는 연결할 데이터 소스 판단, 준비할 데이터 판단이 문제였다. 그러나 지금은 기업들이 데이터 거버넌스, 리니지(Lineage), 추적 용이성, 품질에 초점을 맞추고 있다. 또 필요한 스킬을 갖춘 사람들이 데이터 준비 도구를 사용해 필요한 데이터를 이용할 수 있도록 지원하는 것도 중요해졌다. 

본드는 이를 ‘데이터 인텔리전스’에 대한 문제라고 정의한다. 데이터에 대한 메타데이터를 의미한다. 그는 “데이터의 위치, 데이터의 의미, 데이터를 사용하는 사람, 데이터에 액세스하는 사람, 데이터를 확보해야 하는 이유, 데이터를 보관해야 하는 기간, 데이터를 사용하는 방법을 파악하도록 도움을 주는 것이 데이터 인텔리전스이다”라고 설명했다.

다행히 데이터 준비 도구 시장이 발전하면서 문제 해결을 위한 새로운 기능들을 제공하고 있다. 이전 세대 도구들은 비즈니스 사용자들에게 필요한 최종 데이터 준비 작업을 위한 단순한 데이터 변환에 대한 요건만 지원했었다. 

반면 현재 차세대 도구들은 발견한 내용을 공유하는 기능이 포함되어 있고, IT팀의 운영화를 위해 준비된 모델을 제공한다. 또 사용자가 연결된 데이터 자산을 확인 및 검색할 수 있는 데이터 카탈로그화(분류) 같은 데이터 관리 기능을 지원한다.

자이디는 “이전 세대 도구들에 없었던 첨단 고급 데이터 품질 관리 기능이 내장된 도구들도 있다. 프로파일링, 태깅, 주석(주해) 기록, 중복 제거, 퍼지 논리 매칭, 연결, 병합 기능을 예로 들 수 있다. IT와 데이터 관리 팀이 훨씬 쉽게 품질을 개선하고, 거버넌스와 컴플라이언스를 확보하고, 이를 통해 준비된 데이터 모델을 널리 도입시켜 사용할 수 있도록 도와주는 기능들이다”라고 설명했다.

여기에 중요한 역할을 하는 기술이 머신러닝(ML)이다. ML 기반 기능들은 데이터 준비에 앞서 자동으로 매칭과 조이닝, 프로파일링, 태깅, 주석을 처리한다. 또 주의가 필요한 민감한 속성, 이례, 극단치를 알려주고, 메타데이터 관리 및 거버넌스 도구를 연결해 민감한 데이터의 노출을 막는다.

자이디는 “머신러닝으로 강력해진 데이터 준비 도구들이 등장했다. 여러 수준의 사용자들이 데이터 준비 도구를 도입해 활용할 수 있도록 도와주고, 동시에 거버넌스와 컴플라이언스를 지원한다”라고 설명했다.

데이터 준비 도구를 선택할 때 고려해야 할 사항들
자이디는 현대적인 데이터 준비 도구들을 평가할 때, 다음 핵심 기능을 고려해야 한다고 말했다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.