Offcanvas

빅데이터 | 애널리틱스

데이터 중심 조직의 비결은 ‘접근·활용성'··· 데이터 민주화 가이드

2023.01.26 Maria Korolov and Alex Korolov  |  CIO
‘데이터 평등’을 이루지 않고서는 데이터 중심 문화를 안착시킬 수 없다. 데이터를 민주화해야 하는 이유다. 
 
ⓒGetty Images Bank

진정한 데이터 중심 기업은 그렇지 않은 기업보다 훨씬 더 나은 비즈니스 성과를 달성한다. 최근 한 IDC 백서에 따르면 모범 데이터 수칙을 도입한 리더가 여러 비즈니스 지표에서 그렇지 않은 리더보다 평균 2.5배 더 나은 성과를 얻었다. 

특히 데이터 및 애널리틱스 분야에서 선두를 달리고 있는 기업의 경우, 매출이 3배 향상되고, 신제품 및 서비스 출시 기간이 3배 가까이 감소했으며, 고객 만족도, 수익 및 운영 효율성이 2배 이상 향상된 것으로 나타났다. 

그러나 데이터 및 애널리틱스에서 최대의 가치를 뽑아내려면 결국 데이터 중심 문화가 기업 전체에 스며들어야 한다. 이는 모든 사업부가 필요한 데이터에 원하는 방식으로 접근할 수 있어야 한다는 뜻이다. 

이를 데이터 민주화라고 한다. 이를 현실로 만들려면 데이터를 신중하게 수집해야 하며, 안전한 데이터 플랫폼을 잘 선택해야 한다. 특히 직원들이 '데이터 우선 마인드셋(data-first mindset)'을 갖출 수 있도록 교육 및 역량 강화가 필요하다. 보안 및 컴플라이언스 준수 또한 중요하다. 
 

견고한 데이터 기반에서 시작하기

기업은 데이터 공유용 플랫폼을 선택하기 전에 이미 어떤 데이터를 보유하고 있는지 파악하고, 오류 및 중복을 제거해야 한다. 

인사이트 엔터프라이즈(Insight Enterprises)의 수석 설계자이자 저명한 엔지니어인 후안 올란디니는 데이터를 공유할 준비를 하는 데 있어 데이터 정규화(data normalization) 훈련을 우선해야 한다고 말했다. 

데이터 형식 및 데이터 아키텍처는 일치하지 않는 경우가 허다하다. 데이터가 불완전할 수도 있다. 올란디니는 "만약 갑자기 이 데이터를 데이터 전문가가 아닌 사람에게 제공한다고 치면, 이 데이터로 잘못되거나 오해의 소지가 있는 인사이트를 얻기 쉽다"라고 지적했다. 

기업은 데이터 정규화를 위해 종종 외부의 도움을 받는다. 정규화가 제대로 이루어지지 않으면 데이터 품질에 금이 가거나 데이터를 의도한 만큼 활용하지 못할 수 있기 때문이다. 

클라우드와 클라우드 네이티브 개발을 사용하는 기업이 늘어남에 따라 데이터 정규화는 더욱 복잡해졌다. 

올란디니는 "데이터는 NoSQL 데이터베이스, 그래프 데이터베이스를 비롯해 현재 사용 가능한 수많은 유형의 데이터베이스 등 어디든지 있을 수 있다. 이런 상황에서 일관성을 유지하기란 매우 어렵다"라고 언급했다.  
 

적절한 플랫폼 고르기 

아직 데이터를 민주화하지 않는 기업에서는 IT 조직만이 데이터 및 데이터 인텔리전스(data intelligence) 도구에 접근한다. 모든 이가 데이터에 접근하려면 새로운 도구와 기술이 필요하다. 

올란디니에 따르면 데이터를 호스팅할 위치를 결정하는 일을 비롯해 데이터 사용에 따른 재정적 책임을 관리하는 일과 비용이 주요 고려 사항이다. 

또한 기업은 공공 클라우드의 보안에 대한 우려로 인해 데이터를 온프레미스에서 유지보수해야 하는지 궁금해할 수 있다. 그러나 SPR의 선임 데이터 및 분석 컨설턴트인 케빈 영은 먼저 아마존 S3(Amazon S3) 혹은 구글 클라우드 스토리지와 같은 데이터 레이크를 생성해 데이터를 공유할 수 있다고 설명했다. 

영은 "기업 전체에 걸친 구성원 각자의 자리에서 데이터를 추가하면 다른 모든 부서에서 용이하게 쓸 수 있다"라고 설명했다. 그러나 충분히 관리하지 않으면 어수선해지는 건 순식간이다. 그는 “대다수 기업은 데이터 ‘레이크’가 아니라 데이터의 ‘늪’에 빠져서 허우적댄다”라고 말했다. 

그러나 중앙 집중식 데이터 저장소를 만드는 다른 방법도 얼마든지 있다. 

이 중 하나는 데이터 패브릭(data fabric)이다. 통합된 뷰를 제공하며 온프레미스, 클라우드 및 에지 장치(edge devices)에 걸친 다양한 출처를 통합하는 아키텍처 및 데이터 서비스 셋이다. 

데이터 패브릭을 사용할 경우 복사본을 만들 필요 없이 데이터셋을 결합할 수 있으며, 사일로를 줄일 수 있다. 

IBM 클라우드 팩 포 데이터 앤 SAP 데이터 인텔리전스(IBM Cloud Pak for Data and SAP Data Intelligence)와 같은 여러 데이터 패브릭 제공업체가 포레스터(Forrester)의 2022년 2분기 '엔터프라이즈 데이터 패브릭(Enterprise Data Fabric) 보고서'에서 선두 업체로 선정됐다. 

기업은 이 중 어떤 것을 선택해야 할지 어려워할 수 있다. 

전문 서비스 회사 젠팩트(Genpact)의 글로벌 애널리틱스 리더인 아마레시 트리파티는 가장 중요한 것이 데이터를 분석 및 모니터링하는 것이라고 설명했다. 

그는 "플랫폼이 많다. 자신에게 적합한 플랫폼을 선택하자. 단, 자동화되어 있으며 가시적인 플랫폼이어야 한다. 또한 기술적인 경험이 없는 사람도 데이터 애널리틱스를 쉽게 보고할 수 있도록 돕는 셀프 서비스 플랫폼이어야 한다. 한 마디로 모든 데이터을 볼 수 있고 데이터가 어떤 의미인지, 수치가 무엇을 뜻하고 출처가 어딘지 단번에 파악할 수 있는 포탈에 가까워야 한다"라고 조언했다. 

완벽한 도구는 없다. 데이터 계보, 데이터 카탈로깅(data cataloging), 그리고 데이터 품질 유지 사이에서 타협점을 찾는 것이 현실적이다. 

그는 "많은 기업이 3가지 문제를 모두 함께 해결하고자 한다. 어떨 때는 한 가지 목표에 너무 무게를 둔 나머지 다른 목표를 놓친다. 따라서 기업은 왜 이것을 하고 있는지, 어떤 도구가 이 3가지 측면에서 비용 대비 최고의 가치를 제공하는지 파악한 후 적절한 결정을 내려야 한다"라고 말했다. 

이 외에도 기업에겐 데이터 메시(data mesh)라는 선택지가 있다. 데이터 패브릭과는 정반대의 접근 방식이다. 데이터 패브릭이 하나의 가상 중앙 집중식 시스템에서 다수의 데이터 소스를 관리하는 반면, 데이터 메시는 분산형 접근 방식을 취한다. 각 도메인마다 별도의 시스템을 생성하는 엔터프라이즈 데이터 아키텍처의 한 형태다. 

글로벌 비영리 단체인 데이터 콜라보레이션 얼라이언스(Data Collaboration Alliance)의 운영 책임자인 크리스 맥레란에 따르면 데이터 메시는 데이터를 가장 잘 이해하는 사람의 손에 데이터를 맡긴다. 재무 책임자와 같은 사람일 수도 있고 데이터 관리자 역할을 하는 사람들로 구성된 그룹일 수도 있다. 

그는 "핵심에는 제품으로서의 데이터(data as a product)라는 개념이 있다. 도메인 전문 지식을 가진 사람이 데이터를 소유해 관리한다는 뜻이다"라고 설명했다. 

데이터 메시 아키텍처를 구현할 경우, 기업은 특정 데이터셋을 주제 전문가의 손에 맡길 수 있다. 맥레란은 "이러한 사람들은 규정, 고객, 최종 사용자에 해박하다. 특정 영역에 대한 모든 정보를 빠삭하게 알고 있다"라고 설명했다. 

데이터 메시는 특정 도구와 연결되어 있지 않으므로 개별 팀이 자신의 요구사항에 가장 적합한 도구를 선택할 수 있으며, 중앙 데이터 팀을 거치는 과정처럼 병목 현상이 일어나지 않는다. 

그는 "IT나 애플리케이션 제공뿐만 아니라 데이터 관리 및 데이터 거버넌스 자체가 분산화되는 추세다. 마케팅 담당자가 소비자 보호 관련 법률을 IT 팀보다 더 잘 알고, 금융 담당자가 금융 관련 규정을 IT팀보다 더 잘 알고 있는 현실에 더 적합하다”라고 설명했다. 

하지만 포레스터는 많은 제공업체가 데이터 메시 제품을 홍보하고 있음에도 아직 그 정의, 사용 기술이나 가치가 불명확한 점이 많다고 경고했다. 
 

훈련 및 변화 관리 

데이터 민주화를 위한 아키텍처가 구축되면, 이제 직원들이 새로운 데이터 프로세스로 작업하는 방법을 익힐 차례다. 인사이트의 올란디니는 관리자 혹은 회계사로 교육받았다고 하더라도 데이터 사용 방식에 대해 잘 모를 가능성이 얼마든지 있다고 말했다. 즉 데이터 접근이 쉬워진 것 자체는 시작일 뿐이다. 

그는 "어느 정도의 훈련을 거쳐야 한다. 제대로 하지 못할 경우, 기껏해야 불완전한 성공을 거둘 것이고, 그렇지 않으면 실패가 될 수도 있다"라고 말했다. 

몇몇 기업은 직원들이 데이터를 해석하고 적절하게 처리하는 방법을 이해하도록 자체 훈련 프로그램을 시작했다.  

예를 들어, 젠팩트는 기업 전체에 걸쳐 데이터 리터러시 능력을 기르기 위해 작년에 데이터브릿지(DataBridge) 이니셔티브를 도입했다. 

트리파시는 "10만 명이 넘는 직원 모두를 시민 데이터 과학자로 만들려 하지 않았다”라며 “먼저 맥락을 파악하도록 돕고 인식을 높이려고 했다"라고 설명했다. 

예를 들어, 클레임 분석을 하는 직원이 이상 징후 탐지에 대한 모든 것을 배울 필요는 없다. 이상 징후 탐지가 어떠한 의미를 갖는지 이해해야 한다. 그는 "데이터를 직접 볼 수 있는 모든 기술을 보유하고 있거나 보유하지 않을 수 있지만, 질문을 제기하고 도움을 요청할 수 있어야 한다. 올바른 방식으로 해당 질문을 할 수 있는 것이 데이터 인식의 측면이다"라고 덧붙였다. 
 

보안 및 컴플라이언스 기반 구축하기 

데이터 무결성을 유지하고, 혹시 모를 벌금 폭탄을 피하기 위해서는 처음부터 적절한 데이터 거버넌스를 구축해야 한다. 

인사이트의 올란디니는 보안 및 컴플라이언스 팀이 IT 리더와 함께 초기 대화에 참여해야 한다고 말했다. 그는 "이는 여간 골치 아픈 일이 아니다. 많은 기업이 이로 인해 어려움을 겪고 있다"라고 말했다. 올란디니는 기업의 리더십이 공유하고자 하는 데이터를 정확히 이해하고, 데이터에 접근할 수 있는 대상도 철저히 구분해야 한다고 강조했다. 

그는 "규제가 많은 세상이다. 특별히 주의를 기울여야 한다. 특히 부적합한 사람이 데이터에 접근하면 심각한 법적 결과로 이어지는 보건 의료 및 금융과 같은 산업에서는 그렇다"라고 지적했다. 

기업이 개인 식별 가능 정보를 가리도록 돕는 데이터 마스킹(data masking) 및 데이터 난독화(data obfuscation) 도구도 있다. 그는 "PII 데이터, HIPAA 기록 같이 규제된 개인정보를 드러내지 않고도 얼마든지 인사이트를 뽑아낼 수 있다. 속성별 접근 제어(attribute-based access controls) 기능이 있는 도구로 PII, HIPAA 같은 구체적인 속성에 데이터 태그를 지정하는 것도 하나의 방법이다. 그러면 해당 속성과 관련된 데이터에만 액세스할 수 있다"라고 설명했다.

이러한 방식을 잘 활용하면 데이터를 자동으로 관리할 수 있다. 이렇게 잘 관리된 데이터는 여러 곳에 데이터가 있는 공공 클라우드나 하이브리드 환경, 혹은 엄격한 컴플라이언스 제어가 적용된 프라이빗 환경에서도 사용할 수 있다. 
 

장기적인 이점

데이터 민주화는 기업의 데이터 파이프라인 속도를 높이는 데 도움이 될 뿐만 아니라, 사람들이 데이터를 활용해 문제를 해결할 수 있는 새로운 방법을 찾는 데 힘을 실어준다. 

가트너는 기업이 데이터를 민주화해 자원 부족 문제를 해결하고, 병목 현상을 줄이며, 비즈니스 부서에서 자체 데이터 요청을 더욱 쉽게 처리하도록 할 수 있다고 설명한다. 더 많은 사람이 데이터 분석 및 해석에 참여해 의사 결정이 더 나아지고, 팀 간 협업을 더 끈끈하게 만든다. 모두가 데이터 중심 의사 결정이 어떻게 이루어지는지 볼 수 있어 투명성도 향상할 수 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.