새로운 비즈니스 환경을 반영하는 데이터가 어떤 형태로든 존재한다면, 비즈니스 성패는 적절한 데이터의 준비와 도구가 확보되었는지에 달려 있다. 마틸리온의 데이브 랭톤 제품 담당 부사장이 데이터 무결성 이니셔티브를 시작하는 조직을 위한 조언을 제시했다. 데이터 팀이 빠지기 쉬운 4가지 함정과 이를 피하는 방법에 대해서다.
매일 생성되는 데이터의 양이 기하급수적으로 늘어나는 있다. 현대 기업에게 데이터의 중요성도 그만큼 커지는 양상이다. 적절히 사용된다면 데이터는 세계에서 가장 값진 자원일 수 있다. 그러나 불완전하고 일관성 없는 데이터 세트는 위험하기만 하며, 그에 따라 기업 수익성에 악영향을 미치게 된다.
DAMA 데이터 관리 지식 체계(DAMA Management Body of Knowledge)의 전문가들은 현대 조직들이 데이터 품질 문제를 해소하는 데 매출의 10 ~ 30% 정도를 소비한다고 추정하고 있다.
데이터 무결성의 중요성을 인식하면서 현대의 데이터 팀은 이제 데이터 준비 작업 뿐 아니라 데이터를 보존하는 일에 노력을 집중하고 있다. 데이터 무결성(Data Integrity)이란 시스템에 있는 데이터의 정확성, 완전성, 일관성, 합치를 아우르는 용어다. 이는 데이터 팀이 달성하고자 하고, 이 달성을 위한 과정들을 망라하는 용어이기도 하다.
이 정의는 여러 데이터 측면으로 구성된다. 예를 들어 데이터의 물리적 무결성(데이터가 안전하게 저장되는 방식), 데이터의 논리적 무결성(정확성, 완전성, 확실성), 합치의 문제(데이터가 GDPR 등 필수 표준에 부합하는지 여부) 등이다.
대체로, 현대의 분산 데이터 시스템은 성능을 극대화하기 위해 논리적 무결성과 관련해 느슨한 구조를 갖추고 있다. 이로 인해 데이터 팀은 데이터 정확성을 위해 다른 전략을 알아보게 된다.
데이터 무결성의 달성은 궁극적으로 한층 우수한 성과, 신뢰성, 액세스를 조직에게 보장하는 방법이다. 데이터 무결성 이니셔티브를 시작할 때 알고 있어야 할 아래와 같은 4가지 핵심적 위험이 있다.
• 책임성 평가 – 일률적 표준이 없다면 데이터를 입력하고 데이터로 작업하는 일은 데이터 시스템 전체에 걸쳐 불일치를 생성할 수 있다. 책임성은 어느 조직이 되었든 성공에 핵심적이고, 데이터 관리 측면에서 특히 중요하다. 책임성이 없다면 데이터 무결성에 대한 최종 책임자가 누구인지 불확실할 것이다.
• 노후 및 중복 시스템 – 일관성은 데이터 무결성의 또 다른 원리이고, 중복 및 노후 시스템에 의해 빈번하게 훼손된다. 중요한 상세 데이터가 데이터베이스 전체에 걸쳐 표준 포맷으로 저장되었는가? 조직 내 상이한 집단이 동일한 데이터세트를 가지고 일하는가? 일관성 없는 데이터는 중복 기록, 특정 기준에 미달하는 데이터, 또는 특정 시간에 접근할 수 없는 데이터를 생성하면서 품질을 저해한다.
• 부정확 또는 누락 데이터 – 데이터가 늘어날수록 불완전하거나 부정확한 기록을 포착하기가 더 어려워진다. 다수의 이종 시스템으로부터 상이한 시점에 수집된 데이터를 통일하는 일 역시 증가 중인 데이터 풀에 깊숙이 묻혀있는 맹점이나 부정확을 남길 수 있다. 무결성은 정확성과 아울러 미래의 데이터 수요를 감당할 수 있는 능력을 요구한다.
• 데이터의 흐름을 놓침 – 실수를 추적하고 이를 몇 주, 몇 달, 몇 년 동안 해결하려는 시도가 가져오는 복잡성은 최초의 오류보다 더 값비쌀 수 있다. 데이터에 대한 확실한 감사용 기록(audit trail, or audit log)의 부재는 변경 주체와 변경 시점에 대한 불확실성을 의미한다. 감사용 기록을 유의미한 검토 없이 확립한다면 문제가 된다.
일단 데이터 무결성을 유지하기 위해 유의해야 할 부분을 알고 있다면, 데이터 무결성을 달성하고 유지할 계획할 차례다. 데이터는 조직의 모든 측면과 접촉하기 때문에 (그리고 데이터 팀은 데이터를 적절하게 관리하고 전달해야 한다는 압력 하에 있기 때문에), 종합적인 계획을 수립해 데이터를 청결하게 유지하는 일이 지극히 중요하다. 현대의 데이터 팀이 도입해야 할 데이터 무결성 계획에는 아래와 같이 4가지 핵심 요소가 있다.
• 통합에 투자하라. 장기 투자로서 지금 데이터를 통합하는 데 필요한 시간과 자원은 데이터 세트가 커졌을 때 조직이 절약할 수 있는 자금과 인력에 비하면 사소할 것이다. 데이터 준비 및 ETL(Extract, Transform, Load) 애플리케이션 등의 솔루션은 데이터를 정리하고 그 과정에서 데이터를 정화하면서 일관성을 향상시킬 수 있다. ETL은 데이터 양이 증가하고 데이터 유형이 한층 다양해짐에 따라 필수적이다.
• 데이터 관리자를 임명하고 교육 – 특정한 데이터 세트나 조직 전체의 데이터 시스템을 감독할 ‘데이터 관리자(data steward)’를 임명해 직원들의 의지처로 만들어야 한다. 아울러 정기적인 직원 교육은 입력 시점의 오류를 최소화할 수 있고, 책임성 체계, 그리고 명확한 데이터 관리 체계를 정착시킬 수 있다. 데이터 팀이 확장될 때 데이터 카탈로그는 데이터 세트의 신뢰를 증진함으로써 데이터 이용을 한층 민주화한다.
• 감사 및 검증 – 또한 데이터 관리인은 감사 로그를 모니터하고 신속한 교정 조치를 취할 수 있다. 감사 로그는 변경을 일일이 추적하며 어떤 변경이 누구에 의해 이루어졌는지를 드러낸다. 부정확하거나 불완전한 데이터가 식별될 뿐 아니라 출처까지 추적된다. 이런 과정을 통해 관리자는 조직의 미래를 이끌어가는 데 의존하는 데이터를 확실하게 검증할 수 있다.
• 테스트 및 반복 – 감사 로그는 정기적으로 검토되지 않는다면 그다지 효과가 없다. 정기 테스팅 체계를 생성해 강력한 검증 과정을 증강한다면 데이터 정확성에 대한 추측을 피할 수 있다. 이는 예를 들어 데이터가 몇 주나 몇 달 동안 상충되는 필드 유형에 기입되지 않도록 보장하는 데 도움이 된다. 병원에 가는 것과 마찬가지로 문제를 조기에 발견하는 일은 흔히 문제에 대처하는 최고의 방법이다.
미래 전략에는 문제가 심각해지기 전에 문제를 식별하고 대처하는 일이 포함된다. 데이터의 양과 복잡성은 불가피하게 증가할 것이다. 그리고 데이터는 사업을 하는 새 방식을 의미한다. 이 새로운 환경에서 성공하려면 세계의 변화를 헤쳐나가며 생존하는 데 필요한 수단으로 사람들을 무장시켜야 한다.