Offcanvas

How To / 애플리케이션

CRM 데이터 중복 제거의 딜레마, 어떻게 해결할 것인가

2013.10.04 David Taber  |  CIO


발견된 중복을 분석하는 과정에서 당신은 다음의 4가지를 이해해야 한다.

● 잠재적 중복 ‘쌍'을 탐지할 가장 신뢰도 높은 방법

● 병합 사이클 내 ‘승자(winner)'를 확인할 최선의 방법

● ‘패자(loser)'의 기록 가운데 보호 받아야 할 부분

● 패자 기록으로 유/출입되는 신호의 처리 방법

오늘날 대부분의 데이터 중복 제거 툴들은 데이터가 당신의 데이터베이스 내부에 머무르는 동안 운영된다. 일반적으로 이는 완전 반출/정리/반입 사이클보다 덜 거슬리는 방식이다(이 표현으로 몇몇 업체들의 항의 메일을 받을지도 모르겠다). 효과 역시 없지는 않다. 문제는 작업이 잘못됐을 때, ‘되돌리기'가 불가능하다는 점이다. 그 점이 바로 추가적인 관리가 필요한 이유다.

CRM 데이터 중복 제거는 조직적 접근을 필요로 한다
기본적인 데이터 중복 제거 사이클은 다음과 같다.

● 완전 시스템 백업(매번)

● 가능하다면 시스템 샌드박스(sandbox)에서 작업을 시작하라. 접근법과 툴, 결과물을 입증했다면, 프로덕션 인스턴스(production instance)에서 전체 사이클을 다시금 진행하라.

● 모든 단계를 철저히 기록하라(기록 단계 역시 기록하라). 정확한 반복이 가능해진다(문제 대응 역량 역시 향상될 것이다).

● 문제가 되는 테이블(특히 국가 및 지역 코드 등)과 옵션 집합 밸류(picklist value) 등 클린 필드(clean field) 데이터가 중복 감지 및 승자/패자 확인 품질을 향상시킬 수 있는 모든 기록을 표준화하라.

● 휴대전화 번호, 이메일, 단계/지위, 소유자, 기록 타입 등 ‘승자' 및 ‘패자' 가치 모두를 보호하고자 하는 영역들을 확인하라. 취약한 영역과 가치 있는 영역을 확인했다면, 이들을 연결하고 테이블 내 각 기록의 신규 텍스트 필드(text field)에 배치하자. 연결은 ETL 툴 혹은 시스템 내부 코드를 통해 진행이 가능하다. 이 단계는 이전에 앞서 완료, 조정되어야 함을 기억하자.

● 데이터 중복 제거 툴을 잠재적 중복 기록의 확인에 가장 적합한 매칭 기준(matching criteria) 및 필드와 함께 설치하라. 최초의 반복에서는 매우 단단한 기준이 필요하다. 툴의 이 부분을 실행하고 중복 후보의 완결성을 확인하라.

● 병합 규정 및 프로세싱 시나리오를 설정해 각 중복 셋 내부의 ‘승자'를 확인하라. (연결과 함께) 생성한 텍스트 필드를 ‘추가 모드(append mode)’로 병합돼 패자의 데이터가 보호될 수 있도록 하라. 사용자들의 병합 결과물을 검토해 잘못된 것들을 확인하라.

● 위의 단단한 기준을 통해 테스트 병합을 시행해 의도치 않은 결과물이 도출되는지 확인하라. 일간 배치 업데이트(batch update)가 병합 기록과 관련한 문제를 야기하진 않는지, 혹은 외부 시스템 동기화 과정에서 중복을 생성하지는 않는지를 확인하기 위해서는 하루 정도의 기다림이 필요하다.

● 샌드박스 내 진행에서 만족스러운 결과를 확인했다면, 생산 프로세스에 실행을 한 번 적용해보자. 한 번의 실행 이후에는 다시 하루를 기다려 부작용을 확인해보라.

● 생산 단계에서도 문제가 발생하지 않았다면 전체 시스템을 백업하라.

● 패자 기준에 맞춰 프로세스를 반복하라. 일반적인 경우라면 각 중복 제거 사이클은 총 중복의 약 절반을 처리할 것이다. 중복률을 허용 수준까지 낮추기 위해서는 전체 프로세스를 4번 진행해야 할 것이다.

데이터 리스크가 높아질수록 중복 제거의 고민도 커진다
일반적으로 고위험 기록에는 처리할 사항 역시 많다. 기록이 사라질 경우 참조할 근거가 부족하기 때문이다. 대부분의 CRM 시스템들에서 계정(과 그것의 기록과 관련이 있는 몇몇 외부 시스템들)은 최고위험 테이블로 정의된다. 이 계정들은 정말 병합될 수 없는 것들일까?

대부분의 CRM 시스템들은 ‘근원 계정(parent account)’의 개념을 갖추고 있다. 이것이 계정의 병합을 막는 솔루션 전략의 근간이다. 중복 계정이 모두 새로운 마스터 계정(master account)의 하부 계정으로 들어가 마치 ‘지주 회사'와 같이 역할을 하기 때문이다.

의심할 여지 없이, CRM 시스템의 중복 기록이야 말로 데이터 붕괴의 가장 흔한 형태다. 그러나 불운하게도, 중복 기록은 일회성 이벤트가 아니라 일련의 과정이다. 지금 당장 시스템에서 중복 기록을 전부 없앴다 해도, 곧 새로운 패턴의 중복 기록을 야기하는 또 다른 소프트웨어나 프로세스가 나타날 것이다. 오류 패턴이 하나만 존재하는 경우라면 그것의 정리는 훨씬 더 간편하다. 이것이 우리가 적어도 월 단위로 중복 감지 사이클을 구동해야 하는 이유다.

*David Taber는 ‘세일즈포스닷컴 성공의 비밀(Salesforce.com Secrets of Success)’의 저자며 세일즈포스닷컴의 공식 컨설팅 업체인 세일즈로직스 CEO다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.