Offcanvas

How To / 리더십|조직관리 / 비즈니스|경제 / 빅데이터 | 애널리틱스

예측 애널리틱스 프로젝트가 실패하는 12가지 시나리오 ①

2013.08.05 Robert L. Mitchell  |  Computerworld


4. 잘못된 데이터를 이용하기
프리딕션 임팩트(Prediction Impact)의 사장이자 예측 애널리틱스에 대한 저서(Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die)의 저자이기도 한 에릭 시겔은 포천 1000대 금융회사 중 한 곳과 일한 적이 있었다. 이 고객사는 자사가 고용한 콜센터 인력 중 가장 오랜 기간 근속할 직원들이 누구인지에 대해 알고자 했다.

데이터 분석에 착수한지 얼마 되지 않아 고졸 미만의 학력을 가진 직원들은 그렇지 않은 직원들에 비해 평균적으로 9개월 이상 더 근속할 확률이 2.6배 가량 된다는 결론이 도출됐다. 시겔은 이러한 결과를 바탕으로 “고등학교 중퇴자를 적극적으로 고용할 것을 권고할 뻔 했다”라고 전했다.

하지만 문제가 있었다. 첫 번째 문제는 데이터였다. 이력서를 통해 지원자가 수동으로 입력한 데이터의 경우 일관성 없이 분류돼 있었다. 두 번째 문제는 분류를 담당한 사람에 있었다. 데이터 담당자 한 명이 모든 지원자의 학력수준을 다시 체크했으며, 다른 담당자는 지원자의 최종 학위를 검토했다. 그런데 어떠한 이유에서인지는 명확하지는 않지만 지원자의 최종학위를 검토했던 담당자가 근속연수가 가장 높은 지원자의 최종 학력을 실제보다 더 높게 표시했으며 이로 인해 문제가 발생했던 것이다.

결국 분류 담당자에게 무작위로 직원들의 입사지원서를 배분해 입력하게 하고 모든 담당자가 동일한 방법을 통해 분류하는 과정을 통해 잘못된 결론을 방지할 수 있다.
시겔은 “데이터를 올바로 분류해야만 데이터의 질적 확실성을 보장할 수 있고 이것이 예측 애널리틱스 결과에도 지대한 영향을 미친다”라고 말했다.

5. 미래의 데이터를 근거로 미래를 예측하기
데이터 웨어하우스와 관련한 문제 중 하나는 고정적(static)이지 않다는 것이다. 즉, 정보는 끊임없이 변하고 업데이트된다. 하지만 예측 애널리틱스는 귀납적 러닝 프로세스다. 즉 모델 창출을 위해 과거의 데이터나 학습용 데이터(training data)를 분석하는데 의존한다. 따라서 예측 애널리틱스 이용자는 데이터 상태가 고객 라이프사이클(customer lifecycle) 상에서 초기 상태로 존재할 수 있도록 해야 한다.

데이터의 시간이 기록되어 있지 않다면 이는 미래의 데이터가 포함될 가능성이 높아지는 것을 의미하며, 이는 결과적으로 잘못된 분석결과를 내놓기가 더 쉬워진다는 의미다.

이러한 일이 한 지역의 차량정비 대행업체(auto club)에서 일어났다. 이 업체에서는 회원 중 보험상품을 구매할 확률이 가장 높은 회원을 예상하는 모델을 구축하기 위해 예측 애널리틱스 모델을 구축하고자 했다.

모델 구축을 위해 이 업체는 어느 시점에 회원들이 보험상품 가입을 원했거나 원치 않았는지를 확인하기 전에 이전의 데이터셋을 되살릴 필요가 있었다. 그리고 나서 부차적인 데이터(subsequent data)를 제외시켰다. 이 업체는 전화, 팩스, 이메일 데이터 등의 텍스트 변수를 포함한 의사결정 트리(a decision tree)를 만들었다. 그러자 이 변수에 텍스트가 포함될 경우, 이들이 이후 보험상품을 구입할 확률은 100%라는 터무니없는 결과가 나왔다.

엘더는 “보험을 구입하기 전에 보험을 해지할 수는 없다” 라며, 따라서 예측 애널리틱스 모델을 수립할 때 데이터 중 일부는 별도로 관리해야 한다고 설명했다.

6. 데이터가 완벽히 수집되었다고 생각해 서두르기
예측 애널리틱스 프로젝트를 새로 시작할 때 전체 소요시간의 60~80%는 데이터 준비에 사용된다고 엘더 리서치는 설명했다. 분석 전문가들은 여러 소스로부터 데이터를 취합하고, 데이터 테이블을 취합하는 등 다양한 일을 해야 한다. 그리고 이러한 과정은 심지어 1년까지도 소요될 수 있다.

일부 기업에서 자사의 데이터가 오염되지 않은 상태라고 확신하기도 하지만, 애봇에 따르면 완벽한 데이터를 갖추고 있는 조직은 본적이 없다고 강조했다. 따라서 예상치 못했던 문제가 항상 일어날 수 있다는 설명이다.

한 제약회사의 경우를 생각해보자. 이 회사는 프로젝트 수행을 위해 엘더리서치의 도움을 받았다. 하지만 데이터를 취합하는 도중 리서치 회사에서 속도를 내고 업무를 추진할 것을 주문했다. 엘더리서치는 이러한 요청에 어쩔 수 없이 부응했다. 그리고 프로젝트는 줄어든 예산과 기간으로 진행됐다.

하지만 프로젝트가 시작되었을 때, 이 회사는 문제를 발견했다. 일부 발주의 선적일이 발주일보다 더 이전이었던 것이다. 딜은 “이는 어쩔 수 없는 문제이며, 문제의 해결을 위해 일정 시간이 필요하다”라며, 하지만 프로젝트의 규모가 축소되어 예산이 많지 않아 다시금 문제에 봉착하게 됐다고 전했다.

엘더리서치에서 이 문제를 지적하자 기업 측은 문제를 깨달았고 경영진에게 어떠한 이유에서 프로젝트에 더 많은 시일이 걸리게 되는지 설명해야 했다. 딜은 “신뢰성 문제가 제기될 수 밖에 없다”라고 전했다.

즉 아무리 기업의 데이터가 완전하다고 생각하더라도, 문제가 발생하는 상황을 예견해야 한다. 기대수준을 보수적으로 잡고 프로젝트를 진행해야 하는 것이다.

-> 예측 애널리틱스 프로젝트가 실패하는 12가지 시나리오 ②
ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.