2016.11.11

기고 | 엉터리 데이터 분석에 주의하라

Xiaojing Dong, John Heineke | CIO
한 잔의 와인이 체육관에서 한 시간 동안 운동하는 것만큼 건강에 좋다는 이야기가 있다. 임신한 여성에게 초콜릿 다이어트 유익하다는 연구 결과도 화제를 모았다. 자살, 교살, 질식이 미국의 과학, 우주, 기술에 대한 지출과 상관 관계가 높다는 결과가 나오기도 했다.

비즈니스/데이터 분석 부문에 종사하는 전문가들은 이런 괴상하지만 그리 틀리지 않은 연구들에 공통점이 있다는 사실을 잘 알고 있다. 변수들 사이의 상관 관계(correlations )를 나타내는 데이터와 인과성(causality)을 수립하는 데이터를 구분하지 못한다는 것이다.

이런 혼동으로 인해 임신한 여성이 허쉬(Hershey) 초코바를 한두 개 더 먹는다면 그리 심각한 결과로 이어지지 않을 것이다. 그러나 회사가 이런 혼동에 기반해 판단한다면 성과에 치명적일 수 있다.

데이터 분석을 연구하고 가르치는 교수로서 필자는 이런 문제를 반복적으로 목격하고 있다. 일부 비즈니스 사례를 소개한다.


Image Credit : Getty Images Bank

쿠폰 남발
고객이 더 많은 제품을 구매하도록 유도하기 위해 우편, 이메일, 모바일 기기로 쿠폰을 전송하곤 한다. 보편적인 마케팅 방법이다. 이 기법의 마케팅 효과를 평가하기 위해 기업들은 보편적으로 단순한 통계 모델을 구성한다. 통계 부서에서 쿠폰을 사용한 고객과 그렇지 않은 고객의 구매 차이를 측정하도록 지시하는 식이다.

그러나 (실제 마케팅 전략에 대해 아는 것이 거의 없는 통계 전문가에게 맡긴) 이런 분석은 쿠폰이 충성 고객들에게 전송되는 경우가 많다는 사실을 고려하지 않은 경우가 많다. 즉 쿠폰이 없을 때 이들 충성 고객으로부터 얻었을 매출을 감안하지 않는 한 분석은 실제 ‘쿠폰 효과’를 과장하기 쉽다. 결국 데이터에 기반해 새로운 전략을 수립한 이 기업은 ‘쿠폰을 남발’하고 불필요한 손해를 입을 것이다.

가격 정책 왜곡
가격 정책은 상관 관계/인과 혼동(correlation/causation confusion)이 치명적일 수 있는 또 다른 영역이다. 가격 탄력성(즉, 가격 변동에 대한 고객의 민감도)를 추정하려는 커피 브랜드를 상상해 보자.

이 커피 기업은 여러 커피 브랜드를 판매하는 식료품 매장에서 주간 판매 및 가격 데이터를 수집한다. 데이터에서 다소 놀랍게도 가격이 상승할 때 판매량이 증가하는 것으로 나타난다.

그렇다면 가격을 지속적으로 상승시키는 전략을 펼쳐야 할까? 물론 그렇지 않다. 식료품 매장에서 제품 가격이 개별 브랜드가 아닌 범주 수준(커피 브랜드 전체)에서 관리되는 경우가 많기 때문이다. 따라서 이 경우 경쟁자의 가격이 상승해 대상 브랜드의 제품 가격이 상승했을지라도 비교적 저렴해 보일 수 있다.

즉 대상 브랜드의 가격 외에 시장에서 어떤 일이 이루어지고 있는지에 관한 정보가 없다면 단순한 통계적 모델은 오도하고 혼란스러운 결과로 이어지기 쉽다.

검색 광고 오류
디지털 마케팅 시대에는 기업들이 그 어느 때보다도 키워드 검색 광고에 대한 지출을 늘리고 있다. 어떤 키워드에 가장 공격적인 예산을 편성할지 결정하기 위해 기업들은 일반적으로 CTR(Click-Through Rate), 즉 검색 결과에 광고가 표시되는 횟수 대비 클릭된 수를 측정한다. CTR이 높으면 해당 키워드의 예산이 더 증가한다.

하지만 데이터가 시작점에 불과한 경우 상당한 오해의 소지가 있다.

우선, 기업은 ‘귀여운 아기 옷’이라는 특정 키워드에 약간의 예산을 투입했을 수 있다. 구글 애드워즈가 개발한 입찰 시스템 때문에 소비자가 "귀여운 아기 옷"을 검색하면 해당 키워드에 대한 기준 이상으로 입찰한 기업의 광고만 사용자에게 노출된다.

그러나 기업이 "귀여운 아기 옷"에 돈을 지불하지 않았을지라도 회사에 생성되었을 수 있는 클릭이 있을 수 있다. 그 숫자를 정확히 알 수 없을 뿐이다.

또 대부분의 사람들은 첫 번째 검색 결과 페이지 외의 광고는 클릭하지 않는다. 따라서 누군가 "귀여운 아기 옷"을 검색할 때 표시된다 하더라도 충분히 지불하지 않은 경우라면 광고료를 많이 지불했을 때와 비교해 어떤 클릭 수 차이가 있는지 알기 어렵다.

현명한 접근을 위해서는 데이터 분석을 잠시 미루고 마케팅팀이 선별적인 신중한 실험을 하도록 해야 한다. 이를 통해 최고의 검색 전략을 결정하는데 도움이 되는 더 나은 데이터를 생성할 수 있다. 

엉터리 분석을 피하기 위한 팁
이런 문제를 해결하는 가장 효과적인 해결책은 데이터가 생성되는 과정인 DGP(Data Generating Process)를 정확히 이해하는 것이다. 각 데이터 세트는 검색 용어가 선택되고 클릭이 발생했는지 여부 등 발생한 일의 일부를 설명하는 일련의 기록이다.
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.
2016.11.11

기고 | 엉터리 데이터 분석에 주의하라

Xiaojing Dong, John Heineke | CIO
한 잔의 와인이 체육관에서 한 시간 동안 운동하는 것만큼 건강에 좋다는 이야기가 있다. 임신한 여성에게 초콜릿 다이어트 유익하다는 연구 결과도 화제를 모았다. 자살, 교살, 질식이 미국의 과학, 우주, 기술에 대한 지출과 상관 관계가 높다는 결과가 나오기도 했다.

비즈니스/데이터 분석 부문에 종사하는 전문가들은 이런 괴상하지만 그리 틀리지 않은 연구들에 공통점이 있다는 사실을 잘 알고 있다. 변수들 사이의 상관 관계(correlations )를 나타내는 데이터와 인과성(causality)을 수립하는 데이터를 구분하지 못한다는 것이다.

이런 혼동으로 인해 임신한 여성이 허쉬(Hershey) 초코바를 한두 개 더 먹는다면 그리 심각한 결과로 이어지지 않을 것이다. 그러나 회사가 이런 혼동에 기반해 판단한다면 성과에 치명적일 수 있다.

데이터 분석을 연구하고 가르치는 교수로서 필자는 이런 문제를 반복적으로 목격하고 있다. 일부 비즈니스 사례를 소개한다.


Image Credit : Getty Images Bank

쿠폰 남발
고객이 더 많은 제품을 구매하도록 유도하기 위해 우편, 이메일, 모바일 기기로 쿠폰을 전송하곤 한다. 보편적인 마케팅 방법이다. 이 기법의 마케팅 효과를 평가하기 위해 기업들은 보편적으로 단순한 통계 모델을 구성한다. 통계 부서에서 쿠폰을 사용한 고객과 그렇지 않은 고객의 구매 차이를 측정하도록 지시하는 식이다.

그러나 (실제 마케팅 전략에 대해 아는 것이 거의 없는 통계 전문가에게 맡긴) 이런 분석은 쿠폰이 충성 고객들에게 전송되는 경우가 많다는 사실을 고려하지 않은 경우가 많다. 즉 쿠폰이 없을 때 이들 충성 고객으로부터 얻었을 매출을 감안하지 않는 한 분석은 실제 ‘쿠폰 효과’를 과장하기 쉽다. 결국 데이터에 기반해 새로운 전략을 수립한 이 기업은 ‘쿠폰을 남발’하고 불필요한 손해를 입을 것이다.

가격 정책 왜곡
가격 정책은 상관 관계/인과 혼동(correlation/causation confusion)이 치명적일 수 있는 또 다른 영역이다. 가격 탄력성(즉, 가격 변동에 대한 고객의 민감도)를 추정하려는 커피 브랜드를 상상해 보자.

이 커피 기업은 여러 커피 브랜드를 판매하는 식료품 매장에서 주간 판매 및 가격 데이터를 수집한다. 데이터에서 다소 놀랍게도 가격이 상승할 때 판매량이 증가하는 것으로 나타난다.

그렇다면 가격을 지속적으로 상승시키는 전략을 펼쳐야 할까? 물론 그렇지 않다. 식료품 매장에서 제품 가격이 개별 브랜드가 아닌 범주 수준(커피 브랜드 전체)에서 관리되는 경우가 많기 때문이다. 따라서 이 경우 경쟁자의 가격이 상승해 대상 브랜드의 제품 가격이 상승했을지라도 비교적 저렴해 보일 수 있다.

즉 대상 브랜드의 가격 외에 시장에서 어떤 일이 이루어지고 있는지에 관한 정보가 없다면 단순한 통계적 모델은 오도하고 혼란스러운 결과로 이어지기 쉽다.

검색 광고 오류
디지털 마케팅 시대에는 기업들이 그 어느 때보다도 키워드 검색 광고에 대한 지출을 늘리고 있다. 어떤 키워드에 가장 공격적인 예산을 편성할지 결정하기 위해 기업들은 일반적으로 CTR(Click-Through Rate), 즉 검색 결과에 광고가 표시되는 횟수 대비 클릭된 수를 측정한다. CTR이 높으면 해당 키워드의 예산이 더 증가한다.

하지만 데이터가 시작점에 불과한 경우 상당한 오해의 소지가 있다.

우선, 기업은 ‘귀여운 아기 옷’이라는 특정 키워드에 약간의 예산을 투입했을 수 있다. 구글 애드워즈가 개발한 입찰 시스템 때문에 소비자가 "귀여운 아기 옷"을 검색하면 해당 키워드에 대한 기준 이상으로 입찰한 기업의 광고만 사용자에게 노출된다.

그러나 기업이 "귀여운 아기 옷"에 돈을 지불하지 않았을지라도 회사에 생성되었을 수 있는 클릭이 있을 수 있다. 그 숫자를 정확히 알 수 없을 뿐이다.

또 대부분의 사람들은 첫 번째 검색 결과 페이지 외의 광고는 클릭하지 않는다. 따라서 누군가 "귀여운 아기 옷"을 검색할 때 표시된다 하더라도 충분히 지불하지 않은 경우라면 광고료를 많이 지불했을 때와 비교해 어떤 클릭 수 차이가 있는지 알기 어렵다.

현명한 접근을 위해서는 데이터 분석을 잠시 미루고 마케팅팀이 선별적인 신중한 실험을 하도록 해야 한다. 이를 통해 최고의 검색 전략을 결정하는데 도움이 되는 더 나은 데이터를 생성할 수 있다. 

엉터리 분석을 피하기 위한 팁
이런 문제를 해결하는 가장 효과적인 해결책은 데이터가 생성되는 과정인 DGP(Data Generating Process)를 정확히 이해하는 것이다. 각 데이터 세트는 검색 용어가 선택되고 클릭이 발생했는지 여부 등 발생한 일의 일부를 설명하는 일련의 기록이다.
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.
X