2016.11.10

'당혹스런' 트럼프 승리, 그러나 빅데이터의 실패는 아니다

Grant Gross | IDG News Service
최근 며칠간 실시된 거의 모든 여론 조사와 선거 결과 예측에서 도널드 트럼프는 힐러리 클린턴에게 지는 것으로 전망됐다. 그러나 결국 트럼프가 승리하면서 이 모든 것이 틀린 것이 됐다. 빅데이터와 고객관계관리 같은 기술에 대해서도 심각한 의문이 제기되고 있다.


Image Credit: Gage Skidmore/Trump Campaign

하지만 너무 성급하게 결론을 내릴 필요는 없다는 것이 데이터 전문가의 지적이다. 여론 조사나 파이브서티에잇 같은 예측이 빗나간 것은 데이터 처리보다 데이터 수집과 더 관련이 있는 것으로 보이기 때문이다.

데이터 분석은 오클랜드 애슬레틱스 야구팀의 머니볼(Moneyball) 모델에서 잘 작동했다. 그러나 CRM 분석가이자 비글 리서치 그룹의 설립자인 데니스 폼브라이언트는 선거 여론조사는 야구 통계와 다르다고 말했다. 그는 "야구의 경우 통계학자가 100년 이상 매우 신뢰할 수 있는 데이터를 수집해 왔다. 반면 선거 데이터는 그렇지 않다"라고 말했다.

모든 데이터 분석의 정확성은 데이터가 얼마나 잘 수집되고 정제되고 검증됐는가에 따라 결정된다. 폼브라이언트는 "이 때문에 데이터가 잘 관리되는 야구를 제외하면 깨끗한 형태의 데이터가 있는 분야에 데이터 분석을 적용해야 한다. 데이터가 관리되지 않는 영역에 분석을 적용하면 어떻게 되는지는 IT의 오랜 격언에도 나와 있다. '쓰레기 데이터를 넣으면 결국 결과도 엉망'이 되는 것이다"라고 말했다.

여론조사는 사실상 빅데이터가 아니라는 주장도 있다. 엔터프라이즈 스트레티지 그룹의 수석 애널리스트 닉 로다는 "여론 조사는 표본 크기가 충분히 커야 하는데, (기존 조사가) 데이터의 크기나 다양성 측면에서 기준에 미치지 못했을 가능성이 있다. 역대 선거 데이터 분석 결과도 실시간 분석이나 머신러닝, 다른 고급 분석과 배치될 가능성이 있다"라고 말했다.

이어 그는 "오히려 더 다양한 빅데이터 기술을 사용하는 것이 예측의 정확성을 높이는 데 도움이 될 수 있다. 예를 들어 이번 선거에서 두 후보 진영은 유권자 프로파일에 의존했지만, 더 풍부한 프로파일과 대중 행동 분석 기술을 이용했다면 판세를 정확하게 볼 수도 있었다. 이번 선거 결과는 전통적인 방법론의 실패다. 수학이나 빅데이터의 실패가 아니다"라고 말했다.

여론조사와 소셜 데이터를 결합했을 때 예측의 정확성을 높일 수 있다는 제안도 내놨다. 데이터만 보고 있으면 불분명한 숫자에 매몰될 수 있다고 로다는 지적했다.

전국 단위 여론조사 대부분에서 '클린턴의 승리'가 점쳐졌지만 그 차이가 근소하고 일부에서는 오차범위 내에 있었다는 점을 특히 주목할 필요가 있다. 9일 오전까지 클린턴은 18만 5000명이 참여한 여론조사에서 승리하는 것으로 나왔다. 그러나 전체 유권자는 1억 1850만 명이고 클린턴은 최소 27개 주에서 패배했다. 이 중에는 설문조사에서 그가 이길 것으로 예상된 곳도 포함돼 있었다.

그러나 일부 예측은 단지 오차의 문제가 아니었다. 실제로 프린스턴 대학의 선거 연구소 교수인 사무엘 왕은 8일 오전까지만 해도 클린턴이 승리할 가능성이 99%라고 주장했다. 선거 결과가 트럼프의 승리로 결정된 이후 왕은 시스템 상의 문제가 있었다고 말했다. 여론조사에 응답한 한 그룹 전체가 빠져있었다는 것이다. 이는 대통령 선거와 상원 선거에서 4% 이상을 차지해 당락을 좌우할 정도였다.

왕은 현재 전체 분석 과정을 재검토하고 있는데, 잘못된 예측치가 나온 이유 중 하나로 이른바 '부동층'이 너무 늦게 지지 후보를 결정한 것을 꼽았다. 그는 "설문조사에서 'undecided(아직 지지 후보를 결정하지 않았다)'는 용어를 사용했는데, 응답자에겐 '선호하는 후보를 결정할 수 없다'는 의미도 있었던 것 같다"라고 말했다.

실제로 선거전 초기에는 공화당 지지 성향의 유권자의 20%가 'undecided'이라고 답했다. 왕은 "이들에게 트럼프에 투표한다는 것은 선호 정당에 대한 지지와 매우 급진적인 후보에 대한 거부 사이의 고민이었다. 결국 막판에 선호 정당에 대한 지지를 선택한 것으로 보인다"라고 말했다.

오범의 빅데이터 분석가인 토니 베어는 접근성이 떨어지는 유권자의 표심이 제대로 반영되지 않았을 수 있다고 지적했다. 그는 "미국 거주자의 상당수가 통신 서비스를 이용하지 않는다. 이 역시 설문조사 과정에서 적당한 사람에게 결과를 받아내는 데 어려움으로 작용했을 것이다"라고 말했다.

이밖에 설문조사 과정에서 뭔가 '잘못된 신호'를 보내 조사에 참여한 사람이 거짓말을 했을 수도 있다. 베어는 "충분한 규모로 이뤄진 설문조사를 보면 그 데이터에서 어떤 신호를 발견할 수 있다. 정확하게 질문이 이뤄졌는지, 올바른 데이터가 수집됐는지 냉정하게 확인하는 것이 중요하다"라고 말했다. 마지막으로 베어에게 트럼프의 대선 승리에 대한 느낌을 물었다. 그는 "다른 사람들만큼 나도 당혹스럽다"라고 말했다. ciokr@idg.co.kr 



2016.11.10

'당혹스런' 트럼프 승리, 그러나 빅데이터의 실패는 아니다

Grant Gross | IDG News Service
최근 며칠간 실시된 거의 모든 여론 조사와 선거 결과 예측에서 도널드 트럼프는 힐러리 클린턴에게 지는 것으로 전망됐다. 그러나 결국 트럼프가 승리하면서 이 모든 것이 틀린 것이 됐다. 빅데이터와 고객관계관리 같은 기술에 대해서도 심각한 의문이 제기되고 있다.


Image Credit: Gage Skidmore/Trump Campaign

하지만 너무 성급하게 결론을 내릴 필요는 없다는 것이 데이터 전문가의 지적이다. 여론 조사나 파이브서티에잇 같은 예측이 빗나간 것은 데이터 처리보다 데이터 수집과 더 관련이 있는 것으로 보이기 때문이다.

데이터 분석은 오클랜드 애슬레틱스 야구팀의 머니볼(Moneyball) 모델에서 잘 작동했다. 그러나 CRM 분석가이자 비글 리서치 그룹의 설립자인 데니스 폼브라이언트는 선거 여론조사는 야구 통계와 다르다고 말했다. 그는 "야구의 경우 통계학자가 100년 이상 매우 신뢰할 수 있는 데이터를 수집해 왔다. 반면 선거 데이터는 그렇지 않다"라고 말했다.

모든 데이터 분석의 정확성은 데이터가 얼마나 잘 수집되고 정제되고 검증됐는가에 따라 결정된다. 폼브라이언트는 "이 때문에 데이터가 잘 관리되는 야구를 제외하면 깨끗한 형태의 데이터가 있는 분야에 데이터 분석을 적용해야 한다. 데이터가 관리되지 않는 영역에 분석을 적용하면 어떻게 되는지는 IT의 오랜 격언에도 나와 있다. '쓰레기 데이터를 넣으면 결국 결과도 엉망'이 되는 것이다"라고 말했다.

여론조사는 사실상 빅데이터가 아니라는 주장도 있다. 엔터프라이즈 스트레티지 그룹의 수석 애널리스트 닉 로다는 "여론 조사는 표본 크기가 충분히 커야 하는데, (기존 조사가) 데이터의 크기나 다양성 측면에서 기준에 미치지 못했을 가능성이 있다. 역대 선거 데이터 분석 결과도 실시간 분석이나 머신러닝, 다른 고급 분석과 배치될 가능성이 있다"라고 말했다.

이어 그는 "오히려 더 다양한 빅데이터 기술을 사용하는 것이 예측의 정확성을 높이는 데 도움이 될 수 있다. 예를 들어 이번 선거에서 두 후보 진영은 유권자 프로파일에 의존했지만, 더 풍부한 프로파일과 대중 행동 분석 기술을 이용했다면 판세를 정확하게 볼 수도 있었다. 이번 선거 결과는 전통적인 방법론의 실패다. 수학이나 빅데이터의 실패가 아니다"라고 말했다.

여론조사와 소셜 데이터를 결합했을 때 예측의 정확성을 높일 수 있다는 제안도 내놨다. 데이터만 보고 있으면 불분명한 숫자에 매몰될 수 있다고 로다는 지적했다.

전국 단위 여론조사 대부분에서 '클린턴의 승리'가 점쳐졌지만 그 차이가 근소하고 일부에서는 오차범위 내에 있었다는 점을 특히 주목할 필요가 있다. 9일 오전까지 클린턴은 18만 5000명이 참여한 여론조사에서 승리하는 것으로 나왔다. 그러나 전체 유권자는 1억 1850만 명이고 클린턴은 최소 27개 주에서 패배했다. 이 중에는 설문조사에서 그가 이길 것으로 예상된 곳도 포함돼 있었다.

그러나 일부 예측은 단지 오차의 문제가 아니었다. 실제로 프린스턴 대학의 선거 연구소 교수인 사무엘 왕은 8일 오전까지만 해도 클린턴이 승리할 가능성이 99%라고 주장했다. 선거 결과가 트럼프의 승리로 결정된 이후 왕은 시스템 상의 문제가 있었다고 말했다. 여론조사에 응답한 한 그룹 전체가 빠져있었다는 것이다. 이는 대통령 선거와 상원 선거에서 4% 이상을 차지해 당락을 좌우할 정도였다.

왕은 현재 전체 분석 과정을 재검토하고 있는데, 잘못된 예측치가 나온 이유 중 하나로 이른바 '부동층'이 너무 늦게 지지 후보를 결정한 것을 꼽았다. 그는 "설문조사에서 'undecided(아직 지지 후보를 결정하지 않았다)'는 용어를 사용했는데, 응답자에겐 '선호하는 후보를 결정할 수 없다'는 의미도 있었던 것 같다"라고 말했다.

실제로 선거전 초기에는 공화당 지지 성향의 유권자의 20%가 'undecided'이라고 답했다. 왕은 "이들에게 트럼프에 투표한다는 것은 선호 정당에 대한 지지와 매우 급진적인 후보에 대한 거부 사이의 고민이었다. 결국 막판에 선호 정당에 대한 지지를 선택한 것으로 보인다"라고 말했다.

오범의 빅데이터 분석가인 토니 베어는 접근성이 떨어지는 유권자의 표심이 제대로 반영되지 않았을 수 있다고 지적했다. 그는 "미국 거주자의 상당수가 통신 서비스를 이용하지 않는다. 이 역시 설문조사 과정에서 적당한 사람에게 결과를 받아내는 데 어려움으로 작용했을 것이다"라고 말했다.

이밖에 설문조사 과정에서 뭔가 '잘못된 신호'를 보내 조사에 참여한 사람이 거짓말을 했을 수도 있다. 베어는 "충분한 규모로 이뤄진 설문조사를 보면 그 데이터에서 어떤 신호를 발견할 수 있다. 정확하게 질문이 이뤄졌는지, 올바른 데이터가 수집됐는지 냉정하게 확인하는 것이 중요하다"라고 말했다. 마지막으로 베어에게 트럼프의 대선 승리에 대한 느낌을 물었다. 그는 "다른 사람들만큼 나도 당혹스럽다"라고 말했다. ciokr@idg.co.kr 

X