2017.07.14

모두가 실패할 때 유거브가 선거 결과를 정확히 예측한 이유

Tom Macaulay | Computerworld UK
영국 EU 탈퇴 국민투표와 미국 대선 결과에 대한 예측이 잇달아 빗나가면서 여론조사의 신뢰도가 심각한 타격을 받고 있다. 이런 가운데 최근 영국 선거 결과를 정확하게 예측한 조사가 있어 주목받고 있다. 바로 '유거브(YouGov)'다. LBC와 뉴스나이트(Newsnight)의 진행자 제임스 오브라이언은 “지금까지 유일한 승자는 유거브다”라고 말했다.



유거브가 이처럼 정확한 결과를 예측할 수 있었던 것은 선거구 등의 좁은 지역을 대상으로 한 여론조사에 특화된 자체 통계 모델인 MRP(Multilevel Regression and Post-stratification) 덕분이었다. 이번 여론조사에서 각 선거구 당 평균 표본 크기는 불과 75명이었다. 그러나 유거브는 MRP를 이용해 전체 의석 중 93%의 당선인을 정확히 예측했다.

MRP 모델은 LSE(London School of Economics)의 교수 벤 로더데일과 스탠퍼드대학 교수 더그 리버스가 이끄는 유거브의 데이터 공학팀이 주로 개발했다. 리버스는 “75명에 대한 설문조사는 10%p 이상 오차가 발생할 가능성이 크다. 따라서 우리는 2015년에 보수당, 노동당, 스코틀랜드국민당(SNP) 등에 투표한 사람 중 2016년에 지지당을 바꾼 비율을 파악했다. 여기에 인구 통계를 더하면 예측이 훨씬 강력해진다”라고 말했다.

즉 이전의 투표 행위에 인구 통계적 정보를 더해 일반적으로 작은 표본 때문에 생기는 각 선거구에 대한 예측치 오차를 줄일 수 있다는 것이다. 실제로 이 모델은 부족한 데이터와 낮은 응답률의 한계를 보완하며 의석에 변화를 정확하게 예측해 냈다.

유거브의 MRP 모델
유거브는 이전 7일 동안의 설문조사 데이터를 이용해 응답자 프로필에 대한 변수를 현재의 투표 성향과 연계했다. 변수에는 선거구, 인구 통계, 과거의 투표자 행동, 인터뷰 날짜 등이 포함됐으며, 이를 고려해 각 투표자 유형이 특정 정당에 투표할 확률을 추산했다. 이후 ONS(Office of National Statistics) 연례 인구 조사, BES(British Election Study), 2015 총선 및 EU 국민투표 결과를 이용해 각 선거구에 포함된 각 투표자 유형의 수를 예측했다. 마지막으로 각 유형 중 몇 명이 자신의 선거구에서 투표할 생각이 있는지 추산했다.

또한, MRP 모델은 추가로 다른 선거구의 응답자로부터 얻은 데이터를 이용해 각 선거 지역에서 수행한 소수의 인터뷰를 보정해 표본 크기를 강화하고 정확도를 높였다. 이것이 효과가 있는 이유는 투표자 프로필로 파악한 거주 지역에 상관 없이 꽤 정확한 예측 지표로 유지되기 때문이다.

데이터는 유거브의 설문조사 시스템에서 자체 크런치(Crunch) 분석 데이터베이스로 전송된다. 이후 컬럼비아대학의 통계학자 앤드류 겔먼이 발명한 오픈 소스 확률 소프트웨어 '스탠(Stan)'을 이용해 처리한다. 스탠은 HMC(Hamiltonian Monte Carlo) 알고리즘을 이용해 데이터에 대한 예측을 모델화한다.

어려움에도 불구하고
선거 전에는 많은 사람이 캔터베리 지역에서 노동당이 패배할 것으로 생각하지 못했다. 지난 99년간 노동당이 승리해 왔다. 그러나 유거브는 이 결과를 정확히 내다봤다. 캔터베리에 잔류 투표자와 학생이 많다는 점을 반영한 예측 결과였다.

리버스는 “데이터를 통해 미리 파악할 수 있었다. 중간 수정 가능성을 제기하기도 하지만 AWS에서 대당 40개 코어를 사용하는 시스템이 모델을 예측하는 데 8시간이 걸리므로 중간에 예측치를 조정하거나 특별한 조치를 취하는 것도 불가능했다. 이 선거구의 경우 잔류 투표가 큰 영향을 줬고 결과를 정확히 예측하는 데 유용했다"라고 말했다.

유거브를 제외한 다른 설문 조사는 이전의 오류를 과도하게 보정해 자신의 생각에 데이터를 끼워 맞춤으로써 2015년에 토리당이 여당이 될 것을 예측하지 못했던 실수를 만회하려 했을 가능성이 크다. 실제로 입소스 모리(Ipsos Mori)는 마지막 순간에 투표자 수를 기준으로 예측을 조정해 보수당이 쉽게 승리할 것으로 예측했다.

리버스는 “그런 식의 결과가 나오리라는 생각에 데이터를 조작해 그런 결과를 얻은 것이다. 이번 선거 예측의 교훈은 순수하게 데이터에 귀를 기울여야 한다는 것이다"라고 말했다.

성공과 실패
단, 유거브 역시 모든 것을 정확히 예측한 것은 아니었다. 스코틀랜드에서 SNP의 득표율을 너무 높게 예상했다. 보수당의 득표율도 예상보다 낮았지만 설문조사로 예측한 것보다 약간 더 많은 의석수를 확보했을 뿐이다.

리버스는 “결국 보수당이 승리하면서 박빙의 승부가 됐다. 우리는 사실 내무장관 앰버 루드가 약간의 차이로 패배할 것으로 예측했다. 하지만 약간의 차이로 승리했기 때문에 예측의 품질 자체가 나쁘다고는 할 수 없다. 우리가 처음 이 예측치를 내놨을 때 사람들은 내무장관이 정말 패배할 것이라고 생각하느냐고 반문하기도 했다. 그러나 박빙의 상황에서도 이를 예측할 수 있어야 한다. 캔터베리에서는 운이 좋았다면 엠버 루드의 경우는 운이 약간 좋지 않았을 뿐이다"라고 말했다.

유거브의 MRP 모델은 EU 국민투표 결과를 성공적으로 예측하기도 했지만 2016년 미 대선에서 트럼프의 승리를 예측하는 데는 실패했다. 미국 시장에서 운영 경험이 적고 인구 밀도가 낮은 지역을 다루면서 다른 문제가 발생했다. 유권자에겐 힐러리 클린턴이 간발의 차이로 승리할 것으로 예측했지만 선거인단 선출 방식을 제대로 고려하지 못했다. 결국 중요한 중서부 접전지에서 우열을 가리기 어려웠고 트럼프 지지자의 높은 투표율로 결과가 바뀌었다.

향후 개선점
MRP 방법론은 오는 9월 독일에서 진행되는 연방 선거에도 적용될 예정이다. 이를 위해 유거브는 표본 크기를 늘리고 응답자들에 대한 정보를 더 확보하기 위해 노력하고 있다.

리버스는 “표본에 포함된 사람 수를 늘려 더 큰 데이터를 지향하고 있다. 5만에서 10만 또는 20만으로 늘릴 수 있다면 예측의 품질도 개선될 것이다. 모델화 시간을 줄이기 위해 소프트웨어를 이용해 추적한다. 더 많은 변수 또는 데이터 포인트(Data Point)도 추가하고 있다. 패널로부터 수천 개의 정보를 수집하고 이를 더 효과적으로 활용해 조사 지역에서 예측의 품질을 높이는 방법을 찾고 있다”라고 말했다.

유거브가 처음 MRP 모델로 예측한 결과를 공개했을 때 많은 이들이 이를 무시했다. 그러나 정확도가 검증되면서 앞으로는 상황이 바뀔 것으로 보인다. 리버스는 “10년 후에는 전통적인 분석 방법이 구식이 되고 MRP 같은 접근방식이 당연하게 사용될 것이다. 실제로 이를 적용한 여론조사가 늘어나고 있다. 단, 이전의 것을 완전히 대체하는 것은 아니고 새로운 방법을 추가하는 것이다"라고 말했다. ciokr@idg.co.kr 

2017.07.14

모두가 실패할 때 유거브가 선거 결과를 정확히 예측한 이유

Tom Macaulay | Computerworld UK
영국 EU 탈퇴 국민투표와 미국 대선 결과에 대한 예측이 잇달아 빗나가면서 여론조사의 신뢰도가 심각한 타격을 받고 있다. 이런 가운데 최근 영국 선거 결과를 정확하게 예측한 조사가 있어 주목받고 있다. 바로 '유거브(YouGov)'다. LBC와 뉴스나이트(Newsnight)의 진행자 제임스 오브라이언은 “지금까지 유일한 승자는 유거브다”라고 말했다.



유거브가 이처럼 정확한 결과를 예측할 수 있었던 것은 선거구 등의 좁은 지역을 대상으로 한 여론조사에 특화된 자체 통계 모델인 MRP(Multilevel Regression and Post-stratification) 덕분이었다. 이번 여론조사에서 각 선거구 당 평균 표본 크기는 불과 75명이었다. 그러나 유거브는 MRP를 이용해 전체 의석 중 93%의 당선인을 정확히 예측했다.

MRP 모델은 LSE(London School of Economics)의 교수 벤 로더데일과 스탠퍼드대학 교수 더그 리버스가 이끄는 유거브의 데이터 공학팀이 주로 개발했다. 리버스는 “75명에 대한 설문조사는 10%p 이상 오차가 발생할 가능성이 크다. 따라서 우리는 2015년에 보수당, 노동당, 스코틀랜드국민당(SNP) 등에 투표한 사람 중 2016년에 지지당을 바꾼 비율을 파악했다. 여기에 인구 통계를 더하면 예측이 훨씬 강력해진다”라고 말했다.

즉 이전의 투표 행위에 인구 통계적 정보를 더해 일반적으로 작은 표본 때문에 생기는 각 선거구에 대한 예측치 오차를 줄일 수 있다는 것이다. 실제로 이 모델은 부족한 데이터와 낮은 응답률의 한계를 보완하며 의석에 변화를 정확하게 예측해 냈다.

유거브의 MRP 모델
유거브는 이전 7일 동안의 설문조사 데이터를 이용해 응답자 프로필에 대한 변수를 현재의 투표 성향과 연계했다. 변수에는 선거구, 인구 통계, 과거의 투표자 행동, 인터뷰 날짜 등이 포함됐으며, 이를 고려해 각 투표자 유형이 특정 정당에 투표할 확률을 추산했다. 이후 ONS(Office of National Statistics) 연례 인구 조사, BES(British Election Study), 2015 총선 및 EU 국민투표 결과를 이용해 각 선거구에 포함된 각 투표자 유형의 수를 예측했다. 마지막으로 각 유형 중 몇 명이 자신의 선거구에서 투표할 생각이 있는지 추산했다.

또한, MRP 모델은 추가로 다른 선거구의 응답자로부터 얻은 데이터를 이용해 각 선거 지역에서 수행한 소수의 인터뷰를 보정해 표본 크기를 강화하고 정확도를 높였다. 이것이 효과가 있는 이유는 투표자 프로필로 파악한 거주 지역에 상관 없이 꽤 정확한 예측 지표로 유지되기 때문이다.

데이터는 유거브의 설문조사 시스템에서 자체 크런치(Crunch) 분석 데이터베이스로 전송된다. 이후 컬럼비아대학의 통계학자 앤드류 겔먼이 발명한 오픈 소스 확률 소프트웨어 '스탠(Stan)'을 이용해 처리한다. 스탠은 HMC(Hamiltonian Monte Carlo) 알고리즘을 이용해 데이터에 대한 예측을 모델화한다.

어려움에도 불구하고
선거 전에는 많은 사람이 캔터베리 지역에서 노동당이 패배할 것으로 생각하지 못했다. 지난 99년간 노동당이 승리해 왔다. 그러나 유거브는 이 결과를 정확히 내다봤다. 캔터베리에 잔류 투표자와 학생이 많다는 점을 반영한 예측 결과였다.

리버스는 “데이터를 통해 미리 파악할 수 있었다. 중간 수정 가능성을 제기하기도 하지만 AWS에서 대당 40개 코어를 사용하는 시스템이 모델을 예측하는 데 8시간이 걸리므로 중간에 예측치를 조정하거나 특별한 조치를 취하는 것도 불가능했다. 이 선거구의 경우 잔류 투표가 큰 영향을 줬고 결과를 정확히 예측하는 데 유용했다"라고 말했다.

유거브를 제외한 다른 설문 조사는 이전의 오류를 과도하게 보정해 자신의 생각에 데이터를 끼워 맞춤으로써 2015년에 토리당이 여당이 될 것을 예측하지 못했던 실수를 만회하려 했을 가능성이 크다. 실제로 입소스 모리(Ipsos Mori)는 마지막 순간에 투표자 수를 기준으로 예측을 조정해 보수당이 쉽게 승리할 것으로 예측했다.

리버스는 “그런 식의 결과가 나오리라는 생각에 데이터를 조작해 그런 결과를 얻은 것이다. 이번 선거 예측의 교훈은 순수하게 데이터에 귀를 기울여야 한다는 것이다"라고 말했다.

성공과 실패
단, 유거브 역시 모든 것을 정확히 예측한 것은 아니었다. 스코틀랜드에서 SNP의 득표율을 너무 높게 예상했다. 보수당의 득표율도 예상보다 낮았지만 설문조사로 예측한 것보다 약간 더 많은 의석수를 확보했을 뿐이다.

리버스는 “결국 보수당이 승리하면서 박빙의 승부가 됐다. 우리는 사실 내무장관 앰버 루드가 약간의 차이로 패배할 것으로 예측했다. 하지만 약간의 차이로 승리했기 때문에 예측의 품질 자체가 나쁘다고는 할 수 없다. 우리가 처음 이 예측치를 내놨을 때 사람들은 내무장관이 정말 패배할 것이라고 생각하느냐고 반문하기도 했다. 그러나 박빙의 상황에서도 이를 예측할 수 있어야 한다. 캔터베리에서는 운이 좋았다면 엠버 루드의 경우는 운이 약간 좋지 않았을 뿐이다"라고 말했다.

유거브의 MRP 모델은 EU 국민투표 결과를 성공적으로 예측하기도 했지만 2016년 미 대선에서 트럼프의 승리를 예측하는 데는 실패했다. 미국 시장에서 운영 경험이 적고 인구 밀도가 낮은 지역을 다루면서 다른 문제가 발생했다. 유권자에겐 힐러리 클린턴이 간발의 차이로 승리할 것으로 예측했지만 선거인단 선출 방식을 제대로 고려하지 못했다. 결국 중요한 중서부 접전지에서 우열을 가리기 어려웠고 트럼프 지지자의 높은 투표율로 결과가 바뀌었다.

향후 개선점
MRP 방법론은 오는 9월 독일에서 진행되는 연방 선거에도 적용될 예정이다. 이를 위해 유거브는 표본 크기를 늘리고 응답자들에 대한 정보를 더 확보하기 위해 노력하고 있다.

리버스는 “표본에 포함된 사람 수를 늘려 더 큰 데이터를 지향하고 있다. 5만에서 10만 또는 20만으로 늘릴 수 있다면 예측의 품질도 개선될 것이다. 모델화 시간을 줄이기 위해 소프트웨어를 이용해 추적한다. 더 많은 변수 또는 데이터 포인트(Data Point)도 추가하고 있다. 패널로부터 수천 개의 정보를 수집하고 이를 더 효과적으로 활용해 조사 지역에서 예측의 품질을 높이는 방법을 찾고 있다”라고 말했다.

유거브가 처음 MRP 모델로 예측한 결과를 공개했을 때 많은 이들이 이를 무시했다. 그러나 정확도가 검증되면서 앞으로는 상황이 바뀔 것으로 보인다. 리버스는 “10년 후에는 전통적인 분석 방법이 구식이 되고 MRP 같은 접근방식이 당연하게 사용될 것이다. 실제로 이를 적용한 여론조사가 늘어나고 있다. 단, 이전의 것을 완전히 대체하는 것은 아니고 새로운 방법을 추가하는 것이다"라고 말했다. ciokr@idg.co.kr 

X