2017.09.29

칼럼 | 빅데이터와 구글 그리고 SNS

정철환 | CIO KR
지난 미국의 대통령 선거는 여론조사의 정확성에 의문을 제기하게 만든 사건이었다. 여론조사로는 대통령 당선 가능성이 더 높았던 후보가 힐러리 클린턴이었기 때문이다. 하지만 대통령으로 도널드 트럼프가 당선되자 몇몇 언론에서는 빅데이터 분석에서는 트럼프가 대통령에 당선될 것임을 예측할 수 있었다고 주장했다. 이 사례 외에도 제한적인 여론조사보다 빅데이터의 분석이 더 신뢰할 만하다는 사례는 여러 곳에서 나타나고 있다. 그래서 미래의 중요한 직업 중의 하나로 데이터 과학자를 거론하는 것을 어렵지 않게 볼 수 있다.

이와 관련된 사례로 ‘Everybody Lies’라는 책에서 저자인 Seth Stephens-Davidowitz는 자신이 구글의 데이터 분석가로 있을 때의 한 사례를 들어 도널드 트럼프가 여론조사결과와는 달리 대통령에 당선된 것과 관련하여 이미 4년 전에 거의 정확하게 트럼프 후보의 지지 지역을 맞춘 사례를 소개하고 있다. 당시 저자는 오바마 대통령의 당선으로 미국 내에서는 인종차별이 더 이상 문제가 되지 않을 것이라는 일반적인 생각과는 달리 실제로 보이지 않는 곳에서 여전히 인종차별이 존재한다는 것을 입증하기 위해 구글의 검색어 빈도수와 지역 간의 관계를 조사하면서 흑인 비하 발언 검색 빈도수와 지역관계를 분석한 적이 있었다. 그런데 4년 후 대선결과 트럼프 지지 지역 분포와 거의 유사한 결과를 보여주었다.

그렇다면 왜 여론조사는 빅데이터보다 정확하지 않은 것일까? 결론은 ‘항상 그렇지는 않다’고 한다. 어떤 여론조사는 사람들의 생각을 대체로 정확히 반영하는 반면 어떤 여론조사는 그렇지 않다는 것이다. 그렇다면 어떤 여론조사가 빅데이터 분석 결과와 많은 차이를 보일까? 그것은 대체로 사람들이 공개적으로 이야기하기 꺼리는 분야거나 또는 자신의 이미지와 관련이 있는 분야들이라는 것이 저자의 주장이다. 예를 들어 동성애나 성적 이슈와 관련된 것은 여론조사 방식으로는 정확한 실체를 파악할 수 없다는 것이다. 조금만 생각해봐도 충분히 이해할 수 있다. 그렇다면 빅데이터 분석의 핵심 영역으로 생각되고 있는 SNS 분야는 어떨까? 위의 책에서 저자는 SNS의 대표적인 서비스인 페이스북을 예로 들어 이야기하고 있다.

지금까지 유튜브에서 가장 많은 조회수를 기록한 동영상은 약 23억 회의 조회수를 가진 싸이의 강남스타일이라고 한다. (2017년 9월 21일 기준으로 29.5억 회 조회, 3위로 하락) 그리고 다른 한 측면으로 가장 많은 조회수를 가진 포르노 동영상의 경우에는 8천만 회의 조회수라고 한다. 그래서 이 두 동영상이 페이스북에서 언급된 사례를 분석했다.

결과적으로 두 동영상 간의 유튜브 조회 건수의 비율은 약 30:1이므로 강남스타일이 페이스북에서 언급된 횟수를 감안하면 많은 수의 언급이 있어야 하나 겨우 수십 건에 불과했다고 한다. 다른 사례로 교양적인 잡지인 애틀랜틱과 가십 위주의 잡지인 내셔널 인콰이어러의 발행 부수가 거의 유사하지만 페이스북에서는 애틀랜틱의 좋아요 선택 비율이 무려 27배나 높았다고 한다. 페이스북에서의 선호도가 실제 시장에서의 판매와는 전혀 다른 결과라는 것이다. 저자는 아래와 같은 표를 예로 들며 빅데이터에서의 진실과 거짓을 소개하고 있다.

빅데이터 진실 빅데이터 거짓
검색어
조회수
클릭수
구매내역
SNS 담벼락
SNS 좋아요
개인 소개 프로파일
  
동영상 서비스인 넷플릭스에서도 초창기 가입자들에게 보고 싶은 영상 타이틀을 등록할 수 있게 했는데 여기에 등록된 영상물들의 상당수는 다큐멘터리나 교양물이었다고 한다. 그래서 관련 동영상을 서비스했으나 정작 실제로 구매한 경우는 드물었다는 분석에 따라 이후 소비자의 선호도 분석에서 위 방식을 배제하고 순수하게 클릭과 조회, 검색 분석에 의존하기로 하였다고 한다. 그 외에도 다양한 사례 소개를 통해 저자는 구글의 검색어 분석결과와 사회과학적인 분석 결과를 비교하면서 사람들의 진실한 생각은 결국 구글의 검색어 분석결과에 더 가깝다는 이야기를 전하고 있다. 왜 그럴까? 구글의 검색은 익명이고 개인적이며 가장 무엇보다 솔직해야 자신이 원하는 것을 찾을 수 있기 때문이다.

많은 기업에서 빅데이터 분석을 통해 중요한 결정을 내릴 수 있다. 그리고 그 대상에 페이스북과 같은 SNS의 데이터가 중요한 영역으로 인식되고 있다. 하지만 페이스북이 솔직하지 않은 생각과 가식으로 넘쳐난다면 그 분석에 의존한 결과는 실제 시장이 원하는 방향과는 다를 수 있다. 최근 페이스북이 광고로 넘쳐나는 것도 문제 중의 하나가 아닐까 한다. 결국 매스 미디어와 같은 길을 걷고 있는 것 아닌가 하는 생각이 든다. 어쩌면 빅데이터 분석 대상의 핵심으로 여겨졌던 SNS에 대해 다시 생각해봐야 하는 것이 아닌가?


또 한가지, 최근 우리나라는 전 정권에서 국가 기관을 통해 대규모의 인터넷 댓글 부대를 운영한 사실이 언론을 통해 밝혀지고 있다. 이 역시 거짓으로 인터넷의 빅데이터 동향을 왜곡시키려 한 사례일 것이다. 하지만 앞서 소개된 것과 같이 일부 SNS 사이트의 내용을 거짓으로 덮는 것은 어려운 일이 아닐지라도 인터넷에서의 진실을 완전히 가릴 수는 없는 시도였을 것이다. 구글신은 모든 것을 알고 있다는 이야기가 떠오른다. 과연 우리나라의 검색사이트도 그럴까?

*정철환 팀장은 삼성SDS, 한양대학교 겸임교수를 거쳐 현재 동부제철 IT기획팀장이다. 저서로는 ‘SI 프로젝트 전문가로 가는 길’이 있으며 삼성SDS 사보에 1년 동안 원고를 쓴 경력이 있다. 한국IDG가 주관하는 CIO 어워드 2012에서 올해의 CIO로 선정됐다. ciokr@idg.co.kr
 
2017.09.29

칼럼 | 빅데이터와 구글 그리고 SNS

정철환 | CIO KR
지난 미국의 대통령 선거는 여론조사의 정확성에 의문을 제기하게 만든 사건이었다. 여론조사로는 대통령 당선 가능성이 더 높았던 후보가 힐러리 클린턴이었기 때문이다. 하지만 대통령으로 도널드 트럼프가 당선되자 몇몇 언론에서는 빅데이터 분석에서는 트럼프가 대통령에 당선될 것임을 예측할 수 있었다고 주장했다. 이 사례 외에도 제한적인 여론조사보다 빅데이터의 분석이 더 신뢰할 만하다는 사례는 여러 곳에서 나타나고 있다. 그래서 미래의 중요한 직업 중의 하나로 데이터 과학자를 거론하는 것을 어렵지 않게 볼 수 있다.

이와 관련된 사례로 ‘Everybody Lies’라는 책에서 저자인 Seth Stephens-Davidowitz는 자신이 구글의 데이터 분석가로 있을 때의 한 사례를 들어 도널드 트럼프가 여론조사결과와는 달리 대통령에 당선된 것과 관련하여 이미 4년 전에 거의 정확하게 트럼프 후보의 지지 지역을 맞춘 사례를 소개하고 있다. 당시 저자는 오바마 대통령의 당선으로 미국 내에서는 인종차별이 더 이상 문제가 되지 않을 것이라는 일반적인 생각과는 달리 실제로 보이지 않는 곳에서 여전히 인종차별이 존재한다는 것을 입증하기 위해 구글의 검색어 빈도수와 지역 간의 관계를 조사하면서 흑인 비하 발언 검색 빈도수와 지역관계를 분석한 적이 있었다. 그런데 4년 후 대선결과 트럼프 지지 지역 분포와 거의 유사한 결과를 보여주었다.

그렇다면 왜 여론조사는 빅데이터보다 정확하지 않은 것일까? 결론은 ‘항상 그렇지는 않다’고 한다. 어떤 여론조사는 사람들의 생각을 대체로 정확히 반영하는 반면 어떤 여론조사는 그렇지 않다는 것이다. 그렇다면 어떤 여론조사가 빅데이터 분석 결과와 많은 차이를 보일까? 그것은 대체로 사람들이 공개적으로 이야기하기 꺼리는 분야거나 또는 자신의 이미지와 관련이 있는 분야들이라는 것이 저자의 주장이다. 예를 들어 동성애나 성적 이슈와 관련된 것은 여론조사 방식으로는 정확한 실체를 파악할 수 없다는 것이다. 조금만 생각해봐도 충분히 이해할 수 있다. 그렇다면 빅데이터 분석의 핵심 영역으로 생각되고 있는 SNS 분야는 어떨까? 위의 책에서 저자는 SNS의 대표적인 서비스인 페이스북을 예로 들어 이야기하고 있다.

지금까지 유튜브에서 가장 많은 조회수를 기록한 동영상은 약 23억 회의 조회수를 가진 싸이의 강남스타일이라고 한다. (2017년 9월 21일 기준으로 29.5억 회 조회, 3위로 하락) 그리고 다른 한 측면으로 가장 많은 조회수를 가진 포르노 동영상의 경우에는 8천만 회의 조회수라고 한다. 그래서 이 두 동영상이 페이스북에서 언급된 사례를 분석했다.

결과적으로 두 동영상 간의 유튜브 조회 건수의 비율은 약 30:1이므로 강남스타일이 페이스북에서 언급된 횟수를 감안하면 많은 수의 언급이 있어야 하나 겨우 수십 건에 불과했다고 한다. 다른 사례로 교양적인 잡지인 애틀랜틱과 가십 위주의 잡지인 내셔널 인콰이어러의 발행 부수가 거의 유사하지만 페이스북에서는 애틀랜틱의 좋아요 선택 비율이 무려 27배나 높았다고 한다. 페이스북에서의 선호도가 실제 시장에서의 판매와는 전혀 다른 결과라는 것이다. 저자는 아래와 같은 표를 예로 들며 빅데이터에서의 진실과 거짓을 소개하고 있다.

빅데이터 진실 빅데이터 거짓
검색어
조회수
클릭수
구매내역
SNS 담벼락
SNS 좋아요
개인 소개 프로파일
  
동영상 서비스인 넷플릭스에서도 초창기 가입자들에게 보고 싶은 영상 타이틀을 등록할 수 있게 했는데 여기에 등록된 영상물들의 상당수는 다큐멘터리나 교양물이었다고 한다. 그래서 관련 동영상을 서비스했으나 정작 실제로 구매한 경우는 드물었다는 분석에 따라 이후 소비자의 선호도 분석에서 위 방식을 배제하고 순수하게 클릭과 조회, 검색 분석에 의존하기로 하였다고 한다. 그 외에도 다양한 사례 소개를 통해 저자는 구글의 검색어 분석결과와 사회과학적인 분석 결과를 비교하면서 사람들의 진실한 생각은 결국 구글의 검색어 분석결과에 더 가깝다는 이야기를 전하고 있다. 왜 그럴까? 구글의 검색은 익명이고 개인적이며 가장 무엇보다 솔직해야 자신이 원하는 것을 찾을 수 있기 때문이다.

많은 기업에서 빅데이터 분석을 통해 중요한 결정을 내릴 수 있다. 그리고 그 대상에 페이스북과 같은 SNS의 데이터가 중요한 영역으로 인식되고 있다. 하지만 페이스북이 솔직하지 않은 생각과 가식으로 넘쳐난다면 그 분석에 의존한 결과는 실제 시장이 원하는 방향과는 다를 수 있다. 최근 페이스북이 광고로 넘쳐나는 것도 문제 중의 하나가 아닐까 한다. 결국 매스 미디어와 같은 길을 걷고 있는 것 아닌가 하는 생각이 든다. 어쩌면 빅데이터 분석 대상의 핵심으로 여겨졌던 SNS에 대해 다시 생각해봐야 하는 것이 아닌가?


또 한가지, 최근 우리나라는 전 정권에서 국가 기관을 통해 대규모의 인터넷 댓글 부대를 운영한 사실이 언론을 통해 밝혀지고 있다. 이 역시 거짓으로 인터넷의 빅데이터 동향을 왜곡시키려 한 사례일 것이다. 하지만 앞서 소개된 것과 같이 일부 SNS 사이트의 내용을 거짓으로 덮는 것은 어려운 일이 아닐지라도 인터넷에서의 진실을 완전히 가릴 수는 없는 시도였을 것이다. 구글신은 모든 것을 알고 있다는 이야기가 떠오른다. 과연 우리나라의 검색사이트도 그럴까?

*정철환 팀장은 삼성SDS, 한양대학교 겸임교수를 거쳐 현재 동부제철 IT기획팀장이다. 저서로는 ‘SI 프로젝트 전문가로 가는 길’이 있으며 삼성SDS 사보에 1년 동안 원고를 쓴 경력이 있다. 한국IDG가 주관하는 CIO 어워드 2012에서 올해의 CIO로 선정됐다. ciokr@idg.co.kr
 
X