2018.11.07

개인 정보 만물시장··· '데이터 거래 비즈니스'의 비밀

Paul Shomo | CSO

가끔 온라인 광고를 보다가 깜짝 놀란 적이 있을 것이다. 마치 누군가 내 검색 기록을 찾아보기라도 한 듯이 내 관심사에 딱 맞춘 광고를 보여주기 때문이다. (적어도 이론적으로는) 광고 플랫폼과 전혀 별도의 웹사이트에서 했던 상품 구매, 항공편 및 숙박 예약까지 어떻게 알고 관련 광고를 보여준다. 심지어는 온라인도 아니고, 오프라인에서 구매했던 것까지 뜨기도 한다.

이것이 가능한 이유는 우리가 디지털 공간에서 하는 모든 행위들은 물론이고 우리의 위치 정보, 신용카드 사용 내역 등의 정보가 소위 데이터 거래소에서 거래 및 대여 가능한 상품이 되었기 때문이다. 만약 ‘감시 자본주의’(surveillance capitalism)라는 것이 있다면 아마도 데이터 거래소는 감시 자본주의의 정보 기관쯤 될 것이다.

이러한 '감시 자본주의'의 진짜 얼굴을 들여다 보기 전에, 우선 우리의 웹 사용이 어떻게 정보화 되고 기록되는지를 알아보자. 보통 우리가 방문하는 웹 사이트들은 우리의 IP 주소를 알고 있다. 그렇지만 IP 주소 만으로는 ISP, 네트워크, 또는 한 동네 정도의 넓은 범위로 밖에 사용자의 위치를 특정하지 못한다. 즉, IP를 통해서는 사용자들을 큰 덩어리의 인구 집단으로밖에 묶어내지 못한다.

물론, 기기 설정을 어떻게 해두냐에 따라 반경 3미터 정도까지 사용자의 물리적 위치를 특정할 수도 있다. 이 정도의 정밀도를 지닌 데이터는 사용자(의 기기)가 어느 건물에 있는지, 그리고 과거에 어디에 있었는지를 알려 준다. 당연히 그 사용자가 소비한 정보나 제품에 대한 자세한 정보도 알 수 있다.

솔직히, 앱을 설치할 때 서비스 약관을 일일이, 꼼꼼히 읽고 동의하는 사람이 얼마나 될까? 그런데, 이런 서비스 약관에는 알게 모르게 앱 개발자가 기기의 마이크를 통해 사용자의 대화 내용이나 기기 주변에서 나는 소리를 들어도 좋다는 동의 내용이 들어 있을 수 있다.

일례로, 아이들이 자주 가지고 노는 개임 앱 중에는 알폰소(Alphonso)같은 기업에서 개발에 참여한 앱들도 있다. 뉴욕 타임즈에 따르면, 알폰소는 휴대기기의 마이크를 통해 (앱을 사용하지 않을 때조차도) 아이들이 어떤 TV를 보는지 등의 정보를 수집한다고 한다.

혹시 검색도 아니고, 그냥 대화만 나눴는데도 그 대화의 주제와 관련된 광고가 뜨는 경험을 해 본 적이 있지 않은가? 아직까지 권위 있는 학술지에 실린 내용은 아니지만, 몇몇 연구 결과에 따르면 실제로 음성 자료만 가지고도 관련 광고가 인터넷에 기재된 사례가 없지 않다. 피해망상이 아니냐고? 계속 읽어보면 지금 무슨 얘기를 하는지 알게 될 것이다.



광활한 ‘웹의 바다’ 속에서 바늘을 찾아내는 방법
과거 웹사이트들은 자체적인 쿠키만 볼 수 있었지만, 요즘은 광고 제공 스크립트들이 서드파티 쿠키를 사용하기도 한다. 이렇게 하면 광고 플랫폼이 여러 웹사이트상에서 이루어진 활동을 모두 볼 수 있게 된다. 픽셀 트래킹 시에도 역시 새로운 사이트를 방문할 때 렌더링을 하면서 그 사이트의 URL을 기록하도록 되어 있다. 그나마 이런 방법들은 그래도 하나의 기기에 국한되어 있고, 브라우저에서 검색을 할 때에만 적용된다.

즉, 지금까지 소개한 감시 수법은 아직까지 ‘결정적인 선’을 넘지는 않은 상태다. 이들은 사용자가 전자 기기 상에서, 혹은 전자 기기를 몸에 지닌 상태에서 한 행동은 알 수 있을지 몰라도, 이는 어디까지나 ‘전자기기’라는 한계에 국한되어 있었기에 해당 기기를 사용하지 않으면 그만이었다.

그러나 소위 ‘데이터 산업’ 에서는 소비자 행동을 연속적으로, 기기에 상관없이 추적하기 위하여 이러한 선을 기어코 넘어서고 있다. 사용자 정보는 디바이스 ID 라는 것을 통해 수집되는데, 이 디바이스 ID에는 크게 두 형태가 있다.

개연성 ID(probabilistic ID)와 결정성 ID(Deterministic ID)가 그것이다. 개연성 ID는 다양한 추론 메타데이터를 기반으로 하며, 사용자와 기기간의 연관성을 찾아 연결해 준다. 그 정확도는 70-90% 가량이라고 알려져 있다.

결정성 ID는 이보다 훨씬 ‘가상 신분증’에 가깝다. 여기에는 사용자의 이름, 이메일 및 전화 번호 등 보다 직접적인 정보들이 포함된다. 신용카드 정보만 추가되면 빼도 박도 못하게 당신임이 증명된다. 즉, 광고 플랫폼에서는 당신이 어떤 기기를 사용하던 그것이 ‘당신’임을 즉각적으로 알 수 있다.

데이터 거래소란?
데이터 거래소들은 기업들에 사용자 데이터를 판매 또는 대여해주고, 그 대가로 커미션을 챙긴다. 실제로 많은 기업들이 사용자 데이터를 판매하고, 또 원하는 고객 경험을 창출해 내기 위해 데이터를 구매한다. 심지어 신용카드 회사들, 오프라인 스토어들도 거래소에서 데이터를 사고 파는데 일조한다.

즉, 데이터 거래소 플랫폼에 들어가 “이러이러한 IP를 가진 사람들, 혹은 이러이러한 디바이스 ID를 가진 사람에 대해 이러이러한 정보가 있다. 혹시 이들에 대해 더 자세한 정보를 가진 사람은 없는지?” 라고 물어보는 것이다.

이런 정보는 무척이나 개인적이고 사적인 것들까지 포함하며, 또한 특정인의 신원과 긴밀하게 연계되어 있다. 그리고 무엇보다 귀중한 상품으로써 ‘철저히 보호’ 받는다. 물론, 광고사들이 돈을 내고 정보를 사 가기 전까지만 말이다.

이런 데이터 거래소가 장사가 잘 된다는 사실이 알려지면서 많은 이들이 너도 나도 데이터 거래소 사업에 뛰어들고 있다. 미안한 얘기지만, 이 거래소들 중 적어도 한두 곳 정도에서는 당신의 정보도 거래되고 있을 것이다.

팩츄얼(Factual), 데이터마켓(DataMarket), 마이크로소프트 애져 데이터 마켓플레이스(Microsoft Azure Data Marketplace) 같은 주요 거래소들의 경우 이미 상당히 성숙되고 큰 규모의 플랫폼을 지니고 있다. 구글 블로그에 따르면, 구글 어트리뷰션(Google Attribution)의 목적은 “디지털 및 물리적 환경에서 여러 장치와 채널에 걸쳐 있는 소비자 여정을 측정하는 것” 이라고 소개되어 있다. 구글 어트리뷰션은 2014~2017년 사이 50억 건의 오프라인 스토어 방문 내역을 추적하였으며 2017년에는 “전 세계 신용카드 및 체크카드 거래 내역의 70% 가량을” 확보하고 있다고 밝혔다.

심지어 미국 정부조차도 은행, 통신사 및 우체국 등에서 개인 데이터 거래소를 운영할 것을 제안하고 있다. 머지 않아 시민들의 데이터베이스에 대한 액세스를 판매하게 될 수도 있다. 현재 사용중인 통신사라고 예외는 아닐 것이다. 단적인 예로 버라이즌만 해도 프리시전 마켓 인사이트(Precision Market Insights)라는 프로그램을 운영하고 있다.

개인에 대한 정보가 상품이 되는 세상
정작 정보의 주인인 대중들은 돈을 내지 않는 한 자신에 대한 어떤 정보를, 어떤 기업들이 거래하고 있는지조차 알 수 없다. 구글로서는 어쨌든 사용자 정보를 자신들의 ‘소유물’로 취급하고 배타적으로 관리하는 것이 가장 이득이다. 구글의 광고 플랫폼이 인기 있는 이유는 판매자들에게는 없는 사용자 데이터를 잔뜩 가지고 있기 때문이니 말이다.


2018.11.07

개인 정보 만물시장··· '데이터 거래 비즈니스'의 비밀

Paul Shomo | CSO

가끔 온라인 광고를 보다가 깜짝 놀란 적이 있을 것이다. 마치 누군가 내 검색 기록을 찾아보기라도 한 듯이 내 관심사에 딱 맞춘 광고를 보여주기 때문이다. (적어도 이론적으로는) 광고 플랫폼과 전혀 별도의 웹사이트에서 했던 상품 구매, 항공편 및 숙박 예약까지 어떻게 알고 관련 광고를 보여준다. 심지어는 온라인도 아니고, 오프라인에서 구매했던 것까지 뜨기도 한다.

이것이 가능한 이유는 우리가 디지털 공간에서 하는 모든 행위들은 물론이고 우리의 위치 정보, 신용카드 사용 내역 등의 정보가 소위 데이터 거래소에서 거래 및 대여 가능한 상품이 되었기 때문이다. 만약 ‘감시 자본주의’(surveillance capitalism)라는 것이 있다면 아마도 데이터 거래소는 감시 자본주의의 정보 기관쯤 될 것이다.

이러한 '감시 자본주의'의 진짜 얼굴을 들여다 보기 전에, 우선 우리의 웹 사용이 어떻게 정보화 되고 기록되는지를 알아보자. 보통 우리가 방문하는 웹 사이트들은 우리의 IP 주소를 알고 있다. 그렇지만 IP 주소 만으로는 ISP, 네트워크, 또는 한 동네 정도의 넓은 범위로 밖에 사용자의 위치를 특정하지 못한다. 즉, IP를 통해서는 사용자들을 큰 덩어리의 인구 집단으로밖에 묶어내지 못한다.

물론, 기기 설정을 어떻게 해두냐에 따라 반경 3미터 정도까지 사용자의 물리적 위치를 특정할 수도 있다. 이 정도의 정밀도를 지닌 데이터는 사용자(의 기기)가 어느 건물에 있는지, 그리고 과거에 어디에 있었는지를 알려 준다. 당연히 그 사용자가 소비한 정보나 제품에 대한 자세한 정보도 알 수 있다.

솔직히, 앱을 설치할 때 서비스 약관을 일일이, 꼼꼼히 읽고 동의하는 사람이 얼마나 될까? 그런데, 이런 서비스 약관에는 알게 모르게 앱 개발자가 기기의 마이크를 통해 사용자의 대화 내용이나 기기 주변에서 나는 소리를 들어도 좋다는 동의 내용이 들어 있을 수 있다.

일례로, 아이들이 자주 가지고 노는 개임 앱 중에는 알폰소(Alphonso)같은 기업에서 개발에 참여한 앱들도 있다. 뉴욕 타임즈에 따르면, 알폰소는 휴대기기의 마이크를 통해 (앱을 사용하지 않을 때조차도) 아이들이 어떤 TV를 보는지 등의 정보를 수집한다고 한다.

혹시 검색도 아니고, 그냥 대화만 나눴는데도 그 대화의 주제와 관련된 광고가 뜨는 경험을 해 본 적이 있지 않은가? 아직까지 권위 있는 학술지에 실린 내용은 아니지만, 몇몇 연구 결과에 따르면 실제로 음성 자료만 가지고도 관련 광고가 인터넷에 기재된 사례가 없지 않다. 피해망상이 아니냐고? 계속 읽어보면 지금 무슨 얘기를 하는지 알게 될 것이다.



광활한 ‘웹의 바다’ 속에서 바늘을 찾아내는 방법
과거 웹사이트들은 자체적인 쿠키만 볼 수 있었지만, 요즘은 광고 제공 스크립트들이 서드파티 쿠키를 사용하기도 한다. 이렇게 하면 광고 플랫폼이 여러 웹사이트상에서 이루어진 활동을 모두 볼 수 있게 된다. 픽셀 트래킹 시에도 역시 새로운 사이트를 방문할 때 렌더링을 하면서 그 사이트의 URL을 기록하도록 되어 있다. 그나마 이런 방법들은 그래도 하나의 기기에 국한되어 있고, 브라우저에서 검색을 할 때에만 적용된다.

즉, 지금까지 소개한 감시 수법은 아직까지 ‘결정적인 선’을 넘지는 않은 상태다. 이들은 사용자가 전자 기기 상에서, 혹은 전자 기기를 몸에 지닌 상태에서 한 행동은 알 수 있을지 몰라도, 이는 어디까지나 ‘전자기기’라는 한계에 국한되어 있었기에 해당 기기를 사용하지 않으면 그만이었다.

그러나 소위 ‘데이터 산업’ 에서는 소비자 행동을 연속적으로, 기기에 상관없이 추적하기 위하여 이러한 선을 기어코 넘어서고 있다. 사용자 정보는 디바이스 ID 라는 것을 통해 수집되는데, 이 디바이스 ID에는 크게 두 형태가 있다.

개연성 ID(probabilistic ID)와 결정성 ID(Deterministic ID)가 그것이다. 개연성 ID는 다양한 추론 메타데이터를 기반으로 하며, 사용자와 기기간의 연관성을 찾아 연결해 준다. 그 정확도는 70-90% 가량이라고 알려져 있다.

결정성 ID는 이보다 훨씬 ‘가상 신분증’에 가깝다. 여기에는 사용자의 이름, 이메일 및 전화 번호 등 보다 직접적인 정보들이 포함된다. 신용카드 정보만 추가되면 빼도 박도 못하게 당신임이 증명된다. 즉, 광고 플랫폼에서는 당신이 어떤 기기를 사용하던 그것이 ‘당신’임을 즉각적으로 알 수 있다.

데이터 거래소란?
데이터 거래소들은 기업들에 사용자 데이터를 판매 또는 대여해주고, 그 대가로 커미션을 챙긴다. 실제로 많은 기업들이 사용자 데이터를 판매하고, 또 원하는 고객 경험을 창출해 내기 위해 데이터를 구매한다. 심지어 신용카드 회사들, 오프라인 스토어들도 거래소에서 데이터를 사고 파는데 일조한다.

즉, 데이터 거래소 플랫폼에 들어가 “이러이러한 IP를 가진 사람들, 혹은 이러이러한 디바이스 ID를 가진 사람에 대해 이러이러한 정보가 있다. 혹시 이들에 대해 더 자세한 정보를 가진 사람은 없는지?” 라고 물어보는 것이다.

이런 정보는 무척이나 개인적이고 사적인 것들까지 포함하며, 또한 특정인의 신원과 긴밀하게 연계되어 있다. 그리고 무엇보다 귀중한 상품으로써 ‘철저히 보호’ 받는다. 물론, 광고사들이 돈을 내고 정보를 사 가기 전까지만 말이다.

이런 데이터 거래소가 장사가 잘 된다는 사실이 알려지면서 많은 이들이 너도 나도 데이터 거래소 사업에 뛰어들고 있다. 미안한 얘기지만, 이 거래소들 중 적어도 한두 곳 정도에서는 당신의 정보도 거래되고 있을 것이다.

팩츄얼(Factual), 데이터마켓(DataMarket), 마이크로소프트 애져 데이터 마켓플레이스(Microsoft Azure Data Marketplace) 같은 주요 거래소들의 경우 이미 상당히 성숙되고 큰 규모의 플랫폼을 지니고 있다. 구글 블로그에 따르면, 구글 어트리뷰션(Google Attribution)의 목적은 “디지털 및 물리적 환경에서 여러 장치와 채널에 걸쳐 있는 소비자 여정을 측정하는 것” 이라고 소개되어 있다. 구글 어트리뷰션은 2014~2017년 사이 50억 건의 오프라인 스토어 방문 내역을 추적하였으며 2017년에는 “전 세계 신용카드 및 체크카드 거래 내역의 70% 가량을” 확보하고 있다고 밝혔다.

심지어 미국 정부조차도 은행, 통신사 및 우체국 등에서 개인 데이터 거래소를 운영할 것을 제안하고 있다. 머지 않아 시민들의 데이터베이스에 대한 액세스를 판매하게 될 수도 있다. 현재 사용중인 통신사라고 예외는 아닐 것이다. 단적인 예로 버라이즌만 해도 프리시전 마켓 인사이트(Precision Market Insights)라는 프로그램을 운영하고 있다.

개인에 대한 정보가 상품이 되는 세상
정작 정보의 주인인 대중들은 돈을 내지 않는 한 자신에 대한 어떤 정보를, 어떤 기업들이 거래하고 있는지조차 알 수 없다. 구글로서는 어쨌든 사용자 정보를 자신들의 ‘소유물’로 취급하고 배타적으로 관리하는 것이 가장 이득이다. 구글의 광고 플랫폼이 인기 있는 이유는 판매자들에게는 없는 사용자 데이터를 잔뜩 가지고 있기 때문이니 말이다.


X