익명화된 데이터 샘플 세트에 머신러닝 기술을 적용해 개인을 재식별하는 연구가 실증됐다. 임페리얼 런던 대학 연구원과 벨기에 루벵 대학 연구진의 성과다.
그동안 업계에서는 개인 프라이버시를 보호하면서도 데이터를 공유하기 위한 방법으로, 이름과 이메일, 주소와 같은 직접적 기록을 제거해 공유하곤 했다. 가령 영국 브리즈번에 거주하는 30대 여성이 여럿 있을 수 있기에 개인 프라이버시가 보호될 수 있을 것으로 기대됐다.
연구진은 그러나 "문제가 뭐냐고? 효과가 없다는 것이다"라고 밝혔다. 연구진의 통계 모델은 "심하게 불완전한" 데이터 세트로도 재식별이 가능한 가능성을 정량화한다. 가령 이번 시연에 활용된
온라인 도구에 따르면 성별, 결혼 상태, 생년월일, 우편 번호만으로도 익명화된 데이터 집합에서 특정인을 식별할 확률이 86%에 이르렀다.
보고서 저자인 이브 알렉산더 드 몽트조이에는 "기업들이 일반적으로 요구하는 아주 기본적인 정보들이다"라고 말했다.
네이처에 '
제너레이티브 모델을 이용해 불완전 데이터세트에서 재식별 가능성 추정하기'(Estimating the success of re-identifications in incomplete datasets using generative models)로 게재된 이번 논문에 따르면, 나이와 성별, 결혼 상태 등 15가지 특성을 이용해 익명화된 데이터 집단에서 특정 미국인을 식별할 수 있는 확률은 99.98%에 이르렀다.
몽트조이에는 "기업과 정부는 판매 및 유통되는 데이터 세트가 불완전할 경우 재식별의 위험성을 경시한다. 그러나 우리의 연구 결과는 이러한 인식이 잘못됐음을 보여준다"라고 말했다. ciokr@idg.co.kr