2018.04.20

칼럼 | '개인정보 보호 vs. 데이터 활용' 두 마리 토끼 잡을 수 있을까?

Dali Kaafar | CIO Australia
데이터는 제대로만 사용한다면 혁신을 여는 열쇠이자 생산성을 높이고 의사결정을 이끄는 가이드가 될 수 있다. 맥킨지(McKinsey)에 따르면 교육, 교통, 소비재, 의료 등 다양한 분야에서 데이터가 갖는 잠재적 경제 가치는 최소 미화 3조 2,000억 달러에서 최대 5조 4,000억 달러다.



한편 최근 있었던 케임브리지 애널리티카(Cambridge Analytica) 스캔들은 전세계 기업 경영진에게 고객 데이터 보호의 중요성을 다시 한번 상기시켜주는 계기가 되었다. 이번주, 페이스북은 데이터 남용 포상금 프로그램을 시작했다. 누구든 권한 없이 고객 데이터를 사용하는 기업을 적발해 오는 사용자에게 최대 4만 달러의 상금을 주겠다고 내건 것이다.

빅데이터 도입이 폭발적으로 증가하고(2015년 전체 기업의 17%만이 도입했던 것에 비교해 2017년에는 무려 53%가 빅 데이터를 도입하였다), 소셜미디어 이용이 확대됨에 따라 데이터 사용의 윤리적 맥락에 대한 시기적절한 논의들이 다양하게 이루어지고 있다.

페이스북 사태에서 다시 한번 드러난 기업들의 고객 정보보호 실태는 분명 경악스러웠다.  

이 문제를 올바른 방향으로 담론을 형성해 연구를 진행할 수 있다면, 전 세계가 기업 데이터 보호에 접근하는 방식 자체를 결정지을 수 있다. 우리 사회가 자유롭게 데이터를 공유하고, 효율성을 높이면서도 개개인의 프라이버시를 보호하고, 사적 정보를 노출하지 않을 수 있는 그러한 기술을 발명할 수도 있을 것이다.

우리는 이미 블록체인 기술의 도입에서, 그리고 근래의 오픈 뱅킹 리뷰(Open Banking Review)와 같은 이니셔티브의 등장으로 새로운 데이터 공유 원칙과 기술들이 뿌리내리고 있음을 확인할 수 있었다. 그러나 금융 서비스 분야는 빙산의 일각일 뿐이다.

제대로만 사용한다면, 데이터 공유 프레임워크는 여러 산업 분야에 존재할 수 있다. 예컨대 농업 및 공급망 정보가 합일된다면 어떨까? 농부들과 제조사가 각자가 가진 작물 현황에 대한 정보를 실제로 공유할 필요 없이 단순히 결합하기만 해도 각기 다른 환경에서의 곡물 수확량에 대해 더욱 정확한 예측이 가능해질 것이다.

여기에 교통과 유통 데이터가 더해지면, 공급망 상에 있는 주체들 간에 보다 최적화된 배송 경로와 시간을 결정할 수 있다. 보다 효율적으로 인프라를 운영하는 데이터를 공유할 수 있게 될 것이기 때문이다.

그렇다면 미래의 데이터 공유는 어떤 모습일까? 데이터의 효용을 보존하면서도 동시에 고객의 프라이버시를 보호할 방법은 없을까? 물론 아직 이 분야는 초기 단계에 있지만, 그렇기에 더더욱 올바른 방향으로 담론을 형성해 나가는 것이 중요하다. 유출 사고가 일어나기 전에, 지금부터 미리미리 적절한 대책을 세워 두어야 한다.

분명, 윤리적인 목적으로 고객 데이터를 사용한다면 실보다 득이 크다. 기업들이 수집하는 고객 데이터의 상당 부분을 제대로만 활용한다면 생산성을 높이고, 경제적 성장을 촉진하며, 사용자의 전반적인 삶의 질을 높일 가능성을 지니고 있다. 그렇지만 과연 이들 데이터로부터 어떻게 통찰력을 얻어내고, 더 나은 제품과 서비스를 만들 것인지, 그러면서도 개개인의 프라이버시를 침해하지 않으려면 어떻게 해야 하는지는 아직 더 생각해 볼 문제다.

Data61 에서는 이 두 가지 사이에서 가장 완벽한 균형을 잡을 수 있도록 모델 및 상품을 개발하고 있다. 이러한 안전장치들은 다음의 여러 가지 형식으로 존재할 수 있다.

프라이빗 애널리틱스 가능케 하는 데이터 암호화
기업들이 사용할 수 있는 여러 방법 중에는 테크놀로지 플랫폼을 이용하여 데이터 분포나 특정 요청을 ‘원래 데이터를 보지 않고도’ 프로세스 하는 방법이 있다. 암호화된 데이터에 대한 컴퓨테이션을 허용하는 특정한 암호화 형식을 이용하는 것이다.

동형 암호와 같은 개념을 사용하든, 아니면 분산 보안 멀티-파티 컴퓨테이션 테크닉 등의 개념을 활용하든, 이들 플랫폼은 데이터의 암호화 된 버전을 운용하며, 해독 시 요청 결과와 꼭 들어맞는 암호화된 아웃풋을 생성하게 된다. 마치 원래 암호화되기 전 상태의 데이터를 사용한 것처럼 말이다.

이러한 기술은 상황에 따라서는 아주 강력한 힘을 발휘할 수 있다. 기관 전반에 걸쳐 애널리틱스를 추출하거나, 심지어 정부 부처 간 데이터를 이용한 애널리틱스 (예를 들어 호주 통계청과 보건부 데이터 간 애널리틱스)를 진행하면서도 양자가 지니고 있는 정보를 공개하지 않아도 되기 때문이다. 이는 가능할 뿐 아니라 매우 강력하고 안전한 정보 공유 방식이 될 것이다.

데이터의 변형을 보존하며 프라이버시 문제 해결하기
민감한 데이터 셋을 다루는 기관에서는 프라이버시의 정의를 매우 넓고 엄격하게 해석해야 한다. 사소한 잔여 리스크 조차도 간과해서는 안 되며, 잘 계량하여 파악하고 있어야 한다. 수학적으로 증명된 개인 데이터 공유가 가능한 알고리즘을 사용하고, 데이터의 ‘모양’ 및 통계적 특성을 변형시키지 않는 방식과 정도까지만 데이터에 영향을 미쳐야 한다.

이러한 방식은 정보 공유에 수반되는 프라이버시 보호와 정보의 이용이라는, 언뜻 상충할 수밖에 없는 두 가지 가치들 간에 최적의 균형을 잡아줄 것이다. 또한 사생활 보호에 대한 최대한의 통제권을 보장해 준다. 수학적 접근 방식은 데이터 관리자에게 데이터 통제권을 돌려주어 데이터 처리 및 공유에 따르는 리스크를 이들이 제대로 이해하고 관리할 수 있게 해 준다. 차등 프라이버시와 같은 개념에 기반을 둔 입증 가능한 프라이빗 알고리즘들은 특히 IoT 데이터 스트리밍이나 에너지, 교통 관련 데이터의 취합 및 수집 등 여러 가지 상황에서 매우 유용하게 쓰인다.

프라이버시에 관한 우려로 인해 데이터 공유 프로세스 자체가 기피되는 경우가 많고, 또 그로 인해 프라이버시 문제가 더 스마트한 인프라를 만드는 알고리즘을 건설하는 데 장애물로 여겨지기도 한다. 입증 가능한 프라이버시 보호 알고리즘은 그러나 기관 간 협업을 가능케 하여 정확한 애널리틱스 추출을 통해 경제적 성장의 문을 여는 열쇠가 된다.


리스크 정량화와 데이터 관리 프레임워크
우리는 또한 양적, 질적 프라이버시 리스크 평가 툴을 개발하였다. 이를 통해 데이터와 관련된 이해 관계자들이 데이터 공유, 유출에 따르는 재식별(re-identification)의 위험을 인지하게 하기 위해서다. 이러한 툴들은 정보 이론 프레임워크를 이용하여 민감한 정보의 공유와 관련된 잔여 리스크를 정확하게 추정해 준다.

마지막으로, 우리는 정부기관과 기업, 그리고 비영리기관, 사설기관 등을 위한 데이터 프라이버시 관리 가이드를 제공하고 있다. 이러한 가이드라인의 제시는 개개인의 데이터 프라이버시를 강화하지는 못하겠지만, 데이터 관리자들이 특정 데이터 공유나 공개 상황에 따르는 중요 위험 요소들을 이해하고 거기에 적절히 대처하는 데에 도움을 줄 것이다. 예를 들어 프라이버시 리스크 분석 및 통제, 이해 관계자의 참여, 그리고 리스크의 영향력 평가 등이 그것이다.

데이터 연구자로서, 우리 사회에서 데이터의 중요성이 그 어느 때보다 커지고 있고, 이에 대한 관심과 탐구가 활발히 이루어지는 시대에 살고 있다는 것은 정말 기쁜 일이다. 적절한 프로세스와 기술만 갖춰져 있다면, 충분히 개인의 프라이버시 보호와 데이터의 가치 및 효용 활용이라는 두 마리 토끼를 잡는, 데이터 프라이버시 분야를 선도할 수 있을 것이다.

*Dali Kaafar는 맥쿼리대학교 교수며, 데이터61-CSIRO(Data61-CSIRO)의 인포메이션 시큐리티 앤드 프라이버시 그룹의 리더다. ciokr@idg.co.kr
 



2018.04.20

칼럼 | '개인정보 보호 vs. 데이터 활용' 두 마리 토끼 잡을 수 있을까?

Dali Kaafar | CIO Australia
데이터는 제대로만 사용한다면 혁신을 여는 열쇠이자 생산성을 높이고 의사결정을 이끄는 가이드가 될 수 있다. 맥킨지(McKinsey)에 따르면 교육, 교통, 소비재, 의료 등 다양한 분야에서 데이터가 갖는 잠재적 경제 가치는 최소 미화 3조 2,000억 달러에서 최대 5조 4,000억 달러다.



한편 최근 있었던 케임브리지 애널리티카(Cambridge Analytica) 스캔들은 전세계 기업 경영진에게 고객 데이터 보호의 중요성을 다시 한번 상기시켜주는 계기가 되었다. 이번주, 페이스북은 데이터 남용 포상금 프로그램을 시작했다. 누구든 권한 없이 고객 데이터를 사용하는 기업을 적발해 오는 사용자에게 최대 4만 달러의 상금을 주겠다고 내건 것이다.

빅데이터 도입이 폭발적으로 증가하고(2015년 전체 기업의 17%만이 도입했던 것에 비교해 2017년에는 무려 53%가 빅 데이터를 도입하였다), 소셜미디어 이용이 확대됨에 따라 데이터 사용의 윤리적 맥락에 대한 시기적절한 논의들이 다양하게 이루어지고 있다.

페이스북 사태에서 다시 한번 드러난 기업들의 고객 정보보호 실태는 분명 경악스러웠다.  

이 문제를 올바른 방향으로 담론을 형성해 연구를 진행할 수 있다면, 전 세계가 기업 데이터 보호에 접근하는 방식 자체를 결정지을 수 있다. 우리 사회가 자유롭게 데이터를 공유하고, 효율성을 높이면서도 개개인의 프라이버시를 보호하고, 사적 정보를 노출하지 않을 수 있는 그러한 기술을 발명할 수도 있을 것이다.

우리는 이미 블록체인 기술의 도입에서, 그리고 근래의 오픈 뱅킹 리뷰(Open Banking Review)와 같은 이니셔티브의 등장으로 새로운 데이터 공유 원칙과 기술들이 뿌리내리고 있음을 확인할 수 있었다. 그러나 금융 서비스 분야는 빙산의 일각일 뿐이다.

제대로만 사용한다면, 데이터 공유 프레임워크는 여러 산업 분야에 존재할 수 있다. 예컨대 농업 및 공급망 정보가 합일된다면 어떨까? 농부들과 제조사가 각자가 가진 작물 현황에 대한 정보를 실제로 공유할 필요 없이 단순히 결합하기만 해도 각기 다른 환경에서의 곡물 수확량에 대해 더욱 정확한 예측이 가능해질 것이다.

여기에 교통과 유통 데이터가 더해지면, 공급망 상에 있는 주체들 간에 보다 최적화된 배송 경로와 시간을 결정할 수 있다. 보다 효율적으로 인프라를 운영하는 데이터를 공유할 수 있게 될 것이기 때문이다.

그렇다면 미래의 데이터 공유는 어떤 모습일까? 데이터의 효용을 보존하면서도 동시에 고객의 프라이버시를 보호할 방법은 없을까? 물론 아직 이 분야는 초기 단계에 있지만, 그렇기에 더더욱 올바른 방향으로 담론을 형성해 나가는 것이 중요하다. 유출 사고가 일어나기 전에, 지금부터 미리미리 적절한 대책을 세워 두어야 한다.

분명, 윤리적인 목적으로 고객 데이터를 사용한다면 실보다 득이 크다. 기업들이 수집하는 고객 데이터의 상당 부분을 제대로만 활용한다면 생산성을 높이고, 경제적 성장을 촉진하며, 사용자의 전반적인 삶의 질을 높일 가능성을 지니고 있다. 그렇지만 과연 이들 데이터로부터 어떻게 통찰력을 얻어내고, 더 나은 제품과 서비스를 만들 것인지, 그러면서도 개개인의 프라이버시를 침해하지 않으려면 어떻게 해야 하는지는 아직 더 생각해 볼 문제다.

Data61 에서는 이 두 가지 사이에서 가장 완벽한 균형을 잡을 수 있도록 모델 및 상품을 개발하고 있다. 이러한 안전장치들은 다음의 여러 가지 형식으로 존재할 수 있다.

프라이빗 애널리틱스 가능케 하는 데이터 암호화
기업들이 사용할 수 있는 여러 방법 중에는 테크놀로지 플랫폼을 이용하여 데이터 분포나 특정 요청을 ‘원래 데이터를 보지 않고도’ 프로세스 하는 방법이 있다. 암호화된 데이터에 대한 컴퓨테이션을 허용하는 특정한 암호화 형식을 이용하는 것이다.

동형 암호와 같은 개념을 사용하든, 아니면 분산 보안 멀티-파티 컴퓨테이션 테크닉 등의 개념을 활용하든, 이들 플랫폼은 데이터의 암호화 된 버전을 운용하며, 해독 시 요청 결과와 꼭 들어맞는 암호화된 아웃풋을 생성하게 된다. 마치 원래 암호화되기 전 상태의 데이터를 사용한 것처럼 말이다.

이러한 기술은 상황에 따라서는 아주 강력한 힘을 발휘할 수 있다. 기관 전반에 걸쳐 애널리틱스를 추출하거나, 심지어 정부 부처 간 데이터를 이용한 애널리틱스 (예를 들어 호주 통계청과 보건부 데이터 간 애널리틱스)를 진행하면서도 양자가 지니고 있는 정보를 공개하지 않아도 되기 때문이다. 이는 가능할 뿐 아니라 매우 강력하고 안전한 정보 공유 방식이 될 것이다.

데이터의 변형을 보존하며 프라이버시 문제 해결하기
민감한 데이터 셋을 다루는 기관에서는 프라이버시의 정의를 매우 넓고 엄격하게 해석해야 한다. 사소한 잔여 리스크 조차도 간과해서는 안 되며, 잘 계량하여 파악하고 있어야 한다. 수학적으로 증명된 개인 데이터 공유가 가능한 알고리즘을 사용하고, 데이터의 ‘모양’ 및 통계적 특성을 변형시키지 않는 방식과 정도까지만 데이터에 영향을 미쳐야 한다.

이러한 방식은 정보 공유에 수반되는 프라이버시 보호와 정보의 이용이라는, 언뜻 상충할 수밖에 없는 두 가지 가치들 간에 최적의 균형을 잡아줄 것이다. 또한 사생활 보호에 대한 최대한의 통제권을 보장해 준다. 수학적 접근 방식은 데이터 관리자에게 데이터 통제권을 돌려주어 데이터 처리 및 공유에 따르는 리스크를 이들이 제대로 이해하고 관리할 수 있게 해 준다. 차등 프라이버시와 같은 개념에 기반을 둔 입증 가능한 프라이빗 알고리즘들은 특히 IoT 데이터 스트리밍이나 에너지, 교통 관련 데이터의 취합 및 수집 등 여러 가지 상황에서 매우 유용하게 쓰인다.

프라이버시에 관한 우려로 인해 데이터 공유 프로세스 자체가 기피되는 경우가 많고, 또 그로 인해 프라이버시 문제가 더 스마트한 인프라를 만드는 알고리즘을 건설하는 데 장애물로 여겨지기도 한다. 입증 가능한 프라이버시 보호 알고리즘은 그러나 기관 간 협업을 가능케 하여 정확한 애널리틱스 추출을 통해 경제적 성장의 문을 여는 열쇠가 된다.


리스크 정량화와 데이터 관리 프레임워크
우리는 또한 양적, 질적 프라이버시 리스크 평가 툴을 개발하였다. 이를 통해 데이터와 관련된 이해 관계자들이 데이터 공유, 유출에 따르는 재식별(re-identification)의 위험을 인지하게 하기 위해서다. 이러한 툴들은 정보 이론 프레임워크를 이용하여 민감한 정보의 공유와 관련된 잔여 리스크를 정확하게 추정해 준다.

마지막으로, 우리는 정부기관과 기업, 그리고 비영리기관, 사설기관 등을 위한 데이터 프라이버시 관리 가이드를 제공하고 있다. 이러한 가이드라인의 제시는 개개인의 데이터 프라이버시를 강화하지는 못하겠지만, 데이터 관리자들이 특정 데이터 공유나 공개 상황에 따르는 중요 위험 요소들을 이해하고 거기에 적절히 대처하는 데에 도움을 줄 것이다. 예를 들어 프라이버시 리스크 분석 및 통제, 이해 관계자의 참여, 그리고 리스크의 영향력 평가 등이 그것이다.

데이터 연구자로서, 우리 사회에서 데이터의 중요성이 그 어느 때보다 커지고 있고, 이에 대한 관심과 탐구가 활발히 이루어지는 시대에 살고 있다는 것은 정말 기쁜 일이다. 적절한 프로세스와 기술만 갖춰져 있다면, 충분히 개인의 프라이버시 보호와 데이터의 가치 및 효용 활용이라는 두 마리 토끼를 잡는, 데이터 프라이버시 분야를 선도할 수 있을 것이다.

*Dali Kaafar는 맥쿼리대학교 교수며, 데이터61-CSIRO(Data61-CSIRO)의 인포메이션 시큐리티 앤드 프라이버시 그룹의 리더다. ciokr@idg.co.kr
 

X