2021.02.23

강은성의 보안 아키텍트ㅣ이루다, 인공지능, 개인정보 

강은성 | CIO KR
매주 개인정보 뉴스레터를 만드느라 인터넷 검색을 하면서 ‘이루다’와 ‘연애의 과학’ 사건을 알게 됐다. 목소리로 여성임을 밝힌 애플의 시리(Siri)나 아마존의 알렉사(Alexa)와 달리 명백하게 20살 여대생으로 캐릭터를 설정하고, 젊은 여성의 얼굴로 이미지를 형상화한 스캐터랩의 챗봇 ‘이루다’(성이 ‘이’, 이름이 ‘루다’이다) 서비스는 이미 비판이 제기된 대로 성희롱과 여성차별, 성소수자와 장애인 차별 등 많은 이슈를 불러일으켰다. 
 
ⓒGetty Images

이러한 온라인 서비스의 문제는 오프라인 세계를 반영한 것이자 다시 오프라인의 경향을 강화하는 기제로 작동함으로써 우리 사회 디지털 원주민(Native)으로 자라온 어린이, 청소년, (소수자 차별에 대한 인식이 별로 없는) 청년들에게 상당히 악영향을 미칠 거라는 우려를 자아낸다.

이후 이 사건에 관한 웨비나와 토론회를 찾아봤는데, 인공지능 윤리나 기술의 발전, 관련 법적·제도적 규제를 주제로 한 학계·법조계·시민단체 토론의 장은 좀 있으나 정작 개발사가 ‘이루다’ 서비스를 중단한 계기가 된 개인정보 관련 토론은 보이지 않아 아쉬웠다.

‘이루다’를 학습시킨 데이터는 스캐터랩의 다른 서비스인 ‘연애의 과학’에서 이용자가 제공한 카톡 메시지다. “심리학 연애 팁과 심리 테스트” 서비스를 제공한다는 ‘연애의 과학’ 개인정보 취급(처리)방침에는 “이용자가 주고받은 메시지 텍스트 파일”을 수집·이용하는 목적이 “메시지 텍스트 파일을 통한 분석 서비스를 제공”, “신규 서비스 개발 및 맞춤 서비스 제공” 등으로 되어 있다. 또한 「개인정보 비식별 조치 가이드라인」(관계부처 합동, 2016)에 따라 비식별 조치 및 적정성 평가를 마친 ‘비식별 정보’를 정보주체의 동의 없이 (제3자에게) 공유 및 제공할 수 있다고 명시돼 있다.
 
[그림] 구글 플레이에 올라와 있는 ‘연애의 과학’ 앱

‘이루다’는 ‘연애의 과학’과 완전히 별개의 서비스여서 ‘연애의 과학 개인정보 처리방침’에서 밝힌 신규 서비스에 포함된다고 보기 어렵다. 개인정보 처리방침을 준수하여 개인정보를 처리했다는 회사의 해명을 들으면서 ‘신규 서비스’라고 적어 놓고 회사에서 개발하는 ‘모든 서비스’라고 스스로 읽은 게 아닐까 하는 생각도 든다. ‘스캐터랩 개인정보 처리방침’이라고 이름 붙인다 해도 별 차이는 없을 것이다(개인정보 처리방침에서 ‘목적’이 매우 중요하다).

통합 개인정보보호법에 신설된 조문 중 ‘개인정보의 추가적 이용’에 관하여 다음과 같은 조문이 있다.

제15조(개인정보의 수집·이용) 
③ 개인정보처리자는 당초 수집 목적과 합리적으로 관련된 범위에서 정보주체에게 불이익이 발생하는지 여부, 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부 등을 고려하여 대통령령으로 정하는 바에 따라 정보주체의 동의 없이 개인정보를 이용할 수 있다.


‘추가적 이용’이 (정보주체의 동의 없는) ‘목적 외 이용’이 되지 않으려면 애초 해당 개인정보를 수집한 목적과 “합리적으로 관련”돼야 한다. 「개인정보보호 법령 및 지침·고시 해설」(개인정보보호위원회, 2020.12)의 해설도 그리 구체적이지 않다. 다만 이 해설서에서 ‘참고’로 제시한 유럽연합의 “당초 수집 목적과 합리적으로 관련된 범위의 개인정보 이용·제공 사례”는 설득력이 있다. 다음과 같다.

• LP 음반을 판매하는 회사가 고객의 동의를 받아 정기적으로 LP 음반의 카탈로그를 보내오다가, 오디오 테이프, CD, DVD 형태의 음악 카탈로그도 보내는 경우
• 약국에서 다른 고객의 의약품을 잘못 가져간 경우, 약국이 고객에게 위 사실을 알리기 위하여 처방 병원으로부터 휴대전화 번호를 제공받아 전화하는 경우


‘연애의 과학’과 ‘이루다’의 관계가 여기에 해당한다고 보기 어렵다. 해설서에서는 ‘추가적 제공’도 이를 준용한다고 설명한다. 앞으로 ‘추가적’ 이용 및 제공에 관한 사례가 잘 쌓여야 이 조문이 합리적으로 활용된다는 대중의 인식과 신뢰를 얻을 수 있다. 

필자는 특히 ‘이루다’ 사건에서 다양한 내용이 포함될 수 있는 텍스트(비정형) 데이터, 그중에서도 개인 사이의 대화 내용을 프라이버시 관점에서 이해해야 한다는 점을 강조하고 싶다. 

개인정보와 프라이버시는 같지 않다. 어떤 날의 일기는 개인을 식별하지 못할 수 있지만, 여전히 일기는 개인에게 남에게 공개하고 싶지 않은 프라이버시다. 사람의 벌거벗은 등 사진은 대부분 개인을 식별하지 못하지만 대다수 개인에게는 프라이버시다. 

구글 플레이에 올라온 ‘연애의 과학’ 이용자의 리뷰는 프라이버시에 대한 대중의 명료한 이해를 보여준다. (심지어 1년 치의) 사적 대화를 ‘연애의 과학’에 제공한 이들은, 대화 내용을 통한 개인의 식별 여부를 떠나 그것을 다른 서비스의 학습 데이터로 이용하거나 개발자들이 돌려보거나 공개했을 때 분노, 우려, 수치의 감정을 고스란히 드러낸다. 

프라이버시 데이터는 그것의 개인정보성을 떠나서 그러한 데이터다. 사적인 대화 내용을 학습 데이터로 이용하고자 하는 인공지능 기업은, 개인정보보호법은 당연히 지켜야 하지만 대화 내용에서 법적 개인정보를 삭제한다고 해서 공개하고 마구 공유해도 괜찮은 데이터가 되지 않는다는 점을 인식해야 한다. 

개인정보만을 다루는 개인정보보호법에서는 이러한 사각지대가 있다. 모든 것을 법으로 규율하는 것은 바람직하지도, 가능하지도 않다. 기술 개발을 위해 프라이버시 데이터를 이용한다고 하더라도 프라이버시는 프라이버시다.

그래서 얼마 전에 ‘네이버의 AI 윤리 준칙’ 5가지 중 하나로 발표된 ‘프라이버시와 정보보안’에서 개인정보와 프라이버시를 구별하고, 프라이버시를 적극적으로 보호한다는 한 것은 의미 있다.

이번 사건은 개인정보 보호에 대한 (일부) 스타트업의 현주소를 적나라하게 보여주는 사례이기도 하다. 심지어 수집한 대화 내용을 회사 내부에서 돌려봤다는 기사도 있다. 서비스의 기획자, 개발자, 테스터 등 개발에 관련된 모든 인력이, 개인정보에는 형사처벌을 포함한 강력한 법규가 있어서 서비스가 중단되고, 소송을 당할 수도 있다는 점을 인식해야 한다. 최종 책임을 진 회사 경영진이 관심을 가져야 함은 물론이다. 

하지만 개인정보보호 전문인력 확보, 기획 및 개발 단계에서의 개인정보 보호(Privacy by Design), 개인정보보호 솔루션 도입 등 중견기업도 잘하지 못하는 개인정보 보호조치를 스타트업에서 다 잘 수행하기는 쉽지 않다.

개인정보 문제 발생 → 개인정보 규제 강화 → 개인정보 규제 준수를 위한 비용과 전문성 증가 → 개인정보 문제 발생의 악순환은 해결하기 어려운 사회적 난제가 되었다. 이러한 문제를 해결하기 위한 진지한 논의 역시 필요하다.

사고는 반복된다. 이번 사건에서 얻을 수 있는 교훈을 하나씩이라도 해결해 나가는 것이 튼튼한 개인정보 보호 기반 위에서 개인정보의 활용이 이뤄질 수 있는 지름길이다. 


* 강은성 대표는 국내 최대 보안기업의 연구소장과 인터넷 포털회사의 최고보안책임자(CSO)를 역임한 정보보호 및 개인정보보호 전문가다. 현재는 이화여대 사이버보안학과 산학협력중점교수로 있다. 저서로 「IT시큐리티」(한울, 2009)와 「CxO가 알아야 할 정보보안」(한빛미디어, 2015)이 있다. ciokr@idg.co.kr
 



2021.02.23

강은성의 보안 아키텍트ㅣ이루다, 인공지능, 개인정보 

강은성 | CIO KR
매주 개인정보 뉴스레터를 만드느라 인터넷 검색을 하면서 ‘이루다’와 ‘연애의 과학’ 사건을 알게 됐다. 목소리로 여성임을 밝힌 애플의 시리(Siri)나 아마존의 알렉사(Alexa)와 달리 명백하게 20살 여대생으로 캐릭터를 설정하고, 젊은 여성의 얼굴로 이미지를 형상화한 스캐터랩의 챗봇 ‘이루다’(성이 ‘이’, 이름이 ‘루다’이다) 서비스는 이미 비판이 제기된 대로 성희롱과 여성차별, 성소수자와 장애인 차별 등 많은 이슈를 불러일으켰다. 
 
ⓒGetty Images

이러한 온라인 서비스의 문제는 오프라인 세계를 반영한 것이자 다시 오프라인의 경향을 강화하는 기제로 작동함으로써 우리 사회 디지털 원주민(Native)으로 자라온 어린이, 청소년, (소수자 차별에 대한 인식이 별로 없는) 청년들에게 상당히 악영향을 미칠 거라는 우려를 자아낸다.

이후 이 사건에 관한 웨비나와 토론회를 찾아봤는데, 인공지능 윤리나 기술의 발전, 관련 법적·제도적 규제를 주제로 한 학계·법조계·시민단체 토론의 장은 좀 있으나 정작 개발사가 ‘이루다’ 서비스를 중단한 계기가 된 개인정보 관련 토론은 보이지 않아 아쉬웠다.

‘이루다’를 학습시킨 데이터는 스캐터랩의 다른 서비스인 ‘연애의 과학’에서 이용자가 제공한 카톡 메시지다. “심리학 연애 팁과 심리 테스트” 서비스를 제공한다는 ‘연애의 과학’ 개인정보 취급(처리)방침에는 “이용자가 주고받은 메시지 텍스트 파일”을 수집·이용하는 목적이 “메시지 텍스트 파일을 통한 분석 서비스를 제공”, “신규 서비스 개발 및 맞춤 서비스 제공” 등으로 되어 있다. 또한 「개인정보 비식별 조치 가이드라인」(관계부처 합동, 2016)에 따라 비식별 조치 및 적정성 평가를 마친 ‘비식별 정보’를 정보주체의 동의 없이 (제3자에게) 공유 및 제공할 수 있다고 명시돼 있다.
 
[그림] 구글 플레이에 올라와 있는 ‘연애의 과학’ 앱

‘이루다’는 ‘연애의 과학’과 완전히 별개의 서비스여서 ‘연애의 과학 개인정보 처리방침’에서 밝힌 신규 서비스에 포함된다고 보기 어렵다. 개인정보 처리방침을 준수하여 개인정보를 처리했다는 회사의 해명을 들으면서 ‘신규 서비스’라고 적어 놓고 회사에서 개발하는 ‘모든 서비스’라고 스스로 읽은 게 아닐까 하는 생각도 든다. ‘스캐터랩 개인정보 처리방침’이라고 이름 붙인다 해도 별 차이는 없을 것이다(개인정보 처리방침에서 ‘목적’이 매우 중요하다).

통합 개인정보보호법에 신설된 조문 중 ‘개인정보의 추가적 이용’에 관하여 다음과 같은 조문이 있다.

제15조(개인정보의 수집·이용) 
③ 개인정보처리자는 당초 수집 목적과 합리적으로 관련된 범위에서 정보주체에게 불이익이 발생하는지 여부, 암호화 등 안전성 확보에 필요한 조치를 하였는지 여부 등을 고려하여 대통령령으로 정하는 바에 따라 정보주체의 동의 없이 개인정보를 이용할 수 있다.


‘추가적 이용’이 (정보주체의 동의 없는) ‘목적 외 이용’이 되지 않으려면 애초 해당 개인정보를 수집한 목적과 “합리적으로 관련”돼야 한다. 「개인정보보호 법령 및 지침·고시 해설」(개인정보보호위원회, 2020.12)의 해설도 그리 구체적이지 않다. 다만 이 해설서에서 ‘참고’로 제시한 유럽연합의 “당초 수집 목적과 합리적으로 관련된 범위의 개인정보 이용·제공 사례”는 설득력이 있다. 다음과 같다.

• LP 음반을 판매하는 회사가 고객의 동의를 받아 정기적으로 LP 음반의 카탈로그를 보내오다가, 오디오 테이프, CD, DVD 형태의 음악 카탈로그도 보내는 경우
• 약국에서 다른 고객의 의약품을 잘못 가져간 경우, 약국이 고객에게 위 사실을 알리기 위하여 처방 병원으로부터 휴대전화 번호를 제공받아 전화하는 경우


‘연애의 과학’과 ‘이루다’의 관계가 여기에 해당한다고 보기 어렵다. 해설서에서는 ‘추가적 제공’도 이를 준용한다고 설명한다. 앞으로 ‘추가적’ 이용 및 제공에 관한 사례가 잘 쌓여야 이 조문이 합리적으로 활용된다는 대중의 인식과 신뢰를 얻을 수 있다. 

필자는 특히 ‘이루다’ 사건에서 다양한 내용이 포함될 수 있는 텍스트(비정형) 데이터, 그중에서도 개인 사이의 대화 내용을 프라이버시 관점에서 이해해야 한다는 점을 강조하고 싶다. 

개인정보와 프라이버시는 같지 않다. 어떤 날의 일기는 개인을 식별하지 못할 수 있지만, 여전히 일기는 개인에게 남에게 공개하고 싶지 않은 프라이버시다. 사람의 벌거벗은 등 사진은 대부분 개인을 식별하지 못하지만 대다수 개인에게는 프라이버시다. 

구글 플레이에 올라온 ‘연애의 과학’ 이용자의 리뷰는 프라이버시에 대한 대중의 명료한 이해를 보여준다. (심지어 1년 치의) 사적 대화를 ‘연애의 과학’에 제공한 이들은, 대화 내용을 통한 개인의 식별 여부를 떠나 그것을 다른 서비스의 학습 데이터로 이용하거나 개발자들이 돌려보거나 공개했을 때 분노, 우려, 수치의 감정을 고스란히 드러낸다. 

프라이버시 데이터는 그것의 개인정보성을 떠나서 그러한 데이터다. 사적인 대화 내용을 학습 데이터로 이용하고자 하는 인공지능 기업은, 개인정보보호법은 당연히 지켜야 하지만 대화 내용에서 법적 개인정보를 삭제한다고 해서 공개하고 마구 공유해도 괜찮은 데이터가 되지 않는다는 점을 인식해야 한다. 

개인정보만을 다루는 개인정보보호법에서는 이러한 사각지대가 있다. 모든 것을 법으로 규율하는 것은 바람직하지도, 가능하지도 않다. 기술 개발을 위해 프라이버시 데이터를 이용한다고 하더라도 프라이버시는 프라이버시다.

그래서 얼마 전에 ‘네이버의 AI 윤리 준칙’ 5가지 중 하나로 발표된 ‘프라이버시와 정보보안’에서 개인정보와 프라이버시를 구별하고, 프라이버시를 적극적으로 보호한다는 한 것은 의미 있다.

이번 사건은 개인정보 보호에 대한 (일부) 스타트업의 현주소를 적나라하게 보여주는 사례이기도 하다. 심지어 수집한 대화 내용을 회사 내부에서 돌려봤다는 기사도 있다. 서비스의 기획자, 개발자, 테스터 등 개발에 관련된 모든 인력이, 개인정보에는 형사처벌을 포함한 강력한 법규가 있어서 서비스가 중단되고, 소송을 당할 수도 있다는 점을 인식해야 한다. 최종 책임을 진 회사 경영진이 관심을 가져야 함은 물론이다. 

하지만 개인정보보호 전문인력 확보, 기획 및 개발 단계에서의 개인정보 보호(Privacy by Design), 개인정보보호 솔루션 도입 등 중견기업도 잘하지 못하는 개인정보 보호조치를 스타트업에서 다 잘 수행하기는 쉽지 않다.

개인정보 문제 발생 → 개인정보 규제 강화 → 개인정보 규제 준수를 위한 비용과 전문성 증가 → 개인정보 문제 발생의 악순환은 해결하기 어려운 사회적 난제가 되었다. 이러한 문제를 해결하기 위한 진지한 논의 역시 필요하다.

사고는 반복된다. 이번 사건에서 얻을 수 있는 교훈을 하나씩이라도 해결해 나가는 것이 튼튼한 개인정보 보호 기반 위에서 개인정보의 활용이 이뤄질 수 있는 지름길이다. 


* 강은성 대표는 국내 최대 보안기업의 연구소장과 인터넷 포털회사의 최고보안책임자(CSO)를 역임한 정보보호 및 개인정보보호 전문가다. 현재는 이화여대 사이버보안학과 산학협력중점교수로 있다. 저서로 「IT시큐리티」(한울, 2009)와 「CxO가 알아야 할 정보보안」(한빛미디어, 2015)이 있다. ciokr@idg.co.kr
 

X