Offcanvas

AI / CSO / 검색|인터넷 / 라이프 / 보안 / 소비자IT / 애플리케이션 / 인문학|교양

강은성의 보안 아키텍트ㅣ이루다 2.0, 개인정보, 인공지능

2022.04.15 강은성  |  CIO KR
2020년 12월 22일 출시됐다가 여러 사회적 문제를 일으키고 2021년 1월 11일, 21일 만에 중단됐던 챗봇 ‘이루다’ 서비스가 지난 3월 17일부터 공식 베타 서비스를 재개했다. 성이 ‘이'씨이고 이름이 ‘‘루다'인 20살 여대생으로 설정됐던 이 챗봇은, 우려됐던 성희롱뿐 아니라 약자-소수자에 대한 혐오·차별로 물의가 빚어지고, 개인정보보호 법규 위반 행위까지 불거지면서 서비스가 중단됐었다(강은성, “이루다, 인공지능, 개인정보”, 2021.2.23).

‘이루다’ 서비스가 중단된 지 세 달가량 뒤인 지난해 4월에 개인정보보호위원회에서는 ‘이루다’의 개인정보보호법 위반 행위에 대해 행정처분을 내렸다. 그중 ‘이루다’ 개발사 스캐터랩이 함께 운영하던 ‘텍스트앳’과 ‘연애의과학’ 서비스에 카카오톡 이용자가 제공한 대화 내용과 관련, 개인정보위가 개인정보보호법을 위반했다고 지목한 주요 내용은 다음과 같다. 

(1) ‘연애의과학’과 ‘텍스트앳’에서 개인정보 수집 시 명시적 동의를 받지 않은 행위(제22조(동의를 받는 방법) 제1항 및 제39조의3(개인정보의 수집·이용 동의 등에 대한 특례) 제1항 위반) 

(2) ‘연애의과학’과 ‘텍스트앳’에서 수집한 목적 외로 ‘이루다’의 학습과 운영에 카톡 대화 문장을 이용한 행위(제18조(개인정보의 목적 외 이용·제공 제한) 제1항 위반)

(3) github에 이용자의 카톡 대화 문장(가명정보)을 공유한 행위(제28조의2(가명정보의 처리 등) 제2항 위반)


이루다2.0에서는 그동안 지적됐던 개인정보 문제가 어느 정도 개선된 것으로 보인다. 먼저 개인정보위에서 지적한 개인정보 처리방침이 개선됐다. ‘연애의과학’과 ‘텍스트앳’ 개인정보 처리방침의 ‘개인정보의 수집 및 이용 목적’에 “챗봇 알고리즘 개발을 포함한 언어 기반 인공지능 분야 기술의 연구 개발 등 신규 서비스 개발”이라고 하여 개인정보를 이용할 신규 서비스 개발을 일부 한정하였다.

스캐터랩이 홈페이지에 ‘AI 챗봇 윤리’ 아래에 ‘AI 챗봇 프라이버시 정책’을 통해 학습 체계 및 절차와 개인정보 처리 방법을 설명한 것 또한 바람직하다. 
 
그림 출처: 스캐터랩 “AI 챗봇 프라이버시 정책”

스캐터랩은, ‘연애의과학’과 ‘덱스트앳’의 이용자 대화는 ‘서비스 운영 DB’ 및 이를 가명 처리한 ‘이루다’의 ‘연구용 DB’에만 이용되고, ‘이루다’의 답변에 직접 쓰이는 ‘루다 답변 DB’는 ‘연구용 DB’를 기반으로 ‘생성 모델’을 사용하여 만든 문장과 스캐터랩에서 직접 작성한 문장으로 이뤄진다고 설명한다. 수집한 개인정보를 정보주체의 동의 없이 활용하려면 가명 처리를 해야 하고, 그러려면 가명정보 처리가 허용되는 목적 중 하나인 ‘과학적 연구’에 부합해야 하며, 이를 위해서는 가명정보가 직접 서비스 운영에 사용되지 말아야 하기 때문이다. 

이는 또한 가명 처리한 대화 문장에 남아 있을지도 모를 개인정보가 서비스에 드러나지 않는 구조적 장치가 되기도 한다. 실제 이렇게 구현됐는지, 생성 모델의 결과가 의도대로 나올지는 이루다2.0의 서비스 운영 결과를 좀 더 지켜봐야 할 것이지만 말이다. 시행착오와 여러 논의를 거치면서 딥러닝 관련 개인정보 보호 기준과 방식이 발전해 가는 것 같다. ‘이루다’ 건을 살펴보면서 앞으로 논의가 필요한 사항도 몇 가지 눈에 띈다.

첫째, 적법하지 않게 수집한 개인정보를 사업자가 계속 사용할 수 있는지에 관한 문제다. 보도자료에서 개인정보위는 ‘텍스트앳’과 ‘연애의과학’에서 수집한 카톡 이용자의 대화를 개인정보로 판단하여 이를 ‘명시적 동의’ 없이 수집한 행위를 위법하다고 보았다. 문제는 위법 행위로 수집한 개인정보를 개발사가 이루다2.0 학습에 사용했다는 점이다. 수집 과정이 위법한데 행정 처분을 이행했다고 해서 적법하게 수집한 것과 동일하게 사용하는 것은 무리가 있어 보인다. 적법한 방식으로 재동의를 받든지, 기존 수집한 개인정보는 파기하고 새로 수집하는 것이 합법적이라 생각된다. 만일 위법하게 수집한 것을 계속 사용할 수 있게 허용한다면 개인정보보호법의 기초부터 무너지지 않을까 우려된다.

둘째, 가명정보의 안전성 확보에 관한 문제다. 개인정보보호법에서 가명정보 안전성을 위한 법적인 보호 조치는 ▲가명처리 기술 ▲안전한 처리 환경 ▲복원 시도에 대한 금지로 이뤄져 있다. ‘이루다’ 사건에서 보듯 비정형 데이터에 대한 가명처리는 완벽하지 않을 수 있다. 또한 가명정보가 “안전한 처리 환경”을 벗어나면 그에 대한 ‘복원 시도’ 자체를 알아내기 어렵다. 따라서 가명정보의 안전을 위해서는 그것의 “안전한 처리 환경”이 중요하다. 불특정 다수가 접근할 수 있는 github에 가명정보를 올리면 재식별될 수 있는 가능성이 매우 높다. 개인정보위에서 행정처분에서 이를 정확하게 지적했다. 

이미 개인정보보호법에서는 “가명정보의 처리에 관한 특례”(제28조의2~제28조의5)의 각 조문을 위반할 때 형사처벌, 과징금, 과태료 등 촘촘하고 강력한 제재를 규정했다. 우리나라에서는 빅데이터 활용 또는 개인정보의 활용을 위해 가명정보가 도입되다 보니 개인정보위에서도 가명정보 업무가 그것의 활용에 중점이 가 있는 것 같다. 이해 가는 점이 없지 않으나, 우리나라 개인정보 보호의 최고 사령탑인 개인정보위가 사업자들이 개인정보의 일종인 가명정보의 안전한 관리에 소홀함이 없도록 더 많은 노력을 쏟아야 할 필요가 있다. 

셋째, AI는 사람을 시뮬레이션하는 것이니만큼 AI 윤리에 대한 대중적인 논의와 확산이 필요하다. ‘이루다’ 사건은 AI가 기술적 의제를 넘어선 사회적 의제임을 우리 사회가 대중적으로 인식하는 계기가 됐다. 스캐터랩에 대해 행정처분을 결정한 개인정보보호위원회 회의 속기록(2021.4.28)을 읽다가 스캐터랩 대표의 흥미로운 발언을 발견했다. 

“대화 능력을 고도화시키고 AI가 친구 같은 대화를 할 수 있다는 것이 정말 의미 있는 서비스이고 사람들한테 긍정적인 영향을 많이 미칠 수 있겠다, 특히 10대, 20대 분들이나 나중에 노년층에 대한 고민들도 많이 하고 있는데요.”

이용자 확보 때문인지 데이터 확보 때문인지 모르겠지만, 이루다1.0에서 ‘이루다’를 20대 여대생으로 설정하고, 94억여 건의 카톡 대화 문장 중 20대 여성의 것 약 1억 건을 응답 DB로 사용했는데, 스캐터랩 챗봇이 다른 설정으로 확산할 수 있을지 궁금해진다. 

이제 AI가 사회의 인프라가 되면서 많은 분야에 인공지능 기반의 소프트웨어가 이용될 것으로 보인다. 소프트웨어 개발 역시 사업이므로 시장과 고객, 마케팅을 무시할 수는 없을 것이다. 그럼에도 AI 윤리가 의료인의 생명윤리 못지않게 많은 검토와 논의를 통해 수립되고, 다양한 채널과 방식으로 제품과 서비스의 기획자, 개발자, 경영진, 사용자에게 널리 확산하기 바란다. 사이버 공간의 원주민을 살아온 Z세대에게는 더욱 그렇다. 굳이 ‘엄근진’(엄숙·근엄·진지) 윤리가 되지 않아도 괜찮다.

* 강은성 교수는 국내 최대 보안기업의 연구소장과 인터넷 포털회사의 최고보안책임자(CSO)를 역임한 정보보호 및 개인정보보호 전문가다. 현재는 이화여자대학교 사이버보안학과 산학협력중점교수로 있다. 저서로 「IT시큐리티」(한울, 2009)와 「팀장부터 CEO까지 알아야 할 기업 정보보안 가이드」(한빛미디어, 2022) 등이 있다. ciokr@idg.co.kr 
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.