Offcanvas

보안 / 아웃소싱

무료 번역 사이트에서 기업 데이터가 새고 있다

2019.12.03 Terena Bell  |  CSO
9월 이전에는 번역이 문제가 되지 않았다. 적어도 정보보안 관점에서는 그랬다. 어떤 언어로 작성된 콘텐츠를 가져다 다른 언어로 변경하는 것은 대부분의 CSO의 데이터 위험 목록에서 상위권에 있지 않았다. 하지만 노르웨이 뉴스 네트워크인 NRK가 세계에서 가장 큰 석유 및 가스 회사 가운데 하나인 스타토일(Statoil)에서 데이터 유출을 발견했다.
 
ⓒ Getty Images Bank 

NRK는 460억 달러 규모의 사업체인 스타토일이 무료 온라인 툴인 Translate.com을 이용해 ‘해고의 통보, 인력감축 및 아웃소싱 계획, 비밀번호, 코드 정보, 계약서’를 번역했다고 보도했다. 그 후에도 이야기는 이어졌다. 대학교수인 리즈 링네스 랜데버그는 스타토일을 구글에서 검색해봤다. 검색 결과에는 그 회사의 번역물들이 있었다.

“와! 이게 뭐야?” 랜데버그는 생각했다. 그는 NRK에 “이것은 조직, 민간기업, 정부기관에서 나온 정보였다”고 밝혔다. 즉, 랜데버그나 다른 어떤 구글 사용자들이 이런 정보를 읽는 것을 스타토일이 원하지 않았을 정보들이었다. 

번역 업계는 이런 유출이 생기는 것을 알고 있었다. 케임브리지에 본부를 둔 싱크탱크인 커먼 센스 자문단(Common Sense Advisory)의 돈 드팔마 수석전략가는 “이것이 바로 우리가 10년도 넘게 회사들에게 경고해 온 것”이라고 말한다. “[무료 온라인 번역]이 작동하는 방식을 고려할 때, 그것은 계속 제기되고 있는 질문이었다. 무료 번역이 정보를 노출시킬 것인가라고 말이다.”


온라인 번역 서비스의 작동 방식

어떻게 이런 일이 일어났을까? Translate.com은 “무료이면서 자발적인 기계 번역은 침해되지 않았다. Translate.com의 솔루션에는 2가지 버전이 있다. 문제의 무료 버전은 다양한 온라인 번역 서비스를 이용하는 것으로 자발적으로 참여하는 번역가들이 번역 작업을 검토하고 수정한다. 이 ‘예전’ 자발적 번역 부문은 지금은 서비스가 종료되었으며, 자발적인 번역가들이 관련된 번역은 모두 삭제되었다. 지금도 무료로 이용할 수 있는 온라인 기계 번역은 더 이상 저장되지 않을 것이다”라고 말했다. 

일반적으로 무료 온라인 번역의 작동 방식은 다음과 같다. 머신러닝이 미래의 결과를 개선하기 위해 사용자의 입력과 그 번역물을 사용하는 번역 엔진에 입력하는 모든 단어가 저장된다. 즉, 사용자 다음에 툴을 사용하는 누구나가 이전 사용자의 데이터를 사용하거나 데이터에 액세스한다는 것을 의미한다. 둘 다에 해당되지는 않더라도 말이다.  사용자의 정보가 구글에서 나타나는지 여부는 툴 공급업체가 해당 정보를 어디에 그리고 어떻게 저장하느냐에 달려있다. 


보안을 염두에 두고 번역정책을 만들어라

번역 관련 데이터 유출 방지를 위한 첫 번째 단계는 직원들이 무료 툴을 언제 사용할 수 있고 언제 사용할 수 없는지 결정하는 것이다. 바스프의 경우 무료 번역 툴 사용이 불가능하다. 독립적인 기술 컨설턴트인 커티 바쉬는 "직원들이 온라인에서 신제품, 사업 계획, 그리고 파워포인트 프레젠테이션에 관한 중요한 이메일을 번역하고 있다는 것을 알게 된 후 회사가 모든 무료 번역 사이트를 차단했다"고 말했다.   

덜 심각한 옵션의 경우, 당신은 항상 주제별로 무료 번역 툴의 사용을 제한할 수 있다. 소프트웨어에서 접수업체와의 계약서는 안되지만, 제품 출하 세부내역은 입력해도 괜찮을지 모른다. 그럼에도 바쉬는 이것이 문제가 된다고 말한다. 직원들은 무언가에 대한 것을 알기 위해 무료 번역을 종종 사용한다. “사람들은 구글 번역기와 빙 번역기를 사용할 것이다. 왜냐하면 그들은 중국어로 된 메모를 받고 ‘그가 무슨 말을 하고 있는 것인가?’를 알고 싶어하기 때문이다.” 그 언어를 모르는 직원들은 콘텐츠를 번역해보기 전까지는 민감한 주제에 관한 것이라는 것을 깨닫지 못할 수도 있다. 

보다 안전한 선택은 자체적인 머신러닝 엔진을 만들고 사내에서 번역을 옮기는 것이다. 바쉬는 폭스바겐은 그런 방식을 취했다고 설명했다. “노출 위험 때문에 외부 번역엔진을 사용하려 하지 않는다.” 물론 2016년 폭스바겐의 매출은 2,516억 달러(약 297조 원)였다. 이것은 칠레와 핀란드를 비롯한 많은 주권국가의 GDP보다 더 많은 것이다. 그렇게 큰 회사에서는 번역을 내부화하는 것이 쉽다. 하지만 다른 기업에게는, 그것은 별로 현실적이지 않다.


전문 번역 서비스를 선택해도 나름 위험은 있다

그렇다면 그런 기업들은 무엇을 할 수 있을까? 온라인에서 랜덤툴에 데이터를 연결하는 대신, 직원들에게 전문 공급업체를 통해 모든 번역을 라우팅하길 요청하라. 번역 공급업체의 선택은 대개 품질, 납기 및 비용에 기초한다. 

데이터 보안을 보장하기 위해 번역을 맡기고자 하는 업체에게 변환할 파일을 어떻게 받고 전송하는지 물어보라. 만약 그들이 이메일이라고 말한다면, 조심하라. 바쉬는 “사람들의 이메일에 침투하는 것은 아주 쉽기 때문에 이메일은 다른 어떤 온라인 솔루션보다 10배 더 위험하다”라고 말했다.

이메일은 또한 쉽게 전달된다. 많은 번역 업체가 의존하는 방식이다. 인간 번역자는 그 콘텐츠 유형과 필요한 언어 방향에 전문화되었기 때문에, 예컨대, 영어를 폴란드어로 번역함으로써 일을 얻는다. 만약 이런 요소 가운데 하나가 바뀐다면, 번역자도 바뀐다. 결과적으로, 가장 큰 번역회사조차도 고객이 필요로 하는 모든 것을 위한 자원들을 사내에 가지고 있지 않다. 드팔마는 “업계에는 많은 재판매가 있다”라고 말한다. 즉, 번역회사들은 다른 업체에게 업무를 아웃소싱한다. 

드팔마는 “누군가가 와서 알바니아어를 폴란드어로 번역하기를 원한다고 하자. 이와 같은 번역 수요는 아주 적기 때문에 아마도 24x7x365를 기준으로 제공하지는 않을 것이다”라고 설명했다. 그래서 당신이 선택한 번역 회사에 당신의 파일을 이메일로 보낸 후, 그들은 이 파일을 다른 회사로 전달한다. 아마도 폴란드어만 제공하는 업체를 들어본 적도 없을 것이다. 하지만 해당 데이터는 거기에 머물지 않을 것이다. 이 회사는 이 파일을 다른 곳의 독립적인 번역자에게 전달한다. 

드팔마는 “이것은 무한한 연결고리다”라고 말한다. 평균 번역회사 수입의 26%는 다른 번역회사에서 나오는 것으로, 전 세계적으로 번역되는 단어의 1/4을 차지한다.

드팔마는 “자신의 파일은 회사 밖으로 나가자마자 야생에 있는 셈이다”라고 덧붙였다. 결국 인적자원을 찾지 못하면 해당 프로젝트는 Translation.com으로 갈 수도 있다. 사용자는 번역 제공업체에 돈을 지불하고 거기에 보내야 한다. 커먼센스 자문단에 따르면, 번역 전문가 가운데 64%는 그들의 동료가 웹 상에서 무료 번역 서비스를 자주 사용한다고 말한다.

드팔마는 “자신의 데이터가 야생에 던져졌을 때, 그 정보를 비밀스럽고 안전하게 유지하기 위해 해당 정보를 건드리는 모든 범위의 사람들, 보안 메커니즘, 조항들에 의존해야 한다”라고 말했다.

그렇게 되면 단일 공급업체를 너무 신뢰하게 된다. 따라서, 러시아 속담에도 있듯이 신뢰하되 검증해야 한다. 데이터를 번역하는 동안 추적하기 위해, 바쉬는 사무실을 벗어나는 순간부터 돌아오는 순간까지 모든 단어를 추적하는 전문 툴인 번역 관리 소프트웨어(TMS)를 추천한다. 

TMS(Translation Management Software)를 사용하면 사용자 자신의 직접 승인 없이는 아무도 데이터에 액세스하지 못하며 사용자가 알지 못하는데 파일이 전달되는 경우도 불가능하다. 바쉬는 “사용자가 들어가서 접근할 수 있게 해줘야 한다”라고 말했다. 그는 “여기 유효한 ID가 100개 있는데 이 데이터를 다룰 수 있는 사람만이 이 100개의 ID를 사용한다고 한다면, 그들이 데이터를 건드릴 때마다 그들이 무엇을 했는지 정확히 알 수 있을 것이다. 이 정도면 보안이 높은 편이다. TMS 시스템을 제대로 설치하면 어느 정도 보호를 받을 수 있다”고 설명했다. 
 
이 정도 보호로도 완벽하지는 않다. TMS 시스템은 번역 회사와 고객 모두에게 판매된다. 즉, 고급 시스템은 깃허브, 어도비CQ 및 그것이 만들어진 다른 플랫폼에서 직접 콘텐츠를 추출한다. 연결이 어떻게 확보되었는지 물어보라. 그런 다음 TMS에서 해당 파일을 어디에 어떻게 저장하는지 물어보라. 

더욱 중요한 것은 다음과 같은 상황이다, 당신이 사용하는 TMS를 통해 번역가가 데이터를 빼낼 수 있는가? 드팔마는 번역가들이 TMS에서 자료를 빼내서 그들이 더 선호하는 툴로 옮기는 경향이 있다고 언급한다. 로그인을 해서, 추출을 누르면 갑자기 데이터가 다시 야생으로 돌아간다. TMS 공급업체에 자신이 이 옵션을 해제하기를 원한다고 알려라. 

그러나 결국 드팔마는 사용자가 기술을 아무리 잘 활용하더라도, 번역 프로젝트에서 가장 위험한 부분은 번역가라고 말한다. 드팔마는 “그들이 데이터를 정확히 추출할 수는 없다고 하더라도, 스크린 캡처를 해서 OCR을 한 다음, 그것을 다른 도구에 넣을 수는 있다”라고 말했다. 드팔마에 따르면, 이런 형태의 유출은 단순히 ‘이론적인’ 것이다. 그러나 9월 이전에는 스타토일 사례도 이론적인 이야기였다.
   
언어 번역 앱은 위험한가? 지금 이용가능한 많은 번역 앱 가운데 하나를 사용하고 싶을지도 모른다. 대부분은 예를 들어, 음성 대 음성 통신이나 거리 표지판 번역을 위해 소비자가 사용하도록 설계되었다. 그것들은 비즈니스를 위한 소소한 번역 작업에 사용될 수는 있지만 상당한 위험이 따른다.

2019년 10월 호주 전략정책연구원(ASPI)은 보고서 하나를 발표했는데, 중국이 데이터를 수집하는 기술을 사용해 “금융기술, 지능형 제조, 스마트 시티, 국가안보, 정부와 민간영역을 위한 산업 컨설팅 및 분석 등을 위한 산업지식 그래프, 알고리즘 모델, 시각화 플랫폼을 만들고 있다”는 우려를 제기했다. 

이 보고서에 따르면, 중국 GTCOM(Global Tone Communications Technology)이 200여 개국 이상의 최소 65개 언어로 비정형 데이터를 대량으로 분석함으로써 이 같은 노력을 주도하고 있다고 한다. GTCOM은 중국 중앙 선전부의 일부다. GTCOM의 번역 서비스는 최대의 중국 검색엔진인 알리바바의 클라우드 오퍼링과 회의 내용을 번역해서 적어주는 조브트랜스(JoveTrans) 음성 녹음기, 번역기, 랭귀지박스(LanguageBox) 등의 앱에 내장되어 있다. 

ASPI 보고서는 GTCOM이 “국가 보안 및 정보 데이터 수집에 공공연히 기여하고 있다”고 주장한다. 분명, 기업은 민감한 데이터를 번역하기 위해 GTCOM의 기술을 사용하는 것을 피하고 싶을 것이다.

구글 번역과 같은 인기 있는 웹 기반 앱은 컨텐츠를 자체 서버에 저장하고 번역한다. 기업은 일단 클라우드에 데이터가 들어가면 데이터를 완전히 제어하지는 못하며, 규제상 위험이 생긴다. 예를 들어, EU의 개인정보보호규정(General Data Protection Regulation, GDPR)에 따르면, 조직은 서드파티 데이터 프로세서에서 발생하는 유출에 대해서도 똑같이 책임을 진다.

번역서비스 회사인 라이온브릿지(Lionbridge) CSO 더그 그레이엄은 “정상적인 상황에서 사용자는 자신을 번역되는 단어와 문서의 소유자로 인식하게 될 것이며, 따라서 번역되는 동안 정보의 사용, 공유 및 보호 방법을 제어할 수 있어야 한다. 이러한 기대에 관해 사용자는 지불한 금액에 대한 것을 받을 수 있다. 번역 비용이 들지 않는다면, 제공업체는 어떻게 그들의 서비스를 수익화 하는가? 보안 비용인가?”라고 말했다. 

그레이엄에 따르면, 번역은 다른 앱이나 서비스와 다르지 않다. 기업은 다음과 같은 데이터 보호 및 개인 정보 보호와 관련된 동일한 종류의 질문을 앱 공급업체에 해야 한다.

- 앱이 데이터를 암호화하는가? 
- 애플리케이션 공급업체는 그들의 보안 책임을 뒷받침하는 계약을 맺을 것인가? 
- 앱 공급업체는 전용 보안팀을 가지고 있는가? 


번역 앱을 사용하는 가장 안전한 방법은 민감한 데이터를 멀리하는 것이다. 그레이엄은 “보안 관점에서 기업은 관련된 데이터의 유형과 이 데이터를 보호하는 것이 얼마나 필수적인지 고려해야 한다. 이 데이터가 영어로만 제공되고 유지된다면 서드파티의 무료 온라인 앱을 계속 사용할 것인가? 상식적으로는 개인정보 보호규정과 정보 취급절차가 상당히 많기 때문에, 이러한 앱을 이용해 번역할 수 있는 것과 해서는 안 되는 것을 사람들에게 계속 알려줘야 한다”라고 말했다. editor@itworld.co.kr 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.