2020.06.03

칼럼ㅣ당신의 ‘목소리’가 새로운 비밀번호인 이유

Mike Elgan | Computerworld
구글이 지난달 목소리만으로 구매할 수 있는 기능을 파일럿 프로그램으로 공개했다. 이는 시작일 뿐이다. 생체인식 및 인증의 미래에 온 것을 환영한다.

얼굴인식 기술이 활발하게 활용되고 있다. 애플이 페이스ID를 선보이면서 얼굴인식을 통한 스마트폰 잠금 해제가 보편화됐다. 얼굴인식 기술은 여기서 멈추지 않았다. 
 
ⓒGetty Images

그 이후 클리어뷰 AI(Clearview AI)라는 스타트업이 개발한 시스템에 사람들은 경악을 금치 못했다. 얼굴 사진을 올리면 단 몇 초 만에 그 사람의 모든 정보를 찾아낼 수 있었기 때문이다. 그리고 최근 중국과 미국의 여러 기업들은 마스크를 착용한 얼굴도 인식할 수 있는 안면인식 시스템을 개발했다. 얼굴인식 기술이 순식간에 화제로 떠올랐다. 

현재 상황으로만 보자면 얼굴인식이 앞으로 20년 동안은 생체인식 시장에서 지배적인 위치를 차지할 것으로 전망된다. 그러나 얼굴인식의 대항마가 있다. 바로 목소리다. 보이스 ID는 향후 10년 이내에 매우 중요해질 것이다. 

보이스 ID의 등장 
구글이 최근 '보이스 매치(Voice Match)'라는 새로운 구글 어시스턴트 기능을 선보였다. 이는 사용자의 목소리로 본인을 확인해 결제까지 할 수 있는 기능이다. 
 
보이스 매치는 안드로이드 스마트폰 혹은 아이폰의 구글 어시스턴트 앱에서 사용해볼 수 있다. 현재 파일럿 프로그램 상태로, 구글 플레이 구매와 레스토랑 주문과 같은 일부 카테고리에서만 제한적으로 사용할 수 있다. 

이 기능은 2017년 픽셀 2 스마트폰과 스마트 스피커 구글 홈을 통해 처음 소개됐다. 당시 보이스 매치는 구글 어시스턴트가 화자를 식별해 적절한 캘린더, 이메일, 미디어 서비스를 선택할 수 있도록 했다. 지난 5월 구글은 보이스 매치를 업그레이드하며 정확도를 향상시켰다. 

물론 널리 알려진 스마트 스피커는 모두 사용자 목소리를 인식한다. 아마존의 알렉사는 누군가가 음악을 틀어 달라고 요청할 때 해당 사용자의 음악재생 목록을 확인하고자 목소리를 인식한다. 애플의 홈팟 역시 비슷한 기능이 있다. 

보이스 매치가 새로운 점은 단순히 맞춤 콘텐츠를 제공하는 것을 넘어 결제 인증에 목소리를 사용한다는 것이다. 스마트폰, 태블릿, 노트북에서는 지문 ID와 안면 ID를 결제 인증 수단으로 사용할 수 있었지만 스마트 스피커에서는 이를 사용할 수 없었다. 이제 스마트 스피커에서도 보이스 매치와 같은 보이스 ID 시스템을 사용할 수 있게 됐다.  

보이스 ID가 스마트 스피커 또는 개인 비서 시장에서는 새롭긴 하지만 사실상 금융 업계에서는 그렇지 않다. 수백 곳의 은행 및 금융기관이 음성보안 및 인증 기업인 핀드롭(Pindrop)의 서비스나 유사 서비스를 사용하고 있다. 금융 업계에서 보이스 ID는 이미 대세다. 

영국 HSBC 은행은 4년 전부터 콜센터에 음성인식 기능을 적용했고, 이를 통해 약 5억 달러가량의 금융 사기를 방지했다고 밝혔다. 이를테면 1만 7,000건의 보이스피싱 시도를 식별할 수 있었다고 은행 측은 덧붙였다. 

보안 및 프라이버시 문제 
금융 업계에서 이미 사용되고 있지만 대중 차원에서는 보이스 ID에 대한 우려가 계속해서 제기돼 왔고, 이러한 지적은 지난해 한층 더 심화됐다. 

애널리스트이자 미디어 보이스봇닷에이아이(Voicebot.ai)의 설립자인 브렛 킨셀라는 “최근 설문조사에 따르면 지난 1년 동안 보안 및 프라이버시에 대한 우려가 확실하게 증가했다”라고 말했다. 

이어서 그는 음성 기반 디바이스를 구매하지 않은 응답자들이 그 이유로 보안과 프라이버시를 언급했다고 밝혔다. 즉 보안 문제는 보이스 ID 도입을 늘리고자 하는 기업들에게 하나의 장벽이다. 

생체인식 보안 스타트업 아이디알앤디(ID R&D)가 진행한 설문조사에 따르면 미국 성인의 3분의 2는 해커가 자신의 목소리를 조작해 개인 계정에 접근할 수 있다고 우려했다. 또한 퓨 리서치 센터(Pew Research Center)는 스마트 스피커 사용자의 절반 이상이 개인 데이터 보안 및 프라이버시 때문에 더 향상된 개인화 기능을 원치 않는다는 설문조사 결과를 발표하기도 했다. 

구글은 보이스 매치에 관한 보안 및 프라이버시 우려를 극복하고자 목소리 모델(음성 데이터)을 클라우드가 아닌 로컬 기기에 저장되도록 설계했다. 물론 사용 시에 해당 쿼리와 목소리 모델이 모두 업로드되기는 하지만 그 후 목소리 모델과 비교 데이터는 즉각 삭제된다. 일반적으로 보이스 ID는 녹음된 사용자 음성의 고유 속성을 ‘목소리 프린트(voice print)’ 또는 ‘목소리 모델(voice model)’이라는 알고리즘 템플릿으로 변환시킨다.

그냥 목소리 모델을 클라우드에 두는 것보다 사용할 때마다 매번 쿼리와 목소리 모델을 공공 인터넷을 통해 클라우드로 업로드하는 것이 왜 더 안전한지 이해할 수는 없지만, 구글은 필자의 요청에 응답하지 않았다. 

어쨌든 보이스 ID가 보안을 위협하고 프라이버시를 침해할 것이라는 걱정과 우려는 타당하다. 앞으로 목소리를 조작하려는 해커와 목소리가 진짜인지 아니면 합성 및 녹음된 것인지를 파악하려는 기술 사이의 경쟁을 목격할 가능성이 크다. 아이디알앤디(ID R&D)는 이미 ‘실시간 감지(liveness detection)’ 기술을 제공하고 있기도 하다. 

또한 보이스 ID는 전 세계 경찰 및 첩보 기관에서 널리 쓰이고 있다. 인터폴은 ‘화자식별 통합 프로젝트(Speaker Identification Integrated Project, SiiP)’라는 시스템을 사용한다. 미국 국가안보국(NSA)은 2006년부터 최첨단 보이스 ID 기술을 도입한 것으로 알려졌다. 

이들 정보 기관들은 수집된 음성 데이터가 악용될 가능성을 시연하기도 했다. 유튜브, 전화 통화, 감시용 도청장치 등으로 채취된 목소리가 보이스 ID에 필요한 목소리 모델을 생성하는 데 쓰일 수 있는 셈이다.

이는 보이스 ID와 얼굴인식이 지닌 공통적인 문제점이다. ‘생체인식 데이터’는 스캔되는 사람이 이를 허용하지 않아도 혹은 인지하지 못하더라도 원격에서 쉽게 캡처될 수 있다는 것이다. 그리고 그 사람을 인증하는 데 그만큼이나 쉽게 사용될 수 있다. 

앞으로 보이스 ID는 논란의 중심에 설 가능성이 높다. 그러나 궁극적으로는 대중화될 것이라고 예상한다. 대단히 유용하고 편리하기 때문이다. 

보이스 ID의 밝은 미래 
코로나19 사태가 모든 것을 바꾸고 있다. IT 분야에서 이번 팬데믹은 기존에 더디게 도입됐던 기술들을 빠르게 확산시키고 있다. 

킨델라는 “코로나바이러스 시대에서 사람들은 지문 인식기에 손을 대고 싶지 않을 것이다. 또한 마스크 착용으로 안면인식 방식에서 불편함을 겪고 있다. 따라서 보이스 ID 도입이 가속화될 수 있다”라며, “이러한 편리함으로 인해 보이스 ID가 특히 자동차와 가정에서 주로 보편화될 것”이라고 말했다. 

그러나 필자는 보이스 ID가 부상하게 되는 이유로 오늘날 우리의 삶에서 가장 큰 비중을 차지하고 있는 ‘스마트폰의 쇠퇴와 몰락’을 꼽고 싶다. 앞으로 스마트폰의 중요성이 시들해질 가능성이 크다. 반면 웨어러블의 중요성이 날로 커질 것이다. 

이를테면 전용 SIM 카드가 들어가는 스마트워치가 갈수록 증가할 것이다. 애플은 향후 5년 이내에 스마트 글래스를 주류로 안착시킬 것이다. 인공지능 기반의 이어폰을 일컫는 히어러블(hearable)의 인기가 점점 더 높아질 것이다. 필자는 심지어 스마트링도 마찬가지라고 본다. 이는 질병을 조기에 감지해주는 것은 물론 스마트 글래스의 포인터로도 사용될 수도 있다. 

웨어러블을 감안한다면 보이스 ID가 얼굴인식과 지문인식보다 더 적절한 인식 및 인증 방식이다. 일부 웨어러블은 지문인식을 위한 공간을 확보하지 못할 수 있다. 또한 대부분의 웨어러블은 얼굴인식을 위한 카메라나 센서를 탑재하고 있지 않다. 그러나 거의 모든 웨어러블에는 보이스 ID를 처리할 마이크가 내장돼 있을 것이다. 

그리고 가장 좋은 점이 있다. 사용자가 다수의 웨어러블(스마트워치, 스마트링, 스마트 글래스, 스마트 의류 등)을 착용하고 있다면 목소리로 한꺼번에 잠금 해제할 수 있다는 점이다. 

스마트 웨어러블 시대가 도래할 것이다. 그리고 이와 함께 사용자를 인식하고 행위를 허용하는 주요 방식으로 ‘보이스 ID’의 시대가 열릴 것이다. 

* Mike Elgan은 기술 및 기술 문화에 대해 저술하는 전문 기고가다. ciokr@idg.co.kr



2020.06.03

칼럼ㅣ당신의 ‘목소리’가 새로운 비밀번호인 이유

Mike Elgan | Computerworld
구글이 지난달 목소리만으로 구매할 수 있는 기능을 파일럿 프로그램으로 공개했다. 이는 시작일 뿐이다. 생체인식 및 인증의 미래에 온 것을 환영한다.

얼굴인식 기술이 활발하게 활용되고 있다. 애플이 페이스ID를 선보이면서 얼굴인식을 통한 스마트폰 잠금 해제가 보편화됐다. 얼굴인식 기술은 여기서 멈추지 않았다. 
 
ⓒGetty Images

그 이후 클리어뷰 AI(Clearview AI)라는 스타트업이 개발한 시스템에 사람들은 경악을 금치 못했다. 얼굴 사진을 올리면 단 몇 초 만에 그 사람의 모든 정보를 찾아낼 수 있었기 때문이다. 그리고 최근 중국과 미국의 여러 기업들은 마스크를 착용한 얼굴도 인식할 수 있는 안면인식 시스템을 개발했다. 얼굴인식 기술이 순식간에 화제로 떠올랐다. 

현재 상황으로만 보자면 얼굴인식이 앞으로 20년 동안은 생체인식 시장에서 지배적인 위치를 차지할 것으로 전망된다. 그러나 얼굴인식의 대항마가 있다. 바로 목소리다. 보이스 ID는 향후 10년 이내에 매우 중요해질 것이다. 

보이스 ID의 등장 
구글이 최근 '보이스 매치(Voice Match)'라는 새로운 구글 어시스턴트 기능을 선보였다. 이는 사용자의 목소리로 본인을 확인해 결제까지 할 수 있는 기능이다. 
 
보이스 매치는 안드로이드 스마트폰 혹은 아이폰의 구글 어시스턴트 앱에서 사용해볼 수 있다. 현재 파일럿 프로그램 상태로, 구글 플레이 구매와 레스토랑 주문과 같은 일부 카테고리에서만 제한적으로 사용할 수 있다. 

이 기능은 2017년 픽셀 2 스마트폰과 스마트 스피커 구글 홈을 통해 처음 소개됐다. 당시 보이스 매치는 구글 어시스턴트가 화자를 식별해 적절한 캘린더, 이메일, 미디어 서비스를 선택할 수 있도록 했다. 지난 5월 구글은 보이스 매치를 업그레이드하며 정확도를 향상시켰다. 

물론 널리 알려진 스마트 스피커는 모두 사용자 목소리를 인식한다. 아마존의 알렉사는 누군가가 음악을 틀어 달라고 요청할 때 해당 사용자의 음악재생 목록을 확인하고자 목소리를 인식한다. 애플의 홈팟 역시 비슷한 기능이 있다. 

보이스 매치가 새로운 점은 단순히 맞춤 콘텐츠를 제공하는 것을 넘어 결제 인증에 목소리를 사용한다는 것이다. 스마트폰, 태블릿, 노트북에서는 지문 ID와 안면 ID를 결제 인증 수단으로 사용할 수 있었지만 스마트 스피커에서는 이를 사용할 수 없었다. 이제 스마트 스피커에서도 보이스 매치와 같은 보이스 ID 시스템을 사용할 수 있게 됐다.  

보이스 ID가 스마트 스피커 또는 개인 비서 시장에서는 새롭긴 하지만 사실상 금융 업계에서는 그렇지 않다. 수백 곳의 은행 및 금융기관이 음성보안 및 인증 기업인 핀드롭(Pindrop)의 서비스나 유사 서비스를 사용하고 있다. 금융 업계에서 보이스 ID는 이미 대세다. 

영국 HSBC 은행은 4년 전부터 콜센터에 음성인식 기능을 적용했고, 이를 통해 약 5억 달러가량의 금융 사기를 방지했다고 밝혔다. 이를테면 1만 7,000건의 보이스피싱 시도를 식별할 수 있었다고 은행 측은 덧붙였다. 

보안 및 프라이버시 문제 
금융 업계에서 이미 사용되고 있지만 대중 차원에서는 보이스 ID에 대한 우려가 계속해서 제기돼 왔고, 이러한 지적은 지난해 한층 더 심화됐다. 

애널리스트이자 미디어 보이스봇닷에이아이(Voicebot.ai)의 설립자인 브렛 킨셀라는 “최근 설문조사에 따르면 지난 1년 동안 보안 및 프라이버시에 대한 우려가 확실하게 증가했다”라고 말했다. 

이어서 그는 음성 기반 디바이스를 구매하지 않은 응답자들이 그 이유로 보안과 프라이버시를 언급했다고 밝혔다. 즉 보안 문제는 보이스 ID 도입을 늘리고자 하는 기업들에게 하나의 장벽이다. 

생체인식 보안 스타트업 아이디알앤디(ID R&D)가 진행한 설문조사에 따르면 미국 성인의 3분의 2는 해커가 자신의 목소리를 조작해 개인 계정에 접근할 수 있다고 우려했다. 또한 퓨 리서치 센터(Pew Research Center)는 스마트 스피커 사용자의 절반 이상이 개인 데이터 보안 및 프라이버시 때문에 더 향상된 개인화 기능을 원치 않는다는 설문조사 결과를 발표하기도 했다. 

구글은 보이스 매치에 관한 보안 및 프라이버시 우려를 극복하고자 목소리 모델(음성 데이터)을 클라우드가 아닌 로컬 기기에 저장되도록 설계했다. 물론 사용 시에 해당 쿼리와 목소리 모델이 모두 업로드되기는 하지만 그 후 목소리 모델과 비교 데이터는 즉각 삭제된다. 일반적으로 보이스 ID는 녹음된 사용자 음성의 고유 속성을 ‘목소리 프린트(voice print)’ 또는 ‘목소리 모델(voice model)’이라는 알고리즘 템플릿으로 변환시킨다.

그냥 목소리 모델을 클라우드에 두는 것보다 사용할 때마다 매번 쿼리와 목소리 모델을 공공 인터넷을 통해 클라우드로 업로드하는 것이 왜 더 안전한지 이해할 수는 없지만, 구글은 필자의 요청에 응답하지 않았다. 

어쨌든 보이스 ID가 보안을 위협하고 프라이버시를 침해할 것이라는 걱정과 우려는 타당하다. 앞으로 목소리를 조작하려는 해커와 목소리가 진짜인지 아니면 합성 및 녹음된 것인지를 파악하려는 기술 사이의 경쟁을 목격할 가능성이 크다. 아이디알앤디(ID R&D)는 이미 ‘실시간 감지(liveness detection)’ 기술을 제공하고 있기도 하다. 

또한 보이스 ID는 전 세계 경찰 및 첩보 기관에서 널리 쓰이고 있다. 인터폴은 ‘화자식별 통합 프로젝트(Speaker Identification Integrated Project, SiiP)’라는 시스템을 사용한다. 미국 국가안보국(NSA)은 2006년부터 최첨단 보이스 ID 기술을 도입한 것으로 알려졌다. 

이들 정보 기관들은 수집된 음성 데이터가 악용될 가능성을 시연하기도 했다. 유튜브, 전화 통화, 감시용 도청장치 등으로 채취된 목소리가 보이스 ID에 필요한 목소리 모델을 생성하는 데 쓰일 수 있는 셈이다.

이는 보이스 ID와 얼굴인식이 지닌 공통적인 문제점이다. ‘생체인식 데이터’는 스캔되는 사람이 이를 허용하지 않아도 혹은 인지하지 못하더라도 원격에서 쉽게 캡처될 수 있다는 것이다. 그리고 그 사람을 인증하는 데 그만큼이나 쉽게 사용될 수 있다. 

앞으로 보이스 ID는 논란의 중심에 설 가능성이 높다. 그러나 궁극적으로는 대중화될 것이라고 예상한다. 대단히 유용하고 편리하기 때문이다. 

보이스 ID의 밝은 미래 
코로나19 사태가 모든 것을 바꾸고 있다. IT 분야에서 이번 팬데믹은 기존에 더디게 도입됐던 기술들을 빠르게 확산시키고 있다. 

킨델라는 “코로나바이러스 시대에서 사람들은 지문 인식기에 손을 대고 싶지 않을 것이다. 또한 마스크 착용으로 안면인식 방식에서 불편함을 겪고 있다. 따라서 보이스 ID 도입이 가속화될 수 있다”라며, “이러한 편리함으로 인해 보이스 ID가 특히 자동차와 가정에서 주로 보편화될 것”이라고 말했다. 

그러나 필자는 보이스 ID가 부상하게 되는 이유로 오늘날 우리의 삶에서 가장 큰 비중을 차지하고 있는 ‘스마트폰의 쇠퇴와 몰락’을 꼽고 싶다. 앞으로 스마트폰의 중요성이 시들해질 가능성이 크다. 반면 웨어러블의 중요성이 날로 커질 것이다. 

이를테면 전용 SIM 카드가 들어가는 스마트워치가 갈수록 증가할 것이다. 애플은 향후 5년 이내에 스마트 글래스를 주류로 안착시킬 것이다. 인공지능 기반의 이어폰을 일컫는 히어러블(hearable)의 인기가 점점 더 높아질 것이다. 필자는 심지어 스마트링도 마찬가지라고 본다. 이는 질병을 조기에 감지해주는 것은 물론 스마트 글래스의 포인터로도 사용될 수도 있다. 

웨어러블을 감안한다면 보이스 ID가 얼굴인식과 지문인식보다 더 적절한 인식 및 인증 방식이다. 일부 웨어러블은 지문인식을 위한 공간을 확보하지 못할 수 있다. 또한 대부분의 웨어러블은 얼굴인식을 위한 카메라나 센서를 탑재하고 있지 않다. 그러나 거의 모든 웨어러블에는 보이스 ID를 처리할 마이크가 내장돼 있을 것이다. 

그리고 가장 좋은 점이 있다. 사용자가 다수의 웨어러블(스마트워치, 스마트링, 스마트 글래스, 스마트 의류 등)을 착용하고 있다면 목소리로 한꺼번에 잠금 해제할 수 있다는 점이다. 

스마트 웨어러블 시대가 도래할 것이다. 그리고 이와 함께 사용자를 인식하고 행위를 허용하는 주요 방식으로 ‘보이스 ID’의 시대가 열릴 것이다. 

* Mike Elgan은 기술 및 기술 문화에 대해 저술하는 전문 기고가다. ciokr@idg.co.kr

X