2017.11.22

30년 잉태 후 만개··· 음성 인식, 또 다른 특이점으로 향한다

Lamont Wood | Computerworld
지난 30년 동안, 우리가 알던 음성 인식은 이런 거였다. 컴퓨터에 마이크폰을 통해 이야기를 하면 MS 윈도우나, 뉘앙스 커뮤니케이션스(Nuance Communications)의 드래곤 내추럴리스피킹(Dragon NaturallySpeaking) 앱이 이를 처리하는 식이다. 컴퓨터가 헷갈리지 않게 또박또박 발음을 하고 나면 내가 말한 것들이 스크린에 뜨거나, 명령어가 실행되기도 했다.

그러나 오늘날 음성 인식은 훨씬 더 발전한 형태로 널리 활용되고 있으며, 특히 지난 2년 동안 이 기술은 새로운 소비자 제품군을 탄생시켰다. 바로 음성 인식 개인 비서 기능이다.

보이스랩스(VoiceLabs)의 공동 창립자인 아담 마칙은 “마치 30년 동안의 잉태를 거쳐 하루 아침에 탄생한 아이와도 같다. 이제 음성 인식 기술은 정말로 대화를 나눌 수 있을 정도로 정교해졌다”라고 말했다. 보이스랩스는 음성 앱 개발자들에 애널리틱스 서비스를 제공하고 있다.

테크놀로지 분야의 성과들이 으레 그렇듯, 음성 인식 기술 분야의 발전 역시 숫자로 표현될 수 있다. 2017년 8월, 마이크로소프트는 자사의 대화형 음성 인식 시스템이 갖춘 단어 인식 정확도가 인간 서기를 추월했다고 발표했다. 업계 표준 테스트에서 도출된 결과라는 설명이다. 이 테스트에서 전문 서기의 단어 오류율은 5.9%였는데, 마이크로소프트 시스템은 5.1%를 기록됐다.

마이크로소프트사의 기술팀 펠로우이자 음성 인식 및 언어 그룹 대표인 수에동 “X.D.” 후앙은 “꿈이 현실이 된 것이다. 1993년 MS사가 처음 음성 인식 기술 개발에 착수했을 때만 해도, 이 오류율은 80%에 육박했다. 또 내가 대학원에서 음성 인식 기술 개발을 연구하던 1982년까지 거슬러 올라가면, 당시에는 그저 단어 하나하나를 인식하는 데에만 신경 썼을 뿐이었다. (소프트웨어가) 사람만큼의 정확도로 대화 전체를 인식할 수 있을 거라는 것은 상상조차 하지 못했다”라고 말했다.

뉘앙스 사의 CTO 블라드 세노하는 “이제 조용한 사무실에 앉아 악센트 없이 이야기 할 경우 거의 100%에 가까운 음성 인식 정확도를 보장할 수 있다”라고 전했다.

이렇듯 음성 인식 정확도가 높아지면서 앞으로는 휴대폰에 음성 명령을 내리거나, 고객 서비스 센터에 전화해 로봇 직원과 어려움 없이 이야기할 수 있게 될 것이다. 무엇보다 집이나 사무실에서도 음성 명령을 통해 업무를 처리하는 일이 늘어날 것이다.



느리지만 꾸준히 밟아온 길
그러나 음성 인식 기술은 이 단계에 도달하기까지 아주 느리고 긴 걸음을 걸어 왔다. 세노하는 다음과 같이 설명했다.

“15~20년 동안 우리가 사용했던 기술은 마코브 모델(Markov model) 등 통계적인 것들이었다. 우리는 여러 가지 모델을 통해 어떤 한 조각의 정보가 특정 음소를 나타낼 확률이나, 특정 단어가 어떤 문맥에서 나타날 확률을 계산하려 했다. 무수한 경우의 수를 계산해야 했고, 이 과정을 통해 아주 천천히 발전을 이루어냈다.”

“근래 들어서는 이러한 전통적인 통계식 방법이 딥러닝 및 신경망 학습 모델로 대체되고 있다. 새로운 모델은 이전 모델보다 훨씬 유연할 뿐 아니라 더욱 빠른 속도로 음성 인식 기술의 발전에 박차를 가하고 있다. 그 결과 지난 10년 동안 한 해에 오류율이 평균 20%씩 떨어지기도 했다.”

그는 이제 음성 인식이 소수의 사람들만이 사용하는 것이 아니라, 보다 일반적인 환경에서 다양한 사람들에 의해 사용되고 있다고 진단했다. 물론 아직도칵테일 파티 등에서는 폰에다 대고 소리를 쳐야 하는 상황이 오기도 한다. 아직까지 특정 환경 조건에서는 음성 인식이 제대로 동작하지 않는다는 뜻이다.

그는 앞으로도 연간 20% 정도의 기술 발전 속도가 계속될 것이라고 예측하며, 이제는 시끄러운 환경에서뿐 아니라 보다 특수한 경우에도 이 기술을 사용할 수 있게 될 것이라 예측했다.

“다 언어 이해기능이 점점 더 중요해지고 있다. 예를 들어 유럽에서 GPS 기술을 이용할 경우 독일인 운전자가 프랑스의 지명을 말해도 이를 이해할 수 있어야 하기 때문이다. 또 중국어의 경우 차용어가 많은데 이러한 차용어의 발음은 사실상 사람마다 다 다르게 한다”라고 그는 말했다.

음성인식 기술, ‘특이점’에 도달하다
이처럼 기술이 연간 20%의 속도로 발전하는 동안 주요 기업들도 딥러닝을 이용한 자신만의 음성 인식 엔진을 분주히 개발해왔다. 기술이 충분히 발전하여 자신감을 갖게 되자 처음에는 앱 형태의(애플의 시리나 MS의 코타나) 퍼스널 어시스턴트로써 선보였다. 그 다음에는 하나의 단독 디바이스로(알렉사에 기반한 아마존의 에코, 구글 어시스턴트에 기반한 구글 홈 등) 출시하기도 했다.

이들 시스템의 음성 인식은 대개 클라우드 상에서 이루어진다. 사용자가 “OK 구글”같은 명령어를 말하면 기기가 음성 인식 명령이 발화될 시점임을 인지하고 사용자의 목소리에 귀를 기울인다. 이후 기기는 자신이 받은 음성 데이터를 클라우드에 전달한다.

“기기 자체는 보면 알겠지만 매우 단촐하다. 유닉스 터미널처럼 말이다. 본격적인 연산, 처리는 클라우드에서 이루어진다. 기기가 하는 일은 사용자가 자신을 불렀을 때 이를 인식하고 음성 명령을 수용하는 것뿐이다”라고 마칙은 말했다.

음성 및 비전 테크놀로지 기업 센서리(Sensory)의 CEO 토드 모저는 “오랫동안 음성 인식은 컴퓨터 위주로 이뤄졌다. 그러나 지난 5~20년간 이 기술은 소비자 테크놀로지로 그 초점을 옮겨 왔다. 그 계기가 된 첫 번째 사건은 스티브 잡스가 시리를 통해 음성 인식 기술을 선보인 것이었다. 당시에는 애플이 내딛는 걸음 하나 하나가 전부 소비자 가전계에 있어서 혁신이자 성공의 보증수표였다. 두 번째 사건은 아마존에 에코와 같은 알렉사 기반 상품들을 내놓았을 때였다.”라고 말했다.

그는 이어 “1년 전 이 사업을 시작했을 때만 해도 시장에는 음성 인식이 가능한 기기가 수백만 대가 있었음에도 음성 인식 기술은 아마존 에코 밖에 없었다. 그러나 이제 올 해 안으로 에코의 경쟁사는 7개로 늘어나고, 사용중인 음성 인식 기기의 수는 무려 3,300만 대까지 증가할 것으로 예상된다. 음성인식 상호작용 역시 그 사용이 폭발적으로 증가하고 있다. 예전에는 이들 기기를 위한 음성 인식 앱을 만드는 사람 수가 300명 정도밖에 되지 않았다. 그렇지만 불과 1년 새에 그 수는 1만 6,000명까지 증가했다”라고 설명했다.

실제로 에코의 경쟁자로 구글 홈, (아직 출시 전인) 애플의 홈팟, 역시 출시 전이며 마이크로소프트의 코타나를 기반으로 구동될 하만/카돈 인보크(Invoke), 삼성 스마트폰에 사용된 삼성 빅스비, 그리고 여기에 최소 2개 이상의 중국 음성 인식 시스템 등이 등장했거나 등장할 예정이다.

고객과 대화하는 AI
좀더 주목할 만한 사실은 이들 벤더가 음성 인식 엔진을 이용해 자연어를 인터페이스로 사용하는 앱을 만들 수 있도록 하는 소프트웨어 개발 키트를 제공하고 있다는 사실이다.  
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.



2017.11.22

30년 잉태 후 만개··· 음성 인식, 또 다른 특이점으로 향한다

Lamont Wood | Computerworld
지난 30년 동안, 우리가 알던 음성 인식은 이런 거였다. 컴퓨터에 마이크폰을 통해 이야기를 하면 MS 윈도우나, 뉘앙스 커뮤니케이션스(Nuance Communications)의 드래곤 내추럴리스피킹(Dragon NaturallySpeaking) 앱이 이를 처리하는 식이다. 컴퓨터가 헷갈리지 않게 또박또박 발음을 하고 나면 내가 말한 것들이 스크린에 뜨거나, 명령어가 실행되기도 했다.

그러나 오늘날 음성 인식은 훨씬 더 발전한 형태로 널리 활용되고 있으며, 특히 지난 2년 동안 이 기술은 새로운 소비자 제품군을 탄생시켰다. 바로 음성 인식 개인 비서 기능이다.

보이스랩스(VoiceLabs)의 공동 창립자인 아담 마칙은 “마치 30년 동안의 잉태를 거쳐 하루 아침에 탄생한 아이와도 같다. 이제 음성 인식 기술은 정말로 대화를 나눌 수 있을 정도로 정교해졌다”라고 말했다. 보이스랩스는 음성 앱 개발자들에 애널리틱스 서비스를 제공하고 있다.

테크놀로지 분야의 성과들이 으레 그렇듯, 음성 인식 기술 분야의 발전 역시 숫자로 표현될 수 있다. 2017년 8월, 마이크로소프트는 자사의 대화형 음성 인식 시스템이 갖춘 단어 인식 정확도가 인간 서기를 추월했다고 발표했다. 업계 표준 테스트에서 도출된 결과라는 설명이다. 이 테스트에서 전문 서기의 단어 오류율은 5.9%였는데, 마이크로소프트 시스템은 5.1%를 기록됐다.

마이크로소프트사의 기술팀 펠로우이자 음성 인식 및 언어 그룹 대표인 수에동 “X.D.” 후앙은 “꿈이 현실이 된 것이다. 1993년 MS사가 처음 음성 인식 기술 개발에 착수했을 때만 해도, 이 오류율은 80%에 육박했다. 또 내가 대학원에서 음성 인식 기술 개발을 연구하던 1982년까지 거슬러 올라가면, 당시에는 그저 단어 하나하나를 인식하는 데에만 신경 썼을 뿐이었다. (소프트웨어가) 사람만큼의 정확도로 대화 전체를 인식할 수 있을 거라는 것은 상상조차 하지 못했다”라고 말했다.

뉘앙스 사의 CTO 블라드 세노하는 “이제 조용한 사무실에 앉아 악센트 없이 이야기 할 경우 거의 100%에 가까운 음성 인식 정확도를 보장할 수 있다”라고 전했다.

이렇듯 음성 인식 정확도가 높아지면서 앞으로는 휴대폰에 음성 명령을 내리거나, 고객 서비스 센터에 전화해 로봇 직원과 어려움 없이 이야기할 수 있게 될 것이다. 무엇보다 집이나 사무실에서도 음성 명령을 통해 업무를 처리하는 일이 늘어날 것이다.



느리지만 꾸준히 밟아온 길
그러나 음성 인식 기술은 이 단계에 도달하기까지 아주 느리고 긴 걸음을 걸어 왔다. 세노하는 다음과 같이 설명했다.

“15~20년 동안 우리가 사용했던 기술은 마코브 모델(Markov model) 등 통계적인 것들이었다. 우리는 여러 가지 모델을 통해 어떤 한 조각의 정보가 특정 음소를 나타낼 확률이나, 특정 단어가 어떤 문맥에서 나타날 확률을 계산하려 했다. 무수한 경우의 수를 계산해야 했고, 이 과정을 통해 아주 천천히 발전을 이루어냈다.”

“근래 들어서는 이러한 전통적인 통계식 방법이 딥러닝 및 신경망 학습 모델로 대체되고 있다. 새로운 모델은 이전 모델보다 훨씬 유연할 뿐 아니라 더욱 빠른 속도로 음성 인식 기술의 발전에 박차를 가하고 있다. 그 결과 지난 10년 동안 한 해에 오류율이 평균 20%씩 떨어지기도 했다.”

그는 이제 음성 인식이 소수의 사람들만이 사용하는 것이 아니라, 보다 일반적인 환경에서 다양한 사람들에 의해 사용되고 있다고 진단했다. 물론 아직도칵테일 파티 등에서는 폰에다 대고 소리를 쳐야 하는 상황이 오기도 한다. 아직까지 특정 환경 조건에서는 음성 인식이 제대로 동작하지 않는다는 뜻이다.

그는 앞으로도 연간 20% 정도의 기술 발전 속도가 계속될 것이라고 예측하며, 이제는 시끄러운 환경에서뿐 아니라 보다 특수한 경우에도 이 기술을 사용할 수 있게 될 것이라 예측했다.

“다 언어 이해기능이 점점 더 중요해지고 있다. 예를 들어 유럽에서 GPS 기술을 이용할 경우 독일인 운전자가 프랑스의 지명을 말해도 이를 이해할 수 있어야 하기 때문이다. 또 중국어의 경우 차용어가 많은데 이러한 차용어의 발음은 사실상 사람마다 다 다르게 한다”라고 그는 말했다.

음성인식 기술, ‘특이점’에 도달하다
이처럼 기술이 연간 20%의 속도로 발전하는 동안 주요 기업들도 딥러닝을 이용한 자신만의 음성 인식 엔진을 분주히 개발해왔다. 기술이 충분히 발전하여 자신감을 갖게 되자 처음에는 앱 형태의(애플의 시리나 MS의 코타나) 퍼스널 어시스턴트로써 선보였다. 그 다음에는 하나의 단독 디바이스로(알렉사에 기반한 아마존의 에코, 구글 어시스턴트에 기반한 구글 홈 등) 출시하기도 했다.

이들 시스템의 음성 인식은 대개 클라우드 상에서 이루어진다. 사용자가 “OK 구글”같은 명령어를 말하면 기기가 음성 인식 명령이 발화될 시점임을 인지하고 사용자의 목소리에 귀를 기울인다. 이후 기기는 자신이 받은 음성 데이터를 클라우드에 전달한다.

“기기 자체는 보면 알겠지만 매우 단촐하다. 유닉스 터미널처럼 말이다. 본격적인 연산, 처리는 클라우드에서 이루어진다. 기기가 하는 일은 사용자가 자신을 불렀을 때 이를 인식하고 음성 명령을 수용하는 것뿐이다”라고 마칙은 말했다.

음성 및 비전 테크놀로지 기업 센서리(Sensory)의 CEO 토드 모저는 “오랫동안 음성 인식은 컴퓨터 위주로 이뤄졌다. 그러나 지난 5~20년간 이 기술은 소비자 테크놀로지로 그 초점을 옮겨 왔다. 그 계기가 된 첫 번째 사건은 스티브 잡스가 시리를 통해 음성 인식 기술을 선보인 것이었다. 당시에는 애플이 내딛는 걸음 하나 하나가 전부 소비자 가전계에 있어서 혁신이자 성공의 보증수표였다. 두 번째 사건은 아마존에 에코와 같은 알렉사 기반 상품들을 내놓았을 때였다.”라고 말했다.

그는 이어 “1년 전 이 사업을 시작했을 때만 해도 시장에는 음성 인식이 가능한 기기가 수백만 대가 있었음에도 음성 인식 기술은 아마존 에코 밖에 없었다. 그러나 이제 올 해 안으로 에코의 경쟁사는 7개로 늘어나고, 사용중인 음성 인식 기기의 수는 무려 3,300만 대까지 증가할 것으로 예상된다. 음성인식 상호작용 역시 그 사용이 폭발적으로 증가하고 있다. 예전에는 이들 기기를 위한 음성 인식 앱을 만드는 사람 수가 300명 정도밖에 되지 않았다. 그렇지만 불과 1년 새에 그 수는 1만 6,000명까지 증가했다”라고 설명했다.

실제로 에코의 경쟁자로 구글 홈, (아직 출시 전인) 애플의 홈팟, 역시 출시 전이며 마이크로소프트의 코타나를 기반으로 구동될 하만/카돈 인보크(Invoke), 삼성 스마트폰에 사용된 삼성 빅스비, 그리고 여기에 최소 2개 이상의 중국 음성 인식 시스템 등이 등장했거나 등장할 예정이다.

고객과 대화하는 AI
좀더 주목할 만한 사실은 이들 벤더가 음성 인식 엔진을 이용해 자연어를 인터페이스로 사용하는 앱을 만들 수 있도록 하는 소프트웨어 개발 키트를 제공하고 있다는 사실이다.  
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.

X