2012.12.13

음성 인식이 언젠가는 사무실을 점령하게 될 이유

John Brandon | Computerworld
당신은 아침에 출근해서 책상 앞에 앉았다. PC에 음성 명령을 내리고, 이메일을 읽어달라고 하고, 상사에게 보낼 메모를 적으라고 하는 대신, 손으로 직접 타자를 치고 클릭한다. 음성 기술이 우리의 시간을 절약하고 생산성을 증대시켜줄 수 있는 충분한 사무실 환경에서도 우리 대부분은 여전히 키보드와 마우스안에 갇혀있다.
 
하지만 우리가 사무실 밖에 나오게 되면, 스마트폰에 우리가 음성 전화걸기 명령, 음성 구글 검색 명령, 시리(Siri)에게 오늘 날씨를 묻는 것 등의 음성명령을 내리는 것에 대해 별달리 이상하게 생각하지 않는다. 
 
오푸스 리서치(Opus Research)의 창업자이자 수석 애널리스트인 댄 밀러는 음성 인식 기술을 제공하는 회사들은 자연어 명령어를 이해할 수 있는 애플의 시리나 구글의 안드로이드에서 사용 가능한 보이스 액션(Google Voice Actions)같은 “개인 디지털 비서”의 개념에 많은 자금을 투자하고 있다고 이야기한다. 사실, 최근 클라우드 기반 자연어 검색이 모바일 기기상에서 가능해짐으로써 음성 인식 기술이 돌파구를 찾게 되었다고 그는 말한다.
 
음성 툴이 이제 이용자들에게 우리의 삶에 있어서 전화기와 태블릿만큼이나 더 가까이 다가왔고, 대부분이 즉각적인 프로세싱과 지속적인 언어 데이터베이스 확장을 계속하는 클라우드상에서 구현된다는 부분이 바로 주요 발전부분이다. 이전의 데스크톱 기반 소프트웨어와 달리, 이런 새로운 툴은 알고리즘상 음성 인식률을 높이기 위한 특별한 말하기 훈련이 필요없다. 우리가 말할 때 그다지 엄밀하게 규칙에 따라야 할 필요가 없는 것이다. 
 
물론, 오늘날의 음성 인식 기술은 완벽과는 거리가 멀다. 모바일 기기상이라 할지라도, 모든이들이 음성 인식 소프트웨어를 문제없이 이용할 수 있는 건 아니다. 그리고 “미팅에 늦을 것 같다고 상사에게 알려줘”같은 많은 자연어 문장들은 여전히 가장 똑똑한 음성 제어 시스켐이라 할지라도 이해하기가 어렵다. 뉘앙스(Nuance), 마이크로소프트, 애플 같은 회사들은 언어 인식 제품들을 위한 광대한 언어 데이터베이스를 구축했지만, 오늘날까지 그 소프트웨어는 종종 소고기로 만든 “햄버거(hamburger)”와 독일의 도시명인 “함부르크(Hamburg)”사이의 차이점을 찾아내는데 어려움이 있다.
 
밀러는 클라우드상에서 작동하는 인공 지능에 대한 필요성이 커지고 있으며, 여기에 가까이다가서고 있다고 말한다. “모든 단계마다 어려움이 있지만, 언제나 절대로 완벽할수는 없지만, 진보는 여전히 진행 중이다”라고 덧붙였다.
 
지금까지 계속 향상되어온 결과물들이 모바일 기기상에서 음성 제어 채택을 주도하고 있지만, 음성 인식 기술은 직장내에서는 별다른 영향을 미치지 못하고 있다. 미국의 어느 회사 사무실에 가봐도, 직원이 음성 명령을 내리는 광경을 목격하기란 쉽지 않다. 이번 기사에서, 우리는 무엇이 그런 결과를 낳았는지를 탐구해보고, 음성 기술이 책상 위 업무는 물론 사무실 전반에서 직원들에게 혜택을 줄 수 있는 방법들을 모색해볼 것이다.
 
워크스테이션에서의 음성 명령
시각장애인들이나 손목 수근관 증후군같은 반복적인 스트레스로 고통 받는 이들에게, 컴퓨터를 음성으로 제어하여 인터페이스와 애플리케이션을 넘나들고, 검색을 수행하고, 장문의 이메일과 사업 문서들을 받아쓰게 하는 것은 상당한 도움이 될 것이다. 이에 해당하지 않는 다른 이용자들, 특히 타자가 느린 이들, 모바일 이용자들, 회의 기록을 원하는 회의 참석자들에게도 이는 유용하게 쓰일 수 있다.
 
밀러에 의하면 그 기술은 사용 가능하다. 기본적인 음성 제어 옵션은 맥 OS X와 윈도우에 이미 여러 해 전부터 내장되어 있었고, 올 여름 애플은 OS X 마운틴 라이온(Mountain Lion) 판에 스피치 투 텍스트(speech-to-text) 받아쓰기 기능을 추가했다. 지난해 구글은 모바일 기기에서 처음 모습을 선보인 음성 검색을 데스크톱과 노트북의 크롬 브라우저에도 들여왔다.
 
좀 더 발전된 받아쓰기와 PC 제어 기능을 찾는다면, 지난 몇 년간 지속적으로 향상된 뉘앙스의 드래곤 내츄럴리스피킹(Dragon NaturallySpeaking)같은 전용 음성 인식 소프트웨어를 사용하면 된다. 컴퓨터월드의 자문위원 라몬트 우드의 테스트에서, 내츄럴리스피킹 프리미엄(Premium)의 최신 버전은 음성을 문자로 변환하는데 99% 이상의 정확도를 기록했다.
 
우드는 자신의 경험상 말로 작성하는 것이 타자치는 것보다 두 배정도 빠르다고 이야기한다; 이용자들마다 그들의 타자 속도나 음성 소프트웨어와 이용의 익숙함에 따라 결과에 차이가 있을 것이다. 우드는 또한 최신 노이즈 캔슬링 헤드셋을 이용하면 이전까지 종종 문제가 되어온 배경의 잡음으로 인한 소프트웨어의 인식 오류를 막을 수 있다고 강조했다.
 
그러면 왜 우리들은 아직도 컴퓨터에 말을 하지 않을까? 밀러는 그 이유가 사람들이 너무 남의 시선을 의식하기 때문이라 말한다. “누구나 그들의 생각과 말을 밖으로 꺼내놓는걸 편안하게 여기지는 않는데, 특히 몇 명 모여있지 않은 사무실같은 환경에서는 더욱 그렇다.”
 
그럼에도 불구하고, 그는 모바일 음성 검색이 음성 인식 기술을 더욱 일반인들의 구미에 맞추는데 도움을 준다고 생각한다. 최근 조사를 보면, 응답자의 11%가 시리를 사용하여 음성 검색을 하는 것을 편안하게 생각한다고 그는 이야기한다. 많은 수는 아니지만, 사용자 채택과 편안함의 수준이 점차 늘어가면서, 음성 앱을 사무실에서 사용하는 일이 많은이들에게 현실화되는 모습을 보게 될 것이다. 이는 또한 사람들이 기술을 집 혹은 개인 용도로 사용하다가 직장에서까지 사용을 넓히는 트렌드와도 부합한다.
 
그런 용도 이외에도, 개발자들은 음성인식을 새로운 영역, 특히 게임과 오락 (예를 들어, Xbox 영화에서부터) 등에 실험하고 있다. 어쩌면 음성 명령이 어디에서든 자연스럽게 받아들여지건 오직 시간문제일지도 모른다. 밀러는 “사람들은 곧 CAD 소프트웨어, PC, 그리고 기타 개인 기기들과 생산성 툴에서도 동등한 제어수준을 보게 될 것이다”라고 말했다. 
 
흥미로운 점은, 음성인식 하드웨어가 이미 사무실에 충분히 존재하고 있다는 점이라고 그는 지적한다. 모든 신형 노트북에는 이미 웹캠과 고품질 마이크와 함께 화상회의 기능이 탑재되어있을 것이다. 그리고 많은 회사들의 컨퍼런스룸에는 세련된 마이크가 설치되어 있는데, 신형 모델들은 심지어 말하는 사람의 음성만 집중하고 배경 잡음을 줄여주기까지 한다고 이야기한다.
 



2012.12.13

음성 인식이 언젠가는 사무실을 점령하게 될 이유

John Brandon | Computerworld
당신은 아침에 출근해서 책상 앞에 앉았다. PC에 음성 명령을 내리고, 이메일을 읽어달라고 하고, 상사에게 보낼 메모를 적으라고 하는 대신, 손으로 직접 타자를 치고 클릭한다. 음성 기술이 우리의 시간을 절약하고 생산성을 증대시켜줄 수 있는 충분한 사무실 환경에서도 우리 대부분은 여전히 키보드와 마우스안에 갇혀있다.
 
하지만 우리가 사무실 밖에 나오게 되면, 스마트폰에 우리가 음성 전화걸기 명령, 음성 구글 검색 명령, 시리(Siri)에게 오늘 날씨를 묻는 것 등의 음성명령을 내리는 것에 대해 별달리 이상하게 생각하지 않는다. 
 
오푸스 리서치(Opus Research)의 창업자이자 수석 애널리스트인 댄 밀러는 음성 인식 기술을 제공하는 회사들은 자연어 명령어를 이해할 수 있는 애플의 시리나 구글의 안드로이드에서 사용 가능한 보이스 액션(Google Voice Actions)같은 “개인 디지털 비서”의 개념에 많은 자금을 투자하고 있다고 이야기한다. 사실, 최근 클라우드 기반 자연어 검색이 모바일 기기상에서 가능해짐으로써 음성 인식 기술이 돌파구를 찾게 되었다고 그는 말한다.
 
음성 툴이 이제 이용자들에게 우리의 삶에 있어서 전화기와 태블릿만큼이나 더 가까이 다가왔고, 대부분이 즉각적인 프로세싱과 지속적인 언어 데이터베이스 확장을 계속하는 클라우드상에서 구현된다는 부분이 바로 주요 발전부분이다. 이전의 데스크톱 기반 소프트웨어와 달리, 이런 새로운 툴은 알고리즘상 음성 인식률을 높이기 위한 특별한 말하기 훈련이 필요없다. 우리가 말할 때 그다지 엄밀하게 규칙에 따라야 할 필요가 없는 것이다. 
 
물론, 오늘날의 음성 인식 기술은 완벽과는 거리가 멀다. 모바일 기기상이라 할지라도, 모든이들이 음성 인식 소프트웨어를 문제없이 이용할 수 있는 건 아니다. 그리고 “미팅에 늦을 것 같다고 상사에게 알려줘”같은 많은 자연어 문장들은 여전히 가장 똑똑한 음성 제어 시스켐이라 할지라도 이해하기가 어렵다. 뉘앙스(Nuance), 마이크로소프트, 애플 같은 회사들은 언어 인식 제품들을 위한 광대한 언어 데이터베이스를 구축했지만, 오늘날까지 그 소프트웨어는 종종 소고기로 만든 “햄버거(hamburger)”와 독일의 도시명인 “함부르크(Hamburg)”사이의 차이점을 찾아내는데 어려움이 있다.
 
밀러는 클라우드상에서 작동하는 인공 지능에 대한 필요성이 커지고 있으며, 여기에 가까이다가서고 있다고 말한다. “모든 단계마다 어려움이 있지만, 언제나 절대로 완벽할수는 없지만, 진보는 여전히 진행 중이다”라고 덧붙였다.
 
지금까지 계속 향상되어온 결과물들이 모바일 기기상에서 음성 제어 채택을 주도하고 있지만, 음성 인식 기술은 직장내에서는 별다른 영향을 미치지 못하고 있다. 미국의 어느 회사 사무실에 가봐도, 직원이 음성 명령을 내리는 광경을 목격하기란 쉽지 않다. 이번 기사에서, 우리는 무엇이 그런 결과를 낳았는지를 탐구해보고, 음성 기술이 책상 위 업무는 물론 사무실 전반에서 직원들에게 혜택을 줄 수 있는 방법들을 모색해볼 것이다.
 
워크스테이션에서의 음성 명령
시각장애인들이나 손목 수근관 증후군같은 반복적인 스트레스로 고통 받는 이들에게, 컴퓨터를 음성으로 제어하여 인터페이스와 애플리케이션을 넘나들고, 검색을 수행하고, 장문의 이메일과 사업 문서들을 받아쓰게 하는 것은 상당한 도움이 될 것이다. 이에 해당하지 않는 다른 이용자들, 특히 타자가 느린 이들, 모바일 이용자들, 회의 기록을 원하는 회의 참석자들에게도 이는 유용하게 쓰일 수 있다.
 
밀러에 의하면 그 기술은 사용 가능하다. 기본적인 음성 제어 옵션은 맥 OS X와 윈도우에 이미 여러 해 전부터 내장되어 있었고, 올 여름 애플은 OS X 마운틴 라이온(Mountain Lion) 판에 스피치 투 텍스트(speech-to-text) 받아쓰기 기능을 추가했다. 지난해 구글은 모바일 기기에서 처음 모습을 선보인 음성 검색을 데스크톱과 노트북의 크롬 브라우저에도 들여왔다.
 
좀 더 발전된 받아쓰기와 PC 제어 기능을 찾는다면, 지난 몇 년간 지속적으로 향상된 뉘앙스의 드래곤 내츄럴리스피킹(Dragon NaturallySpeaking)같은 전용 음성 인식 소프트웨어를 사용하면 된다. 컴퓨터월드의 자문위원 라몬트 우드의 테스트에서, 내츄럴리스피킹 프리미엄(Premium)의 최신 버전은 음성을 문자로 변환하는데 99% 이상의 정확도를 기록했다.
 
우드는 자신의 경험상 말로 작성하는 것이 타자치는 것보다 두 배정도 빠르다고 이야기한다; 이용자들마다 그들의 타자 속도나 음성 소프트웨어와 이용의 익숙함에 따라 결과에 차이가 있을 것이다. 우드는 또한 최신 노이즈 캔슬링 헤드셋을 이용하면 이전까지 종종 문제가 되어온 배경의 잡음으로 인한 소프트웨어의 인식 오류를 막을 수 있다고 강조했다.
 
그러면 왜 우리들은 아직도 컴퓨터에 말을 하지 않을까? 밀러는 그 이유가 사람들이 너무 남의 시선을 의식하기 때문이라 말한다. “누구나 그들의 생각과 말을 밖으로 꺼내놓는걸 편안하게 여기지는 않는데, 특히 몇 명 모여있지 않은 사무실같은 환경에서는 더욱 그렇다.”
 
그럼에도 불구하고, 그는 모바일 음성 검색이 음성 인식 기술을 더욱 일반인들의 구미에 맞추는데 도움을 준다고 생각한다. 최근 조사를 보면, 응답자의 11%가 시리를 사용하여 음성 검색을 하는 것을 편안하게 생각한다고 그는 이야기한다. 많은 수는 아니지만, 사용자 채택과 편안함의 수준이 점차 늘어가면서, 음성 앱을 사무실에서 사용하는 일이 많은이들에게 현실화되는 모습을 보게 될 것이다. 이는 또한 사람들이 기술을 집 혹은 개인 용도로 사용하다가 직장에서까지 사용을 넓히는 트렌드와도 부합한다.
 
그런 용도 이외에도, 개발자들은 음성인식을 새로운 영역, 특히 게임과 오락 (예를 들어, Xbox 영화에서부터) 등에 실험하고 있다. 어쩌면 음성 명령이 어디에서든 자연스럽게 받아들여지건 오직 시간문제일지도 모른다. 밀러는 “사람들은 곧 CAD 소프트웨어, PC, 그리고 기타 개인 기기들과 생산성 툴에서도 동등한 제어수준을 보게 될 것이다”라고 말했다. 
 
흥미로운 점은, 음성인식 하드웨어가 이미 사무실에 충분히 존재하고 있다는 점이라고 그는 지적한다. 모든 신형 노트북에는 이미 웹캠과 고품질 마이크와 함께 화상회의 기능이 탑재되어있을 것이다. 그리고 많은 회사들의 컨퍼런스룸에는 세련된 마이크가 설치되어 있는데, 신형 모델들은 심지어 말하는 사람의 음성만 집중하고 배경 잡음을 줄여주기까지 한다고 이야기한다.
 

X