Offcanvas

모바일

“시리가 완성되기까지” 음성인식기술의 변천사

2011.11.04 Melanie Pinola   |  InfoWorld
1980년대 : 음성인식이 예측으로 방향을 바꾸다
사람들이 무엇을 말하는지 이해하는 것에 대한 새로운 접근방식 덕분에 그 후 10년간 음성인식의 어휘는 수백 단어에서 수천 단어 수준으로 급격히 증가했으며 무제한에 가까운 어휘를 인식할 수 있는 잠재력을 갖게 되었다. 그 이유 중 하나는 은닉 마르코프 모델(Hidden Markov Model, 이하 HMM)로 알려진 새로운 통계방식이었다.
 
HMM은 단순하게 단어에 관한 견본을 이용하고 소리의 패턴을 찾기 보다는 알려지지 않은 소리가 단어가 될 수 있는 가능성을 고려했다. 이 기반은 향후 20년간 유지된다. 이런 확대된 어휘를 기반으로 음성인식은 기업과 전문 산업(의료 등)을 위한 상용 애플리케이션에 적용되기 시작했다. 심지어 가정에서 이상한 나라의 쥴리 인형(Worlds of Wonder's Julie doll-1987)을 이용해 아이들이 자신의 음성에 대답하는 훈련을 할 수 있는 형태로 적용되기도 하였다. ("궁극적으로 나를 이해하는 인형")
 
 
1985년의 커즈웨일(Kurzweil) 텍스트 투 스피치(Text-to-Speech) 프로그램은 1,000개의 단어를 인식하고 5,000단어의 어휘를 지원했으며 IBM의 시스템도 유사한 기능을 갖고 있었지만 아직 중요한 장애물이 남아 있었다. 이런 프로그램들은 단어 별로 받아쓰기가 가능했기 때문에 사용자는 각... 단어를... 구분해서... 말해야... 했다.
 
1990년대 : 자동 음성인식 기술의 호황
90년대에는 컴퓨터에 더 빨라진 프로세서가 장착되었고 일반인들도 음성인식 소프트웨어를 접할 수 있게 되었다.
 
1990년 드래곤(Dragon)은 최초의 소비자용 음성인식 제품인 드래곤 딕테이트(Dragon Dictate)를 놀라운 가격인 9,000달러에 출시했다. 그리고 7년 후 이보다 훨씬 발전한 드래곤 내추럴리스피킹(Dragon NaturallySpeaking) 이 출시된다. 이 애플리케이션은 연속적인 발화를 인식할 수 있었기 때문에 사용자는 분당 100단어의 속도로 다소 자연스럽게 발화할 수 있었다. 하지만 사용자는 45분간 프로그램을 훈련시켜야 했으며 가격은 여전히 비싼 695달러였다.
 
벨사우스(BellSouth)의 최초의 음성포탈 VAL은 1996년에 출현했다. VAL은 다이얼인(Dial-In) 방식의 음성인식 시스템으로 수화기에 대고 말한 내용을 기반으로 정보를 제공하였다. VAL은 그 후 15년 이상 사용된 정확성이 떨어지는 음성활성 메뉴의 기틀을 마련했다.
 
2000년대 : 음성인식 기술의 정체기 - 구글이 등장하기 까지
2001년까지 음성인식 기술의 정확성은 80% 수준에 머무르고 있었으며 기술의 발전은 10년 가까이 정체되어 있었다. 인식 시스템은 언어 경험(Language Universe)가 제한적일 때 제 기능을 발휘하기는 했지만 여전히 통계 모델을 기반으로 소리가 비슷한 단어를 "추측"했으며 인터넷이 발달하면서 언어 경험도 성장하게 되었다.
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.