2017.11.21

키보드는 잊자··· '인공지능+웨어러블'로 진화하는 입력 장치

Glenn McDonald | Computerworld
컴퓨터가 처음 발명된 그 순간부터 우리는 기계와 커뮤니케이션 하는 다양한 방식을 시도해 왔다. 키보드, 마우스처럼 전통적인 인풋 장치가 오랜 시간 우리에게 익숙해져 있기는 하지만, 오늘날 모바일 기기를 장악하고 있는 것은 다름 아닌 터치스크린이며 그 외에도 다양한 입력 기술이 새롭게 등장해 발전하고 있다. 익숙한 마우스, 터치패드의 감촉을 느끼며 미래 입력 장치들은 어떤 모습일지 찬찬히 읽어나가 보자.

음성 인식
최근에 애플의 시리나 마이크로소프트의 코타나, 또는 구글의 어시스턴트(‘오케이 구글’)를 사용해 본 적이 있다면, 짧은 시간 안에 음성 인식 기술이 눈에 띄게 발전했음을 알 수 있을 것이다. 심지어 고객 서비스 전화의 자동 응답 메시지조차 예전보다 훨씬 친절하고 효율적으로 바뀐 것 같다. 과연 어떻게 이것이 가능해졌을까?

간단히 말해 인공지능의 힘이다. 음성 인식 전용 머신러닝 시스템이 지속해서 (대화 및 발화로부터 얻어낸) 막대한 양의 데이터를 소화해 그 속에서 패턴을 찾아냈기 때문이다. 구글, 애플 등 음성인식 분야의 거물들이라 할 수 있는 기업들도 AI가 수년간 쌓인 음성 녹음 데이터를 뒤지고 분석하여 발화자가 어떤 말을 하고자 하는지 정확히 예측하는 알고리즘을 완성해 냈다. 이메일이나 문자 앱의 자동완성 기능과 비슷한 방식이다.

이러한 인공지능 알고리즘이 마이크 기술의 발전과 만나면서 효율적이고도 정확한 음성 인식 기술을 실현해 낸 것이다. 앞으로 몇 년 뒤면 이러한 시스템이 우리와 컴퓨터 간 커뮤니케이션 방식을 완전히 장악하게 될 것이다. 스마트폰 음성인식 기술이나 아마존 에코, 애플의 홈팟 같은 테이블용 스마트 스피커는 그 시작일 뿐이다.

음성 인식, 더 효율적이라는 증거는?
낙관적인 전망만 하지 말고 증거를 보여달라고 말하고 싶은 독자들이 있을 것 같다. 공교롭게도 최근 스탠퍼드대학교에서 음성 인식과 스마트폰 타이핑 간 효율성 정도를 비교한 연구 결과를 내놓았기에 살펴보고자 한다.

연구팀은 애플 스마트폰과 바이두의 딥 스피치 2(Deep Speech 2) 엔진(딥 스피치 2는 다수의 상업용 음성인식 앱을 기저에서 구동하고 있다)을 사용하여 실험한 결과 음성 인식 사용자는 스마트폰 사용자보다 문자나 이메일을 보낼 때 평균적으로 3배 가까이 빠른 속도를 보였다. 그 뿐만 아니라 오타율 역시 음성 인식 사용 시 2.93%, 키보드 사용 시 3.68%로 더 낮았다. 즉 음성 인식이 타이핑보다 훨씬 빠를 뿐 아니라 정확하기까지 하다는 증거를 보여준 것이다. (이 연구팀은 중국어로도 같은 실험을 하였는데 여기에서도 음성 인식이 2.8배 빨랐고, 오타율은 일반 키보드가 20.54%인 것에 반해 7.51%로 낮게 나왔다.)

단, 이러한 실험 결과는 어디까지나 터치스크린 키보드와 비교한 것이지 컴퓨터의 쿼티 자판과 비교한 것은 아니다. 스탠퍼드대학에서 실험 대상으로 스마트폰을 선택한 것은 향후 음성 인식 기술이 만연할 가능성이 가장 높은 경로가 바로 스마트폰을 통해서이기 때문이었다.

동작 인식


수백만 년에 이르는 긴 세월 진화해 오면서, 인류는 다양한 언어를 통해 서로 커뮤니케이션 하는 방식을 더욱 정교하고 세련되게 발전시켜 왔다. 바디 랭귀지도 그러한 언어 중 하나이다. 동작 인식 시스템은 이러한 바디 랭귀지 사용을 데이터 입력 장치로 활용하고자 하는 시도다. 음성 인식이 가장 자연스러운 인풋 방식이라고 한다면, 동작 인식은 아마 음성인식 다음으로 자연스러운 방식일 것이다.

전 세계적으로 수백 개 기업, 연구소에서 동작 인식 시스템 개발에 몰두하고 있지만, 흥미롭게도 가장 선두에 선 것은 자동차 산업이다. BMW 7 시리즈 같은 첨단기술 초호화 상품들은 손동작만으로 라디오, 대시보드 등을 조작할 수 있다.

일터에서는 립 모션(Leap Motion) 컨트롤러와 같은 주변 기기들을 통해 동작 인식의 가까운 미래를 엿볼 수 있다. 적외선 카메라 및 센서를 이용한 립 모션 시스템은 정해진 구역 내에서 사용자의 손 및 손가락 움직임을 추적하며, 사용 중인 소프트웨어에 따라 명령어를 입력한다. 기업들에서 립 모션 시스템이 사용된 것은 벌써 몇 년 되었으며 개발자들의 경우 특히 이 기술을 가상 현실 애플리케이션(이를테면 가상 조각 활동 앱) 등 여러 가지 흥미로운 목적으로 사용하고 있다.

CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.



2017.11.21

키보드는 잊자··· '인공지능+웨어러블'로 진화하는 입력 장치

Glenn McDonald | Computerworld
컴퓨터가 처음 발명된 그 순간부터 우리는 기계와 커뮤니케이션 하는 다양한 방식을 시도해 왔다. 키보드, 마우스처럼 전통적인 인풋 장치가 오랜 시간 우리에게 익숙해져 있기는 하지만, 오늘날 모바일 기기를 장악하고 있는 것은 다름 아닌 터치스크린이며 그 외에도 다양한 입력 기술이 새롭게 등장해 발전하고 있다. 익숙한 마우스, 터치패드의 감촉을 느끼며 미래 입력 장치들은 어떤 모습일지 찬찬히 읽어나가 보자.

음성 인식
최근에 애플의 시리나 마이크로소프트의 코타나, 또는 구글의 어시스턴트(‘오케이 구글’)를 사용해 본 적이 있다면, 짧은 시간 안에 음성 인식 기술이 눈에 띄게 발전했음을 알 수 있을 것이다. 심지어 고객 서비스 전화의 자동 응답 메시지조차 예전보다 훨씬 친절하고 효율적으로 바뀐 것 같다. 과연 어떻게 이것이 가능해졌을까?

간단히 말해 인공지능의 힘이다. 음성 인식 전용 머신러닝 시스템이 지속해서 (대화 및 발화로부터 얻어낸) 막대한 양의 데이터를 소화해 그 속에서 패턴을 찾아냈기 때문이다. 구글, 애플 등 음성인식 분야의 거물들이라 할 수 있는 기업들도 AI가 수년간 쌓인 음성 녹음 데이터를 뒤지고 분석하여 발화자가 어떤 말을 하고자 하는지 정확히 예측하는 알고리즘을 완성해 냈다. 이메일이나 문자 앱의 자동완성 기능과 비슷한 방식이다.

이러한 인공지능 알고리즘이 마이크 기술의 발전과 만나면서 효율적이고도 정확한 음성 인식 기술을 실현해 낸 것이다. 앞으로 몇 년 뒤면 이러한 시스템이 우리와 컴퓨터 간 커뮤니케이션 방식을 완전히 장악하게 될 것이다. 스마트폰 음성인식 기술이나 아마존 에코, 애플의 홈팟 같은 테이블용 스마트 스피커는 그 시작일 뿐이다.

음성 인식, 더 효율적이라는 증거는?
낙관적인 전망만 하지 말고 증거를 보여달라고 말하고 싶은 독자들이 있을 것 같다. 공교롭게도 최근 스탠퍼드대학교에서 음성 인식과 스마트폰 타이핑 간 효율성 정도를 비교한 연구 결과를 내놓았기에 살펴보고자 한다.

연구팀은 애플 스마트폰과 바이두의 딥 스피치 2(Deep Speech 2) 엔진(딥 스피치 2는 다수의 상업용 음성인식 앱을 기저에서 구동하고 있다)을 사용하여 실험한 결과 음성 인식 사용자는 스마트폰 사용자보다 문자나 이메일을 보낼 때 평균적으로 3배 가까이 빠른 속도를 보였다. 그 뿐만 아니라 오타율 역시 음성 인식 사용 시 2.93%, 키보드 사용 시 3.68%로 더 낮았다. 즉 음성 인식이 타이핑보다 훨씬 빠를 뿐 아니라 정확하기까지 하다는 증거를 보여준 것이다. (이 연구팀은 중국어로도 같은 실험을 하였는데 여기에서도 음성 인식이 2.8배 빨랐고, 오타율은 일반 키보드가 20.54%인 것에 반해 7.51%로 낮게 나왔다.)

단, 이러한 실험 결과는 어디까지나 터치스크린 키보드와 비교한 것이지 컴퓨터의 쿼티 자판과 비교한 것은 아니다. 스탠퍼드대학에서 실험 대상으로 스마트폰을 선택한 것은 향후 음성 인식 기술이 만연할 가능성이 가장 높은 경로가 바로 스마트폰을 통해서이기 때문이었다.

동작 인식


수백만 년에 이르는 긴 세월 진화해 오면서, 인류는 다양한 언어를 통해 서로 커뮤니케이션 하는 방식을 더욱 정교하고 세련되게 발전시켜 왔다. 바디 랭귀지도 그러한 언어 중 하나이다. 동작 인식 시스템은 이러한 바디 랭귀지 사용을 데이터 입력 장치로 활용하고자 하는 시도다. 음성 인식이 가장 자연스러운 인풋 방식이라고 한다면, 동작 인식은 아마 음성인식 다음으로 자연스러운 방식일 것이다.

전 세계적으로 수백 개 기업, 연구소에서 동작 인식 시스템 개발에 몰두하고 있지만, 흥미롭게도 가장 선두에 선 것은 자동차 산업이다. BMW 7 시리즈 같은 첨단기술 초호화 상품들은 손동작만으로 라디오, 대시보드 등을 조작할 수 있다.

일터에서는 립 모션(Leap Motion) 컨트롤러와 같은 주변 기기들을 통해 동작 인식의 가까운 미래를 엿볼 수 있다. 적외선 카메라 및 센서를 이용한 립 모션 시스템은 정해진 구역 내에서 사용자의 손 및 손가락 움직임을 추적하며, 사용 중인 소프트웨어에 따라 명령어를 입력한다. 기업들에서 립 모션 시스템이 사용된 것은 벌써 몇 년 되었으며 개발자들의 경우 특히 이 기술을 가상 현실 애플리케이션(이를테면 가상 조각 활동 앱) 등 여러 가지 흥미로운 목적으로 사용하고 있다.

CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.

X