2018.08.06

칼럼 | 음성인식에 대한 과소평가를 거둬들일 때

Mike Elgan | Computerworld
음성인식 기술(voice-enabled technologies)을 둘러싼 기업에 인식에는 거대한 공백이 존재한다. 구체적으로는 이 기술에 대해 알고 있는 것과, 이 기술로 할 수 있는 것 사이의 괴리다. 이는 글라번트(Globant)가 600명 이상의 기업 의사결정권자를 조사한 결과에도 잘 나타나 있다. 응답자 대부분이 음성인식 기술의 장점을 알고 있다고 답했지만, 매일 회사에서 사용하는 비중은 31%에 불과했다.



음성인식 기술이 가치가 있다는 것은 상식이다. 스마트 스피커 시장만 봐도 알 수 있다. 미국인 4300만 명 이상이 이 스피커를 구매했고, 매일 집에서 사용하는 이들 중 상당수는 결국 직장에서도 음성인식 기술을 사용한다. 구글의 조사결과를 보면 구글로 검색하는 사람의 20%가 말로 하는 검색 기능을 이용한다. 가트너에 따르면, 앞으로 2년 이내에 모든 웹 브라우징의 30%가 모니터 밖에서 이뤄진다. 검색 이용자로 대상을 줄이면 절반에 달하게 된다. 그러나 음성인식 기술을 기업에서 업무용으로 사용하는 비율은 미미한 상황이다.

음성인식 제품들
아마존 에코와 그 유사제품, 구글 홈 기기와 애플 홈 팟 같은 스마트 스피커는 일반 소비자를 직접 겨냥한 제품이다. 그러나 이런 기기를 만드는 주요 업체 대부분이 기업용 플랫폼을 개발하고 있다. 기업의 투자도 활발하다. 핀드롭(Pindrop) 조사결과를 보면, 기업의 3/4이 고객을 위한 음성인식 서비스에 투자할 것이라고 답했다. 코타나, 구글 어시스턴트, 알렉사 같은 음성인식 서비스를 이용한다. IBM 왓슨(Watson)과 애플 시리(Siri) 심지어 삼성의 빅스비(Bixby)를 기반으로 비슷한 시스템을 구축하는 기업도 있다.

IBM의 왓슨 어시스턴트는 기업이 사내 데이터를 이용해 음성으로 작동하는 가상 비서를 개발할 수 있는 기업용 화이트 레이블(label tool) 툴이다. 이는 기본적으로 왓슨 컨버세이션과 왓슨 버추얼 에이전트를 기반으로 하며, IBM 애널리틱스 API를 사용한다. IBM은 이 툴을 아마존의 기업용 알렉사와 함께 이용하도록 추천한다. 데이터를 아마존에 제공하지 않고, 아마존을 제어할 필요도 없기 때문이다. IBM에 대해서도 마찬가지다.

시스코의 스파크 어시스턴트는 온전히 기업내 회의에만 초점을 맞추고 있다. 업체는 이 기술을 회의실용 모든 기기에 적용해 모든 클라이언트 기기에서 사용할 수 있도록 했다. 스파크 어시스턴트가 특히 흥미로운 것은, 업체가 마인드멜드(MindMeld)라고 부르는 작업을 기반으로 하기 때문이다. 마인드멜드는 5년전까지만 해도 필자가 즐겨 사용하던 앱이었다. 주변의 대화 내용을 듣고 있다가 이에 맞는 검색 결과를 보여준다. 이 컨셉을 더 발전시켜 기업 내부 정보에 적용하면 놀랍도록 멋진 회의 툴이 될 수 있다. 회의하는 도중에 회의 내용 관련 자료와 맥락을 끊임없이 갱신해 화면에 보여줄 수 있기 때문이다.

몇년 후가 되면 음성인식 기술을 통해 스파크 어시스턴트 같은 지능형 제품이 실제로 회의에 참여하고, 자료를 보여주고, 제안하거나 질문에 답하는 것이 가능해질 것이다. 또한, 이러한 어시스턴트는 명령을 통해 회의를 녹음하거나, 특정 작업을 하고, 회의 결과를 공유하고, 후속 회의를 잡는 것을 도울 수도 있다고 업체 측은 설명했다. 심지어 모질라(Mozilla)는 음성으로 작동하는 웹브라우저 '스카우트(Scout)'를 개발하고 있다. 최근 샌프란시스코에서 열린 전체 회의용 논의 주제가 유출되면서 밝혀졌다.

이런 제품들이 이미 나왔거나 곧 나온다는 것은 분명하다. 큰 화제가 될 것이라는 공감대도 형성돼 있다. 그러나 이런 정황을 고려하면 지금 우리가 사용할 수 있고 실제 음성인식 기술의 장점을 체험할 수 있는 것이 고작 애플리케이션이 음성 검색, 단 하나 뿐이라는 것은 이해가 되지 않는다. 지금부터 음성 검색의 문제에 대해 논의해 보자.

음성 검색의 문제
음성 검색에서 아직 해결되지 않는 문제는 그 검색 결과가 단 하나 뿐이라는 점이다. 음성 검색은 현재 사람들이 가상 비서를 사용하거나 혹은 나중에 사용하게 될 방식이다. 그러나 음성 검색 결과는 우리가 흔히 보는 검색 결과와 다르다. 즉 상관관계에 따라 정렬된 리스트가 아니라, 단 1개의 결과가 화면에 나타날 뿐이다. 사소한 문제처럼 들릴 수 도 있다. 그러나 그렇지 않다. 아무도 해법을 찾지 못한 매우 심각한 문제다.

오늘날 검색 결과 순위는 매우 논쟁적인 주제다. 구글 같은 업체가 검색 결과를 공정하게 보여주지 않으면 수사를 받거나 벌금에 처해질 수 있다. 실제로 비슷한 문제제기가 구글의 경쟁사를 계속 제기됐다. 이들은 검색 결과를 보여주는 첫 페이지에서 결과 정렬 순서가 공정하지 않다고 지적해 왔다. 만약 가상 비서 기반의 검색 결과 창에서 모든 결과를 보여주지 않고 구글 같은 업체가 선택한 결과 1개만 보여주면 기존의 불만은 점점 더 커질 가능성이 크다.

바로 이점이 새로운 음성인식 검색 최적화 영역이 계속 활동을 이어가려는 기업들에 완전히 흥하거나 혹은 완전히 망하는 기술이나 작업이 될 가능성이 큰 이유다. 기업들은 이미 구글 같은 검색엔진 업체의 영향력을 불편하게 느끼고 있다. 검색 알고리즘이 검색 결과의 순위 혹은 정렬 방식을 결정하기 때문이다. 음성인식 검색을 이용하면 이런 업체가 검색 결과를 하나 혹은 고작 몇개 정도를 임의로 선택할 가능성이 있다.

음성 검색은 오늘날 음성인식 1등 애플리케이션이지만, 미래에는 이러한 1개 결과만 보여주는 문제 때문에 현재의 위상을 유지하지 못할 것이다. 대신 검색을 제외한 다른 부문에서는 음성인식 기술이 예상보다 훨씬 더 혁신적으로 활용될 수 있다.


음성인식 기술의 진정한 가치
아마존의 CTO 워너 보겔은 음성인식 기술은 '만국 공통의 사용자 인터페이스(UI)'라고 부른다. 배우지 않고도 모두가 사용할 수 있는 UI라는 의미다. 실제로 음성인식 제어는 UI의 일종이며, 그 파급력은 면대면 상호작용을 훨씬 뛰어넘을 것이다. 기업의 일하는 방식도 바꿔 놓을 것이다.

예를 들어 음성인식 기술은 스마트 오피스를 강화할 수 있다. 사물인터넷(IoT) 기기가 모든 사물의 작동 방식을 그 스마트 오피스 공간이다. 이렇게 되면 오피스 관리는 지능화된 기기를 이용하는 것으로 바뀌게 될 것이다. 음성 명령을 통해 위치와 서비스 상황, 이용자 등 사무실 공간에 대한 기본적인 사실을 확인하는 것도 가능해진다. 음성 기반 메모 기능을 이용할 수 있다는 것은 회의에 꼭 참석하지 않아도 된다는 것을 의미한다. 대신 화면에 시선을 고정하고 키보드로 내용을 정리하면 된다.

또한 음성은 기업 커뮤니케이션을 방식을 변모시킬 것이다. 이메일이나 슬랙 커뮤니케이터 대신 음성 인식 기술이 메모와 상세 설명을 남길 수 있다. 예를 들어 "자넷에게 내일 오후 만나고 싶다고 전해줘"라고 말하면 가상 비서가 회의를 잡는 식이다. 이처럼 AI의 도움을 받는 의사소통은 협업을 개선해줄 것이다. 그동안 협업이 불가능할 것으로 생각했던 직원간의 의사소통을 가능하게 해 기업을 위한 새로운 인재로 재평가 받게 될 것이다. 제조 공장과 물류센터에서는 화면과 키보드, 마우스로 처리되던 작업 중 상당수가 에이전트를 이용한 대화로 대체될 것이다. 이들 기기를 조작하던 손이 자유로워지므로 직원들은 업무에만 더 온전히 집중할 수 있다.

이밖에도 음성인식 기술은 고객 서비스와 교육, 신원과 인증 등 IT의 거의 모든 측면에서 비슷한 변화를 몰고 올 것이다. C레벨 임원부터 일반 사원, 고객, 협력사와 정부 등 음성인식 기술을 이용해 기업과 상호작용하는 모든 사람이 친밀함과 개인화, 편리한 데이터 접속을 경험하는 것은 물론 재미까지 느끼게 될 것이다. 이처럼 음성인식 기술을 이용하면 모두가 기기 운영 기술에 초점을 맞추던 것에서 벗어나 문제 해결과 창의적인 생각, 학습 등에 온전히 집중할 수 있다.

앞으로 3년 내에 더 많은 기업이 음성인식 기술을 도입할 것이다. 이런 변화와 함께 훌륭한 검색 기술로만 음성인식 기술을 생각하는 인식을 바꿀 때가 됐다. 실제로 그렇지 않다. UI 이상이 될 수 없다는 생각도 그만 둘 때가 됐다. 이것 역시 사실이 아니다. 오히려 음성인식 기술은 거대한 긍정적 변화 물결의 일부로 보는 것이 맞다. 음성인식 기술은 기업을 운영하는 방식을 송두리째 바꿔놓을 것이다. 작업자가 서로 혹은 데이터와 상호작용하는 방식도 바꾸고, 고객이 서비스를 제공받는 방식 역시 새롭게 혁신할 것이다. ciokr@idg.co.kr 

2018.08.06

칼럼 | 음성인식에 대한 과소평가를 거둬들일 때

Mike Elgan | Computerworld
음성인식 기술(voice-enabled technologies)을 둘러싼 기업에 인식에는 거대한 공백이 존재한다. 구체적으로는 이 기술에 대해 알고 있는 것과, 이 기술로 할 수 있는 것 사이의 괴리다. 이는 글라번트(Globant)가 600명 이상의 기업 의사결정권자를 조사한 결과에도 잘 나타나 있다. 응답자 대부분이 음성인식 기술의 장점을 알고 있다고 답했지만, 매일 회사에서 사용하는 비중은 31%에 불과했다.



음성인식 기술이 가치가 있다는 것은 상식이다. 스마트 스피커 시장만 봐도 알 수 있다. 미국인 4300만 명 이상이 이 스피커를 구매했고, 매일 집에서 사용하는 이들 중 상당수는 결국 직장에서도 음성인식 기술을 사용한다. 구글의 조사결과를 보면 구글로 검색하는 사람의 20%가 말로 하는 검색 기능을 이용한다. 가트너에 따르면, 앞으로 2년 이내에 모든 웹 브라우징의 30%가 모니터 밖에서 이뤄진다. 검색 이용자로 대상을 줄이면 절반에 달하게 된다. 그러나 음성인식 기술을 기업에서 업무용으로 사용하는 비율은 미미한 상황이다.

음성인식 제품들
아마존 에코와 그 유사제품, 구글 홈 기기와 애플 홈 팟 같은 스마트 스피커는 일반 소비자를 직접 겨냥한 제품이다. 그러나 이런 기기를 만드는 주요 업체 대부분이 기업용 플랫폼을 개발하고 있다. 기업의 투자도 활발하다. 핀드롭(Pindrop) 조사결과를 보면, 기업의 3/4이 고객을 위한 음성인식 서비스에 투자할 것이라고 답했다. 코타나, 구글 어시스턴트, 알렉사 같은 음성인식 서비스를 이용한다. IBM 왓슨(Watson)과 애플 시리(Siri) 심지어 삼성의 빅스비(Bixby)를 기반으로 비슷한 시스템을 구축하는 기업도 있다.

IBM의 왓슨 어시스턴트는 기업이 사내 데이터를 이용해 음성으로 작동하는 가상 비서를 개발할 수 있는 기업용 화이트 레이블(label tool) 툴이다. 이는 기본적으로 왓슨 컨버세이션과 왓슨 버추얼 에이전트를 기반으로 하며, IBM 애널리틱스 API를 사용한다. IBM은 이 툴을 아마존의 기업용 알렉사와 함께 이용하도록 추천한다. 데이터를 아마존에 제공하지 않고, 아마존을 제어할 필요도 없기 때문이다. IBM에 대해서도 마찬가지다.

시스코의 스파크 어시스턴트는 온전히 기업내 회의에만 초점을 맞추고 있다. 업체는 이 기술을 회의실용 모든 기기에 적용해 모든 클라이언트 기기에서 사용할 수 있도록 했다. 스파크 어시스턴트가 특히 흥미로운 것은, 업체가 마인드멜드(MindMeld)라고 부르는 작업을 기반으로 하기 때문이다. 마인드멜드는 5년전까지만 해도 필자가 즐겨 사용하던 앱이었다. 주변의 대화 내용을 듣고 있다가 이에 맞는 검색 결과를 보여준다. 이 컨셉을 더 발전시켜 기업 내부 정보에 적용하면 놀랍도록 멋진 회의 툴이 될 수 있다. 회의하는 도중에 회의 내용 관련 자료와 맥락을 끊임없이 갱신해 화면에 보여줄 수 있기 때문이다.

몇년 후가 되면 음성인식 기술을 통해 스파크 어시스턴트 같은 지능형 제품이 실제로 회의에 참여하고, 자료를 보여주고, 제안하거나 질문에 답하는 것이 가능해질 것이다. 또한, 이러한 어시스턴트는 명령을 통해 회의를 녹음하거나, 특정 작업을 하고, 회의 결과를 공유하고, 후속 회의를 잡는 것을 도울 수도 있다고 업체 측은 설명했다. 심지어 모질라(Mozilla)는 음성으로 작동하는 웹브라우저 '스카우트(Scout)'를 개발하고 있다. 최근 샌프란시스코에서 열린 전체 회의용 논의 주제가 유출되면서 밝혀졌다.

이런 제품들이 이미 나왔거나 곧 나온다는 것은 분명하다. 큰 화제가 될 것이라는 공감대도 형성돼 있다. 그러나 이런 정황을 고려하면 지금 우리가 사용할 수 있고 실제 음성인식 기술의 장점을 체험할 수 있는 것이 고작 애플리케이션이 음성 검색, 단 하나 뿐이라는 것은 이해가 되지 않는다. 지금부터 음성 검색의 문제에 대해 논의해 보자.

음성 검색의 문제
음성 검색에서 아직 해결되지 않는 문제는 그 검색 결과가 단 하나 뿐이라는 점이다. 음성 검색은 현재 사람들이 가상 비서를 사용하거나 혹은 나중에 사용하게 될 방식이다. 그러나 음성 검색 결과는 우리가 흔히 보는 검색 결과와 다르다. 즉 상관관계에 따라 정렬된 리스트가 아니라, 단 1개의 결과가 화면에 나타날 뿐이다. 사소한 문제처럼 들릴 수 도 있다. 그러나 그렇지 않다. 아무도 해법을 찾지 못한 매우 심각한 문제다.

오늘날 검색 결과 순위는 매우 논쟁적인 주제다. 구글 같은 업체가 검색 결과를 공정하게 보여주지 않으면 수사를 받거나 벌금에 처해질 수 있다. 실제로 비슷한 문제제기가 구글의 경쟁사를 계속 제기됐다. 이들은 검색 결과를 보여주는 첫 페이지에서 결과 정렬 순서가 공정하지 않다고 지적해 왔다. 만약 가상 비서 기반의 검색 결과 창에서 모든 결과를 보여주지 않고 구글 같은 업체가 선택한 결과 1개만 보여주면 기존의 불만은 점점 더 커질 가능성이 크다.

바로 이점이 새로운 음성인식 검색 최적화 영역이 계속 활동을 이어가려는 기업들에 완전히 흥하거나 혹은 완전히 망하는 기술이나 작업이 될 가능성이 큰 이유다. 기업들은 이미 구글 같은 검색엔진 업체의 영향력을 불편하게 느끼고 있다. 검색 알고리즘이 검색 결과의 순위 혹은 정렬 방식을 결정하기 때문이다. 음성인식 검색을 이용하면 이런 업체가 검색 결과를 하나 혹은 고작 몇개 정도를 임의로 선택할 가능성이 있다.

음성 검색은 오늘날 음성인식 1등 애플리케이션이지만, 미래에는 이러한 1개 결과만 보여주는 문제 때문에 현재의 위상을 유지하지 못할 것이다. 대신 검색을 제외한 다른 부문에서는 음성인식 기술이 예상보다 훨씬 더 혁신적으로 활용될 수 있다.


음성인식 기술의 진정한 가치
아마존의 CTO 워너 보겔은 음성인식 기술은 '만국 공통의 사용자 인터페이스(UI)'라고 부른다. 배우지 않고도 모두가 사용할 수 있는 UI라는 의미다. 실제로 음성인식 제어는 UI의 일종이며, 그 파급력은 면대면 상호작용을 훨씬 뛰어넘을 것이다. 기업의 일하는 방식도 바꿔 놓을 것이다.

예를 들어 음성인식 기술은 스마트 오피스를 강화할 수 있다. 사물인터넷(IoT) 기기가 모든 사물의 작동 방식을 그 스마트 오피스 공간이다. 이렇게 되면 오피스 관리는 지능화된 기기를 이용하는 것으로 바뀌게 될 것이다. 음성 명령을 통해 위치와 서비스 상황, 이용자 등 사무실 공간에 대한 기본적인 사실을 확인하는 것도 가능해진다. 음성 기반 메모 기능을 이용할 수 있다는 것은 회의에 꼭 참석하지 않아도 된다는 것을 의미한다. 대신 화면에 시선을 고정하고 키보드로 내용을 정리하면 된다.

또한 음성은 기업 커뮤니케이션을 방식을 변모시킬 것이다. 이메일이나 슬랙 커뮤니케이터 대신 음성 인식 기술이 메모와 상세 설명을 남길 수 있다. 예를 들어 "자넷에게 내일 오후 만나고 싶다고 전해줘"라고 말하면 가상 비서가 회의를 잡는 식이다. 이처럼 AI의 도움을 받는 의사소통은 협업을 개선해줄 것이다. 그동안 협업이 불가능할 것으로 생각했던 직원간의 의사소통을 가능하게 해 기업을 위한 새로운 인재로 재평가 받게 될 것이다. 제조 공장과 물류센터에서는 화면과 키보드, 마우스로 처리되던 작업 중 상당수가 에이전트를 이용한 대화로 대체될 것이다. 이들 기기를 조작하던 손이 자유로워지므로 직원들은 업무에만 더 온전히 집중할 수 있다.

이밖에도 음성인식 기술은 고객 서비스와 교육, 신원과 인증 등 IT의 거의 모든 측면에서 비슷한 변화를 몰고 올 것이다. C레벨 임원부터 일반 사원, 고객, 협력사와 정부 등 음성인식 기술을 이용해 기업과 상호작용하는 모든 사람이 친밀함과 개인화, 편리한 데이터 접속을 경험하는 것은 물론 재미까지 느끼게 될 것이다. 이처럼 음성인식 기술을 이용하면 모두가 기기 운영 기술에 초점을 맞추던 것에서 벗어나 문제 해결과 창의적인 생각, 학습 등에 온전히 집중할 수 있다.

앞으로 3년 내에 더 많은 기업이 음성인식 기술을 도입할 것이다. 이런 변화와 함께 훌륭한 검색 기술로만 음성인식 기술을 생각하는 인식을 바꿀 때가 됐다. 실제로 그렇지 않다. UI 이상이 될 수 없다는 생각도 그만 둘 때가 됐다. 이것 역시 사실이 아니다. 오히려 음성인식 기술은 거대한 긍정적 변화 물결의 일부로 보는 것이 맞다. 음성인식 기술은 기업을 운영하는 방식을 송두리째 바꿔놓을 것이다. 작업자가 서로 혹은 데이터와 상호작용하는 방식도 바꾸고, 고객이 서비스를 제공받는 방식 역시 새롭게 혁신할 것이다. ciokr@idg.co.kr 

X