Offcanvas

AI / 디지털 디바이스 / 로봇|자동화 / 머신러닝|딥러닝 / 소비자IT

가정용 로봇은 '말귀'가 밝아야··· 아마존, 아스트로의 오디오 인식 기술 소개

2022.11.24 김달훈  |  CIO KR
아스트로(Astro)는 아마존이 지난해 세상에 내 높은 가정용 로봇이다. 주인이 없을 때 집안을 돌아다니며 순찰하고, 돌봄이 필요한 가족을 돕고, 애완동물을 만나면 짧은 비디오 클립을 촬영해 주인에게 보낸다. 주인이 물어보는 이런저런 질문에 정보를 제공하고, 스마트홈을 컨트롤하거나, 음악을 들려주고 전화 통화도 지원하다.

아마존의 음성인식 인공지능 플랫폼인 알렉사(Alexa)와 로봇 기술과 결합한 것이 아스트로다. 진공청소기 몸통에 디스플레이를 얹어 놓은 것 같은 겉모양을 보면, 영화 속에서 마주하던 세련된 로봇과는 거리가 멀다. 하지만 아스트로가 세상에 상품으로 나오기까지 개발팀은 '가정용'에 맞는 로봇 기술과 기능을 연구하고 개발하며, 아마존 사무실과 가정에서 수 십만 시간의 테스트를 거쳤다.


아마존이 개발한 가정용 로봇인 아스트로(Astro)는 음성인식 플랫폼 알렉사를 통해 주인과 소통한다. 음성으로 소통하는 만큼 다양한 생활 소음과 사람 음성을 구별하고 인식하는 데 인공 기능을 활용한 오디오 향상 기술을 적용했다. (자료 : Amazon)

그중에서도 소음을 구별하고 음성을 인식하는 기술을 개발하는 데 많은 시간을 투자했다. 수많은 생활 소음이 가득한 집안에서 사람의 목소리를 구별하고 인식해 올바른 동작을 수행하기가 무척 까다롭기 때문이다. 심지어 아스트로가 이동할 때 바퀴에서 발생하는 소음이 사람의 목소리보다 훨씬 컸기 때문에 기본적인 문제를 해결해야 했다.

아마존 서니베일(Sunnyvale) 팀의 수석 과학자인 아미트 체트리는 "아스트로는 집안을 돌아다닌다는 사실 때문에 소음과 음성을 구분해야 하는 문제가 복잡해진다. 애완동물이나 기타 일반적인 가정 소음, 동력을 공급하는 전기 모터의 미묘한 소리, 로봇이 재생하는 음악이나 기타 오디오에 방해받지 않고 음성 요청을 정확하게 처리해야 하기 때문이다"라며 아스트로 개발 과정에서의 어려움을 소개했다.

이어 "아스트로가 지원하는 화상 통화에서의 음성과 비디오 지연 문제 해결도 어려운 과제였다. 실시간으로 매끄럽게 진행되어야 하는 화상 통화에서, 오디오가 20밀리 초 정도만 지연되어도 사람은 이를 인식하고 부자연스럽게 느낀다. 그래서 아스트로의 경우 일초에 125개의 오디오 신호 프레임을 처리해야 했다"라고 밝혔다.

이러한 문제를 해결하기 위해 매사추세츠주 케임브리지에 있는 아마존 오디오 랩의 음향 과학자와 엔지니어, 캘리포니아주 서니베일과 워싱턴주 벨뷰에 있는 개발팀이 아스트라의 오디오 기능을 설계하고 구축하는 작업에 많은 시간을 매달렸다. 아스트로의 말귀를 밝게 하기 위해 물리학에 정통한 음향 과학자, 음파를 조작하고 알고리즘을 구축하는 응용 연구원, 알고리즘은 소프트웨어로 구현하는 엔지니어가 개발에 참여했다.

개발팀은 소음과 음성으로 이루어진 소리에서, 소음을 제거하고 음성을 또렷하게 하기위해, 심층 신경망 AI 알고리즘을 사용했다. 배경 소음과 음성을 구분하고, 소음을 최대한 제거하면서 음성의 잔향까지 제거할 수 있는 아키텍처를 설계한 것이다. 아울러 오디오 시뮬레이션 전문가가 생성한 다양한 장소와 환경의 시뮬레이션 데이터로 학습을 진행하며, 음성 인식 향상 모델을 구축했다.

이렇게 개발된 인공지능 기반의 오디오 인식 및 향상 기술을 클라우드가 아닌 온디바이스에서 실시간으로 실행할 수 있도록 하는 것도 넘어야 할 산이었다. 아스트로 마이크로 수집한 소리에서 소음과 음성을 구분하고, 음성을 인식 가능한 수준으로 향상하고, 이를 로봇에서 자체적으로 처리하는 소프트웨어로 만들어 탑재했다. 이러한 과정 소개와 샘플 오디오는 아마존 홈페이지에서 확인할 수 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.