2020.08.28

영어 '음성'을 '문서'로 변환··· 마이크로소프트 365 워드, 전사 및 음성 명령 지원

김달훈 | CIO KR
마이크로소프트의 댄 패리쉬 수석 그룹 PM 관리자(Dan Parish, Principal Group PM Manager)가 애저 코그너티브(Azure Cognitive Services) 인공지능 플랫폼을 활용한, 마이크로소프트 365(Microsoft 365) 워드(Word)의 전사(transcription)와 음성 명령(Voice Commandsr) 기능을 '마이크로소프트 365 블로그'를 통해 공개했다.

'마이크로소프트 365'는 ‘오피스 365’의 새 이름으로, 워드, 엑셀, 파워포인트, 원노트 등으로 구성된 클라우드 서비스다. 마이크로소프트 365는 두 가지 방법으로 사용한다. 첫 번째는 PC, 태블릿, 스마트폰에 앱을 다운로드받은 후 설치해서 사용한다. 두 번째는 앱을 설치할 필요 없이 웹 브라우저로 서버에 접속한 후 사용하는 방법이 있다.

애저 코그너티브와 마이크로소프트 365의 만남
AI 플랫폼의 활용 방법은 다양하다. 인공지능에게 스스로 재주와 실력을 키워가는 머신러닝 능력을 부여하고, API(Application Programming Interface)라는 문을 달고 길을 열어주면, 만능은 아닐지언정 팔방미인 소리는 들을 수 있는 다양한 솔루션과 서비스를 만들어 낼 수 있다.

마이크로소프트의 애저 코그너티브가 그런 것 중에 하나다. 기계 학습에 대한 전문지식이 없는 개발자라도, API 호출만으로 보고, 듣고, 말하는 것과 관련된 인공지능 능력을 응용프로그램에 적용할 수 있다. 물론 마이크로소프트도 애저 코그너티브를 자사 제품에 활용한다.


애저 코그너티브는 음성, 언어, 비전, 앱서치 등의 인공지능 서비스를 인공지능에 관한 전문지식이 없는 개발자도 쉽게 사용할 수 있도록 API로 제공한다. (화면 : Microsoft)

이번에 발표한 마이크로소프트 365에서 ‘음성 명령으로 받아쓰기’와 웹 버전 워드(Word)에서 사용할 수 있는 ‘전사’ 기능은, 이러한 마이크로소프트 코그너티브 서비스와 연동해서 제공하는 기능이다. 음성 인식과 분석을 코그너티브와 연동해서 처리하고, 이를 통해 음성 녹음 파일을 문서로 빠르고 간편하게 변환한다.

전사와 받아쓰기는 목소리에 담긴 ‘내용’을 문자, 문장, 문서로 변환해 준다는 점에서 같다. 그러나 전사는 우선 녹음 파일을 전송하면 이를 분석해서 변환하는 과정을 거치고, 받아쓰기는 마이크에 실시간으로 입력되는 목소리를 분석해 변환한다는 점이 다르다.

마이크로소프트 365 웹용 워드(Word)에서 '영어 전사’ 기능 지원
‘전사(transcription, 轉寫)’의 사전적 의미는, 데이터나 정보의 기록 형태를 바꾸는 것이다. 마이크로소프트 365 워드에서 말하는 전사는, 사람의  음성을 문서화하는 것을 의미한다. 즉, 녹음된 사람의 음성을 분석하고 인식한 후, 문자 형태로 변환한 문서로 바꾸는 기능이다.

이제 웹 브라우저로 사용하는 웹 버전 워드에서는 이러한 ‘전사’ 기능을 사용할 수 있다. 다양한 언어를 지원하면 좋겠지만 지금은 ‘영어(EN-US)’만 사용할 수 있다. 영어로 녹음된 음성 메모, 회의 내용, 인터뷰, 토론, 강의 파일을, 인공지능 플랫폼을 활용해 자동으로 문자와 문장으로 변환해 준다.


마이크로소프트 365 워드 앱 버전을 이용하면, 음성 녹음 파일을 자동으로 문서로 변환할 수 있는, 전사 기능을 간편하게 사용할 수 있다. (화면 : Microsoft)

웹 기반의 마이크로소프트 365 워드에서 전사 기능을 사용하는 방법은 두 가지다. 메뉴에서 전사(Trandscribe)를 선택 한 후, 오디오 파일을 업로드하거나 직접 녹음하면 된다. 지원하는 오디오 파일 형식은 파일 확장자를 기준으로,  MP3, WAV, M4A, MP4 네 가지다.

웹 버전에서만 사용할 수 있는 만큼 브라우저도 호환되어야 하는데, 현재는 크롬(Chrome)과 마이크로소프트 엣지(Microsoft Edge)에서 사용할 수 있다. 한 번에 업로드할 수 있는 오디오 파일의 최대 크기는 200MB로 제한된다. 녹음 시간을 기준으로 하면 한 달에 최대 5시간 분량만 전사 기능을 제공한다.

전사 기능은 두 사람 이상이 대화할 때, 말하는 사람을 감지하는 기능을 갖추고 있다. 따라서 단순 대화, 인터뷰, 화상 통화나 회의 녹음 파일을 간편하고 빠르게 대본 또는 문서로 변환할 수 있다. 재택근무의 확산으로 원격 회의가 일상이 된 업무 환경에서, 회의가 끝난 후 회의 내용을 요약해 회의록을 만들 때 유용하게 활용할 수 있다.

‘음성 명령’과 ‘받아쓰기’로 키보드 필요 없는 문서작성
'받아쓰기(Dictate)’ 기능은 이미 지원했던 기능이다. 받아쓰기는 사람의 음성을 실시간으로 인식해, 이를 문자, 단어, 문장으로 변환하는 기능이다. 말 그대로 ‘받아 적는’ 기능을 말하는데, ‘음성 명령으로 받아쓰기’는 여기에 ‘음성 명령’ 기능을 추가한 것이다.

받아쓰기 기능을 활용해도, 키보드를 사용해야 하는 경우가 있다. 특정 메뉴나 기능을 호출하거나, 특수 문자 등을 입력할 때가 그렇다. 예를 들어 ‘시작 목록’처럼 문서 형식을 지정하거나, ‘마지막 굵은 문장’처럼 문장 형태를 지정할 때, 키보드가 아닌 음성으로 명령을 호출해서 적용할 수 있다.


‘음성 명령으로 받아쓰기’는 음성 변환뿐만 아니라, 기능 선택이나 명령 실행을 음성으로 수행할 수 있다. 실시간으로 마이크로 입력되는 목소리를 문장으로 변환하고, 음성 명령으로 키보드 사용을 최대한 줄일 수 있다. (화면 : Microsoft)

‘&’ 기호를 입력하고 싶을 때는 "엠퍼샌드(ampersand)", ‘%’ 기호를 입력할 때는 “퍼센트 사인(percent sign)”이라고 말하면 된다. “스마일리 페이스(smiley face)”, “하트 이모지(heart emoji)”라고 말해서 이모티콘을 입력하는 것도 가능하다. 잠깐 받아쓰기를 멈춰야 할 때는 “포즈 딕테이션(pause dictation)”이라고 말하면 된다.

이러한 음성 명령 중에는 기존에 지원하던 것도 있지만 중요한 것은 ‘자연스러움’이다. 마이크로소프트는 사람들이 자연스럽게 말하는 방식으로 음성 명령을 사용할 수 있다고 밝혔다. 또렷하고 또박또박하게 마치 로봇처럼 발음할 필요가 없다는 의미인데, 얼마나 정확하게 인식할 수 있는지가 활용성을 좌우하는 요소가 될 것으로 보인다.

받아쓰기는 웹, 윈도, 맥OS, 아이폰, 안드로이드폰에서 사용할 수 있다. 다만, 윈도우와 맥OS 버전은 마이크로소프트 365 구독자에게만 받아쓰기 버튼이 표시된다고 ‘워드에서 문서 받아쓰기’에 소개되어 있다. 받아쓰기에 관한 자세한 사용법은 ‘마이크로소프트 365에서 받아쓰기’를 참조하면 된다. ciokr@idg.co.kr



2020.08.28

영어 '음성'을 '문서'로 변환··· 마이크로소프트 365 워드, 전사 및 음성 명령 지원

김달훈 | CIO KR
마이크로소프트의 댄 패리쉬 수석 그룹 PM 관리자(Dan Parish, Principal Group PM Manager)가 애저 코그너티브(Azure Cognitive Services) 인공지능 플랫폼을 활용한, 마이크로소프트 365(Microsoft 365) 워드(Word)의 전사(transcription)와 음성 명령(Voice Commandsr) 기능을 '마이크로소프트 365 블로그'를 통해 공개했다.

'마이크로소프트 365'는 ‘오피스 365’의 새 이름으로, 워드, 엑셀, 파워포인트, 원노트 등으로 구성된 클라우드 서비스다. 마이크로소프트 365는 두 가지 방법으로 사용한다. 첫 번째는 PC, 태블릿, 스마트폰에 앱을 다운로드받은 후 설치해서 사용한다. 두 번째는 앱을 설치할 필요 없이 웹 브라우저로 서버에 접속한 후 사용하는 방법이 있다.

애저 코그너티브와 마이크로소프트 365의 만남
AI 플랫폼의 활용 방법은 다양하다. 인공지능에게 스스로 재주와 실력을 키워가는 머신러닝 능력을 부여하고, API(Application Programming Interface)라는 문을 달고 길을 열어주면, 만능은 아닐지언정 팔방미인 소리는 들을 수 있는 다양한 솔루션과 서비스를 만들어 낼 수 있다.

마이크로소프트의 애저 코그너티브가 그런 것 중에 하나다. 기계 학습에 대한 전문지식이 없는 개발자라도, API 호출만으로 보고, 듣고, 말하는 것과 관련된 인공지능 능력을 응용프로그램에 적용할 수 있다. 물론 마이크로소프트도 애저 코그너티브를 자사 제품에 활용한다.


애저 코그너티브는 음성, 언어, 비전, 앱서치 등의 인공지능 서비스를 인공지능에 관한 전문지식이 없는 개발자도 쉽게 사용할 수 있도록 API로 제공한다. (화면 : Microsoft)

이번에 발표한 마이크로소프트 365에서 ‘음성 명령으로 받아쓰기’와 웹 버전 워드(Word)에서 사용할 수 있는 ‘전사’ 기능은, 이러한 마이크로소프트 코그너티브 서비스와 연동해서 제공하는 기능이다. 음성 인식과 분석을 코그너티브와 연동해서 처리하고, 이를 통해 음성 녹음 파일을 문서로 빠르고 간편하게 변환한다.

전사와 받아쓰기는 목소리에 담긴 ‘내용’을 문자, 문장, 문서로 변환해 준다는 점에서 같다. 그러나 전사는 우선 녹음 파일을 전송하면 이를 분석해서 변환하는 과정을 거치고, 받아쓰기는 마이크에 실시간으로 입력되는 목소리를 분석해 변환한다는 점이 다르다.

마이크로소프트 365 웹용 워드(Word)에서 '영어 전사’ 기능 지원
‘전사(transcription, 轉寫)’의 사전적 의미는, 데이터나 정보의 기록 형태를 바꾸는 것이다. 마이크로소프트 365 워드에서 말하는 전사는, 사람의  음성을 문서화하는 것을 의미한다. 즉, 녹음된 사람의 음성을 분석하고 인식한 후, 문자 형태로 변환한 문서로 바꾸는 기능이다.

이제 웹 브라우저로 사용하는 웹 버전 워드에서는 이러한 ‘전사’ 기능을 사용할 수 있다. 다양한 언어를 지원하면 좋겠지만 지금은 ‘영어(EN-US)’만 사용할 수 있다. 영어로 녹음된 음성 메모, 회의 내용, 인터뷰, 토론, 강의 파일을, 인공지능 플랫폼을 활용해 자동으로 문자와 문장으로 변환해 준다.


마이크로소프트 365 워드 앱 버전을 이용하면, 음성 녹음 파일을 자동으로 문서로 변환할 수 있는, 전사 기능을 간편하게 사용할 수 있다. (화면 : Microsoft)

웹 기반의 마이크로소프트 365 워드에서 전사 기능을 사용하는 방법은 두 가지다. 메뉴에서 전사(Trandscribe)를 선택 한 후, 오디오 파일을 업로드하거나 직접 녹음하면 된다. 지원하는 오디오 파일 형식은 파일 확장자를 기준으로,  MP3, WAV, M4A, MP4 네 가지다.

웹 버전에서만 사용할 수 있는 만큼 브라우저도 호환되어야 하는데, 현재는 크롬(Chrome)과 마이크로소프트 엣지(Microsoft Edge)에서 사용할 수 있다. 한 번에 업로드할 수 있는 오디오 파일의 최대 크기는 200MB로 제한된다. 녹음 시간을 기준으로 하면 한 달에 최대 5시간 분량만 전사 기능을 제공한다.

전사 기능은 두 사람 이상이 대화할 때, 말하는 사람을 감지하는 기능을 갖추고 있다. 따라서 단순 대화, 인터뷰, 화상 통화나 회의 녹음 파일을 간편하고 빠르게 대본 또는 문서로 변환할 수 있다. 재택근무의 확산으로 원격 회의가 일상이 된 업무 환경에서, 회의가 끝난 후 회의 내용을 요약해 회의록을 만들 때 유용하게 활용할 수 있다.

‘음성 명령’과 ‘받아쓰기’로 키보드 필요 없는 문서작성
'받아쓰기(Dictate)’ 기능은 이미 지원했던 기능이다. 받아쓰기는 사람의 음성을 실시간으로 인식해, 이를 문자, 단어, 문장으로 변환하는 기능이다. 말 그대로 ‘받아 적는’ 기능을 말하는데, ‘음성 명령으로 받아쓰기’는 여기에 ‘음성 명령’ 기능을 추가한 것이다.

받아쓰기 기능을 활용해도, 키보드를 사용해야 하는 경우가 있다. 특정 메뉴나 기능을 호출하거나, 특수 문자 등을 입력할 때가 그렇다. 예를 들어 ‘시작 목록’처럼 문서 형식을 지정하거나, ‘마지막 굵은 문장’처럼 문장 형태를 지정할 때, 키보드가 아닌 음성으로 명령을 호출해서 적용할 수 있다.


‘음성 명령으로 받아쓰기’는 음성 변환뿐만 아니라, 기능 선택이나 명령 실행을 음성으로 수행할 수 있다. 실시간으로 마이크로 입력되는 목소리를 문장으로 변환하고, 음성 명령으로 키보드 사용을 최대한 줄일 수 있다. (화면 : Microsoft)

‘&’ 기호를 입력하고 싶을 때는 "엠퍼샌드(ampersand)", ‘%’ 기호를 입력할 때는 “퍼센트 사인(percent sign)”이라고 말하면 된다. “스마일리 페이스(smiley face)”, “하트 이모지(heart emoji)”라고 말해서 이모티콘을 입력하는 것도 가능하다. 잠깐 받아쓰기를 멈춰야 할 때는 “포즈 딕테이션(pause dictation)”이라고 말하면 된다.

이러한 음성 명령 중에는 기존에 지원하던 것도 있지만 중요한 것은 ‘자연스러움’이다. 마이크로소프트는 사람들이 자연스럽게 말하는 방식으로 음성 명령을 사용할 수 있다고 밝혔다. 또렷하고 또박또박하게 마치 로봇처럼 발음할 필요가 없다는 의미인데, 얼마나 정확하게 인식할 수 있는지가 활용성을 좌우하는 요소가 될 것으로 보인다.

받아쓰기는 웹, 윈도, 맥OS, 아이폰, 안드로이드폰에서 사용할 수 있다. 다만, 윈도우와 맥OS 버전은 마이크로소프트 365 구독자에게만 받아쓰기 버튼이 표시된다고 ‘워드에서 문서 받아쓰기’에 소개되어 있다. 받아쓰기에 관한 자세한 사용법은 ‘마이크로소프트 365에서 받아쓰기’를 참조하면 된다. ciokr@idg.co.kr

X