Offcanvas

AI / 로봇|자동화

“원하는 감정·억양 넣은 목소리 만든다”··· 마이쉘, 목소리 생성 오픈소스 알고리즘 공개

2024.01.03 이지현  |  CIO KR
캐나다 AI 스타트업 마이쉘(Myshell)이 MIT와 칭화대와 함께 목소리 생성을 위한 알고리즘 ‘오픈보이스(OpenVoice)’를 오픈소스 형태로 2일 공개했다.
 
ⓒ Myshell

오픈보이스는 짧은 오디오 클립을 기반으로 음성을 복제하는 제로샷 학습(zero-shot, 사전에 학습하지 않은 데이터에 대해서도 예측 및 처리하는 방식) 기반의 기술이다. 특히 오픈보이스는 예시로 입력된 목소리의 톤을 복제할 수 있으며, 감정, 억양, 리듬, 속도 등 음성 스타일을 세밀하게 조정해 생성한. 가령 영국 어린 아이가 활기차게 말하는 목소리 파일을 예시로 입력하면, 해당 목소리를 그대로 따라하는 원하는 음성을 생성할 수 있다. 성대모사를 하는 AI라고 생각하면 쉽다. 여기에 한국어를 포함한 다양한 국가의 언어로 목소리를 생성할 수 있다.

마이쉘은 “오픈보이스는 대규모 화자 훈련 세트에 포함되지 않은 언어에 대해서도 제로샷 학습 기반으로 음성을 복제 및 생성한다”라며 “또한 오픈보이스는 계산 효율성이 뛰어나 성능이 더 떨어지는 타 상용 API보다 수십 배나 저렴할 것”이라고 밝혔다.

마이쉘은 2023년 설립된 캐나다 스타트업으로 AI의 민주화를 실현한다는 철학하에 기술을 만들고 있다. 특히 AI 크리에이터나 AI 챗봇 관련 수요를 공략해 서비스를 내놓고 있다. 지금까지 560만 달러(약 73억 원) 규모의 투자를 유치했으며, 사용자 수는 40만 명이 넘는다.

오픈보이스는 마이쉘 내부 기술에서 활용되던 알고리즘이다. 마이쉘은 “이번 오픈 보이스 ‘모두를 위한 AI’라는 핵심 정신을 담아 알고리즘을 오픈소스로 공개했다”라고 밝혔다. 오픈보이스 논문에 따르면, 마이쉘 뿐만 아니라 미국 MIT와 중국 칭화대 연구원도 오픈보이스 개발에 참여했다.
jihyun_lee@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.