Offcanvas

AI / 라이프 / 머신러닝|딥러닝 / 오픈소스

영화 음악부터 소음까지 생성··· 스테이빌리티AI, AI 음악 생성 모델 ‘스테이블 오디오’ 공개

2023.09.14 이지현  |  CIO KR
생성형 AI 이미지 생성 모델 ‘스테이블 디퓨전(Stable Diffusion)’ 개발한 것으로 유명한 스테이빌리티AI가 이번에 오디오 전문 AI 기술을 13일 공개했다. ‘스테이블 오디오(Stable Audio)’라는 모델이다.
 
ⓒ Getty Images Bank

스테이블 오디오는 원하는 음악을 글로 묘사해 요청하면 관련 노래, 배경 음악 등을 생성하는 기술이다. 스테이빌리티AI 공식 블로그에 제시된 예시를 보면 ‘타악기와 금관악기를 사용한 강렬한 전통음악’, ’85 BPM의 로우파이 힙합비트 및 멜로디를 가진 음악’, ‘메이저 코드를 가진 피아노 솔로 음악’ 같은 일반적인 음악부터 ‘파일럿이 기내 방송하는 소리’, ‘사람이 많은 레스토랑 내 북적이는 소리’  같은 소음이나 배경음도 만들 수 있다. 

스테이빌리티AI는 스테이블 오디오를 만들기 위해 음악, 음향 효과, 단일 악기 스템이 포함된 80만 개 이상의 오디오 파일과 텍스트 메타데이터로 구성된 데이터 세트를 활용했다. 데이터는 음악 데이터 전문  제공업체 오디오스팍스(AudioSparx)와 공식 계약을 맺어 얻었으며, 학습 데이터 세트 분량은 약 1만 9,500시간이다. 

스테이빌리티AI는 스테이블 오디오를 만들 때 기존 AI 기반 오디오 파일의 한계를 극복하려고 노력했다고 설명했다. 가령 과거에는 학습된 파일 분량이 30초인 경우 AI가 생성하는 오디오도 30초 분량일 경우가 많았다. 만약 분량이 긴 오디오 파일을 분할해 학습할 경우, 분할된 파일이 무작위로 섞이면서 생성된 음악 결과물의 시작점이나 끝점이 어색한 경우가 있었다. 스테이빌리티AI의 주장에 따르면, 스테이블 오디오는 텍스트로 요청한 음악을 45초 또는 90초 분량으로 길게 만들 수 있다. 음악의 시작과 끝 지점도 훨씬 자연스럽게 만들어진다.

스테이블 오디오는 스테이빌리티AI의 오디오 전문 생성형 AI 연구소 '하모니아(Harmonai)'에서 관리할 예정이다. 하모니아는 앞으로 오디오의 출력 품질, 제어 가능성, 추론 속도, 출력 길이를 개선하기 위해 모델 아키텍처, 데이터 세트, 훈련 절차를 지속적으로 개선할 계획이다. 

스테이블 오디오는 무료 버전과 유료 버전으로 제공된다. 무료 버전 이용자는 한 달에 20개 트랙에 대해 최대 45초 분량의 오디오를 만들 수 있다. 다만 무료 버전에서 만든 결과물은 상업적 목적으로 이용할 수 없다. 유료 버전은 월 11.99 달러로 제공되며, 최대 90초 분량의 500개 트랙을 만들 수 있다. 더 많은 오디오 파일 개수를 만들거나 분량을 늘리려면 엔터프라이즈 버전을 이용해야 한다. 
jihyun_lee@idg.co.kr
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2023 International Data Group. All rights reserved.