Offcanvas

AI / 머신러닝|딥러닝 / 비즈니스|경제

‘이제 보고 듣고 말한다’… 챗GPT, 음성·이미지 인식 기능 추가

2023.09.26 김유성  |  CIO KR
오픈AI의 생성형 AI 챗봇인 챗GPT에 음성 인식 기능과 이미지 분석 기능이 추가된다. 아직은 영어만 지원되지만, 다른 언어 번역 기능이 추가될지 여부에도 관심이 쏠린다. 
 

오픈AI가 지난 25일 공식 홈페이지를 통해 “챗GPT는 이제 보고, 듣고, 말할 수 있다”라며, 음성과 이미지 인식 기능을 추가해 일상에서 더 다양한 방법으로 챗GPT를 사용할 수 있도록 한다고 밝혔다.

챗GPT는 그동안 프롬프트(명령어)를 대화창에 입력하는 방식으로 사용할 수 있었다. 앞으로는 애플의 시리(Siri), 구글 어시스턴트(Google Assistant)처럼 AI 비서로 활용 가능하다. 일반적인 AI 비서가 음성 명령을 실행하는 기능에 집중한다면, 챗GPT는 음성을 통한 대화에 초점을 맞췄다.

챗GPT 음성 기능은 유명 성우들과 협력해 총 5가지 목소리로 제공된다. 몇 초의 음성 샘플링을 통해 사람과 유사한 목소리를 생성하는 새 음성 변환 모델을 사용하며, 오픈소스 음성 인식 시스템인 위스퍼(Whisper)를 통해 사용자가 말한 내용을 텍스트로 변환한다. 

음성 인식 기능은 향후 2주 내에 챗GPT 플러스 및 엔터프라이즈 유료 구독자들에게 제공된다. 이후 모든 사용자가 이용할 수 있도록 업데이트할 예정이다. iOS 및 안드로이드에서 설정을 통해 사용할 수 있다.

챗GPT 음성 언어는 현재까지는 영어만 지원된다. 다만 음원 스트리밍 기업 스포티파이(Spotify)는 이날 오픈AI와 협업을 소개하며, 팟캐스트 진행자의 음성을 다른 언어로 바꿀 수 있는 오픈AI의 새 음성 번역 기술을 도입한다고 밝혔다. 이러한 기능이 챗GPT에도 활용될 경우 다양한 언어 사용이 가능해질 것으로 예상되지만, 오픈AI 측은 구체적인 계획을 언급하지 않았다. 

음성 인식과 함께 챗GPT에 추가된 이미지 인식 기능도 주목할 만하다. 사용자가 대화창에 이미지를 올린 뒤 질문을 하면 챗GPT는 이를 분석해 답변을 제공한다. 

오픈AI는 이미지 인식 기능에 대해 “그릴이 작동하지 않는 이유를 묻거나, 냉장고의 내용물을 살펴보며 식단을 계획하고, 복잡한 그래프를 분석해 업무 관련 데이터를 확인할 수 있다. 이미지 특정 부분에 집중할 수도 있는데, 모바일 앱의 그리기 도구를 사용해 강조 표시하면 된다”라고 설명했다. 이미지 인식 기능은 모든 플랫폼에서 이용 가능하다. yuseong_kim@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.