Offcanvas

AI / 머신러닝|딥러닝 / 소비자IT

“영화 ‘허’ AI 처럼 노래하고 농담하고...” 오픈AI, 음성·영상 인식 강화한 GPT-4o 공개

2024.05.14 이지현  |  CIO KR
오픈AI가 진화된 AI 모델 GPT-4o(‘포오’라고 읽는다)를 13일 공개했다. 기본 GPT-4가 텍스트 중심 질문을 처리하는 것에 특화됐다면, GPT-4o는 음성과 영상 등 보다 다양한 데이터를 처리할 수 있다. 또한 GPT-4o를 활용하는 챗GPT는 노래를 하거나 농담 및 풍자 섞인 대화가 가능하며, 인간과 유사한 자연스러운 말투를 가진 것이 특징이다.
 
GTP-4o 발표를 진행한 오픈AI CTO 미라 무라티 ⓒ 오픈AI

GPT-4o에서 o는 옴니(omni)의 약자로 기존 텍스트 중심 입력값을 넘어 오디오, 이미지, 영상 등 다양한 데이터를 인식하고 출력도 다양한 형태로 내놓을 수 있는 모델이다. 즉 새 모델이 탑재된 챗GPT로 사용자는 영상 및 사진을 기반으로 질문하는 것도 가능하다. 영화 ‘허’에서 스마트폰 기기에 설치된 인공지능이 카메라로 바깥세상을 보며 사용자와 대화를 나누는데, GPT-4o로 비슷한 상황을 연출할 수 있게 된 셈이다.

오픈AI 블로그에 공개된 예시를 보면, 오픈AI 직원은 “지금 카메라로 보이는 상황을 보고 내가 무엇을 하려는지 말해봐라”라고 묻자 GPT-4o가 “뭔가를 촬영하는 것 같고 전문적인 장비를 보니 어떤 발표를 하려하는 것 같다”라고 스스로 상황을 파악하고 음성으로 답변했다. 오픈A 직원이 ‘맞다 그 발표가 너(GPT-4o)와 관련된 것이다’라고 하니 GPT-4o는 놀랍다는 말투로 “정말 나와 관련된 발표를 하는 것이냐”라고 물어보기도 했다. 또한 풍자나 농담하는 예시도 공개했는데, 가령 오픈 AI 직원 2명이 “가위바위보를 하는 상황을 카메라로 보여줄 테니 심판을 봐주고, 스포츠캐스터처럼 중계해달라”라고 요청하자 과장된 말투로 스포츠캐스터를 따라 하며 직원에게 웃음을 안겨주었다. 중간에 말을 끊거나 화제를 돌려도 자연스럽게 대화를 이어 나간다. 챗GPT 두개를 켜놓고 서로 대화하는 상황의 예시도 보여주기도 했다.

GPT-4o가 자연스러운 답변을 할 수 있던 배경에는 빠른 반응속도도 한몫했다. 오픈AI에 따르면, GPT-4o는 최소 232밀리초, 평균 320밀리초 만에 오디오 입력값에 응답하며, 이는 대화에서 실제 사람의 응답 시간과 비슷한 수준이다. 이전 버전의 챗GPT 음성 모드의 경우, 평균 2.8초(GPT-3.5)와 5.4초(GPT-4)의 지연 시간이 발생했다.

오픈AI CEO는 샘 알트만은 자신의 블로그를 통해 “새로운 음성(및 동영상) 모드는 내가 사용해 본 컴퓨터 인터페이스 중 최고다. 마치 영화에 나오는 AI처럼 느껴지는데, 이것이 현실이라는 사실이 아직도 조금은 놀랍다. 사람 수준의 응답 시간과 표현력을 갖추게 된 것은 큰 변화다”라고 설명했다. 또한 그는 “컴퓨터와 대화하는 것이 자연스럽다고 느껴진 적이 없었는데 GPT-4o로 이제는 자연스러워졌다. 앞으로 개인화, 사용자 정보 입력 등을 추가하면서 컴퓨터를 이용해 이전보다 훨씬 더 많은 일을 할 수 있을 것”이라고 기대했다.

GPT-4o는 현재 챗GPT 무료 및 유료 버전에서 바로 사용할 수 있다. 챗GPT 유료 사용자는 맞춤 기능을 활용할 수 있으며, 질문 수를 무료 버전보다 최대 5배 더 많이 입력할 수 있다. 참고로 기존 GPT-4 모델은 유료 사용자만 이용 가능했다. 샘 알트먼은 “모든 사람에게 뛰어난 AI 도구를 제공한다는 사명을 가진 오픈AI에게 GPT-4o를 무료 및 유료로 개방한다는 것은 중요한 의미를 가진다”라고 밝혔다.
jihyun_lee@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.