Offcanvas

AI

'이전 대화도 기억하는 한글 AI' 미디어젠, '멀티세션 모델' 개발 성공

2023.03.20 편집부  |  CIO KR
음성 기반의 인공지능(AI) 전문 기업 미디어젠(www.mediazen.co.kr)이 한국어 멀티세션 대화 데이터를 성공적으로 구축해 한글 챗봇을 고도화했다고 밝혔다. 과학기술정보통신부의 기금 사업으로 한국지능정보사회진흥원(NIA)이 추진하는 2022년 인공지능(AI) 학습용 데이터 구축 사업에 참여한 결과다.

미디어젠이 만든 이 데이터는 채팅 텍스트로 이루어져있다. 데이터 규모는 멀티세션 8만 개, 단일 세션 기준으로는 22만 세션, 그리고 총 308만개의 발화 세션으로 구성돼 있다. 멀티세션 대화란 시간 간격을 두고 여러 차례 나눈 대화를 일컫는다. 두 번, 세 번, 혹은 네 번에 걸쳐 대화가 진행되었으며, 이런 멀티세션 대화 데이터는 이전 세션 정보를 참고하여 현재 세션 대화에 반영하는 대화 모델 개발에 사용된다. 

미디어젠의 윤종성 리더는 "외국 회사들의 알고리즘, 예를 들어 브렌더봇(BlenderBot) 2.0 같은 것은 성능이 뛰어나지만 영어로 학습되어 한국어 성능이 기대에 미치지 못했다"라며 "그러나 이번 한국어 멀티세션 대화 데이터 구축을 통해 연속된 대화를 기억하고 반영하는 한국어 챗봇 인공지능을 성공적으로 개발할 수 있었다"라고 말했다. 

이전 한국어 챗봇들은 대화의 연속성이 부족했지만, 미디어젠이 개발한 인공지능 대화 모델은 긴 맥락에서 연속된 대화를 기억하고 반영하여 대화의 연속성을 확보할 수 있다. 이로 인해 사용자는 챗봇이 이전 대화를 기억하고 있다는 인상을 받을 수 있다.

이 한국어 멀티세션 대화 데이터를 기반으로 다양한 인공지능 챗봇 서비스를 구현할 수 있다. 예를 들어, 독거 노인들의 건강 상태 체크, 자녀의 학교 숙제나 활동 확인, 문제 해결이나 제품/서비스를 안내하는 기능 제공 등 이전 대화 내용을 기억하는 것이 특히 중요한 분야에서 활용될 것으로 기대된다. 또한 업체 측은 여러 기관이 개발 중인 한국형 챗GPT에도 이 멀티세션 대화 데이터가 기여할 수 있다고 전했다.

한편, 미디어젠은 음성 및 언어 AI 전문 연구소 ‘남즈(NAMZ) 연구소’를 운영하고 있으며, AI 음성 인식 기술을 활용한 AICC 스마트 콜봇, AI 에듀테크, AI 헬스케어, AI 키오스크 등 다양한 인공지능 관련 사업을 성공적으로 진행하고 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.