Offcanvas

AI

AI 챗봇 ‘심심이’, 연구 위해 대화 데이터 공개 본격화

2022.08.01 편집부  |  CIO KR
인공지능(AI) 챗봇 ‘심심이’가 인공지능/빅데이터 연구자를 위한 데이터 공개를 본격화한다. 심심이는 20년 동안 축적해 온 초거대 대화 데이터를 7월부터 인공지능/빅데이터 연구·개발 커뮤니티에 공개한다고 1일 밝혔다.

심심이는 대화 데이터 특성을 감안해 웹서비스 깃허브(GitHub) 등에 전면 공개하는 방식을 활용하지 않기로 했다. 연구자 또는 연구팀 개별 신청을 접수 받은 뒤 심사, 비밀 유지 서약 등 관련 절차를 마친 다음 요구사항에 따라 제공 및 관리하는 방식을 활용하기로 결정한 것이다. 심심이 대화 데이터를 제공받고자 하는 연구자라면 심심이 한국어 공식 블로그에서 신청서를 내려받아 작성한 다음 제출·승인 후 소정의 절차를 거쳐 이용할 수 있다.

AI 챗봇 심심이는 지난 2002년 서비스를 처음 시작한 이래 10년 동안 한국어 대화 중심으로 운영돼 왔다. 이어 지난 2012년부터 글로벌 서비스를 시작해 81개 언어를 바탕으로 전 세계 4억 명 이상의 누적 사용자를 확보했다.

심심이 측은 다양한 언어를 사용하는 세계 각국에서 고르게 인기를 누릴 수 있었던 요인은 사용자가 직접 학습시킬 수 있는 인공지능 챗봇 심심이의 특성 때문이라고 설명했다. 유저가 방금 가르친 대화를 심심이가 바로 습득한다는 점에서 신선한 흥미를 유발한 것이다. 이러한 매력이 입소문을 타면서 글로벌 AI 챗봇으로 거듭날 수 있었다는 평가다.

실제로 심심이는 특유의 커뮤니케이션 구조 덕분에 생동감 넘치는 대화를 전개하며 갈수록 더욱 많은 데이터를 확보하고 있다. 이번에 심심이가 공개하기로 한 대화 데이터의 총 수량은 약 150억 건이다. 이 가운데 한국어 대화 데이터는 약 3억 건에 이른다. 대화 데이터 유형은 사용자가 심심이에게 가르친 대화 시나리오(싱글턴), 사용자-심심이 대화 데이터(준 멀티턴), V2 서비스의 심심이-심심이 대화 데이터(멀티턴) 등으로 나뉜다.

특히 심심이는 이미 10여 년 전부터 대화 기술을 이용하고자 하는 전 세계 개발자들을 위해 API(Application Programming Interface) 제공 서비스를 오픈했다. 그 결과 3만 여 개 이상의 크고 작은 서드파티 기업 및 개인에게 제공하는 등 여러 노력을 하였다.

최근에는 개발자 사이트인 심심이 챗봇공방에서 공공성 기반 연구개발 프로젝트에 무료 제공 혹은 할인 혜택을 진행하고 있다. 이에 따라 초·중등 교육 프로그램, 박물관 도슨트, 장애인 보조를 위한 챗봇 연구 개발 등 여러 프로젝트에서 호응을 얻고 있다. 그러나 심심이 측은 API 수준의 데이터 제공만으로는 연구 시각을 다양화하는데 부족한 면이 많다고 판단했다. 따라서 원천데이터 수준의 공개를 결정했다는 설명이다.

심심이 최정회 대표는 “최근에는 과학기술정보통신부가 주관하고 한국지능정보사회진흥원이 추진하는 2022년도 인공지능 학습 데이터 구축사업에서 한국어 블렌더봇 데이터 과제를 수행하며 공공 대화 데이터 구축에도 힘을 쏟고 있다”라고 “이 과정에서 한국어 챗봇 연구개발을 위한 대화 데이터가 빈약한 점이 안타까웠는데 적어도 연구자들에게는 보다 폭넓게 대화 데이터를 제공할 수 있다는 점을 착안했다”라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.