생성형 AI 기술 경쟁이 본격화되는 모양새다. 대기업, 스타트업 가릴 것 없이 각자의 철학을 담은 생성형 AI 기술이 더 쏟아져 나오고 있다. 보통 생성형 AI 서비스의 모습은 질문에 답변을 제공하거나, 자동화를 도와주거나 글이나 이미지 등을 대신 창작하는 경우가 많다. 키토크AI(KeyTalkAI)라는 스타트업은 이러한 생성형 AI 생태계에서 독특한 위치에 서있다. ‘프롬프트 엔지니어링(Prompt Engineering)’를 전면에 내세워 경쟁력을 만들고 있는 것이다. 도준웅 키토크AI 대표 ⓒ 키토크AI 자동 데이터 라벨링 및 AI옵스 엔진 ‘KATS’
2014년 설립된 키토크는 프롬프트 엔지니어링 및 AI옵스(AIOps) 기반의 운영 자동화 기술을 제공하고 있다. 아직 낯선 기술 개념인 ‘프롬프트 엔지니어링’을 앞세웠음에도 불구하고 키토크AI는 많은 투자자에게 관심을 받았다.
도준웅 키토크AI 대표는 “국내 해외 막론하고 키토크AI와 비슷한 서비스를 찾아보기 어렵다”라며 “기술의 고유성 때문에 외부 투자사들의 반응이 좋았다. AWS 파트너 네트웍스 선정 전 아마존 본사에서는 키토크AI 기술력 수준에 대해 높은 평가를 해주었다”라고 밝혔다. 키토크AI의 누적 투자액은 약 400억이며 카카오가 2대 주주이다.
키토크AI를 이해하기 위해서는 일단 프롬프트 엔지니어링 개념부터 짚고 가야 한다. 프롬프트 엔지니어링이란 ‘AI에게 높은 수준의 결과물을 얻기 위해 적절한 프롬프트를 구성하는 작업’을 말한다. 챗GPT에게 원하는 답변을 제대로 받기 위해 질문을 구체적으로 하는 것도 프롬프트 엔지니어링이라고 볼 수 있다. 키토크AI 기술의 핵심이 그렇다. AI 서비스가 보다 나은 결과값을 출력할 때 필요한 일종의 사용자 접점 기술을 키토크AI에서 만들고 있다.
AI가 보다 더 정확하고 맥락에 맞는 결과를 내놓으려면 무엇이 필요할까? 키토크AI는 양질의 데이터라고 답한다. 특히 AI가 정답지처럼 보는 고품질 라벨링 데이터가 필요하다고 보는 것이다. AI 모델은 오픈AI, 구글 등에 의지하더라도 지속적으로 업데이트되는 양질의 데이터는 각 기업이 보유해야 하며, 그 과정에서 필요한 인프라를 키토크AI가 만들겠다는 전략이다.
물론 데이터 라벨링 기술 자체는 이미 오래전부터 존재했다. 다만 기존의 데이터 라벨링이 ‘라벨러’ 역할을 맡은 사람이 수동으로 정보 값을 입력하는 것에 비해 키토크AI의 기술은 ‘자동화’와 ‘사전 학습 데이터’로 차별화를 꾀했다.
가령 영화 추천 서비스를 위해 라벨링 작업을 거친다고 해보자. 어떤 영화가 어떤 범주에 들어가는지 알려면 라벨러가 영화의 속성 값을 수동으로 입력해야 한다. ‘예’ 혹은 ‘아니오’ 같은 간단한 정보를 입력하거나 ‘로맨틱 영화’라는 값을 따로 입력해 놓을 수 있다. 다만 사람이 직접 하다 보니 라벨링 속도가 느려지며 라벨러를 고용하는데도 비용이 늘 수 있다. 기업 규모가 크거나 추천 및 검색 서비스가 강한 곳은 더 정교한 속성 값을 얻기 위해 데이터 라벨링 작업에 큰 비용을 투자하고 있다.
키토크AI의 라벨링 기술은 전통적인 수동 작업 중 약 90%를 자동화했다. 이때 자동화하는 과정에서 ‘키토크’라는 산업별 맥락을 고려한 사전 학습된 자체 데이터가 활용됐다. 키토크라는 사전 데이터로 자동 라벨링의 단점이었던 ‘낮은 정확도’라는 문제도 해결할 수 있었다. 다시 말해 키토크라는 정답지 데이터를 기반으로 사람이 검수한 수준만큼의 고품질 라벨링 결과물을 구현한 것이다.
‘키토크’라고 불리는 사전 학습된 데이터는 특정 단어와 관련된 단어를 점수화해서 연결해 놓은 것이 특징이다. 예를 들어 영화 카테고리에 저장된 키토크 데이터에는 ‘로맨틱’이란 단어에 ‘눈물이 나는’, ‘사랑스러운’, ‘첫사랑’, ‘삼각 관계’같은 단어를 연결해 놓고 연관 수준도 점수화해 놓았다. 이렇게 연결된 단어는 사람들의 질문의 맥락을 더 잘 이해하는 기반을 마련해 준다. ‘로맨틱 영화를 추천해 줘’라고 질문을 던졌을 때 ‘로맨틱’이란 라벨링 정보가 붙여진 영화 외에도 ‘눈물이 나는’ 영화, 첫사랑 영화 삼각관계가 등장하는 영화 등이 점수 조합에 따라 다양하게 추천되는 것이다.
키토크AI가 구축한 ‘키토크’ 데이터 예시. 로맨틱한이란 표현 연관된 단어를 연결하고 관련 수준을 점수화했다 ⓒ 키토크AI
도준웅 대표는 “약 10년동안 키토크 데이터를 만드는 데 많은 엄청난 투자를 했고 실제로 키토크가 타 기업과의 기술 격차를 만든 핵심 경쟁력이다”라며 “자체 보유한 데이터, 소셜 데이터, 뉴스 데이터 등을 데이터 소스를 가지고 전처리, 추출, 검증, 실시간 업데이트, 보정, 점수화 등 20가지가 넘는 주요 공정을 거쳐 40여 개 카테고리의 의미 있는 사전 학습 데이터를 구축했다. 거기다 관련된 작업은 모두 자동화돼 운영된다”라고 설명했다.
키토크AI의 B2B 핵심 서비스인 KATS(Keytalk AI Transformation Suite)는 이러한 자동 라벨링 기술을 포함해 연관 데이터를 새로 수집하고 정제 및 관리하는 전 과정에 도움을 준다.
도준웅 키토크AI 대표는 “수동 라벨링은 작업 속도가 낮기도 하지만 라벨링 내용의 수준이 제한적이라는 단점이 있다. 사람이 떠올릴 수 있는 표현의 종류 수는 300~500가지에 한정되기에 단어의 연관성을 파악하고 계속 이어주는 데는 한계가 있는 것이다. 자동 레벨링의 경우 각 단어의 연관성을 거의 무한대로 확대하면서 데이터 라벨링 정보가 풍해진다는 장점이 있다. 뿐만 아니라 기존의 라벨링은 단어 자체이지만(2진수), 키토크는 맥락 정보와 점수가 지속 반영되는 기존에 없던 라벨링 기술로 산업 자체의 패러다임을 바꾸고 있다”라고 설명했다.
AI에게 보다 간편하게 질문하다···“프롬프트 기반 AI 혁신 이끈다”
키토크AI의 기술은 기존 프롬프트 엔지니어링과 사뭇 다른 접근법을 제시한다. 보통 챗GPT 이용 팁으로는 ‘원하는 답변을 잘 받기 위해서 ‘질문’을 더 잘하라’라는 조언이 있다. 챗GPT에 ‘여행지 추천해줘’라고 입력하지 말고 ‘추석 연휴 2박 3일로 4인 가족이 100만원 이하로 갈 수 있는 바다 근처 여행지를 추천해줘’라고 물어야 답이 더 잘 나온다는 뜻이다. 하지만 키토크AI는 새로운 방식을 제시한다. 애초부터 단어간 연결성이 잘 반영된 데이터를 활용해 간단한 질문이라도 질문의 맥락을 더 잘 이해하는 서비스를 만들자는 것이다.
예를 들어 ‘유럽에서 서핑하기 좋은 여행지와 호텔’이라고 검색했을 때 키토크 기술을 활용하면 미리 사전에 연결해 놓은 데이터로 질문의 맥락을 한 번 더 확인한다. 사람들의 검색어나 소셜 데이터를 참고해서 유럽 서핑 여행지라는 단어에 인기 스페인 야지아(Yaiza) 지역, 포르투갈 나자레 (Nazare)가 미리 연결해져 있기 때문에 추가적인 질문 없이도 관련 답변을 AI가 단번에 내놓을 수 있는 것이다.
도준웅 대표는 키토크AI가 자체적으로 만든 호텔 추천 서비스 스테이피아에서 관련된 기술 실험을 이미 진행했다. 챗GPT에서 플러그인(질문 자체는 챗GPT에게 묻지만 플로그인을 활성화 경우 챗GPT는 플러그인 제공 업체의 데이터도 함께 고려해서 답변을 제시함)으로 스테이피아 정보를 불러와 질문을 했을 때 글로벌 경쟁 서비스인 익스피디아, 카약의 플러그인보다 훨씬 정확도 높은 답변을 내놓았다고 강조했다.
즉 ‘유럽에서 서핑하기 좋은 여행지와 호텔을 알려줘’같은 질문을 챗GPT에 던졌을 때 타사 플러그인을 활용하면 추가 선호도를 묻는 질문이 나오거나 제대로 된 답변을 제공하는데 실패하는데, 스테이피아 플러그인은 답을 적절하게 제공했다는 것이다. 도준웅 대표는 스테이피아에서 활용되는 키토크 데이터 덕이라고 설명했다. 챗GPT 플러그인에서 여행추천 서비스가 작동하는 방식 예. 왼쪽이 익스피디아 플러그인, 오른쪽이 스테이피아 플러그인 ⓒ 키토크AI
이런 데이터를 이용하면 AI의 서비스 모습도 달라질 수 있다. 즉 현재 챗GPT처럼 질문을 바로 입력하기 보다 일종의 예시 답변이나 연관 단어를 AI 서비스에 넣을 수 있는 것이다.
키토크가 만든 AI 시놉시스 창작 서비스 ‘마이무비 플러스’를 보면 이해하기 쉽다. 시놉시스 제작을 원하는 사용자는 마이무비 플러스 왼쪽에서 일단 원하는 장르를 선택하면 된다. 영화의 컨셉, 플롯, 캐릭터, 시각효과, 연출 등 다양한 카테고리를 선택하면 각 카테고리에 맞는 추천어가 뜬다.
키토크 AI 기술의 장점은 다음 단계다. 인물을 선택했다면 ‘자유로운 영혼의’, ‘고리타분한’, ‘명랑한’ 같은 연관 단어가 수백 개에서 수천 개가 나온다. 플롯을 선택하면 ‘반전이 있는’, ‘SF장르의’, ‘전개가 빠른’같은 연관 검색어가 많이 나온다. 기존에 만들어 놓은 ‘키토크’라는 데이터에서 서로 연관된 데이터를 노출한 것이다. 키토크AI가 만든 AI 기반 시놉시스 생성기 예시 ⓒ 키토크AI
사용자 입장에선 몇몇 클릭으로 입력된 정보로 자동으로 질문을 만들고 시놉시스를 생성할 수 있다. ‘자유로운 영혼의 주인공이 우주 배경의 반전이 있는 내용의 시놉시스를 써줘’같은 문장을 일일이 입력하지 않아도 된다. 클릭 몇 번 만으로 AI에게 질문을 보낼 수 있고, 무엇보다 구체적으로 질문을 생각하는 데 시간을 쏟을 필요가 없다는 게 장점이다. 시놉시스 생성 과정에서는 챗GPT 모델을 활용했는데, 향후 다른 모델도 추가될 수 있다고 한다. 키토크AI는 연관 단어 조합을 계속 클릭하면서 최대 조 단위 개수의 다양한 영화적 표현을 프롬프트로 질문하는 것이 가능하다고 설명했다.
도준웅 대표는 마이무비 플러스 같은 서비스로 생성형 AI의 새로운 UI를 구현할 수 있다고 이야기를 이어갔다. 마치 과거 윈도우에서 마우스를 활용하면서 클릭과 드래그앤드롭 방식의 UI를 제공한 것처럼 생성형 AI 서비스에 보다 간편하게 질문을 던질 수 있는 방법을 제시했다는 것이다.
앞으로 도준웅 대표는 해외와 국내 모두에 KATS를 적극 내세울 계획이다. 이미 KATS 시스템을 적용해 만든 AI 창작 서비스, 추천 서비스, 검색 서비스도 운영하고 있다. 이런 B2C 서비스는 원래 데이터 확보용으로 구축했지만 현재 사용자 수가 증가하면서 일부 서비스는 유료로도 제공할 계획이다.
도준웅 대표는 “현재 영화, 뷰티, 여행, 팬덤 산업 데이터를 중심으로 서비스를 내고 있지만 다른 산업 분야의 데이터도 확장해서 구축할 예정이다. 키토크AI를 단순히 데이터 라벨링 기업이라고 오해하곤 하는데, 우리는 기존의 데이터 라벨링 기업과는 완전히 다른 철학을 가지고 있으며 동시에 AI옵스엔진(AI Ops Engine) 전문 기업으로 나아가고 있다. 향후 AI 기반 프롬프트 서비스 혹은 고도화된 검색, 추천 서비스 개발이 필요한 기업과 파트너십을 모색하며 기반을 확장할 것이다”라고 밝혔다.
jihyun_lee@idg.co.kr