신경망 기계 번역, 챗봇, 채용 툴, 대화 검색··· 기업의 자연어처리 활용 분야

CIO
자연어처리(Natural Language Processing, NLP)는 기업을 위한 신생 기술 이상의 것이다. 대신 매일 널리 쓰이는 보편적 기술이다. 온라인 검색, 철자 검사 등 언어가 연관된 거의 모든 기능에는 자연어처리 알고리즘이 개입한다.  
 
ⓒgeralt

NLP 알고리즘은 컴퓨터가 사람처럼 언어를 사용하도록 가르친다. 사람이 일련의 문서로부터 수작업으로 정보를 검색할 때에는 마치 검색 엔진이 그러하듯이 핵심어를 찾아 문서를 훑어볼 것이다. 이것이 최초의 NLP 형태라 할 수 있는 기계 번역이 2차 세계대전의 암호 해독 기법에서 만들어진 이유다. 개발자들은 기계 번역이 러시아어를 영어로 번역하기를 바랐다. 결과는 참담했다. 그러나 코드 프로그래머들은 포기하지 않았고, 새로운 형태의 머신러닝을 탄생시켰다. 그리고 기업은 번역이 없으면 국제적으로 성장할 수 없기 때문에 NLP는 처음부터 비즈니스 용례를 가진 기술이었다. 오늘날 자연어처리는 직장에서 통신 자체만큼이나 필수적이다. 

아래에서는 우리가 주저 없이 적용할 4가지 NLP 비즈니스 애플리케이션을 소개한다. NLP를 이용하려는 회사라면 이들을 우선 검토하는 것이 바람직하다. 

1. 신경망 기계 번역 
기계 번역(MT)은 우스꽝스러웠지만, 요즈음은 상당히 좋아진 편이다. 자연어처리 소프트웨어는 사람과 같은 방식으로 언어를 학습하기 때문에 초기 기계 번역은 걸음마 단계였다고 보면 된다. 시간이 가면서 더 많은 단어가 엔진에 추가되었고, 이내 기계 번역은 성장하였다. 기계 번역 품질은 본질적으로 기계 번역이 다루는 단어의 수에 좌우된다. 이는 시간이 걸리고, 처음에 기계 번역(MT)을 확장하기가 어려웠던 이유였다. 

다행스럽게도, 번역 엔진이 성장하기를 기다리는 것을 원치 않는 기업을 위한 신경망 머신러닝(Neural Machine Learning)이 있다. 2016년 마이크로소프트 빙 트랜스레이터(Bing Translator)는 이 기술을 도입한 최초의 번역기였다. 구글 트랜스레이트와 아마존 트랜스레이트 역시 경쟁에 뛰어들었다. 신경망이 도입되기 전에 기계 번역 엔진은 오직 한 방향으로만 작용했다. 예컨대 스페인어에서 영어, 이런 식이었다. 영어를 스페인어로 번역하려면 상이한 데이터 세트를 가지고 처음부터 다시 시작해야 했다. 그리고 제 3 언어를 추가하는 것은 매우 까다로웠다. 신경망 기계 번역이 출현함에 따라 엔지니어는 데이터를 교차 적용할 수 있다. 이는 발전을 급속히 가속했고, 몇 년이 아닌 몇 달 만에 기계 번역 엔진을 훌륭한 도구로 만들었다. 그 결과 기업은 중요하지 않은 콘텐츠를 번역하는데 기계 번역을 안전하게 이용할 수 있다. 예컨대 제품 리뷰, 아무도 읽지 않는 규제 문서, 이메일 등이다. 

한가지 주의할 점이 있다. 무료 기계 번역 툴은 신경망이든 그렇지 않든 데이터 보안 위험이 있다는 것이다. 트랜스레이트닷컴(Translate.com) 유출 사건은 직원 비밀번호, 연락처, 여타 신분 식별 정보(PII)가 구글 검색 엔진에 표시되도록 만들었다. 아시아 온라인(Asia Online), 시스트란(Systran) 등에 의해 만들어진 전문적인 커스텀 번역기를 이용한다면 기계 번역 자체는 완벽하게 안전하다. 무료 툴에 온라인으로 입력하는 데만 주의하면 된다.  

2. 챗봇 
기계 번역이 가장 오래된 자연어처리 실례의 하나라면 챗봇(chatbots)은 가장 최신의 실례이다. 봇은 슬랙, 스카이프, 마이크로소프트 팀즈 등의 프로그램에 통합되어 기능을 간소화한다. 이들이 처음 출현했을 때 챗봇은 소비자 지향적이었다. 예를 들어 페이스북 메신저에 ‘피자’를 입력하면 도미노 봇이 주문에 대해 질문하는 식이다. 이러한 접점은 B2C 매출을 견인하는데 유익할 수 있지만, B2B 세계라면 슬랙에서 불쑥 튀어나오는 알림을 보고 구매를 원하는 사람은 없을 것이다. 

따라서 지난해 동안 신생기업들은 이 기술을 다른 영역에 적용하였다. 즉 대다수 엔터프라이즈 봇은 HR을 최적화한다. 첫 번째로는 탤라(Talla)가 있다. 이는 직원의 평범한 질문, 예컨대 ‘휴가가 얼마나 남아있지?’ ‘보험이 언제부터 적용되는가?’’ 등에 대답하는 자연어처리 툴이다. 챗봇 폴리(Chatbot Polly)는 직장 만족도로부터 휴게실에서 원하는 스낵에 이르기까지 직원을 대상으로 설문을 한다. 그리고 슬랙 및 팀즈 봇인 그로우봇(Growbot)이 있다. 이는 직원이 서로를 얼마나 자주 칭찬하는지를 모니터링한다. ‘kudos’, ‘cheers’, ‘prop’ 같은 단어가 사용되면 직원은 보상을 받는다. 공동설립자이자 CEO인 제레미 밴드히는 이 봇이 직원을 유지하고 사기를 복돋는 데 유용하다고 말했다. 

3. 채용 툴 
HR에 있어서 자연어처리 소프트웨어는 채용 담당자가 이력서를 분류하는데 오랫동안 도움을 주었다. 자동화된 후보자 찾기 툴은 구글 검색과 동일한 기법을 이용하면서 지원자의 CV를 스캔해 직무에 필요한 경력을 가진 사람을 찾아낸다. 그러나 초기의 기계 번역과 마찬가지로 이들 플랫폼의 분류 알고리즘은 여러 오류를 범했다. 한 지원자가 자신을 ‘외부 영업직’이 아닌 ‘사업 성장 브레인스토머’라고 썼다고 하자. 이 지원자의 이력서는 결과에 나타나지 않을 것이고, 회사는 참신하고 고객 지향적인 지원자를 놓치게 된다. 

오늘날의 시스템은 정확한 키워드 매칭을 넘어선다. 예를 들어 스카우트는 HR이 제시한 키워드를 검색하면서 동의어 문제에 대처하고, 이를 바탕으로 찾아야 할 새로운 단어를 식별한다. 새로운 용어를 추가함으로써 유자격 후보자가 결과에서 제외되는 것을 막는다. 그리고 여성과 소수자는 다른 언어를 사용하기 때문에 채용 프로세스는 이 둘을 확실히 찾아내도록 해야 한다. 

물론, 사람이 지원 자체를 하지 않는다면 다양한 후보자를 검토할 수 없다. 이 문제를 처리하는 데에는 텍스티오(Textio)가 있다. 공동설립자이자 CEO인 키런 스나이더는 이 증강 작문 툴이 기계어 처리 기법의 하나인 의미적 분류를 이용해 지원자가 중성적 직무 내용을 작성하도록 돕는다. 0~100 범위에서 작성 중인 게시물을 채점하면서 텍스티오는 어휘, 구문, 그리고 ‘점을 추가하시오’ 같은 포맷 팁을 제공한다. 이러한 변화를 이행하면, 고객 사례 연구에서 보듯이 지원자 수가 급격히 증가할 것이다. 스나이더는 존슨앤드존슨의 경우 여성 지원자가 9% 증가했다고 말했다. 애버리 데니슨은 60%가 증가했고, 익스피디아는 중성적 직무가 거의 3주에 앞서 충원되었다고 한다. 
 
---------------------------------------------------------------
자연어처리(NLP) 인기기사
->자연어 처리란? 비즈니스에 어떻게 활용하나?
->자연어 처리는 일각일 뿐··· 챗봇 구축의 8가지 과제
->요즘 화제 '챗봇'··· CMO가 알아야 할 7가지
->"FB 메신저 기반 챗봇 개발해보니..." 트룰리아가 전하는 교훈
->챗봇 개발 경험자가 전하는 3가지 교훈
->'생각보다 복잡' 자연어처리는 어떻게 작동하나
->페이스북, 자연어 처리 프로젝트를 오픈소스로 전환
->칼럼 | AI 활용사례를 통해 본 기업의 미래
---------------------------------------------------------------

4. 대화 검색 
탤라와 마찬가지로 세컨드 마인드(Second Mind)는 직원의 질문에 모두 대답을 하고 싶어 한다. 그러나 이 툴은 봇이 아니다. 이는 음성에 의해 작동하는 플랫폼이고, 회사의 회의를 경청하며 ‘무엇이’, ‘내가 궁금한 점은’과 같은 트리거 어구를 찾는다. 이들을 찾으면 스카우트 마인드의 검색 기능은 작동을 시작하여 문장의 나머지 부분의 답을 찾는다.  

예를 들어 이사회 회의에 있을 때 누군가가 ‘지난해 ROI가 얼마였지?’라고 묻는다. 세컨드 마인드는 조용히 회사의 재무 데이터를 검색하고 회의실 내 스크린에 결과를 표시한다. 설립자인 쿨 싱은 직원들이 평균적으로 하루의 30%의 시간을 정보 검색에 사용하고, 이의 연간 비용이 1인당 1만 4,029달러에 이른다고 답했다. 그리고 실시간 대화에서 검색을 간소화하면서 세컨드 마인드는 생산성 증대를 약속한다.  

탤라의 공동설립자이자 CEO인 롭 메이는 “울프람(Wolfram), 시맨틱 머신(Semantic Machines), 뉘앙스(Nuance), 마이크로소프트가 모두 연관 프로젝트를 진행 중인 것으로 알고 있다”라고 말했다. ciokr@idg.co.kr