2018.03.05

자연어 처리란? 비즈니스에 어떻게 활용하나?

Terena Bell | CIO
자연어 처리 컴퓨터가 사람처럼 언어를 이해하고 처리하며 구사하게 해주는 인공지능의 한 분야며, 기업의 NLP 사용이 급속히 증가하고 있다.



자연어 처리란 무엇인가?
자연어 처리(NLP, natural language processing)이란 커뮤니케이션과 관련된 인공지능 기술의 한 갈래다. 사람처럼 언어를 이해하고, 처리하며, 구사하도록 컴퓨터를 프로그래밍하는 것이 과연 가능할까?

원래 NLP는 시스템의 독해 역량만을 가리키는 용어였으나 시간이 지나며 이제는 모든 언어적 활동을 일컫는 단어로 자리 잡았다. NLP의 하위 카테고리로는 컴퓨터가 자체적으로 커뮤니케이션할 수 있는 자연어 구사(NLG, natural language generation), 그리고 속어, 발음 실수, 맞춤법 실수 등 언어의 다양한 변수까지 이해할 수 있는 자연어 이해(NLU, natural language understanding) 등이 있다.

자연어 처리는 어떻게 기능하는가
자연어 처리는 머신러닝(ML)을 통해 이뤄진다. 머신러닝 시스템은 여타 다른 데이터를 수집하는 것과 마찬가지로 다양한 단어와 그 단어들이 어떻게 상호작용 하는가에 대한 정보를 저장한다. 문구, 문장, 때로는 책 전체를 ML 엔진에 피딩하며, ML 엔진은 문법 규칙이나 발화자의 실생활 속 언어 사용 습관에 기초해 이러한 자연어를 처리하게 된다. 컴퓨터는 이 데이터를 이용하여 패턴을 찾아내고, 발화자가 다음에 하게 될 말을 유추한다. 번역 소프트웨어를 예로 들어보자. 불어에서 “나는 공원에 간다”는 “Je vais au parc”이다. 이 데이터를 피딩받은 머신러닝 시스템은 추후 발화자가 “나는 가게에 간다”라고 말할 때도 “Je vais au”로 시작하는 문장을 만들게 된다. 즉 최초 문장에 대한 분석이 끝난 상황에서 추후 발화 내용을 번역할 때에는 유일하게 달라진 단어인 ‘가게’만 새로 가져오면 되는 것이다.

자연어 처리 기술, 어디에 주로 사용될까
기계 번역은 NLP 애플리케이션이 성공적으로 활용된 사례 중 하나임에도 불구하고 생각보다 많이 사용되지는 않고 있다. 그보다는 검색이 훨씬 더 널리 이용된다. 구글이나 빙에서 뭔가를 검색할 때 여러분은 사실 해당 시스템에 데이터를 피딩해 주는 것이다. 또한 검색 결과들 중 하나를 클릭하면 시스템은 이를 자신이 찾은 결과가 적합했다는 신호로 인식하고 향후 검색에 이 정보를 이용해 검색 정확도를 높인다.

챗봇도 작동 기전은 비슷하다. 챗봇은 슬랙, 마이크로소프트 메신저, 그리고 기타 언어를 읽을 수 있는 챗 프로그램들과 결합하여 키워드를 말하면 활성화된다. 시리나 알렉사 같은 음성 어시스턴트 기술 역시 ‘헤이 알렉사’ 같은 구문을 들으면 활성화된다. 그 때문에 일각에서는 이들이 항상 우리의 말을 엿듣고 있는 것으로 의심하는 것이다. 만일 그렇지 않다면 우리가 불렀을 때 그렇게 즉각 반응할 수 없으리라는 것이다. 앱을 수동으로 켜지 않는 이상, 자연어 처리 프로그램이 뒤에 숨어서 상시 구동되며 키워드를 말하기만을 기다리고 있다고 이들은 말했다.

하지만 설령 그것이 사실이라고 해도, NLP를 빅브라더쯤으로 생각해선 곤란하다. 자연어 처리 기술은 세상에 끼칠 해악보다는 장점이 훨씬 큰 기술이다. 구글 검색 없는 생활을 상상할 수 있는가? 또 NLP를 사용해 당신이 타이핑한 단어와 사전에 있는 단어들을 대조하고, 이를 통해 맞춤법이 맞는지 확인해 주는 맞춤법 검사 기능은 어떠한가? 맞춤법 검사는 두 개의 서로 다른 데이터셋을 대조하여 어떤 단어가 잘못되었는지, 어떻게 고치면 좋을지 등을 제안해 준다.

자연어 처리 기술, 비즈니스에 어떤 도움 줄까
우리는 검색이나 맞춤법 검사 기능 등 매일같이 사용하는 기능을 당연하게 여긴다. 그러나 만일 NLP 기술이 없었다면 직장에서 생산성이 얼마나 감소할지 생각해 본 적 있는가? 아직 안 쓴 연차가 얼마나 남았는지 알고 싶은가? 인사과에 전화할 필요 없이 ‘탈라(Talla)’에게 물어보면 된다. 탈라는 회사 내규를 자체적으로 검색하여 이러한 질문에 답해주는 챗봇이다. 통화 중에 지난 분기 관련 자료를 봐야 하는 상황이 온다면? 그저 대화 중에 자연스럽게 해당 자료를 언급만 해도 음성 검색 신생벤처 세컨드마인드(SecondMind)가 활성화되어 스크린에 필요한 자료를 찾아 준다. 세컨드마인드는 자사의 검색 툴 덕분에 회계 업무 및 고객 리소스 콜 등이 10배 가까이 짧아졌다고 자랑스럽게 이야기했다.

자연어 처리는 구직자 이력서를 분류하고, 다양한 지원자를 끌어들이며, 양질의 구직자를 선발하는 데에도 활용될 수 있다. 스팸 필터링 기능이 원치 않는 이메일을 걸러낼 수 있는 것도 NLP 덕분이다. 아웃룩이나 지메일 같은 메일 앱들은 NLP 기술을 이용해 특정 발신자에게서 온 이메일을 사용자가 지정한 폴더에 따로 옮겨 주기도 한다.

정서 분석(sentiment analysis)과 같은 툴은 트위터나 소셜미디어 등에 우리 기업에 대한 평가, 소문이 어떻게 나고 있는지를 빠르게 파악하여 고객의 요구 사항을 처리할 수 있게 해준다. 정서 분석은 단순히 소셜미디어에 등장하는 단어만 검색하여 처리하는 것이 아니라, 이러한 단어가 등장하는 맥락까지 고려한다. 분석 전문 업체 페리스코픽(Periscopic)의 데이터 시각화 전문가 스카이예 모레에 따르면, 영어 단어 중 ‘긍정적’으로 분류되는 단어는 전체의 30%밖에 되지 않는다. 나머지 70%는 중립적이거나 부정적인 단어들이다. NLP는 고객이 소셜미디어에 올린 기업에 대한 평가를 보다 전체적으로 이해할 수 있게 해 준다. 중립적으로 표현된 단어 뒤에 숨겨진 고객의 진짜 속마음은 무엇인가?

과거 기업들은 NLP를 이용하여 특정 피드백이 긍정적인지, 부정적인지 만을 분류하려고 하였다. 그러나 플레시먼힐러드(FleishmanHillard)의 소셜 및 혁신 부대표 라이언 스미스는 오늘날 NLP 기술이 슬픔, 화, 공포와 같이 보다 구체적인 감정을 파악할 수 있을 만큼 정교해졌다고 밝혔다.


자연어 처리 기술, 사회 정의를 위해서도 사용될 수 있다
데이터 처리 외에도, 정서 분석은 사회 현상을 이해하는 데에도 사용될 수 있다. 예를 들어 페리스코픽 사는 NLP와 시각 인식 기술을 결합하여 ‘트럼프-이모티코스터(Trump-Emoticoaster)’를 만들었다. 도널드 트럼프 대통령이 사용하는 언어, 짓는 표정을 분석하여 그의 감정 상태를 파악하는 데이터 엔진이다.

학교에서 발생하는 총기 사고 예방에도 이러한 기술을 이용할 수 있다. 콜럼비아 대학 연구진은 위험군에 포함되는 청소년 9천여 명의 트윗 200만 건을 분석하여 “폭력 행위의 징후를 보이기 직전 학생의 언어 사용이 어떻게 변화하는가”에 대한 답을 찾고자 했다.

본 연구 프로그램의 디렉터 데스먼드 패튼 박사는 “문제 소지가 있는 학생의 감정 변화에 따라 그가 사용하는 언어도 달라진다”고 말했다. 폭력 행위를 저지를만한 극한의 감정 상태에 가까이 몰릴수록 그는 도움을 청하는 것과 같은 언어를 사용하는 양상을 보이며, 자연어 처리 시스템이 이를 탐지해 경고 메시지를 보내면 사회 복지사들이 적절한 시기에 개입하여 사고를 방지할 수 있다.

페리스코픽과 마찬가지로, 콜럼비아 연구팀도 정서 분석과 이미지 인식 기술을 결합해 정확도를 높이고자 했다. 컴퓨터가 트위터에 첨부된 이미지를 분해하면 머신러닝이 이러한 이미지와 사용된 언어를 함께 처리, 분석하여 “슬픔, 위협과 같이 해당 이미지에 담긴 정서 상태를 보여준다. 또한 그 학생의 감정을 보다 복합적으로 이해할 수 있게 해 줄 다른 단서는 없는지도 분석하게 된다”고 패튼 박사는 설명했다. 총기 사고 외에도 이러한 프로그램이 집단 폭력 예방에도 도움이 되어 줄 것으로 콜럼비아 대학 연구팀은 기대하고 있다.

셀프 모니터링을 위한 자연어 처리
자연어 처리 기술은 나 자신의 감정 상태를 관리하는 데에도 물론 사용될 수 있다. 페이스북 메신저 챗봇이나 기타 단일 앱을 통해 사용자와 소통하는 전자 테라피 ‘우봇(Woebot)’이 그 좋은 예이다. 그렇지만 우봇의 경우 아직 고도로 복잡하고 풍부한 감정을 분석해 내는 단계는 아니며, 사용자가 위급한 상황에 부닥쳤음을 뜻하는 특정 단어만을 인식하여 우울이나 불안과 같은 정서만을 파악한다.

자연어 처리 기술의 미래
우봇은 NLP를 사용해 키워드를 찾아낸다. 하지만 커뮤니케이션 수준이 매우 조악하여 그 누구도 이 앱을 진짜 인간처럼 느끼지는 못할 것이다. 그러나 NLP가 오래 시장에 머물수록 성능은 향상될 것이다. 일부 프로그램들의 대화 수준이 너무나 정교해져서 이제는 보토미터(Botometer)나 봇오어낫(BotOrNot) 같은 툴을 사용해야만 이들이 봇인지 인간인지 구분할 수 있게 되었기 때문이다.

트위터나 페이스북에서 챗봇이 여러 방면으로 활용되고 있듯이, 이다음 단계는 어쩌면 NLP를 탐지해 내는 NLP 기술인지도 모른다. 보토미터와 봇 오어 낫 모두 컴퓨터의 의사소통 특성을 분석하는 툴들이다. 다행히도 우리는 이를 정확히 예측할 수 있는 시대에 살고 있다. 아무리 기술이 발전했다고는 하나, 오늘날 자연어 처리는 결코 완벽하다고는 할 수 없는 수준이다. 우봇 CEO 앨리슨 다시는 우봇이 자연어 이해에 완전히 의지하고 있지만 자연어 이해 기술 자체가 우봇의 가장 큰 기술적 약점이라고 인정했다. 그녀는 인사이드 AI(Inside AI)의 롭 메이와의 인터뷰에서 “자연어 처리 기술이 아직 극 초기 단계에 있다”고 말했다. ciokr@idg.co.kr
 

2018.03.05

자연어 처리란? 비즈니스에 어떻게 활용하나?

Terena Bell | CIO
자연어 처리 컴퓨터가 사람처럼 언어를 이해하고 처리하며 구사하게 해주는 인공지능의 한 분야며, 기업의 NLP 사용이 급속히 증가하고 있다.



자연어 처리란 무엇인가?
자연어 처리(NLP, natural language processing)이란 커뮤니케이션과 관련된 인공지능 기술의 한 갈래다. 사람처럼 언어를 이해하고, 처리하며, 구사하도록 컴퓨터를 프로그래밍하는 것이 과연 가능할까?

원래 NLP는 시스템의 독해 역량만을 가리키는 용어였으나 시간이 지나며 이제는 모든 언어적 활동을 일컫는 단어로 자리 잡았다. NLP의 하위 카테고리로는 컴퓨터가 자체적으로 커뮤니케이션할 수 있는 자연어 구사(NLG, natural language generation), 그리고 속어, 발음 실수, 맞춤법 실수 등 언어의 다양한 변수까지 이해할 수 있는 자연어 이해(NLU, natural language understanding) 등이 있다.

자연어 처리는 어떻게 기능하는가
자연어 처리는 머신러닝(ML)을 통해 이뤄진다. 머신러닝 시스템은 여타 다른 데이터를 수집하는 것과 마찬가지로 다양한 단어와 그 단어들이 어떻게 상호작용 하는가에 대한 정보를 저장한다. 문구, 문장, 때로는 책 전체를 ML 엔진에 피딩하며, ML 엔진은 문법 규칙이나 발화자의 실생활 속 언어 사용 습관에 기초해 이러한 자연어를 처리하게 된다. 컴퓨터는 이 데이터를 이용하여 패턴을 찾아내고, 발화자가 다음에 하게 될 말을 유추한다. 번역 소프트웨어를 예로 들어보자. 불어에서 “나는 공원에 간다”는 “Je vais au parc”이다. 이 데이터를 피딩받은 머신러닝 시스템은 추후 발화자가 “나는 가게에 간다”라고 말할 때도 “Je vais au”로 시작하는 문장을 만들게 된다. 즉 최초 문장에 대한 분석이 끝난 상황에서 추후 발화 내용을 번역할 때에는 유일하게 달라진 단어인 ‘가게’만 새로 가져오면 되는 것이다.

자연어 처리 기술, 어디에 주로 사용될까
기계 번역은 NLP 애플리케이션이 성공적으로 활용된 사례 중 하나임에도 불구하고 생각보다 많이 사용되지는 않고 있다. 그보다는 검색이 훨씬 더 널리 이용된다. 구글이나 빙에서 뭔가를 검색할 때 여러분은 사실 해당 시스템에 데이터를 피딩해 주는 것이다. 또한 검색 결과들 중 하나를 클릭하면 시스템은 이를 자신이 찾은 결과가 적합했다는 신호로 인식하고 향후 검색에 이 정보를 이용해 검색 정확도를 높인다.

챗봇도 작동 기전은 비슷하다. 챗봇은 슬랙, 마이크로소프트 메신저, 그리고 기타 언어를 읽을 수 있는 챗 프로그램들과 결합하여 키워드를 말하면 활성화된다. 시리나 알렉사 같은 음성 어시스턴트 기술 역시 ‘헤이 알렉사’ 같은 구문을 들으면 활성화된다. 그 때문에 일각에서는 이들이 항상 우리의 말을 엿듣고 있는 것으로 의심하는 것이다. 만일 그렇지 않다면 우리가 불렀을 때 그렇게 즉각 반응할 수 없으리라는 것이다. 앱을 수동으로 켜지 않는 이상, 자연어 처리 프로그램이 뒤에 숨어서 상시 구동되며 키워드를 말하기만을 기다리고 있다고 이들은 말했다.

하지만 설령 그것이 사실이라고 해도, NLP를 빅브라더쯤으로 생각해선 곤란하다. 자연어 처리 기술은 세상에 끼칠 해악보다는 장점이 훨씬 큰 기술이다. 구글 검색 없는 생활을 상상할 수 있는가? 또 NLP를 사용해 당신이 타이핑한 단어와 사전에 있는 단어들을 대조하고, 이를 통해 맞춤법이 맞는지 확인해 주는 맞춤법 검사 기능은 어떠한가? 맞춤법 검사는 두 개의 서로 다른 데이터셋을 대조하여 어떤 단어가 잘못되었는지, 어떻게 고치면 좋을지 등을 제안해 준다.

자연어 처리 기술, 비즈니스에 어떤 도움 줄까
우리는 검색이나 맞춤법 검사 기능 등 매일같이 사용하는 기능을 당연하게 여긴다. 그러나 만일 NLP 기술이 없었다면 직장에서 생산성이 얼마나 감소할지 생각해 본 적 있는가? 아직 안 쓴 연차가 얼마나 남았는지 알고 싶은가? 인사과에 전화할 필요 없이 ‘탈라(Talla)’에게 물어보면 된다. 탈라는 회사 내규를 자체적으로 검색하여 이러한 질문에 답해주는 챗봇이다. 통화 중에 지난 분기 관련 자료를 봐야 하는 상황이 온다면? 그저 대화 중에 자연스럽게 해당 자료를 언급만 해도 음성 검색 신생벤처 세컨드마인드(SecondMind)가 활성화되어 스크린에 필요한 자료를 찾아 준다. 세컨드마인드는 자사의 검색 툴 덕분에 회계 업무 및 고객 리소스 콜 등이 10배 가까이 짧아졌다고 자랑스럽게 이야기했다.

자연어 처리는 구직자 이력서를 분류하고, 다양한 지원자를 끌어들이며, 양질의 구직자를 선발하는 데에도 활용될 수 있다. 스팸 필터링 기능이 원치 않는 이메일을 걸러낼 수 있는 것도 NLP 덕분이다. 아웃룩이나 지메일 같은 메일 앱들은 NLP 기술을 이용해 특정 발신자에게서 온 이메일을 사용자가 지정한 폴더에 따로 옮겨 주기도 한다.

정서 분석(sentiment analysis)과 같은 툴은 트위터나 소셜미디어 등에 우리 기업에 대한 평가, 소문이 어떻게 나고 있는지를 빠르게 파악하여 고객의 요구 사항을 처리할 수 있게 해준다. 정서 분석은 단순히 소셜미디어에 등장하는 단어만 검색하여 처리하는 것이 아니라, 이러한 단어가 등장하는 맥락까지 고려한다. 분석 전문 업체 페리스코픽(Periscopic)의 데이터 시각화 전문가 스카이예 모레에 따르면, 영어 단어 중 ‘긍정적’으로 분류되는 단어는 전체의 30%밖에 되지 않는다. 나머지 70%는 중립적이거나 부정적인 단어들이다. NLP는 고객이 소셜미디어에 올린 기업에 대한 평가를 보다 전체적으로 이해할 수 있게 해 준다. 중립적으로 표현된 단어 뒤에 숨겨진 고객의 진짜 속마음은 무엇인가?

과거 기업들은 NLP를 이용하여 특정 피드백이 긍정적인지, 부정적인지 만을 분류하려고 하였다. 그러나 플레시먼힐러드(FleishmanHillard)의 소셜 및 혁신 부대표 라이언 스미스는 오늘날 NLP 기술이 슬픔, 화, 공포와 같이 보다 구체적인 감정을 파악할 수 있을 만큼 정교해졌다고 밝혔다.


자연어 처리 기술, 사회 정의를 위해서도 사용될 수 있다
데이터 처리 외에도, 정서 분석은 사회 현상을 이해하는 데에도 사용될 수 있다. 예를 들어 페리스코픽 사는 NLP와 시각 인식 기술을 결합하여 ‘트럼프-이모티코스터(Trump-Emoticoaster)’를 만들었다. 도널드 트럼프 대통령이 사용하는 언어, 짓는 표정을 분석하여 그의 감정 상태를 파악하는 데이터 엔진이다.

학교에서 발생하는 총기 사고 예방에도 이러한 기술을 이용할 수 있다. 콜럼비아 대학 연구진은 위험군에 포함되는 청소년 9천여 명의 트윗 200만 건을 분석하여 “폭력 행위의 징후를 보이기 직전 학생의 언어 사용이 어떻게 변화하는가”에 대한 답을 찾고자 했다.

본 연구 프로그램의 디렉터 데스먼드 패튼 박사는 “문제 소지가 있는 학생의 감정 변화에 따라 그가 사용하는 언어도 달라진다”고 말했다. 폭력 행위를 저지를만한 극한의 감정 상태에 가까이 몰릴수록 그는 도움을 청하는 것과 같은 언어를 사용하는 양상을 보이며, 자연어 처리 시스템이 이를 탐지해 경고 메시지를 보내면 사회 복지사들이 적절한 시기에 개입하여 사고를 방지할 수 있다.

페리스코픽과 마찬가지로, 콜럼비아 연구팀도 정서 분석과 이미지 인식 기술을 결합해 정확도를 높이고자 했다. 컴퓨터가 트위터에 첨부된 이미지를 분해하면 머신러닝이 이러한 이미지와 사용된 언어를 함께 처리, 분석하여 “슬픔, 위협과 같이 해당 이미지에 담긴 정서 상태를 보여준다. 또한 그 학생의 감정을 보다 복합적으로 이해할 수 있게 해 줄 다른 단서는 없는지도 분석하게 된다”고 패튼 박사는 설명했다. 총기 사고 외에도 이러한 프로그램이 집단 폭력 예방에도 도움이 되어 줄 것으로 콜럼비아 대학 연구팀은 기대하고 있다.

셀프 모니터링을 위한 자연어 처리
자연어 처리 기술은 나 자신의 감정 상태를 관리하는 데에도 물론 사용될 수 있다. 페이스북 메신저 챗봇이나 기타 단일 앱을 통해 사용자와 소통하는 전자 테라피 ‘우봇(Woebot)’이 그 좋은 예이다. 그렇지만 우봇의 경우 아직 고도로 복잡하고 풍부한 감정을 분석해 내는 단계는 아니며, 사용자가 위급한 상황에 부닥쳤음을 뜻하는 특정 단어만을 인식하여 우울이나 불안과 같은 정서만을 파악한다.

자연어 처리 기술의 미래
우봇은 NLP를 사용해 키워드를 찾아낸다. 하지만 커뮤니케이션 수준이 매우 조악하여 그 누구도 이 앱을 진짜 인간처럼 느끼지는 못할 것이다. 그러나 NLP가 오래 시장에 머물수록 성능은 향상될 것이다. 일부 프로그램들의 대화 수준이 너무나 정교해져서 이제는 보토미터(Botometer)나 봇오어낫(BotOrNot) 같은 툴을 사용해야만 이들이 봇인지 인간인지 구분할 수 있게 되었기 때문이다.

트위터나 페이스북에서 챗봇이 여러 방면으로 활용되고 있듯이, 이다음 단계는 어쩌면 NLP를 탐지해 내는 NLP 기술인지도 모른다. 보토미터와 봇 오어 낫 모두 컴퓨터의 의사소통 특성을 분석하는 툴들이다. 다행히도 우리는 이를 정확히 예측할 수 있는 시대에 살고 있다. 아무리 기술이 발전했다고는 하나, 오늘날 자연어 처리는 결코 완벽하다고는 할 수 없는 수준이다. 우봇 CEO 앨리슨 다시는 우봇이 자연어 이해에 완전히 의지하고 있지만 자연어 이해 기술 자체가 우봇의 가장 큰 기술적 약점이라고 인정했다. 그녀는 인사이드 AI(Inside AI)의 롭 메이와의 인터뷰에서 “자연어 처리 기술이 아직 극 초기 단계에 있다”고 말했다. ciokr@idg.co.kr
 

X