2020.02.19

칼럼ㅣ대화 상대가 AI라고 알려야 할까?

Mike Elgan | Computerworld
챗봇이 항상 튜링 테스트(Turing Test)를 통과하고, 사람과 완벽하게 대화하는 수준에 도달한다면? 이야기를 나누는 상대가 AI라는 것을 밝혀야 할까? 아직 풀리지 않은 숙제다.

아마존을 먼저 살펴보자. 아마존은 기술을 주류화하는 데 입증된 성공 사례를 가지고 있다. 예를 들면 아마존은 2014년 11월 최초의 스마트 스피커 에코를 출시했고, 이것이 사람들의 일상에 깊숙이 들어가도록 만들었다. 또 다른 예로 아마존웹서비스도 있다. 아마존은 기업용 온디맨드 클라우드 서비스를 대중화하는 데 크게 기여했다는 평가를 받고 있다. 
 
ⓒJonny Lindner (CC0)

아마존이 2월 5일 새로운 서비스, 브랜드 보이스(Brand Voice)를 공개했다. 텍스트를 음성으로 변환하는 AWS 인공지능 서비스 폴리(Polly)를 기반으로, 기업 맞춤형 AI 음성을 생성해주는 기능이다.

앞선 사례를 감안한다면, 이제 쉽게 예측할 수 있다. 아마존은 브랜드 보이스를 통해 '음성'이 소닉 브랜딩(Sonic Branding)의 한 요소로써 일상에 자리 잡도록 만들 것이다. (소닉 브랜딩은 CM송, 제품이 내는 소리, 짧은 음악이나 소음 등 청각적 요소를 활용해 특정 브랜드를 상기시키는 마케팅을 일컫는다. 이를테면 맥 OS나 윈도우의 부팅음이나 과거 아메리카온라인(AOL) 통신 사용자들이 전자우편을 수신했을 때 들었던 알림(You've got mail!) 등이 있다.)

AI 음성 비서의 시대에서 ‘음성’ 자체는 곧 새로운 소닉 브랜딩이다. 브랜드 보이스는 기업만의 맞춤형 음성을 구축할 수 있도록 돕는다. 이는 온라인 또는 유선 고객 서비스에 활용될 수 있다.

생성된 음성은 실제 인물이나 혹은 브랜드를 인지하게 하는 특정 음색을 가진 가상 인물의 목소리로 구현될 것이다. 예를 들면 아마존은 KFC 캐나다와 함께 커넬 샌더스의 음성을 만들었다. 치킨 매니아들이 KFC의 설립자와 대화하는 느낌을 주도록 하기 위한 목적이었다. 

아마존의 음성 생성 프로세스는 획기적이다. 사람이 말하면서 내는 개별적인 소리를 시각적인 표현으로 변환하는 생성적 신경망(Generative neural network)을 사용한다. 그리고 음성 합성 장치가 시각화된 데이터를 오디오 스트림, 즉 음성으로 변환한다. 

이 학습 모델을 통해 사용자 맞춤형 음성을 불과 몇 시간 안에 생성할 수 있다. 이후 챗봇 AI를 통해 생성된 텍스트가 사용자 맞춤형 음성으로 읽히면서, 상대방과 대화를 나눌 수 있다. 

아마존은 브랜드 보이스를 통해 경쟁사인 구글과 마이크로소프트를 뛰어넘을 수 있다. 구글과 마이크로소프트도 클라우드 고객들이 선택할 수 있는 수십 개의 음성을 제공하지만, 맞춤화할 수 없거나 유일무이한 것이 아니기 때문에 소닉 브랜딩 측면에서는 쓸모가 없다. 

결국 구글과 마이크로소프트도 이 방향으로 나아갈 것이다. 이미 구글의 AI 전화 응대 서비스 듀플렉스(Duplex)는 인간과 자연스럽게 대화를 나눌 수 있는 것으로 유명하다. 그리고 구글의 챗봇 미나(Meena)도 인간처럼 이야기를 할 수 있다. 이런 기술이 맞춤형 음성과 결합되면 구글과 마이크로소프트도 아마존을 넘어설 수 있을 것이다. 더불어 많은 스타트업이나 대학도 관련 기술을 개발하고 있다. 

수천 개의 기업이 실제 사람 같은 기업 맞춤형 음성을 쉽고 빠르게 만들 수 있다면, 세상은 어떻게 바뀔까? 

도처에서 음성을 듣게 될 것이다
미래를 예측하는 좋은 방법은 기존의 여러 트렌드를 따르는 것이다. 즉, 여러 트렌드가 현재 속도를 유지할 경우 미래가 어떤 모습일지 가늠하는 것이다. 

이 방법으로 보자면, 다음과 같은 일이 일어날 수 있다. AI 기반 음성 상호작용이 거의 모든 것을 대체하는 미래다. 

· 알렉사, 시리, 구글 어시스턴트와 같은 음성 비서가 웹 검색을 대체한다. 또한 음성 비서가 채팅이나 이메일 등 서면으로 이뤄지는 커뮤니케이션에서 중개인 역할을 한다. 

· 거의 모든 텍스트 기반 챗봇(고객 서비스, 기술 지원 등)이 대화형으로 대체된다. 챗봇을 서비스하는 동일 백엔드에 음성 인터페이스가 제공된다.  

· 스마트폰, 노트북, 태블릿, 데스크톱 PC 등 기기와의 상호작용 대부분이 음성으로 이뤄진다. 

· 음성 인터페이스가 주가 되는 증강현실 글래스가 스마트폰을 대체한다. 

· 심지어 뉴스도 뉴스 리더와 분리된다. 독자들이 오디오, 비디오, 텍스트 등 원하는 뉴스 형태는 물론 선호하는 진행자도 선택한다. 미시간주립대학교가 개발 중인 대화형 에이전트, 딥토크(DeepTalk)를 예로 들 수 있다. 딥러닝을 활용해 문자-음성 변환 엔진이 특정인의 음성을 모방할 수 있도록 하는 기술이다. 이를 통해 독자가 원하는 뉴스 진행자의 목소리를 선택하면, 모든 뉴스를 해당 진행자의 목소리와 화법으로 읽도록 한다. 

요약하자면, 5년 이내에 사람들은 사물과 일상적으로 대화하게 될 것이다. 그리고 모든 사물도 사람들과 대화하게 될 것이다. AI 기반 음성 상호작용은 기술적 그리고 문화적으로도 영향력이 큰 트렌드다. 

딜레마: 대화 상대가 AI라고 밝혀야 하는가? 
거의 아무도 말하지 않지만, 기업들이 미래에 맞닥뜨리게 될 윤리적 딜레마가 있다. 고객과 마치 인간처럼 자연스럽게 대화하고 있는 챗봇이 사실 AI임을 공개해야 할까?

전혀 고민할 필요가 없는 질문처럼 들린다. 물론, 실제로도 공개하는 것이 맞다. 하지만 이를 밝히지 않고 비밀로 하려는 주요한 이유가 있다. 기업들은 사용자가 자신과 대화를 나누는 상대방이 인공지능임을 눈치채지 못하길 바란다. 그래야 AI 음성 비서와 챗봇이 제대로 된 성과를 낼 수 있기 때문이다. 

최근 마케팅 사이언스지에서 공개된 연구에 따르면, 여러 금융 서비스 기업들이 챗봇을 도입했는데 챗봇이 숙련된 영업 사원만큼이나 실적이 좋았다. 하지만 문제도 있었다. 실제 영업 사원이 아닌 챗봇임을 공개했을 때 판매량이 약 80% 감소했다. 

이제 밝힐 때가 됐다. 즉, AI임을 밝히는 것으로 인해 기업은 매출에 타격을 입을 수 있고, 그렇다면 공개 여부는 확신하기 어려운 딜레마가 될 것이다.

또 다른 문제도 있다. 유명인이나 다른 특정 인물(임직원이나 직원 등)을 사칭하는 AI 챗봇과 관련한 것이다. 이미 인스타그램 상에서는 챗봇이 특정 유명인의 문체를 모방해 팬들과 소통하고 있는 사례가 있다. 지금은 일부이지만, 머지않아 모든 사람이 이러한 챗봇을 마주하게 될 것이다. 

상황은 더욱 복잡해진다. AI가 사람을 완벽하게 그리고 자율적으로 모방하기 전까지는 사람들의 도움 혹은 참여가 필요하다. 이를테면 사람이 AI의 결정이나 대응을 돕는 식이다. 

AI와 대화하고 있음을 공개하는 것에 대한 윤리적인 접근 방법이 무엇일까? 다시 한번 말하지만, 답은 간단하다. 항상 공개하는 것이다. 

하지만 사용자가 상호작용하고 있는 대상이 AI임을 대부분 공개하지 않거나, 아무도 읽지 않는 법적 안내 사항에 그 내용을 조용히 묻어둔다. 비공개 혹은 소극적 공개는 이미 업계 표준이 됐다. 

필자가 물어본 바에 의하면, 전문가와 비전문가 모두 공개를 원했다. 하지만 그 이유를 확신하진 못하겠다. 만약 사람들이 기계와 상호작용하는 것에 익숙해진다면 그리고 심지어 기계와의 대화를 당연시한다면, 언젠가는 공개가 불필요한 것으로 보이게 될까? 

물론 공개를 의무화하는 법률 때문에 이 딜레마가 고민할 가치가 없어 보일 수 있다. 미국 캘리포니아주는 지난해 일명 로봇 실명제라고 불리는 온라인 투명성 강화법(Bolstering Online Transparency)을 통과시켰다. 이는 투표나 구매 행위에 영향을 끼치려는 봇이 자신이 로봇이라는 사실을 알려야 한다는 내용을 담고 있다. 

이밖에 SNS상에서 봇 공개 요건을 강제하거나, 정치 집단 등이 AI를 악용해 실제 인물을 사칭하지 못하도록 하는 법안이 국가적 차원에서 마련되고 있다. 

위와 같은 법안을 보니 개인정보보호규정(GDPR)의 쿠키 법(Cookie Law)이 떠오른다. 모두가 개인정보를 보호하고, 데이터를 투명하게 공개할 것을 원한다. 하지만 모든 사용자에게 쿠키 사용에 대한 동의를 받아야 하는 이 규정은 웹 브라우징을 우스꽝스럽게 만들었다. 이를 알리는 팝업이 아무도 읽지 않는 귀찮은 스팸처럼 느껴지며, 심지어 브라우저가 나를 끊임없이 괴롭히는 듯한 느낌도 든다. 무려 1만 번째 팝업까지 보고 나면, ‘이 팝업에서 벗어나기 위해 캐나다로 이민가야 할 것 같다’는 반항심까지 든다. 

미래에는 자연스러운 AI 음성 비서가 너무 흔해서 모두가 이를 로봇이라고 여길 것이다. 어떤 상황에서는 대화하고 있는 직원이 인간인지 아니면 로봇인지도 신경 쓰지 않을 것이다.

그래서 공개를 의무화하는 법률이 조심스러워야 한다고 본다. 필자는 AI임을 밝히는 것과 관련해 자발적인 감시 활동을 더 추천한다.

IBM은 1월 윤리적인 AI 도입을 위한 가이드라인을 공개하면서 다음과 같이 밝혔다. “투명성은 신뢰를 키운다. 투명성을 높이는 가장 좋은 방법은 AI 시스템의 목적을 명확하게 공개하는 것이다. 이를 모르고 AI와 상호작용하는 사람이 없어야 한다. 문화가 바뀌면서 가이드라인을 개정하는 것이 법률을 개정하기보다 쉽기 때문에 이런 자발적인 접근 방식이 합리적이다.”

AI 음성 기술로 인해 세상이 바뀌려 하고 있다. 곧 인간과 기계 음성의 차이를 구별할 수 없게 될 것이다. 이 기술 변화는 확실하다. 하지만 문화적 변화는 덜 확실하다.

기업들은 법적 규제보다는 자발적인 가이드라인을 개발하고 준수해야 한다. IBM의 가이드라인은 참고할 만한 가치가 있다. 

아, 소닉 브랜딩도 고려하자. 이제 로봇의 목소리가 회사의 브랜드를 대표할 것이다.

* Mike Elgan은 기술 및 기술 문화에 대해 저술하는 전문 기고가다. ciokr@idg.co.kr



2020.02.19

칼럼ㅣ대화 상대가 AI라고 알려야 할까?

Mike Elgan | Computerworld
챗봇이 항상 튜링 테스트(Turing Test)를 통과하고, 사람과 완벽하게 대화하는 수준에 도달한다면? 이야기를 나누는 상대가 AI라는 것을 밝혀야 할까? 아직 풀리지 않은 숙제다.

아마존을 먼저 살펴보자. 아마존은 기술을 주류화하는 데 입증된 성공 사례를 가지고 있다. 예를 들면 아마존은 2014년 11월 최초의 스마트 스피커 에코를 출시했고, 이것이 사람들의 일상에 깊숙이 들어가도록 만들었다. 또 다른 예로 아마존웹서비스도 있다. 아마존은 기업용 온디맨드 클라우드 서비스를 대중화하는 데 크게 기여했다는 평가를 받고 있다. 
 
ⓒJonny Lindner (CC0)

아마존이 2월 5일 새로운 서비스, 브랜드 보이스(Brand Voice)를 공개했다. 텍스트를 음성으로 변환하는 AWS 인공지능 서비스 폴리(Polly)를 기반으로, 기업 맞춤형 AI 음성을 생성해주는 기능이다.

앞선 사례를 감안한다면, 이제 쉽게 예측할 수 있다. 아마존은 브랜드 보이스를 통해 '음성'이 소닉 브랜딩(Sonic Branding)의 한 요소로써 일상에 자리 잡도록 만들 것이다. (소닉 브랜딩은 CM송, 제품이 내는 소리, 짧은 음악이나 소음 등 청각적 요소를 활용해 특정 브랜드를 상기시키는 마케팅을 일컫는다. 이를테면 맥 OS나 윈도우의 부팅음이나 과거 아메리카온라인(AOL) 통신 사용자들이 전자우편을 수신했을 때 들었던 알림(You've got mail!) 등이 있다.)

AI 음성 비서의 시대에서 ‘음성’ 자체는 곧 새로운 소닉 브랜딩이다. 브랜드 보이스는 기업만의 맞춤형 음성을 구축할 수 있도록 돕는다. 이는 온라인 또는 유선 고객 서비스에 활용될 수 있다.

생성된 음성은 실제 인물이나 혹은 브랜드를 인지하게 하는 특정 음색을 가진 가상 인물의 목소리로 구현될 것이다. 예를 들면 아마존은 KFC 캐나다와 함께 커넬 샌더스의 음성을 만들었다. 치킨 매니아들이 KFC의 설립자와 대화하는 느낌을 주도록 하기 위한 목적이었다. 

아마존의 음성 생성 프로세스는 획기적이다. 사람이 말하면서 내는 개별적인 소리를 시각적인 표현으로 변환하는 생성적 신경망(Generative neural network)을 사용한다. 그리고 음성 합성 장치가 시각화된 데이터를 오디오 스트림, 즉 음성으로 변환한다. 

이 학습 모델을 통해 사용자 맞춤형 음성을 불과 몇 시간 안에 생성할 수 있다. 이후 챗봇 AI를 통해 생성된 텍스트가 사용자 맞춤형 음성으로 읽히면서, 상대방과 대화를 나눌 수 있다. 

아마존은 브랜드 보이스를 통해 경쟁사인 구글과 마이크로소프트를 뛰어넘을 수 있다. 구글과 마이크로소프트도 클라우드 고객들이 선택할 수 있는 수십 개의 음성을 제공하지만, 맞춤화할 수 없거나 유일무이한 것이 아니기 때문에 소닉 브랜딩 측면에서는 쓸모가 없다. 

결국 구글과 마이크로소프트도 이 방향으로 나아갈 것이다. 이미 구글의 AI 전화 응대 서비스 듀플렉스(Duplex)는 인간과 자연스럽게 대화를 나눌 수 있는 것으로 유명하다. 그리고 구글의 챗봇 미나(Meena)도 인간처럼 이야기를 할 수 있다. 이런 기술이 맞춤형 음성과 결합되면 구글과 마이크로소프트도 아마존을 넘어설 수 있을 것이다. 더불어 많은 스타트업이나 대학도 관련 기술을 개발하고 있다. 

수천 개의 기업이 실제 사람 같은 기업 맞춤형 음성을 쉽고 빠르게 만들 수 있다면, 세상은 어떻게 바뀔까? 

도처에서 음성을 듣게 될 것이다
미래를 예측하는 좋은 방법은 기존의 여러 트렌드를 따르는 것이다. 즉, 여러 트렌드가 현재 속도를 유지할 경우 미래가 어떤 모습일지 가늠하는 것이다. 

이 방법으로 보자면, 다음과 같은 일이 일어날 수 있다. AI 기반 음성 상호작용이 거의 모든 것을 대체하는 미래다. 

· 알렉사, 시리, 구글 어시스턴트와 같은 음성 비서가 웹 검색을 대체한다. 또한 음성 비서가 채팅이나 이메일 등 서면으로 이뤄지는 커뮤니케이션에서 중개인 역할을 한다. 

· 거의 모든 텍스트 기반 챗봇(고객 서비스, 기술 지원 등)이 대화형으로 대체된다. 챗봇을 서비스하는 동일 백엔드에 음성 인터페이스가 제공된다.  

· 스마트폰, 노트북, 태블릿, 데스크톱 PC 등 기기와의 상호작용 대부분이 음성으로 이뤄진다. 

· 음성 인터페이스가 주가 되는 증강현실 글래스가 스마트폰을 대체한다. 

· 심지어 뉴스도 뉴스 리더와 분리된다. 독자들이 오디오, 비디오, 텍스트 등 원하는 뉴스 형태는 물론 선호하는 진행자도 선택한다. 미시간주립대학교가 개발 중인 대화형 에이전트, 딥토크(DeepTalk)를 예로 들 수 있다. 딥러닝을 활용해 문자-음성 변환 엔진이 특정인의 음성을 모방할 수 있도록 하는 기술이다. 이를 통해 독자가 원하는 뉴스 진행자의 목소리를 선택하면, 모든 뉴스를 해당 진행자의 목소리와 화법으로 읽도록 한다. 

요약하자면, 5년 이내에 사람들은 사물과 일상적으로 대화하게 될 것이다. 그리고 모든 사물도 사람들과 대화하게 될 것이다. AI 기반 음성 상호작용은 기술적 그리고 문화적으로도 영향력이 큰 트렌드다. 

딜레마: 대화 상대가 AI라고 밝혀야 하는가? 
거의 아무도 말하지 않지만, 기업들이 미래에 맞닥뜨리게 될 윤리적 딜레마가 있다. 고객과 마치 인간처럼 자연스럽게 대화하고 있는 챗봇이 사실 AI임을 공개해야 할까?

전혀 고민할 필요가 없는 질문처럼 들린다. 물론, 실제로도 공개하는 것이 맞다. 하지만 이를 밝히지 않고 비밀로 하려는 주요한 이유가 있다. 기업들은 사용자가 자신과 대화를 나누는 상대방이 인공지능임을 눈치채지 못하길 바란다. 그래야 AI 음성 비서와 챗봇이 제대로 된 성과를 낼 수 있기 때문이다. 

최근 마케팅 사이언스지에서 공개된 연구에 따르면, 여러 금융 서비스 기업들이 챗봇을 도입했는데 챗봇이 숙련된 영업 사원만큼이나 실적이 좋았다. 하지만 문제도 있었다. 실제 영업 사원이 아닌 챗봇임을 공개했을 때 판매량이 약 80% 감소했다. 

이제 밝힐 때가 됐다. 즉, AI임을 밝히는 것으로 인해 기업은 매출에 타격을 입을 수 있고, 그렇다면 공개 여부는 확신하기 어려운 딜레마가 될 것이다.

또 다른 문제도 있다. 유명인이나 다른 특정 인물(임직원이나 직원 등)을 사칭하는 AI 챗봇과 관련한 것이다. 이미 인스타그램 상에서는 챗봇이 특정 유명인의 문체를 모방해 팬들과 소통하고 있는 사례가 있다. 지금은 일부이지만, 머지않아 모든 사람이 이러한 챗봇을 마주하게 될 것이다. 

상황은 더욱 복잡해진다. AI가 사람을 완벽하게 그리고 자율적으로 모방하기 전까지는 사람들의 도움 혹은 참여가 필요하다. 이를테면 사람이 AI의 결정이나 대응을 돕는 식이다. 

AI와 대화하고 있음을 공개하는 것에 대한 윤리적인 접근 방법이 무엇일까? 다시 한번 말하지만, 답은 간단하다. 항상 공개하는 것이다. 

하지만 사용자가 상호작용하고 있는 대상이 AI임을 대부분 공개하지 않거나, 아무도 읽지 않는 법적 안내 사항에 그 내용을 조용히 묻어둔다. 비공개 혹은 소극적 공개는 이미 업계 표준이 됐다. 

필자가 물어본 바에 의하면, 전문가와 비전문가 모두 공개를 원했다. 하지만 그 이유를 확신하진 못하겠다. 만약 사람들이 기계와 상호작용하는 것에 익숙해진다면 그리고 심지어 기계와의 대화를 당연시한다면, 언젠가는 공개가 불필요한 것으로 보이게 될까? 

물론 공개를 의무화하는 법률 때문에 이 딜레마가 고민할 가치가 없어 보일 수 있다. 미국 캘리포니아주는 지난해 일명 로봇 실명제라고 불리는 온라인 투명성 강화법(Bolstering Online Transparency)을 통과시켰다. 이는 투표나 구매 행위에 영향을 끼치려는 봇이 자신이 로봇이라는 사실을 알려야 한다는 내용을 담고 있다. 

이밖에 SNS상에서 봇 공개 요건을 강제하거나, 정치 집단 등이 AI를 악용해 실제 인물을 사칭하지 못하도록 하는 법안이 국가적 차원에서 마련되고 있다. 

위와 같은 법안을 보니 개인정보보호규정(GDPR)의 쿠키 법(Cookie Law)이 떠오른다. 모두가 개인정보를 보호하고, 데이터를 투명하게 공개할 것을 원한다. 하지만 모든 사용자에게 쿠키 사용에 대한 동의를 받아야 하는 이 규정은 웹 브라우징을 우스꽝스럽게 만들었다. 이를 알리는 팝업이 아무도 읽지 않는 귀찮은 스팸처럼 느껴지며, 심지어 브라우저가 나를 끊임없이 괴롭히는 듯한 느낌도 든다. 무려 1만 번째 팝업까지 보고 나면, ‘이 팝업에서 벗어나기 위해 캐나다로 이민가야 할 것 같다’는 반항심까지 든다. 

미래에는 자연스러운 AI 음성 비서가 너무 흔해서 모두가 이를 로봇이라고 여길 것이다. 어떤 상황에서는 대화하고 있는 직원이 인간인지 아니면 로봇인지도 신경 쓰지 않을 것이다.

그래서 공개를 의무화하는 법률이 조심스러워야 한다고 본다. 필자는 AI임을 밝히는 것과 관련해 자발적인 감시 활동을 더 추천한다.

IBM은 1월 윤리적인 AI 도입을 위한 가이드라인을 공개하면서 다음과 같이 밝혔다. “투명성은 신뢰를 키운다. 투명성을 높이는 가장 좋은 방법은 AI 시스템의 목적을 명확하게 공개하는 것이다. 이를 모르고 AI와 상호작용하는 사람이 없어야 한다. 문화가 바뀌면서 가이드라인을 개정하는 것이 법률을 개정하기보다 쉽기 때문에 이런 자발적인 접근 방식이 합리적이다.”

AI 음성 기술로 인해 세상이 바뀌려 하고 있다. 곧 인간과 기계 음성의 차이를 구별할 수 없게 될 것이다. 이 기술 변화는 확실하다. 하지만 문화적 변화는 덜 확실하다.

기업들은 법적 규제보다는 자발적인 가이드라인을 개발하고 준수해야 한다. IBM의 가이드라인은 참고할 만한 가치가 있다. 

아, 소닉 브랜딩도 고려하자. 이제 로봇의 목소리가 회사의 브랜드를 대표할 것이다.

* Mike Elgan은 기술 및 기술 문화에 대해 저술하는 전문 기고가다. ciokr@idg.co.kr

X