2017.10.31

칼럼 | 아이폰 X의 진정한 혁신: '감정 인식’ 시대 연다

Mike Elgan | Computerworld
'아이폰 X' 스마트폰의 사전 주문이 곧 시작된다. 다양한 신기능과 훌륭한 속도, 뛰어난 성능까지 일부에서는 세계 최고의 스마트폰이라고 치켜세운다. 그러나 아이폰 X의 진정한 가치는 이 스마트폰에 탑재된 ‘이례적인’ 부품에서 찾아야 한다. 애플이 '트루뎁스(TrueDepth)’라고 부르는 전면 카메라다. 스마트폰 부품으로는 전례 없는 복잡한 설계를 가졌다.



여기엔 전면 프로젝터가 내장돼 있다. 광점 3만 개가 눈에 보이지 않는 적외선 스펙트럼을 투사한다. 그리고 보조 카메라가 이 적외선 점의 사진을 촬영해 3D 공간에서 도달하는 위치를 파악한다. 트루뎁스는 기본적으로 마이크로소프트의 엑스박스용 키넥트(Kinect for Xbox)의 작동 원리와 같다(애플은 수년 전 키넥트 기술을 지원하는 기업을 인수한 반면, 마이크로소프트는 최근 키넥트 생산을 중단했다).

트루뎁스는 2가지 역할을 한다. 하나는 애플의 '페이스 ID(Face ID)' 보안 시스템의 중추다. 아이폰 8까지 사용된 지문 중심적 '터치 ID(Touch ID)'를 대체한다. 두 번째 용도는 애니모지(Animoji) 기능으로, 실시간으로 사용자의 표정을 닮은 아바타를 만든다. 일부에서는 이런 기능이 혁신적이라고 말한다. 일리가 없지는 않지만, 이러한 기술의 진정한 가치는 여기서 한발 더 나아가야 한다.

바로 ‘감성 감지’다. 필자는 아이폰 X에서 본격적으로 시도하는 이러한 기술이 결국 기업뿐만 아니라 의료와 정부, 군사 등 거의 모든 부문에서 사용자 얼굴 관련 기술에 영향을 끼칠 것이라고 확신한다.



감성의 시대
애니모지는 애플의 적외선 얼굴 추적과 3D 감지 기술이 애플의 증강 현실(Augmented Reality) 개발자 키트인 AR키트와 만났을 때 무엇을 할 수 있는지를 잘 보여주는 일종의 ‘개념증명’이다.

기본적으로 애니모지의 귀여운 만화 아바타다. 그러나 사용자를 따라 웃고 찡그리며 입술을 오므린다. 아이폰 X이 사용자의 표정을 실시간으로 캡쳐한 후 이 데이터를 AR키트가 처리해 화면에 보여준다. 사용자 얼굴의 다양한 부분에 대한 상대적 위치를 값으로 받아 처리하기 때문에 이러한 고품질로 표정을 재현할 수 있다.

애플은 개발자가 아이폰 X의 시큐어 인클레이브(Secure Enclave)에 보관된 페이스 ID 데이터에 접근하는 것을 허용하지 않는다. 그러나 개발자 누구나 사용자의 표정 변화를 1백만분의 1초 단위로 캡처할 수 있도록 허용한다. 즉 애니모지가 사용하는 같은 데이터를 이용해 개발자 누구나 임의의 아바타를 만들고 제어할 수 있는 앱을 개발할 수 있다.

더 생각해야 할 것은 지금부터다. 표정에는 사용자의 분위기와 반응, 마음 상태, 감정이 드러난다. 특히 AR 키트는 음성 데이터를 캡처한 후 추가로 분석할 수 있으므로 표정과 음성으로 사용자의 감정을 정확히 분석할 수 있는 더 많은 데이터를 얻을 수 있다. 애플은 지난해 표정을 이용해 감정을 추적하는 인공 지능 기술 업체 이모션트(Emotient)를 인수했다.

더 많은 감정 데이터와 더 정교한 분석기술의 결합. 이제 떠오르는 것이 있을 것이다. 필자의 동료 조니 에반스는 이모션트 기술을 아이폰 X의 얼굴 추적과 결합하면 가상비스인 시리(Siri)의 성능을 크게 개선하고 증강현실에서 더 풍부한 소셜 경험이 가능할 것으로 전망했다. 필자도 이에 강력히 동의한다.



애플만이 아니다
애플이 아이폰 X을 통해 감정 감지를 대중화하는 신호탄을 쐈지만, 사실 비슷한 기술을 개발하려는 움직임은 이미 IT 업계 전반에서 활발하게 이루어지고 있다.

페이스북과 트위터는 그동안 “좋아요(Like)”와 “하트(Heart)” 버튼만으로 사용자의 감정을 확인했다. 그러나 이후 페이스북은 “최고예요(Love),” “웃겨요(Haha),” “멋져요(Wow),” “슬퍼요(Sad),” “화나요(Angry)” 등의 여러 가지 감정 버튼을 추가했다. 구글은 검색 결과의 정확성을 높이기 위해 사용자가 구글 검색에서 하는 모든 행위를 추적한다. 이를 통해 사용자가 좋아하거나 싫어하는 링크 결과를 찾는 것이다.

아마존은 구글이 구글 검색을 이용하듯 아마존닷컴에서 사용자의 활동을 추적한다. 구매 활동, 반복 구매, 장바구니 등을 분석해 여러 가지 추천 제품에 대해 어떻게 생각하는지 파악한다. 이밖에 리서치 업체는 설문조사를, 광고 업체는 시선 추적 연구를 한다. 출판사와 기타 콘텐츠 제작자는 특정 그룹 조사를 하고, 닐슨(Nielsen)은 통계 샘플링을 이용해 시청자가 TV 프로그램에 느끼는 점을 파악한다.

그동안 이 모든 활동은 기업과 정부, 학계의 의사결정에서 중요한 자료 혹은 기준이 됐다. 그러나 트루뎁스를 포함한 더 정교한 감정 감지 기술이 등장하면 기존의 방법론은 설 자리를 잃게 될 것이다. 최근의 감정 감지 기술은 스마트폰부터 노트북, 자동차, 산업 장비까지 거의 모든 기기에 내장되고 있다. 이는 대규모 조사를 통해 경향을 파악하는 기존 방법론과 달리, 개개인이 느끼는 감정을 정확히 파악해 이에 개인별로 맞춤화한 대응이 가능하다는 것을 의미한다.

지난 수십 년 동안 감성 감지 정확도를 높이기 위한 연구가 꾸준히 진행됐다. 이를 한 단계 끌어올린 것이 바로 인공지능(AI)이었다. 여기에 사용자 말소리의 억양 등 음성 처리기 기술까지 결합하면서 감정을 판단하는 정확성을 더 높일 가능성이 열렸다. 예를 들어 스타트업 휴먼(Human)은 AI를 이용해 눈부신 미소와 뾰로통한 찡그림 같은 전형적인 표정뿐만 아니라 인간이 감지할 수 없는 '미묘한 표정'도 인식할 수 있다고 주장한다.

이밖에도 엔비조(Nviso), 카이로스(Kairos), 스카이바이오메트리(SkyBiometry), 어펙티카(Affectiva), 사이트하운드(Sighthound), 에모뷰(EmoVu), 놀두스(Noldus), 비욘드 버벌(Beyond Verbal), 사이트콥(Sightcorp) 등의 여러 스타트업이 감정을 감지하고 추적하는 API를 개발하고 있다. 성과도 착실하게 쌓이고 있어, MIT는 스마트워치에서 구동하는 AI 감성 감지 시스템을 개발하는 데 성공했다.

페이스북의 움직임도 주목할 만하다. 이 기업은 이미 많은 관련 특허를 보유하고 있고 추가로 인수합병을 통해 관련 기술을 확보하고 있다. 특히 작년에 인수한 파시오메트릭스(FacioMetrics)는 페이스북 사용자 수십억 명이 읽고 입력하고 전송하는 모든 글과 사진, 혹은 자동으로 재생되는 모든 비디오에 대한 사용자의 감정을 측정하는 기술을 갖고 있다. 이른바 후기 ‘좋아요’ 시대가 눈앞에 와 있는 것이다.

이러한 자동 감정 감지 시스템은 현재의 “좋아요”와 기타 “반응” 시스템을 대체해 더 뛰어난 정확성을 보여줄 것이다. 기존 페이스북이 가진 중대한 단점도 극복할 수 있는 계기가 될 것이다.

기존 페이스북의 “좋아요” 시스템에는 결정적인 한계가 2가지 있다. 우선, 사용자 대부분이 게시물과 “상호작용”하지 않는다. 둘째, 감성은 의식적이고 공개적이므로 사용자의 감정이 진심이 아니라 일종의 “연기”일 수 있다. 일부 “좋아요”는 사용자가 실제로 좋은 것이 아니라 다른 사람이 그렇게 생각하길 바라며 이루어진다. 기존의 감정 감지 알고리즘은 한계도 여기서 출발한다.

현재 페이스북은 표적 광고의 현실적인 기준이다. 광고주는 정확한 광고 대상을 지정해 예산을 집행할 수 있다. 하지만 상당 부분 상호작용하지 않는 연기를 기반으로 한다. 이런 상황에서 만약 광고주가 게시물과 콘텐츠에 반응하는 사용자의 표정 이력에 접근할 수 있다면 어떻게 될까? 사용자가 무엇을 좋아하는지 사용자보다도 더 잘 알 수 있다. 광고에 대한 감성적인 피드백도 더 빨리 받을 수 있다. 광고주에겐 거부할 수 없는 제안이 될 것이다.


감정 감지는 프라이버시에 대한 실리콘 밸리의 응답
감정 감지는 다른 측면에서 IT 업계의 중요한 문제에 대한 해답이 될 수 있다. 바로 프라이버시다. 실리콘 밸리의 IT 기업은 그동안 사용자 데이터 수집에 열을 올려 왔다. 사용자 위치와 신원, 사용자 행동, 사용자 지식 같은 것들이다. 주목할 수밖에 없는 광고를 보여주고, 더 개인화된 제품과 서비스를 제공하려면 반드시 이 정보가 필요하다고 믿었기 때문이다. 그러나 이제 대중은 이런 정보를 기업과 공유하는 것을 불편하게 생각한다. 적극적으로 꺼리는 움직임도 뚜렷하다.

만약 감정 감지 기술이 확산하면 기업은 사용자가 온라인 상에서 보고, 듣고, 말하고, 보는 모든 것에 대해 더 정확한 정보를 얻을 수 있다. AI 시스템을 활용하면 사용자의 취향을 지속적으로 모니터링하며, 보여 줄 광고와 콘텐츠, 제품 등을 자동으로 조정할 수 있다. 이러한 노출에 대한 사용자의 만족감은 시간이 지날수록 점점 더 정교해질 것이다.

무엇보다도 사용자 대부분은 이를 프라이버시 침해로 여기지 않을 가능성이 있다. 오히려 스마트폰과 기타 기기를 더 ‘인간적’으로 느낄 수도 있다. 주는 것 없이 개인정보를 무차별 수집해 가져가기만 하는 (그런 것처럼 보이는) 현재의 정보 수집 스키마(Scheme)와 달리 감정을 감지하는 앱과 기기는 더 인간적으로 보일 것이다.

감정 인식 기술은 지난 수십 년 동안 느리게 발전해 왔다. 그러나 아이폰 X의 등장으로 기술 혁신에 가속도를 붙일 계기가 만들어졌다. 이제 스마트폰 등에 AR 키트 툴을 결합해 사용자가 앱으로 하는 모든 것에 대해 느끼는 감정적 반응을 지속적으로 모니터링하는 앱을 만들 수 있게 됐다. 결국 아이폰 X의 진정한 혁신은 이것이다. 감정에 최적화된 세계 최초의 기기. 실리콘 밸리와 IT 산업 전체는 지금 감정의 영역으로 빠르게 움직이고 있다.

*Mike Elgan은 기술과 기술 문화에 대한 칼럼을 쓰고 있다. ciokr@idg.co.kr 



2017.10.31

칼럼 | 아이폰 X의 진정한 혁신: '감정 인식’ 시대 연다

Mike Elgan | Computerworld
'아이폰 X' 스마트폰의 사전 주문이 곧 시작된다. 다양한 신기능과 훌륭한 속도, 뛰어난 성능까지 일부에서는 세계 최고의 스마트폰이라고 치켜세운다. 그러나 아이폰 X의 진정한 가치는 이 스마트폰에 탑재된 ‘이례적인’ 부품에서 찾아야 한다. 애플이 '트루뎁스(TrueDepth)’라고 부르는 전면 카메라다. 스마트폰 부품으로는 전례 없는 복잡한 설계를 가졌다.



여기엔 전면 프로젝터가 내장돼 있다. 광점 3만 개가 눈에 보이지 않는 적외선 스펙트럼을 투사한다. 그리고 보조 카메라가 이 적외선 점의 사진을 촬영해 3D 공간에서 도달하는 위치를 파악한다. 트루뎁스는 기본적으로 마이크로소프트의 엑스박스용 키넥트(Kinect for Xbox)의 작동 원리와 같다(애플은 수년 전 키넥트 기술을 지원하는 기업을 인수한 반면, 마이크로소프트는 최근 키넥트 생산을 중단했다).

트루뎁스는 2가지 역할을 한다. 하나는 애플의 '페이스 ID(Face ID)' 보안 시스템의 중추다. 아이폰 8까지 사용된 지문 중심적 '터치 ID(Touch ID)'를 대체한다. 두 번째 용도는 애니모지(Animoji) 기능으로, 실시간으로 사용자의 표정을 닮은 아바타를 만든다. 일부에서는 이런 기능이 혁신적이라고 말한다. 일리가 없지는 않지만, 이러한 기술의 진정한 가치는 여기서 한발 더 나아가야 한다.

바로 ‘감성 감지’다. 필자는 아이폰 X에서 본격적으로 시도하는 이러한 기술이 결국 기업뿐만 아니라 의료와 정부, 군사 등 거의 모든 부문에서 사용자 얼굴 관련 기술에 영향을 끼칠 것이라고 확신한다.



감성의 시대
애니모지는 애플의 적외선 얼굴 추적과 3D 감지 기술이 애플의 증강 현실(Augmented Reality) 개발자 키트인 AR키트와 만났을 때 무엇을 할 수 있는지를 잘 보여주는 일종의 ‘개념증명’이다.

기본적으로 애니모지의 귀여운 만화 아바타다. 그러나 사용자를 따라 웃고 찡그리며 입술을 오므린다. 아이폰 X이 사용자의 표정을 실시간으로 캡쳐한 후 이 데이터를 AR키트가 처리해 화면에 보여준다. 사용자 얼굴의 다양한 부분에 대한 상대적 위치를 값으로 받아 처리하기 때문에 이러한 고품질로 표정을 재현할 수 있다.

애플은 개발자가 아이폰 X의 시큐어 인클레이브(Secure Enclave)에 보관된 페이스 ID 데이터에 접근하는 것을 허용하지 않는다. 그러나 개발자 누구나 사용자의 표정 변화를 1백만분의 1초 단위로 캡처할 수 있도록 허용한다. 즉 애니모지가 사용하는 같은 데이터를 이용해 개발자 누구나 임의의 아바타를 만들고 제어할 수 있는 앱을 개발할 수 있다.

더 생각해야 할 것은 지금부터다. 표정에는 사용자의 분위기와 반응, 마음 상태, 감정이 드러난다. 특히 AR 키트는 음성 데이터를 캡처한 후 추가로 분석할 수 있으므로 표정과 음성으로 사용자의 감정을 정확히 분석할 수 있는 더 많은 데이터를 얻을 수 있다. 애플은 지난해 표정을 이용해 감정을 추적하는 인공 지능 기술 업체 이모션트(Emotient)를 인수했다.

더 많은 감정 데이터와 더 정교한 분석기술의 결합. 이제 떠오르는 것이 있을 것이다. 필자의 동료 조니 에반스는 이모션트 기술을 아이폰 X의 얼굴 추적과 결합하면 가상비스인 시리(Siri)의 성능을 크게 개선하고 증강현실에서 더 풍부한 소셜 경험이 가능할 것으로 전망했다. 필자도 이에 강력히 동의한다.



애플만이 아니다
애플이 아이폰 X을 통해 감정 감지를 대중화하는 신호탄을 쐈지만, 사실 비슷한 기술을 개발하려는 움직임은 이미 IT 업계 전반에서 활발하게 이루어지고 있다.

페이스북과 트위터는 그동안 “좋아요(Like)”와 “하트(Heart)” 버튼만으로 사용자의 감정을 확인했다. 그러나 이후 페이스북은 “최고예요(Love),” “웃겨요(Haha),” “멋져요(Wow),” “슬퍼요(Sad),” “화나요(Angry)” 등의 여러 가지 감정 버튼을 추가했다. 구글은 검색 결과의 정확성을 높이기 위해 사용자가 구글 검색에서 하는 모든 행위를 추적한다. 이를 통해 사용자가 좋아하거나 싫어하는 링크 결과를 찾는 것이다.

아마존은 구글이 구글 검색을 이용하듯 아마존닷컴에서 사용자의 활동을 추적한다. 구매 활동, 반복 구매, 장바구니 등을 분석해 여러 가지 추천 제품에 대해 어떻게 생각하는지 파악한다. 이밖에 리서치 업체는 설문조사를, 광고 업체는 시선 추적 연구를 한다. 출판사와 기타 콘텐츠 제작자는 특정 그룹 조사를 하고, 닐슨(Nielsen)은 통계 샘플링을 이용해 시청자가 TV 프로그램에 느끼는 점을 파악한다.

그동안 이 모든 활동은 기업과 정부, 학계의 의사결정에서 중요한 자료 혹은 기준이 됐다. 그러나 트루뎁스를 포함한 더 정교한 감정 감지 기술이 등장하면 기존의 방법론은 설 자리를 잃게 될 것이다. 최근의 감정 감지 기술은 스마트폰부터 노트북, 자동차, 산업 장비까지 거의 모든 기기에 내장되고 있다. 이는 대규모 조사를 통해 경향을 파악하는 기존 방법론과 달리, 개개인이 느끼는 감정을 정확히 파악해 이에 개인별로 맞춤화한 대응이 가능하다는 것을 의미한다.

지난 수십 년 동안 감성 감지 정확도를 높이기 위한 연구가 꾸준히 진행됐다. 이를 한 단계 끌어올린 것이 바로 인공지능(AI)이었다. 여기에 사용자 말소리의 억양 등 음성 처리기 기술까지 결합하면서 감정을 판단하는 정확성을 더 높일 가능성이 열렸다. 예를 들어 스타트업 휴먼(Human)은 AI를 이용해 눈부신 미소와 뾰로통한 찡그림 같은 전형적인 표정뿐만 아니라 인간이 감지할 수 없는 '미묘한 표정'도 인식할 수 있다고 주장한다.

이밖에도 엔비조(Nviso), 카이로스(Kairos), 스카이바이오메트리(SkyBiometry), 어펙티카(Affectiva), 사이트하운드(Sighthound), 에모뷰(EmoVu), 놀두스(Noldus), 비욘드 버벌(Beyond Verbal), 사이트콥(Sightcorp) 등의 여러 스타트업이 감정을 감지하고 추적하는 API를 개발하고 있다. 성과도 착실하게 쌓이고 있어, MIT는 스마트워치에서 구동하는 AI 감성 감지 시스템을 개발하는 데 성공했다.

페이스북의 움직임도 주목할 만하다. 이 기업은 이미 많은 관련 특허를 보유하고 있고 추가로 인수합병을 통해 관련 기술을 확보하고 있다. 특히 작년에 인수한 파시오메트릭스(FacioMetrics)는 페이스북 사용자 수십억 명이 읽고 입력하고 전송하는 모든 글과 사진, 혹은 자동으로 재생되는 모든 비디오에 대한 사용자의 감정을 측정하는 기술을 갖고 있다. 이른바 후기 ‘좋아요’ 시대가 눈앞에 와 있는 것이다.

이러한 자동 감정 감지 시스템은 현재의 “좋아요”와 기타 “반응” 시스템을 대체해 더 뛰어난 정확성을 보여줄 것이다. 기존 페이스북이 가진 중대한 단점도 극복할 수 있는 계기가 될 것이다.

기존 페이스북의 “좋아요” 시스템에는 결정적인 한계가 2가지 있다. 우선, 사용자 대부분이 게시물과 “상호작용”하지 않는다. 둘째, 감성은 의식적이고 공개적이므로 사용자의 감정이 진심이 아니라 일종의 “연기”일 수 있다. 일부 “좋아요”는 사용자가 실제로 좋은 것이 아니라 다른 사람이 그렇게 생각하길 바라며 이루어진다. 기존의 감정 감지 알고리즘은 한계도 여기서 출발한다.

현재 페이스북은 표적 광고의 현실적인 기준이다. 광고주는 정확한 광고 대상을 지정해 예산을 집행할 수 있다. 하지만 상당 부분 상호작용하지 않는 연기를 기반으로 한다. 이런 상황에서 만약 광고주가 게시물과 콘텐츠에 반응하는 사용자의 표정 이력에 접근할 수 있다면 어떻게 될까? 사용자가 무엇을 좋아하는지 사용자보다도 더 잘 알 수 있다. 광고에 대한 감성적인 피드백도 더 빨리 받을 수 있다. 광고주에겐 거부할 수 없는 제안이 될 것이다.


감정 감지는 프라이버시에 대한 실리콘 밸리의 응답
감정 감지는 다른 측면에서 IT 업계의 중요한 문제에 대한 해답이 될 수 있다. 바로 프라이버시다. 실리콘 밸리의 IT 기업은 그동안 사용자 데이터 수집에 열을 올려 왔다. 사용자 위치와 신원, 사용자 행동, 사용자 지식 같은 것들이다. 주목할 수밖에 없는 광고를 보여주고, 더 개인화된 제품과 서비스를 제공하려면 반드시 이 정보가 필요하다고 믿었기 때문이다. 그러나 이제 대중은 이런 정보를 기업과 공유하는 것을 불편하게 생각한다. 적극적으로 꺼리는 움직임도 뚜렷하다.

만약 감정 감지 기술이 확산하면 기업은 사용자가 온라인 상에서 보고, 듣고, 말하고, 보는 모든 것에 대해 더 정확한 정보를 얻을 수 있다. AI 시스템을 활용하면 사용자의 취향을 지속적으로 모니터링하며, 보여 줄 광고와 콘텐츠, 제품 등을 자동으로 조정할 수 있다. 이러한 노출에 대한 사용자의 만족감은 시간이 지날수록 점점 더 정교해질 것이다.

무엇보다도 사용자 대부분은 이를 프라이버시 침해로 여기지 않을 가능성이 있다. 오히려 스마트폰과 기타 기기를 더 ‘인간적’으로 느낄 수도 있다. 주는 것 없이 개인정보를 무차별 수집해 가져가기만 하는 (그런 것처럼 보이는) 현재의 정보 수집 스키마(Scheme)와 달리 감정을 감지하는 앱과 기기는 더 인간적으로 보일 것이다.

감정 인식 기술은 지난 수십 년 동안 느리게 발전해 왔다. 그러나 아이폰 X의 등장으로 기술 혁신에 가속도를 붙일 계기가 만들어졌다. 이제 스마트폰 등에 AR 키트 툴을 결합해 사용자가 앱으로 하는 모든 것에 대해 느끼는 감정적 반응을 지속적으로 모니터링하는 앱을 만들 수 있게 됐다. 결국 아이폰 X의 진정한 혁신은 이것이다. 감정에 최적화된 세계 최초의 기기. 실리콘 밸리와 IT 산업 전체는 지금 감정의 영역으로 빠르게 움직이고 있다.

*Mike Elgan은 기술과 기술 문화에 대한 칼럼을 쓰고 있다. ciokr@idg.co.kr 

X