2021.08.19

최형광 칼럼 | 알 수 없는 알고리즘에 이끌려…

최형광 | CIO KR
백화점에 없는 것은 무엇일까? 카지노에도 없는 것들이다. 답은 벽시계와 창문이다. 백화점과 카지노는 입장한 고객을 붙잡아 두기 위해 시계와 창문을 두지 않는다. 우리는 어느새 시간 가는 줄 모르고 쇼핑을 하게 되고 창밖의 날이 새는 줄 모르고 도박에 집중하게 될 것이다. 그렇다면 플랫폼은 어떻게 고객을 붙잡을까?

고객을 점유하는 법
생산하는 제품이 시장을 장악하는 비율을 시장점유율(Share of Market)이라 한다. 고객을 이끌 수 있는 전통적인 지배력을 의미한다. 백화점과 카지노는 서비스를 제공하기 때문에 시간을 점유(Share of Time)하는 것에 노력한다. 시장점유보다 고객의 시간을 점유하며 경험을 제공하는 것이 더 효과적이다. 고객의 시간 점유는 매출과 이익을 확보할 수 있기 때문이다. 

카지노에서는 열심히 도박하는 사람에게 음료수를 무료로 제공한다. 갈증을 이기고 다시 집중하라는 뜻일까? 백화점의 엘리베이터는 눈에 잘 띄지 않는 구석에 있고 에스컬레이터는 중앙에 배치되며 카페테리아는 높은 층에 위치한다. 모든 것은 고객의 동선을 늘리고 시선을 넓히는 전략이다. 이를 통해 카지노와 백화점이 고객의 지갑 점유(Share of Wallet)를 높이게 된다.

집콕의 시대가 지루하지 않은 건 넷플릭스와 유튜브 때문이다. 빈지 워칭(binge watching, 몰아보기)으로 시간 가는 줄 모른다. 유튜브는 어떤가? 한국언론재단의 연구(2019년)에서 유튜브 이용자 스스로가 찾아본 영상이 아니고 추천된 영상을 본 시간이 전체 시간의 70%라고 밝힌 바 있다. 넷플릭스, 유튜브도 고객 서비스 중심이기에 중요한 것은 고객의 시간 점유다. 우리는 오프라인에서 백화점에 점유 당하고 온라인에서 플랫폼에 점유되고 있다.

유튜브의 창문과 시계
인간의 물리적 감각은 오감으로 구성된다. 시각, 청각, 후각, 촉각, 미각이 그 5가지 영역이다. 구체적으로 본다면 천체 감각에서 시각은 83%를 차지하고 청각이11%, 후각은 3.5%, 촉각은1.5%, 마지막으로 미각은 1%를 차지한다. 비대면인 온라인에서 고객 점유가 쉽지 않다. 따라서 감각의 우선 순위가 제일 높은 시각과 청각에 집중한다. 둘의 영역이 94%를 차지한다. 

온라인과 플랫폼은 시각과 청각을 붙잡기 위한 팝업과 알람 등 다양한 장치를 사용하고 있다. 그 중심에는 알고리즘과 UX/UI가 있다. 넷플릭스와 유튜브의 창문과 시계는 알고리즘이다. 이 알고리즘이 고객의 시선과 청각을 점유하게 된다. 잠깐만 보려고 했는데 어느새 점심시간이거나, 저녁시간이다. 약속의 출발이 늦어지고, 중요한 시험이나 작업을 앞에 두고 몇 시간이 순삭(순식간에 삭제)되는 경험을 맞는다. 

본인의 관심에 따른 검색에서 시작하여 편리하게 정보제공을 받게 되지만, 한편으론 이용자의 관심에 맞추어 필터링 된 정보가 제공된다. 결국 이용자의 관심에 따른 정보만 제공되는 정보의 편향성, 즉 필터버블(filter bubble)에 빠지게 된다. 

알고리즘과 레시피
지식백과에 따르면 알고리즘(algorithm)은 주어진 문제를 논리적으로 해결하기 위해 필요한 절차, 방법, 명령어들을 모아 놓은 것이다. 알고리즘은 셰프가 식재료로 음식을 만드는 레시피와 같다. 셰프는 오늘의 메뉴를 위해 어떠한 재료를 적절히 나누야 하는지 필요한 것들을 배분하며 순서에 맞게 조리하고, 적절한 온도와 시간을 조율하며 음식을 완성하고 플레이팅과 데코레이션으로 마무리한다.


[그림1] 데이터 사이언스와 머신러닝 및 알고리즘 영역. Modified Drew Conway’s by hk.choi@ssu.ac.kr

[그림1]은 수집된 데이터에서 머신러닝 및 도메인 지식을 통한 데이터 사이언스의 모습을 보여주고 있다. 알고리즘의 식재료는 개인의 클릭으로 시작된다. 각종 검색기록, 소셜미디어의 좋아요, 뉴스와 광고, 사용자의 위치, 과거의 검색기록, 트위터와 카톡, 댓글과 구매 이력, 배송 정보 등의 다양한 데이터다. 모인 데이터는 가장 먼저 정렬과 탐색의 과정을 거친다. 데이터가 많아질수록 정교한 내용을 파악하기 쉽고 예측이 쉬워진다. 인사이트(InSight)는 데이터 내부를 잘 살펴볼 수 있어서 통찰력을 갖게 됨을 의미한다. 

머신러닝과 인사이트
데이터를 이용하여 패턴을 파악하려면 알고리즘을 만들고 프로그래밍해야 한다. 데이터는 통합되고 분류된다. 이러한 과정은 프로그래머의 몫이다. 머신러닝은 프로그래머가 할 일을 컴퓨터가 대신하는 것이다. 수학적인 모델로 알고리즘을 만들어 고객의 데이터를 빠르게 분류하고 분석하며 대응한다. 따라서, 클릭은 순식간에 필터링되어 맞춤형으로 서비스된다. 광고의 90% 이상이 알고리즘 기반의 매칭으로 이용자에게 서비스되며 은행권의 대출심사도 90% 이상은 알고리즘을 통하여 금액이 결정된다. 

이러한 내용은 규칙기반(Rule based process)의 알고리즘이나 군집 기반으로 패턴을 분석한다. 이용자의 나이, 이용시간, 위치 또는 과거의 검색기록과 현재의 검색을 비교하고 유사점을 찾아 추천하며 플랫폼에서 의도하는 내용이 믹스되어 서비스된다. 융합된 알고리즘은 요일별로 시간대별로 다르게 대응되며 사용자에게 나타난다.


[그림2] 의사결정나무, 진리표 및 회귀와 패턴. Made by hk.choi@ssu.ac.kr

[그림2]은 수집된 데이터에서 분류에 대한 알고리즘의 도식을 보여준다. 데이터는 알고리즘의 분류를 통해 패턴이 파악된다. 신용도를 평가하는 방법으로 의사결정트리가 사용된다. 의사결정트리는 논리적 결과를 표현하여 보여주는 진리표와 같다. 시간의 변화에 따른 시계열 데이터는 예측을 가능케 한다. 이런 경우 회귀분석을 사용한다. 회귀분석에는 직선, 다항식 곡선, 로지스틱 곡선, 곡면 등 여러 방법을 사용할 수 있다. 그러나 파라미터 수가 많아질수록 계산이 복잡해지고 많은 시간이 소요된다. 

한편으론 군집화(클러스터) 알고리즘이 사용된다. 같은 부류끼리 묶는 방법이다. 주로 K-평균 알고리즘(K means Algorithm)을 사용한다. 유유상종으로 상대적으로 가까운 거리, 즉 가까운 것끼리 묶는 방법이다. 이러한 방법을 정답을 알려주며 머신러닝을 시키거나 정답을 주지 않고 학습시킨다. 고객의 카드사용 패턴분석 또는 이상사용 패턴분석(FDS, Fraud Detection System)도 이런 방법을 주로 사용한다. 플랫폼의 알 수 없는 알고리즘은 이러한 내용의 융복합으로 이뤄진다.

알고리즘은 레시피와 같다. 고객에게 요리가 제공되지만 레시피까지 공개하지는 않는다. 그러나 요리에 문제가 있다면 레시피는 검토되어야 한다. 제공된 정보가 상업적, 정치적으로 편향된다면 알고리즘은 다시 리뷰 되어야한다. 알고리즘 때문에 빠르고 정확하게 서비스되는 편리함을 누리지만, 알 수 없는 알고리즘의 즐거움은 정보의 왜곡 없는 투명성에서 향유되어야 하기 때문이다.

* 최형광 교수(hk.choi@ssu.ac.kr)는 숭실대학교 AI·SW융합학과에서 강의 중이다. ciokr@idg.co.kr





 



2021.08.19

최형광 칼럼 | 알 수 없는 알고리즘에 이끌려…

최형광 | CIO KR
백화점에 없는 것은 무엇일까? 카지노에도 없는 것들이다. 답은 벽시계와 창문이다. 백화점과 카지노는 입장한 고객을 붙잡아 두기 위해 시계와 창문을 두지 않는다. 우리는 어느새 시간 가는 줄 모르고 쇼핑을 하게 되고 창밖의 날이 새는 줄 모르고 도박에 집중하게 될 것이다. 그렇다면 플랫폼은 어떻게 고객을 붙잡을까?

고객을 점유하는 법
생산하는 제품이 시장을 장악하는 비율을 시장점유율(Share of Market)이라 한다. 고객을 이끌 수 있는 전통적인 지배력을 의미한다. 백화점과 카지노는 서비스를 제공하기 때문에 시간을 점유(Share of Time)하는 것에 노력한다. 시장점유보다 고객의 시간을 점유하며 경험을 제공하는 것이 더 효과적이다. 고객의 시간 점유는 매출과 이익을 확보할 수 있기 때문이다. 

카지노에서는 열심히 도박하는 사람에게 음료수를 무료로 제공한다. 갈증을 이기고 다시 집중하라는 뜻일까? 백화점의 엘리베이터는 눈에 잘 띄지 않는 구석에 있고 에스컬레이터는 중앙에 배치되며 카페테리아는 높은 층에 위치한다. 모든 것은 고객의 동선을 늘리고 시선을 넓히는 전략이다. 이를 통해 카지노와 백화점이 고객의 지갑 점유(Share of Wallet)를 높이게 된다.

집콕의 시대가 지루하지 않은 건 넷플릭스와 유튜브 때문이다. 빈지 워칭(binge watching, 몰아보기)으로 시간 가는 줄 모른다. 유튜브는 어떤가? 한국언론재단의 연구(2019년)에서 유튜브 이용자 스스로가 찾아본 영상이 아니고 추천된 영상을 본 시간이 전체 시간의 70%라고 밝힌 바 있다. 넷플릭스, 유튜브도 고객 서비스 중심이기에 중요한 것은 고객의 시간 점유다. 우리는 오프라인에서 백화점에 점유 당하고 온라인에서 플랫폼에 점유되고 있다.

유튜브의 창문과 시계
인간의 물리적 감각은 오감으로 구성된다. 시각, 청각, 후각, 촉각, 미각이 그 5가지 영역이다. 구체적으로 본다면 천체 감각에서 시각은 83%를 차지하고 청각이11%, 후각은 3.5%, 촉각은1.5%, 마지막으로 미각은 1%를 차지한다. 비대면인 온라인에서 고객 점유가 쉽지 않다. 따라서 감각의 우선 순위가 제일 높은 시각과 청각에 집중한다. 둘의 영역이 94%를 차지한다. 

온라인과 플랫폼은 시각과 청각을 붙잡기 위한 팝업과 알람 등 다양한 장치를 사용하고 있다. 그 중심에는 알고리즘과 UX/UI가 있다. 넷플릭스와 유튜브의 창문과 시계는 알고리즘이다. 이 알고리즘이 고객의 시선과 청각을 점유하게 된다. 잠깐만 보려고 했는데 어느새 점심시간이거나, 저녁시간이다. 약속의 출발이 늦어지고, 중요한 시험이나 작업을 앞에 두고 몇 시간이 순삭(순식간에 삭제)되는 경험을 맞는다. 

본인의 관심에 따른 검색에서 시작하여 편리하게 정보제공을 받게 되지만, 한편으론 이용자의 관심에 맞추어 필터링 된 정보가 제공된다. 결국 이용자의 관심에 따른 정보만 제공되는 정보의 편향성, 즉 필터버블(filter bubble)에 빠지게 된다. 

알고리즘과 레시피
지식백과에 따르면 알고리즘(algorithm)은 주어진 문제를 논리적으로 해결하기 위해 필요한 절차, 방법, 명령어들을 모아 놓은 것이다. 알고리즘은 셰프가 식재료로 음식을 만드는 레시피와 같다. 셰프는 오늘의 메뉴를 위해 어떠한 재료를 적절히 나누야 하는지 필요한 것들을 배분하며 순서에 맞게 조리하고, 적절한 온도와 시간을 조율하며 음식을 완성하고 플레이팅과 데코레이션으로 마무리한다.


[그림1] 데이터 사이언스와 머신러닝 및 알고리즘 영역. Modified Drew Conway’s by hk.choi@ssu.ac.kr

[그림1]은 수집된 데이터에서 머신러닝 및 도메인 지식을 통한 데이터 사이언스의 모습을 보여주고 있다. 알고리즘의 식재료는 개인의 클릭으로 시작된다. 각종 검색기록, 소셜미디어의 좋아요, 뉴스와 광고, 사용자의 위치, 과거의 검색기록, 트위터와 카톡, 댓글과 구매 이력, 배송 정보 등의 다양한 데이터다. 모인 데이터는 가장 먼저 정렬과 탐색의 과정을 거친다. 데이터가 많아질수록 정교한 내용을 파악하기 쉽고 예측이 쉬워진다. 인사이트(InSight)는 데이터 내부를 잘 살펴볼 수 있어서 통찰력을 갖게 됨을 의미한다. 

머신러닝과 인사이트
데이터를 이용하여 패턴을 파악하려면 알고리즘을 만들고 프로그래밍해야 한다. 데이터는 통합되고 분류된다. 이러한 과정은 프로그래머의 몫이다. 머신러닝은 프로그래머가 할 일을 컴퓨터가 대신하는 것이다. 수학적인 모델로 알고리즘을 만들어 고객의 데이터를 빠르게 분류하고 분석하며 대응한다. 따라서, 클릭은 순식간에 필터링되어 맞춤형으로 서비스된다. 광고의 90% 이상이 알고리즘 기반의 매칭으로 이용자에게 서비스되며 은행권의 대출심사도 90% 이상은 알고리즘을 통하여 금액이 결정된다. 

이러한 내용은 규칙기반(Rule based process)의 알고리즘이나 군집 기반으로 패턴을 분석한다. 이용자의 나이, 이용시간, 위치 또는 과거의 검색기록과 현재의 검색을 비교하고 유사점을 찾아 추천하며 플랫폼에서 의도하는 내용이 믹스되어 서비스된다. 융합된 알고리즘은 요일별로 시간대별로 다르게 대응되며 사용자에게 나타난다.


[그림2] 의사결정나무, 진리표 및 회귀와 패턴. Made by hk.choi@ssu.ac.kr

[그림2]은 수집된 데이터에서 분류에 대한 알고리즘의 도식을 보여준다. 데이터는 알고리즘의 분류를 통해 패턴이 파악된다. 신용도를 평가하는 방법으로 의사결정트리가 사용된다. 의사결정트리는 논리적 결과를 표현하여 보여주는 진리표와 같다. 시간의 변화에 따른 시계열 데이터는 예측을 가능케 한다. 이런 경우 회귀분석을 사용한다. 회귀분석에는 직선, 다항식 곡선, 로지스틱 곡선, 곡면 등 여러 방법을 사용할 수 있다. 그러나 파라미터 수가 많아질수록 계산이 복잡해지고 많은 시간이 소요된다. 

한편으론 군집화(클러스터) 알고리즘이 사용된다. 같은 부류끼리 묶는 방법이다. 주로 K-평균 알고리즘(K means Algorithm)을 사용한다. 유유상종으로 상대적으로 가까운 거리, 즉 가까운 것끼리 묶는 방법이다. 이러한 방법을 정답을 알려주며 머신러닝을 시키거나 정답을 주지 않고 학습시킨다. 고객의 카드사용 패턴분석 또는 이상사용 패턴분석(FDS, Fraud Detection System)도 이런 방법을 주로 사용한다. 플랫폼의 알 수 없는 알고리즘은 이러한 내용의 융복합으로 이뤄진다.

알고리즘은 레시피와 같다. 고객에게 요리가 제공되지만 레시피까지 공개하지는 않는다. 그러나 요리에 문제가 있다면 레시피는 검토되어야 한다. 제공된 정보가 상업적, 정치적으로 편향된다면 알고리즘은 다시 리뷰 되어야한다. 알고리즘 때문에 빠르고 정확하게 서비스되는 편리함을 누리지만, 알 수 없는 알고리즘의 즐거움은 정보의 왜곡 없는 투명성에서 향유되어야 하기 때문이다.

* 최형광 교수(hk.choi@ssu.ac.kr)는 숭실대학교 AI·SW융합학과에서 강의 중이다. ciokr@idg.co.kr





 

X