2016.07.05

벤더 기고 | 머신러닝을 기반으로 한 자동 타겟팅 추천 시스템

편집부 | ITWorld KR

머신러닝(Machine Learning), 기계학습이라 부르는 이 알고리즘은 최근 분석 전문가뿐만 아니라 일반인 사이에서도 거론될만큼 뜨거운 화두가 되고 있다. 인공지능(Artificial Intelligence)의 한 분야인 머신러닝은 컴퓨터를 학습시킴으로써 방대한 데이터를 분석해 그 결과를 예측하는 방법론으로 빅데이터 분석의 핵심 기술로 각광받고 있다.

머신러닝, 데이터 속에 숨어있는 패턴을 발견
사실 머신러닝은 50여 년 전부터 만들어진 오래된 학문이자 기술이지만 그간 인프라와 컴퓨팅 파워를 갖추기 어려웠기 때문에 사용하기가 어려웠다.

그러나 최근 컴퓨팅 기술의 폭발적인 발전과 효과적으로 적용하기 위한 이론과 실무 지식의 축적, 그리고 빅데이터 시대의 도래는 머신러닝에 대한 관심을 촉발시켰다. 특히 기업들이 기존에는 다룰 수 없었던 빅데이터를 활용하면서 기존 통계, 분석 기술로는 해결이 불가능한 문제가 발생함에 따라 새로운 기술이 필요하게 된 것이다. 여러가지 알고리즘으로 구성된 머신러닝은 데이터마이닝부터 클러스터링, 연관분석 등 여러 가지를 적용한다.

머신러닝의 장점은 데이터 속에 숨어있는 패턴을 발견해준다는 점이다. 이를 통해 인간의 사고와 분석 능력을 능가하는 엄청난 양의 데이터로부터 가치를 찾아내어 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

빅데이터를 활용하는 데 앞장섰던 마케팅 분야에서도 머신러닝 도입이 잇따르고 있는데, 머신러닝 기반의 자동 타겟팅 추천 시스템은 활용이 예상되던 대표적인 분야 가운데 하나였다.

STP 전략, 세분화/타겟팅/포지셔닝
타겟팅이라는 개념은 마케팅의 STP 전략에서 나온 것으로, STP는 고객의 요구는 나날이 다양해지고 급변한다는 사실에 근거한 것이다. STP는 세분화(Segmentation), 타겟팅(Targeting), 포지셔닝(Positioning)의 약자다. STP 전략은 대부분의 구매 행위가 특정 고객 그룹에서 발생한다는 것에 착안해 해당 그룹의 요구에 맞는 마케팅 및 서비스를 진행하는 것이다.

우선 세분화에서 기준이 되는 것은 정적인 정보인 인구통계적(성별, 거주지, 소득수준, 학력, 가족수) 데이터와 동적인 정보인 구매 행동(구매 서비스 사용량, 사용내역, 추천 점수, 선호도) 데이터, 즉 사용자에 대한 다양한 경험 데이터를 통해 이뤄진다. 이 밖에 심리적, 사용상황, 추구 편익 등 이보다 다양한 기준 데이터가 있는데, 이를 모두 변수화해서 기준별도 유사도를 측정하는 것이다.

기준별로 유사한 고객들을 하나의 그룹으로 도출하는 것이 바로 세분화다. 이렇게 도출한 세분화를 선택해 필요한 마케팅이나 서비스를 제공하는 것이 타겟팅이다. 이런 다양한 사용자 경험 기반 데이터와 반응 정보를 결합하고 머신러닝을 통해 자동 타겟팅을 한다. 이를 IT 관점에서 설명하면, 정형 데이터뿐만 아니라 비정형 데이터, 반정형 데이터, 원 로그 데이터 등 여러가지 형태의 데이터들을 수집해 분석하는 것이다.

머신러닝, 추천 시스템의 신뢰도를 높이다
추천시스템은 사용자의 기존 행동을 기반으로 사용자가 앞으로 무엇을 구매할 것인지 예상되는 제품을 자동으로 검색해 제공하는 시스템이다. 이런 추천시스템은 이미 대부분의 전자상거래 업체에서 도입해 많은 효과를 보고 있다. 그러나 사용자의 제품 평가 기준이나, 구매 의사 결정에 영향을 미치는 요소를 반영하지 못해 정확도가 떨어졌다. 이런 한계를 극복하고 신뢰도를 높이기 위해 다양한 알고리즘과 통계 기반의 머신러닝을 도입한 것이다.

최근에는 개인정보 보호 문제로 인해 사용자가 누구인지를 파악하기가 상당히 힘들어졌다. 물론 독자적인 기술을 이용해 식별할 수 있는 경우도 있지만 기본적으로 사용자가 로그인을 하지 않으면 식별할 수 없다.

이런 경우, (그림 1)과 같이 사용자의 식별 여부에 따라 크게 나눠지게 되는데, 사용자 기반과 상품 기반, 그리고 통계 기반으로 추천할 수 있다.



사용자를 식별하면 당연히 사용자별로 추천해야 가장 개인화된 추천이 될 것이다. 사용자를 식별하지 못했을 때에는 관심있어 하는 상품, 사용자의 클릭이나 검색을 기반으로 연관성 있는 상품을 추천하게 된다. 통계 기반은 금주의 인기상품 등 한주동안 전체 구매 통계에서 나온 선호도에 따라 추천하는 것이다.

- 사용자 기반 추천
사용자 기반 추천은 구매 후 평가 점수에 따라 클릭한 상품을 기준으로 사용자와 비슷한 성향의 고객을 찾아 가장 좋은 평가점수 순으로 상품을 추천해준다.



사용자와 유사한 사람을 찾을 때 유사도의 기준은 앞서 설명한 성별, 나이, 직업 등 정적 정보를 활용할 수도 있지만 유사한 제품에 관심을 보이는 사람으로 평가할 수도 있다. (그림 2)와 같이 새로운 사용자가 들어와 상품1과 상품2를 구매했다면 이와 유사한 패턴을 가진 사용자 경험을 토대로 상품을 추천하는 것이 가장 적합하다고 판단하는 것이다.

- 상품 기반 추천
상품 기반 추천은 사용자가 본 상품과 유사한 아이템을 추천하는 방식으로 다른 고객의 평가를 사용해 계산 항목 사이의 유사성을 기반으로 추천한다. 만약 사용자가 구매한 상품 내역이 있다면 각 상품 간의 연관 매트릭스를 구성한다. 예를 들어 사용자가 이어폰을 구매했다면 다른 사람이 이어폰과 같이 구매한 다른 상품들을 추천하는 것이다.

앞서 설명한 것처럼 이렇게 추천하기 위해서는 유사도를 판단해야 하는데, 사실 유사도는 업종별, 구매 상황별로 상당히 다르게 적용된다. 클릭순, 구매순, 가입자순, 노출순 등 여러 가지 가중치를 부여해 선호 점수라는 하나의 수치로 일반화해서 표현할 수 있다.

예를 들어, 유통 영역에서는 구매수, 클릭수가 선호도의 기준이 되지만 구매 영역에서는 가입수, 평가, 평점 등이 되고, 의료 분야에서는 진료나 예약수와 같은 것이 하나의 선호도 점수가 될 수 있다. 일반적으로 선호 점수가 가장 적은 것을 가장 유사하다고 평가한다.
 


2016.07.05

벤더 기고 | 머신러닝을 기반으로 한 자동 타겟팅 추천 시스템

편집부 | ITWorld KR

머신러닝(Machine Learning), 기계학습이라 부르는 이 알고리즘은 최근 분석 전문가뿐만 아니라 일반인 사이에서도 거론될만큼 뜨거운 화두가 되고 있다. 인공지능(Artificial Intelligence)의 한 분야인 머신러닝은 컴퓨터를 학습시킴으로써 방대한 데이터를 분석해 그 결과를 예측하는 방법론으로 빅데이터 분석의 핵심 기술로 각광받고 있다.

머신러닝, 데이터 속에 숨어있는 패턴을 발견
사실 머신러닝은 50여 년 전부터 만들어진 오래된 학문이자 기술이지만 그간 인프라와 컴퓨팅 파워를 갖추기 어려웠기 때문에 사용하기가 어려웠다.

그러나 최근 컴퓨팅 기술의 폭발적인 발전과 효과적으로 적용하기 위한 이론과 실무 지식의 축적, 그리고 빅데이터 시대의 도래는 머신러닝에 대한 관심을 촉발시켰다. 특히 기업들이 기존에는 다룰 수 없었던 빅데이터를 활용하면서 기존 통계, 분석 기술로는 해결이 불가능한 문제가 발생함에 따라 새로운 기술이 필요하게 된 것이다. 여러가지 알고리즘으로 구성된 머신러닝은 데이터마이닝부터 클러스터링, 연관분석 등 여러 가지를 적용한다.

머신러닝의 장점은 데이터 속에 숨어있는 패턴을 발견해준다는 점이다. 이를 통해 인간의 사고와 분석 능력을 능가하는 엄청난 양의 데이터로부터 가치를 찾아내어 고객 경험을 높이거나 제품 추천을 제공하고, 더욱 개인화된 콘텐츠를 제공하는 것까지 달성하게 해준다.

빅데이터를 활용하는 데 앞장섰던 마케팅 분야에서도 머신러닝 도입이 잇따르고 있는데, 머신러닝 기반의 자동 타겟팅 추천 시스템은 활용이 예상되던 대표적인 분야 가운데 하나였다.

STP 전략, 세분화/타겟팅/포지셔닝
타겟팅이라는 개념은 마케팅의 STP 전략에서 나온 것으로, STP는 고객의 요구는 나날이 다양해지고 급변한다는 사실에 근거한 것이다. STP는 세분화(Segmentation), 타겟팅(Targeting), 포지셔닝(Positioning)의 약자다. STP 전략은 대부분의 구매 행위가 특정 고객 그룹에서 발생한다는 것에 착안해 해당 그룹의 요구에 맞는 마케팅 및 서비스를 진행하는 것이다.

우선 세분화에서 기준이 되는 것은 정적인 정보인 인구통계적(성별, 거주지, 소득수준, 학력, 가족수) 데이터와 동적인 정보인 구매 행동(구매 서비스 사용량, 사용내역, 추천 점수, 선호도) 데이터, 즉 사용자에 대한 다양한 경험 데이터를 통해 이뤄진다. 이 밖에 심리적, 사용상황, 추구 편익 등 이보다 다양한 기준 데이터가 있는데, 이를 모두 변수화해서 기준별도 유사도를 측정하는 것이다.

기준별로 유사한 고객들을 하나의 그룹으로 도출하는 것이 바로 세분화다. 이렇게 도출한 세분화를 선택해 필요한 마케팅이나 서비스를 제공하는 것이 타겟팅이다. 이런 다양한 사용자 경험 기반 데이터와 반응 정보를 결합하고 머신러닝을 통해 자동 타겟팅을 한다. 이를 IT 관점에서 설명하면, 정형 데이터뿐만 아니라 비정형 데이터, 반정형 데이터, 원 로그 데이터 등 여러가지 형태의 데이터들을 수집해 분석하는 것이다.

머신러닝, 추천 시스템의 신뢰도를 높이다
추천시스템은 사용자의 기존 행동을 기반으로 사용자가 앞으로 무엇을 구매할 것인지 예상되는 제품을 자동으로 검색해 제공하는 시스템이다. 이런 추천시스템은 이미 대부분의 전자상거래 업체에서 도입해 많은 효과를 보고 있다. 그러나 사용자의 제품 평가 기준이나, 구매 의사 결정에 영향을 미치는 요소를 반영하지 못해 정확도가 떨어졌다. 이런 한계를 극복하고 신뢰도를 높이기 위해 다양한 알고리즘과 통계 기반의 머신러닝을 도입한 것이다.

최근에는 개인정보 보호 문제로 인해 사용자가 누구인지를 파악하기가 상당히 힘들어졌다. 물론 독자적인 기술을 이용해 식별할 수 있는 경우도 있지만 기본적으로 사용자가 로그인을 하지 않으면 식별할 수 없다.

이런 경우, (그림 1)과 같이 사용자의 식별 여부에 따라 크게 나눠지게 되는데, 사용자 기반과 상품 기반, 그리고 통계 기반으로 추천할 수 있다.



사용자를 식별하면 당연히 사용자별로 추천해야 가장 개인화된 추천이 될 것이다. 사용자를 식별하지 못했을 때에는 관심있어 하는 상품, 사용자의 클릭이나 검색을 기반으로 연관성 있는 상품을 추천하게 된다. 통계 기반은 금주의 인기상품 등 한주동안 전체 구매 통계에서 나온 선호도에 따라 추천하는 것이다.

- 사용자 기반 추천
사용자 기반 추천은 구매 후 평가 점수에 따라 클릭한 상품을 기준으로 사용자와 비슷한 성향의 고객을 찾아 가장 좋은 평가점수 순으로 상품을 추천해준다.



사용자와 유사한 사람을 찾을 때 유사도의 기준은 앞서 설명한 성별, 나이, 직업 등 정적 정보를 활용할 수도 있지만 유사한 제품에 관심을 보이는 사람으로 평가할 수도 있다. (그림 2)와 같이 새로운 사용자가 들어와 상품1과 상품2를 구매했다면 이와 유사한 패턴을 가진 사용자 경험을 토대로 상품을 추천하는 것이 가장 적합하다고 판단하는 것이다.

- 상품 기반 추천
상품 기반 추천은 사용자가 본 상품과 유사한 아이템을 추천하는 방식으로 다른 고객의 평가를 사용해 계산 항목 사이의 유사성을 기반으로 추천한다. 만약 사용자가 구매한 상품 내역이 있다면 각 상품 간의 연관 매트릭스를 구성한다. 예를 들어 사용자가 이어폰을 구매했다면 다른 사람이 이어폰과 같이 구매한 다른 상품들을 추천하는 것이다.

앞서 설명한 것처럼 이렇게 추천하기 위해서는 유사도를 판단해야 하는데, 사실 유사도는 업종별, 구매 상황별로 상당히 다르게 적용된다. 클릭순, 구매순, 가입자순, 노출순 등 여러 가지 가중치를 부여해 선호 점수라는 하나의 수치로 일반화해서 표현할 수 있다.

예를 들어, 유통 영역에서는 구매수, 클릭수가 선호도의 기준이 되지만 구매 영역에서는 가입수, 평가, 평점 등이 되고, 의료 분야에서는 진료나 예약수와 같은 것이 하나의 선호도 점수가 될 수 있다. 일반적으로 선호 점수가 가장 적은 것을 가장 유사하다고 평가한다.
 


X