기고 | 어렵지만 가치 큰 '소셜 데이터 웨어하우징'

CIO
전통적 데이터 웨어하우징(data warehousing)은 기업 전반의 다양한 소스들로부터 막대한 양의 관계형 데이터를 수집하고 이들 사이의 연관 관계를 구축해 통합적인, 그리고 보다 값진 가치를 창출하는 역할을 수행해왔다.

대부분의 경우 결합의 어려움은 있을지라도 관계의 명료성이나 추론의 직관성은 확보됐었다. 하지만 소셜 마케팅(social marketing), 세일즈 2.0(sales 2.0), 소셜 고객관계관리(social CRM) 등의 새로운 개념들이 부상하고 있는데, 여기에서는 상황이 다소 다르다.

이러한 시장 상황은 관리자들에게 시간 연속적 데이터와 소셜 네트워크 전반의 상호 작용에 보다 많은 주의를 기울여야 한다는 까다로운 과제를 안겨주고 있다. 이제 지금껏 경험하지 못했던 규모의 데이터와 마주하는 과제도 함께다.

첫 번째로 살펴봐야 할 요소는 행동 스코어링(behavioral scoring)이다. 이는 일종의 마케팅 자동화 시스템으로써, 단순히 기업이 전송한 이메일만을 추적하는 것이 아닌 사용자들의 페이지 방문 기록이나 쿠키, 통화 기록, 클릭 경로 등 구매와 관련을 지니는 모든 반응들을 추적해야 할 필요를 제시한다.

익명의 방문자들에 대한 데이터 역시 기존 사용자들의 그것만큼이나 무수히 쏟아져 올 것이다. 이제 기업들이 매달 기록해야 하는 데이터 포인트(data point)의 규모는 최소 수백 만에 이르게 될 것이다.

소셜 네트워킹과 관련해, 이제는 누가 어느 소셜 네트워크에 소속되어 있는지를 파악하는 것만으로는 충분치 않다. 이제 목표는 이메일 및 통화 기록, 소셜 포스팅 등의 패턴에 기반해 소셜 네트워크 그래프를 제작하고 이를 통해 커뮤니티의 영향력 있는 인물이 누구인지를 이해하는 데까지 나아가야 한다.

이 그래프는 기업이 잠재적 고객에게 접근하고 영향을 미칠 가장 직접적이고 안정적인 방법을 이해하는데 역시 도움을 줄 것이다. 소셜 네트워크란 그 개별적 연결 상태는 단순하지만 그것들이 모여 증폭되는 영향력의 차원은 기하급수적 형태를 띄는, 실로 압도적인 개념이다.

셋째로 실시간 메시지를 비롯한 소셜 피드들은 고객들의 정서를 추적하고 그들의 어휘를 분석하는데 유용하게 이용될 수 있다. 하지만 이는 (특히 첨부 파일까지 고려할 경우) 고도의 비정형 데이터라는 사실을 기억할 필요가 있다. 그러나 영상 내 브랜드 언급 혹은 로고 등장 등의 분석에 관심이 있다면 이에 관한 기록으로 상당한 가치를 창출할 수 있을 것이다.

소셜 데이터는 양적, 질적 과제를 동시에 안겨준다
위에 언급된 각각의 피드들이 단순히 그 규모적 측면에서만 어려움을 안겨주는 것이 아니다. 이제는 시간 순서를 유지하고 복수의 매체들 전반에서 발생하는 사건들을 연결하는 것에 역시 신경 써야 할 필요가 있다. 이는 막대한 규모의 조합 확산으로 이어지게 될 것이다.

이에 대한 가장 분명한 해답은 분석 역량을 기록 수준 디테일들이 아닌 추출과 계산에 집중하는 것이다.

기업이 안정적인 분석으로 대부분의 쿼리(query)와 모든 추출물들을 사전에 확인할 수 있다면 이 전략은 적절한 효과를 발휘할 것이다. 하지만 세부 데이터 시험 요청이 제기될 가능성을 고려한다면 여기에서 나아가 추출된 개요 하부를 탐구할 수 있는 툴 역시 준비할 필요가 있을 것이다.


클라우드가 제공하는 경제성 및 속도는 이 문제에 유용한 해답이 될 수 있다. 오늘날에는 다양한 클라우드 전용의 견고한 BI 툴들이 소개되고 있으며, 많은 클라우드 기반 사용자들은 SaaS(Software as a Service)로 자신들의 데이터 웨어하우스를 이전하는 모습을 보여주고 있다. 분명 멋진 변화라 할 수 있다.

하지만 소셜 데이터는 순수하게 클라우드 웨어하우스에만 의존하기에는 한계가 있는 것이 사실이다. 비정형 쿼리, 가설 검증, 추출 공식 등 추출 과정 기저의 세부 사항들은 분명 구축형 데이터베이스를 필요로 하기 때문이다. 다행인 점이라면, 디스크와 메모리 역시 발전을 계속하고 있다는 사실이다.

구축형 웨어하우스의 진짜 비용은 다른 곳에 있다. 바로 소프트웨어 및 데이터 애널리스트다. 분석 역량과 관련해서는 긍정적 변화들이 목격되고 있지만, 소프트웨어와 인력에 소요되는 비용은 떨어질 줄 모르고 있는 것이 현실이다.

잔가지는 미리, 수시로 정리해라
필자는 다람쥐처럼 데이터를 쌓아두던 사람이었다. 하지만 소셜 데이터 웨어하우징의 등장으로 이제는 세부 데이터를 언제까지나 보관하는 것이 의미 없는 일이 되었다.

첫 번째 이유는 정보의 가치에 있다. 급격한 변화의 시대인 오늘날, 데이터의 가치는 그리 오래 지속되지 못한다. 여기 변화의 양상들을 좀 더 살펴보자.

- 사이버 사회의 진화는 점점 더 빠르게 일어나고 있다. 이제 마이스페이스(MySpace)나 세컨드라이프(SecondLife)에서의 상호 작용을 이해하는 것은 그다지 많은 이득을 안겨주지 못한다. 조금 더 직접적으로 말하자면, 일부 소셜 네트워크 행동 양식들은 그저 하나의 유행으로 흘러가곤 한다. 연구는 학자들에게 맡기기로 하자.

- 광고 플랫폼 및 전략, 특히 모바일 사용자를 겨냥한 플랫폼과 전략의 진화 역시 빠르게 일어나고 있다. 클릭률의 문턱 값이 전환률을 이해하는데 미치는 영향력은 점점 더 줄어들고 있다.

- 경쟁자들의 활동은 기업의 결과물에 영향을 미치고 있고, 기업의 목표 역시 지속적으로 변화하게 될 것이다. 오늘날 데이터 영역의 규모와 복잡성을 생각해보자. 이 영역에 장기적으로 적용할 수 있는 표준화된 애널리틱스가 확립되는 것이 가능할까? 오래도록 지속될 보편적 공동 작용 혹은 알고리즘은 이제 없다. 지금 이 순간에 집중하라.

두 번째 이유는 신호 대 잡음 비와 그것의 처리 비용에 있다.

- 기업이 수집하는 소셜 데이터의 상당 부분은 잡음이다. 초기에는 어떠한 전망이 발견되는 데이터 포인트가 별다른 후속 반응을 보이지 않거나 시야에서 사라져버리는 것은 일반적인 현상이 되었다. 일부 데이터 셋에 있어서는 추적해오던 데이터의 95%를 폐기하는 상황 역시 일어날 수 있다.

- 무료 데이터 웨어하우스 소프트웨어 혹은 서비스를 활용하는 경우에도 유입되는 막대한 데이터의 분석과 관리에 요구되는 시간과 노력은 비용으로 연결된다. 우리는 실시간 시스템을 표방하면서도 1개월 분량의 데이터 당 쿼리(data per query) 이상을 제거할 수 없는 시스템들을 종종 목격하곤 한다. 이 경우 기업의 모든 데이터를 모으는데 소요되는 시간은 얼마나 될까?

소셜 데이터 웨어하우징, 그리고 그것을 위한 툴은 전에 없던 새로운 개념이며 이것의 효율적 활용을 위해 우리는 방법론을 새로이 개발할 필요가 있을 것이다. 이것이 또 하나의 돈벌레로 전락하길 바라지 않는다면, 명확한(그리고 아마 단기적인) 목표 설정과 철저한 관리 시행의 노력이 이뤄져야 할 것이다.

*David Taber는 ‘세일즈포스닷컴 성공의 비밀(Salesforce.com Secrets of Success)’의 저자며 세일즈포스닷컴의 공식 컨설팅 업체인 세일즈로직스 CEO다. ciokr@idg.co.kr