2015.07.01

컴스코어 CTO가 전하는 빅데이터 교훈

Thor Olavsrud | CIO

이미지 출처 : Thinkstock

컴스코어(comScore)는 빅데이터 분야에서 신출내기 회사는 아니다. 이 디지털 분석 회사는 1999년 온라인에서 무슨 일이 일어나는지에 대해 인텔리전스를 제공하려는 목표를 가지고 설립됐다.

초창기 이 회사가 관리하던 데이터의 양은 비교적 적당했지만 그런 상황이 오래가지 않았다.

컴스코어의 첫번째 소프트웨어 엔지니어이자 현재 CTO를 역임하고 있는 마이크 브라운은 “2009년부터 데이터 양 측면에 있어서 문제가 상당히 재미있어지기 시작했다”는 말로 설명을 시작했다. 이어서 그는 “그 이전까지는 한달 동안 500억에서 1000억 이벤트 수준이었다”고 전했다.


빅데이터를 흐르게 하라
2009년 여름부터는 마치 누군가 댐 수문을 연 것처럼 데이터 양이 급속도로 증가했고 그 추세가 계속 지금까지 이어져오고 있다. 작년 12월 브라운은 컴스코어가 1조 9,000억 이벤트 이상을 기록했는데, 이는 매일 10테라바이트 이상의 데이터를 소화하는 셈이다.

2004년 더그 커팅과 마이크 카라펠라가 하둡을 개발하기 전 컴스코어는 자체 데이터를 처리하기 위해 자체 그리드 프로세싱 스택의 구축을 시작했다. 하지만 2009년 프로젝트 5년차에 접어들면서 컴스코어는 새로운 UDM(Unified Digital Measurement) 이니셔티브를 이행하는데 어려움을 겪고 데이터 량과 프로세싱 요건이 급속도로 성장하기 시작했다.

UDM은 최상의 접근방식을 만들기 위해 인구통계-기반의 사이트 분석 데이터(웹페이지, 앱, 비디오, 광고 상의 픽셀이나 자바스크립트 활용)와 패널-기반 시청자 측정 데이터를 혼합함으로써 컴스코어 제품의 공식을 도출하기 위한 측정 철학으로 태어났다.

“인구통계는 실로 엄청났다”고 브라운은 말했다. “상위 100대 미디어 프로퍼티 90%가 현재 그 프로그램에 참여하고 있으며 모든 페이지가 우리에게 전화를 걸고 있다”고 브라운은 말했다.

현재 인구통계와 패널 집단에서 50개의 각기 다른 데이터 소스를 컴스코어가 보유하고 있다고 브라운은 전했다.

이 데이터의 높아져가는 흐름을 수용하기 위해 컴스코어는 새로운 인프라 업그레이드를 시작했다. 자체 맞춤 구축 그리드 프로세싱 스택은 수요를 감당할 수 없다는 게 확실해 졌다. 다행히도 그런 조건에 적합한 새로운 촉망 받던 기술, 즉 아파치 하둡이 있었다.




2015.07.01

컴스코어 CTO가 전하는 빅데이터 교훈

Thor Olavsrud | CIO

이미지 출처 : Thinkstock

컴스코어(comScore)는 빅데이터 분야에서 신출내기 회사는 아니다. 이 디지털 분석 회사는 1999년 온라인에서 무슨 일이 일어나는지에 대해 인텔리전스를 제공하려는 목표를 가지고 설립됐다.

초창기 이 회사가 관리하던 데이터의 양은 비교적 적당했지만 그런 상황이 오래가지 않았다.

컴스코어의 첫번째 소프트웨어 엔지니어이자 현재 CTO를 역임하고 있는 마이크 브라운은 “2009년부터 데이터 양 측면에 있어서 문제가 상당히 재미있어지기 시작했다”는 말로 설명을 시작했다. 이어서 그는 “그 이전까지는 한달 동안 500억에서 1000억 이벤트 수준이었다”고 전했다.


빅데이터를 흐르게 하라
2009년 여름부터는 마치 누군가 댐 수문을 연 것처럼 데이터 양이 급속도로 증가했고 그 추세가 계속 지금까지 이어져오고 있다. 작년 12월 브라운은 컴스코어가 1조 9,000억 이벤트 이상을 기록했는데, 이는 매일 10테라바이트 이상의 데이터를 소화하는 셈이다.

2004년 더그 커팅과 마이크 카라펠라가 하둡을 개발하기 전 컴스코어는 자체 데이터를 처리하기 위해 자체 그리드 프로세싱 스택의 구축을 시작했다. 하지만 2009년 프로젝트 5년차에 접어들면서 컴스코어는 새로운 UDM(Unified Digital Measurement) 이니셔티브를 이행하는데 어려움을 겪고 데이터 량과 프로세싱 요건이 급속도로 성장하기 시작했다.

UDM은 최상의 접근방식을 만들기 위해 인구통계-기반의 사이트 분석 데이터(웹페이지, 앱, 비디오, 광고 상의 픽셀이나 자바스크립트 활용)와 패널-기반 시청자 측정 데이터를 혼합함으로써 컴스코어 제품의 공식을 도출하기 위한 측정 철학으로 태어났다.

“인구통계는 실로 엄청났다”고 브라운은 말했다. “상위 100대 미디어 프로퍼티 90%가 현재 그 프로그램에 참여하고 있으며 모든 페이지가 우리에게 전화를 걸고 있다”고 브라운은 말했다.

현재 인구통계와 패널 집단에서 50개의 각기 다른 데이터 소스를 컴스코어가 보유하고 있다고 브라운은 전했다.

이 데이터의 높아져가는 흐름을 수용하기 위해 컴스코어는 새로운 인프라 업그레이드를 시작했다. 자체 맞춤 구축 그리드 프로세싱 스택은 수요를 감당할 수 없다는 게 확실해 졌다. 다행히도 그런 조건에 적합한 새로운 촉망 받던 기술, 즉 아파치 하둡이 있었다.


X