BI / SNS / 빅데이터 | 애널리틱스
트위터는 사용자 데이터가 산처럼 쌓이고 있다는 사실이 문제가 된다는 것을 깨닫고는 이를 해결하기 위해 다른 기업을 인수했다.
트위터의 성공은 전적으로 사용자들이 생성하는 데이터를 얼마나 잘 활용하는지에 달려 있다. 그리고 처리해야 할 데이터도 어마어마하다. 트위터는 하루에 2억 3.000만 개의 트위터 메시지를 생성하는 계정이 무려 2억 개 이상이나 된다.
지난 7월, 거대 소셜 네트워크 기업 트위터는 수백 만 개의 트위터 피드 같은 실시간 데이터 스트림을 분석할 수 있는 소프트웨어인 ‘스톰(Storm)’의 개발업체 백타입(BackType)을 인수했다. 트위터는 해당 기업을 인수한 후 스톰의 소스코드를 공개해 제품 자체의 상용화에 관심이 없음을 밝혔다.
스톰은 트위터의 서비스에서 실시간으로 나타나는 주제를 파악하는데 유용할 수 있기 때문에 트위터를 운영하는데 주는 가치가 상당하다. 예를 들어 트위터는 해당 소프트웨어를 이용해 복수의 트위터 사용자들 사이에서 웹 주소가 얼마나 널리 공유되고 있는지 실시간으로 계산하고 있다.
이런 작업은 "엄청난 계산이 요구된다. 여기에는 수천 개의 데이터베이스 요청과 수백만 개의 팔로워 기록이 수반될 수 있다"라고 트위터의 스톰 수석 엔지니어 네이썬 마츠는 설명했다. 그는 지난 12월 빅데이터 소프트웨어 업체 데이터스택스(DataStax)가 뉴욕에서 개최한 컨퍼런스에서 해당 기술에 관해 설명한 바 있다.
단일 장비를 사용하고 웹 주소의 도달 거리를 계산하는 데는 최대 10분이 소요된다. 하지만 10대의 장비를 동원하면 몇 초면 계산이 끝난다고 마츠는 전했다. 새로운 트렌드에 관한 광고를 판매해 수익을 창출하는 기업에게 신속한 연산을 필수적일 수 있다.
일반 기업들도 트위터처럼 수중에 상당한 데이터를 가지고 있으며 이를 신속하게 정리하고 분석할 수 있다면 수익을 극대화하고 효율성을 향상할 수 있는 잠재력이 있다는 사실을 깨닫고 있다. 대부분 오픈소스인 다수의 새로운 기술에 의해 이런 빅데이터가 실현된 것이다.
아파치 하둡 데이터 처리 플랫폼 등을 이용해 사용자들이 무엇을 원하는지에 관해 더 많은 정보를 수집하는 온라인 쇼핑 서비스 리빙소셜(LivingSocial)의 CTO 아론 버탤리온은 “사람들이 무엇에 관심을 두는지 더 잘 파악하고 우리가 가지고 있는 데이터를 활용해 더욱 관련 있는 경험을 창출할 수 있다면 이것은 분명 경쟁우위가 된다"라고 주장했다.
단순히 제품을 만들기만 하면 제대로 작동하는 시대는 끝났다는 게 버탤리온이 강조한 말이다. "성공을 위해 아이디어를 가지고 테스트하며 이를 반복하고 데이터와 분석을 활용해 무엇이 제대로 작동하고 무엇이 제대로 작동하지 않는지 이해해야 한다. 그것이 우리가 빅데이터 인프라를 사용하는 방법이다"라고 버탤리온은 설명했다.