Offcanvas

How To / 빅데이터 | 애널리틱스 / 애플리케이션

컴스코어 CTO가 하둡을 활용하는 방법

2012.06.08 Michael Ybarra   |  CIO
컴스코어의 CTO 마이크 브라운은 빅 데이터에 대해 일가견이 있는 인물이다. 오픈소프 하둡을 구동하는 그의 80 서버 클러스터에는 매일 12테라바이트의 정보가 밀려들어온다.

하둡은 데이터를 정렬하고 분석해 컴스코어 클라이언트에게 제공하게 된다. 브라질에서 페이스북이 얼마나 빠르게 성장하고 있는지, 혹은 가장 많은 e카드를 판매한 온라인 벤더는 어디인지 등을 알고 싶어하는 클라이언트들이다. 브라운은 "매일 320억 줄의 데이터를 수집한다"라고 말했다.

그는 데이터가 빠르게 증가함에 따라 올해 연말까지 200 서버 클러스터로 확장할 계획이다. 그는 적절한 데이터 통합 소프트웨어가 없다면 두 배에 이르는 서버가 필요했을 것으로 판단하고 있다.


그가 컴스코어에 합류한 시점은 1999년이다. 소프트웨어 엔지니어로 합류한 이후 그는 줄곧 방대한 데이터와 씨름해왔다. 컴스코어는 이제 매년 2억 3,200만 달러의 매출을 일으키는 거대 기업으로 성장했다. 브라운은 "우리 회사의 성장은 꾸준히 선형적으로 이뤄져왔다. 앞으로도 지속되어야만 할 것"이라고 말했다.

컴스코어는 당초 자체개발한 그리드 프로세싱 스택으로 출발했다. 그리고 2000년 싱크소트의 데이터 통합 소프트웨어를 추가했다. 현재 'DMExpress'로 판매되는 소프트웨어의 과거 버전이다. 브라운은 "이 소프트웨어를 통해 5~10배 빠르게 데이터를 처리할 수 있었다. 스토리지 추가 뿐 아니라 연산 능력의 추가도 이뤄져야 하는 것"이라고 말했다.

2009년 컴스코어는 하둡으로 이전했다. 하둡과 관련해서는 얼리어답터격인 행보였다. 브라운은 "독자적으로 구축하는데 투자하기보다는 하둡 커뮤니티를 활용하는 것이 낫다고 판단했다"라고 말했다. 그는 이어 "대체적으로 하둡은 기업에 도입하기 어려운 편이다. 특히 여러 운영체제를 활용할 때 그렇다. DMEpress가 자체 커넥터를 통해 이 문제 해결에 도움을 줬다"라고 말했다.

포레스터 리서치의 제임스 쾨빌리우스는 최근 보고서를 통해 컴스코어의 이러한 행보가 기업들이 겪는 전형적 경험이라고 말했다. 그는 "하둡에는 기업용 데이터 웨어하우스용 핵심 기능이 일부 부족하다. 실시간 통합이나 강력한 고가용성 등이 그것이다. 하둡 분야에는 이러한 확장 기능을 제공하는 벤더들이 몇몇 있다"라고 말했다.

컴스코어의 사례에서 브라운은 싱크소트의 소프트웨어가 하둡 이전을 쉽게 해준다는 사실을 발견했다. 그는 "푸시코드 외에는 코드를 바꿀 필요가 없었다. 우리는 30개의 다른 앱에서 DMExpress를 이용한다. 데이터를 조정해야 하는 어떤 상황에서도 유용하다"라고 말했다.

그는 이어 "클러스터 상에서 두 배의 데이터를 저장할 수 있다. 또 성능을 높이기 위해 이용할 수도 있다. 또 이것이 해결해준 큰 문제 하나는 커다란 파일을 쪼개 하둡에 맞도록 분리해준 것이다. 이를 통해 우리는 압축된 파일에 대해 보다 높은 비율의 유사성을 확보할 수 있었으며 비용도 절감할 수 있었다"라고 전했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.