Offcanvas

대용량 데이터, 착한 빅브라더 될까?

2011.03.28 CIOKR  |  Computerworld

하둡(Hadoop)과 같은 대용량 데이터 처리 엔진을 활용한 실시간 배치 분석 기술이 발전하면서 기업들은 과거 어느 때보다 더욱 정확하게 고객의 활동, 행동양태 및 위치를 파악할 수 있게 될 전망이다.

 

IBM의 수석 엔지니어인 제프 조나스는 "우리들이 기존에 가졌던 프라이버시에 대한 개념이 바뀌게 된다”며 “이제 감시 사회를 피할 수 없는 정도라 아니라 이에 저항할 수 없을 정도가 될 것"이라고 설명했다. 조나스는 23일 '스트럭처 빅 데이터 2011(Structure Big Data 2011)' 컨퍼런스에서 수 백 명을 대상으로 발표하는 자리에서 이같이 말했다.

 

기업들은 사람들이 지리적으로 어디에 위치해 있는지 파악함으로써 웹에서 광고 및 마케팅 정보를 이들에게 맞춤화 해 제시할 수 있다. 예를 들어 특정 고객 한 명이 카리브해의 아열대 기후 휴양지인 아루바(Aruba)에 위치해 있다는 사실을 알고 있다면 뉴욕에 소재한 레스토랑을 소개하지는 않을 것이다. 대신 스쿠버 다이빙 장비나 썬 태닝 로션을 광고해 팔 것이다.

 

사람들의 위치 정보를 파악하게 되면 잠재 고객에 대한 정확성을 높일 수도 있다. 이름과 생년월일이 같지만 사는 도시가 다른 다섯 명의 고객이 있다고 가정해보자. 이 경우, 위치 정보를 토대로 개인을 구별할 수 있다.

 

조나스는 이에 대해 "과거 10년 동안의 주소지 기록을 살펴보는 것만으로도 동일 인물인지 아닌지를 판단할 수 있다. 한 사람이 동시에 같은 주소지의 집에서 살 수는 없기 때문”이라고 설명했다.

 

조나스에 따르면 미국에서는 매일 6,000억 건에 달하는 온라인 트랜잭션이 발생한다. 그리고 이중 상당수에는 휴대폰이 생성하는 위치 데이터가 담겨 있다. 따라서 무선 통신 제공업체들은 이러한 데이터를 실시간으로 확보해 관리하고 있다.

 

기업들은 몇 년 동안의 데이터를 관찰해 사람들이 일상을 어떻게 보내는지, 어디에서 업무를 보는지, 누구와 교류를 하는지를 파악할 수 있다.

 

조나스는 "이러한 정보들은 대용량 데이터 분석을 위한 방대한 자료가 된다”며 “이런 분석을 통해 87%의 확률을 가지고, 특정 인물이 다음주 목요일 오후 5시35분에 어느 위치해 있을지 예측할 수 있다"고 주장했다.

 

기업 입장에서 풀이하자면, 대용량 데이터란 대형 데이터웨어하우스(DW)이다. 컴퓨터 시스템 로그 파일, 금융 서비스 전자 거래 정보, 웹 검색 스트리밍, 이메일 메타 데이터, 검색 엔진 쿼리, 소셜 네트워킹 활동 같은 인간과 기계가 교류하며 생성되는 데이터 등을 들 수 있다. 2010년 한해 동안만 1.5 제타바이트(zetabyte)에 달하는 데이터가 생성됐다. 그리고 이중 대부분은 컴퓨터 같은 기계에서 만들어진 것들이다. 클라우드 소프트웨어 공급업체인 조이엔트(Joyent)의 설립자겸 수석 과학자인 제이슨 호프먼에 따르면, 지난해 기업들의 데이터센터 저장 시스템에 저장되어 있는 이런 데이터의 양은 16엑사바이트(exabyte)에 달한다고 한다.

 

분석 엔진 벤더인 클라우드스케일(Cloudscale)의 CEO인 빌 맥코일은 “현재까지 대용량 데이터 분석에는 오프라인 쿼리나 구글이 개발한 'MapReduce' 알고리즘이 이용되고 있다”고 말했다.  그러나 기업 DW 사용자의 90%는 실시간 분석 방안을 요구하고 있다.

 

맥코일은 "기업들은 경쟁업체보다 더 빠르게 데이터로부터 정보를 추출할 수 있다면 경쟁에서 승리할 수 있다는 사실을 잘 알고 있다"고 설명했다.

 

MPP(Massively Parallel Processing) DW 장비 제조업체인 네테자의 창업자겸 CEO 짐 바움 역시 맥코일의 의견에 동의했다. 바움은 “만약 기업 사용자들이 분석 쿼리에 많은 시간을 소비하지 않는다면 정보로부터 더 많은 가치를 창출해낼 수 있을 것”이라고 주장했다.

 

바움은 이에 대해 "실시간으로 답을 얻을 수만 있다면, 다음 질문, 또 다음 질문을 계속해서 물을 수 있다. 이렇듯 실시간으로 답을 얻는 것은 아주 중요하다”며 “이는 우리가 대용량 데이터를 이용해 성취하고자 하는 것의 구현도구이기도 하다"고 설명했다. 네테자는 지난해 IBM에 인수되면서 화제를 모으기도 했다. 사실 대형 기업들의 대용량 데이터 벤더 인수는 지난 몇 년 동안 계속되어 왔다. EMC는 그린플럼(Greenplum)을, HP는 버티카(Vertica)를 각각 인수했다. 또 테라데이터(Teradata)는 아스터 데이터 시스템(Aster Data Systems)을 인수하겠다고 밝혔다.

 

야후의 클라우드 아키텍처 부문 VP인 토드 파파이오나우는 “고객들이 대용량 데이터 분석을 기업이 고객들을 감시해 이용하려는 수단이 아닌, 한층 맞춤화된 웹 체험으로 받아들이게 될 것”이라고 주장했다.

 

파파이오나우는 "누군가가 소비자인 나에게 한층 눈길을 끌고 관련이 있는 정보를 전달할 수 있다면 개의치 않을 것”이라고 강조했다.

 

야후는 지난 수요일 새로 업그레이드한 검색 엔진인 서치 디렉트(Search Direct)를 출시했다. 서치 디렉트는 구글 인스턴트와 유사한 방식으로 과거 검색 이력을 토대로 더욱 풍부한 콘텐트를 사용자에게 전달한다. 예를 들어 검색 창에 뉴욕(New York)'이라는 단어를 입력하면, 해당 단어가 포함되어 있고, 사람들이 가장 즐겨 찾는 검색어들이 순서대로 목록에 나타난다. 이 경우 '뉴욕 타임즈’가 가장 먼저 뜬다.

 

유명 서점인 반즈앤노블의 VP 마크 패리시는 “전자책 판매가 본격화되면서 컴퓨터가 생성하는 데이터가 폭증하고 있다”고 말했다. 이와 관련 아마존의 경우, 지난해 전자책 판매가 종이책 판매를 넘어서기도 했다.

 

패리시는 "고객들이 이북 리더기와 이북을 이용하는 방식에 대한 웹로그 데이터는 현재 35TB에 달한다”며 “올해에는 25TB가 더 늘어날 전망”이라고 설명했다. 패리시는 “이 데이터를 이용해 고객들의 행동양태를 판단할 수 있다. 예를 들어 좋아하는 작가를 기준으로 책을 구매하는 고객의 비율 같은 정보가 여기에 속한다. 따라서 고객들이 생각하는 바를 포착하는 방식에 대한 분석 방법과 이를 발전시켜 나갈 방법을 결정해야 한다"고 강조했다.

 

다른 기업들 또한 대용량 데이터 분석을 이용해 자신들의 웹사이트 콘텐트 활용을 추적하고 있다. 고객의 취향에 한층 부합하기 위한 목적에서다.

 

내셔널 퍼블릭 라디오(National Public Radio)의 매트릭스 분석가 손드라 러셀은 "웹 사이트 사용자의 트렌드를 실시간으로 추적하도록 해주는 수단이 필요하다"고 말했다. NPR은 웹 사이트를 통해 포드캐스트와 라이브 스트림, 온디멘드 스트리밍, 기타 라디오 관련 콘텐트를 전달하고 있다. 이 회사는 웹 분석 엔진인 옴니츄어(Omniture)를 이용해 왔다.

 

하지만 NPR은 6-12시간, 최악의 경우 수주 정도의 쿼리 지연에 고민해왔다. 결국 로그와 매트릭스, 다른 애플리케이션과 서버, 네트워크의 데이터와 인덱스를 검색이 가능한 저장소로 바꿔주는 스플렁크(Splunk)의 리포팅 툴로 교체 도입했다.

 

러셀은 "특정 시간대에 누군가 프로그램을 얼마나 반복해 청취하는지 알고 싶었을 뿐"이라며  "스플렁크를 이용하고 나서 데이터 쿼리와 보고에 지연이 없어졌다. 따라서 정확한 수치를 반영한 그래프를 얻기 위해 몇 주간을 기다릴 필요가 없어졌다"고 말했다.

 

IBM의 조나스는 대용량 데이터를 퍼즐 조각에 비교했다. 책상 위에 올려놓고 조각을 맞추기 까지는 그게 뭔지를 알 수 없다는 점에서다. 이는 하둡과 카산드라(Cassandra), 그리고 다른 분석 엔진들이 등장한 이유이기도 하다. 하둡은 구글의 맵리듀스를 기반으로 한 분산형 소프트웨어 파일 시스템으로, 대규모 서버 클러스터 전반에 걸쳐 대용량 연산(배치 프로세싱)을 병렬로 처리해준다. 또 구조적이든 비구조적이든 사용자나 컴퓨터가 생성한 데이터를 대상으로 이런 연산을 처리할 수 있다. 그러나 하둡은 비구조화 랜덤 데이터 세트에서 가장 효력을 발휘한다. 즉 분석 엔진이 정보를 한층 빠르게 수집할 수 있다는 뜻이다.

 

맵리듀스 시스템은 기존의 전통적인 데이터베이스와는 다르다. 데이터, 파일, 블록의 형식과는 상관없이 배치 프로세스에서 데이터를 빠르게 사전 분류할 수 있다는 점에서 그렇다. 또 C++, C#, 자바, 펄(Perl), 파이썬(Python), 루비(Ruby) 같은 많은 언어들과 호환이 가능하다. 일차 분류를 하고 난 후, 구체적인 쿼리를 수행하기 위해서는 한층 구체적인 분석 애플리케이션이 필요하다. 기존의 데이터베이스는 느린 것으로 간주된다. 테이블과 테이블을 비교해 분석을 하기 때문이다. 또 확장이 쉽지 않기도 하다.

 

예를 들어 구글의 연구 및 특별 이니셔티브 부문 VP인 알프레드 스펙터는 “서버 클라우드 클러스터가 언젠가 하나의 MPP DW를 생성하는 1,600만개의 프로세스를 포함하게 될 것”으로 전망하는 것도 맥락을 같이 한다.

 

스펙터는 "이를 구현하는데 필요한 좋은 엔지니어링 자원을 제외하고 여타의 제약은 없을 것”이라며 “무어의 법칙과는 상관없이 사실상 무한대의 연산 능력을 보유하고 있다"고 설명했다.

 

스펙터는 “분산형 컴퓨팅 시스템이 완전히 투명한 프로세싱을 웹 개발자들에게 제공하는 날이 도래할 것”이라고 예측했다. 대용량 데이터 분석 엔진은 언어는 상관없이 사용자의 프로파일 이력을 토대로 파일이나 블록 데이터를 분석하고, 웹 사이트에서 스팸들을 파악해 이를 걸러내는 웹 사이트 조절자로서의 역할을 하는 시스템이다. 스펙터는 "예측 API를 통해 사용자들이 이와 같은 역량을 사용할 수 있게 되기를 바란다”며 “데이터 세트를 제공하고, 이들 데이터 세트를 토대로 컴퓨터의 알고리즘을 훈련시킬 수 있게 되는 것”이라고 설명했다.

 

현재까지 하둡에 가장 많은 공헌을 하고 있는 기업은 야후이다. 야후는 코드의 약 70%를 만들어냈으며 모든 사업 부문에서 이를 활용하고 있다. 또 아파치 하둡을 기반으로 표준화를 한 상태이다.

 

파파이오나우의 설명에 따르면, 야후는 현재 4만 3,000여 서버를 보유하고 있다. 그리고 이중 상당수는 하둡 클러스터로 설정이 되어 있다. 파파이오나우는 “서버팜의 수가 올해 말까지 6만여개로 늘어날 것”으로 전망했다. 현재 200 페타바이트의 데이터를 저장하고 있는 상태에서 매일 50TB씩의 데이터를 생성하고 있기 때문이다.

 

파파이오나우는 "우리는 어떤 데이터도 버리지 않는 것을 원칙으로 한다"고 강조했다. 이는 다른 기업들 또한 바라는 방식이다. 모든 데이터를 낭비 없이 기업의 경쟁우위 원천으로 활용하는 것 말이다. editor@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.