Offcanvas

BI / How To / 데이터센터 / 빅데이터 | 애널리틱스 / 클라우드

‘어떻게 규정할까?’ 빅 데이터 정의를 둘러싼 논란들

2012.05.14 Brandon Butler  |  Network World
최근 IT 산업에서 빅 데이터라는 용어 사용이 부쩍 늘어난 상태다. 과연 '빅 데이터(Big Data)'란 뭘까? 데이터는 언제 커질까(Big)?

데이터 사이언티스트인 존 루서는 아마존 웹 서비스(Amazon Web Service ; AWS) 주최로 보스톤에서 최근 개최된 '빅 데이터 및 고성능 컴퓨팅 서밋'에서 '컴퓨터 한 대로 처리하기에는 너무 큰 데이터'를 빅 데이터라고 정의했다.

일부에서는 너무 간단한 정의라고 지적을 했다. 그러나 핵심을 짚은 정확한 정의라고 말하는 사람들도 있다.

애트모스피어 리서치 그룹(Atmosphere Research Group)의 제프리 브린 애널리스트은 "빅 데이터는 가장 과대 평가된, 그리고 이와 동시에 가장 과소 평가된 기술 가운데 하나가 될 수 있다. 이런 이유로 용어에 대한 정의에 혼선이 있다"라고 지적했다.

IDC에서 비즈니스 애널리틱스 부서를 책임지고 있는 댄 배세트 부사장은 표준 정의가 없는 이유에 대해 시장이 아직 성숙하지 않았기 때문이라고 설명했다. 그러면서도 그는 AWS의 정의에는 전적으로 동의를 할 수 없다고 덧붙였다. 그는 "데이터를 처리하는 기반이 아닌 데이터 자체에 대한 정의가 더 정확할 것으로 판단한다"라고 말했다.

AWS의 정의에 동의하는 사람들도 있다.

위키본(Wikiborn) 프로젝트의 빅 데이터 애널리틱스 담당 제프 켈리 애널리스트는 "AWS가 제시한 개념이 모든 부분을 포함하고 있지 않을 수는 있다. 그러나 대부분은 다루고 있다고 생각한다"고 말했다. 분명히 빅 데이터에 대한 개념 중에는 데이터가 너무 커서 여러 워크로드에 걸쳐 분산해 분석을 할 필요가 있다는 개념이 있기 때문이라는 설명이다. 켈리는 "기술의 한계에 부딪혔을 때가 일반 데이터에서 빅 데이터로 변화되는 시점"이라고 말했다.

빅 데이터에 대한 가장 공통된 정의는 모두 V로 시작되는 3가지 용어를 사용한다. 크기(Volume), 속도(Velocity), 다양성(Variety)이다. IDC 같은 연구 기관들이나 IBM 같은 민간 기업 모두 이 정의를 채용하고 있는 것으로 보인다. 크기란 수집되고 창출되는 데이터의 방대함을 의미한다. 속도란 데이터 분석에 필요한 속도를, 다양성은 텍스트, 음성, 동영상, 웹 로그에 이르기까지 아주 다양한 데이터의 종류를 가리킨다.

그러나 일부는 이런 정의에도 의구심을 갖고 있다. 브린은 4번째 V를 정의에 추가해야 한다고 주장한다. 다름아닌 벤더(Vendor)다.

브린의 설명에 따르면, AWS와 IBM 같은 회사들은 자신들의 제품을 지지할 수 있는 용어를 만들어 채택하고 있다.

예를 들어, AWS는 클라우드에서 빅 데이터를 처리하는 기능인 일렉스틱 맵 리듀스(Elastic Map Reduce) 같은 다양한 빅 데이터 애널리틱스 툴을 제공하고 있다.

아마존의 테라 랜달 홍보 책임자는 이메일을 통해 "클라우드는 그 즉시 확장성과 탄력성을 제공해 인프라가 아닌 분석 자체에 초점을 맞출 수 있도록 해준다. 따라서 데이터에 대한 질의 역량을 강화해, 신속하게 의미 있는 답을 찾을 수 있도록 해준다"라고 설명했다.

랜달은 루서가 제시한 빅 데이터에 대한 정의가 AWS의 공식 입장은 아니라고 말했다. 그러나 기업들이 빅 데이터를 관리하면서 직면하는 도전을 설명하는데 사용하고 있다고 덧붙였다.

켈리는 클라우드 기반의 빅 데이터 분석 시장이 출현하고 있는 중이라고 강조했다. 예를 들어, 구글은 최근 클라우드 기반 데이터 애널리틱스 툴인 빅쿼리(BigQuery)를 출시했다. IBM은 "정보는 21세기의 동력과도 같은 역할을 할 것이다. 이는 다양한 산업에서 비즈니스 의사 결정의 기반으로 산업 발전을 견인할 것이다"라고 강조했다.

IDC는 빅 데이터가 거대 시장이라고 단언했다. IDC는 하드웨어, 소프트웨어, 서비스 등 전분야에 걸쳐 기업들이 2015년까지 1,200억 달러를 빅 데이터 애널리틱스에 투자를 하게 될 것이라고 추정하고 있다. IDC에 따르면, 빅 데이터 시장은 전반적인 IT 및 통신 시장보다 7배나 성장 속도가 빠르다.  

그러나 IDC의 베세트 연구원은 빅 데이터는 정의보다는 어떤 일을 할 수 있는지에 대한 문제라고 지적했다.

오늘 날 기업들이 직면하는 가장 큰 도전은 데이터와 활용 사례 별로 어떤 기술을 이용하는 것이 최선인지 판단하는 것이다. 오픈소스 빅 데이터 애널리틱스 툴인 하둡(Hadoop)이 출현하면서 하둡과 같은 비구조형 데이터 서비스의 등장으로 기존의 관계형 데이터베이스가 종말을 맞게 되는 것은 아닌지 질문이 제기되고 있다.

그러나 베세트는 "둘 모두 각자의 역할이 있다. 대부분의 대기업들이 둘 모두를 사용하게 될 것"이라고 강조했다. 예를 들어, 관계형 데이터베이스는 데이터를 구조적으로 접근한다. 그리고 기업들은 컴플라이언스나 보안 요건을 준수할 필요가 있는 대용량의 데이터에 이를 사용하게 될 전망이다. 반면 필요에 따라 수집하는 대용량의 데이터는 비구조화가 특징이다. 따라서 하둡 컴퓨팅 클러스터 같은 툴을 활용하는데 따른 장점이 많다.

현재까지 빅 데이터를 정의하기란 쉽지 않다. 켈리는 "때가 되어 직접 확인을 하면 알 수 있다"가 가장 적합한 정의가 될 수 있다고 설명했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.