Offcanvas

데이터센터 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 애플리케이션

‘빅 데이터 패권은 누가?‘ 하둡에 도전하는 HPCC

2013.02.13 Allen Bernard  |  CIO

“빅 데이터”라는 표현이 나오면 항상 따라오는 말이 바로 “하둡(Hadoop)” 이다. 막대한 양의 데이터를 접속 가능하게 만든 기술이 바로 오픈소스 아파치 하둡 프로젝트 (Apache Hadoop project) 에 기반한 것이었기 때문이었다.

외부에서 들여다보면, 하둡이 곧 빅 데이터이고, 빅 데이터가 곧 하둡처럼 보이기도 한다. 이 둘 중 하나가 빠지면 안될 것 같이 보이는 것이다. 그러나 하둡보다도 여러 가지 면에서 더욱 성숙되고 기업에 적합한 경쟁자가 엄연히 존재한다. 바로 고성능 컴퓨팅 클러스터(High Performance Computing Cluster: HPCC)다.

데이터 서비스 회사 렉시스넥시스 (LexisNexis) 의 자회사인 HPCC 시스템 (HPCC System) 은 2000년대 초반부터 15억 달러 규모의 ‘서비스로의 데이터’(data-as-a-service: DaaS) 를 도맡아왔다.

하둡처럼, HPCC는 아파치 2.0 라이선스하의 오픈소스이며 무료로 이용할 수 있다. 두 모두 상품 하드웨어와 IP 네트워크를 통해 상호 연결된 로컬 스토리지를 활용하여 아키텍처에 걸쳐 병렬 데이터 프로세싱과 쿼리를 할 수 있게 해준다.

렉시스넥시스 정보 보안 부회장이자 HPCC 시스템 이니셔티브의 수장인 플라비오 빌라누스트레에 따르면 여기까지가 하둡과 HPCC의 공통점이다.

HPCC가 하둡보다 더 성숙했고 똑똑한가?
HPCC는 12년 이상 생산적으로 활용되어 왔음에도, HPCC 오픈소스 버전 (HPCC open source version) 이 이용가능해진 것은 겨우 일년 남짓에 불과하다. 반면 하둡은 원래 구글에서 로그파일을 분석하기 위해 규합한 너치 프로젝트(Nutch project)의 일부였고, 2006년부터는 빅 데이터 프로젝트의 사실상 표준이 되었다. 이전까지는 자체 아파치 프로젝트도 아니었음에도 불구하고 그렇다.

그리고 그 결과 HPCC의 60여 기업 이용자들을 수적으로 크게 앞서기 시작했다. 아울러 하둡은 수백만 명이 참여하는 오픈소스 커뮤니티와 선도적인 위치의 이점을 취하려고 속속 등장하는 전체 신생 기업 생태계를 등에 업고 있다.

그러나 HPCC는 C++에 기반한 기업 제어 언어 (enterprise control language: ECL) 라는 고급 프로그래밍 언어를 사용하는 성숙한 기업 전용 패키지다. 하둡의 자바(Java)와 비교되는 대표적인 특징이다. 이로 인해 HPCC가 하둡에 비해 사용 편이성은 물론 백업과 제작 복구에 있어서도 유리하다고 빌라누스트레는 말했다.

그에 따르면 운영체제상에서 C++가 네이티브로 실행되기 때문에 HPCC의 속도가 향상되는 반면, 자바는 실행에 있어서 자바 가상 머신 (Java virtual machine: JVM) 을 필요로 한다.

또한 HPCC는 더욱 미션-크리티컬한 기능성을 보유하고 있다고 포레스터 리서치 (Forrester Research) 의 부회장이자 애플리케이션 개발과 딜리버리 수석 분석가 보리스 에벨슨은 설명했다.

그에 따르면 HPCC 사용의 역사가 훨씬 길기 때문에, HPCC에게는 하둡에 없는 보안, 복구, 감사, 준수 등의 레이어를 가지고 있다. 또 검색 중 잃은 데이터도 완전히 없어지지 않는다. 테라데이터 (Teradata) 같은 전통적인 데이터 웨어하우스처럼 복구 가능하다.

상대적으로 이는 하둡에게는 단점이다. 시만텍 (Symantec) 의 빅 데이터 선임 관리자 랙스 스리니바산은 이런 단점에 대해 2012년 5월 블로그 포스트에 기업 하둡의 문제를 다루며 다음과 같이 기술했다.

“하둡 클러스터를 위한 신뢰할 수 있는 백업 솔루션이 존재하지 않는다. 3개의 복사본을 저장하는 하둡의 방식은 백업과 같지 않다. 아카이빙이나 특정시간 복구도 제공되지 않는다.”

하지만 위키본의 빅 데이터 애널리스트 제프 켈리는 다소 관점이 다르다. 비록 하둡이 이런 분야에 성숙도가 떨어지지만, 생산 환경에 사용할 의도로 나온 것이 아니기 때문에, 이런 차이점들이 현재로선 그리 중요하지 않을 수 있다는 설명이다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.