'하둡' 아성에 도전하는 빅데이터 슈퍼루키 3선

InfoWorld
하둡(Hadoop)은 분산 파일 시스템, 맵리듀스 프로그래밍 프레임워크, 대규모 상용 하드웨어 클러스터 상의 거대한 데이터 세트를 처리하는 다양한 툴 집합을 앞세워 10년이 넘는 기간 동안 빅데이터의 대명사로 군림해왔다. 그러나 세상에 영원히 각광받는 기술은 없다.



하둡은 여전히 빅데이터 플랫폼의 필수지만, 클라우데라(Cloudera), 호튼웍스(Hortonworks), 맵알(MapR) 같은 대형 하둡 업체들은 꾸준히 자사 플랫폼을 발전시켜 왔다. 이 과정에서 아파치 스파크(Apache Spark), 아파치 카프카(Apache Kafka) 등 새로운 스타가 나타났고, 데이터를 파헤쳐 인사이트를 추출하는 대안도 등장하기 시작했다.

여기서는 3대 빅데이터 플랫폼을 간단히 살펴보고, 각 플랫폼이 차별화를 위해 하둡 기술에 무엇을 추가했는지 살펴본다. 이들이 컨테이너, 쿠버네티스, 머신 러닝, 딥 러닝의 새 시대를 맞이해 어떻게 진화하고 있는지도 알아본다.

클라우데라 엔터프라이즈 데이터 허브
클라우데라(Cloudera)는 상용 하둡 배포판(Hadoop distribution)을 내놓은 첫 업체다. 이 업체의 핵심 구성원이 야후, 구글, 페이스북 등에서 하둡을 이용했던 엔지니어임을 떠올려보면 새삼스러울 게 없다. 하둡의 초기 개발자 중 한명인 더그 커팅이 최고 아키텍트로 일하고 있다.

클라우데라의 대표 제품은 클라우데라 엔터프라이즈 데이터 허브(Cloudera Enterprise Data Hub, EDH)다. 이 업체의 전략은 하둡 생태계 안에서 오픈 소스 프로젝트를 ‘육성하고 확대해’, 가격에 걸맞은 기업 등급의 지원과 서비스를 갖춘 상용 플랫폼을 제공하는 것이다. 이에 따라 클라우데라 데이터 허브(CDH)라는 오픈 소스, 무료 하둡 배포판도 제공한다. 여기에 EDH의 60일 시험판까지 선택할 수 있다.

CDH는 업체 홈페이지에서 다운로드할 수 있다. VM과 도커 이미지를 이용해 EDH를 로컬로 실행할 수 있고, 클라우데라 매니저는 클러스터 상에서 CDH 및 EDH를 설치하기 위해 사용할 수 있다(트라이얼 버전 포함). 클라우데라 디렉터는 AWS 퀵 스타트를 통해 아마존 등 클라우드 환경으로 설치할 수 있도록 지원한다.

클라우데라 배포판은 아파치 스파크와 스파크 연관 프로젝트가 중심을 차지한다. 통합 애널리틱스 엔진을 최대한 활용하면서 실시간 스트리밍 데이터, 머신 러닝, SQL 스타일 데이터 쿼리를 처리하는 데 각각 스파크 스트리밍, 스파크MLlib, 스파크SQL을 사용한다.

클라우데라가 제공하는 중요한 부가 가치는 데이터의 거버넌스와 관리, 최적화 툴의 집합인 클라우데라 내비게이터 소프트웨어이다. 이를 통해 경영, 컴플라이언스, 감사를 위한 데이터 출처를 추적하고, 실시간으로 데이터 워크로드 이용 통계를 제공하고, 이에 맞는 데이터 배치 전략을 추천한다.

단, 이러한 클라우데라 EDH의 고유한 머신 러닝 기능은 스파크MLlib에서만 작동한다. 따라서 텐서플로우의 네이티브 지원은 공식적으로 이 업체가 밝힌 EDH 기능이 아니다. 그러나 클라우데라 데이터 사이언스 워크벤치 제품은 EDH로 이용자 친화적 데이터 사이언스 프런트 엔드를 제공해, 최종 이용자가 텐서플로우 같은 프레임워크와 EDH 간의 통합을 별도로 생성할 수 있도록 지원한다.

호튼웍스 데이터 플랫폼
호튼웍스 데이터 플랫폼(Hortonworks Data Platform, HDP)은 순수 오픈 소스 하둡 배포판이다. 제품 자체는 무료로 사용할 수 있다. 그러나 비용을 지급한 고객은 미래의 문제를 회피할 수 있는 선제적 트러블슈팅 툴을 (사유 소프트웨어임) 사용할 수 있다.

HDP는 호튼웍스 사이트에서 여러 버전을 다운로드할 수 있다. 자동 인스톨러는 다양한 로컬 또는 클라우드 아키텍처에 HDP를 설치할 수 있고, 수작업 설치를 원한다면 RPM을 이용하면 된다. HDP의 초기 버전은 개발 시험 용도로 가상 머신에서 패키지된 사전 구성 HDP 환경인 호튼웍스 샌드박스 에디션을 이용하면 된다.

HDP 3.0은 현재 범용 단계(GA)이고 클라우드 환경 및 클라우드 네이티브 데이터 스토리지 포맷의 자동 공급(예. 아마존 S3, 구글 클라우드 스토리지), 아파치 하이브(Apach Hive)를 통한 인터랙티브SQL 쿼리 기능, 및 GPU 기반 프로세싱 지원을 포함한다.

가장 중요한 신기능은 컨테이너 지원이다. 도커 컨테이너의 앱은 전통적인 하둡 워크로드와 나란히 YARN 잡(jobs)으로 실행할 수 있다. 도커 컨테이너를 지원하므로 잡이 특정 언어 런타임 에디션으로 실행될 수 있도록 보장한다. YARN을 쿠버네티스의 스케줄러로 사용하는 경우, YARN 아키텍처 상의 쿠버네티스를 통해 쿠버네티스 상에서 컨테이너를 실행할 수도 있다.

또 다른 신기능은 HDP 클러스터에 걸쳐 컨테이너 내의 텐서플로우 딥 러닝 애플리케이션을 지원하는 것이다(현재는 기술 프리뷰 단계다). 이는 HDP를 종단간 머신 지능 플랫폼(end-to-end machine intelligence platform)으로 진화시키려는 의도가 분명해 보인다.

---------------------------------------------------------------
하둡 인기기사
-> 하둡으로 가는 길 | 제3부 RDBMS에서 하둡으로 전환
-> 하둡으로 가는 길 | 제2부 하둡 대 RDBMS 비용
-> 하둡으로 가는 길 | 제1부 기술과 훈련
-> 빅데이터 업체들, 하둡 기반 공통 플랫폼 만든다
-> 하둡 위한 데이터 전송 툴 '스쿱 프로젝트', 아파치 전력 지원키로
-> 마이크로소프트, 하둡 진영에 합류
-> 하둡 이후 빅데이터의 미래··· 일괄 처리와 실시간 스트리밍 기술의 향방은?
---------------------------------------------------------------

맵알 컨버지드 데이터 플랫폼
맵알(MapR)의 주력 제품으로 2016년 맵알 컨버지드 데이터 플랫폼(MapR Converged Data Platform)으로 이름이 바뀌었다. 라이선스 측면에서는 호튼웍스와 클라우데라의 중간 정도에 위치한다. 맵알(MapR)은 무료로 사용될 수 있는 전적인 오픈 소스 커뮤니티 배포판을 제고하고, 동시에 높은 가용성, 데이터 스냅 슈팅, 재난 복구, 기술 지원, 여타 엔터프라이즈 등급의 기능을 갖춘 유료 엔터프라이즈 에디션도 있다.

맵알은 커뮤니티 에디션 또는 엔터프라이즈 에디션을 설치할 수 있는 인스톨러 패키지를 제공한다. AWS, 마이크로소프트 애저, 구글 클라우드, 여타 세계의 클라우드 업체 인프라로 직접 설치하는 것도 가능하다. 맵알은 VM웨어나 버추얼박스에서 이용할 수 있는 가상 머신 이미지를 갖춘 샌드박스 에디션 역시 제공한다.

맵알 컨버지드 데이터 플랫폼은 크게 3가지 컴포넌트로 구성된다. MapR-FS 파일 시스템(기본적으로, 하둡 HDFS를 포함, 다양한 데이터 스토리지 패러다임을 파일 시스템 인터페이스로 투명하게 통합), NoSQL 스타일의 문서 데이터베이스 그리고 아파치 카프카 호환 이벤트 스트리밍 엔진이다.

카프카 호환 맵알 스트림스 이벤트 스트리밍 엔진은 온라인, 스트리밍, 리얼-타임, 및 에지 프로세싱 등에 적합하며 맵알을 차별화하는 또 하나의 중요한 요소이다. 맵알의 축소판인 맵알 엣지(MapR Edge)는 사물인터넷(IoT) 환경에서 데이터를 처리하기 위해 개발됐다.

맵알은 최근의 중요한 경향인 컨테이너와 머신 러닝을 수용할 수 있는 공간을 자사 플랫폼에 마련해두었다. 도커 이미지는 쿠버네티스를 이용해 맵알 클러스터에서 스케줄링, 실행할 수 있다. 아울러 맵알은 MapR-FS 리소스로 컨테이너를 직접 연결할 수 있는 쿠버네티스 볼륨 드라이버를 제공한다. ciokr@idg.co.kr