Offcanvas

SNS / 빅데이터 | 애널리틱스 / 애플리케이션

하둡으로 가는 길 | 제1부 기술과 훈련

2012.01.11 Brian Proffitt  |  ITWorld


아마존의 엘라스틱 컴퓨트 클라우드(Elastic Compute Cloud, EC2)의 경우에는 하둡에 자사의 S3 파일시스템을 채용했다. 데이터스택스(DataStax)의 브리스크(Brisk)는 자칭 하둡 배포판으로 HDFS를 아파치 카산드라(Apache Cassandra)의 카산드라FS(Cassandra FS)로 대체하고 실시간 저장 및 분석 기능들을 통합하기 위한 하이브(Hive)의 데이터 쿼리 및 분석 기능까지 추가로 포함하고 있다. 바로 이러한 맞춤화와 변형은 전부 하둡의 오픈소스라는 특성 덕분에 쉽게 이루어질 수 있었다.

맵리듀스는 개념화하기가 조금 더 어렵다. 머시는 그것을 데이터 처리 및 프로그래밍 패러다임이라고 표현했지만 이 말은 정확히 무슨 뜻일까? 젯(Jet)이 마이크로소프트 액세스(Microsoft Access)의 엔진인 것처럼 맵리듀스를 데이터베이스 엔진과 유사한 것으로 생각하는 편이 이해가 편하다. (많은 사람들이 젯을 잘 생각해내지 못하겠지만 말이다.)

정보 요청이 들어오면 맵리듀스는 두 요소들을 이용한다: 하둡 마스터 노드에 있는 잡트래커(JobTracker)와 하둡 네트워크 내의 각 노드에 위치한 테스크트래커(TaskTracker)들이다. 프로세스는 상당히 선형적이다. 맵리듀스는 데이터 요청을 별개의 작업 셋으로 나누고, 잡트래커를 이용해 맵리듀스의 일을 테스크트래커들에게 전달한다.  네트워크 지연시간을 줄이기 위해 작업은 해당 데이터가 위치한 노드와 동일한 노드에 할당되거나 최소한 같은 랙(rack)에 들어 있는 노드에 할당된다.

그림에서 볼 수 있듯 하둡에는 분산형 파일시스템과 맵리듀스 말고도 다른 것들이 포함되어 있다. 이 그림은 하둡 프레임워크에 대해 호튼웍스에서 제시한 설명으로 하둡과 함께 사용될 수 있는 여러 다른 구성요소들을 보여주고 있다. 여기에는 다음의 요소들이 포함된다.

H카탈로그(HCatalog): 하둡 데이터용 테이블 및 스토리지 관리 서비스

피그(Pig): 맵리듀스용 프로그래밍 및 데이터 플로우 인터페이스

하이브(Hive): SQL과 유사한 언어인 하이브QL(HiveQL)을 이용해 하둡 데이터 쿼리를 생성하는 데이터 웨어하우징 솔루션
 

하둡 프레임워크


머시는 하이브야말로 사람들이 소위 NoSQL 데이터베이스에서 기대하는 것보다 하둡을 훨씬 쉽게 이용할 수 있게 만들어 줄 것이라고 전했다. 하이브QL을 이용해 데이터 분석가들은 RDBMS에서 이용하던 것과 거의 동일한 쿼리들을 가진 하둡 데이터베이스에서 정보를 빼낼 수 있다. 물론 SQL과 하이브 QL 는 엄연히 다르므로 하둡으로의 이동은 일종의 이행기를 거치게 되겠지만 이러한 차이들은 그렇게 크지 않다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.