Offcanvas

BI / 빅데이터 | 애널리틱스 / 애플리케이션

하둡으로 가는 길 | 제3부 RDBMS에서 하둡으로 전환

2012.01.18 Brian Proffitt  |  ITWorld


위에서 아래로: CXO가 명령하는 경우
하둡을 배치하는 또 다른 흔한 방식은 위에서 아래로 명령이 전달되는 경우다. 최신 경향을 살펴보고 있는 최고 임원진이 하둡 시스템의 매우 낮은 저장 비용에 주목하고, 하둡 솔루션이 기업에 적합한지 아닌지 공식적으로 살펴보기 시작할 것이다.

머시의 최근 고용주인 호튼웍스(Hortonworks, Inc.,) 도 이런 식으로 들어왔다. 호튼웍스는 2011년 6월말에 머시와 야후 하둡 팀의 몇몇 직원들에 의해 설립됐으며 훈련, 지원, 배치 서비스 등과 오픈소스 하둡 제품들을 제공한다.

머시의 설명에 따르면, 호튼웍스는 새로운 잠재 고객과 일하게 될 것이며 고객들의 요구에 따른 몇 가지 권고사항들을 만들 수 있다. 그들은 20 노드에서 100노드 수준으로 개념 증명을 위한 소규모 하둡 클러스터를 어디든 배치해볼 것이며 고객들이 스스로 하둡의 가치를 볼 수 있게 할 것이다. 이러한 공식적인 프로세스는 클라우데라(Cloudera)나 맵알(MapR) 등의 다른 하둡 업체들이 제공하는 것과 유사하며, 따라서 하둡에 대한 자문과 지원을 얻고 싶다면 여기저기에서 강력한 옵션들을 찾을 수 있을 것이다.

스쿱(Sqoop)을 잡아라
스스로 하든 혹은 도와줄 누군가를 고용하든 간에 분명 어느 시점에서는 현 저장소에서 하둡으로 데이터를 옮겨 가야 할 것이다.

특히 RDBMS에서 옮길 경우 클라우데라의 스쿱(SQL-to-Hadoop)이야 말로 최상의 툴이다. 스쿱은 명령어 애플리케이션으로 개별 테이블들이나 전체 데이터베이스들을 하둡 분산형 파일시스템(HDFS)으로 불러올 수 있다. 스쿱은 DB인풋포맷 자바 커넥터(DBInputFormat Java connector)를 사용하는데 이는 맵리듀스(MapReduce)가 마이에스큐엘(MySQL)과 포스트그레스큐엘(Postgresql), 오라클 및 다른 인기 있는 데이터베이스들이 기반한 JDBC 인터페이스를 통해 RDBMS의 데이터를 불러올 수 있게 한다.

스쿱도 맵리듀스에 필요한 자바 클래스들을 생성하여, 테이블의 행을 분리된 정보 영역들로 역직렬화(deserialize)함으로써, 데이터와 상호작용할 수 있다. 뿐만 아니라 스쿱을 이용해 RDBMS 데이터를 곧바로 하이브 데이터 웨어하우스(Hive data warehouse)로 불러올 수도 있다.

이러한 기능 덕분에 사용자들이 하둡으로의 데이터 마이그레이션에 대비해 준비해야 할 일들은 거의 없으며, 데이터 중복제거나 RDBMS유지보수 등 상식적인 일들만 해주면 된다.

하이브(Hive)를 살펴보라
이 연재기사의 첫 회에서도 설명했듯 하이브는 하둡 프레임워크의 일부분으로 분석가들은 이를 이용하여 HDFS 내에서도 데이터 구조화 및 데이터 쿼리를 수행할 수 있게 된다. 분석가들은 하이브 쿼리언어(Hive QL)을 이용해 데이터를 요약하고, 쿼리를 수행하고, 분석할 수 있으며 이 언어는 기존의 SQL과 매우 유사하여 별로 어렵지 않게 사용할 수 있다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.