Offcanvas

빅데이터 | 애널리틱스 / 신기술|미래 / 애플리케이션 / 클라우드

하둡 창시자가 말하는 빅 데이터 플랫폼의 미래

2012.10.30 Thor Olavsrud   |  CIO
하둡 창시자이자 아파치 하둡 프로젝트의 설립자인 더그 커팅은 빅 데이터가 거품이 아니라고 강조하고 있다. 그는 하둡이 빅 데이터 시스템의 성배가 될 것이라는 비전을 제시했다.

빅 데이터의 심장에 있는 오픈소스 소프트웨어 프레임워크 아파치 하둡(Apache Hadoop)은 배치 컴퓨팅 엔진(batch computing engine)이다. 하둡은 진정한 실시간 데이터 통찰을 위해 필수적인 온라인, 상호 데이터 프로세싱에 적합하지 않다. 정말 그럴까? 하둡의 창시자이자 아파치 하둡 프로젝트(Apache Hadoop Project)의 창조자이며 클라우데라(Cloudera)의 최고 아키텍트인 더그 커팅은, 배치를 넘어서는 미래가 하둡에 있다고 믿고 있다.

“나는 배치가 나름의 위치를 차지할 것으로 본다”라고 커팅은 말했다. “상당량의 데이터를 옮기는 도중 모든 것을 분석해야 할 필요가 있는 경우는 상호작용에 관한 것이 아니다. 그러나 나는 사람들이 배치와 온라인 컴퓨테이션(computation)을 결합하는 것을 환영할 것이라 생각한다.”

“나는 하둡이, 현업이 이용하게 될 주류 데이터 처리 시스템의 커널이 될 것이라 예측한다”라고 그는 덧붙였다.

하둡의 현 위치
뉴욕시에서 열린 오라일리 스트라타 컨퍼런스+ 하둡 월드(O’Reilly Strata Conference + Hadoop World)에서 커팅은 하둡 스택의 핵심 테마에 대한 그의 생각과 진행 방향에 대해 설명했다.

“하둡은 배치 컴퓨팅 엔진으로 알려져 있고, 맵리듀스처럼 출발점은 배치 컴퓨팅 엔진이었다”라고 커팅은 말했다. “맵리듀스는 환상적인 툴이다. 맵리듀스는 많은 애플리케이션들을 찾은 간단한 프로그래밍 메타포(metaphor)다. 맵리듀스의 다양한 알고리즘을 실행하는데 대한 책들도 있다.”

맵리듀스는 구글이 분산 컴퓨팅을 이용하여 막대한 데이터세트을 병렬 배치 처리하기 위해 개발한 프로그래밍 모델이다. 맵리듀스는 인풋을 받아서 병렬로 처리하기 위한 노드들로 분산된 많은 작은 하위문제로 쪼갠다. 그리고 그 하위문제들의 답을 재조립하여 아웃풋을 형성한다.

“이는 매우 효율적이다”라고 커팅은 전했다. “맵리듀스를 통해 당신의 데이터 컴퓨테이션을 이동시켜, 처리하는 동안 데이터를 복사할 필요가 없다. 또한 공유 플랫폼을 형성한다. 분산 시스템을 구축하는 것은 복잡한 과정이라 하룻밤 사이에 할 수 있는 일이 아니다. 그래서 우리는 이러한 과정을 반복하고 싶어하지 않는다. 맵리듀스는 단단한 기반임을 스스로 입증했다. 우리는 피그 앤 하이브(Pig and Hive)같은 많은 툴이 맵리듀스에서 개발되는 것을 봤다.”

“물론, 이 플랫폼이 배치 컴퓨팅만을 위한 것은 아니다. 이것은 그보다 훨씬 보편적인 플랫폼이라고 생각한다”라고 그는 덧붙였다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.