Offcanvas

빅데이터 | 애널리틱스 / 애플리케이션

기고 | 하둡이 할 수 있는 것과 할 수 없는 것

2012.06.19 Brian Proffit  |  ITWorld


스프로늘 역시 하둡의 규모를 결정하는 간단한 핵심 규칙을 설명했다. 하둡은 선형으로 확장이 가능하기 때문에 노드를 추가할 때마다 저장소와 처리능력이 향상된다. 이 덕분에 계획은 간단해 진다.

예를 들어, 데이터가 월 1TB씩 증가한다면 이렇게 하면 된다. 하둡은 3개의 데이터 사본을 생성하기 때문에 새로운 1TB의 데이터를 저장하기 위해서는 3TB의 새로운 저장소 공간이 필요하게 된다. 데이터의 처리 작업을 위한 약간의 추가적인 공간(스프로늘은 30%의 여유공간을 예상한다)을 허용할 경우, 월당 실제적인 공간 수요는 4TB가 된다. 노드를 위해 4X1TB 드라이브 장치를 사용하고 있다면 월당 새로운 1개의 노드를 필요로 하게 되는 것이다.

여기서 장점은 새로운 노드는 연결하자마자 바로 사용할 수 있으며 처리능력과 저장소의 X배 증가하게 된다. 여기서 X는 노드의 수를 의미한다.

하둡의 노드를 설치하고 관리하는 것은 쉽지 않지만 도움이 될만한 다양한 툴이 준비되어 있다. 클라우데라 매니저(Cloudera Manager), 아파치 암바리(Apache Ambari -호튼웍스가 자사의 관리 시스템을 위해 사용 중), 맵알 제어 시스템 등은 모두 훌륭한 하둡 클러스터 관리 시스템이다. 현재 ‘순수한’ 아파치 하둡 솔루션을 사용할 경우, 플랫폼 심포니 랩리듀스(Platform Symphony MapReduce), 스택아이큐 락스(StackIQ Rocks)+빅 데이터, 제타세트 데이터 프랫폼(Zettaset Data Platform) 등의 제3의 하둡 관리 시스템을 사용할 수도 있다.

물론 이것은 기관을 위해 하둡 솔루션을 배치하는 것에 비하면 빙산의 일각에 지나지 않는다. 여기서 가장 중요한 것은 하둡이 현재의 데이터 인프라를 대체하는 것이 아니라 확장시키는 것임을 이해하는 것이다.

이 점을 이해하면 데이터 처리과정에 손상을 입히지 않으면서 하둡이 기업에 어떻게 도움이 될 수 있는지에 관해 더 좋은 아이디어를 더욱 쉽게 떠올릴 수 있을 것이다.

*Brian Proffitt는 리눅스와 오픈소스 전문 저널리스트/애널리스트로 클라우드. 가상화, 소비자 기기 등의 분야에서 다양한 경력을 쌓았다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.