Offcanvas

BI / How To / 데이터센터 / 빅데이터 | 애널리틱스

하둡을 활용해 스토리지의 한계를 극복하는 방법

2012.04.20 Frank J. Ohlhorst   |  CIO
스토리지 기술은 발전하고 성숙해 많은 데이터센터에서 상품의 단계에 접근하는 수준에까지 이르렀다. 그럼에도 불구하고 기업들은 BI 역량을 더욱 거대한 데이터 셋에 적용하는 빅 데이터 분석에 대한 압박 등 스토리지 기술의 한계에 직면할 수 있는 상황에 처해 있다.
 
하지만 빅 데이터의 분석 과정은 일반적으로 기존의 스토리지 패러다임을 넘어서는 역량을 필요로 한다. 쉽게 말해 SANs와 NAS 등의 전통적인 스토리지 기술은 기본적으로 구조화되지 않은 테라바이트와 페타바이트 수준의 정보를 처리할 수 없다는 뜻이다.
 
성공적인 빅 데이터 분석을 위해서는 대규모의 데이터를 처리할 수 있는 새로운 방법 등이 필요하다. 즉, 새로운 스토리지 플랫폼의 이데올로기가 필요하게 된 것이다.
 
하둡에 관심을 가져보자
빅 데이터를 처리할 수 있는 플랫폼을 제공하는 오픈 소스 프로젝트 하둡으로 들어가보자. 비록 하둡이 개발된 지는 시간이 꽤 흘렀지만 점차 많은 기업들이 이제 막 그 기능을 활용하기 시작했다.
 
하둡 플랫폼은 막대한 용량의 데이터 가운데서도 복잡하고 구조화되지 않았거나 구조화된 정보를 복합적으로 포함하고 있어 테이블에 적절히 배치되지 않는 데이터에 의해 발생하는 문제를 해결하도록 설계됐다. 하둡은 클러스터링과 타겟팅처럼 심오하고 계산적으로 대규모인 분석의 지원을 필요로 하는 상황에 적합하다.
 
그렇다면 빅 데이터를 활용하려는 IT 전문가에게 하둡은 어떤 의미를 가질까? 간단히 말하면 하둡은 막대한 용량의 데이터를 효율적으로 저장하고 접근함으로써 빅 데이터와 관련된 대부분의 보편적인 문제를 해결한다.
 
하둡의 고유한 디자인 덕분에 메모리 또는 디스크를 전혀 공유하지 않는 다수의 기기에서 작동할 수 있는 플랫폼을 운용할 수 있다. 이를 염두에 두면 하둡이 어떻게 추가적인 가치를 제공하는지 쉽게 알 수 있다. 
 
네트워크 관리자들은 많은 상용 서버를 구매해 랙에 설치하고 각각에 하둡 소프트웨어를 설치하기만 하면 된다.
 
또한 하둡은 대규모 데이터 셋과 관련된 관리 간접비의 상당 부분을 절감하는데 도움이 된다. 운영 측면에서 기관의 데이터가 하둡 플랫폼에 로드되면 해당 소프트웨어는 데이터를 관리할 수 있는 조각들로 분할해 자동으로 여러 서버에 저장한다.
 
데이터의 분산은 한 곳에서 데이터에 접근할 수 없음을 의미한다. 하둡은 데이터의 위치를 추적하고 추가적으로 복수의 복사본을 저장해 해당 정보를 보호한다. 서버 하나가 연결이 끊어지거나 고장났을 때 데이터는 자동적으로 다른 사본에서 복제할 수 있기 때문에 복구력이 향상된다.
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.