Offcanvas

How To / 데이터센터 / 빅데이터 | 애널리틱스 / 애플리케이션

빅 데이터용 스토리지, 무엇이 어떻게 다를까?

2012.04.27 Frank J. Ohlhorst  |  CIO

빅 데이터용 스토리지 플랫폼을 선택하기란 쉬운 작업이 아니다. 그렇다고 어마어마한 스토리지가 꼭 필요한 것만은 아니다.

디스크 스토리지란 마치 벽장과 같다. 절대로 충분한 공간을 확보할 수 없다. 빅 데이터만큼 이것을 뼈저리게 느낄 수 있는 분야도 없을 것이다. "빅 데이터"란 일반적인 저장 플랫폼이 취급할 수 있는 것 이상의 데이터를 뜻한다. 그렇다면 CIO들은 정확히 무엇을 해야 할까? 많은 것을 결정해야 함에도 불구하고 정보는 매우 적다.

하지만 빅 데이터를 위한 저장 옵션을 처리하는 것이 반드시 불가능한 것은 아니다. 약간의 상식을 동원해 문제를 기본적으로 이해하는 한편 예산상의 제약과 조화를 이루도록 해야 한다.
 


무엇이 빅 데이터를 거창하게 만드는가
우선 빅 데이터가 다른 형태의 데이터와 어떻게 다르며 관련 기술(대부분 분석 애플리케이션)이 어떻게 적용되는지 이해하는 것이 중요하다.

빅 데이터는 그 자체적으로 일반적인 저장 기술을 이용해 처리하기에는 데이터가 너무 많다는 것을 뜻하는 용어다. 하지만 이 보다 더 큰 의미가 있다. 빅 데이터는 구조화된 데이터(데이터베이스, 로그(Log), SQL 등)와 비구조화된 (소셜 미디어 포스트, 센서, 멀티미디어) 데이터 요소로 구성된 수 테라바이트(또는 페타바이트)의 데이터로 구성되곤 한다. 또한 이런 데이터의 대부분은 색인 또는 기타 조직적인 구조가 부족할 수 있으며 매우 다양한 파일 유형으로 구성될 수 있다.

이런 환경 때문에 빅 데이터를 처리하기란 매우 복잡하곤 하다. 일관성의 부재로 인해 표준적인 처리 및 저장 기술이 없으며 운영 간접비와 데이터의 규모 때문에 일반적인 서버와 SAN 접근방식으로는 효율적으로 처리하기가 어렵다. 다시 말해서 빅 데이터는 무언가 다른 것을 필요로 한다. 바로 자체적인 플랫폼인 하둡(Hadoop)이 필요하게 되는 것이다.

오픈소스 프로젝트인 하둡은 빅 데이터 요청을 병렬로 처리할 수 있는 클러스터로 형성된 상용 하드웨어(서버와 내부 서버 저장소)로 이뤄진 플랫폼을 구축하는 방안을 제시한다. 스토리지 측면에서 해당 프로젝트의 핵심 구성요소는 HDFS(Hadoop Distributed File System)으로, 클러스터 내에 위치한 복수의 구성요소들 사이에 매우 거대한 파일들을 저장할 수 있는 기능을 갖고 있다. HDFS는 복수의 데이터 블록 사본을 생성하고 그것들을 신뢰할 수 있고 매우 신속한 연산을 용이하게 하는 클러스터 곳곳의 연산 노드로 분배하는 기능을 한다.

지금까지 고려한 모든 것들을 볼 때 빅 데이터를 위해 충분한 저장소 플랫폼을 구축하는 가장 쉬운 방법은 일련의 상용 서버를 구매하고 각각에 수 테라바이트 수준의 드라이브를 장착한 뒤 나머지를 하둡에 맡기는 것으로 보일 것이다. 몇몇 중소기업에 있어서는 모든 과정이 이만큼 단순할 수 있을 것이다.

하지만 처리 성능, 알고리즘의 복잡성, 데이터 마이닝(Data Mining)이 더해지면 이런 접근방식으로 성공을 보장할 수 없게 된다.

저장소의 구조
네트워크의 관련된 구조와 성능이 관건이다. 빅 데이터를 자주 분석하는 조직에 있어서 클러스터 내의 연산 노드가 증가하면 분리된 인프라가 보장될 수 있다. 이는 통신 간접비도 마찬가지이다.

일반적으로 HDFS를 사용하는 멀티모드 연산 클러스터는 빅 데이터를 처리하면서 네트워크 백본(Backbone) 전체에 걸쳐 엄청난 양의 트래픽을 발생시킨다. 이는 하둡이 클러스터의 구성 서버들에서 (연산 자원과 함께) 데이터를 확산시키기 때문에 발생한다.

대부분의 경우에 서버 기반의 로컬 저장소는 효율성을 보장하지 못하며 이 때문에 많은 기관들이 처리량을 극대화할 수 있는 고속 구조를 사용하는 SAN으로 전향하고 있다. 하지만 SAN 접근방식은 빅 데이터, 특히 하둡을 이용하는 빅 데이터 이행에 적합하지 않을 수도 있다.

 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.