Offcanvas

How To / 데이터센터 / 빅데이터 | 애널리틱스 / 신기술|미래 / 애플리케이션

페타급 빅 데이터 스토리지 인프라 '셔터플라이의 구축법'

2012.04.19 Thor Olavsrud  |  CIO

온라인 사진 사이트 셔터플라이(Shutterfly)는 현재 30페타바이트 이상이 데이터를 관리하고 있다. 이 회사가 방대한 스토리지를 주무르는 전략과 기법을 공유했다.

빅 데이터 분석, 그리고 이와과 관련된 비즈니스 인텔리전스의 경이로운 성과물에 대한 이야기가 무성하다. 그러나 이런 데이터를 활용하기 위해서는 데이터를 저장하는 방법부터 찾아내야 한다. 페타바이트(Petabyte) 규모 이상의 거대한 데이터를 데이터 저장소를 관리하는 적업은, 전통적인 대규모 데이터 세트를 관리하는 것과는 다르다. 셔터플라이(Shutterfly)를 예로 들어보자.

셔터플라이는 사용자들이 이미지를 원본 해상도를 유지한 채 무제한으로 저장할 수 있도록 허용함으로써 차별화를 꾀한 온라인 사진 사이트다. 또 회사에 따르면 절대로 사진을 삭제하는 일은 없다.

"우리의 이미지 저장소는 30 페타바이트의 이상의 데이터를 저장하고 있다"고 셔터플라이의 수석 부사장이자 CTO인 네일 데이는 말하며, 이렇게 덧붙였다. "우리의 저장소는 고객 기반보다 더 빠르게 성장하고 있다. 고객이 가입을 하면서 가장 먼저 하는 일은 엄청난 용량의 사진을 업로드하는 것이다. 그리고 우리의 서비스가 마음에 들면 추가로 엄청난 용량의 사진을 또 업로드한다."

여기서 이야기하고 있는 규모에 관해 잠시 설명을 하자면 1 페타바이트는 100만 테라바이트, 즉 10억 기가바이트에 상응하는 용량이다. 나사(NASA)의 허블천체망원명가 20년 동안 관측한 데이터의 저장소 크기가 45 테라바이트를 약간 상회한다. 참고로 1 테라바이트는 128kB/s로 녹음된 1만 7,000시간 분량의 오디오 파일을 저장할 수 있는 용량이다.

페타바이트 수준의 인프라 시설은 다르다
네일 데이는 "페타바이트 수준의 기반시설은 완전히 다르다. 구축 방법과 유지보수의 측면에서 아주 다르다고 할 수 있다. 1 페타바이트 또는 수 페타바이트의 기반시설을 관리하는 것과 전통적인 대규모 데이터 세트를 관리하는 것은 하늘과 땅 차이이다. 비유를 하자면 노트북의 데이터를 관리하는 것과 RAID 어레이의 데이터를 관리하는 것의 차이라고 할 수 있겠다"라고 말했다.

네일 데이는 2009년 셔터플라이에 합류했다. 당시에도 저장소가 이미 예산에서 가장 큰 비중을 차지하고 있었다고 그는 전했다.

"페타바이트 수준의 저장소가 추가되면 물리적이며 논리적인 기반 시설을 지원하기 위해 추가적인 저장소 관리자가 필요하게 된다"라고 네일 데이는 말했다. 그는 이런 거대한 데이터 저장소를 운영하는 것과 관련, “고장이 더욱 자주 발생한다. 엄청나게 거대한 저장소를 관리하게 되면 하드웨어에 주기적으로 문제가 발생하게 된다. 가장 근본적인 문제점은 특정 시점에서 일부 드라이브가 문제를 일으킬 것임이 예상되는 상황에서 어떻게 하면 성능이 저하되지 않도록 하면서 데이터를 유지할 수 있는가이다"라고 전했다.

레이드를 확장하는 것은 문제가 많다
가장 일반적인 해결책은 복사를 해 두는 것으로 주로 RAID 어레이(Array)의 형태로 적용되게 된다. 하지만 규모가 거대해지게 되면 RAID는 득보다 실이 더 커질 수 있다고 네일 데이는 지적했다. 전통적인 RAID 데이터 저장 계획에서 각 데이터 조각의 사본은 어레이의 다양한 디스크에 복제되고 저장되어 통합성과 이용성을 확보하게 된다.

하지만 이것은 저장되고 복제된 데이터 조각이 실제 크기보다 5배나 많은 저장 용량을 필요로 하게 됨을 뜻한다. 또 RAID 어레이에서 사용되는 드라이브가 더 커지게 되면(밀도와 전력 소모의 측면에서 3 테라바이트 크기의 드라이브가 가장 이상적이다), 망가진 드라이브를 교체하고 용량을 다시 회복하는데 걸리는 시간이 더욱 길어지게 된다. 그의 설명이다.

"우리는 사실 RAID 때문에 발생한 운영상의 문제를 겪은 적은 없다. 단 드라이브의 크기가 점차 증가하면서 문제 발생 시 시스템을 다시 원래 상태로 복구시키는데 걸리는 시간이 증가한다는 사실을 발견했다. 복구를 하는데 소용되는 시간은 데이터 세트의 크기와 비례한다. 우리가 1 테라바이트와 2 테라바이트 드라이브를 사용하기 시작하면서 복구하는데 걸리는 시간이 더 증가했다. 단점이 부각되기 시작한 것이다."

셔터플라이에게 있어서 신뢰성과 이용성은 매우 중요하기 때문에 기업 수준의 저장소를 필요로 하게 되었다. 하지만 빠른 속도로 증가하는 저장소 비용 때문에 상용 시스템으로 눈을 돌리게 되었다고 네일 데이는 전했다. 네일 데이와 그의 팀이 셔터플라이의 저장소 비용을 낮추기 위한 잠재적인 기술적 솔루션을 찾아보면서 삭제 코드(Erasure Code)라는 기술에 관심을 갖게 되었다.
 

 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.