Offcanvas

BI / How To / 가상화 / 데이터센터 / 빅데이터 | 애널리틱스

‘미 국회도서관, 아마존, 마쯔다’가 전하는 빅 데이터 스토리지 팁

2011.10.13 John Brandon  |  Computerworld


아마존은 자체 S3 스토리지 서비스에서 파일을 1,000MB 조각으로 나누기 위한 커스텀 코드를 사용한다. 그것은 별다를 것 없는 방식이지만 아마존의 특징은 실시간 파일 분할 프로세스를 적용한다는 것이다. 헨리는 "언제라도 이용이 가능하다. "저장된 데이터"와 "실시간 데이터"로 데이터를 구분해 데이터 획득 시 잠재적으로 지연이 발생할 수 있는 몇몇 스토리지 시스템과 차별화된다"라고 설명했다.

대규모 데이터 처리 시 발생할 수 있는 또 다른 문제는 파일 손상이다. 대부분의 기업들은 간헐적인 파일 손상에 대해서는 신경 쓰지 않는다. 그러나 거의 4500만 개의 객체를 다루는 경우 파일 손상이 낮은 비율로 발생해도 문제가 발생할 수 있다.
 
이를 위해 개발된 아마존의 커스텀 소프트웨어는 모든 데이터가 메모리 할당 오류가 있는가를 확인하고 체크섬(checksum)을 계산하며, 클라우드 스토리지에 필요한 처리 속도를 제공하기 위해 오류가 얼마나 빠르게 복구될 수 있는가를 분석한다.

3. 마쯔다(Mazda)
미국 내에서만 900곳의 딜러와 800명의 직원이 근무하는 마쯔다 자동차는 약 90TB의 데이터를 관리하고 있다. 마쯔다 북미 사무소의 인프라 아키텍트 베리 클레리클리에 따르면, 사업부와 딜러들이 방대한 양의 데이터 분석 파일, 마케팅 자료, 비즈니스 인텔리전스 데이터베이스, 마이크로소프트 셰어포인트 데이터를 생성하고 있다.

그는 "우리는 스토리지를 포함한 모든 것을 가상화하고 있다"면서, 스토리지 가상화를 위해 델의 자회사 컴펠런트(Compellent)의 툴을, SAN을 위해서는 델 파워볼트(Dell PowerVault) NX3100을 그리고 가상 서버 호스팅을 위해서는 VM웨어를 활용하고 있다고 전했다.

블레이클에 따르면, 여기에서의 핵심은 스테일(stale) 데이터를 테이프로 신속하게 이동하는 것이다. 그는 저장된 데이터 중 80%는 수 개월 이내에 더 이상 사용되지 않고 그것은 해당 데이터 블럭이 더 이상 사용되지 않는다는 것을 의미한다고 말했다.

이러한 사용 패턴에 따라 계층화된 구조의 가상화 스토리지가 구축됐다. 광섬유 채널(Fibre Channel)을 통해 접속되는 FSS(Fast solid-state) 디스크가 계층 1이 되고 여기에서는 사용되는 데이터의 20%가 처리된다. 그리고 광섬유 채널 상에 1만 5,000rpm으로 좀 더 느린 속도로 동작하는 계층 2 디스크와 SAS(serial-attached SCSI)로 접속되는 7,200rpm 계층 3 디스크에서 나머지 데이터가 처리된다.
 
블레이클리는 지속적인 스토리지 가상화 노력으로 테이프로 옮겨지는 데이터의 양이 점점 줄고 있어 최근에는 약 17TB 규모라고 말했다.

그는 마쯔다가 순수 재난 복구 모델에 상반되는 "비즈니스 지속 모델"로 이동하고 있다고 전했다. 재난 복구 시나리오에 따라 데이터를 획득하고 저장할 수 있도록 해주는 백업과 오프사이트 저장을 수행하는 대신 " 콜로케이션(colocation) 설비에 실시간 그리고 백업 데이터를 복사한다"는 것이다.

그에 따르면 이러한 시나리오에서, 프라이머리 사이트가 정상적으로 동작하지 않는 경우 거의 즉각적으로 계층 1 애플리케이션이 수행된다. 그리고 다른 계층은 콜로케이션 설비로 복사된 백업 데이터를 사용하여 복구되게 된다.

기술 적용
위의 세 업체들은 방대한 양의 데이터 처리와 관련해 첨단에 속한다. 스토리지IO의 스컬츠는 파일이 아닌 체크섬 실행, IT 직원을 위한 경고 시스템 사용을 통한 디스크 고장 감시, 메타데이터 통합, 그리고 데이터의 항시 사용 가능성 보장을 위한 사본 사용 등과 같은 위 업체의 프로세스들은 다른 기업들이 참고할 만 하다고 말했다.

그러면서도 그는 대규모 데이터를 처리하고자 하는 기업들은 가장 저렴하거나 그 당시 인기 있는 시스템이 아닌 기업의 니즈에 맞는 기술을 선택해야만 한다고 조언했다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.