Offcanvas

CIO / How To / 개발자 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 스토리지 / 애플리케이션

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (3)

2018.05.23 김진철  |  CIO KR


StoRM의 특징은 시작부터 그리드용 분산 저장 장치 소프트웨어로 만들어졌기 때문에 GFAL과 VOMS 등의 LHC 컴퓨팅 그리드 미들웨어 서비스와의 통합이 쉽다는 것이다. SRM 2.2 표준을 만족하는 프론트엔드 서버와 분산 저장 장치 자원과 데이터를 관리하는 백엔드 서버의 두 계층의 레이어로 개발되어 있어서 사용자의 데이터 I/O 요청이 증가할 때 안정적으로 요청을 수용하고 처리할 수 있는 아키텍처이다. 백엔드 서버는 지원하는 분산 파일 시스템을 플러그인 형식으로 통합할 수 있도록 되어 있어서 다양한 분산 파일 시스템으로 구성된 이종(heterogeneous) 저장 장치 자원을 SRM 2.2 표준으로 통합하기 용이하게 디자인되었다.



마지막으로 CASTOR(CERN Advanced Storage System)는 CERN Tier-0 데이터센터의 대용량 테이프 스토리지 시스템을 운영하기 위해 만든 분산 저장 장치 관리 소프트웨어다. CASTOR는 대용량 테이프 저장 장치를 운영하기 위해 주로 사용되기 때문에, dCache와 DPM 등의 다른 분산 저장 장치 관리 시스템과는 다른 요구 사항을 가지고 있다.

CASTOR는 테이프 저장 장치에 데이터를 빠르고 안전하게 전달, 저장하는 것을 최우선의 목표로 삼고 있기 때문에, 테이프 저장 장치에 데이터를 저장하기 전에 버퍼링하여 보관하는 디스크 캐시 저장 장치에 데이터를 빠르고 안전하게 캐싱한 후, 디스크 캐시에서 다시 테이프 저장 장치로 빠른 전송률로 데이터를 전송하도록 만들어져 있다. 이 때문에 다른 디스크 풀 저장 장치를 지원하는 분산 저장 장치 관리 시스템과는 달리 동적인 저장 공간 할당(dynamic space allocation)이 지원되지 않고 기존의 데이터를 옮긴 후 삭제하는 식으로 테이프 저장 공간이 관리된다.



CASTOR는 다른 분산 저장 장치 관리 소프트웨어와는 요구 사항과 목적이 다른 시스템이기 때문에, SRM 표준을 만족하는 인터페이스를 구현하는 방식도 많이 달랐다. 테이프 저장 장치는 디스크 저장 장치보다 I/O 속도가 느리기 때문에, 클라이언트의 요청을 받는 데이터 요청 처리기(request handler)가 데이터베이스를 통해 CASTOR 시스템 전체 상태와 사용자 요청의 진행상황을 관리한다. 데이터베이스에 저장된 사용자의 데이터 접근 요청의 진행상황과 CASTOR 시스템 내의 데이터 저장 상태 정보를 이용해 비동기적으로 데이터 I/O를 수행하여 사용자가 요청이 끝날 때까지 다른 작업을 수행하지 못하고 기다리는 일이 없도록 데이터 I/O를 수행한다. 사용자가 작업을 기다려도 되는 배치 데이터 I/O의 경우에는 요청 처리기가 직접 CASTOR와 통신하여 동기적으로 데이터 I/O를 처리한다.



LHC 컴퓨팅 그리드의 이종 데이터 저장 장치 통합 표준 – SRM

LHC 컴퓨팅 그리드에 자원을 제공하고 참여하는 전 세계 연구기관들의 저장 장치 자원과 네트워크 아키텍처, 보안 정책의 차이를 극복하고, 각 기관의 저장 장치 자원을 하나의 단일화된 데이터 그리드 시스템으로 통합하기 위해 LHC 컴퓨팅 그리드의 데이터 그리드 서비스인 SE(Storage Element)가 디자인, 구현되었다. LHC 컴퓨팅 그리드의 데이터 접근을 위한 단일화된 인터페이스인 SRM(Storage Resource Manager) 표준이 미국의 로렌스 버클리 국립 연구소의 과학 데이터 관리 연구 그룹의 주도로 LHC 컴퓨팅 그리드 커뮤니티 내에서 제안되고 정의되었다.



LHC 컴퓨팅 그리드에서 계산 노드를 통합하여 사용하기 위해 Open Grid Forum을 통해 표준화된 JSDL, DRMAA 등의 인터페이스를 통해 이종(heterogeneous) 계산 자원 통합을 했듯이, 저장 장치 자원은 SRM 표준을 통해 표준화된 그리드 저장 장치 데이터 접근과 자원 관리 인터페이스를 정의하고 이를 각 저장 장치 관리 소프트웨어에 추가로 구현하여 통합하였다(그림 6).

위에서 소개한 BeStMan, dCache, DPM, StoRM, CASTOR가 상용으로 많이 쓰이는 IBM GPSS, HPSS, Lustre 등의 분산 파일 시스템과 함께 LHC 컴퓨팅 그리드(Computing Grid)의 저장 장치 통합에 사용되었던 분산 저장 장치 관리 소프트웨어들이다. StoRM을 제외하고는 SRM 표준을 지원하지 않고 각 실험의 필요에 의해 개발되었던 분산 저장 장치 관리 소프트웨어들이었지만, LHC 컴퓨팅 그리드로 각 공동 연구기관들의 저장 장치 자원들을 통합하게 되면서 SRM 표준을 적용한 레이어와 소프트웨어 모듈을 추가하여 개선하게 되었다.

SRM 표준이 적용된 다양한 분산 스토리지 소프트웨어 기술 덕분으로 LHC 실험을 수행하는 과학자들은 전 세계에 걸쳐 985PB에 달하는 저장 장치를 자신의 연구실에서 편리하게 사용할 수 있게 되었다[10]. LHC 데이터 그리드의 전 세계에 걸친 저장 장치 용량의 확장성과 SRM 표준을 이용한 데이터 접근 및 관리 조작의 편리성은 LHC 실험 데이터 분석 과정을 가속하고 전 세계 LHC 연구자들의 협업을 효과적으로 조직, 자동화할 수 있도록 하여 힉스 입자 발견을 비롯한 고에너지 물리학 현상 분석과 발견에 크게 기여하고 있다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.