Offcanvas

������ ���������

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (3)

LHC 실험의 데이터 그리드 요구 사항 LHC 컴퓨팅 그리드(LHC Computing Grid)를 구축하면서 해결해야 했던 중요한 문제 중 하나는 LHC 데이터 분석 작업을 기관별로 분담한 분석 대상 이벤트에 맞게 각 기관의 그리드 컴퓨팅 자원으로 스케줄링하는 문제와 함께, 컴퓨팅 노드에 스케줄링되어 실행되는 분석 작업들이 분석할 데이터에 어떻게 접근하고 사용하느냐는 것이었다. 어느 그리드 사이트에서도 데이터 접근이 가능하게끔 데이터를 저장, 관리하기 위해 LHC 컴퓨팅 그리드의 데이터 그리드 시스템이 해결해야 했던 기술적인 문제는 다음과 같다. 첫번째로, 컴퓨팅 노드가 전 세계의 고에너지 물리 연구소 데이터센터에 분산되어 있듯이, 실험 데이터를 저장하기 위한 저장 장치 자원도 전 세계의 데이터센터에 분산되어 있고, LHC 컴퓨팅 그리드의 계층적 계산 모델에 따라 저장 장치 자원들도 전세계적인 스케일로 계층화되어 있다는 것이었다. LHC 컴퓨팅 그리드가 전 지구적으로 자원이 계층적으로 분산되어 있는 시스템이었기 때문에 스토리지도 자연스럽게 계층화될 수밖에 없었다. 이 스토리지 자원 계층화는 CERN에 모든 실험 데이터를 저장해두고 분석할 수 없는 문제 때문이기도 했지만, 여러 공동 연구 기관이 동시에 데이터 분석 작업을 하려다 보니 생기는 문제이기도 했다. LHC 컴퓨팅 그리드 구축 당시의 네트워크 기술이, 대륙을 넘나드는 원거리 지역의 데이터를 가지고 계산을 효과적으로 하기에는 WAN의 대역폭(bandwidth)과 지연(latency) 제약이 컸기 때문에 분석하려는 데이터를 미리 분석하려는 컴퓨팅 그리드 자원 근처로 옮겨 놓을 수밖에 없었기 때문이다. 데이터 분석 작업이 분석할 데이터가 작업이 실행되는 기관의 스토리지 자원에 전송되어 있어야 하는 데이터 지역성(data locality)을 확보해야 했다. LHC 컴퓨팅 그리드의 저장 장치 자원 티어링(tiering)은 이렇게 그리드 사이트 수준의 계층화뿐만 아니라, 각 데이터센터 내의...

CIO 핫 데이터 LHC 컴퓨팅 그리드 김진철 옴니패스 콜드 데이터 스파크 더 머신 삼성전자 넷앱 하둡 데이터 과학자 EMC 오픈스택 IBM HP 빅데이터 인텔 세프

2018.05.23

LHC 실험의 데이터 그리드 요구 사항 LHC 컴퓨팅 그리드(LHC Computing Grid)를 구축하면서 해결해야 했던 중요한 문제 중 하나는 LHC 데이터 분석 작업을 기관별로 분담한 분석 대상 이벤트에 맞게 각 기관의 그리드 컴퓨팅 자원으로 스케줄링하는 문제와 함께, 컴퓨팅 노드에 스케줄링되어 실행되는 분석 작업들이 분석할 데이터에 어떻게 접근하고 사용하느냐는 것이었다. 어느 그리드 사이트에서도 데이터 접근이 가능하게끔 데이터를 저장, 관리하기 위해 LHC 컴퓨팅 그리드의 데이터 그리드 시스템이 해결해야 했던 기술적인 문제는 다음과 같다. 첫번째로, 컴퓨팅 노드가 전 세계의 고에너지 물리 연구소 데이터센터에 분산되어 있듯이, 실험 데이터를 저장하기 위한 저장 장치 자원도 전 세계의 데이터센터에 분산되어 있고, LHC 컴퓨팅 그리드의 계층적 계산 모델에 따라 저장 장치 자원들도 전세계적인 스케일로 계층화되어 있다는 것이었다. LHC 컴퓨팅 그리드가 전 지구적으로 자원이 계층적으로 분산되어 있는 시스템이었기 때문에 스토리지도 자연스럽게 계층화될 수밖에 없었다. 이 스토리지 자원 계층화는 CERN에 모든 실험 데이터를 저장해두고 분석할 수 없는 문제 때문이기도 했지만, 여러 공동 연구 기관이 동시에 데이터 분석 작업을 하려다 보니 생기는 문제이기도 했다. LHC 컴퓨팅 그리드 구축 당시의 네트워크 기술이, 대륙을 넘나드는 원거리 지역의 데이터를 가지고 계산을 효과적으로 하기에는 WAN의 대역폭(bandwidth)과 지연(latency) 제약이 컸기 때문에 분석하려는 데이터를 미리 분석하려는 컴퓨팅 그리드 자원 근처로 옮겨 놓을 수밖에 없었기 때문이다. 데이터 분석 작업이 분석할 데이터가 작업이 실행되는 기관의 스토리지 자원에 전송되어 있어야 하는 데이터 지역성(data locality)을 확보해야 했다. LHC 컴퓨팅 그리드의 저장 장치 자원 티어링(tiering)은 이렇게 그리드 사이트 수준의 계층화뿐만 아니라, 각 데이터센터 내의...

2018.05.23

아마존, 1년 이상 잠자는 데이터 위한 '클라우드 스토리지 옵션' 출시

아마존 웹 서비스가 ‘자주 접근하지 않는(Infrequently Accessed : IA) 데이터’를 위한 클라우드 스토리지 옵션을 출시했다. 새로 출시된 아마존의 심플 스토리지 서비스(S3) IA는 이 회사의 표준 S3와 글래시어 서비스(Glacier Service)를 대체하게 된다. 현재 아마존이 제공하는 스토리지 서비스는 3개며, 각각의 특징은 다음과 같다. - S3 : 데이터의 빠른 접근 - S3 IA : 가용성 면에서 S3의 절충안으로 사용할 수 있고 S3보다 저렴 - 글래시어 : 가용성은 높지만 데이터 전환에서 시간이 오래 걸리기 때문에 가격 저렴   AWS는 고객의 데이터 빈도에 따라 스토리지 서비스를 바꿀 수 있다고 밝혔다. 가용성 99%의 IA의 월 사용료는 0.03/GB며 IA는 월 0.0125달러/GB고 글래시어는 0.007달러/GB에서 각각 시작된다. AWS는 IA를 발표하면서 글래시어의 사용료는 0.01달러/GB/월에서 0.007/GB/월로 내렸다. AWS는 엘라스틱 컴퓨트 클라우드(EC2) 가상기기를 위한 영구 차단 수준의 스토리지를 제공해 주는 엘라스틱 블록 스토리지(EBS) 시리즈들도 있다.   올해 초 구글이 니어라인(Nearline)이라는 아카이빙 데이터용 새로운 스토리지 서비스를 발표했는데 AWS는 이와 경쟁하고자 S3 IA를 내놓은 것으로 풀이된다. 니어라인의 월 사용료는 0.01달러/GB에서 시작한다. 이러한 움직임은 기업들이 더 이상 데이터를 회사 안에 있는 기기에 저장하지 않아도 된다는 많은 이유를 설명하면서 퍼블릭 IaaS 클라우드 업체들이 계속해서 자사의 플랫폼을 혁신하고 다른 업체들과 서비스를 두고 경쟁하고 있음을 나타내고 있다. AWS의 좀더 자세한 발표 내용은 블로그에서 읽을 수 있다. ciokr@idg.co.kr  

스토리지 글래시어 S3 IA S3 심플 스토리지 서비스 콜드 데이터 아마존 웹 서비스 저장공간 클라우드 스토리지 AWS 아마존 구글 니어라인

2015.09.18

아마존 웹 서비스가 ‘자주 접근하지 않는(Infrequently Accessed : IA) 데이터’를 위한 클라우드 스토리지 옵션을 출시했다. 새로 출시된 아마존의 심플 스토리지 서비스(S3) IA는 이 회사의 표준 S3와 글래시어 서비스(Glacier Service)를 대체하게 된다. 현재 아마존이 제공하는 스토리지 서비스는 3개며, 각각의 특징은 다음과 같다. - S3 : 데이터의 빠른 접근 - S3 IA : 가용성 면에서 S3의 절충안으로 사용할 수 있고 S3보다 저렴 - 글래시어 : 가용성은 높지만 데이터 전환에서 시간이 오래 걸리기 때문에 가격 저렴   AWS는 고객의 데이터 빈도에 따라 스토리지 서비스를 바꿀 수 있다고 밝혔다. 가용성 99%의 IA의 월 사용료는 0.03/GB며 IA는 월 0.0125달러/GB고 글래시어는 0.007달러/GB에서 각각 시작된다. AWS는 IA를 발표하면서 글래시어의 사용료는 0.01달러/GB/월에서 0.007/GB/월로 내렸다. AWS는 엘라스틱 컴퓨트 클라우드(EC2) 가상기기를 위한 영구 차단 수준의 스토리지를 제공해 주는 엘라스틱 블록 스토리지(EBS) 시리즈들도 있다.   올해 초 구글이 니어라인(Nearline)이라는 아카이빙 데이터용 새로운 스토리지 서비스를 발표했는데 AWS는 이와 경쟁하고자 S3 IA를 내놓은 것으로 풀이된다. 니어라인의 월 사용료는 0.01달러/GB에서 시작한다. 이러한 움직임은 기업들이 더 이상 데이터를 회사 안에 있는 기기에 저장하지 않아도 된다는 많은 이유를 설명하면서 퍼블릭 IaaS 클라우드 업체들이 계속해서 자사의 플랫폼을 혁신하고 다른 업체들과 서비스를 두고 경쟁하고 있음을 나타내고 있다. AWS의 좀더 자세한 발표 내용은 블로그에서 읽을 수 있다. ciokr@idg.co.kr  

2015.09.18

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9