2017.12.06

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (3)

김진철 | CIO KR

LHG 컴퓨팅 그리드를 위한 네트워크 인프라
지난 열 번째 글에서 소개한 바와 같이 LHC 빅데이터를 처리하기 위해 CERN에서 국제 공동 인프라로 구축한 LHC 컴퓨팅 그리드는 전 세계에 걸친 고에너지 물리학 연구소와 국립 컴퓨팅 센터의 자원을 묶어 Tier-0, Tier-1, Tier-2의 세 개의 계층으로 크게 구분되는 계층형 시스템으로 구성되었다. 이런 전지구적 분산 컴퓨팅 인프라인 LHC 컴퓨팅 그리드가 하나의 거대한 수퍼컴퓨터로 통합되어 동작하기 위해서 가장 중요한 것이 바로 네트워크 인프라이다.

LHC 컴퓨팅 그리드가 다른 컴퓨팅 인프라와 다른 점은 대륙과 국가를 넘나드는 전 지구적인 컴퓨팅 인프라라는 점이다. 무엇보다도, 컴퓨팅 인프라의 자원통합이 단순히 노드 대 노드, 랙 대 랙 수준이 아니라 데이터센터 대 데이터센터 수준의 인프라 통합이 이루어져야 했기 때문에 일반적인 컴퓨팅 인프라 개발보다 훨씬 더 어려운 문제들이 많았다. 지난 아홉 번째 글에서 잠시 언급한 바와 같이 각 국가, 연구소별 데이터센터의 보안 및 네트워크 관리 정책이 달라서 그리드에서 실행되는 분석 작업의 실패율이 40%가 넘었던 것과 같은 문제가 그런 문제이다. 가상 머신을 이용한 가상화 기술을 이용해서 어느 정도 해결하기는 했지만, 데이터센터 대 데이터센터 수준의 컴퓨팅 인프라 통합은 기술적으로만 해결되지 않아 어려운 문제이다.



LHC 컴퓨팅 그리드 기술이 한창 개발되던 1990년대 후반부터 2000년대 중반까지 LHC 컴퓨팅 프로젝트에서 가장 많이 화두가 되었던 문제는 네트워크 인프라에 관한 것이었다. LHC 가속기의 검출기에서 실험 데이터가 생성되면 원시 데이터는 CERN의 Tier-0 데이터 센터에 우선 보관되지만, 이후 실험의 방향을 적절하게 정하고 다음 실험을 신속하게 수행하기 위해서는 획득된 데이터를 신속하게 분석해야 하기 때문에 메타데이터가 붙여진 가공된 데이터가 전 세계의 Tier-1, Tier-2 데이터 센터로 적시에 전송될 수 있어야 했기 때문이다.



LHC에서 생산되는 막대한 양의 데이터를 적시에 CERN의 Tier-0 데이터센터에서 전 세계 고에너지 물리학 연구소의 데이터센터까지 전송하기 위해서는 네트워크 대역폭이 충분히 확보되어야 했다. 문제는 CERN의 Tier-0 데이터센터에서 전 세계의 고에너지 물리학 연구소와 국립 연구소의 데이터센터까지 데이터를 전송하기 위해서는 대륙 간 연구망, 국가 간 연구망을 통해서 데이터가 전송되어야 했는데, 이들 연구망의 대역폭이 원하는 만큼 쉽게 확보될 수 있는 자원이 아니라는 것이다.

이들 대륙 간 연구망, 국가 간 연구망의 대역폭 확보가 쉽지 않은 이유는 대역폭 증설을 위해 해저나 지하 터널을 통해 장거리 광케이블 포설이 필요할 수 있고, 전송망 중간중간의 네트워크 장비의 업그레이드나 증설이 지리적으로 넓은 지역에 걸쳐 이루어져야 하며, 이들 네트워크 인프라의 통합이 그만큼 까다롭고 어렵기 때문이다. 증설 작업의 규모가 크고 어려운 만큼 비용이 많이 든다는 현실적인 문제도 있다. 장거리에 걸친 네트워크 케이블 및 장비 운용 시 장애가 발생했을 때 문제점을 신속하게 파악하기 어렵기 때문에 신중하게 네트워크 업그레이드를 진행해야 하는 문제도 있다.

각 검출기에서 전송되는 초당 100~1500Mbyte의 막대한 데이터를 전송하기 위해 LHC 검출기에서 CERN의 Tier-0 데이터센터까지의 내부 네트워크는 모두 20Gbps에서 120Gbps에 이르는 고대역폭의 고성능 네트워크가 구축되어 있다(그림 2). Tier-0 데이터센터에서 Tier-1, Tier-2 데이터센터로의 원활한 데이터 분배를 위해서 LHC의 네트워크 기반 인프라인 LHC 사설광네트워크(LHC Optical Private Network; LHCOPN)는 ESNet, GEANT 등의 연구망을 이용하여 200Gbps에서 최대 340Gbps의 대역폭을 제공한다. 미국-유럽간 대서양을 넘는 거리와 미국, 유럽 내 각 데이터센터 간의 위치를 고려하면 위와 같은 고대역폭 네트워크를 안정적으로 제공하는 것은 매우 어려운 기술적인 난제이다.



과학기술이 발전하고 연구망 등의 네트워크 인프라가 잘 갖춰진 미국과 일부 서유럽 국가들을 제외한 한국, 일본, 중국, 멕시코, 러시아 및 기타 유럽 국가에 있는 Tier-1, Tier-2 데이터센터들까지의 네트워크는 대부분 10Gbps의 네트워크로 연결되어 있다. 국가별 기초과학 연구개발 인프라, 고성능 연구망을 구성, 운영할 수 있는 경제력과 기술력, 인력의 차이로 인해 LHC 컴퓨팅 그리드의 네트워크 모든 구간에서 100Gbps~200Gbps에 이르는 고성능 네트워크를 제공하지 못하고 있다. 이와 같이, 기술적인 문제가 아니라 지정학적인 차이로 인해 LHC 컴퓨팅 그리드의 네트워크 및 데이터센터 성능이 지역에 따라 편차가 생기는 문제를 LHC 연구자들은 “디지털 격차(Digital Divide)”라고 불렀다. 이 디지털 격차로 인해 생기는 근본적인 자원 이종성(heterogeneity)과 계층(hierarchy) 문제는 LHC 컴퓨팅 그리드에서 지속적으로 풀어야 할 숙제이다.
 


2016년 LHC 컴퓨팅 그리드에서 생산한 데이터 및 네트워크 대역폭 사용 현황을 보면[7], 총 73페타바이트의 데이터가 생성되었고, 이 중 절반에 해당하는 33.4페타바이트의 데이터가 ATLAS, CMS 두 검출기에서 생성되었다. 이 빅데이터를 전세계에 걸친 Tier-1, Tier-2 데이터센터에 신속하게 분배하는데 사용된 대역폭은 평균 초당 35기가바이트였으며, 2016년 7월에서 10월까지는 한달에 평균 80~100페타바이트의 데이터가 분배되었다[7]. 이렇게 많은 양의 데이터를 성공적으로 전세계의 Tier-1, Tier-2 데이터센터에 분배할 수 있었던 것은 LHC 컴퓨팅 그리드에 필요한 네트워크 인프라의 대역폭과 요구사항을 꾸준히 모니터링하고, 이를 확보하기 위해 전세계의 국가연구망(National Research and Education Network; NREN) 운영 조직과의 긴밀한 협업과 꼼꼼하고 치밀한 계획, 그리고 꾸준한 업그레이드 노력과 실행이 있었기 때문에 가능했다.

 




2017.12.06

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (3)

김진철 | CIO KR

LHG 컴퓨팅 그리드를 위한 네트워크 인프라
지난 열 번째 글에서 소개한 바와 같이 LHC 빅데이터를 처리하기 위해 CERN에서 국제 공동 인프라로 구축한 LHC 컴퓨팅 그리드는 전 세계에 걸친 고에너지 물리학 연구소와 국립 컴퓨팅 센터의 자원을 묶어 Tier-0, Tier-1, Tier-2의 세 개의 계층으로 크게 구분되는 계층형 시스템으로 구성되었다. 이런 전지구적 분산 컴퓨팅 인프라인 LHC 컴퓨팅 그리드가 하나의 거대한 수퍼컴퓨터로 통합되어 동작하기 위해서 가장 중요한 것이 바로 네트워크 인프라이다.

LHC 컴퓨팅 그리드가 다른 컴퓨팅 인프라와 다른 점은 대륙과 국가를 넘나드는 전 지구적인 컴퓨팅 인프라라는 점이다. 무엇보다도, 컴퓨팅 인프라의 자원통합이 단순히 노드 대 노드, 랙 대 랙 수준이 아니라 데이터센터 대 데이터센터 수준의 인프라 통합이 이루어져야 했기 때문에 일반적인 컴퓨팅 인프라 개발보다 훨씬 더 어려운 문제들이 많았다. 지난 아홉 번째 글에서 잠시 언급한 바와 같이 각 국가, 연구소별 데이터센터의 보안 및 네트워크 관리 정책이 달라서 그리드에서 실행되는 분석 작업의 실패율이 40%가 넘었던 것과 같은 문제가 그런 문제이다. 가상 머신을 이용한 가상화 기술을 이용해서 어느 정도 해결하기는 했지만, 데이터센터 대 데이터센터 수준의 컴퓨팅 인프라 통합은 기술적으로만 해결되지 않아 어려운 문제이다.



LHC 컴퓨팅 그리드 기술이 한창 개발되던 1990년대 후반부터 2000년대 중반까지 LHC 컴퓨팅 프로젝트에서 가장 많이 화두가 되었던 문제는 네트워크 인프라에 관한 것이었다. LHC 가속기의 검출기에서 실험 데이터가 생성되면 원시 데이터는 CERN의 Tier-0 데이터 센터에 우선 보관되지만, 이후 실험의 방향을 적절하게 정하고 다음 실험을 신속하게 수행하기 위해서는 획득된 데이터를 신속하게 분석해야 하기 때문에 메타데이터가 붙여진 가공된 데이터가 전 세계의 Tier-1, Tier-2 데이터 센터로 적시에 전송될 수 있어야 했기 때문이다.



LHC에서 생산되는 막대한 양의 데이터를 적시에 CERN의 Tier-0 데이터센터에서 전 세계 고에너지 물리학 연구소의 데이터센터까지 전송하기 위해서는 네트워크 대역폭이 충분히 확보되어야 했다. 문제는 CERN의 Tier-0 데이터센터에서 전 세계의 고에너지 물리학 연구소와 국립 연구소의 데이터센터까지 데이터를 전송하기 위해서는 대륙 간 연구망, 국가 간 연구망을 통해서 데이터가 전송되어야 했는데, 이들 연구망의 대역폭이 원하는 만큼 쉽게 확보될 수 있는 자원이 아니라는 것이다.

이들 대륙 간 연구망, 국가 간 연구망의 대역폭 확보가 쉽지 않은 이유는 대역폭 증설을 위해 해저나 지하 터널을 통해 장거리 광케이블 포설이 필요할 수 있고, 전송망 중간중간의 네트워크 장비의 업그레이드나 증설이 지리적으로 넓은 지역에 걸쳐 이루어져야 하며, 이들 네트워크 인프라의 통합이 그만큼 까다롭고 어렵기 때문이다. 증설 작업의 규모가 크고 어려운 만큼 비용이 많이 든다는 현실적인 문제도 있다. 장거리에 걸친 네트워크 케이블 및 장비 운용 시 장애가 발생했을 때 문제점을 신속하게 파악하기 어렵기 때문에 신중하게 네트워크 업그레이드를 진행해야 하는 문제도 있다.

각 검출기에서 전송되는 초당 100~1500Mbyte의 막대한 데이터를 전송하기 위해 LHC 검출기에서 CERN의 Tier-0 데이터센터까지의 내부 네트워크는 모두 20Gbps에서 120Gbps에 이르는 고대역폭의 고성능 네트워크가 구축되어 있다(그림 2). Tier-0 데이터센터에서 Tier-1, Tier-2 데이터센터로의 원활한 데이터 분배를 위해서 LHC의 네트워크 기반 인프라인 LHC 사설광네트워크(LHC Optical Private Network; LHCOPN)는 ESNet, GEANT 등의 연구망을 이용하여 200Gbps에서 최대 340Gbps의 대역폭을 제공한다. 미국-유럽간 대서양을 넘는 거리와 미국, 유럽 내 각 데이터센터 간의 위치를 고려하면 위와 같은 고대역폭 네트워크를 안정적으로 제공하는 것은 매우 어려운 기술적인 난제이다.



과학기술이 발전하고 연구망 등의 네트워크 인프라가 잘 갖춰진 미국과 일부 서유럽 국가들을 제외한 한국, 일본, 중국, 멕시코, 러시아 및 기타 유럽 국가에 있는 Tier-1, Tier-2 데이터센터들까지의 네트워크는 대부분 10Gbps의 네트워크로 연결되어 있다. 국가별 기초과학 연구개발 인프라, 고성능 연구망을 구성, 운영할 수 있는 경제력과 기술력, 인력의 차이로 인해 LHC 컴퓨팅 그리드의 네트워크 모든 구간에서 100Gbps~200Gbps에 이르는 고성능 네트워크를 제공하지 못하고 있다. 이와 같이, 기술적인 문제가 아니라 지정학적인 차이로 인해 LHC 컴퓨팅 그리드의 네트워크 및 데이터센터 성능이 지역에 따라 편차가 생기는 문제를 LHC 연구자들은 “디지털 격차(Digital Divide)”라고 불렀다. 이 디지털 격차로 인해 생기는 근본적인 자원 이종성(heterogeneity)과 계층(hierarchy) 문제는 LHC 컴퓨팅 그리드에서 지속적으로 풀어야 할 숙제이다.
 


2016년 LHC 컴퓨팅 그리드에서 생산한 데이터 및 네트워크 대역폭 사용 현황을 보면[7], 총 73페타바이트의 데이터가 생성되었고, 이 중 절반에 해당하는 33.4페타바이트의 데이터가 ATLAS, CMS 두 검출기에서 생성되었다. 이 빅데이터를 전세계에 걸친 Tier-1, Tier-2 데이터센터에 신속하게 분배하는데 사용된 대역폭은 평균 초당 35기가바이트였으며, 2016년 7월에서 10월까지는 한달에 평균 80~100페타바이트의 데이터가 분배되었다[7]. 이렇게 많은 양의 데이터를 성공적으로 전세계의 Tier-1, Tier-2 데이터센터에 분배할 수 있었던 것은 LHC 컴퓨팅 그리드에 필요한 네트워크 인프라의 대역폭과 요구사항을 꾸준히 모니터링하고, 이를 확보하기 위해 전세계의 국가연구망(National Research and Education Network; NREN) 운영 조직과의 긴밀한 협업과 꼼꼼하고 치밀한 계획, 그리고 꾸준한 업그레이드 노력과 실행이 있었기 때문에 가능했다.

 


X