2018.06.27

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (4)

김진철 | CIO KR

LHC 실험 데이터 분석에서의 데이터 가시화 – 이벤트 및 모니터링 데이터
LHC 실험에서 사용되는 데이터 가시화 방법을 같이 살펴보면서 빅데이터를 활용할 때 데이터 가시화와 큐레이션이 왜 중요한지 같이 생각해보자.

먼저, 데이터 가시화와 큐레이션이 무엇이고 어떤 차이가 있는지 같이 생각해보자. 데이터 가시화란 말 그대로 데이터의 특성과 구조를 사람이 편리하게 관찰할 수 있도록 기호화된 데이터들을 재조직하고 가공해서 새롭게 표현한 것을 말한다. 빅데이터의 큐레이션이란 빅데이터 중에서 현재 사용하고자 하는 목적과 용도에 맞게 빅데이터 일부를 추려내고 재배치하여 빅데이터가 가진 특정한 측면과 특성이 잘 드러나도록 빅데이터를 선별하고 표현을 바꾸는 것을 말한다.

가시화와 큐레이션은 엄연히 다른 개념이지만, 실제로 빅데이터를 가시화할 때에는 가시화 기능이나 내용이 큐레이션 과정을 포함하는 경우가 많다. 이것은 빅데이터의 특성상 모든 데이터를 한꺼번에 관찰하거나 시각화하기가 어려운 경우가 많아 보고자 하는 특성이나 구조만을 볼 수 있게끔 필터링, 재조직해야 하는데, 이 필터링과 재조직 과정이 큐레이션이 되는 경우가 많기 때문이다. 하지만, 보통 빅데이터 가시화의 필터링이나 재조직은 단일 종류의 빅데이터 가시화에서 특정한 조건을 만족하는 일부 데이터만 추려내는 것을 말하고, 큐레이션은 다양한 종류의 빅데이터를 동시에 써서 만든 가시화 내용을 사용자의 필요에 맞게 배치를 바꾸거나 데이터의 다양한 면을 보여주는 여러 가시화 결과를 특정한 관점에 따라 새롭게 배치, 정렬하여 보여주는 것을 말한다.

LHC 실험 데이터 활용의 가장 중요한 목적은 우선 검출기에서 일어난 이벤트들을 눈으로 직접 관찰하고, 이를 분석하는 과정을 자동화하는 것이다. 이를 위해 검출기의 각 검출 모듈로부터 측정된 수치 데이터를 모두 모아서 검출기 전체에서 일어난 이벤트로 재구성하여 보여주어야 한다. 그냥 데이터를 모아서 데이터 가시화 도구로 그려주면 되지 않냐고 단순하게 생각할 수 있겠지만, 그렇게 단순한 문제가 아니다. 현재 LHC 연구자들이 ROOT와 GEANT를 이용해 만드는 이벤트 데이터 가시화는 빅데이터 가시화 사례 중에서도 매우 복잡한 사례에 해당하고 가시화의 중요성을 잘 보여주는 사례에 해당한다. 왜 그런지 잘 생각해보자.

먼저, 데이터가 보여주려고 하고, 데이터를 통해 나타내려고 하는 입자물리학적인 현상들을 같이 생각해보자. 힉스와 관련된 입자물리학 현상들은 현재 수 펨토미터에서 수십 펨토미터 수준의 공간에서 일어나는 것으로 알려져 있다. (펨토미터는 10-18m를 말하는 것으로, 보통 잘 알려진 원자, 분자와 관련된 현상이 일어나고 최근 집적회로 소자 기술이 많이 개발되는 나노미터 단위 공간보다 10억 배 더 작은 길이의 척도다.) 펨토미터의 공간에서 일어나는 현상들은 사람들이 맨눈으로 관찰할 수 없기 때문에 관찰하기 위해서는 힉스를 포함한 근본 입자들이 물질과 일으키는 상호작용을 이용해 간접적으로 관찰해야 한다고 예전의 다섯번째 글에서 자세히 소개한 바 있다.

힉스를 포함한 근본 입자들이 나타나기 위해서는 고에너지 상태의 입자들이 상호작용하는 상태를 만들어야 하는데, 입자들이 이렇게 고에너지 상태에서 일으키는 이벤트들은 하나의 센서에 모든 정보를 다 담을 수 없다. 현재 입자들의 궤적을 추적하기 위한 검출 장치인 CMS 검출기의 트래커(tracker)만 해도 24,244개의 실리콘 스트립 센서 모듈로 구성되어 있다[2-3]. 이 24,244개의 실리콘 스트립 센서에서 검출하는 이벤트 정보는 전체 이벤트 정보 중에서 아주 작은 단편이기 때문에, CMS 검출기 내에서 일어나는 이벤트 전체를 재구성하기 위해서는 1,000노드 이상의 분산 컴퓨팅 시스템을 이용하는 복잡한 데이터 가공 가정을 거쳐야 한다. 고휘도 LHC(High-luminosity LHC; HL-LHC) 가속기 실험을 위해 이 CMS 검출기의 트래커가 현재의 3계층에서 4계층 검출기로 업그레이드되면 이 실리콘 스트립 센서 모듈의 수는 크게 늘어날 전망이다[4-6].



분석하려고 하는 대상인 입자물리학 현상은 사람이 맨눈으로 할 수 없는 아주 작은 스케일에서 일어난다는 점, 그리고, 이벤트 데이터를 하나의 센서로 수집할 수 있는 것이 아니라 많은 다양한 센서들의 값을 수집하여 실제 일어난 이벤트로 재구성해야 한다는 점, 재구성된 이벤트의 의미를 이해하고 분석하기 위해서는 검출기의 3차원 형상과 대비하여 이벤트가 일어난 위치에 맞게 가시화해야 된다는 점을 고려하여 LHC 실험 연구자들은 검출기의 이벤트 데이터 가시화를 위해 EVE라는 3차원 이벤트 가시화 소프트웨어 도구를 분석 플랫폼인 ROOT를 이용하여 만들었다. 그림 1은 EVE를 이용하여 ALICE 검출기에서 일어난 중이온빔의 충돌 이벤트를 가시화한 모습이다.

붉은색, 파란색, 노란색 등으로 표현된 3차원 모델들은 ALICE 검출기의 각 센서 모듈 하나를 표현한다. CMS 검출기와 같이 ALICE 검출기도 다양한 센서 모듈들이 고에너지 입자빔이 충돌하는 영역을 겹겹이 감싸는 식으로 설치, 통합되어 있기 때문에 그림의 가운데에 빔의 충돌 이벤트가 일어난 지점을 중심으로 센서의 3D 모델들이 겹겹이 감싸고 있는 것을 볼 수 있다. 파란색, 연두색, 빨간색, 노란색 등의 선과 점으로 표현된 것들이 실제 입자들이 상호작용하면서 일으킨 이벤트들을 가시화한 것이다. 각 이벤트에 대해 기록한 센서값들을 센서의 위치와 센서상에서 이벤트가 기록된 픽셀에 맞게 가시화 공간에 표현한 것이다.

위의 그림 1의 이벤트 데이터 가시화에서 각 이벤트들이 ALICE 검출기에서 어떤 모양으로, 어떤 위치에서, 어떤 궤적을 그렸는지를 한눈에 알아볼 수 있다. 그림 1에서 가시화된 이벤트들은 3D로 재구성된 이벤트 가시화가 없이 숫자와 추상적인 형식으로 저장된 각 센서 모듈의 데이터를 직접 눈으로 보아서는 절대로 얻을 수 없는 정보들을 제공하고 있음을 한눈에 알 수 있다.

힉스와 같은 새로운 입자를 찾아내기 위해서는 그림 1과 같이 실제 검출된 이벤트를 검출기의 3차원 모델과 함께 가시화해서 보여주는 것도 중요하지만, 각 이벤트가 어떤 입자나 상호작용 프로세스와 연관되어 있는지 메타데이터를 붙이고, 이 메타데이터에 따라 구분하여 표시하는 것도 중요하다. 지난 여섯 번째일곱 번째 글에서 이벤트 데이터 분석과정을 소개할 때, 이벤트 데이터 수집전에 미리 계산된 시뮬레이션 데이터와 실제 검출된 이벤트 데이터를 비교하여 각 이벤트를 구분하는 메타데이터를 이벤트 데이터 형식에 추가한다고 설명한 바 있다. 이와 같은 메타데이터가 없으면 각 이벤트를 분석하려는 상호작용에 따라 구분하여 표현할 수 없기 때문에 가시화하더라도 분석하기가 매우 어렵고 알아보기 힘들다.



그림 2는 GEANT4 시뮬레이션을 이용해 CMS 검출기에서 일어날 수 있는 이벤트들을 미리 정의된 실험 파라미터에 따라 시뮬레이션하여 가시화한 것이다. 시뮬레이션 데이터는 우리가 시뮬레이션의 파라미터를 완전하게 통제할 수 있기 때문에 실제 검출된 이벤트보다 훨씬 더 자세하고 풍부한 정보를 담을 수 있는 경우가 많아서 경우에 따라서는 실제 이벤트 데이터보다 더 크고 용량이 클 수 있다. 그림 2의 시뮬레이션 데이터를 보면 각 입자와 이벤트 모두가 완전하게 분류, 레이블링되어 표현되어 있음을 볼 수 있다.

메타데이터가 추가된 이벤트 데이터를 그림 1과 같이 가시화하여야 비로소 이벤트별로 어떤 상호작용에 의해 일어난 이벤트인지 구분하여 분석할 수 있어서 원하는 입자물리학적 데이터 분석이 가능하게 된다.

단순히 이벤트 데이터를 검출기 3차원 모델과 대비하여 가시화하여 분석하는 것 외에, 입자물리학 분석에서는 다양한 데이터 분석 방법이 쓰인다. 많은 과학 연구 분야와 마찬가지로, 앞에서 본 3차원의 복잡한 이벤트 데이터 가시화와 함께 검출기를 통해 측정된 입자의 에너지와 같은 다양한 물리학적 변수 간의 관계를 그래프와 차트를 통해 시각화하게 된다. 이렇게 그래프와 차트를 통해 표현된 물리학적 변수 간의 정량적 관계를 검출기를 통해 측정된 이벤트 데이터와 이벤트 시뮬레이션 가시화 결과와 함께 대조, 분석하여 힉스와 같은 새로운 입자를 찾아내게 된다.

이번에는 LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터 가시화의 사례를 한번 같이 살펴보도록 하자. LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터는 운영 지원 시스템(Operation Support System; OSS)의 빅데이터라고 볼 수 있다. 지난 열네번째 글에서 소개한 바와 같이 LHC 컴퓨팅 그리드(LHC Computing Grid)와 LHC 가속기, 검출기들의 모니터링 문제는 빅데이터의 양(Volume), 속도(Velocity), 다양성(Variety), 불확실성(Veracity)의 모든 조건을 만족시키는 다루기 어려운 빅데이터 문제다.

LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 정보 표현을 위한 다양한 아이디어들이 실험되고 고안되었는데, 이 글에서는 그중에서 두 가지 흥미로운 사례(GridMap, MonaLISA)만 살펴보기로 한다. 먼저 그리드 자원 운영에서 가장 어려운 문제였던 지역적으로 넓은 지역에 걸쳐 위치한 그리드 사이트 운영 상태를 시각적으로 표현한 GridMap이라 불리는 가시화 사례부터 살펴보도록 하자.

GridMap은 아래 그림 4와 같이 각 Tier-1, Tier-2 데이터센터의 규모에 비례하여 사각형의 크기를 표현하고, 각 사각형의 색깔로 각 그리드 데이터센터의 운영상태를 표현하는 가시화 방법이다. 얼핏 보기에는 단순해 보이지만, 그리드 자원 운영 데이터의 가시화 방법을 찾기 위해 LHC 연구자들이 얼마나 고심했는지 잘 보여주는 사례이기도 하다.
 


예전 여러 편의 기고([10-13])에서 소개한 것처럼, 각 Tier-1, Tier-2 데이터센터의 그리드 컴퓨팅 자원은 복잡한 분산 컴퓨팅 시스템이어서 각 데이터센터의 자원을 모니터링하는 것 자체가 벌써 만만찮은 규모의 일이다. 특히, 어느 한 Tier-1 데이터센터의 그리드 운영에 문제가 생기면 많은 Tier-2 데이터센터의 이벤트 데이터 분석에 문제가 생기고 LHC 실험 데이터 분석 과정에 많은 지연이 생기게 된다. Tier-1 데이터센터는 CERN의 검출기 고수준 트리거 장치(high-level trigger)에서 가공된 데이터를 받아 대규모 분석과 가공을 수행하고 가공된 이벤트 데이터를 Tier-2 데이터센터에 다시 분배하는 중요한 역할을 하고 있기 때문이다. 이 때문에 Tier-1 데이터센터의 자원과 서비스 상태를 효과적으로 신속하게 모니터링하는 것은 특히 중요한 문제였다.

먼저, 그리드 데이터센터 운영 상태를 대표적으로 표현하는 방법을 찾기가 쉽지 않았다. 각 그리드 컴퓨팅 사이트별로 모니터링하고 관리해야 하는 자원이 몇백대에서 몇천대의 서버와 스토리지, 그리고 네트워크 장비에 이르는데, 이들 장비의 상태 각각을 모니터링해야 할 뿐 아니라, 이들 장비에서 운영되는 LHC 컴퓨팅 그리드 미들웨어 서비스들의 운영 상태까지 모두 파악하여 점검해야 전체 그리드 컴퓨팅 사이트의 서비스 상태를 하나의 상태로 표현할 수 있게 된다.

각 그리드 컴퓨팅 데이터센터별로 Tier-1이냐, Tier-2냐에 따라 만족해야 하는 서비스 수준 계약(Service Level Agreement; SLA)에 관련된 자원 운영 상태를 모니터링할 수 있게 모니터링 정보를 어떻게 조직하고 표현할 것이냐 하는 것도 매우 골치 아픈 문제였다.

GridMap 모니터링에서는 이렇게 각 그리드 컴퓨팅 데이터센터와 그리드 컴퓨팅 서비스의 다양한 측면, 서버, 스토리지, 네트워크 및 그리드 미들웨어 서비스의 운영 상태와 SLA 만족 상황 등의 다양한 변수를 고려하여 서비스 가용성(availability) 및 신뢰성(reliability)를 측정하고, 이를 “정상 운영(OK)”, “품질 저하(Degraded)”, “서비스 중단(Down)”의 상태로 나누어 대표적으로 표현한다. 그리드 데이터센터의 자원 규모에 비례하여 사각형의 크기를 결정하여 그리드 데이터센터의 자원 운영 규모도 한눈에 파악할 수 있도록 하였다.



GridMap은 계층적으로 모니터링 정보를 조직해 놓았기 때문에, 각 그리드 데이터센터에 해당하는 사각형에 마우스 커서를 위치시키면 그리드 자원과 서비스의 상태를 요약해서 보여주고, 각 사각형을 클릭하면 해당 그리드 데이터센터의 서비스 가용성 모니터링 화면으로 전환하여 그리드 데이터센터의 컴퓨팅 및 스토리지, 네트워크 자원과 그리드 미들웨어 서비스 운영 상황을 자세하게 살펴볼 수 있다.

GridMap 모니터링 가시화를 통해서 그리드 컴퓨팅 시스템 모니터링을 LHC 컴퓨팅 그리드의 운영자들이 한결 수월하게 할 수 있게 되었다. 전체 그리드 컴퓨팅 자원의 상태를 각 그리드 데이터센터별로 한눈에 파악할 수 있을 뿐만 아니라, 계층적으로 조직된 모니터링 정보를 통해 각 그리드 데이터센터별 자원 운영의 문제점을 손쉽게 추적해 들어가 문제를 확인할 수 있다.



다음은 그리드 컴퓨팅 초반부터 많이 쓰인 MonALISA라는 모니터링 시스템을 같이 살펴보도록 하자. MonALISA는 LHC 가속기의 ALICE 검출기 데이터 분석에 참여하는 그리드 자원 모니터링을 위해 만든 모니터링 도구였지만, 지금은 모든 LHC 컴퓨팅 그리드 데이터센터 운영에서 같이 쓰이고 있다.

 


2018.06.27

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (4)

김진철 | CIO KR

LHC 실험 데이터 분석에서의 데이터 가시화 – 이벤트 및 모니터링 데이터
LHC 실험에서 사용되는 데이터 가시화 방법을 같이 살펴보면서 빅데이터를 활용할 때 데이터 가시화와 큐레이션이 왜 중요한지 같이 생각해보자.

먼저, 데이터 가시화와 큐레이션이 무엇이고 어떤 차이가 있는지 같이 생각해보자. 데이터 가시화란 말 그대로 데이터의 특성과 구조를 사람이 편리하게 관찰할 수 있도록 기호화된 데이터들을 재조직하고 가공해서 새롭게 표현한 것을 말한다. 빅데이터의 큐레이션이란 빅데이터 중에서 현재 사용하고자 하는 목적과 용도에 맞게 빅데이터 일부를 추려내고 재배치하여 빅데이터가 가진 특정한 측면과 특성이 잘 드러나도록 빅데이터를 선별하고 표현을 바꾸는 것을 말한다.

가시화와 큐레이션은 엄연히 다른 개념이지만, 실제로 빅데이터를 가시화할 때에는 가시화 기능이나 내용이 큐레이션 과정을 포함하는 경우가 많다. 이것은 빅데이터의 특성상 모든 데이터를 한꺼번에 관찰하거나 시각화하기가 어려운 경우가 많아 보고자 하는 특성이나 구조만을 볼 수 있게끔 필터링, 재조직해야 하는데, 이 필터링과 재조직 과정이 큐레이션이 되는 경우가 많기 때문이다. 하지만, 보통 빅데이터 가시화의 필터링이나 재조직은 단일 종류의 빅데이터 가시화에서 특정한 조건을 만족하는 일부 데이터만 추려내는 것을 말하고, 큐레이션은 다양한 종류의 빅데이터를 동시에 써서 만든 가시화 내용을 사용자의 필요에 맞게 배치를 바꾸거나 데이터의 다양한 면을 보여주는 여러 가시화 결과를 특정한 관점에 따라 새롭게 배치, 정렬하여 보여주는 것을 말한다.

LHC 실험 데이터 활용의 가장 중요한 목적은 우선 검출기에서 일어난 이벤트들을 눈으로 직접 관찰하고, 이를 분석하는 과정을 자동화하는 것이다. 이를 위해 검출기의 각 검출 모듈로부터 측정된 수치 데이터를 모두 모아서 검출기 전체에서 일어난 이벤트로 재구성하여 보여주어야 한다. 그냥 데이터를 모아서 데이터 가시화 도구로 그려주면 되지 않냐고 단순하게 생각할 수 있겠지만, 그렇게 단순한 문제가 아니다. 현재 LHC 연구자들이 ROOT와 GEANT를 이용해 만드는 이벤트 데이터 가시화는 빅데이터 가시화 사례 중에서도 매우 복잡한 사례에 해당하고 가시화의 중요성을 잘 보여주는 사례에 해당한다. 왜 그런지 잘 생각해보자.

먼저, 데이터가 보여주려고 하고, 데이터를 통해 나타내려고 하는 입자물리학적인 현상들을 같이 생각해보자. 힉스와 관련된 입자물리학 현상들은 현재 수 펨토미터에서 수십 펨토미터 수준의 공간에서 일어나는 것으로 알려져 있다. (펨토미터는 10-18m를 말하는 것으로, 보통 잘 알려진 원자, 분자와 관련된 현상이 일어나고 최근 집적회로 소자 기술이 많이 개발되는 나노미터 단위 공간보다 10억 배 더 작은 길이의 척도다.) 펨토미터의 공간에서 일어나는 현상들은 사람들이 맨눈으로 관찰할 수 없기 때문에 관찰하기 위해서는 힉스를 포함한 근본 입자들이 물질과 일으키는 상호작용을 이용해 간접적으로 관찰해야 한다고 예전의 다섯번째 글에서 자세히 소개한 바 있다.

힉스를 포함한 근본 입자들이 나타나기 위해서는 고에너지 상태의 입자들이 상호작용하는 상태를 만들어야 하는데, 입자들이 이렇게 고에너지 상태에서 일으키는 이벤트들은 하나의 센서에 모든 정보를 다 담을 수 없다. 현재 입자들의 궤적을 추적하기 위한 검출 장치인 CMS 검출기의 트래커(tracker)만 해도 24,244개의 실리콘 스트립 센서 모듈로 구성되어 있다[2-3]. 이 24,244개의 실리콘 스트립 센서에서 검출하는 이벤트 정보는 전체 이벤트 정보 중에서 아주 작은 단편이기 때문에, CMS 검출기 내에서 일어나는 이벤트 전체를 재구성하기 위해서는 1,000노드 이상의 분산 컴퓨팅 시스템을 이용하는 복잡한 데이터 가공 가정을 거쳐야 한다. 고휘도 LHC(High-luminosity LHC; HL-LHC) 가속기 실험을 위해 이 CMS 검출기의 트래커가 현재의 3계층에서 4계층 검출기로 업그레이드되면 이 실리콘 스트립 센서 모듈의 수는 크게 늘어날 전망이다[4-6].



분석하려고 하는 대상인 입자물리학 현상은 사람이 맨눈으로 할 수 없는 아주 작은 스케일에서 일어난다는 점, 그리고, 이벤트 데이터를 하나의 센서로 수집할 수 있는 것이 아니라 많은 다양한 센서들의 값을 수집하여 실제 일어난 이벤트로 재구성해야 한다는 점, 재구성된 이벤트의 의미를 이해하고 분석하기 위해서는 검출기의 3차원 형상과 대비하여 이벤트가 일어난 위치에 맞게 가시화해야 된다는 점을 고려하여 LHC 실험 연구자들은 검출기의 이벤트 데이터 가시화를 위해 EVE라는 3차원 이벤트 가시화 소프트웨어 도구를 분석 플랫폼인 ROOT를 이용하여 만들었다. 그림 1은 EVE를 이용하여 ALICE 검출기에서 일어난 중이온빔의 충돌 이벤트를 가시화한 모습이다.

붉은색, 파란색, 노란색 등으로 표현된 3차원 모델들은 ALICE 검출기의 각 센서 모듈 하나를 표현한다. CMS 검출기와 같이 ALICE 검출기도 다양한 센서 모듈들이 고에너지 입자빔이 충돌하는 영역을 겹겹이 감싸는 식으로 설치, 통합되어 있기 때문에 그림의 가운데에 빔의 충돌 이벤트가 일어난 지점을 중심으로 센서의 3D 모델들이 겹겹이 감싸고 있는 것을 볼 수 있다. 파란색, 연두색, 빨간색, 노란색 등의 선과 점으로 표현된 것들이 실제 입자들이 상호작용하면서 일으킨 이벤트들을 가시화한 것이다. 각 이벤트에 대해 기록한 센서값들을 센서의 위치와 센서상에서 이벤트가 기록된 픽셀에 맞게 가시화 공간에 표현한 것이다.

위의 그림 1의 이벤트 데이터 가시화에서 각 이벤트들이 ALICE 검출기에서 어떤 모양으로, 어떤 위치에서, 어떤 궤적을 그렸는지를 한눈에 알아볼 수 있다. 그림 1에서 가시화된 이벤트들은 3D로 재구성된 이벤트 가시화가 없이 숫자와 추상적인 형식으로 저장된 각 센서 모듈의 데이터를 직접 눈으로 보아서는 절대로 얻을 수 없는 정보들을 제공하고 있음을 한눈에 알 수 있다.

힉스와 같은 새로운 입자를 찾아내기 위해서는 그림 1과 같이 실제 검출된 이벤트를 검출기의 3차원 모델과 함께 가시화해서 보여주는 것도 중요하지만, 각 이벤트가 어떤 입자나 상호작용 프로세스와 연관되어 있는지 메타데이터를 붙이고, 이 메타데이터에 따라 구분하여 표시하는 것도 중요하다. 지난 여섯 번째일곱 번째 글에서 이벤트 데이터 분석과정을 소개할 때, 이벤트 데이터 수집전에 미리 계산된 시뮬레이션 데이터와 실제 검출된 이벤트 데이터를 비교하여 각 이벤트를 구분하는 메타데이터를 이벤트 데이터 형식에 추가한다고 설명한 바 있다. 이와 같은 메타데이터가 없으면 각 이벤트를 분석하려는 상호작용에 따라 구분하여 표현할 수 없기 때문에 가시화하더라도 분석하기가 매우 어렵고 알아보기 힘들다.



그림 2는 GEANT4 시뮬레이션을 이용해 CMS 검출기에서 일어날 수 있는 이벤트들을 미리 정의된 실험 파라미터에 따라 시뮬레이션하여 가시화한 것이다. 시뮬레이션 데이터는 우리가 시뮬레이션의 파라미터를 완전하게 통제할 수 있기 때문에 실제 검출된 이벤트보다 훨씬 더 자세하고 풍부한 정보를 담을 수 있는 경우가 많아서 경우에 따라서는 실제 이벤트 데이터보다 더 크고 용량이 클 수 있다. 그림 2의 시뮬레이션 데이터를 보면 각 입자와 이벤트 모두가 완전하게 분류, 레이블링되어 표현되어 있음을 볼 수 있다.

메타데이터가 추가된 이벤트 데이터를 그림 1과 같이 가시화하여야 비로소 이벤트별로 어떤 상호작용에 의해 일어난 이벤트인지 구분하여 분석할 수 있어서 원하는 입자물리학적 데이터 분석이 가능하게 된다.

단순히 이벤트 데이터를 검출기 3차원 모델과 대비하여 가시화하여 분석하는 것 외에, 입자물리학 분석에서는 다양한 데이터 분석 방법이 쓰인다. 많은 과학 연구 분야와 마찬가지로, 앞에서 본 3차원의 복잡한 이벤트 데이터 가시화와 함께 검출기를 통해 측정된 입자의 에너지와 같은 다양한 물리학적 변수 간의 관계를 그래프와 차트를 통해 시각화하게 된다. 이렇게 그래프와 차트를 통해 표현된 물리학적 변수 간의 정량적 관계를 검출기를 통해 측정된 이벤트 데이터와 이벤트 시뮬레이션 가시화 결과와 함께 대조, 분석하여 힉스와 같은 새로운 입자를 찾아내게 된다.

이번에는 LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터 가시화의 사례를 한번 같이 살펴보도록 하자. LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터는 운영 지원 시스템(Operation Support System; OSS)의 빅데이터라고 볼 수 있다. 지난 열네번째 글에서 소개한 바와 같이 LHC 컴퓨팅 그리드(LHC Computing Grid)와 LHC 가속기, 검출기들의 모니터링 문제는 빅데이터의 양(Volume), 속도(Velocity), 다양성(Variety), 불확실성(Veracity)의 모든 조건을 만족시키는 다루기 어려운 빅데이터 문제다.

LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 정보 표현을 위한 다양한 아이디어들이 실험되고 고안되었는데, 이 글에서는 그중에서 두 가지 흥미로운 사례(GridMap, MonaLISA)만 살펴보기로 한다. 먼저 그리드 자원 운영에서 가장 어려운 문제였던 지역적으로 넓은 지역에 걸쳐 위치한 그리드 사이트 운영 상태를 시각적으로 표현한 GridMap이라 불리는 가시화 사례부터 살펴보도록 하자.

GridMap은 아래 그림 4와 같이 각 Tier-1, Tier-2 데이터센터의 규모에 비례하여 사각형의 크기를 표현하고, 각 사각형의 색깔로 각 그리드 데이터센터의 운영상태를 표현하는 가시화 방법이다. 얼핏 보기에는 단순해 보이지만, 그리드 자원 운영 데이터의 가시화 방법을 찾기 위해 LHC 연구자들이 얼마나 고심했는지 잘 보여주는 사례이기도 하다.
 


예전 여러 편의 기고([10-13])에서 소개한 것처럼, 각 Tier-1, Tier-2 데이터센터의 그리드 컴퓨팅 자원은 복잡한 분산 컴퓨팅 시스템이어서 각 데이터센터의 자원을 모니터링하는 것 자체가 벌써 만만찮은 규모의 일이다. 특히, 어느 한 Tier-1 데이터센터의 그리드 운영에 문제가 생기면 많은 Tier-2 데이터센터의 이벤트 데이터 분석에 문제가 생기고 LHC 실험 데이터 분석 과정에 많은 지연이 생기게 된다. Tier-1 데이터센터는 CERN의 검출기 고수준 트리거 장치(high-level trigger)에서 가공된 데이터를 받아 대규모 분석과 가공을 수행하고 가공된 이벤트 데이터를 Tier-2 데이터센터에 다시 분배하는 중요한 역할을 하고 있기 때문이다. 이 때문에 Tier-1 데이터센터의 자원과 서비스 상태를 효과적으로 신속하게 모니터링하는 것은 특히 중요한 문제였다.

먼저, 그리드 데이터센터 운영 상태를 대표적으로 표현하는 방법을 찾기가 쉽지 않았다. 각 그리드 컴퓨팅 사이트별로 모니터링하고 관리해야 하는 자원이 몇백대에서 몇천대의 서버와 스토리지, 그리고 네트워크 장비에 이르는데, 이들 장비의 상태 각각을 모니터링해야 할 뿐 아니라, 이들 장비에서 운영되는 LHC 컴퓨팅 그리드 미들웨어 서비스들의 운영 상태까지 모두 파악하여 점검해야 전체 그리드 컴퓨팅 사이트의 서비스 상태를 하나의 상태로 표현할 수 있게 된다.

각 그리드 컴퓨팅 데이터센터별로 Tier-1이냐, Tier-2냐에 따라 만족해야 하는 서비스 수준 계약(Service Level Agreement; SLA)에 관련된 자원 운영 상태를 모니터링할 수 있게 모니터링 정보를 어떻게 조직하고 표현할 것이냐 하는 것도 매우 골치 아픈 문제였다.

GridMap 모니터링에서는 이렇게 각 그리드 컴퓨팅 데이터센터와 그리드 컴퓨팅 서비스의 다양한 측면, 서버, 스토리지, 네트워크 및 그리드 미들웨어 서비스의 운영 상태와 SLA 만족 상황 등의 다양한 변수를 고려하여 서비스 가용성(availability) 및 신뢰성(reliability)를 측정하고, 이를 “정상 운영(OK)”, “품질 저하(Degraded)”, “서비스 중단(Down)”의 상태로 나누어 대표적으로 표현한다. 그리드 데이터센터의 자원 규모에 비례하여 사각형의 크기를 결정하여 그리드 데이터센터의 자원 운영 규모도 한눈에 파악할 수 있도록 하였다.



GridMap은 계층적으로 모니터링 정보를 조직해 놓았기 때문에, 각 그리드 데이터센터에 해당하는 사각형에 마우스 커서를 위치시키면 그리드 자원과 서비스의 상태를 요약해서 보여주고, 각 사각형을 클릭하면 해당 그리드 데이터센터의 서비스 가용성 모니터링 화면으로 전환하여 그리드 데이터센터의 컴퓨팅 및 스토리지, 네트워크 자원과 그리드 미들웨어 서비스 운영 상황을 자세하게 살펴볼 수 있다.

GridMap 모니터링 가시화를 통해서 그리드 컴퓨팅 시스템 모니터링을 LHC 컴퓨팅 그리드의 운영자들이 한결 수월하게 할 수 있게 되었다. 전체 그리드 컴퓨팅 자원의 상태를 각 그리드 데이터센터별로 한눈에 파악할 수 있을 뿐만 아니라, 계층적으로 조직된 모니터링 정보를 통해 각 그리드 데이터센터별 자원 운영의 문제점을 손쉽게 추적해 들어가 문제를 확인할 수 있다.



다음은 그리드 컴퓨팅 초반부터 많이 쓰인 MonALISA라는 모니터링 시스템을 같이 살펴보도록 하자. MonALISA는 LHC 가속기의 ALICE 검출기 데이터 분석에 참여하는 그리드 자원 모니터링을 위해 만든 모니터링 도구였지만, 지금은 모든 LHC 컴퓨팅 그리드 데이터센터 운영에서 같이 쓰이고 있다.

 


X