김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (4)

CIO KR

LHC 실험 데이터 분석에서의 데이터 가시화 – 이벤트 및 모니터링 데이터
LHC 실험에서 사용되는 데이터 가시화 방법을 같이 살펴보면서 빅데이터를 활용할 때 데이터 가시화와 큐레이션이 왜 중요한지 같이 생각해보자.

먼저, 데이터 가시화와 큐레이션이 무엇이고 어떤 차이가 있는지 같이 생각해보자. 데이터 가시화란 말 그대로 데이터의 특성과 구조를 사람이 편리하게 관찰할 수 있도록 기호화된 데이터들을 재조직하고 가공해서 새롭게 표현한 것을 말한다. 빅데이터의 큐레이션이란 빅데이터 중에서 현재 사용하고자 하는 목적과 용도에 맞게 빅데이터 일부를 추려내고 재배치하여 빅데이터가 가진 특정한 측면과 특성이 잘 드러나도록 빅데이터를 선별하고 표현을 바꾸는 것을 말한다.

가시화와 큐레이션은 엄연히 다른 개념이지만, 실제로 빅데이터를 가시화할 때에는 가시화 기능이나 내용이 큐레이션 과정을 포함하는 경우가 많다. 이것은 빅데이터의 특성상 모든 데이터를 한꺼번에 관찰하거나 시각화하기가 어려운 경우가 많아 보고자 하는 특성이나 구조만을 볼 수 있게끔 필터링, 재조직해야 하는데, 이 필터링과 재조직 과정이 큐레이션이 되는 경우가 많기 때문이다. 하지만, 보통 빅데이터 가시화의 필터링이나 재조직은 단일 종류의 빅데이터 가시화에서 특정한 조건을 만족하는 일부 데이터만 추려내는 것을 말하고, 큐레이션은 다양한 종류의 빅데이터를 동시에 써서 만든 가시화 내용을 사용자의 필요에 맞게 배치를 바꾸거나 데이터의 다양한 면을 보여주는 여러 가시화 결과를 특정한 관점에 따라 새롭게 배치, 정렬하여 보여주는 것을 말한다.

LHC 실험 데이터 활용의 가장 중요한 목적은 우선 검출기에서 일어난 이벤트들을 눈으로 직접 관찰하고, 이를 분석하는 과정을 자동화하는 것이다. 이를 위해 검출기의 각 검출 모듈로부터 측정된 수치 데이터를 모두 모아서 검출기 전체에서 일어난 이벤트로 재구성하여 보여주어야 한다. 그냥 데이터를 모아서 데이터 가시화 도구로 그려주면 되지 않냐고 단순하게 생각할 수 있겠지만, 그렇게 단순한 문제가 아니다. 현재 LHC 연구자들이 ROOT와 GEANT를 이용해 만드는 이벤트 데이터 가시화는 빅데이터 가시화 사례 중에서도 매우 복잡한 사례에 해당하고 가시화의 중요성을 잘 보여주는 사례에 해당한다. 왜 그런지 잘 생각해보자.

먼저, 데이터가 보여주려고 하고, 데이터를 통해 나타내려고 하는 입자물리학적인 현상들을 같이 생각해보자. 힉스와 관련된 입자물리학 현상들은 현재 수 펨토미터에서 수십 펨토미터 수준의 공간에서 일어나는 것으로 알려져 있다. (펨토미터는 10-18m를 말하는 것으로, 보통 잘 알려진 원자, 분자와 관련된 현상이 일어나고 최근 집적회로 소자 기술이 많이 개발되는 나노미터 단위 공간보다 10억 배 더 작은 길이의 척도다.) 펨토미터의 공간에서 일어나는 현상들은 사람들이 맨눈으로 관찰할 수 없기 때문에 관찰하기 위해서는 힉스를 포함한 근본 입자들이 물질과 일으키는 상호작용을 이용해 간접적으로 관찰해야 한다고 예전의 다섯번째 글에서 자세히 소개한 바 있다.

힉스를 포함한 근본 입자들이 나타나기 위해서는 고에너지 상태의 입자들이 상호작용하는 상태를 만들어야 하는데, 입자들이 이렇게 고에너지 상태에서 일으키는 이벤트들은 하나의 센서에 모든 정보를 다 담을 수 없다. 현재 입자들의 궤적을 추적하기 위한 검출 장치인 CMS 검출기의 트래커(tracker)만 해도 24,244개의 실리콘 스트립 센서 모듈로 구성되어 있다[2-3]. 이 24,244개의 실리콘 스트립 센서에서 검출하는 이벤트 정보는 전체 이벤트 정보 중에서 아주 작은 단편이기 때문에, CMS 검출기 내에서 일어나는 이벤트 전체를 재구성하기 위해서는 1,000노드 이상의 분산 컴퓨팅 시스템을 이용하는 복잡한 데이터 가공 가정을 거쳐야 한다. 고휘도 LHC(High-luminosity LHC; HL-LHC) 가속기 실험을 위해 이 CMS 검출기의 트래커가 현재의 3계층에서 4계층 검출기로 업그레이드되면 이 실리콘 스트립 센서 모듈의 수는 크게 늘어날 전망이다[4-6].



분석하려고 하는 대상인 입자물리학 현상은 사람이 맨눈으로 할 수 없는 아주 작은 스케일에서 일어난다는 점, 그리고, 이벤트 데이터를 하나의 센서로 수집할 수 있는 것이 아니라 많은 다양한 센서들의 값을 수집하여 실제 일어난 이벤트로 재구성해야 한다는 점, 재구성된 이벤트의 의미를 이해하고 분석하기 위해서는 검출기의 3차원 형상과 대비하여 이벤트가 일어난 위치에 맞게 가시화해야 된다는 점을 고려하여 LHC 실험 연구자들은 검출기의 이벤트 데이터 가시화를 위해 EVE라는 3차원 이벤트 가시화 소프트웨어 도구를 분석 플랫폼인 ROOT를 이용하여 만들었다. 그림 1은 EVE를 이용하여 ALICE 검출기에서 일어난 중이온빔의 충돌 이벤트를 가시화한 모습이다.

붉은색, 파란색, 노란색 등으로 표현된 3차원 모델들은 ALICE 검출기의 각 센서 모듈 하나를 표현한다. CMS 검출기와 같이 ALICE 검출기도 다양한 센서 모듈들이 고에너지 입자빔이 충돌하는 영역을 겹겹이 감싸는 식으로 설치, 통합되어 있기 때문에 그림의 가운데에 빔의 충돌 이벤트가 일어난 지점을 중심으로 센서의 3D 모델들이 겹겹이 감싸고 있는 것을 볼 수 있다. 파란색, 연두색, 빨간색, 노란색 등의 선과 점으로 표현된 것들이 실제 입자들이 상호작용하면서 일으킨 이벤트들을 가시화한 것이다. 각 이벤트에 대해 기록한 센서값들을 센서의 위치와 센서상에서 이벤트가 기록된 픽셀에 맞게 가시화 공간에 표현한 것이다.

위의 그림 1의 이벤트 데이터 가시화에서 각 이벤트들이 ALICE 검출기에서 어떤 모양으로, 어떤 위치에서, 어떤 궤적을 그렸는지를 한눈에 알아볼 수 있다. 그림 1에서 가시화된 이벤트들은 3D로 재구성된 이벤트 가시화가 없이 숫자와 추상적인 형식으로 저장된 각 센서 모듈의 데이터를 직접 눈으로 보아서는 절대로 얻을 수 없는 정보들을 제공하고 있음을 한눈에 알 수 있다.

힉스와 같은 새로운 입자를 찾아내기 위해서는 그림 1과 같이 실제 검출된 이벤트를 검출기의 3차원 모델과 함께 가시화해서 보여주는 것도 중요하지만, 각 이벤트가 어떤 입자나 상호작용 프로세스와 연관되어 있는지 메타데이터를 붙이고, 이 메타데이터에 따라 구분하여 표시하는 것도 중요하다. 지난 여섯 번째일곱 번째 글에서 이벤트 데이터 분석과정을 소개할 때, 이벤트 데이터 수집전에 미리 계산된 시뮬레이션 데이터와 실제 검출된 이벤트 데이터를 비교하여 각 이벤트를 구분하는 메타데이터를 이벤트 데이터 형식에 추가한다고 설명한 바 있다. 이와 같은 메타데이터가 없으면 각 이벤트를 분석하려는 상호작용에 따라 구분하여 표현할 수 없기 때문에 가시화하더라도 분석하기가 매우 어렵고 알아보기 힘들다.



그림 2는 GEANT4 시뮬레이션을 이용해 CMS 검출기에서 일어날 수 있는 이벤트들을 미리 정의된 실험 파라미터에 따라 시뮬레이션하여 가시화한 것이다. 시뮬레이션 데이터는 우리가 시뮬레이션의 파라미터를 완전하게 통제할 수 있기 때문에 실제 검출된 이벤트보다 훨씬 더 자세하고 풍부한 정보를 담을 수 있는 경우가 많아서 경우에 따라서는 실제 이벤트 데이터보다 더 크고 용량이 클 수 있다. 그림 2의 시뮬레이션 데이터를 보면 각 입자와 이벤트 모두가 완전하게 분류, 레이블링되어 표현되어 있음을 볼 수 있다.

메타데이터가 추가된 이벤트 데이터를 그림 1과 같이 가시화하여야 비로소 이벤트별로 어떤 상호작용에 의해 일어난 이벤트인지 구분하여 분석할 수 있어서 원하는 입자물리학적 데이터 분석이 가능하게 된다.

단순히 이벤트 데이터를 검출기 3차원 모델과 대비하여 가시화하여 분석하는 것 외에, 입자물리학 분석에서는 다양한 데이터 분석 방법이 쓰인다. 많은 과학 연구 분야와 마찬가지로, 앞에서 본 3차원의 복잡한 이벤트 데이터 가시화와 함께 검출기를 통해 측정된 입자의 에너지와 같은 다양한 물리학적 변수 간의 관계를 그래프와 차트를 통해 시각화하게 된다. 이렇게 그래프와 차트를 통해 표현된 물리학적 변수 간의 정량적 관계를 검출기를 통해 측정된 이벤트 데이터와 이벤트 시뮬레이션 가시화 결과와 함께 대조, 분석하여 힉스와 같은 새로운 입자를 찾아내게 된다.

이번에는 LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터 가시화의 사례를 한번 같이 살펴보도록 하자. LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터는 운영 지원 시스템(Operation Support System; OSS)의 빅데이터라고 볼 수 있다. 지난 열네번째 글에서 소개한 바와 같이 LHC 컴퓨팅 그리드(LHC Computing Grid)와 LHC 가속기, 검출기들의 모니터링 문제는 빅데이터의 양(Volume), 속도(Velocity), 다양성(Variety), 불확실성(Veracity)의 모든 조건을 만족시키는 다루기 어려운 빅데이터 문제다.

LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 정보 표현을 위한 다양한 아이디어들이 실험되고 고안되었는데, 이 글에서는 그중에서 두 가지 흥미로운 사례(GridMap, MonaLISA)만 살펴보기로 한다. 먼저 그리드 자원 운영에서 가장 어려운 문제였던 지역적으로 넓은 지역에 걸쳐 위치한 그리드 사이트 운영 상태를 시각적으로 표현한 GridMap이라 불리는 가시화 사례부터 살펴보도록 하자.

GridMap은 아래 그림 4와 같이 각 Tier-1, Tier-2 데이터센터의 규모에 비례하여 사각형의 크기를 표현하고, 각 사각형의 색깔로 각 그리드 데이터센터의 운영상태를 표현하는 가시화 방법이다. 얼핏 보기에는 단순해 보이지만, 그리드 자원 운영 데이터의 가시화 방법을 찾기 위해 LHC 연구자들이 얼마나 고심했는지 잘 보여주는 사례이기도 하다.
 

---------------------------------------------------------------
김진철 칼럼 인기기사
-> 김진철의 How-to-Big Data | 연재를 시작하며
-> 김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)
---------------------------------------------------------------

예전 여러 편의 기고([10-13])에서 소개한 것처럼, 각 Tier-1, Tier-2 데이터센터의 그리드 컴퓨팅 자원은 복잡한 분산 컴퓨팅 시스템이어서 각 데이터센터의 자원을 모니터링하는 것 자체가 벌써 만만찮은 규모의 일이다. 특히, 어느 한 Tier-1 데이터센터의 그리드 운영에 문제가 생기면 많은 Tier-2 데이터센터의 이벤트 데이터 분석에 문제가 생기고 LHC 실험 데이터 분석 과정에 많은 지연이 생기게 된다. Tier-1 데이터센터는 CERN의 검출기 고수준 트리거 장치(high-level trigger)에서 가공된 데이터를 받아 대규모 분석과 가공을 수행하고 가공된 이벤트 데이터를 Tier-2 데이터센터에 다시 분배하는 중요한 역할을 하고 있기 때문이다. 이 때문에 Tier-1 데이터센터의 자원과 서비스 상태를 효과적으로 신속하게 모니터링하는 것은 특히 중요한 문제였다.

먼저, 그리드 데이터센터 운영 상태를 대표적으로 표현하는 방법을 찾기가 쉽지 않았다. 각 그리드 컴퓨팅 사이트별로 모니터링하고 관리해야 하는 자원이 몇백대에서 몇천대의 서버와 스토리지, 그리고 네트워크 장비에 이르는데, 이들 장비의 상태 각각을 모니터링해야 할 뿐 아니라, 이들 장비에서 운영되는 LHC 컴퓨팅 그리드 미들웨어 서비스들의 운영 상태까지 모두 파악하여 점검해야 전체 그리드 컴퓨팅 사이트의 서비스 상태를 하나의 상태로 표현할 수 있게 된다.

각 그리드 컴퓨팅 데이터센터별로 Tier-1이냐, Tier-2냐에 따라 만족해야 하는 서비스 수준 계약(Service Level Agreement; SLA)에 관련된 자원 운영 상태를 모니터링할 수 있게 모니터링 정보를 어떻게 조직하고 표현할 것이냐 하는 것도 매우 골치 아픈 문제였다.

GridMap 모니터링에서는 이렇게 각 그리드 컴퓨팅 데이터센터와 그리드 컴퓨팅 서비스의 다양한 측면, 서버, 스토리지, 네트워크 및 그리드 미들웨어 서비스의 운영 상태와 SLA 만족 상황 등의 다양한 변수를 고려하여 서비스 가용성(availability) 및 신뢰성(reliability)를 측정하고, 이를 “정상 운영(OK)”, “품질 저하(Degraded)”, “서비스 중단(Down)”의 상태로 나누어 대표적으로 표현한다. 그리드 데이터센터의 자원 규모에 비례하여 사각형의 크기를 결정하여 그리드 데이터센터의 자원 운영 규모도 한눈에 파악할 수 있도록 하였다.



GridMap은 계층적으로 모니터링 정보를 조직해 놓았기 때문에, 각 그리드 데이터센터에 해당하는 사각형에 마우스 커서를 위치시키면 그리드 자원과 서비스의 상태를 요약해서 보여주고, 각 사각형을 클릭하면 해당 그리드 데이터센터의 서비스 가용성 모니터링 화면으로 전환하여 그리드 데이터센터의 컴퓨팅 및 스토리지, 네트워크 자원과 그리드 미들웨어 서비스 운영 상황을 자세하게 살펴볼 수 있다.

GridMap 모니터링 가시화를 통해서 그리드 컴퓨팅 시스템 모니터링을 LHC 컴퓨팅 그리드의 운영자들이 한결 수월하게 할 수 있게 되었다. 전체 그리드 컴퓨팅 자원의 상태를 각 그리드 데이터센터별로 한눈에 파악할 수 있을 뿐만 아니라, 계층적으로 조직된 모니터링 정보를 통해 각 그리드 데이터센터별 자원 운영의 문제점을 손쉽게 추적해 들어가 문제를 확인할 수 있다.



다음은 그리드 컴퓨팅 초반부터 많이 쓰인 MonALISA라는 모니터링 시스템을 같이 살펴보도록 하자. MonALISA는 LHC 가속기의 ALICE 검출기 데이터 분석에 참여하는 그리드 자원 모니터링을 위해 만든 모니터링 도구였지만, 지금은 모든 LHC 컴퓨팅 그리드 데이터센터 운영에서 같이 쓰이고 있다.

 


아래 그림 5와 같이 MonALISA의 가장 큰 특징은 Google Map에 각 그리드 데이터센터의 위치와 자원 운영 상태가 같이 표현된다는 것이다. 자원 운영 상태가 지도와 함께 표현된 주 모니터링 가시화 영역의 옆에는 모니터링 항목을 계층적으로 탐색하면서 선택할 수 있는 트리 구조의 메뉴가 있다. 이 트리 구조의 메뉴를 이용해 MonALISA 사용자는 자신이 모니터링하고자 하는 정보를 선택해서 각 그리드 데이터센터의 위치에 대조해서 관찰할 수 있다. 왼쪽 아래에는 실행되는 작업의 수가 게이지로 간단하게 표현되어 있어서 현재 전체 LHC 컴퓨팅 그리드의 작업 실행 부하가 어느 정도 되는지 간편하게 파악할 수 있다.



MonALISA에서 처음 시도된 Google Map을 이용한 그리드 자원 모니터링에서 아이디어를 얻어서, LHC 컴퓨팅 그리드 모니터링 시스템을 개발하는 CERN의 IT부서 개발팀은 그림 6과 같이 구글 어스(Google Earth)에 각 그리드 데이터센터의 위치와 서비스 가용성 상태, 그리고 네트워크 사용 현황을 같이 표현한 입체적인 모니터링 가시화를 개발했다. 이 구글 어스 기반의 모니터링은 구글 어스의 플러그인 기술 형식인 KLM 형식으로 제공되어 구글 어스를 사용하는 사람은 누구나 쉽게 설치해서 정보를 살펴볼 수 있다. (궁금한 독자는 직접 설치해서 확인해볼 수 있다. 구글 어스 WLCG 대시보드 KLM 파일을 http://dashb-earth.cern.ch/dashboard/dashb-earth-all.kmz에서 다운로드 받아 구글 어스의 “추가(A)  네트워크 링크”에 추가하면 된다.)

구글 어스의 독특한 지구본 스타일의 3D지도와 상호작용하여 각 데이터센터의 위치와 함께 자원 및 서비스 가용성 상태를 한 눈에 볼 수 있으며, 전 세계 그리드 데이터센터 간 데이터 전송 현황 및 네트워크의 부하도 한눈에 볼 수 있다. 이렇게 구글 어스를 이용해 전 세계 그리드 데이터센터의 서비스 가용성 정보와 네트워크 상황을 한눈에 볼 수 있게 한 WLCG 모니터링 시스템은 전세계적으로 흩어져 있는 LHC 컴퓨팅 그리드 자원, 서비스의 통합과 운영 품질을 높이는 데 크게 기여하였다.



LHC 실험 빅데이터 처리를 위해 LHC 실험 연구자들이 고민했던 데이터 가시화 사례와 방법론을 살펴보았다. 여기서 우리는 빅데이터 자체를 효과적으로 분석하고 탐색하는 가시화 방법과 시스템뿐만 아니라, 빅데이터 시스템 자체에 대한 가시화 방법과 시스템도 체계적이고 창의적으로 만들어야 한다는 것을 알 수 있다. LHC 가속기가 고휘도 LHC(High-Luminosity LHC)로 업그레이드되면 현재 생산되는 데이터보다 훨씬 더 많은 데이터가 나올 것이 예상되어, LHC 빅데이터의 가시화 방법과 이를 위한 연산 방법도 새로운 컴퓨팅 아키텍처를 이용해서 계속 연구되어야 할 것으로 보인다.

빅데이터 – 가시화와 큐레이션의 중요성
빅데이터를 활용할 때 가시화와 큐레이션이 중요한 것은 다음과 같은 이유 때문이다. 첫번째로, 빅데이터 처리와 분석을 위한 컴퓨팅 자원의 양에 언제나 제약이 있기 때문에 모든 빅데이터를 한 번에 보거나 다룰 수 없기 때문이다. 두번째로, 인간의 두뇌가 가진 정보처리 용량도 제한이 있기 때문에 한 번에 볼 수 있거나 다룰 수 있는 데이터의 양에 제한이 있기 때문이다. 세번째로, 데이터 그 자체는 현실이 아니라 현실을 반영하는 추상적인 상징(symbol)에 불과한데, 이렇게 수집과 관찰의 대상이 되는 현실 세계를 추상화하여 데이터로 표현한 맥락과 그 의미를 효과적으로 전달하는 과정 자체가 또한 매우 추상적이기 때문에 직관적으로 데이터의 의미와 맥락을 이해하기 어렵기 때문이다. 위와 같은 이유로, 인간 두뇌로 전달되는 정보량의 90% 이상을 차지하는 시각을 이용해서 데이터를 표현하는 것은 데이터의 의미와 맥락을 빠른 시간에 파악하기 위해 매우 중요한 일이다.

빅데이터를 가시화하고 큐레이션할 때 생각해야 할 것들을 앞에서 살펴본 LHC 컴퓨팅 그리드의 이벤트 데이터와 모니터링 데이터 가시화 사례에서 얻은 교훈을 바탕으로 같이 생각해보자.

먼저 데이터 가시화를 효과적으로 하기 위해서는 데이터의 구조와 특성에 대해 이해해야 한다. 이 문제는 쉬울 수도 있고 어려울 수도 있다. LHC 이벤트 데이터와 같이 현상의 어떤 측면을 볼지 알고, 입자물리학 현상을 기술하는 양자장론과 같이 데이터의 의미와 구조를 설명, 해석할 때 사용할 수 있는 사고 체계나 이론이 있어 데이터의 구조와 의미를 이해하고 있는 경우에는 가시화를 어떻게 할지 알아내기가 상대적으로 쉽다. 하지만, 탐색적인 데이터 분석, 마이닝을 통해 데이터의 의미를 찾아내야 하는 경우는 데이터의 구조나 의미를 사전에 알지 못하기 때문에 데이터의 의미를 쉽게 전달하는 가시화 방법을 찾아내기까지 많은 시행착오와 노력이 필요할 수 있다.

두번째로, 데이터가 활용되는 용도에 맞게 가시화되어야 한다. 앞에서 설명한 ALICE 검출기 이벤트 데이터의 경우에, 각 이벤트가 어떤 입자 간의 상호 작용에 의해 생긴 이벤트인지 쉽게 찾을 수 있고, 이벤트의 물리량을 쉽게 계산하고 분석할 수 있는 형태로 가시화가 되어야 했다. 이 때문에, 검출기의 3차원 모델에 대비하여 이벤트 데이터를 가시화해서 보여줄 필요가 있었고, 이벤트별로 시뮬레이션 데이터와 비교하여 대응된 물리학적 메타데이터에 따라 구분되어 가시화될 필요가 있었다.

이벤트 데이터의 경우, 표준 모형에 따른 입자물리학 현상학 이론에 따라 데이터 구조와 형식이 미리 정의되어 있어서 이벤트 자체를 가시화하는 방법을 찾아내는 것은 상대적으로 쉬웠다. 표준 모형으로 예측된 새로운 입자들을 발견하는 것과 함께 초대칭성, 현상론이나 표준 모형을 넘어선 입자물리학적 현상들의 미세한 신호를 포착하기 위해서는 가시화된 이벤트 데이터를 연구자가 상호작용하면서 연구자의 분석 목적에 맞게 다양한 측면에서 데이터를 관찰할 수 있어야 했다. 이런 이유로 이벤트 데이터는 사용자의 마우스 동작에 따라 다양한 방향에서 관찰할 수 있도록 분석 프레임워크인 ROOT와 이벤트 가시화 모듈인 EVE를 이용해 연구자와 상호작용이 가능한 가시화 모델로서 만들어졌다.

앞에서 두번째로 살펴본 데이터 가시화 사례인 LHC 컴퓨팅 그리드의 모니터링 데이터 가시화의 경우에는 LHC 컴퓨팅 그리드를 운영하는 과정에서 문제가 생겼을 때 쉽게 포착하고 문제의 원인을 신속하게 추적해 들어갈 수 있도록 데이터 가시화가 되어야 했다. 이 때문에, 우선 모니터링 가시화 정보가 그 수준에 따라 계층적으로 조직되어 있어야 했고, 이런 계층적 정보 구조에 따른 표현 수준에 맞게 데이터 가시화가 되어야 했다. GridMap과 MonALISA 등의 모니터링 시스템에서 각 그리드 데이터센터 서비스 및 자원의 대표 상태를 하나의 지표로 먼저 표현해 가시화하고, 문제가 있는 그리드 데이터센터의 서비스와 자원에 세부 상태를 차츰 접근해 들어가 조사할 수 있도록 모니터링 가시화를 표현한 것은 모니터링 시스템의 목적이 전체 시스템의 문제와 그 원인을 신속하게 찾아낼 수 있어야 하기 때문이다.

이번에는 빅데이터 큐레이션을 위해 생각해야 할 것들을 역시 앞에서 살펴본 LHC 컴퓨팅 그리드의 사례를 되새기면서 같이 생각해보자.

앞서 설명한 바와 같이 인간의 두뇌가 가진 정보처리 용량의 제한과 빅데이터를 다룰 때 쓰는 컴퓨팅 시스템 자원의 한계 때문에 사람이 한 번에 볼 수 있는 정보의 양은 제한되어 있다. 빅데이터의 경우 데이터의 양이 커지거나 데이터 소스의 종류가 다양해져서 데이터가 이루는 상태 공간(configuration space)의 차원이 높아지게 되면 빅데이터의 모든 정보를 한 번에 볼 수 없기 때문에, 데이터 분석의 우선순위와 필요에 맞게 빅데이터를 보는 특정한 시점만을 부각시키는 큐레이션 과정이 필요하다.

첫번째로, 앞서 빅데이터 가시화를 위해서는 데이터의 구조와 맥락을 이해하는 과정이 필요하다고 했는데, 이것은 큐레이션 과정에서도 똑같이 적용된다. 데이터 과학자가 분석해서 파악하려고 하는 의미와 맥락에 맞게 데이터 표현과 범위가 결정되어야 하기 때문에, 빅데이터에서 어떤 측면의 정보를 추출할 것인지, 어떤 정보를 먼저 볼 것인지, 볼 정보들을 어떤 과정을 통해 관찰하고 분석할 것인지를 사전에 잘 고려하고 디자인하는 것이 좋다.

두번째로 빅데이터 큐레이션 시스템을 개발, 구축할 때 생각해야 할 것은 빅데이터를 큐레이션하는 과정이 또 하나의 빅데이터 처리, 가공 과정이 되어 때에 따라서는 빅데이터 큐레이션을 위한 빅데이터 처리 자원이 필요할 수 있다는 것이다. 큐레이션된 빅데이터와 사용자 간의 상호작용이나 응답성 요구사항에 따라 이에 맞게 제한된 시간 안에 빅데이터 처리를 해낼 수 있는 큐레이션 로직을 개발할 수 있는 하둡이나 스파, 또는 고성능 인메모리 컴퓨팅 빅데이터 기술을 선택해서 사용하는 것이 필요하게 된다.

대개의 경우 가시화 자체가 큐레이션을 포함하고 있는 경우가 많고, 큐레이션하는 과정에서 여러 가지 종류의 복잡한 가시화를 하는 경우가 많다. 이렇게 되면 가시화와 큐레이션을 위한 데이터를 가공하는 과정뿐만 아니라, 가공된 데이터 자체가 또 하나의 빅데이터가 되어서 가시화와 큐레이션을 위해 데이터를 보여주는 것만도 많은 컴퓨팅 자원을 필요로 하는 빅데이터 처리 과정이 될 수 있다. 이런 경우의 한 예로 요즘 많이 관심을 받고 있는 시간에 따른 대상(유체, 의료 영상, 기상 데이터, 3차원 상품 모델 등)의 변화를 3차원으로 같이 표현하는 4D 가시화나 AR/VR을 이용한 가시화와 큐레이션을 들 수 있다.

이렇게 가시화와 큐레이션을 위한 데이터 자체가 또 하나의 빅데이터가 되면 데이터를 가시화하고 큐레이션하기 위해 병렬 시각화(parallel visualization)와 렌더링(parallel rendering)과 같은 고급 데이터 가시화 기술이 필요할 수 있다. 되도록 가시화를 통해 표현할 정보와 데이터의 양을 줄여서 가시화 시스템을 위한 비용과 노력을 줄이는 것이 좋지만, 가시화하고 큐레이션할 데이터와 정보가 나누기 어려운 하나의 전체로 홀리스틱(holistic)하게 다뤄야 할 경우에는 어쩔 수 없이 고급 데이터 가시화 시스템과 기술을 동원할 수밖에 없다.

세번째로 위와 같은 측면을 고려하여 빅데이터 가시화, 큐레이션 시스템이 디자인, 구축되면 기존의 비즈니스 지원 시스템(BSS), 운영 지원 시스템(OSS)과 효과적으로 통합되어 비즈니스 수행과 운영 지원에 적절하게 활용되어야 한다. 빅데이터 가시화 및 큐레이션 시스템은 결국 비즈니스 및 조직 운영의 의사 결정을 신속하고 정확하게 할 수 있도록 돕는 시스템이다. 비즈니스 및 조직 운영 의사 결정을 신속하게 하도록 하기 위해서는 비즈니스 지원 시스템과 운영 지원 시스템의 일부로서 빅데이터 가시화 및 큐레이션 시스템이 이음매 없이(seamlessly) 녹아들어 있어야 한다.

네번째로, IoT 등을 통해 수집된 복잡한 비즈니스 데이터의 구조와 의미를 처음부터 완벽하게 파악할 수 없고, 이런 이유로 빅데이터 가시화 및 큐레이션 시스템의 요구사항을 모두 완벽하게 파악하여 가시화 및 큐레이션 시스템을 설계할 수 있는 경우는 거의 없다. 이 때문에, 데이터 과학자와 데이터 과학팀의 데이터 분석 결과가 신속하게 비즈니스 지원 시스템과 운영 지원 시스템으로 통합될 수 있도록 모듈화되고 확장성 있는 아키텍처를 가진 빅데이터 가시화 및 큐레이션 시스템을 선택하고 설계, 구축하는 것이 중요하다.

특히 데이터 과학자와 데이터 과학팀이 탐색적 데이터 분석을 통해 데이터 기반의 새로운 비즈니스 기회를 뒷받침할 수 있는 분석 결과를 얻었을 경우, 이러한 데이터를 활용한 새로운 비즈니스 기회가 신속하고 적절한 시점에 실행되어 비즈니스 성과로 이어질 수 있도록 분석과정에서 사용된 데이터 가시화 방법과 큐레이션된 비즈니스 정보들이 기존의 비즈니스 지원 시스템과 운영 지원 시스템에 재빠르게 적용되어 모니터링될 수 있어야 한다. 이렇게 데이터 분석에 사용된 분석 자산과 가시화 자산들이 비즈니스 지원 시스템과 운영 지원 시스템의 모니터링 가시화, 큐레이션 요소로 손쉽게 추가 통합될 수 있는 확장성 있는 빅데이터 비즈니스 시스템을 고려하는 것이 좋다.

마지막으로, 적절하게 가시화되고 큐레이션된 빅데이터는 조직 구성원들의 빅데이터 소비와 활용을 촉진하는 역할을 하기도 한다. 빅데이터를 막 도입하기 시작한 조직이나 기업에서 흔히 부딪히는 문제인 조직적인 저항과 무관심이 적절하게 갖추어진 빅데이터 가시화, 큐레이션 시스템과 활용 사례를 통해서 극복될 수도 있다.

조직 구성원들이 가시화, 큐레이션된 정보를 각 업무 영역에서 손쉽게 인용하고 활용할 수 있도록 가시화, 큐레이션된 정보의 유통 체계를 조직 내에서 갖출 수 있으면 데이터 기반 비즈니스 문화를 조직에 퍼트리는 데 도움이 될 수 있다. 이렇게 조직 내에 데이터 기반 의사 결정의 비즈니스 문화를 전파하고 정착시키기 위한 도구로서도 빅데이터 가시화, 큐레이션 시스템을 디자인하고 구축하는 것도 적극적으로 검토해볼 만 하다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Manfred Krammer, “The silicon sensors for the Inner Tracker of the Compact Muon Solenoid experiment,” Nuclear Instruments and Methods in Physics Research A V.531, p. 238–245, 2004.
[3] Manfred Krammer, “Operation and Performance of the CMS Silicon Tracker,” http://www.hephy.at/fileadmin/user_upload/Publikationen/Alushta-Krammer.pdf .
[4] The CMS Collaboration, CMS Tracker - Technical Design Report, CERN/LHCC 98-6, CMS TDR 5, 15 April 1998.
[5] The CMS Collaboration, Addendum to the CMS Tracker TDR, CERN/LHCC 2000-016, CMS TDR 5 Addendum 1, 21 February 2000.
[6] The CMS Collaboration, The Phase-2 Upgrade of the CMS Tracker - Technical Design Report, CERN-LHCC-2017-009, CMS-TDR-17-001, 1 July 2017.
[7] ROOT Documentation - The Event Display classes, https://root.cern.ch/root/html/GRAF3D_EVE_Index.html .
[8] ROOT Documentation - An event display based on ROOT GUI, https://root.cern/event-display-based-root-gui .
[9] Matt Strassler, Peter Skands. Albert De Roeck, Christophe Saout, Joanna Weng, Ianna Osborne, “Simulation of a detection of Hidden Valley Z' decay into jets in the CMS experiment,” CERN Document Server, CMS Photos, 2007. (https://cds.cern.ch/record/1074317# )
[10] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (1),” CIO Korea 칼럼. (http://www.ciokorea.com/news/35688)
[11] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (2),” CIO Korea 칼럼. (http://www.ciokorea.com/news/36179)
[12] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (3),” CIO Korea 칼럼. (http://www.ciokorea.com/news/36540)
[13] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (6),” CIO Korea 칼럼. (http://www.ciokorea.com/news/37380)
[14] John Shade, “Visualization Ideas for Management Dashboards,” a presentation at the GDB Meeting, 5 Dec 2007. (https://indico.cern.ch/event/8508/contributions/2106100/attachments/1076823/1535915/EGEE_Management_Dashboard.pdf )
[15] Julia Andreeva, “SiteView Current status and plans,” a presentation at the GDB Meeting, Feb. 08, 2012. (http://slideplayer.com/slide/8752779/)

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr