CIO / How To / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 애플리케이션

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (4)

2018.06.27 김진철 | CIO KR

LHC 실험 데이터 분석에서의 데이터 가시화 – 이벤트 및 모니터링 데이터
LHC 실험에서 사용되는 데이터 가시화 방법을 같이 살펴보면서 빅데이터를 활용할 때 데이터 가시화와 큐레이션이 왜 중요한지 같이 생각해보자.

먼저, 데이터 가시화와 큐레이션이 무엇이고 어떤 차이가 있는지 같이 생각해보자. 데이터 가시화란 말 그대로 데이터의 특성과 구조를 사람이 편리하게 관찰할 수 있도록 기호화된 데이터들을 재조직하고 가공해서 새롭게 표현한 것을 말한다. 빅데이터의 큐레이션이란 빅데이터 중에서 현재 사용하고자 하는 목적과 용도에 맞게 빅데이터 일부를 추려내고 재배치하여 빅데이터가 가진 특정한 측면과 특성이 잘 드러나도록 빅데이터를 선별하고 표현을 바꾸는 것을 말한다.

가시화와 큐레이션은 엄연히 다른 개념이지만, 실제로 빅데이터를 가시화할 때에는 가시화 기능이나 내용이 큐레이션 과정을 포함하는 경우가 많다. 이것은 빅데이터의 특성상 모든 데이터를 한꺼번에 관찰하거나 시각화하기가 어려운 경우가 많아 보고자 하는 특성이나 구조만을 볼 수 있게끔 필터링, 재조직해야 하는데, 이 필터링과 재조직 과정이 큐레이션이 되는 경우가 많기 때문이다. 하지만, 보통 빅데이터 가시화의 필터링이나 재조직은 단일 종류의 빅데이터 가시화에서 특정한 조건을 만족하는 일부 데이터만 추려내는 것을 말하고, 큐레이션은 다양한 종류의 빅데이터를 동시에 써서 만든 가시화 내용을 사용자의 필요에 맞게 배치를 바꾸거나 데이터의 다양한 면을 보여주는 여러 가시화 결과를 특정한 관점에 따라 새롭게 배치, 정렬하여 보여주는 것을 말한다.

LHC 실험 데이터 활용의 가장 중요한 목적은 우선 검출기에서 일어난 이벤트들을 눈으로 직접 관찰하고, 이를 분석하는 과정을 자동화하는 것이다. 이를 위해 검출기의 각 검출 모듈로부터 측정된 수치 데이터를 모두 모아서 검출기 전체에서 일어난 이벤트로 재구성하여 보여주어야 한다. 그냥 데이터를 모아서 데이터 가시화 도구로 그려주면 되지 않냐고 단순하게 생각할 수 있겠지만, 그렇게 단순한 문제가 아니다. 현재 LHC 연구자들이 ROOT와 GEANT를 이용해 만드는 이벤트 데이터 가시화는 빅데이터 가시화 사례 중에서도 매우 복잡한 사례에 해당하고 가시화의 중요성을 잘 보여주는 사례에 해당한다. 왜 그런지 잘 생각해보자.

먼저, 데이터가 보여주려고 하고, 데이터를 통해 나타내려고 하는 입자물리학적인 현상들을 같이 생각해보자. 힉스와 관련된 입자물리학 현상들은 현재 수 펨토미터에서 수십 펨토미터 수준의 공간에서 일어나는 것으로 알려져 있다. (펨토미터는 10-18m를 말하는 것으로, 보통 잘 알려진 원자, 분자와 관련된 현상이 일어나고 최근 집적회로 소자 기술이 많이 개발되는 나노미터 단위 공간보다 10억 배 더 작은 길이의 척도다.) 펨토미터의 공간에서 일어나는 현상들은 사람들이 맨눈으로 관찰할 수 없기 때문에 관찰하기 위해서는 힉스를 포함한 근본 입자들이 물질과 일으키는 상호작용을 이용해 간접적으로 관찰해야 한다고 예전의 다섯번째 글에서 자세히 소개한 바 있다.

힉스를 포함한 근본 입자들이 나타나기 위해서는 고에너지 상태의 입자들이 상호작용하는 상태를 만들어야 하는데, 입자들이 이렇게 고에너지 상태에서 일으키는 이벤트들은 하나의 센서에 모든 정보를 다 담을 수 없다. 현재 입자들의 궤적을 추적하기 위한 검출 장치인 CMS 검출기의 트래커(tracker)만 해도 24,244개의 실리콘 스트립 센서 모듈로 구성되어 있다[2-3]. 이 24,244개의 실리콘 스트립 센서에서 검출하는 이벤트 정보는 전체 이벤트 정보 중에서 아주 작은 단편이기 때문에, CMS 검출기 내에서 일어나는 이벤트 전체를 재구성하기 위해서는 1,000노드 이상의 분산 컴퓨팅 시스템을 이용하는 복잡한 데이터 가공 가정을 거쳐야 한다. 고휘도 LHC(High-luminosity LHC; HL-LHC) 가속기 실험을 위해 이 CMS 검출기의 트래커가 현재의 3계층에서 4계층 검출기로 업그레이드되면 이 실리콘 스트립 센서 모듈의 수는 크게 늘어날 전망이다[4-6].

분석하려고 하는 대상인 입자물리학 현상은 사람이 맨눈으로 할 수 없는 아주 작은 스케일에서 일어난다는 점, 그리고, 이벤트 데이터를 하나의 센서로 수집할 수 있는 것이 아니라 많은 다양한 센서들의 값을 수집하여 실제 일어난 이벤트로 재구성해야 한다는 점, 재구성된 이벤트의 의미를 이해하고 분석하기 위해서는 검출기의 3차원 형상과 대비하여 이벤트가 일어난 위치에 맞게 가시화해야 된다는 점을 고려하여 LHC 실험 연구자들은 검출기의 이벤트 데이터 가시화를 위해 EVE라는 3차원 이벤트 가시화 소프트웨어 도구를 분석 플랫폼인 ROOT를 이용하여 만들었다. 그림 1은 EVE를 이용하여 ALICE 검출기에서 일어난 중이온빔의 충돌 이벤트를 가시화한 모습이다.

붉은색, 파란색, 노란색 등으로 표현된 3차원 모델들은 ALICE 검출기의 각 센서 모듈 하나를 표현한다. CMS 검출기와 같이 ALICE 검출기도 다양한 센서 모듈들이 고에너지 입자빔이 충돌하는 영역을 겹겹이 감싸는 식으로 설치, 통합되어 있기 때문에 그림의 가운데에 빔의 충돌 이벤트가 일어난 지점을 중심으로 센서의 3D 모델들이 겹겹이 감싸고 있는 것을 볼 수 있다. 파란색, 연두색, 빨간색, 노란색 등의 선과 점으로 표현된 것들이 실제 입자들이 상호작용하면서 일으킨 이벤트들을 가시화한 것이다. 각 이벤트에 대해 기록한 센서값들을 센서의 위치와 센서상에서 이벤트가 기록된 픽셀에 맞게 가시화 공간에 표현한 것이다.

위의 그림 1의 이벤트 데이터 가시화에서 각 이벤트들이 ALICE 검출기에서 어떤 모양으로, 어떤 위치에서, 어떤 궤적을 그렸는지를 한눈에 알아볼 수 있다. 그림 1에서 가시화된 이벤트들은 3D로 재구성된 이벤트 가시화가 없이 숫자와 추상적인 형식으로 저장된 각 센서 모듈의 데이터를 직접 눈으로 보아서는 절대로 얻을 수 없는 정보들을 제공하고 있음을 한눈에 알 수 있다.

힉스와 같은 새로운 입자를 찾아내기 위해서는 그림 1과 같이 실제 검출된 이벤트를 검출기의 3차원 모델과 함께 가시화해서 보여주는 것도 중요하지만, 각 이벤트가 어떤 입자나 상호작용 프로세스와 연관되어 있는지 메타데이터를 붙이고, 이 메타데이터에 따라 구분하여 표시하는 것도 중요하다. 지난 여섯 번째와 일곱 번째 글에서 이벤트 데이터 분석과정을 소개할 때, 이벤트 데이터 수집전에 미리 계산된 시뮬레이션 데이터와 실제 검출된 이벤트 데이터를 비교하여 각 이벤트를 구분하는 메타데이터를 이벤트 데이터 형식에 추가한다고 설명한 바 있다. 이와 같은 메타데이터가 없으면 각 이벤트를 분석하려는 상호작용에 따라 구분하여 표현할 수 없기 때문에 가시화하더라도 분석하기가 매우 어렵고 알아보기 힘들다.

그림 2는 GEANT4 시뮬레이션을 이용해 CMS 검출기에서 일어날 수 있는 이벤트들을 미리 정의된 실험 파라미터에 따라 시뮬레이션하여 가시화한 것이다. 시뮬레이션 데이터는 우리가 시뮬레이션의 파라미터를 완전하게 통제할 수 있기 때문에 실제 검출된 이벤트보다 훨씬 더 자세하고 풍부한 정보를 담을 수 있는 경우가 많아서 경우에 따라서는 실제 이벤트 데이터보다 더 크고 용량이 클 수 있다. 그림 2의 시뮬레이션 데이터를 보면 각 입자와 이벤트 모두가 완전하게 분류, 레이블링되어 표현되어 있음을 볼 수 있다.

메타데이터가 추가된 이벤트 데이터를 그림 1과 같이 가시화하여야 비로소 이벤트별로 어떤 상호작용에 의해 일어난 이벤트인지 구분하여 분석할 수 있어서 원하는 입자물리학적 데이터 분석이 가능하게 된다.

단순히 이벤트 데이터를 검출기 3차원 모델과 대비하여 가시화하여 분석하는 것 외에, 입자물리학 분석에서는 다양한 데이터 분석 방법이 쓰인다. 많은 과학 연구 분야와 마찬가지로, 앞에서 본 3차원의 복잡한 이벤트 데이터 가시화와 함께 검출기를 통해 측정된 입자의 에너지와 같은 다양한 물리학적 변수 간의 관계를 그래프와 차트를 통해 시각화하게 된다. 이렇게 그래프와 차트를 통해 표현된 물리학적 변수 간의 정량적 관계를 검출기를 통해 측정된 이벤트 데이터와 이벤트 시뮬레이션 가시화 결과와 함께 대조, 분석하여 힉스와 같은 새로운 입자를 찾아내게 된다.

이번에는 LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터 가시화의 사례를 한번 같이 살펴보도록 하자. LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 데이터는 운영 지원 시스템(Operation Support System; OSS)의 빅데이터라고 볼 수 있다. 지난 열네번째 글에서 소개한 바와 같이 LHC 컴퓨팅 그리드(LHC Computing Grid)와 LHC 가속기, 검출기들의 모니터링 문제는 빅데이터의 양(Volume), 속도(Velocity), 다양성(Variety), 불확실성(Veracity)의 모든 조건을 만족시키는 다루기 어려운 빅데이터 문제다.

LHC 컴퓨팅 그리드(LHC Computing Grid)의 모니터링 정보 표현을 위한 다양한 아이디어들이 실험되고 고안되었는데, 이 글에서는 그중에서 두 가지 흥미로운 사례(GridMap, MonaLISA)만 살펴보기로 한다. 먼저 그리드 자원 운영에서 가장 어려운 문제였던 지역적으로 넓은 지역에 걸쳐 위치한 그리드 사이트 운영 상태를 시각적으로 표현한 GridMap이라 불리는 가시화 사례부터 살펴보도록 하자.

GridMap은 아래 그림 4와 같이 각 Tier-1, Tier-2 데이터센터의 규모에 비례하여 사각형의 크기를 표현하고, 각 사각형의 색깔로 각 그리드 데이터센터의 운영상태를 표현하는 가시화 방법이다. 얼핏 보기에는 단순해 보이지만, 그리드 자원 운영 데이터의 가시화 방법을 찾기 위해 LHC 연구자들이 얼마나 고심했는지 잘 보여주는 사례이기도 하다.

---------------------------------------------------------------
김진철 칼럼 인기기사
-> 김진철의 How-to-Big Data | 연재를 시작하며
-> 김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)
---------------------------------------------------------------

예전 여러 편의 기고([10-13])에서 소개한 것처럼, 각 Tier-1, Tier-2 데이터센터의 그리드 컴퓨팅 자원은 복잡한 분산 컴퓨팅 시스템이어서 각 데이터센터의 자원을 모니터링하는 것 자체가 벌써 만만찮은 규모의 일이다. 특히, 어느 한 Tier-1 데이터센터의 그리드 운영에 문제가 생기면 많은 Tier-2 데이터센터의 이벤트 데이터 분석에 문제가 생기고 LHC 실험 데이터 분석 과정에 많은 지연이 생기게 된다. Tier-1 데이터센터는 CERN의 검출기 고수준 트리거 장치(high-level trigger)에서 가공된 데이터를 받아 대규모 분석과 가공을 수행하고 가공된 이벤트 데이터를 Tier-2 데이터센터에 다시 분배하는 중요한 역할을 하고 있기 때문이다. 이 때문에 Tier-1 데이터센터의 자원과 서비스 상태를 효과적으로 신속하게 모니터링하는 것은 특히 중요한 문제였다.

먼저, 그리드 데이터센터 운영 상태를 대표적으로 표현하는 방법을 찾기가 쉽지 않았다. 각 그리드 컴퓨팅 사이트별로 모니터링하고 관리해야 하는 자원이 몇백대에서 몇천대의 서버와 스토리지, 그리고 네트워크 장비에 이르는데, 이들 장비의 상태 각각을 모니터링해야 할 뿐 아니라, 이들 장비에서 운영되는 LHC 컴퓨팅 그리드 미들웨어 서비스들의 운영 상태까지 모두 파악하여 점검해야 전체 그리드 컴퓨팅 사이트의 서비스 상태를 하나의 상태로 표현할 수 있게 된다.

각 그리드 컴퓨팅 데이터센터별로 Tier-1이냐, Tier-2냐에 따라 만족해야 하는 서비스 수준 계약(Service Level Agreement; SLA)에 관련된 자원 운영 상태를 모니터링할 수 있게 모니터링 정보를 어떻게 조직하고 표현할 것이냐 하는 것도 매우 골치 아픈 문제였다.

GridMap 모니터링에서는 이렇게 각 그리드 컴퓨팅 데이터센터와 그리드 컴퓨팅 서비스의 다양한 측면, 서버, 스토리지, 네트워크 및 그리드 미들웨어 서비스의 운영 상태와 SLA 만족 상황 등의 다양한 변수를 고려하여 서비스 가용성(availability) 및 신뢰성(reliability)를 측정하고, 이를 “정상 운영(OK)”, “품질 저하(Degraded)”, “서비스 중단(Down)”의 상태로 나누어 대표적으로 표현한다. 그리드 데이터센터의 자원 규모에 비례하여 사각형의 크기를 결정하여 그리드 데이터센터의 자원 운영 규모도 한눈에 파악할 수 있도록 하였다.

GridMap은 계층적으로 모니터링 정보를 조직해 놓았기 때문에, 각 그리드 데이터센터에 해당하는 사각형에 마우스 커서를 위치시키면 그리드 자원과 서비스의 상태를 요약해서 보여주고, 각 사각형을 클릭하면 해당 그리드 데이터센터의 서비스 가용성 모니터링 화면으로 전환하여 그리드 데이터센터의 컴퓨팅 및 스토리지, 네트워크 자원과 그리드 미들웨어 서비스 운영 상황을 자세하게 살펴볼 수 있다.

GridMap 모니터링 가시화를 통해서 그리드 컴퓨팅 시스템 모니터링을 LHC 컴퓨팅 그리드의 운영자들이 한결 수월하게 할 수 있게 되었다. 전체 그리드 컴퓨팅 자원의 상태를 각 그리드 데이터센터별로 한눈에 파악할 수 있을 뿐만 아니라, 계층적으로 조직된 모니터링 정보를 통해 각 그리드 데이터센터별 자원 운영의 문제점을 손쉽게 추적해 들어가 문제를 확인할 수 있다.

다음은 그리드 컴퓨팅 초반부터 많이 쓰인 MonALISA라는 모니터링 시스템을 같이 살펴보도록 하자. MonALISA는 LHC 가속기의 ALICE 검출기 데이터 분석에 참여하는 그리드 자원 모니터링을 위해 만든 모니터링 도구였지만, 지금은 모든 LHC 컴퓨팅 그리드 데이터센터 운영에서 같이 쓰이고 있다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

CIO Veracity Variety Velocity Volume 4V 3V LHC 컴퓨팅 그리드 김진철 큐레이션 구글 어스 스파크 데이터 시각화 하둡 데이터 과학자 인메모리 빅데이터 데이터 가시화

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점

Offcanvas

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (4)

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

Sponsored

댓글

추천 테크라이브러리

인터뷰 | “‘친환경+AI’ 앞세워 데이터센터 새바람 이끌 것”··· 엠피리온 디지털 최고전략책임자 최용석

일문일답 | “AI 기반 옵저버빌리티, IT 넘어 기업 전반에서 중요해질 것” 다이나트레이스 이효은 지사장

인터뷰 | “위기에서 기회를 보다’ 아이브릭스 채종현 대표가 전하는 ‘비즈니스 AI’ 이야기

인터뷰 | 빠른 대용량 편집기 ‘엠에디터’를 아시나요? ··· 40년 경력의 개발자 에무라 유타카 대표

일문일답 | 브로드컴 앤디 날라판 CIO·CTO·CSO가 말하는 클라우드 성공 노하우