2017.07.05

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (4)

김진철 | CIO KR
LHC 실험 데이터 가공 과정과 데이터 형식
이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자.

LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다.

그림 1. LHC 데이터의 분석 과정 (그림 출처: [1])


그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다.

우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 우선 실리콘 스트립 센서와 같은 많은 수의 센서들을 이용해 검출기의 상호작용 영역에서 일어난 입자들의 상호작용 현상을 빠짐없이 전기 신호로 변환하여 수치화(digitize)한다. 이 단계가 바로 CMS 검출기의 Level 1 트리거에서 일어나는 일이다.

Level 1 트리거는 초당 40MHz로 일어나는 충돌 이벤트를 모두 담을 수 없기 때문에, 우선 1,000분의 1에 해당하는 이벤트만 골라 수치화하게 된다. 이렇게 Level 1 트리거에 의해 처음으로 수치화된 데이터를 원시 데이터(raw data)라고 한다. 이렇게 선별적으로 수치화된 데이터는 센서값이 검출된 위치에 따른 주소 값과 측정값만 나열된 16진수 수치들의 모임에 지나지 않는다. 원시 데이터만으로는 3차원 영상을 재구성할 수 없기 때문에, 3차원 영상에 필요한 추가의 메타데이터, 예를 들면 해당 데이터 블록이 수집된 센서의 종류, 위치, 수집되었을 때의 가속기 및 검출기의 운영 파라미터 등의 메타데이터가 데이터 가공 과정에서 덧붙여지게 된다.

그림 2. CMS 검출기 데이터의 가공 과정 및 데이터 형식 변환 과정. (그림 출처: [2])



그림 2에 보면 CMS 검출기의 데이터 가공 과정에 따른 데이터 형식의 변화가 표시되어 있다. Level 1 트리거를 통해 처음으로 수집된 원시 데이터는, Pythia와 같은 소프트웨어에서 만들어낸 이벤트 시뮬레이션 데이터를 이용해 기초적인 이벤트로 재구성된 이벤트 요약 데이터(Event Summary Data; ESD) 형식으로 가공된다. 이 단계에서 처음으로 이벤트로 재구성할 수 있는 데이터가 생산된다.

ESD 형식의 데이터에는 의사-물리학적(pseudo-physical) 정보가 저장된다. 이런 의사-물리학적 정보는 상호작용이 예상되는 데이터 점들의 모임인 클러스터나, 입자들의 궤적으로 추정되는 데이터 영역과 데이터 군집(group) 등 정확한 물리학적 분석에 도움이 되는 정보들이 메타데이터와 함께 가공되어 저장된다. RECO 형식의 데이터는 원시 데이터를 이용해 재구성된 이벤트 및 물리학적 객체 정보를 담고 있는 데이터이다.

ESD 및 RECO 형식의 데이터들은 비로소 물리학자들에 분석되어 AOD형식의 데이터로 변환된다. AOD 형식의 데이터는 이벤트당 약 2MB 정도 크기인 원시 데이터에 비해 가공되는 과정에서 물리학적 분석에 유용한 정보만으로 가공되어 200분의 1 크기인 10KB 정도의 크기로 작아진다. AOD 형식의 데이터는 물리학자들이 물리학적으로 분석한 내용과 함께 이벤트와 궤적별로 추정되는 입자의 종류 및 운동량(momentum) 등의 물리량에 대한 정보, 입자별 식별을 위한 식별자 등의 다양한 메타데이터와 물리학 정보들이 추가로 덧붙여지게 된다. 이런 AOD 형식의 데이터는 고수준 트리거(High-Level Trigger)라고 불리는 상위 수준의 데이터 처리 분산 컴퓨팅 시스템에서 패턴 인식 및 머신러닝 기술을 이용해 지능적으로 자동화된 데이터 가공 및 분류 소프트웨어를 통해서 생성된다.

마지막으로 실험별로 목표로 하는 입자 탐색이나 현상 분석을 위한 이벤트 분류 정보가 덧붙여져 다시 물리학적 분석에 필요한 정보만 포함되어 압축되는 TAG 형식으로 변환된다. 이렇게 TAG 형식으로 변환된 데이터는 물리학자들에 의해서 실험에서 찾고자 했던 입자가 만들어낸 상호작용에 해당하는 붕괴 채널을 빠르게 검색하고 찾기 위한 인덱스의 용도로 활용된다.

LHC 연구자들은 실험 장치에서 쏟아지는 데이터를 마냥 모으지 않았다. 우선 힉스 입자 발견을 비롯한 입자 물리학 현상학 연구를 위해 필요한 정보가 어떤 것인지 연구하여 이런 정보를 수집할 수 있도록 검출기를 설계, 개발하였다. 검출기의 원시 데이터는 분석을 위한 정보는 포함하고 있지만 사람이 분석하기에 적합하지 않기 때문에, 과학자들이 분석할 수 있는 정보로 가꿀 수 있는 데이터 형식을 고안하고, 이러한 데이터 형식으로 원시 데이터의 정보를 자동으로 가공하고 변환하는 데이터 처리 프로세스와 기술을 만들었다.

CMS 검출기 빅데이터를 가공하고 처리하는 과정은 데이터를 수집과 분석의 목적인 입자 물리학 현상 분석을 위해 정의되며, 빅데이터를 표현하는 방식은 바로 입자 물리학 현상을 쉽고 정밀하게 분석할 수 있는 방식으로 여러 단계에 거쳐서 가공되고 변환되었다. 데이터에 필요한 정보가 담기도록 적절한 표현 형식을 명료하게 정의하지 않으면 빅데이터 수집 및 가공 과정이 정의될 수 없다. 결국 빅데이터를 활용하는 목적에 맞는 정보가 모두 포함되고 목적에 맞게 가공될 수 있도록 데이터의 형식을 정의하여야 빅데이터 기술을 활용할 수 있게 되는 것이다.

2017.07.05

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (4)

김진철 | CIO KR
LHC 실험 데이터 가공 과정과 데이터 형식
이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자.

LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다.

그림 1. LHC 데이터의 분석 과정 (그림 출처: [1])


그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다.

우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 우선 실리콘 스트립 센서와 같은 많은 수의 센서들을 이용해 검출기의 상호작용 영역에서 일어난 입자들의 상호작용 현상을 빠짐없이 전기 신호로 변환하여 수치화(digitize)한다. 이 단계가 바로 CMS 검출기의 Level 1 트리거에서 일어나는 일이다.

Level 1 트리거는 초당 40MHz로 일어나는 충돌 이벤트를 모두 담을 수 없기 때문에, 우선 1,000분의 1에 해당하는 이벤트만 골라 수치화하게 된다. 이렇게 Level 1 트리거에 의해 처음으로 수치화된 데이터를 원시 데이터(raw data)라고 한다. 이렇게 선별적으로 수치화된 데이터는 센서값이 검출된 위치에 따른 주소 값과 측정값만 나열된 16진수 수치들의 모임에 지나지 않는다. 원시 데이터만으로는 3차원 영상을 재구성할 수 없기 때문에, 3차원 영상에 필요한 추가의 메타데이터, 예를 들면 해당 데이터 블록이 수집된 센서의 종류, 위치, 수집되었을 때의 가속기 및 검출기의 운영 파라미터 등의 메타데이터가 데이터 가공 과정에서 덧붙여지게 된다.

그림 2. CMS 검출기 데이터의 가공 과정 및 데이터 형식 변환 과정. (그림 출처: [2])



그림 2에 보면 CMS 검출기의 데이터 가공 과정에 따른 데이터 형식의 변화가 표시되어 있다. Level 1 트리거를 통해 처음으로 수집된 원시 데이터는, Pythia와 같은 소프트웨어에서 만들어낸 이벤트 시뮬레이션 데이터를 이용해 기초적인 이벤트로 재구성된 이벤트 요약 데이터(Event Summary Data; ESD) 형식으로 가공된다. 이 단계에서 처음으로 이벤트로 재구성할 수 있는 데이터가 생산된다.

ESD 형식의 데이터에는 의사-물리학적(pseudo-physical) 정보가 저장된다. 이런 의사-물리학적 정보는 상호작용이 예상되는 데이터 점들의 모임인 클러스터나, 입자들의 궤적으로 추정되는 데이터 영역과 데이터 군집(group) 등 정확한 물리학적 분석에 도움이 되는 정보들이 메타데이터와 함께 가공되어 저장된다. RECO 형식의 데이터는 원시 데이터를 이용해 재구성된 이벤트 및 물리학적 객체 정보를 담고 있는 데이터이다.

ESD 및 RECO 형식의 데이터들은 비로소 물리학자들에 분석되어 AOD형식의 데이터로 변환된다. AOD 형식의 데이터는 이벤트당 약 2MB 정도 크기인 원시 데이터에 비해 가공되는 과정에서 물리학적 분석에 유용한 정보만으로 가공되어 200분의 1 크기인 10KB 정도의 크기로 작아진다. AOD 형식의 데이터는 물리학자들이 물리학적으로 분석한 내용과 함께 이벤트와 궤적별로 추정되는 입자의 종류 및 운동량(momentum) 등의 물리량에 대한 정보, 입자별 식별을 위한 식별자 등의 다양한 메타데이터와 물리학 정보들이 추가로 덧붙여지게 된다. 이런 AOD 형식의 데이터는 고수준 트리거(High-Level Trigger)라고 불리는 상위 수준의 데이터 처리 분산 컴퓨팅 시스템에서 패턴 인식 및 머신러닝 기술을 이용해 지능적으로 자동화된 데이터 가공 및 분류 소프트웨어를 통해서 생성된다.

마지막으로 실험별로 목표로 하는 입자 탐색이나 현상 분석을 위한 이벤트 분류 정보가 덧붙여져 다시 물리학적 분석에 필요한 정보만 포함되어 압축되는 TAG 형식으로 변환된다. 이렇게 TAG 형식으로 변환된 데이터는 물리학자들에 의해서 실험에서 찾고자 했던 입자가 만들어낸 상호작용에 해당하는 붕괴 채널을 빠르게 검색하고 찾기 위한 인덱스의 용도로 활용된다.

LHC 연구자들은 실험 장치에서 쏟아지는 데이터를 마냥 모으지 않았다. 우선 힉스 입자 발견을 비롯한 입자 물리학 현상학 연구를 위해 필요한 정보가 어떤 것인지 연구하여 이런 정보를 수집할 수 있도록 검출기를 설계, 개발하였다. 검출기의 원시 데이터는 분석을 위한 정보는 포함하고 있지만 사람이 분석하기에 적합하지 않기 때문에, 과학자들이 분석할 수 있는 정보로 가꿀 수 있는 데이터 형식을 고안하고, 이러한 데이터 형식으로 원시 데이터의 정보를 자동으로 가공하고 변환하는 데이터 처리 프로세스와 기술을 만들었다.

CMS 검출기 빅데이터를 가공하고 처리하는 과정은 데이터를 수집과 분석의 목적인 입자 물리학 현상 분석을 위해 정의되며, 빅데이터를 표현하는 방식은 바로 입자 물리학 현상을 쉽고 정밀하게 분석할 수 있는 방식으로 여러 단계에 거쳐서 가공되고 변환되었다. 데이터에 필요한 정보가 담기도록 적절한 표현 형식을 명료하게 정의하지 않으면 빅데이터 수집 및 가공 과정이 정의될 수 없다. 결국 빅데이터를 활용하는 목적에 맞는 정보가 모두 포함되고 목적에 맞게 가공될 수 있도록 데이터의 형식을 정의하여야 빅데이터 기술을 활용할 수 있게 되는 것이다.

X