Offcanvas

���������������

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (4)

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

CIO 빅데이터 메타데이터 양자역학 김진철 유럽입자물리학연구소 CERN LHC 입자검출기

2017.07.05

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

2017.07.05

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)

LHC 검출기 및 가속기 데이터의 수집과 측정 지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자. LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다. 원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.) LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠...

CIO 입자검출기 LHC CERN 유럽입자물리학연구소 김진철 양자역학 빅데이터 소셜네트워크 아마존고

2017.05.26

LHC 검출기 및 가속기 데이터의 수집과 측정 지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자. LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다. 원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.) LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠...

2017.05.26

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)

CERN과 LHC 실험 프로그램의 비즈니스 모델 빅데이터 비즈니스에서 가장 중요한 부분이 빅데이터를 수집하는 단계라고 지난 연재(세 번째 연재)에서 강조한 바 있다. 빅데이터가 끊임없이 조직의 시스템으로 흘러들어와야 이를 기반으로 안정된 빅데이터 비즈니스를 할 수 있다고 말했었다. CERN의 LHC 가속기와 입자 검출기의 관계, 입자 검출기에서 어떻게 데이터 수집이 이루어지는지 살펴보면서 그 의미를 살펴보았다. 과연 어떻게 해야 데이터가 조직의 비즈니스 시스템으로 끊임없이 흘러들어오게 할 수 있을까? 단순히 하둡 기반의 빅데이터 처리 시스템을 구축한다고 해서 데이터가 자동으로 조직의 비즈니스 시스템으로 흘러들어오지는 않을 것이다. 지금 하는 비즈니스를 하는 과정에서 수집된 데이터가 그렇다고 모두 빅데이터 비즈니스를 위해 적합한 데이터가 될지도 알 수 없는 일이다. 빅데이터 수집 과정과 비즈니스 모델과의 관계를 생각해보기 위해 CERN의 비즈니스 모델이 무엇인지 같이 살펴보도록 하자. CERN은 영리를 목적으로 하는 조직이 아니기 때문에 비즈니스 모델이 있겠냐고 생각할 수 있지만, CERN도 비영리 조직으로서 비즈니스 모델을 가지고 있다. CERN은 국제기구기 때문에 비정부기구(NGO)나 비영리단체의 비즈니스 모델을 따른다고 보면 이해하기가 쉽다. CERN이 조직을 유지하기 위해서는 주요 고객들로부터 CERN의 존재 이유를 끊임없이 설득하고 매년 예산을 받아야 한다. CERN의 주요 고객은 크게 세 가지로 구분할 수 있다. 우선 CERN 운영의 근거를 만들고 국제법에 따라 예산을 분담금의 형태로 제공하는 정회원국인 유럽 회원국과 미국, 일본 등 준회원국 정부이다. 이들 회원국들은 재정 기여도 면에서 제일 큰 고객이라고 할 수 있다. CERN은 분담금을 내는 것이 국가에 이익이라는 것을 회원국의 국민들이 수긍할 수 있도록, 각 회원국 정부가 CERN 분담금을 내는 것이 정치적으로 부담이 되지 않게끔 좋은 과학적인 성과와 지식을 지속적으로 창출해 ...

CIO 양성자빔 LHC CERN 유럽입자물리학연구소 김진철 하둡 비즈니스 모델 빅데이터 입자검출기

2017.04.20

CERN과 LHC 실험 프로그램의 비즈니스 모델 빅데이터 비즈니스에서 가장 중요한 부분이 빅데이터를 수집하는 단계라고 지난 연재(세 번째 연재)에서 강조한 바 있다. 빅데이터가 끊임없이 조직의 시스템으로 흘러들어와야 이를 기반으로 안정된 빅데이터 비즈니스를 할 수 있다고 말했었다. CERN의 LHC 가속기와 입자 검출기의 관계, 입자 검출기에서 어떻게 데이터 수집이 이루어지는지 살펴보면서 그 의미를 살펴보았다. 과연 어떻게 해야 데이터가 조직의 비즈니스 시스템으로 끊임없이 흘러들어오게 할 수 있을까? 단순히 하둡 기반의 빅데이터 처리 시스템을 구축한다고 해서 데이터가 자동으로 조직의 비즈니스 시스템으로 흘러들어오지는 않을 것이다. 지금 하는 비즈니스를 하는 과정에서 수집된 데이터가 그렇다고 모두 빅데이터 비즈니스를 위해 적합한 데이터가 될지도 알 수 없는 일이다. 빅데이터 수집 과정과 비즈니스 모델과의 관계를 생각해보기 위해 CERN의 비즈니스 모델이 무엇인지 같이 살펴보도록 하자. CERN은 영리를 목적으로 하는 조직이 아니기 때문에 비즈니스 모델이 있겠냐고 생각할 수 있지만, CERN도 비영리 조직으로서 비즈니스 모델을 가지고 있다. CERN은 국제기구기 때문에 비정부기구(NGO)나 비영리단체의 비즈니스 모델을 따른다고 보면 이해하기가 쉽다. CERN이 조직을 유지하기 위해서는 주요 고객들로부터 CERN의 존재 이유를 끊임없이 설득하고 매년 예산을 받아야 한다. CERN의 주요 고객은 크게 세 가지로 구분할 수 있다. 우선 CERN 운영의 근거를 만들고 국제법에 따라 예산을 분담금의 형태로 제공하는 정회원국인 유럽 회원국과 미국, 일본 등 준회원국 정부이다. 이들 회원국들은 재정 기여도 면에서 제일 큰 고객이라고 할 수 있다. CERN은 분담금을 내는 것이 국가에 이익이라는 것을 회원국의 국민들이 수긍할 수 있도록, 각 회원국 정부가 CERN 분담금을 내는 것이 정치적으로 부담이 되지 않게끔 좋은 과학적인 성과와 지식을 지속적으로 창출해 ...

2017.04.20

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)

‘빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?’에 이어 이번에는 빅데이터 비즈니스에서 빅데이터 수집의 중요성을 LHC의 빅데이터 수집 과정에 대해 알아보면서 같이 생각해보자. 빅데이터 원천으로서의 LHC 가속기 LHC를 운영하는 CERN은 구글과 같은 기업처럼 데이터를 이용해 직접 수익을 내는 조직은 아니지만, 조직의 목적에 맞는 빅데이터를 만들기 위한 조건을 탐구해보기에는 충분하다. 지난번 연재에서 소개했듯이, LHC에서는 초당 약 4,000만 번의 양성자 빔 충돌이 일어난다. 양성자 빔이 양성자 빔 원(proton beam source)에서 일단 생성되어 가속기가 켜지기 시작하면 매년 3월부터 11월까지 계속 켜져 있게 된다. (이를 빔타임(beam time)이라고 한다. 실제 양성자 빔으로 하는 실험은 3~10월, 그리고 중이온 빔을 이용한 실험이 11월에 진행된다.) 양성자 빔 충돌 이벤트는 양성자 빔만 생성해서 LHC 주가속기에 가두어두기만 하면 매초 4,000만 번이 일어나게 된다. 이 양성자 빔이 충돌하면서 이벤트를 만들 때 다양한 종류의 입자들이 궤적을 그리며 충돌지점 부근에 흩어지게 된다. 이렇게 흩어진 입자들은 자신이 가진 플러스, 또는 마이너스 전하 때문에 물질을 지나게 되면 물질 내부의 원자, 분자들과 상호작용을 일으키게 되며, 이런 상호작용의 자취를 전기 신호로 변환하여 검출기가 채집한 후 입자들의 궤적을 기록하게 된다. 그림 1. LHC 가속기에서 일어나는 양성자 빔 충돌 과정 양성자 빔은 14TeV의 고 에너지로 초당 4,000만 번, 양성자들끼리는 초당 1,000~10억 번 충돌하게 된다. (이때 발생하는 에너지는 한번에 498.4kg의 구리를 녹일 수 있는 에너지다[1].) 양성자간 충돌로 소립자들이 상호 작용하여 힉스 입자 등의 다양한 입자가 발생한다 (그림 출처: [2]). 입자검출기는 최첨단 기술의 집약체다. 규모도 어마어마하게 클 뿐...

CIO 빅데이터 하둡 김진철 유럽입자물리학연구소 CERN LHC 양성자빔 입자검출기

2017.03.23

‘빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?’에 이어 이번에는 빅데이터 비즈니스에서 빅데이터 수집의 중요성을 LHC의 빅데이터 수집 과정에 대해 알아보면서 같이 생각해보자. 빅데이터 원천으로서의 LHC 가속기 LHC를 운영하는 CERN은 구글과 같은 기업처럼 데이터를 이용해 직접 수익을 내는 조직은 아니지만, 조직의 목적에 맞는 빅데이터를 만들기 위한 조건을 탐구해보기에는 충분하다. 지난번 연재에서 소개했듯이, LHC에서는 초당 약 4,000만 번의 양성자 빔 충돌이 일어난다. 양성자 빔이 양성자 빔 원(proton beam source)에서 일단 생성되어 가속기가 켜지기 시작하면 매년 3월부터 11월까지 계속 켜져 있게 된다. (이를 빔타임(beam time)이라고 한다. 실제 양성자 빔으로 하는 실험은 3~10월, 그리고 중이온 빔을 이용한 실험이 11월에 진행된다.) 양성자 빔 충돌 이벤트는 양성자 빔만 생성해서 LHC 주가속기에 가두어두기만 하면 매초 4,000만 번이 일어나게 된다. 이 양성자 빔이 충돌하면서 이벤트를 만들 때 다양한 종류의 입자들이 궤적을 그리며 충돌지점 부근에 흩어지게 된다. 이렇게 흩어진 입자들은 자신이 가진 플러스, 또는 마이너스 전하 때문에 물질을 지나게 되면 물질 내부의 원자, 분자들과 상호작용을 일으키게 되며, 이런 상호작용의 자취를 전기 신호로 변환하여 검출기가 채집한 후 입자들의 궤적을 기록하게 된다. 그림 1. LHC 가속기에서 일어나는 양성자 빔 충돌 과정 양성자 빔은 14TeV의 고 에너지로 초당 4,000만 번, 양성자들끼리는 초당 1,000~10억 번 충돌하게 된다. (이때 발생하는 에너지는 한번에 498.4kg의 구리를 녹일 수 있는 에너지다[1].) 양성자간 충돌로 소립자들이 상호 작용하여 힉스 입자 등의 다양한 입자가 발생한다 (그림 출처: [2]). 입자검출기는 최첨단 기술의 집약체다. 규모도 어마어마하게 클 뿐...

2017.03.23

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.5