Offcanvas

������������������������������

김진철의 How-to-Big Data | 빅데이터와 인공지능 (2)

CERN이 인공지능 기술을 소환한 이유 – 2015년 LHC 데이터 과학 워크샵[3] 2015년 11월 9일, CERN의 고에너지 물리학자들과 전세계의 인공지능 기술 전문가들이 모여 CERN의 검출기 데이터 처리 및 분석에 최신 인공지능 기술을 어떻게 적용할 수 있을지 논의하는 워크샵을 열었다. 11월 9일부터 13일까지 5일간 열린 이 워크샵은 인공지능 기술이 앞으로의 과학 연구를 어떻게 바꿔 갈지 엿보게 하는 중요한 회의였다[2~3]. 이 워크샵에서 지금까지 인공지능 기술을 LHC 빅데이터를 처리, 분석에 적용한 성공 사례들이 소개되었다. 이에 더해서, LHC 빅데이터를 온전하게 활용하지 못하는 현재의 LHC 빅데이터 처리, 분석 기술의 한계를 인공지능을 이용해 어떻게 극복할 수 있을지, 그리고 인공지능 기술을 통해 극복할 수 있을 것으로 보이는 미해결 문제 및 요구사항에 대해서도 소개 되었다. 특히, 인공지능 기술이 LHC 빅데이터 분석에 줄 수 있는 많은 가능성들에 대해서 앞으로의 LHC 업그레이드 계획과 함께 열띤 토론이 이어졌다. 예전의 세번째 글에서 잠시 소개했던 것과 같이, CMS 검출기의 경우 LHC 가속기에서 충돌하는 양성자빔은 초당 4천만 번의 횟수로 원시 이벤트 데이터를 발생시킨다. 이 때문에 초당 약 1TB의 많은 원시 데이터(raw data)가 발생한다[1, 4]. 검출기 1단계 트리거(Level-1 Trigger) 하드웨어 장치에서 원시 데이터 처리에 3.2 마이크로초가 걸리며, 이 3.2 마이크로초 동안 원시 데이터를 보관, 처리할 수 있도록 Level-1 트리거의 전자회로(front-end electronics)가 설계, 제작되었다[1, 4]. 이러한 Level-1 트리거 하드웨어의 동작 특성 때문에 원시 데이터의 샘플링 빈도(sampling frequency)가 100kHZ에 불과하다. 이 얘기는 CMS 검출기에서 수집한 이벤트 원시 데이터의 약 천분의 일만 Level-1 트리거의 필터를 통과하여 ...

CIO LHC CERN 유럽입자물리학연구소 김진철 기계학습 인공지능 통계 빅데이터 구글 정보물리학

2017.08.28

CERN이 인공지능 기술을 소환한 이유 – 2015년 LHC 데이터 과학 워크샵[3] 2015년 11월 9일, CERN의 고에너지 물리학자들과 전세계의 인공지능 기술 전문가들이 모여 CERN의 검출기 데이터 처리 및 분석에 최신 인공지능 기술을 어떻게 적용할 수 있을지 논의하는 워크샵을 열었다. 11월 9일부터 13일까지 5일간 열린 이 워크샵은 인공지능 기술이 앞으로의 과학 연구를 어떻게 바꿔 갈지 엿보게 하는 중요한 회의였다[2~3]. 이 워크샵에서 지금까지 인공지능 기술을 LHC 빅데이터를 처리, 분석에 적용한 성공 사례들이 소개되었다. 이에 더해서, LHC 빅데이터를 온전하게 활용하지 못하는 현재의 LHC 빅데이터 처리, 분석 기술의 한계를 인공지능을 이용해 어떻게 극복할 수 있을지, 그리고 인공지능 기술을 통해 극복할 수 있을 것으로 보이는 미해결 문제 및 요구사항에 대해서도 소개 되었다. 특히, 인공지능 기술이 LHC 빅데이터 분석에 줄 수 있는 많은 가능성들에 대해서 앞으로의 LHC 업그레이드 계획과 함께 열띤 토론이 이어졌다. 예전의 세번째 글에서 잠시 소개했던 것과 같이, CMS 검출기의 경우 LHC 가속기에서 충돌하는 양성자빔은 초당 4천만 번의 횟수로 원시 이벤트 데이터를 발생시킨다. 이 때문에 초당 약 1TB의 많은 원시 데이터(raw data)가 발생한다[1, 4]. 검출기 1단계 트리거(Level-1 Trigger) 하드웨어 장치에서 원시 데이터 처리에 3.2 마이크로초가 걸리며, 이 3.2 마이크로초 동안 원시 데이터를 보관, 처리할 수 있도록 Level-1 트리거의 전자회로(front-end electronics)가 설계, 제작되었다[1, 4]. 이러한 Level-1 트리거 하드웨어의 동작 특성 때문에 원시 데이터의 샘플링 빈도(sampling frequency)가 100kHZ에 불과하다. 이 얘기는 CMS 검출기에서 수집한 이벤트 원시 데이터의 약 천분의 일만 Level-1 트리거의 필터를 통과하여 ...

2017.08.28

김진철의 How-to-Big Data | 빅데이터와 인공지능 (1)

LHC 실험 데이터의 복잡성과 인공지능 기술 이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자. LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다. 검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류...

CIO LHC CERN 유럽입자물리학연구소 김진철 자율주행차 기계학습 인공지능 통계 빅데이터 정보물리학

2017.07.26

LHC 실험 데이터의 복잡성과 인공지능 기술 이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자. LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다. 검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류...

2017.07.26

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (4)

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

CIO 빅데이터 메타데이터 양자역학 김진철 유럽입자물리학연구소 CERN LHC 입자검출기

2017.07.05

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

2017.07.05

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)

LHC 검출기 및 가속기 데이터의 수집과 측정 지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자. LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다. 원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.) LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠...

CIO 입자검출기 LHC CERN 유럽입자물리학연구소 김진철 양자역학 빅데이터 소셜네트워크 아마존고

2017.05.26

LHC 검출기 및 가속기 데이터의 수집과 측정 지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자. LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다. 원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.) LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠...

2017.05.26

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)

CERN과 LHC 실험 프로그램의 비즈니스 모델 빅데이터 비즈니스에서 가장 중요한 부분이 빅데이터를 수집하는 단계라고 지난 연재(세 번째 연재)에서 강조한 바 있다. 빅데이터가 끊임없이 조직의 시스템으로 흘러들어와야 이를 기반으로 안정된 빅데이터 비즈니스를 할 수 있다고 말했었다. CERN의 LHC 가속기와 입자 검출기의 관계, 입자 검출기에서 어떻게 데이터 수집이 이루어지는지 살펴보면서 그 의미를 살펴보았다. 과연 어떻게 해야 데이터가 조직의 비즈니스 시스템으로 끊임없이 흘러들어오게 할 수 있을까? 단순히 하둡 기반의 빅데이터 처리 시스템을 구축한다고 해서 데이터가 자동으로 조직의 비즈니스 시스템으로 흘러들어오지는 않을 것이다. 지금 하는 비즈니스를 하는 과정에서 수집된 데이터가 그렇다고 모두 빅데이터 비즈니스를 위해 적합한 데이터가 될지도 알 수 없는 일이다. 빅데이터 수집 과정과 비즈니스 모델과의 관계를 생각해보기 위해 CERN의 비즈니스 모델이 무엇인지 같이 살펴보도록 하자. CERN은 영리를 목적으로 하는 조직이 아니기 때문에 비즈니스 모델이 있겠냐고 생각할 수 있지만, CERN도 비영리 조직으로서 비즈니스 모델을 가지고 있다. CERN은 국제기구기 때문에 비정부기구(NGO)나 비영리단체의 비즈니스 모델을 따른다고 보면 이해하기가 쉽다. CERN이 조직을 유지하기 위해서는 주요 고객들로부터 CERN의 존재 이유를 끊임없이 설득하고 매년 예산을 받아야 한다. CERN의 주요 고객은 크게 세 가지로 구분할 수 있다. 우선 CERN 운영의 근거를 만들고 국제법에 따라 예산을 분담금의 형태로 제공하는 정회원국인 유럽 회원국과 미국, 일본 등 준회원국 정부이다. 이들 회원국들은 재정 기여도 면에서 제일 큰 고객이라고 할 수 있다. CERN은 분담금을 내는 것이 국가에 이익이라는 것을 회원국의 국민들이 수긍할 수 있도록, 각 회원국 정부가 CERN 분담금을 내는 것이 정치적으로 부담이 되지 않게끔 좋은 과학적인 성과와 지식을 지속적으로 창출해 ...

CIO 양성자빔 LHC CERN 유럽입자물리학연구소 김진철 하둡 비즈니스 모델 빅데이터 입자검출기

2017.04.20

CERN과 LHC 실험 프로그램의 비즈니스 모델 빅데이터 비즈니스에서 가장 중요한 부분이 빅데이터를 수집하는 단계라고 지난 연재(세 번째 연재)에서 강조한 바 있다. 빅데이터가 끊임없이 조직의 시스템으로 흘러들어와야 이를 기반으로 안정된 빅데이터 비즈니스를 할 수 있다고 말했었다. CERN의 LHC 가속기와 입자 검출기의 관계, 입자 검출기에서 어떻게 데이터 수집이 이루어지는지 살펴보면서 그 의미를 살펴보았다. 과연 어떻게 해야 데이터가 조직의 비즈니스 시스템으로 끊임없이 흘러들어오게 할 수 있을까? 단순히 하둡 기반의 빅데이터 처리 시스템을 구축한다고 해서 데이터가 자동으로 조직의 비즈니스 시스템으로 흘러들어오지는 않을 것이다. 지금 하는 비즈니스를 하는 과정에서 수집된 데이터가 그렇다고 모두 빅데이터 비즈니스를 위해 적합한 데이터가 될지도 알 수 없는 일이다. 빅데이터 수집 과정과 비즈니스 모델과의 관계를 생각해보기 위해 CERN의 비즈니스 모델이 무엇인지 같이 살펴보도록 하자. CERN은 영리를 목적으로 하는 조직이 아니기 때문에 비즈니스 모델이 있겠냐고 생각할 수 있지만, CERN도 비영리 조직으로서 비즈니스 모델을 가지고 있다. CERN은 국제기구기 때문에 비정부기구(NGO)나 비영리단체의 비즈니스 모델을 따른다고 보면 이해하기가 쉽다. CERN이 조직을 유지하기 위해서는 주요 고객들로부터 CERN의 존재 이유를 끊임없이 설득하고 매년 예산을 받아야 한다. CERN의 주요 고객은 크게 세 가지로 구분할 수 있다. 우선 CERN 운영의 근거를 만들고 국제법에 따라 예산을 분담금의 형태로 제공하는 정회원국인 유럽 회원국과 미국, 일본 등 준회원국 정부이다. 이들 회원국들은 재정 기여도 면에서 제일 큰 고객이라고 할 수 있다. CERN은 분담금을 내는 것이 국가에 이익이라는 것을 회원국의 국민들이 수긍할 수 있도록, 각 회원국 정부가 CERN 분담금을 내는 것이 정치적으로 부담이 되지 않게끔 좋은 과학적인 성과와 지식을 지속적으로 창출해 ...

2017.04.20

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)

‘빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?’에 이어 이번에는 빅데이터 비즈니스에서 빅데이터 수집의 중요성을 LHC의 빅데이터 수집 과정에 대해 알아보면서 같이 생각해보자. 빅데이터 원천으로서의 LHC 가속기 LHC를 운영하는 CERN은 구글과 같은 기업처럼 데이터를 이용해 직접 수익을 내는 조직은 아니지만, 조직의 목적에 맞는 빅데이터를 만들기 위한 조건을 탐구해보기에는 충분하다. 지난번 연재에서 소개했듯이, LHC에서는 초당 약 4,000만 번의 양성자 빔 충돌이 일어난다. 양성자 빔이 양성자 빔 원(proton beam source)에서 일단 생성되어 가속기가 켜지기 시작하면 매년 3월부터 11월까지 계속 켜져 있게 된다. (이를 빔타임(beam time)이라고 한다. 실제 양성자 빔으로 하는 실험은 3~10월, 그리고 중이온 빔을 이용한 실험이 11월에 진행된다.) 양성자 빔 충돌 이벤트는 양성자 빔만 생성해서 LHC 주가속기에 가두어두기만 하면 매초 4,000만 번이 일어나게 된다. 이 양성자 빔이 충돌하면서 이벤트를 만들 때 다양한 종류의 입자들이 궤적을 그리며 충돌지점 부근에 흩어지게 된다. 이렇게 흩어진 입자들은 자신이 가진 플러스, 또는 마이너스 전하 때문에 물질을 지나게 되면 물질 내부의 원자, 분자들과 상호작용을 일으키게 되며, 이런 상호작용의 자취를 전기 신호로 변환하여 검출기가 채집한 후 입자들의 궤적을 기록하게 된다. 그림 1. LHC 가속기에서 일어나는 양성자 빔 충돌 과정 양성자 빔은 14TeV의 고 에너지로 초당 4,000만 번, 양성자들끼리는 초당 1,000~10억 번 충돌하게 된다. (이때 발생하는 에너지는 한번에 498.4kg의 구리를 녹일 수 있는 에너지다[1].) 양성자간 충돌로 소립자들이 상호 작용하여 힉스 입자 등의 다양한 입자가 발생한다 (그림 출처: [2]). 입자검출기는 최첨단 기술의 집약체다. 규모도 어마어마하게 클 뿐...

CIO 빅데이터 하둡 김진철 유럽입자물리학연구소 CERN LHC 양성자빔 입자검출기

2017.03.23

‘빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?’에 이어 이번에는 빅데이터 비즈니스에서 빅데이터 수집의 중요성을 LHC의 빅데이터 수집 과정에 대해 알아보면서 같이 생각해보자. 빅데이터 원천으로서의 LHC 가속기 LHC를 운영하는 CERN은 구글과 같은 기업처럼 데이터를 이용해 직접 수익을 내는 조직은 아니지만, 조직의 목적에 맞는 빅데이터를 만들기 위한 조건을 탐구해보기에는 충분하다. 지난번 연재에서 소개했듯이, LHC에서는 초당 약 4,000만 번의 양성자 빔 충돌이 일어난다. 양성자 빔이 양성자 빔 원(proton beam source)에서 일단 생성되어 가속기가 켜지기 시작하면 매년 3월부터 11월까지 계속 켜져 있게 된다. (이를 빔타임(beam time)이라고 한다. 실제 양성자 빔으로 하는 실험은 3~10월, 그리고 중이온 빔을 이용한 실험이 11월에 진행된다.) 양성자 빔 충돌 이벤트는 양성자 빔만 생성해서 LHC 주가속기에 가두어두기만 하면 매초 4,000만 번이 일어나게 된다. 이 양성자 빔이 충돌하면서 이벤트를 만들 때 다양한 종류의 입자들이 궤적을 그리며 충돌지점 부근에 흩어지게 된다. 이렇게 흩어진 입자들은 자신이 가진 플러스, 또는 마이너스 전하 때문에 물질을 지나게 되면 물질 내부의 원자, 분자들과 상호작용을 일으키게 되며, 이런 상호작용의 자취를 전기 신호로 변환하여 검출기가 채집한 후 입자들의 궤적을 기록하게 된다. 그림 1. LHC 가속기에서 일어나는 양성자 빔 충돌 과정 양성자 빔은 14TeV의 고 에너지로 초당 4,000만 번, 양성자들끼리는 초당 1,000~10억 번 충돌하게 된다. (이때 발생하는 에너지는 한번에 498.4kg의 구리를 녹일 수 있는 에너지다[1].) 양성자간 충돌로 소립자들이 상호 작용하여 힉스 입자 등의 다양한 입자가 발생한다 (그림 출처: [2]). 입자검출기는 최첨단 기술의 집약체다. 규모도 어마어마하게 클 뿐...

2017.03.23

김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?

지난 칼럼 ‘김진철의 How-to-Big Data | 연재를 시작하며’에 이어 이번에는 빅데이터 활용에 관한 근본적인 질문에 대해 이야기하려 한다.  유럽입자물리학연구소가 LHC를 건설한 이유 유럽입자물리학연구소(CERN)가 75억 유로, 우리나라 돈으로 약 11조 원(2010년 기준)에 해당하는 막대한 예산을 들여 대형강입자가속기(The Large Hadron Collider; 이하 LHC)를 지은 이유가 무엇일까? 왜 LHC가 필요한 것일까? LHC가 만들어내는 빅데이터가 왜 그렇게 중요한 것일까? LHC의 빅데이터 얘기를 하기 전에 LHC 실험의 배경에 대해서 간략하게 소개하고자 한다. LHC 실험이 시작된 배경과 LHC가 어떤 시설인지를 이해하면 앞으로 하게 될 LHC 빅데이터 시스템에 대한 설명도 다소 쉽게 이해할 수 있을 것이다. LHC는 일종의 거대한 현미경이다. LHC 가속기는 두 개의 양성자빔을 반대 방향으로 빛의 속도의 99.99999999%까지 매우 빠르게 가속시켜 질량 중심 에너지가 14TeV인 고에너지 상태의 양성자빔 충돌을 일으켜 양성자빔내의 양성자들이 서로 충돌할 때 나타나는 현상을 분석하는 장치다. 그림 1. LHC 가속기의 개요 LHC 가속기는 제네바 부근 스위스-프랑스 국경지방 지하 100m에 건설된 둘레 27km의 거대 실험 장치이다[1]. 양성자빔들을 서로 충돌시키는 이유는 두 대의 자동차가 서로 부딪칠 때 일어나는 일로 비유할 수 있다. 자동차 두 대가 빠른 속도로 충돌하면, 자동차가 크게 부서지면서 자동차에 있던 각종 부속이나 부품, 구성품들이 차 바깥으로 튀어나오게 된다. 양성자빔이 충돌할 때에도 같은 일이 일어난다. 입자물리학자들이 밝혀낸 바에 따르면 양성자도 우주의 근본 입자, 즉 더 이상 쪼개지지 않는 최소 단위가 아니며, 양성자는 두 개의 업쿼크와 한 개의 다운쿼크로 이뤄진 것으로 밝혀졌다. 양성자빔들이 고에너지로 서로 충돌하면서 양성자 내부에...

빅데이터 김진철 유럽입자물리학연구소 CERN LHC 양성자빔

2017.02.23

지난 칼럼 ‘김진철의 How-to-Big Data | 연재를 시작하며’에 이어 이번에는 빅데이터 활용에 관한 근본적인 질문에 대해 이야기하려 한다.  유럽입자물리학연구소가 LHC를 건설한 이유 유럽입자물리학연구소(CERN)가 75억 유로, 우리나라 돈으로 약 11조 원(2010년 기준)에 해당하는 막대한 예산을 들여 대형강입자가속기(The Large Hadron Collider; 이하 LHC)를 지은 이유가 무엇일까? 왜 LHC가 필요한 것일까? LHC가 만들어내는 빅데이터가 왜 그렇게 중요한 것일까? LHC의 빅데이터 얘기를 하기 전에 LHC 실험의 배경에 대해서 간략하게 소개하고자 한다. LHC 실험이 시작된 배경과 LHC가 어떤 시설인지를 이해하면 앞으로 하게 될 LHC 빅데이터 시스템에 대한 설명도 다소 쉽게 이해할 수 있을 것이다. LHC는 일종의 거대한 현미경이다. LHC 가속기는 두 개의 양성자빔을 반대 방향으로 빛의 속도의 99.99999999%까지 매우 빠르게 가속시켜 질량 중심 에너지가 14TeV인 고에너지 상태의 양성자빔 충돌을 일으켜 양성자빔내의 양성자들이 서로 충돌할 때 나타나는 현상을 분석하는 장치다. 그림 1. LHC 가속기의 개요 LHC 가속기는 제네바 부근 스위스-프랑스 국경지방 지하 100m에 건설된 둘레 27km의 거대 실험 장치이다[1]. 양성자빔들을 서로 충돌시키는 이유는 두 대의 자동차가 서로 부딪칠 때 일어나는 일로 비유할 수 있다. 자동차 두 대가 빠른 속도로 충돌하면, 자동차가 크게 부서지면서 자동차에 있던 각종 부속이나 부품, 구성품들이 차 바깥으로 튀어나오게 된다. 양성자빔이 충돌할 때에도 같은 일이 일어난다. 입자물리학자들이 밝혀낸 바에 따르면 양성자도 우주의 근본 입자, 즉 더 이상 쪼개지지 않는 최소 단위가 아니며, 양성자는 두 개의 업쿼크와 한 개의 다운쿼크로 이뤄진 것으로 밝혀졌다. 양성자빔들이 고에너지로 서로 충돌하면서 양성자 내부에...

2017.02.23

김진철의 How-to-Big Data | 연재를 시작하며

* SK텔레콤에서 데이터 과학자로 재직중인 김진철 박사의 칼럼 '김진철의 How-to-Big Data'를 1월부터 연재합니다. 빅데이터 – 실재인가, 허상인가? 전 세계적 IT 트렌드로 조명받게 된 빅데이터가 우리나라에서 큰 관심을 받아 급격하게 성장하기 시작한 2011년을 많은 사람들이 우리나라 빅데이터 비즈니스의 원년으로 보고 있다. 그 이후로 국내 스타트업과 주요 기업들의 빅데이터 시스템 도입 및 활용 사례가 많이 알려졌으며, 빅데이터 활용으로 인해 사회가 크게 변할 것이라는 긍정적인, 또는 부정적인 예측이 넘쳐났다. 2014년 당시에는 전 세계 빅데이터 비즈니스 시장이 501억 달러까지 성장하는 금맥으로 예측되기도 했다(Wikibon, 2014년 2월, http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017). 3년이 흐른 지금도 여전히 빅데이터의 중요성에 대해서 많이 언급되고 있지만 우리나라에서 이런 전망을 뒷받침할 만한 빅데이터 활용 사례는 나오지 않고 있다. 빅데이터 시스템을 도입, 활용한 사례들이 주요 솔루션 벤더들의 자사 제품 활용 홍보 사례로서 많이 소개되고 있지만, 상당수의 사례들이 명백한 비즈니스 영향력을 보여주는 사례라고 보기는 어렵다. 심지어 최근에는 지금까지 빅데이터 비즈니스의 꽃으로 여겨졌던 데이터 과학자의 수요가 2017년부터 정체되거나 줄 것이라는 어두운 전망까지 나오고 있다(CIO Korea, 2016년 12월 14일, http://www.ciokorea.com/news/32359). 왜 이런 일이 나타나고 있는 것일까? 정말 빅데이터 활용이 기업 경영에 미치는 영향이 크지 않기 때문일까? 빅데이터가 IT 솔루션 기업들의 마케팅 용어에 불과하기 때문일까? 아니면, 일부 사람들이 주장하는 것같이 빅데이터는 허상이고 실체가 없기 때문일까? 혹은 빅데이터라는 것이 주목할 만한 가치가 없었던 현상이었던 것...

빅데이터 플링크 데이터 그리드 시스템 LHC 대형강입자가속기 CERN 유럽입자물리학연구소 김진철 스파크 데이터 사이언티스트 HANA 하둡 데이터 과학자 SQL-on-Hadoop

2017.01.23

* SK텔레콤에서 데이터 과학자로 재직중인 김진철 박사의 칼럼 '김진철의 How-to-Big Data'를 1월부터 연재합니다. 빅데이터 – 실재인가, 허상인가? 전 세계적 IT 트렌드로 조명받게 된 빅데이터가 우리나라에서 큰 관심을 받아 급격하게 성장하기 시작한 2011년을 많은 사람들이 우리나라 빅데이터 비즈니스의 원년으로 보고 있다. 그 이후로 국내 스타트업과 주요 기업들의 빅데이터 시스템 도입 및 활용 사례가 많이 알려졌으며, 빅데이터 활용으로 인해 사회가 크게 변할 것이라는 긍정적인, 또는 부정적인 예측이 넘쳐났다. 2014년 당시에는 전 세계 빅데이터 비즈니스 시장이 501억 달러까지 성장하는 금맥으로 예측되기도 했다(Wikibon, 2014년 2월, http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017). 3년이 흐른 지금도 여전히 빅데이터의 중요성에 대해서 많이 언급되고 있지만 우리나라에서 이런 전망을 뒷받침할 만한 빅데이터 활용 사례는 나오지 않고 있다. 빅데이터 시스템을 도입, 활용한 사례들이 주요 솔루션 벤더들의 자사 제품 활용 홍보 사례로서 많이 소개되고 있지만, 상당수의 사례들이 명백한 비즈니스 영향력을 보여주는 사례라고 보기는 어렵다. 심지어 최근에는 지금까지 빅데이터 비즈니스의 꽃으로 여겨졌던 데이터 과학자의 수요가 2017년부터 정체되거나 줄 것이라는 어두운 전망까지 나오고 있다(CIO Korea, 2016년 12월 14일, http://www.ciokorea.com/news/32359). 왜 이런 일이 나타나고 있는 것일까? 정말 빅데이터 활용이 기업 경영에 미치는 영향이 크지 않기 때문일까? 빅데이터가 IT 솔루션 기업들의 마케팅 용어에 불과하기 때문일까? 아니면, 일부 사람들이 주장하는 것같이 빅데이터는 허상이고 실체가 없기 때문일까? 혹은 빅데이터라는 것이 주목할 만한 가치가 없었던 현상이었던 것...

2017.01.23

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31