Offcanvas

LHC

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (13)

애자일 프로젝트 관리란? – 스크럼으로 애자일 맛보기 켄트 벡을 비롯한 일부 소프트웨어 엔지니어들이 왜 소프트웨어 엔지니어들은 항상 야근과 과로에 시달려야 하는가, 소프트웨어 프로젝트는 왜 일정을 맞추지 못하고 과도한 요구 사항 변화와 이로 인한 일정 지연에 시달리고 유난히 실패 위험이 높은 것인가, 소프트웨어 엔지니어들도 일반 직장인들과 같은 평범한 라이프스타일을 가지면서 생산성을 높일 방법은 없는 것인가 하는 문제를 고민하기 시작했다. 이를 위해 이들은 소프트웨어 개발 방식에 새로운 방법론이 필요하다고 생각하게 되었는데 이에 대한 해답으로 제시한 것이 익스트림 프로그래밍과 애자일 방법론이다.  애자일 방법론은 반복적인 과정을 통한 소프트웨어 프로젝트 실패 위험 감소와 소스 코드 품질 향상, 코드 리뷰, 페어 프로그래밍을 통한 소스 코드 품질 향상 및 버그 감소, 정기적인 플래닝과 리뷰를 통한 개발자 간 소통과 소프트웨어 개발의 암묵적인 지식 공유를 통한 위험 감소 등으로 특징 지워진다. 애자일 방법론은 린 소프트웨어 개발 방법론과 함께 일정과 자원이 넉넉지 않은 스타트업들을 중심으로 널리 쓰이기 시작하여 그 효용이 입증되면서 이제는 많은 IT 기업들에서 널리 쓰이는 소프트웨어 프로젝트 관리 방법론이 되었다. 그림 1. 애자일 선언(“The Agile Manifesto”)의 핵심 아이디어를 설명한 그림. 애자일 선언은 과거 폭포수(waterfall) 방식의 소프트웨어 공학 방법론에서 탈피하여, 고객과의 밀접한 소통, 피드백과 소프트웨어 엔지니어 간 소통과 협업, 명세서와 문서화 위주의 소프트웨어 개발보다는 실제 동작하는 소프트웨어 개발을 목표로 하고, 반복적인 소프트웨어 개발을 통한 프로젝트 변경과 변화의 능동적 수용을 기본으로 한다. (그림 출처: https://www.slideshare.net/valtechuk/adapting-agile-to-the-entreprise) 그림 2. 애자일 선언의 핵심 아이디어가 된 익스트림 프로그래밍 방...

애자일 LHC CERN 김진철 칸반 스크럼 OSS 애자일 방법론 스프린트 데이터 과학자 빅데이터 CIO BSS

2019.10.02

애자일 프로젝트 관리란? – 스크럼으로 애자일 맛보기 켄트 벡을 비롯한 일부 소프트웨어 엔지니어들이 왜 소프트웨어 엔지니어들은 항상 야근과 과로에 시달려야 하는가, 소프트웨어 프로젝트는 왜 일정을 맞추지 못하고 과도한 요구 사항 변화와 이로 인한 일정 지연에 시달리고 유난히 실패 위험이 높은 것인가, 소프트웨어 엔지니어들도 일반 직장인들과 같은 평범한 라이프스타일을 가지면서 생산성을 높일 방법은 없는 것인가 하는 문제를 고민하기 시작했다. 이를 위해 이들은 소프트웨어 개발 방식에 새로운 방법론이 필요하다고 생각하게 되었는데 이에 대한 해답으로 제시한 것이 익스트림 프로그래밍과 애자일 방법론이다.  애자일 방법론은 반복적인 과정을 통한 소프트웨어 프로젝트 실패 위험 감소와 소스 코드 품질 향상, 코드 리뷰, 페어 프로그래밍을 통한 소스 코드 품질 향상 및 버그 감소, 정기적인 플래닝과 리뷰를 통한 개발자 간 소통과 소프트웨어 개발의 암묵적인 지식 공유를 통한 위험 감소 등으로 특징 지워진다. 애자일 방법론은 린 소프트웨어 개발 방법론과 함께 일정과 자원이 넉넉지 않은 스타트업들을 중심으로 널리 쓰이기 시작하여 그 효용이 입증되면서 이제는 많은 IT 기업들에서 널리 쓰이는 소프트웨어 프로젝트 관리 방법론이 되었다. 그림 1. 애자일 선언(“The Agile Manifesto”)의 핵심 아이디어를 설명한 그림. 애자일 선언은 과거 폭포수(waterfall) 방식의 소프트웨어 공학 방법론에서 탈피하여, 고객과의 밀접한 소통, 피드백과 소프트웨어 엔지니어 간 소통과 협업, 명세서와 문서화 위주의 소프트웨어 개발보다는 실제 동작하는 소프트웨어 개발을 목표로 하고, 반복적인 소프트웨어 개발을 통한 프로젝트 변경과 변화의 능동적 수용을 기본으로 한다. (그림 출처: https://www.slideshare.net/valtechuk/adapting-agile-to-the-entreprise) 그림 2. 애자일 선언의 핵심 아이디어가 된 익스트림 프로그래밍 방...

2019.10.02

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (3)

LHC 실험을 수행하는 물리학자들과 연구자들의 특성 지금까지 LHC 실험을 위한 만든 LHC 가속기와 네 개의 검출기, 그리고 데이터 가공 및 분석을 위한 LHC 데이터 처리 시스템과 WLCG 그리드 컴퓨팅 기술을 소개하면서 빅데이터 기술의 모든 요소를 갖추고 있는 LHC 프로젝트의 면면을 살펴보았다. LHC 빅데이터 인프라의 모든 것이 중요하고, 어느 하나라도 제대로 동작하지 않으면 LHC에서 생산되는 수백 페타바이트의 빅데이터를 제대로 처리하기는 불가능하다고 얘기했다. LHC 빅데이터 인프라의 모든 것이 다 중요하지만, 무엇보다도 중요한 것은 이런 LHC 빅데이터 인프라를 만들어낸 사람들, 그리고 이런 LHC 빅데이터 인프라를 이용해 우주와 물질을 지배하는 근본 법칙과 통찰을 만들어내는 사람들, 즉 LHC 연구자들이다. LHC 연구자들이 그들의 창의성과 역량을 헌신적으로 발휘하지 않았더라면 LHC 실험 장치와 빅데이터 인프라는 존재하지 못했을 것이고, LHC 실험장치에서 생산된 데이터를 이용해 힉스 입자가 존재하는지 여부도 확인하지 못했을 것이다. LHC 프로젝트의 꽃은 다른 어떤 요소보다도 바로 LHC 실험을 위해 일하는 과학자들일 것이다. 오늘은 LHC 실험을 위해 일하는 과학자들의 특성을 같이 살펴보면서, 빅데이터를 활용하는 데이터과학자들이 어떤 사람들이고 어떤 특성을 가진 사람들인지, 이들을 어떻게 일할 수 있도록 해야 빅데이터 비즈니스를 수행하는 조직이 성과를 낼 수 있을 것인지 같이 고민해보도록 하자. LHC 과학자들은 다양한 분야의 전문가들로 구성되어 있지만, 가장 많은 비중을 차지하고 있는 사람들은 LHC 실험장치를 이용해 실험 입자 물리학을 연구하려는 물리학자들이다. 이들 LHC 물리학자들이 쉽게 말하자면 데이터과학자들이라고 볼 수 있다. 사람마다 편차가 많고, LHC 장치의 복잡성 때문에 물리학자들이 모든 영역의 기술개발을 하지는 못하지만, 그래도 LHC 실험 장치의 디자인부터 개발, 데이터 분석까지 대부분 영역에서 영향력을 발휘하고 ...

CIO 빅데이터 데이터 과학자 물리학 김진철 CERN LHC

2018.12.28

LHC 실험을 수행하는 물리학자들과 연구자들의 특성 지금까지 LHC 실험을 위한 만든 LHC 가속기와 네 개의 검출기, 그리고 데이터 가공 및 분석을 위한 LHC 데이터 처리 시스템과 WLCG 그리드 컴퓨팅 기술을 소개하면서 빅데이터 기술의 모든 요소를 갖추고 있는 LHC 프로젝트의 면면을 살펴보았다. LHC 빅데이터 인프라의 모든 것이 중요하고, 어느 하나라도 제대로 동작하지 않으면 LHC에서 생산되는 수백 페타바이트의 빅데이터를 제대로 처리하기는 불가능하다고 얘기했다. LHC 빅데이터 인프라의 모든 것이 다 중요하지만, 무엇보다도 중요한 것은 이런 LHC 빅데이터 인프라를 만들어낸 사람들, 그리고 이런 LHC 빅데이터 인프라를 이용해 우주와 물질을 지배하는 근본 법칙과 통찰을 만들어내는 사람들, 즉 LHC 연구자들이다. LHC 연구자들이 그들의 창의성과 역량을 헌신적으로 발휘하지 않았더라면 LHC 실험 장치와 빅데이터 인프라는 존재하지 못했을 것이고, LHC 실험장치에서 생산된 데이터를 이용해 힉스 입자가 존재하는지 여부도 확인하지 못했을 것이다. LHC 프로젝트의 꽃은 다른 어떤 요소보다도 바로 LHC 실험을 위해 일하는 과학자들일 것이다. 오늘은 LHC 실험을 위해 일하는 과학자들의 특성을 같이 살펴보면서, 빅데이터를 활용하는 데이터과학자들이 어떤 사람들이고 어떤 특성을 가진 사람들인지, 이들을 어떻게 일할 수 있도록 해야 빅데이터 비즈니스를 수행하는 조직이 성과를 낼 수 있을 것인지 같이 고민해보도록 하자. LHC 과학자들은 다양한 분야의 전문가들로 구성되어 있지만, 가장 많은 비중을 차지하고 있는 사람들은 LHC 실험장치를 이용해 실험 입자 물리학을 연구하려는 물리학자들이다. 이들 LHC 물리학자들이 쉽게 말하자면 데이터과학자들이라고 볼 수 있다. 사람마다 편차가 많고, LHC 장치의 복잡성 때문에 물리학자들이 모든 영역의 기술개발을 하지는 못하지만, 그래도 LHC 실험 장치의 디자인부터 개발, 데이터 분석까지 대부분 영역에서 영향력을 발휘하고 ...

2018.12.28

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (1)

LHC 실험을 위한 협력 체계의 구조 LHC는 지구에서 가장 큰 기계일 뿐만 아니라, 건설 및 운영 비용에서도 NASA의 스페이스 셔틀 프로젝트, 허블 망원경과 같은 우주 과학 실험과 현재 프랑스 카다라슈에 건설 중인 ITER 핵융합 실험로와 함께 많은 건설, 운영 비용이 들어간 프로젝트이다. 이렇게 거대한 프로젝트의 결과로 지어진 LHC 가속기와 4개의 검출기를 이용해 입자물리학 실험은 단순한 협업으로는 불가능에 가깝다. 20년이 넘는 긴 건설 기간과 인류 역사상 하나밖에 없는, 처음으로 설계해서 건설하는 거대 실험 장치이고, 모든 실험 조건이 지금까지 만들어본 적이 없는 극한의 실험 조건이라는 측면에서 프로젝트의 위험 수준이 이 세상 어떤 프로젝트보다도 높은 프로젝트였다. 빅데이터를 만들어 내는 LHC 가속기와 검출기부터 빅데이터를 가공하는 Level-1 트리거와 고수준 트리거(high-level trigger), 그리고 데이터를 분석하는 LHC 컴퓨팅 그리드까지 빅데이터 모든 영역의 시스템을 연구개발해야 했던 LHC 프로젝트는 만들어야 했던 기술 영역의 범위도 넓고 그 수준도 복잡한 어려운 과제였다. 이렇게 어렵고 복잡한 시스템을 만들기 위해 LHC 연구자들이 어떤 조직과 체계를 가지고 협력하여 일했는지 살펴보고 그 교훈과 빅데이터 비즈니스 조직과의 차이점을 생각해보는 것은 빅데이터 비즈니스를 운영하는 조직과 기업들에게도 의미 있는 일이다. 우선 그림 1과 2는 LHC의 4개의 실험 중에서 가장 많은 비용이 투입되고 가장 많은 연구자들이 참여하고 있는 ATLAS와 CMS 실험의 조직 체계를 그림으로 보여주고 있다. 이 조직 체계를 살펴보면서 빅데이터 비즈니스를 수행하기 위한 조직 설계에 대한 아이디어를 같이 살펴보도록 하자. 첫번째로, 이 조직도를 보면 LHC 프로젝트 전반에서 나타나는 조직 패턴이 하나 보이는데, 바로 장치를 건설하고 운영하는데 필요한 자원을 계획, 조달하는 자원 관리 위원회(Resource Re...

협업 업무량 핵융합 LHC CERN 김진철 NASA 넷플릭스 인사 SI 아마존 빅데이터 재무 페이스북 구글 CIO 전략기획

2018.10.26

LHC 실험을 위한 협력 체계의 구조 LHC는 지구에서 가장 큰 기계일 뿐만 아니라, 건설 및 운영 비용에서도 NASA의 스페이스 셔틀 프로젝트, 허블 망원경과 같은 우주 과학 실험과 현재 프랑스 카다라슈에 건설 중인 ITER 핵융합 실험로와 함께 많은 건설, 운영 비용이 들어간 프로젝트이다. 이렇게 거대한 프로젝트의 결과로 지어진 LHC 가속기와 4개의 검출기를 이용해 입자물리학 실험은 단순한 협업으로는 불가능에 가깝다. 20년이 넘는 긴 건설 기간과 인류 역사상 하나밖에 없는, 처음으로 설계해서 건설하는 거대 실험 장치이고, 모든 실험 조건이 지금까지 만들어본 적이 없는 극한의 실험 조건이라는 측면에서 프로젝트의 위험 수준이 이 세상 어떤 프로젝트보다도 높은 프로젝트였다. 빅데이터를 만들어 내는 LHC 가속기와 검출기부터 빅데이터를 가공하는 Level-1 트리거와 고수준 트리거(high-level trigger), 그리고 데이터를 분석하는 LHC 컴퓨팅 그리드까지 빅데이터 모든 영역의 시스템을 연구개발해야 했던 LHC 프로젝트는 만들어야 했던 기술 영역의 범위도 넓고 그 수준도 복잡한 어려운 과제였다. 이렇게 어렵고 복잡한 시스템을 만들기 위해 LHC 연구자들이 어떤 조직과 체계를 가지고 협력하여 일했는지 살펴보고 그 교훈과 빅데이터 비즈니스 조직과의 차이점을 생각해보는 것은 빅데이터 비즈니스를 운영하는 조직과 기업들에게도 의미 있는 일이다. 우선 그림 1과 2는 LHC의 4개의 실험 중에서 가장 많은 비용이 투입되고 가장 많은 연구자들이 참여하고 있는 ATLAS와 CMS 실험의 조직 체계를 그림으로 보여주고 있다. 이 조직 체계를 살펴보면서 빅데이터 비즈니스를 수행하기 위한 조직 설계에 대한 아이디어를 같이 살펴보도록 하자. 첫번째로, 이 조직도를 보면 LHC 프로젝트 전반에서 나타나는 조직 패턴이 하나 보이는데, 바로 장치를 건설하고 운영하는데 필요한 자원을 계획, 조달하는 자원 관리 위원회(Resource Re...

2018.10.26

김진철의 How-to-Big Data | 빅데이터와 인공지능 (4)

LHC 실험과 뉴로모픽 엔지니어링 LHC 실험과 같은 거대과학 실험 장치는 건설에만 10~20년이 걸리고, 대량 생산을 위한 물건이나 장치를 만드는 일이 아닌 세계에서 하나뿐인 실험 장치를 만드는 일이다 보니 큰 비용이 들고 그에 따르는 위험 부담도 크다. 이런 거대과학 실험에서는 종종 이 실험 장치의 건설과 운영에 필요한 긴 기간이 새로운 과학적, 기술적 발견과 진보의 계기가 되기도 한다. LHC 실험의 요구사항도 실험 계획 초반과 LHC 가속기 완공 시점, 그리고 지금의 요구사항이 모두 다르다. 사실은 LHC 가속기가 건설되고 운영되는 과정에서 가속기와 검출기, 그리고 실험에서 요구되는 기술적인 요구 사항의 수준이 계속 높아져 왔다. 특히 실험 데이터 분석에 필요한 데이터의 양과 처리 속도, 복잡성의 정도는 크게 높아지고 있다. 지난 연재에서도 소개했듯이 고광도 LHC(High-Luminosity LHC; HL-LHC)로 LHC 가속기가 업그레이드되면 검출기에서 발생하는 데이터의 양이 기하급수적으로 증가하게 되는데, 2019년에는 2016년에 생성된 데이터의 4배에 이르는 293PB, 2028년에는 2016년에 생성된 데이터의 52배에 이르는 3.8EB에 이를 것으로 추정된다. 이는 LHC 실험이 계획되던 1992년에는 검출기 데이터가 1PB, 그리고 LHC 가속기가 완공되던 시점인 2008년도에는 연간 15PB로 데이터양이 추정되던 것에 비교하면 급격하게 빅데이터 요구 사항의 수준이 높아지고 있다. LHC 실험의 요구 사항이 이렇게 지속해서 높아지는 배경에는 여러 가지 요소가 있는데, 그중에서 중요한 것은 실험이 진행되면서 근본 입자들에 조사해야 할 물리학적 질문들이 더 많아지고 복잡해지는 것과, LHC 가속기에 쓰이는 기술이 정체되어 있지 않고 더 향상되고 발전한다는 것이다. 1992년 당시에도 통계적 패턴 인식 기술을 포함해 사람의 두뇌를 모방하려는 뉴로모픽 VLSI 프로세서 기술이 있었으나 딥러닝과 딥러닝 전용 프로세서...

구글 뉴로모픽 엔지니어링 차량공유 LHC CERN 김진철 텐서플로 자율주행 우버 테슬라 GPU 인공지능 엔비디아 양자컴퓨팅 데이터 과학자 IBM 빅데이터 디웨이브 시스템즈

2018.09.27

LHC 실험과 뉴로모픽 엔지니어링 LHC 실험과 같은 거대과학 실험 장치는 건설에만 10~20년이 걸리고, 대량 생산을 위한 물건이나 장치를 만드는 일이 아닌 세계에서 하나뿐인 실험 장치를 만드는 일이다 보니 큰 비용이 들고 그에 따르는 위험 부담도 크다. 이런 거대과학 실험에서는 종종 이 실험 장치의 건설과 운영에 필요한 긴 기간이 새로운 과학적, 기술적 발견과 진보의 계기가 되기도 한다. LHC 실험의 요구사항도 실험 계획 초반과 LHC 가속기 완공 시점, 그리고 지금의 요구사항이 모두 다르다. 사실은 LHC 가속기가 건설되고 운영되는 과정에서 가속기와 검출기, 그리고 실험에서 요구되는 기술적인 요구 사항의 수준이 계속 높아져 왔다. 특히 실험 데이터 분석에 필요한 데이터의 양과 처리 속도, 복잡성의 정도는 크게 높아지고 있다. 지난 연재에서도 소개했듯이 고광도 LHC(High-Luminosity LHC; HL-LHC)로 LHC 가속기가 업그레이드되면 검출기에서 발생하는 데이터의 양이 기하급수적으로 증가하게 되는데, 2019년에는 2016년에 생성된 데이터의 4배에 이르는 293PB, 2028년에는 2016년에 생성된 데이터의 52배에 이르는 3.8EB에 이를 것으로 추정된다. 이는 LHC 실험이 계획되던 1992년에는 검출기 데이터가 1PB, 그리고 LHC 가속기가 완공되던 시점인 2008년도에는 연간 15PB로 데이터양이 추정되던 것에 비교하면 급격하게 빅데이터 요구 사항의 수준이 높아지고 있다. LHC 실험의 요구 사항이 이렇게 지속해서 높아지는 배경에는 여러 가지 요소가 있는데, 그중에서 중요한 것은 실험이 진행되면서 근본 입자들에 조사해야 할 물리학적 질문들이 더 많아지고 복잡해지는 것과, LHC 가속기에 쓰이는 기술이 정체되어 있지 않고 더 향상되고 발전한다는 것이다. 1992년 당시에도 통계적 패턴 인식 기술을 포함해 사람의 두뇌를 모방하려는 뉴로모픽 VLSI 프로세서 기술이 있었으나 딥러닝과 딥러닝 전용 프로세서...

2018.09.27

김진철의 How-to-Big Data | 빅데이터와 인공지능 (3)

LHC 빅데이터에서의 딥러닝과 인공지능 기술의 새로운 요구사항 – 해석가능성 LHC 가속기는 질량의 근본을 설명하는 힉스 보존의 존재를 2013년도에 최종적으로 확인하여 목표로 했던 가장 중요한 미션은 완수하였으나, 힉스 보존 존재를 확인함으로써 다시 규명해야 할 중요하고 다양한 과학적 질문들이 새로운 숙제로 남게 되었다. 이를 위해 CERN과 전 세계 LHC 공동 연구단은 LHC 가속기의 양성자빔 광도(luminosity)를 높여 더 많은 이벤트를 발생시켜 입자물리학적 현상을 정밀하게 규명할 수 있도록 업그레이드를 준비 중이다. 업그레이드될 LHC 가속기를 고광도 LHC(High-Luminosity LHC; HL-LHC), 또는 슈퍼 LHC(Super-LHC)라고 부른다. HL-LHC로 LHC 가속기가 업그레이드되면 검출기에서 발생하는 데이터의 양이 기하급수적으로 증가하게 되는데, 2019년에는 2016년에 생성된 데이터의 4배에 이르는 293PB, 2028년에는 2016년에 생성된 데이터의 52배에 이르는 3.8EB에 이를 것으로 추정된다. 이렇게 많은 데이터를 추정하기 위해 현재 LHC의 네 개의 검출기 시스템에 쓰이고 있는 이벤트 데이터 가공 자동화 시스템과 소프트웨어를 전면적으로 개선하는 작업이 현재 진행되고 있다. 현재 데이터보다 수십 배 이상 쏟아져 나오는 데이터를 놓치지 않고 처리하여 중요한 물리학적 단서들을 포착하기 위해 이벤트 데이터를 현재보다 정밀하고 빠르게 분석, 가공하는 기술이 필요하다. 이를 위해 LHC 연구자들은 최근 주목을 받는 딥러닝 기술을 활용해서 보다 더 정밀하고 빠르게 이벤트 데이터를 분석할 수 있는 다양한 방법과 분석 기법에 대한 연구결과를 발표하고 있다. 최근 딥러닝을 이용해 LHC 데이터를 분석한 결과 중 많은 관심을 모았던 것은 딥러닝을 이용해 힉스 보존이 생성되는 이벤트와 힉스 보존 이벤트와 같은 입자들을 생성하지만 힉스 보존 때문에 생기는 것이 아닌 다른 배경 이...

CIO Dark Knowledge 숨은 지식 Knowledge Distillation 지식 증류 힉스 해석가능한 인공지능 interpretability 해석가능성 심층 신경망 GDPR LHC 김진철 인지 컴퓨팅 분석 인공지능 IBM 빅데이터 프로파일링

2018.08.27

LHC 빅데이터에서의 딥러닝과 인공지능 기술의 새로운 요구사항 – 해석가능성 LHC 가속기는 질량의 근본을 설명하는 힉스 보존의 존재를 2013년도에 최종적으로 확인하여 목표로 했던 가장 중요한 미션은 완수하였으나, 힉스 보존 존재를 확인함으로써 다시 규명해야 할 중요하고 다양한 과학적 질문들이 새로운 숙제로 남게 되었다. 이를 위해 CERN과 전 세계 LHC 공동 연구단은 LHC 가속기의 양성자빔 광도(luminosity)를 높여 더 많은 이벤트를 발생시켜 입자물리학적 현상을 정밀하게 규명할 수 있도록 업그레이드를 준비 중이다. 업그레이드될 LHC 가속기를 고광도 LHC(High-Luminosity LHC; HL-LHC), 또는 슈퍼 LHC(Super-LHC)라고 부른다. HL-LHC로 LHC 가속기가 업그레이드되면 검출기에서 발생하는 데이터의 양이 기하급수적으로 증가하게 되는데, 2019년에는 2016년에 생성된 데이터의 4배에 이르는 293PB, 2028년에는 2016년에 생성된 데이터의 52배에 이르는 3.8EB에 이를 것으로 추정된다. 이렇게 많은 데이터를 추정하기 위해 현재 LHC의 네 개의 검출기 시스템에 쓰이고 있는 이벤트 데이터 가공 자동화 시스템과 소프트웨어를 전면적으로 개선하는 작업이 현재 진행되고 있다. 현재 데이터보다 수십 배 이상 쏟아져 나오는 데이터를 놓치지 않고 처리하여 중요한 물리학적 단서들을 포착하기 위해 이벤트 데이터를 현재보다 정밀하고 빠르게 분석, 가공하는 기술이 필요하다. 이를 위해 LHC 연구자들은 최근 주목을 받는 딥러닝 기술을 활용해서 보다 더 정밀하고 빠르게 이벤트 데이터를 분석할 수 있는 다양한 방법과 분석 기법에 대한 연구결과를 발표하고 있다. 최근 딥러닝을 이용해 LHC 데이터를 분석한 결과 중 많은 관심을 모았던 것은 딥러닝을 이용해 힉스 보존이 생성되는 이벤트와 힉스 보존 이벤트와 같은 입자들을 생성하지만 힉스 보존 때문에 생기는 것이 아닌 다른 배경 이...

2018.08.27

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (5)

LHC 컴퓨팅 그리드의 워크플로우 관리 기술 LHC 실험 장치와 LHC 컴퓨팅 그리드 기술의 상당수는 LHC 데이터 분석 과정을 자동화하기 위한 기술들이라고 앞서 말한 바 있다. 이번 글에서는 LHC 빅데이터 기술 중에서 가장 진보된 자동화 기술의 하나인 워크플로우 관리(workflow management)를 소개하고, 이러한 워크플로우 관리 기술이 일반 기업의 빅데이터 활용에서 어떤 중요성이 있는지 같이 생각해보고자 한다. LHC 과학자들이 LHC 컴퓨팅 그리드 기술을 개발하던 2000년대 초반, LHC 실험에 직접 참여하지는 않지만 그리드 컴퓨팅 기술을 다양한 분야에서 응용하는 방법을 연구하던 컴퓨터 과학자들과 소프트웨어 엔지니어들이 다양한 그리드 응용 기술들을 연구하고 발표하기 시작했다. 당시 XML을 이용한 웹 기술 기반의 서비스 지향 아키텍처와 관련 기술들이 크게 발전하던 때라, 그리드 컴퓨팅 서비스를 포함한 서비스 형태로 제공되는 다양한 연구 인프라들을 메시업하여 자동화하는 기술에 대한 관심이 높아졌다. 당시 그리드 기술의 대표적인 응용 분야로 LHC 실험과 함께 주목받던 분야가 휴먼 게놈 프로젝트로 DNA 서열 정보가 대량으로 생산되기 시작하면서 시작된 생물정보학(bioinformatics) 분야였다. LHC 실험과 마찬가지로, DNA 시퀀서(sequencer) 장비로 읽어낸 DNA 서열 정보 단편들을 하나의 완전한 DNA 서열 정보로 조립하고 맞추기 위해 많은 계산이 필요했는데 이 때문에 그리드 컴퓨팅과 같은 고성능 컴퓨팅 기술이 필요했던 것이다. 그리드 컴퓨팅이 적용되기에 적합한 응용 분야로서 생물정보학의 특성은 다음과 같다. 첫번째로, DNA 염기 서열 정보를 비롯해 단백질체 정보, 대사 네트워크 정보 등 생물정보학에서 활용되는 데이터들은 종류도 많고, 복잡도도 상당히 높다. 생명체가 복잡도가 높은 복잡계 시스템이기 때문에, 생명체를 기술하기 위한 정보의 종류도 DNA 염기 서열, 아미노산 서열 및 단백질 3차원...

CIO 시맨틱웹 휴먼 게놈 유전공학 생물정보학 컴퓨팅 그리드 LHC 김진철 분석 데이터 과학자 빅데이터 유럽생물정보학연구소

2018.07.23

LHC 컴퓨팅 그리드의 워크플로우 관리 기술 LHC 실험 장치와 LHC 컴퓨팅 그리드 기술의 상당수는 LHC 데이터 분석 과정을 자동화하기 위한 기술들이라고 앞서 말한 바 있다. 이번 글에서는 LHC 빅데이터 기술 중에서 가장 진보된 자동화 기술의 하나인 워크플로우 관리(workflow management)를 소개하고, 이러한 워크플로우 관리 기술이 일반 기업의 빅데이터 활용에서 어떤 중요성이 있는지 같이 생각해보고자 한다. LHC 과학자들이 LHC 컴퓨팅 그리드 기술을 개발하던 2000년대 초반, LHC 실험에 직접 참여하지는 않지만 그리드 컴퓨팅 기술을 다양한 분야에서 응용하는 방법을 연구하던 컴퓨터 과학자들과 소프트웨어 엔지니어들이 다양한 그리드 응용 기술들을 연구하고 발표하기 시작했다. 당시 XML을 이용한 웹 기술 기반의 서비스 지향 아키텍처와 관련 기술들이 크게 발전하던 때라, 그리드 컴퓨팅 서비스를 포함한 서비스 형태로 제공되는 다양한 연구 인프라들을 메시업하여 자동화하는 기술에 대한 관심이 높아졌다. 당시 그리드 기술의 대표적인 응용 분야로 LHC 실험과 함께 주목받던 분야가 휴먼 게놈 프로젝트로 DNA 서열 정보가 대량으로 생산되기 시작하면서 시작된 생물정보학(bioinformatics) 분야였다. LHC 실험과 마찬가지로, DNA 시퀀서(sequencer) 장비로 읽어낸 DNA 서열 정보 단편들을 하나의 완전한 DNA 서열 정보로 조립하고 맞추기 위해 많은 계산이 필요했는데 이 때문에 그리드 컴퓨팅과 같은 고성능 컴퓨팅 기술이 필요했던 것이다. 그리드 컴퓨팅이 적용되기에 적합한 응용 분야로서 생물정보학의 특성은 다음과 같다. 첫번째로, DNA 염기 서열 정보를 비롯해 단백질체 정보, 대사 네트워크 정보 등 생물정보학에서 활용되는 데이터들은 종류도 많고, 복잡도도 상당히 높다. 생명체가 복잡도가 높은 복잡계 시스템이기 때문에, 생명체를 기술하기 위한 정보의 종류도 DNA 염기 서열, 아미노산 서열 및 단백질 3차원...

2018.07.23

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (2)

지난 칼럼에 이어 이번에는 빅데이터 주요 기술 조건 가운데 빅데이터 분석 플랫폼의 요건에 대해 알아보자. LHC 실험의 공식 데이터 분석 플랫폼 - ROOT LHC 실험을 비롯한 과학실험은 항상 데이터 분석 과정이 필수다. 특히, 실험을 통해 얻은 데이터가 어느 정도로 유의미하고 믿을 만한 것인지, 실험을 수행했을 때 세웠던 가설과 이론적인 연구를 통해 예측했던 결과가 어느 정도로 실험 결과를 잘 설명하는지 확인하기 위해서는 데이터를 정밀하게 수집하고 분석해야 한다. 이런 이유로 데이터 분석은 과학 실험과 연구의 기본이라고 할 수 있고, 언제나 과학자들은 데이터 분석을 효과적으로 할 수 있는 도구를 개발해왔다. 컴퓨터 기술이 개발된 배경에는 여러 가지가 있지만, 무엇보다도 물리학자들과 수학자들이 많이 하게 되는 수치 계산을 빠르고 자동화하려는 목적이 컸다. 컴퓨터 과학과 기술이 발전하면서 컴퓨터 과학 자체의 발전으로 새로운 컴퓨팅 기술과 기술이 등장하기도 했지만, 컴퓨팅 기술의 가장 큰 동인 중의 하나는 더 많은 계산을 더 신속하게 처리할 수 있는 컴퓨터를 만들고, 이렇게 컴퓨터가 더 많은 계산을 신속하게 처리할 수 있도록 명령하는 프로그램, 또는 소프트웨어를 얼마나 빠른 시간에 효과적으로 만드느냐 하는 것이었다. LHC 가속기 전에 CERN이 수행했던 실험을 위한 가속기인 LEP가 운영되던 1980년대 후반만 해도 과학 분야에서 데이터 분석 소프트웨어가 비중 있게 여겨지지 않았다. 물론 1980년대 들어와 개인용 컴퓨터 기술과 그래픽 프로세서 기술이 발전하면서, MATLAB과 같은 과학기술 계산 전용 소프트웨어와 그래프를 그리는 데이터 분석 도구로 유명한 오리진(Origin)과 같은 소프트웨어가 등장하기는 했지만, 오늘날 생각하는 데이터 분석 소프트웨어와는 거리가 멀었다. LHC 가속기 전에 물리학자들의 데이터 분석 도구는 프로그래밍 언어였다. 1980년대까지만 해도 과학기술 계산에는 포트란이 많이 쓰였다. 데이터 분석...

CIO 포트란 LHC 김진철 물리학 스파크 실험 파이썬 SPSS 하둡 맵리듀스 데이터 과학자 빅데이터 SAS MATLAB

2018.04.24

지난 칼럼에 이어 이번에는 빅데이터 주요 기술 조건 가운데 빅데이터 분석 플랫폼의 요건에 대해 알아보자. LHC 실험의 공식 데이터 분석 플랫폼 - ROOT LHC 실험을 비롯한 과학실험은 항상 데이터 분석 과정이 필수다. 특히, 실험을 통해 얻은 데이터가 어느 정도로 유의미하고 믿을 만한 것인지, 실험을 수행했을 때 세웠던 가설과 이론적인 연구를 통해 예측했던 결과가 어느 정도로 실험 결과를 잘 설명하는지 확인하기 위해서는 데이터를 정밀하게 수집하고 분석해야 한다. 이런 이유로 데이터 분석은 과학 실험과 연구의 기본이라고 할 수 있고, 언제나 과학자들은 데이터 분석을 효과적으로 할 수 있는 도구를 개발해왔다. 컴퓨터 기술이 개발된 배경에는 여러 가지가 있지만, 무엇보다도 물리학자들과 수학자들이 많이 하게 되는 수치 계산을 빠르고 자동화하려는 목적이 컸다. 컴퓨터 과학과 기술이 발전하면서 컴퓨터 과학 자체의 발전으로 새로운 컴퓨팅 기술과 기술이 등장하기도 했지만, 컴퓨팅 기술의 가장 큰 동인 중의 하나는 더 많은 계산을 더 신속하게 처리할 수 있는 컴퓨터를 만들고, 이렇게 컴퓨터가 더 많은 계산을 신속하게 처리할 수 있도록 명령하는 프로그램, 또는 소프트웨어를 얼마나 빠른 시간에 효과적으로 만드느냐 하는 것이었다. LHC 가속기 전에 CERN이 수행했던 실험을 위한 가속기인 LEP가 운영되던 1980년대 후반만 해도 과학 분야에서 데이터 분석 소프트웨어가 비중 있게 여겨지지 않았다. 물론 1980년대 들어와 개인용 컴퓨터 기술과 그래픽 프로세서 기술이 발전하면서, MATLAB과 같은 과학기술 계산 전용 소프트웨어와 그래프를 그리는 데이터 분석 도구로 유명한 오리진(Origin)과 같은 소프트웨어가 등장하기는 했지만, 오늘날 생각하는 데이터 분석 소프트웨어와는 거리가 멀었다. LHC 가속기 전에 물리학자들의 데이터 분석 도구는 프로그래밍 언어였다. 1980년대까지만 해도 과학기술 계산에는 포트란이 많이 쓰였다. 데이터 분석...

2018.04.24

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (1)

클라우드 컴퓨팅의 서막 – CERN은 왜 클라우드 컴퓨팅이 필요했나? LHC 실험과 인공지능 기술에 대한 내용을 더 다루기 전에, 독자들의 이해를 더 쉽게 돕기 위해 클라우드 컴퓨팅과 LHC 실험과의 관계를 살펴보고 지나가려 한다. 오늘은 CERN에서 어떻게 클라우드 컴퓨팅이 시작되었는지 같이 살펴보도록 하자. 흔히 많은 클라우드 컴퓨팅은 구글이 제일 먼저 시작했다고 알고 있다. 이 말은 반은 맞고, 반은 틀리다. 클라우드 컴퓨팅의 기반이 되는 기술은 사실 구글이 클라우드 컴퓨팅이라는 말을 사용하기 전에 이미 CERN과 IBM 등의 회사들을 통해서 많이 개발되어 있었기 때문에 반은 틀린 말이라는 것이고, 클라우드 컴퓨팅이라는 용어가 처음 생겨나서 업계에 자리 잡게끔 한 것이 구글이기 때문에 반은 맞는 사실이다. 클라우드 컴퓨팅이라는 말이 처음 나왔을 때는 그 의미가 명확하지 않아서, 오라클의 회장 래리 엘리슨은 클라우드 컴퓨팅이 무엇인지 잘 모르겠다고 혹독한 비판을 하기도 했다[2-7]. 1992년 CERN의 과학자들은 LHC 가속기와 네 개의 검출기의 개념 설계를 진행하면서 연간 약 1PB의 데이터가 생성될 것임을 알게 된 후, 과연 이 빅데이터를 어떻게 분석할 것인지 고민하기 시작했다. 검출기 데이터 처리를 자동화하기 위해 Level-1 트리거와 고수준 트리거(high-level trigger)에서 데이터 처리를 자동화하는 분산컴퓨팅 시스템을 만드는 것과는 별개로, 효과적인 데이터 분석을 하기 위해서는 또 다른 기술적인 난관을 해결해야 했다. 먼저, 분석하게 될 물리학자들이 CERN에 모두 모여 있지 않다는 것이다. LHC 데이터 분석을 수행할 물리학자들은 전 세계의 다양한 연구소에 소속되어 본인들이 소속된 연구기관에서 분석을 수행하게 될 것이었다. 이렇게 전 세계에 걸쳐 일하는 사람들이 어떻게 LHC 데이터를 전송받고, 전송받은 데이터를 분석하기 위한 막대한 양의 계산을 할 수 있도록 컴퓨팅 시스템을 만들어야 할 것인가? ...

오라클 힉스 입자 스파크 물리학 김진철 CERN LHC 메타컴퓨팅 자율컴퓨팅 아마존 웹 서비스 하둡 빅데이터 IBM AWS 오픈스택 미들웨어 래리 엘리슨 맵리듀스 수퍼컴퓨터 빅테이블

2017.09.25

클라우드 컴퓨팅의 서막 – CERN은 왜 클라우드 컴퓨팅이 필요했나? LHC 실험과 인공지능 기술에 대한 내용을 더 다루기 전에, 독자들의 이해를 더 쉽게 돕기 위해 클라우드 컴퓨팅과 LHC 실험과의 관계를 살펴보고 지나가려 한다. 오늘은 CERN에서 어떻게 클라우드 컴퓨팅이 시작되었는지 같이 살펴보도록 하자. 흔히 많은 클라우드 컴퓨팅은 구글이 제일 먼저 시작했다고 알고 있다. 이 말은 반은 맞고, 반은 틀리다. 클라우드 컴퓨팅의 기반이 되는 기술은 사실 구글이 클라우드 컴퓨팅이라는 말을 사용하기 전에 이미 CERN과 IBM 등의 회사들을 통해서 많이 개발되어 있었기 때문에 반은 틀린 말이라는 것이고, 클라우드 컴퓨팅이라는 용어가 처음 생겨나서 업계에 자리 잡게끔 한 것이 구글이기 때문에 반은 맞는 사실이다. 클라우드 컴퓨팅이라는 말이 처음 나왔을 때는 그 의미가 명확하지 않아서, 오라클의 회장 래리 엘리슨은 클라우드 컴퓨팅이 무엇인지 잘 모르겠다고 혹독한 비판을 하기도 했다[2-7]. 1992년 CERN의 과학자들은 LHC 가속기와 네 개의 검출기의 개념 설계를 진행하면서 연간 약 1PB의 데이터가 생성될 것임을 알게 된 후, 과연 이 빅데이터를 어떻게 분석할 것인지 고민하기 시작했다. 검출기 데이터 처리를 자동화하기 위해 Level-1 트리거와 고수준 트리거(high-level trigger)에서 데이터 처리를 자동화하는 분산컴퓨팅 시스템을 만드는 것과는 별개로, 효과적인 데이터 분석을 하기 위해서는 또 다른 기술적인 난관을 해결해야 했다. 먼저, 분석하게 될 물리학자들이 CERN에 모두 모여 있지 않다는 것이다. LHC 데이터 분석을 수행할 물리학자들은 전 세계의 다양한 연구소에 소속되어 본인들이 소속된 연구기관에서 분석을 수행하게 될 것이었다. 이렇게 전 세계에 걸쳐 일하는 사람들이 어떻게 LHC 데이터를 전송받고, 전송받은 데이터를 분석하기 위한 막대한 양의 계산을 할 수 있도록 컴퓨팅 시스템을 만들어야 할 것인가? ...

2017.09.25

김진철의 How-to-Big Data | 빅데이터와 인공지능 (2)

CERN이 인공지능 기술을 소환한 이유 – 2015년 LHC 데이터 과학 워크샵[3] 2015년 11월 9일, CERN의 고에너지 물리학자들과 전세계의 인공지능 기술 전문가들이 모여 CERN의 검출기 데이터 처리 및 분석에 최신 인공지능 기술을 어떻게 적용할 수 있을지 논의하는 워크샵을 열었다. 11월 9일부터 13일까지 5일간 열린 이 워크샵은 인공지능 기술이 앞으로의 과학 연구를 어떻게 바꿔 갈지 엿보게 하는 중요한 회의였다[2~3]. 이 워크샵에서 지금까지 인공지능 기술을 LHC 빅데이터를 처리, 분석에 적용한 성공 사례들이 소개되었다. 이에 더해서, LHC 빅데이터를 온전하게 활용하지 못하는 현재의 LHC 빅데이터 처리, 분석 기술의 한계를 인공지능을 이용해 어떻게 극복할 수 있을지, 그리고 인공지능 기술을 통해 극복할 수 있을 것으로 보이는 미해결 문제 및 요구사항에 대해서도 소개 되었다. 특히, 인공지능 기술이 LHC 빅데이터 분석에 줄 수 있는 많은 가능성들에 대해서 앞으로의 LHC 업그레이드 계획과 함께 열띤 토론이 이어졌다. 예전의 세번째 글에서 잠시 소개했던 것과 같이, CMS 검출기의 경우 LHC 가속기에서 충돌하는 양성자빔은 초당 4천만 번의 횟수로 원시 이벤트 데이터를 발생시킨다. 이 때문에 초당 약 1TB의 많은 원시 데이터(raw data)가 발생한다[1, 4]. 검출기 1단계 트리거(Level-1 Trigger) 하드웨어 장치에서 원시 데이터 처리에 3.2 마이크로초가 걸리며, 이 3.2 마이크로초 동안 원시 데이터를 보관, 처리할 수 있도록 Level-1 트리거의 전자회로(front-end electronics)가 설계, 제작되었다[1, 4]. 이러한 Level-1 트리거 하드웨어의 동작 특성 때문에 원시 데이터의 샘플링 빈도(sampling frequency)가 100kHZ에 불과하다. 이 얘기는 CMS 검출기에서 수집한 이벤트 원시 데이터의 약 천분의 일만 Level-1 트리거의 필터를 통과하여 ...

CIO LHC CERN 유럽입자물리학연구소 김진철 기계학습 인공지능 통계 빅데이터 구글 정보물리학

2017.08.28

CERN이 인공지능 기술을 소환한 이유 – 2015년 LHC 데이터 과학 워크샵[3] 2015년 11월 9일, CERN의 고에너지 물리학자들과 전세계의 인공지능 기술 전문가들이 모여 CERN의 검출기 데이터 처리 및 분석에 최신 인공지능 기술을 어떻게 적용할 수 있을지 논의하는 워크샵을 열었다. 11월 9일부터 13일까지 5일간 열린 이 워크샵은 인공지능 기술이 앞으로의 과학 연구를 어떻게 바꿔 갈지 엿보게 하는 중요한 회의였다[2~3]. 이 워크샵에서 지금까지 인공지능 기술을 LHC 빅데이터를 처리, 분석에 적용한 성공 사례들이 소개되었다. 이에 더해서, LHC 빅데이터를 온전하게 활용하지 못하는 현재의 LHC 빅데이터 처리, 분석 기술의 한계를 인공지능을 이용해 어떻게 극복할 수 있을지, 그리고 인공지능 기술을 통해 극복할 수 있을 것으로 보이는 미해결 문제 및 요구사항에 대해서도 소개 되었다. 특히, 인공지능 기술이 LHC 빅데이터 분석에 줄 수 있는 많은 가능성들에 대해서 앞으로의 LHC 업그레이드 계획과 함께 열띤 토론이 이어졌다. 예전의 세번째 글에서 잠시 소개했던 것과 같이, CMS 검출기의 경우 LHC 가속기에서 충돌하는 양성자빔은 초당 4천만 번의 횟수로 원시 이벤트 데이터를 발생시킨다. 이 때문에 초당 약 1TB의 많은 원시 데이터(raw data)가 발생한다[1, 4]. 검출기 1단계 트리거(Level-1 Trigger) 하드웨어 장치에서 원시 데이터 처리에 3.2 마이크로초가 걸리며, 이 3.2 마이크로초 동안 원시 데이터를 보관, 처리할 수 있도록 Level-1 트리거의 전자회로(front-end electronics)가 설계, 제작되었다[1, 4]. 이러한 Level-1 트리거 하드웨어의 동작 특성 때문에 원시 데이터의 샘플링 빈도(sampling frequency)가 100kHZ에 불과하다. 이 얘기는 CMS 검출기에서 수집한 이벤트 원시 데이터의 약 천분의 일만 Level-1 트리거의 필터를 통과하여 ...

2017.08.28

김진철의 How-to-Big Data | 빅데이터와 인공지능 (1)

LHC 실험 데이터의 복잡성과 인공지능 기술 이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자. LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다. 검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류...

CIO LHC CERN 유럽입자물리학연구소 김진철 자율주행차 기계학습 인공지능 통계 빅데이터 정보물리학

2017.07.26

LHC 실험 데이터의 복잡성과 인공지능 기술 이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자. LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다. 검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류...

2017.07.26

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (4)

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

CIO 빅데이터 메타데이터 양자역학 김진철 유럽입자물리학연구소 CERN LHC 입자검출기

2017.07.05

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

2017.07.05

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)

LHC 검출기 및 가속기 데이터의 수집과 측정 지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자. LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다. 원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.) LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠...

CIO 입자검출기 LHC CERN 유럽입자물리학연구소 김진철 양자역학 빅데이터 소셜네트워크 아마존고

2017.05.26

LHC 검출기 및 가속기 데이터의 수집과 측정 지난번 연재(How-to-Big Data 4 – 빅데이터 수집에 관한 생각 (2))에서 데이터 수집의 중요성에 대해서 강조했다. 빅데이터 가공 과정에서 첨단 기술이 가장 많이 필요한 부분은 측정과 수집 부분이다. LHC 검출기와 가속기의 데이터 수집 및 측정 과정을 살펴보면서 빅데이터 수집에서 측정 과정의 중요성에 대해 같이 생각해보자. LHC의 입자 검출기들은 소립자 세계를 들여다보는 일종의 현미경, 사진기와 같다고 지난 첫 번째 연재(How-to-Big Data 1 – 빅데이터 비즈니스의 근본적인 질문)에서 잠깐 언급했었다. 사실 눈에 보이지도 않는 나노(10^-9m), 펨토(10^-12m), 아토(10^-15m) 스케일, 심지어 관찰 가능한 물리 현상이 일어날 수 있는 공간적인 한계로 받아들여지고 있는 플랑크 스케일(1.61622938×10^−35m) 수준에서 일어나는 현상들은 눈으로 직접 관찰할 수 없기 때문에 이런 현상을 관찰하기 위한 방법을 고안하는 것 자체가 기술적인 난제다. 원자, 분자, 소립자들과 같이 눈에 보이지 않는 영역을 관찰하는 것 자체가 근본적인 철학적인 문제를 제기한다. 이 때문에 20세기 초반 물리학자들은 양자역학을 개발하는 초기 과정에서 불확정성 원리로 대표되는 자연 현상 인식의 한계와 양자역학의 물리학적 해석 문제에 대해 많은 논란을 벌이기도 했다. (신기하게도 양자역학을 고안하면서 알게 된 측정 과정의 철학적인 문제들은 소셜 빅데이터 수집에서도 비슷하게 나타난다. 자세한 내용은 이후에 다시 언급하기로 한다.) LHC에서 입자들의 정보를 얻기 위해 측정하는 물리량은 여러 종류가 있는데, 이중에서 독자분들이 상대적으로 이해하기 쉬운 입자들의 궤적 측정 방법에 대해 살펴보기로 하자. 입자들의 궤적(trajectory)이란 입자가 이동하는 경로를 물리학 전문용어로 말한 것이다. 소립자들이 빛의 속도에 가까운 아주 빠...

2017.05.26

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)

CERN과 LHC 실험 프로그램의 비즈니스 모델 빅데이터 비즈니스에서 가장 중요한 부분이 빅데이터를 수집하는 단계라고 지난 연재(세 번째 연재)에서 강조한 바 있다. 빅데이터가 끊임없이 조직의 시스템으로 흘러들어와야 이를 기반으로 안정된 빅데이터 비즈니스를 할 수 있다고 말했었다. CERN의 LHC 가속기와 입자 검출기의 관계, 입자 검출기에서 어떻게 데이터 수집이 이루어지는지 살펴보면서 그 의미를 살펴보았다. 과연 어떻게 해야 데이터가 조직의 비즈니스 시스템으로 끊임없이 흘러들어오게 할 수 있을까? 단순히 하둡 기반의 빅데이터 처리 시스템을 구축한다고 해서 데이터가 자동으로 조직의 비즈니스 시스템으로 흘러들어오지는 않을 것이다. 지금 하는 비즈니스를 하는 과정에서 수집된 데이터가 그렇다고 모두 빅데이터 비즈니스를 위해 적합한 데이터가 될지도 알 수 없는 일이다. 빅데이터 수집 과정과 비즈니스 모델과의 관계를 생각해보기 위해 CERN의 비즈니스 모델이 무엇인지 같이 살펴보도록 하자. CERN은 영리를 목적으로 하는 조직이 아니기 때문에 비즈니스 모델이 있겠냐고 생각할 수 있지만, CERN도 비영리 조직으로서 비즈니스 모델을 가지고 있다. CERN은 국제기구기 때문에 비정부기구(NGO)나 비영리단체의 비즈니스 모델을 따른다고 보면 이해하기가 쉽다. CERN이 조직을 유지하기 위해서는 주요 고객들로부터 CERN의 존재 이유를 끊임없이 설득하고 매년 예산을 받아야 한다. CERN의 주요 고객은 크게 세 가지로 구분할 수 있다. 우선 CERN 운영의 근거를 만들고 국제법에 따라 예산을 분담금의 형태로 제공하는 정회원국인 유럽 회원국과 미국, 일본 등 준회원국 정부이다. 이들 회원국들은 재정 기여도 면에서 제일 큰 고객이라고 할 수 있다. CERN은 분담금을 내는 것이 국가에 이익이라는 것을 회원국의 국민들이 수긍할 수 있도록, 각 회원국 정부가 CERN 분담금을 내는 것이 정치적으로 부담이 되지 않게끔 좋은 과학적인 성과와 지식을 지속적으로 창출해 ...

CIO 양성자빔 LHC CERN 유럽입자물리학연구소 김진철 하둡 비즈니스 모델 빅데이터 입자검출기

2017.04.20

CERN과 LHC 실험 프로그램의 비즈니스 모델 빅데이터 비즈니스에서 가장 중요한 부분이 빅데이터를 수집하는 단계라고 지난 연재(세 번째 연재)에서 강조한 바 있다. 빅데이터가 끊임없이 조직의 시스템으로 흘러들어와야 이를 기반으로 안정된 빅데이터 비즈니스를 할 수 있다고 말했었다. CERN의 LHC 가속기와 입자 검출기의 관계, 입자 검출기에서 어떻게 데이터 수집이 이루어지는지 살펴보면서 그 의미를 살펴보았다. 과연 어떻게 해야 데이터가 조직의 비즈니스 시스템으로 끊임없이 흘러들어오게 할 수 있을까? 단순히 하둡 기반의 빅데이터 처리 시스템을 구축한다고 해서 데이터가 자동으로 조직의 비즈니스 시스템으로 흘러들어오지는 않을 것이다. 지금 하는 비즈니스를 하는 과정에서 수집된 데이터가 그렇다고 모두 빅데이터 비즈니스를 위해 적합한 데이터가 될지도 알 수 없는 일이다. 빅데이터 수집 과정과 비즈니스 모델과의 관계를 생각해보기 위해 CERN의 비즈니스 모델이 무엇인지 같이 살펴보도록 하자. CERN은 영리를 목적으로 하는 조직이 아니기 때문에 비즈니스 모델이 있겠냐고 생각할 수 있지만, CERN도 비영리 조직으로서 비즈니스 모델을 가지고 있다. CERN은 국제기구기 때문에 비정부기구(NGO)나 비영리단체의 비즈니스 모델을 따른다고 보면 이해하기가 쉽다. CERN이 조직을 유지하기 위해서는 주요 고객들로부터 CERN의 존재 이유를 끊임없이 설득하고 매년 예산을 받아야 한다. CERN의 주요 고객은 크게 세 가지로 구분할 수 있다. 우선 CERN 운영의 근거를 만들고 국제법에 따라 예산을 분담금의 형태로 제공하는 정회원국인 유럽 회원국과 미국, 일본 등 준회원국 정부이다. 이들 회원국들은 재정 기여도 면에서 제일 큰 고객이라고 할 수 있다. CERN은 분담금을 내는 것이 국가에 이익이라는 것을 회원국의 국민들이 수긍할 수 있도록, 각 회원국 정부가 CERN 분담금을 내는 것이 정치적으로 부담이 되지 않게끔 좋은 과학적인 성과와 지식을 지속적으로 창출해 ...

2017.04.20

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)

‘빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?’에 이어 이번에는 빅데이터 비즈니스에서 빅데이터 수집의 중요성을 LHC의 빅데이터 수집 과정에 대해 알아보면서 같이 생각해보자. 빅데이터 원천으로서의 LHC 가속기 LHC를 운영하는 CERN은 구글과 같은 기업처럼 데이터를 이용해 직접 수익을 내는 조직은 아니지만, 조직의 목적에 맞는 빅데이터를 만들기 위한 조건을 탐구해보기에는 충분하다. 지난번 연재에서 소개했듯이, LHC에서는 초당 약 4,000만 번의 양성자 빔 충돌이 일어난다. 양성자 빔이 양성자 빔 원(proton beam source)에서 일단 생성되어 가속기가 켜지기 시작하면 매년 3월부터 11월까지 계속 켜져 있게 된다. (이를 빔타임(beam time)이라고 한다. 실제 양성자 빔으로 하는 실험은 3~10월, 그리고 중이온 빔을 이용한 실험이 11월에 진행된다.) 양성자 빔 충돌 이벤트는 양성자 빔만 생성해서 LHC 주가속기에 가두어두기만 하면 매초 4,000만 번이 일어나게 된다. 이 양성자 빔이 충돌하면서 이벤트를 만들 때 다양한 종류의 입자들이 궤적을 그리며 충돌지점 부근에 흩어지게 된다. 이렇게 흩어진 입자들은 자신이 가진 플러스, 또는 마이너스 전하 때문에 물질을 지나게 되면 물질 내부의 원자, 분자들과 상호작용을 일으키게 되며, 이런 상호작용의 자취를 전기 신호로 변환하여 검출기가 채집한 후 입자들의 궤적을 기록하게 된다. 그림 1. LHC 가속기에서 일어나는 양성자 빔 충돌 과정 양성자 빔은 14TeV의 고 에너지로 초당 4,000만 번, 양성자들끼리는 초당 1,000~10억 번 충돌하게 된다. (이때 발생하는 에너지는 한번에 498.4kg의 구리를 녹일 수 있는 에너지다[1].) 양성자간 충돌로 소립자들이 상호 작용하여 힉스 입자 등의 다양한 입자가 발생한다 (그림 출처: [2]). 입자검출기는 최첨단 기술의 집약체다. 규모도 어마어마하게 클 뿐...

CIO 빅데이터 하둡 김진철 유럽입자물리학연구소 CERN LHC 양성자빔 입자검출기

2017.03.23

‘빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?’에 이어 이번에는 빅데이터 비즈니스에서 빅데이터 수집의 중요성을 LHC의 빅데이터 수집 과정에 대해 알아보면서 같이 생각해보자. 빅데이터 원천으로서의 LHC 가속기 LHC를 운영하는 CERN은 구글과 같은 기업처럼 데이터를 이용해 직접 수익을 내는 조직은 아니지만, 조직의 목적에 맞는 빅데이터를 만들기 위한 조건을 탐구해보기에는 충분하다. 지난번 연재에서 소개했듯이, LHC에서는 초당 약 4,000만 번의 양성자 빔 충돌이 일어난다. 양성자 빔이 양성자 빔 원(proton beam source)에서 일단 생성되어 가속기가 켜지기 시작하면 매년 3월부터 11월까지 계속 켜져 있게 된다. (이를 빔타임(beam time)이라고 한다. 실제 양성자 빔으로 하는 실험은 3~10월, 그리고 중이온 빔을 이용한 실험이 11월에 진행된다.) 양성자 빔 충돌 이벤트는 양성자 빔만 생성해서 LHC 주가속기에 가두어두기만 하면 매초 4,000만 번이 일어나게 된다. 이 양성자 빔이 충돌하면서 이벤트를 만들 때 다양한 종류의 입자들이 궤적을 그리며 충돌지점 부근에 흩어지게 된다. 이렇게 흩어진 입자들은 자신이 가진 플러스, 또는 마이너스 전하 때문에 물질을 지나게 되면 물질 내부의 원자, 분자들과 상호작용을 일으키게 되며, 이런 상호작용의 자취를 전기 신호로 변환하여 검출기가 채집한 후 입자들의 궤적을 기록하게 된다. 그림 1. LHC 가속기에서 일어나는 양성자 빔 충돌 과정 양성자 빔은 14TeV의 고 에너지로 초당 4,000만 번, 양성자들끼리는 초당 1,000~10억 번 충돌하게 된다. (이때 발생하는 에너지는 한번에 498.4kg의 구리를 녹일 수 있는 에너지다[1].) 양성자간 충돌로 소립자들이 상호 작용하여 힉스 입자 등의 다양한 입자가 발생한다 (그림 출처: [2]). 입자검출기는 최첨단 기술의 집약체다. 규모도 어마어마하게 클 뿐...

2017.03.23

김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?

지난 칼럼 ‘김진철의 How-to-Big Data | 연재를 시작하며’에 이어 이번에는 빅데이터 활용에 관한 근본적인 질문에 대해 이야기하려 한다.  유럽입자물리학연구소가 LHC를 건설한 이유 유럽입자물리학연구소(CERN)가 75억 유로, 우리나라 돈으로 약 11조 원(2010년 기준)에 해당하는 막대한 예산을 들여 대형강입자가속기(The Large Hadron Collider; 이하 LHC)를 지은 이유가 무엇일까? 왜 LHC가 필요한 것일까? LHC가 만들어내는 빅데이터가 왜 그렇게 중요한 것일까? LHC의 빅데이터 얘기를 하기 전에 LHC 실험의 배경에 대해서 간략하게 소개하고자 한다. LHC 실험이 시작된 배경과 LHC가 어떤 시설인지를 이해하면 앞으로 하게 될 LHC 빅데이터 시스템에 대한 설명도 다소 쉽게 이해할 수 있을 것이다. LHC는 일종의 거대한 현미경이다. LHC 가속기는 두 개의 양성자빔을 반대 방향으로 빛의 속도의 99.99999999%까지 매우 빠르게 가속시켜 질량 중심 에너지가 14TeV인 고에너지 상태의 양성자빔 충돌을 일으켜 양성자빔내의 양성자들이 서로 충돌할 때 나타나는 현상을 분석하는 장치다. 그림 1. LHC 가속기의 개요 LHC 가속기는 제네바 부근 스위스-프랑스 국경지방 지하 100m에 건설된 둘레 27km의 거대 실험 장치이다[1]. 양성자빔들을 서로 충돌시키는 이유는 두 대의 자동차가 서로 부딪칠 때 일어나는 일로 비유할 수 있다. 자동차 두 대가 빠른 속도로 충돌하면, 자동차가 크게 부서지면서 자동차에 있던 각종 부속이나 부품, 구성품들이 차 바깥으로 튀어나오게 된다. 양성자빔이 충돌할 때에도 같은 일이 일어난다. 입자물리학자들이 밝혀낸 바에 따르면 양성자도 우주의 근본 입자, 즉 더 이상 쪼개지지 않는 최소 단위가 아니며, 양성자는 두 개의 업쿼크와 한 개의 다운쿼크로 이뤄진 것으로 밝혀졌다. 양성자빔들이 고에너지로 서로 충돌하면서 양성자 내부에...

빅데이터 김진철 유럽입자물리학연구소 CERN LHC 양성자빔

2017.02.23

지난 칼럼 ‘김진철의 How-to-Big Data | 연재를 시작하며’에 이어 이번에는 빅데이터 활용에 관한 근본적인 질문에 대해 이야기하려 한다.  유럽입자물리학연구소가 LHC를 건설한 이유 유럽입자물리학연구소(CERN)가 75억 유로, 우리나라 돈으로 약 11조 원(2010년 기준)에 해당하는 막대한 예산을 들여 대형강입자가속기(The Large Hadron Collider; 이하 LHC)를 지은 이유가 무엇일까? 왜 LHC가 필요한 것일까? LHC가 만들어내는 빅데이터가 왜 그렇게 중요한 것일까? LHC의 빅데이터 얘기를 하기 전에 LHC 실험의 배경에 대해서 간략하게 소개하고자 한다. LHC 실험이 시작된 배경과 LHC가 어떤 시설인지를 이해하면 앞으로 하게 될 LHC 빅데이터 시스템에 대한 설명도 다소 쉽게 이해할 수 있을 것이다. LHC는 일종의 거대한 현미경이다. LHC 가속기는 두 개의 양성자빔을 반대 방향으로 빛의 속도의 99.99999999%까지 매우 빠르게 가속시켜 질량 중심 에너지가 14TeV인 고에너지 상태의 양성자빔 충돌을 일으켜 양성자빔내의 양성자들이 서로 충돌할 때 나타나는 현상을 분석하는 장치다. 그림 1. LHC 가속기의 개요 LHC 가속기는 제네바 부근 스위스-프랑스 국경지방 지하 100m에 건설된 둘레 27km의 거대 실험 장치이다[1]. 양성자빔들을 서로 충돌시키는 이유는 두 대의 자동차가 서로 부딪칠 때 일어나는 일로 비유할 수 있다. 자동차 두 대가 빠른 속도로 충돌하면, 자동차가 크게 부서지면서 자동차에 있던 각종 부속이나 부품, 구성품들이 차 바깥으로 튀어나오게 된다. 양성자빔이 충돌할 때에도 같은 일이 일어난다. 입자물리학자들이 밝혀낸 바에 따르면 양성자도 우주의 근본 입자, 즉 더 이상 쪼개지지 않는 최소 단위가 아니며, 양성자는 두 개의 업쿼크와 한 개의 다운쿼크로 이뤄진 것으로 밝혀졌다. 양성자빔들이 고에너지로 서로 충돌하면서 양성자 내부에...

2017.02.23

김진철의 How-to-Big Data | 연재를 시작하며

* SK텔레콤에서 데이터 과학자로 재직중인 김진철 박사의 칼럼 '김진철의 How-to-Big Data'를 1월부터 연재합니다. 빅데이터 – 실재인가, 허상인가? 전 세계적 IT 트렌드로 조명받게 된 빅데이터가 우리나라에서 큰 관심을 받아 급격하게 성장하기 시작한 2011년을 많은 사람들이 우리나라 빅데이터 비즈니스의 원년으로 보고 있다. 그 이후로 국내 스타트업과 주요 기업들의 빅데이터 시스템 도입 및 활용 사례가 많이 알려졌으며, 빅데이터 활용으로 인해 사회가 크게 변할 것이라는 긍정적인, 또는 부정적인 예측이 넘쳐났다. 2014년 당시에는 전 세계 빅데이터 비즈니스 시장이 501억 달러까지 성장하는 금맥으로 예측되기도 했다(Wikibon, 2014년 2월, http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017). 3년이 흐른 지금도 여전히 빅데이터의 중요성에 대해서 많이 언급되고 있지만 우리나라에서 이런 전망을 뒷받침할 만한 빅데이터 활용 사례는 나오지 않고 있다. 빅데이터 시스템을 도입, 활용한 사례들이 주요 솔루션 벤더들의 자사 제품 활용 홍보 사례로서 많이 소개되고 있지만, 상당수의 사례들이 명백한 비즈니스 영향력을 보여주는 사례라고 보기는 어렵다. 심지어 최근에는 지금까지 빅데이터 비즈니스의 꽃으로 여겨졌던 데이터 과학자의 수요가 2017년부터 정체되거나 줄 것이라는 어두운 전망까지 나오고 있다(CIO Korea, 2016년 12월 14일, http://www.ciokorea.com/news/32359). 왜 이런 일이 나타나고 있는 것일까? 정말 빅데이터 활용이 기업 경영에 미치는 영향이 크지 않기 때문일까? 빅데이터가 IT 솔루션 기업들의 마케팅 용어에 불과하기 때문일까? 아니면, 일부 사람들이 주장하는 것같이 빅데이터는 허상이고 실체가 없기 때문일까? 혹은 빅데이터라는 것이 주목할 만한 가치가 없었던 현상이었던 것...

빅데이터 플링크 데이터 그리드 시스템 LHC 대형강입자가속기 CERN 유럽입자물리학연구소 김진철 스파크 데이터 사이언티스트 HANA 하둡 데이터 과학자 SQL-on-Hadoop

2017.01.23

* SK텔레콤에서 데이터 과학자로 재직중인 김진철 박사의 칼럼 '김진철의 How-to-Big Data'를 1월부터 연재합니다. 빅데이터 – 실재인가, 허상인가? 전 세계적 IT 트렌드로 조명받게 된 빅데이터가 우리나라에서 큰 관심을 받아 급격하게 성장하기 시작한 2011년을 많은 사람들이 우리나라 빅데이터 비즈니스의 원년으로 보고 있다. 그 이후로 국내 스타트업과 주요 기업들의 빅데이터 시스템 도입 및 활용 사례가 많이 알려졌으며, 빅데이터 활용으로 인해 사회가 크게 변할 것이라는 긍정적인, 또는 부정적인 예측이 넘쳐났다. 2014년 당시에는 전 세계 빅데이터 비즈니스 시장이 501억 달러까지 성장하는 금맥으로 예측되기도 했다(Wikibon, 2014년 2월, http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017). 3년이 흐른 지금도 여전히 빅데이터의 중요성에 대해서 많이 언급되고 있지만 우리나라에서 이런 전망을 뒷받침할 만한 빅데이터 활용 사례는 나오지 않고 있다. 빅데이터 시스템을 도입, 활용한 사례들이 주요 솔루션 벤더들의 자사 제품 활용 홍보 사례로서 많이 소개되고 있지만, 상당수의 사례들이 명백한 비즈니스 영향력을 보여주는 사례라고 보기는 어렵다. 심지어 최근에는 지금까지 빅데이터 비즈니스의 꽃으로 여겨졌던 데이터 과학자의 수요가 2017년부터 정체되거나 줄 것이라는 어두운 전망까지 나오고 있다(CIO Korea, 2016년 12월 14일, http://www.ciokorea.com/news/32359). 왜 이런 일이 나타나고 있는 것일까? 정말 빅데이터 활용이 기업 경영에 미치는 영향이 크지 않기 때문일까? 빅데이터가 IT 솔루션 기업들의 마케팅 용어에 불과하기 때문일까? 아니면, 일부 사람들이 주장하는 것같이 빅데이터는 허상이고 실체가 없기 때문일까? 혹은 빅데이터라는 것이 주목할 만한 가치가 없었던 현상이었던 것...

2017.01.23

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31