Offcanvas

CERN

주니퍼 네트웍스, CERN에 대용량 스위칭 솔루션 공급

CERN(유럽입자물리연구소)이 연구 업무 증가에 따라 데이터센터와 기술 네트워크의 용량을 확장하기 위해 주니퍼의 네트워킹 솔루션을 도입했다고 주니퍼 네트웍스가 26일 발표했다.  CERN은 주니퍼 네트웍스 QFX 시리즈 스위치, EX 시리즈 이더넷 스위치 도입을 완료했으며, 익스트림 컴퓨팅(Extreme Computing)을 위한 네트워크 구축을 위해 텅스텐 패브릭(Tungsten Fabric)에 대한 평가를 진행 중이다. CERN의 업무는 우주의 원리를 연구하는 것이다. 대형 강입자 가속기(Large Hadron Collider, 이하 LHC)가 설치된 CERN은 기초 물리학 분야의 연구를 통해 인간 지식의 경계를 넓히고 있다.   LHC 실험은 초당 최대 17억 개의 양성자-양성자 충돌을 관찰하도록 설계돼 초당 7.5 테라바이트 이상의 데이터를 생성한다. 이러한 이벤트 중 일부만 새로운 발견으로 이어지기 때문에 데이터 플로우를 필터링해 관리 가능한 수준으로 감소시킨다. LHC 실험의 TDAQ(Trigger and Data Acquisition) 시스템은 데이터의 필터링, 수집, 인프라 모니터링을 처리한다. 주니퍼 스위칭 포트폴리오는 높은 처리량의 연결을 제공하여 이러한 데이터 수집과 인프라 모니터링을 지원한다.  CERN의 제네바 데이터센터는 ‘펜타쿼크(Pentaquark)’ 입자 발견에서부터 일상적인 화상회의와 급여 업무에 이르는 모든 과학 프로젝트, 실험, 행정 시스템을 지원한다. 이 데이터센터의 네트워크는 1만5,000여 대의 서버와 26만여 개의 프로세서 코어를 지원하며, 전세계 연구원들이 LHC 실험 데이터를 수신해 분석할 수 있도록 만들어 준다. 지난 12개월 간 제네바 데이터센터 네트워크에서 전송된 데이터는 370페타바이트에 달한다. CERN은 새로운 과학적 발견을 지원하기 위한 데이터센터 업그레이드의 일환으로 새로운 데이터센터 코어 네트워크에 주니퍼의 QFX10008 이더넷 스위치를 구축했다. QFX1000...

주니퍼 네트웍스 CERN

2019.12.26

CERN(유럽입자물리연구소)이 연구 업무 증가에 따라 데이터센터와 기술 네트워크의 용량을 확장하기 위해 주니퍼의 네트워킹 솔루션을 도입했다고 주니퍼 네트웍스가 26일 발표했다.  CERN은 주니퍼 네트웍스 QFX 시리즈 스위치, EX 시리즈 이더넷 스위치 도입을 완료했으며, 익스트림 컴퓨팅(Extreme Computing)을 위한 네트워크 구축을 위해 텅스텐 패브릭(Tungsten Fabric)에 대한 평가를 진행 중이다. CERN의 업무는 우주의 원리를 연구하는 것이다. 대형 강입자 가속기(Large Hadron Collider, 이하 LHC)가 설치된 CERN은 기초 물리학 분야의 연구를 통해 인간 지식의 경계를 넓히고 있다.   LHC 실험은 초당 최대 17억 개의 양성자-양성자 충돌을 관찰하도록 설계돼 초당 7.5 테라바이트 이상의 데이터를 생성한다. 이러한 이벤트 중 일부만 새로운 발견으로 이어지기 때문에 데이터 플로우를 필터링해 관리 가능한 수준으로 감소시킨다. LHC 실험의 TDAQ(Trigger and Data Acquisition) 시스템은 데이터의 필터링, 수집, 인프라 모니터링을 처리한다. 주니퍼 스위칭 포트폴리오는 높은 처리량의 연결을 제공하여 이러한 데이터 수집과 인프라 모니터링을 지원한다.  CERN의 제네바 데이터센터는 ‘펜타쿼크(Pentaquark)’ 입자 발견에서부터 일상적인 화상회의와 급여 업무에 이르는 모든 과학 프로젝트, 실험, 행정 시스템을 지원한다. 이 데이터센터의 네트워크는 1만5,000여 대의 서버와 26만여 개의 프로세서 코어를 지원하며, 전세계 연구원들이 LHC 실험 데이터를 수신해 분석할 수 있도록 만들어 준다. 지난 12개월 간 제네바 데이터센터 네트워크에서 전송된 데이터는 370페타바이트에 달한다. CERN은 새로운 과학적 발견을 지원하기 위한 데이터센터 업그레이드의 일환으로 새로운 데이터센터 코어 네트워크에 주니퍼의 QFX10008 이더넷 스위치를 구축했다. QFX1000...

2019.12.26

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (13)

애자일 프로젝트 관리란? – 스크럼으로 애자일 맛보기 켄트 벡을 비롯한 일부 소프트웨어 엔지니어들이 왜 소프트웨어 엔지니어들은 항상 야근과 과로에 시달려야 하는가, 소프트웨어 프로젝트는 왜 일정을 맞추지 못하고 과도한 요구 사항 변화와 이로 인한 일정 지연에 시달리고 유난히 실패 위험이 높은 것인가, 소프트웨어 엔지니어들도 일반 직장인들과 같은 평범한 라이프스타일을 가지면서 생산성을 높일 방법은 없는 것인가 하는 문제를 고민하기 시작했다. 이를 위해 이들은 소프트웨어 개발 방식에 새로운 방법론이 필요하다고 생각하게 되었는데 이에 대한 해답으로 제시한 것이 익스트림 프로그래밍과 애자일 방법론이다.  애자일 방법론은 반복적인 과정을 통한 소프트웨어 프로젝트 실패 위험 감소와 소스 코드 품질 향상, 코드 리뷰, 페어 프로그래밍을 통한 소스 코드 품질 향상 및 버그 감소, 정기적인 플래닝과 리뷰를 통한 개발자 간 소통과 소프트웨어 개발의 암묵적인 지식 공유를 통한 위험 감소 등으로 특징 지워진다. 애자일 방법론은 린 소프트웨어 개발 방법론과 함께 일정과 자원이 넉넉지 않은 스타트업들을 중심으로 널리 쓰이기 시작하여 그 효용이 입증되면서 이제는 많은 IT 기업들에서 널리 쓰이는 소프트웨어 프로젝트 관리 방법론이 되었다. 그림 1. 애자일 선언(“The Agile Manifesto”)의 핵심 아이디어를 설명한 그림. 애자일 선언은 과거 폭포수(waterfall) 방식의 소프트웨어 공학 방법론에서 탈피하여, 고객과의 밀접한 소통, 피드백과 소프트웨어 엔지니어 간 소통과 협업, 명세서와 문서화 위주의 소프트웨어 개발보다는 실제 동작하는 소프트웨어 개발을 목표로 하고, 반복적인 소프트웨어 개발을 통한 프로젝트 변경과 변화의 능동적 수용을 기본으로 한다. (그림 출처: https://www.slideshare.net/valtechuk/adapting-agile-to-the-entreprise) 그림 2. 애자일 선언의 핵심 아이디어가 된 익스트림 프로그래밍 방...

애자일 LHC CERN 김진철 칸반 스크럼 OSS 애자일 방법론 스프린트 데이터 과학자 빅데이터 CIO BSS

2019.10.02

애자일 프로젝트 관리란? – 스크럼으로 애자일 맛보기 켄트 벡을 비롯한 일부 소프트웨어 엔지니어들이 왜 소프트웨어 엔지니어들은 항상 야근과 과로에 시달려야 하는가, 소프트웨어 프로젝트는 왜 일정을 맞추지 못하고 과도한 요구 사항 변화와 이로 인한 일정 지연에 시달리고 유난히 실패 위험이 높은 것인가, 소프트웨어 엔지니어들도 일반 직장인들과 같은 평범한 라이프스타일을 가지면서 생산성을 높일 방법은 없는 것인가 하는 문제를 고민하기 시작했다. 이를 위해 이들은 소프트웨어 개발 방식에 새로운 방법론이 필요하다고 생각하게 되었는데 이에 대한 해답으로 제시한 것이 익스트림 프로그래밍과 애자일 방법론이다.  애자일 방법론은 반복적인 과정을 통한 소프트웨어 프로젝트 실패 위험 감소와 소스 코드 품질 향상, 코드 리뷰, 페어 프로그래밍을 통한 소스 코드 품질 향상 및 버그 감소, 정기적인 플래닝과 리뷰를 통한 개발자 간 소통과 소프트웨어 개발의 암묵적인 지식 공유를 통한 위험 감소 등으로 특징 지워진다. 애자일 방법론은 린 소프트웨어 개발 방법론과 함께 일정과 자원이 넉넉지 않은 스타트업들을 중심으로 널리 쓰이기 시작하여 그 효용이 입증되면서 이제는 많은 IT 기업들에서 널리 쓰이는 소프트웨어 프로젝트 관리 방법론이 되었다. 그림 1. 애자일 선언(“The Agile Manifesto”)의 핵심 아이디어를 설명한 그림. 애자일 선언은 과거 폭포수(waterfall) 방식의 소프트웨어 공학 방법론에서 탈피하여, 고객과의 밀접한 소통, 피드백과 소프트웨어 엔지니어 간 소통과 협업, 명세서와 문서화 위주의 소프트웨어 개발보다는 실제 동작하는 소프트웨어 개발을 목표로 하고, 반복적인 소프트웨어 개발을 통한 프로젝트 변경과 변화의 능동적 수용을 기본으로 한다. (그림 출처: https://www.slideshare.net/valtechuk/adapting-agile-to-the-entreprise) 그림 2. 애자일 선언의 핵심 아이디어가 된 익스트림 프로그래밍 방...

2019.10.02

'보안 AI, 거품이 있긴 하지만…' 해야 할 3가지 vs. 하지 말아야 2가지

"인공지능을 광고하는 제품 중 비결이 있다고 할만한 제품은 거의 없다. 사람들은 혁신적인 인공지능이 여전히 매우 기초적인 단계에 있다고 여기고 있으며, 우리는 훨씬 더 발전할 수 있다."  - 글래스윙 벤처스(Glasswing Ventures) 창업자 겸 경영파트너 릭 그리넬   필자가 칼테크(CalTech) 연구 보조금을 관리한 후 유행어 장사꾼과 데이터 과학자 사이의 태도가 큰 차이를 보였던 2015년부터 인공지능(AI)에 관한 거품이 거슬렸다. 이후 2017년 필자는 폭스뉴스에서 유일하게 AI 활용으로 가짜 뉴스를 해결할 수 있다는 과대광고에 반대했다. 필자는 그러한 과대광고는 싫어하지만, AI에 거는 기대는 크다. 초기 투자자 릭 그리넬은 AI에 대한 과대광고와 실제 활용도에 대한 실질적인 평가를 진행했다. "실제 제품 기술 관점에서 우리는 여전히 초기 단계다. AI라고 선전하는 것 중 실질적인 제품은 거의 없다"라고 그리넬은 말했다. "사람들은 혁신적이라고 자랑하고 있지만, AI는 아직 기본적인 수준이며 훨씬 더 발전할 것이라고 생각한다." 릭은 알고 있을 것이다. 그는 수년 동안 AI 지원 보안 업체에 집중했던 글래스윙 벤처스(Glasswing Ventures)의 설립자 겸 MP(Managing Partner)다. 어떻게 과대광고 속에서 AI와 머신러닝에 투자할 시기를 판단할 수 있을까? 해야 할 일과 하지 말아야 할 일에 대해 살펴보자. 수학에 시간을 낭비하지 말자 AI 과대광고 대부분은 갑작스러운 고급 수학의 유입으로 기계가 사람처럼 생각하게 됐다는 생각에서 기인한다. 필자는 2015년 초기 AI/ML 프로젝트에서 AI를 뒷받침하는 새로운 수학에 흥미를 느꼈다. 세계적인 데이터 과학자들이 CERN에서 20년이나 된 교과서에 나오는 알고리즘인 ‘k-means’와 ‘DBSCAN’ 등의 머신러닝 알고리즘을 사용해 연구를 진행...

구글 ML GDPR CERN NLP 데이터 레이크 머신 비전 수학 자연어 처리 인공지능 데이터 과학자 CISO CSO 데이터 라이프사이클

2019.04.23

"인공지능을 광고하는 제품 중 비결이 있다고 할만한 제품은 거의 없다. 사람들은 혁신적인 인공지능이 여전히 매우 기초적인 단계에 있다고 여기고 있으며, 우리는 훨씬 더 발전할 수 있다."  - 글래스윙 벤처스(Glasswing Ventures) 창업자 겸 경영파트너 릭 그리넬   필자가 칼테크(CalTech) 연구 보조금을 관리한 후 유행어 장사꾼과 데이터 과학자 사이의 태도가 큰 차이를 보였던 2015년부터 인공지능(AI)에 관한 거품이 거슬렸다. 이후 2017년 필자는 폭스뉴스에서 유일하게 AI 활용으로 가짜 뉴스를 해결할 수 있다는 과대광고에 반대했다. 필자는 그러한 과대광고는 싫어하지만, AI에 거는 기대는 크다. 초기 투자자 릭 그리넬은 AI에 대한 과대광고와 실제 활용도에 대한 실질적인 평가를 진행했다. "실제 제품 기술 관점에서 우리는 여전히 초기 단계다. AI라고 선전하는 것 중 실질적인 제품은 거의 없다"라고 그리넬은 말했다. "사람들은 혁신적이라고 자랑하고 있지만, AI는 아직 기본적인 수준이며 훨씬 더 발전할 것이라고 생각한다." 릭은 알고 있을 것이다. 그는 수년 동안 AI 지원 보안 업체에 집중했던 글래스윙 벤처스(Glasswing Ventures)의 설립자 겸 MP(Managing Partner)다. 어떻게 과대광고 속에서 AI와 머신러닝에 투자할 시기를 판단할 수 있을까? 해야 할 일과 하지 말아야 할 일에 대해 살펴보자. 수학에 시간을 낭비하지 말자 AI 과대광고 대부분은 갑작스러운 고급 수학의 유입으로 기계가 사람처럼 생각하게 됐다는 생각에서 기인한다. 필자는 2015년 초기 AI/ML 프로젝트에서 AI를 뒷받침하는 새로운 수학에 흥미를 느꼈다. 세계적인 데이터 과학자들이 CERN에서 20년이나 된 교과서에 나오는 알고리즘인 ‘k-means’와 ‘DBSCAN’ 등의 머신러닝 알고리즘을 사용해 연구를 진행...

2019.04.23

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (3)

LHC 실험을 수행하는 물리학자들과 연구자들의 특성 지금까지 LHC 실험을 위한 만든 LHC 가속기와 네 개의 검출기, 그리고 데이터 가공 및 분석을 위한 LHC 데이터 처리 시스템과 WLCG 그리드 컴퓨팅 기술을 소개하면서 빅데이터 기술의 모든 요소를 갖추고 있는 LHC 프로젝트의 면면을 살펴보았다. LHC 빅데이터 인프라의 모든 것이 중요하고, 어느 하나라도 제대로 동작하지 않으면 LHC에서 생산되는 수백 페타바이트의 빅데이터를 제대로 처리하기는 불가능하다고 얘기했다. LHC 빅데이터 인프라의 모든 것이 다 중요하지만, 무엇보다도 중요한 것은 이런 LHC 빅데이터 인프라를 만들어낸 사람들, 그리고 이런 LHC 빅데이터 인프라를 이용해 우주와 물질을 지배하는 근본 법칙과 통찰을 만들어내는 사람들, 즉 LHC 연구자들이다. LHC 연구자들이 그들의 창의성과 역량을 헌신적으로 발휘하지 않았더라면 LHC 실험 장치와 빅데이터 인프라는 존재하지 못했을 것이고, LHC 실험장치에서 생산된 데이터를 이용해 힉스 입자가 존재하는지 여부도 확인하지 못했을 것이다. LHC 프로젝트의 꽃은 다른 어떤 요소보다도 바로 LHC 실험을 위해 일하는 과학자들일 것이다. 오늘은 LHC 실험을 위해 일하는 과학자들의 특성을 같이 살펴보면서, 빅데이터를 활용하는 데이터과학자들이 어떤 사람들이고 어떤 특성을 가진 사람들인지, 이들을 어떻게 일할 수 있도록 해야 빅데이터 비즈니스를 수행하는 조직이 성과를 낼 수 있을 것인지 같이 고민해보도록 하자. LHC 과학자들은 다양한 분야의 전문가들로 구성되어 있지만, 가장 많은 비중을 차지하고 있는 사람들은 LHC 실험장치를 이용해 실험 입자 물리학을 연구하려는 물리학자들이다. 이들 LHC 물리학자들이 쉽게 말하자면 데이터과학자들이라고 볼 수 있다. 사람마다 편차가 많고, LHC 장치의 복잡성 때문에 물리학자들이 모든 영역의 기술개발을 하지는 못하지만, 그래도 LHC 실험 장치의 디자인부터 개발, 데이터 분석까지 대부분 영역에서 영향력을 발휘하고 ...

CIO 빅데이터 데이터 과학자 물리학 김진철 CERN LHC

2018.12.28

LHC 실험을 수행하는 물리학자들과 연구자들의 특성 지금까지 LHC 실험을 위한 만든 LHC 가속기와 네 개의 검출기, 그리고 데이터 가공 및 분석을 위한 LHC 데이터 처리 시스템과 WLCG 그리드 컴퓨팅 기술을 소개하면서 빅데이터 기술의 모든 요소를 갖추고 있는 LHC 프로젝트의 면면을 살펴보았다. LHC 빅데이터 인프라의 모든 것이 중요하고, 어느 하나라도 제대로 동작하지 않으면 LHC에서 생산되는 수백 페타바이트의 빅데이터를 제대로 처리하기는 불가능하다고 얘기했다. LHC 빅데이터 인프라의 모든 것이 다 중요하지만, 무엇보다도 중요한 것은 이런 LHC 빅데이터 인프라를 만들어낸 사람들, 그리고 이런 LHC 빅데이터 인프라를 이용해 우주와 물질을 지배하는 근본 법칙과 통찰을 만들어내는 사람들, 즉 LHC 연구자들이다. LHC 연구자들이 그들의 창의성과 역량을 헌신적으로 발휘하지 않았더라면 LHC 실험 장치와 빅데이터 인프라는 존재하지 못했을 것이고, LHC 실험장치에서 생산된 데이터를 이용해 힉스 입자가 존재하는지 여부도 확인하지 못했을 것이다. LHC 프로젝트의 꽃은 다른 어떤 요소보다도 바로 LHC 실험을 위해 일하는 과학자들일 것이다. 오늘은 LHC 실험을 위해 일하는 과학자들의 특성을 같이 살펴보면서, 빅데이터를 활용하는 데이터과학자들이 어떤 사람들이고 어떤 특성을 가진 사람들인지, 이들을 어떻게 일할 수 있도록 해야 빅데이터 비즈니스를 수행하는 조직이 성과를 낼 수 있을 것인지 같이 고민해보도록 하자. LHC 과학자들은 다양한 분야의 전문가들로 구성되어 있지만, 가장 많은 비중을 차지하고 있는 사람들은 LHC 실험장치를 이용해 실험 입자 물리학을 연구하려는 물리학자들이다. 이들 LHC 물리학자들이 쉽게 말하자면 데이터과학자들이라고 볼 수 있다. 사람마다 편차가 많고, LHC 장치의 복잡성 때문에 물리학자들이 모든 영역의 기술개발을 하지는 못하지만, 그래도 LHC 실험 장치의 디자인부터 개발, 데이터 분석까지 대부분 영역에서 영향력을 발휘하고 ...

2018.12.28

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (2)

CERN은 왜 오픈소스 컨퍼런스 관리 소프트웨어를 만들었나? – CERN의 Indico 앞서 자세히 소개한 그리드와 클라우드 컴퓨팅 기술, 그리고 팀 버너스 리의 월드 와이드 웹과 같이 현대 인터넷을 만든 다양한 정보 기술들이 탄생한 CERN은 입자물리학 연구소이지만 정보기술의 수준도 세계 정상이다. CERN에서 일하는 다양한 분야의 물리학자들은 다른 분야의 과학자들에 비해서 유난히 정보기술의 전문성이 높은 편이다. CERN 내부에는 LHC Computing Grid를 포함한 유럽 인터넷, 연구망 허브 등의 정보 기술 인프라를 구축, 운영, 관리하는 CERN 컴퓨팅 센터가 있고, 이곳에 다양한 분야의 컴퓨터 과학자들과 정보기술 전문가들이 근무하고 있지만, 이들 외에도 많은 물리학자가 수준급의 프로그래밍 실력과 컴퓨터, 정보기술 전문 지식을 가지고 입자물리학 현상을 분석하는데 필요한 다양한 소프트웨어를 만들어 내고 있다. CERN에서는 앞서 열 세번째부터 열 여섯번째 글에서 소개한 것과 같이 ROOT나 PROOF, CMS 검출기 온라인 소프트웨어인 XDAQ, LHC 컴퓨팅 그리드 서비스를 위한 WLCG 그리드 미들웨어 등 LHC 실험 장치와 빅데이터 분석을 위한 다양한 오픈소스 소프트웨어를 만들어 전 세계 공동 연구원과 입자물리학 연구원들에게 배포하고 있다. CERN에서 개발한 오픈소스 소프트웨어 중에 독특하면서 눈에 띄는 오픈소스 소프트웨어가 하나 있는데, 이것이 오늘 소개할 Indico라고 하는 소프트웨어이다. Indico는 컨퍼런스와 워크숍 등의 다양한 학술회의의 프로그램, 참석자와 회의 자료를 등록하고 관리하기 위해 만든 오픈소스 소프트웨어이다. 실제로 LHC 국제 공동 연구와 관련된 많은 컨퍼런스와 워크숍, 회의가 Indico를 통해서 관리되고 있다. CERN에서 운영하는 Indico 서비스인 indico.cern.ch에 집계된 통계를 보면, 2018년 11월 15일 현재 Indico를 통해 관리된 컨퍼런스의 수만 1,629개, 워크...

협업 딥워크 Indico CERN 김진철 분석 시스코 시트릭스 빅데이터 페이스북 구글 CIO Vidyo

2018.11.27

CERN은 왜 오픈소스 컨퍼런스 관리 소프트웨어를 만들었나? – CERN의 Indico 앞서 자세히 소개한 그리드와 클라우드 컴퓨팅 기술, 그리고 팀 버너스 리의 월드 와이드 웹과 같이 현대 인터넷을 만든 다양한 정보 기술들이 탄생한 CERN은 입자물리학 연구소이지만 정보기술의 수준도 세계 정상이다. CERN에서 일하는 다양한 분야의 물리학자들은 다른 분야의 과학자들에 비해서 유난히 정보기술의 전문성이 높은 편이다. CERN 내부에는 LHC Computing Grid를 포함한 유럽 인터넷, 연구망 허브 등의 정보 기술 인프라를 구축, 운영, 관리하는 CERN 컴퓨팅 센터가 있고, 이곳에 다양한 분야의 컴퓨터 과학자들과 정보기술 전문가들이 근무하고 있지만, 이들 외에도 많은 물리학자가 수준급의 프로그래밍 실력과 컴퓨터, 정보기술 전문 지식을 가지고 입자물리학 현상을 분석하는데 필요한 다양한 소프트웨어를 만들어 내고 있다. CERN에서는 앞서 열 세번째부터 열 여섯번째 글에서 소개한 것과 같이 ROOT나 PROOF, CMS 검출기 온라인 소프트웨어인 XDAQ, LHC 컴퓨팅 그리드 서비스를 위한 WLCG 그리드 미들웨어 등 LHC 실험 장치와 빅데이터 분석을 위한 다양한 오픈소스 소프트웨어를 만들어 전 세계 공동 연구원과 입자물리학 연구원들에게 배포하고 있다. CERN에서 개발한 오픈소스 소프트웨어 중에 독특하면서 눈에 띄는 오픈소스 소프트웨어가 하나 있는데, 이것이 오늘 소개할 Indico라고 하는 소프트웨어이다. Indico는 컨퍼런스와 워크숍 등의 다양한 학술회의의 프로그램, 참석자와 회의 자료를 등록하고 관리하기 위해 만든 오픈소스 소프트웨어이다. 실제로 LHC 국제 공동 연구와 관련된 많은 컨퍼런스와 워크숍, 회의가 Indico를 통해서 관리되고 있다. CERN에서 운영하는 Indico 서비스인 indico.cern.ch에 집계된 통계를 보면, 2018년 11월 15일 현재 Indico를 통해 관리된 컨퍼런스의 수만 1,629개, 워크...

2018.11.27

'CERN이 만든 암호화 이메일 서비스'··· 프로톤메일, 이젠 iOS 앱으로도 쓴다

암호화 이메일 서비스 업체인 포로톤메일(ProtonMail)이 iOS 기기에서 사용할 수 있는 단독형 VPN(virtual private network) 앱을 발표했다. 이에 따라 업체가 지원하는 운영체제는 윈도우와 맥OS, 리눅스, 안드로이드, 그리고 iOS까지 총 5가지가 됐다. 시장조사업체 IDC의 엔터프라이즈 모빌리티 팀의 프로그램 이사 필 하크무스에 따르면, VPN 기능이 기업 보안 제품과 관리 제품에 점차 확대 적용되고 있다. 일반 사용자도 무선 네트워크는 물론 LTE/4G 연결 상태에서 자신의 온라인 활동을 보호하기 위해 VPN 서비스에 대한 관심이 커지고 있다. 그는 "그동안 VPN 관련해 가장 큰 숙제는 기기 성능이나 배터리에 영향을 주지 않으면서 연결성과 기능을 더 안전하게 보호하는 방법을 찾는 것이었다"라고 말했다. 현재 VPN 기능은 시만텍의 모바일 엔드포인트 프로텍션(mobile endpoint protection) 같은 모바일 보안 제품에 내장되고 있다. 공개된 무선 연결에서 위협이 감지됐을 때 사용자를 보호할 수 있도록 항시적인 VPN을 제공한다. 하크무스는 "많은 기업이 모든 데이터를 암호화하거나 터널을 이용하지 않고도 기업용 앱 속의 민감한 데이터를 보호하기 위해 마이크로VPN이나 앱별 VPN 기능을 사용하고 있다. 그러나 이는 성가신 작업이고 성능에도 안 좋은 영향을 준다"라고 말했다. 프로톤메일은 기존 서비스의 대안으로 주목받는 엔드투엔드 암호화 이메일 서비스다. 지난 2014년 유럽물리입자연구소(European Organization for Nuclear Research, CERN)가 처음 개발한 이후 프로톤 테크놀로지 AG(Proton Technologies AG)에 매각했다. 업체는 이 서비스가 대역폭 제한과 데이터 용량 제한, 프라이버시를 침해하는 광고가 없는 유일한 VPN이라고 주장한다. 또한, 기기에 애드웨어를 설치하거나 사용자 데이터를 서드파티에 넘기지도 ...

암호화 CERN 프로톤메일

2018.11.21

암호화 이메일 서비스 업체인 포로톤메일(ProtonMail)이 iOS 기기에서 사용할 수 있는 단독형 VPN(virtual private network) 앱을 발표했다. 이에 따라 업체가 지원하는 운영체제는 윈도우와 맥OS, 리눅스, 안드로이드, 그리고 iOS까지 총 5가지가 됐다. 시장조사업체 IDC의 엔터프라이즈 모빌리티 팀의 프로그램 이사 필 하크무스에 따르면, VPN 기능이 기업 보안 제품과 관리 제품에 점차 확대 적용되고 있다. 일반 사용자도 무선 네트워크는 물론 LTE/4G 연결 상태에서 자신의 온라인 활동을 보호하기 위해 VPN 서비스에 대한 관심이 커지고 있다. 그는 "그동안 VPN 관련해 가장 큰 숙제는 기기 성능이나 배터리에 영향을 주지 않으면서 연결성과 기능을 더 안전하게 보호하는 방법을 찾는 것이었다"라고 말했다. 현재 VPN 기능은 시만텍의 모바일 엔드포인트 프로텍션(mobile endpoint protection) 같은 모바일 보안 제품에 내장되고 있다. 공개된 무선 연결에서 위협이 감지됐을 때 사용자를 보호할 수 있도록 항시적인 VPN을 제공한다. 하크무스는 "많은 기업이 모든 데이터를 암호화하거나 터널을 이용하지 않고도 기업용 앱 속의 민감한 데이터를 보호하기 위해 마이크로VPN이나 앱별 VPN 기능을 사용하고 있다. 그러나 이는 성가신 작업이고 성능에도 안 좋은 영향을 준다"라고 말했다. 프로톤메일은 기존 서비스의 대안으로 주목받는 엔드투엔드 암호화 이메일 서비스다. 지난 2014년 유럽물리입자연구소(European Organization for Nuclear Research, CERN)가 처음 개발한 이후 프로톤 테크놀로지 AG(Proton Technologies AG)에 매각했다. 업체는 이 서비스가 대역폭 제한과 데이터 용량 제한, 프라이버시를 침해하는 광고가 없는 유일한 VPN이라고 주장한다. 또한, 기기에 애드웨어를 설치하거나 사용자 데이터를 서드파티에 넘기지도 ...

2018.11.21

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (1)

LHC 실험을 위한 협력 체계의 구조 LHC는 지구에서 가장 큰 기계일 뿐만 아니라, 건설 및 운영 비용에서도 NASA의 스페이스 셔틀 프로젝트, 허블 망원경과 같은 우주 과학 실험과 현재 프랑스 카다라슈에 건설 중인 ITER 핵융합 실험로와 함께 많은 건설, 운영 비용이 들어간 프로젝트이다. 이렇게 거대한 프로젝트의 결과로 지어진 LHC 가속기와 4개의 검출기를 이용해 입자물리학 실험은 단순한 협업으로는 불가능에 가깝다. 20년이 넘는 긴 건설 기간과 인류 역사상 하나밖에 없는, 처음으로 설계해서 건설하는 거대 실험 장치이고, 모든 실험 조건이 지금까지 만들어본 적이 없는 극한의 실험 조건이라는 측면에서 프로젝트의 위험 수준이 이 세상 어떤 프로젝트보다도 높은 프로젝트였다. 빅데이터를 만들어 내는 LHC 가속기와 검출기부터 빅데이터를 가공하는 Level-1 트리거와 고수준 트리거(high-level trigger), 그리고 데이터를 분석하는 LHC 컴퓨팅 그리드까지 빅데이터 모든 영역의 시스템을 연구개발해야 했던 LHC 프로젝트는 만들어야 했던 기술 영역의 범위도 넓고 그 수준도 복잡한 어려운 과제였다. 이렇게 어렵고 복잡한 시스템을 만들기 위해 LHC 연구자들이 어떤 조직과 체계를 가지고 협력하여 일했는지 살펴보고 그 교훈과 빅데이터 비즈니스 조직과의 차이점을 생각해보는 것은 빅데이터 비즈니스를 운영하는 조직과 기업들에게도 의미 있는 일이다. 우선 그림 1과 2는 LHC의 4개의 실험 중에서 가장 많은 비용이 투입되고 가장 많은 연구자들이 참여하고 있는 ATLAS와 CMS 실험의 조직 체계를 그림으로 보여주고 있다. 이 조직 체계를 살펴보면서 빅데이터 비즈니스를 수행하기 위한 조직 설계에 대한 아이디어를 같이 살펴보도록 하자. 첫번째로, 이 조직도를 보면 LHC 프로젝트 전반에서 나타나는 조직 패턴이 하나 보이는데, 바로 장치를 건설하고 운영하는데 필요한 자원을 계획, 조달하는 자원 관리 위원회(Resource Re...

협업 업무량 핵융합 LHC CERN 김진철 NASA 넷플릭스 인사 SI 아마존 빅데이터 재무 페이스북 구글 CIO 전략기획

2018.10.26

LHC 실험을 위한 협력 체계의 구조 LHC는 지구에서 가장 큰 기계일 뿐만 아니라, 건설 및 운영 비용에서도 NASA의 스페이스 셔틀 프로젝트, 허블 망원경과 같은 우주 과학 실험과 현재 프랑스 카다라슈에 건설 중인 ITER 핵융합 실험로와 함께 많은 건설, 운영 비용이 들어간 프로젝트이다. 이렇게 거대한 프로젝트의 결과로 지어진 LHC 가속기와 4개의 검출기를 이용해 입자물리학 실험은 단순한 협업으로는 불가능에 가깝다. 20년이 넘는 긴 건설 기간과 인류 역사상 하나밖에 없는, 처음으로 설계해서 건설하는 거대 실험 장치이고, 모든 실험 조건이 지금까지 만들어본 적이 없는 극한의 실험 조건이라는 측면에서 프로젝트의 위험 수준이 이 세상 어떤 프로젝트보다도 높은 프로젝트였다. 빅데이터를 만들어 내는 LHC 가속기와 검출기부터 빅데이터를 가공하는 Level-1 트리거와 고수준 트리거(high-level trigger), 그리고 데이터를 분석하는 LHC 컴퓨팅 그리드까지 빅데이터 모든 영역의 시스템을 연구개발해야 했던 LHC 프로젝트는 만들어야 했던 기술 영역의 범위도 넓고 그 수준도 복잡한 어려운 과제였다. 이렇게 어렵고 복잡한 시스템을 만들기 위해 LHC 연구자들이 어떤 조직과 체계를 가지고 협력하여 일했는지 살펴보고 그 교훈과 빅데이터 비즈니스 조직과의 차이점을 생각해보는 것은 빅데이터 비즈니스를 운영하는 조직과 기업들에게도 의미 있는 일이다. 우선 그림 1과 2는 LHC의 4개의 실험 중에서 가장 많은 비용이 투입되고 가장 많은 연구자들이 참여하고 있는 ATLAS와 CMS 실험의 조직 체계를 그림으로 보여주고 있다. 이 조직 체계를 살펴보면서 빅데이터 비즈니스를 수행하기 위한 조직 설계에 대한 아이디어를 같이 살펴보도록 하자. 첫번째로, 이 조직도를 보면 LHC 프로젝트 전반에서 나타나는 조직 패턴이 하나 보이는데, 바로 장치를 건설하고 운영하는데 필요한 자원을 계획, 조달하는 자원 관리 위원회(Resource Re...

2018.10.26

김진철의 How-to-Big Data | 빅데이터와 인공지능 (4)

LHC 실험과 뉴로모픽 엔지니어링 LHC 실험과 같은 거대과학 실험 장치는 건설에만 10~20년이 걸리고, 대량 생산을 위한 물건이나 장치를 만드는 일이 아닌 세계에서 하나뿐인 실험 장치를 만드는 일이다 보니 큰 비용이 들고 그에 따르는 위험 부담도 크다. 이런 거대과학 실험에서는 종종 이 실험 장치의 건설과 운영에 필요한 긴 기간이 새로운 과학적, 기술적 발견과 진보의 계기가 되기도 한다. LHC 실험의 요구사항도 실험 계획 초반과 LHC 가속기 완공 시점, 그리고 지금의 요구사항이 모두 다르다. 사실은 LHC 가속기가 건설되고 운영되는 과정에서 가속기와 검출기, 그리고 실험에서 요구되는 기술적인 요구 사항의 수준이 계속 높아져 왔다. 특히 실험 데이터 분석에 필요한 데이터의 양과 처리 속도, 복잡성의 정도는 크게 높아지고 있다. 지난 연재에서도 소개했듯이 고광도 LHC(High-Luminosity LHC; HL-LHC)로 LHC 가속기가 업그레이드되면 검출기에서 발생하는 데이터의 양이 기하급수적으로 증가하게 되는데, 2019년에는 2016년에 생성된 데이터의 4배에 이르는 293PB, 2028년에는 2016년에 생성된 데이터의 52배에 이르는 3.8EB에 이를 것으로 추정된다. 이는 LHC 실험이 계획되던 1992년에는 검출기 데이터가 1PB, 그리고 LHC 가속기가 완공되던 시점인 2008년도에는 연간 15PB로 데이터양이 추정되던 것에 비교하면 급격하게 빅데이터 요구 사항의 수준이 높아지고 있다. LHC 실험의 요구 사항이 이렇게 지속해서 높아지는 배경에는 여러 가지 요소가 있는데, 그중에서 중요한 것은 실험이 진행되면서 근본 입자들에 조사해야 할 물리학적 질문들이 더 많아지고 복잡해지는 것과, LHC 가속기에 쓰이는 기술이 정체되어 있지 않고 더 향상되고 발전한다는 것이다. 1992년 당시에도 통계적 패턴 인식 기술을 포함해 사람의 두뇌를 모방하려는 뉴로모픽 VLSI 프로세서 기술이 있었으나 딥러닝과 딥러닝 전용 프로세서...

구글 뉴로모픽 엔지니어링 차량공유 LHC CERN 김진철 텐서플로 자율주행 우버 테슬라 GPU 인공지능 엔비디아 양자컴퓨팅 데이터 과학자 IBM 빅데이터 디웨이브 시스템즈

2018.09.27

LHC 실험과 뉴로모픽 엔지니어링 LHC 실험과 같은 거대과학 실험 장치는 건설에만 10~20년이 걸리고, 대량 생산을 위한 물건이나 장치를 만드는 일이 아닌 세계에서 하나뿐인 실험 장치를 만드는 일이다 보니 큰 비용이 들고 그에 따르는 위험 부담도 크다. 이런 거대과학 실험에서는 종종 이 실험 장치의 건설과 운영에 필요한 긴 기간이 새로운 과학적, 기술적 발견과 진보의 계기가 되기도 한다. LHC 실험의 요구사항도 실험 계획 초반과 LHC 가속기 완공 시점, 그리고 지금의 요구사항이 모두 다르다. 사실은 LHC 가속기가 건설되고 운영되는 과정에서 가속기와 검출기, 그리고 실험에서 요구되는 기술적인 요구 사항의 수준이 계속 높아져 왔다. 특히 실험 데이터 분석에 필요한 데이터의 양과 처리 속도, 복잡성의 정도는 크게 높아지고 있다. 지난 연재에서도 소개했듯이 고광도 LHC(High-Luminosity LHC; HL-LHC)로 LHC 가속기가 업그레이드되면 검출기에서 발생하는 데이터의 양이 기하급수적으로 증가하게 되는데, 2019년에는 2016년에 생성된 데이터의 4배에 이르는 293PB, 2028년에는 2016년에 생성된 데이터의 52배에 이르는 3.8EB에 이를 것으로 추정된다. 이는 LHC 실험이 계획되던 1992년에는 검출기 데이터가 1PB, 그리고 LHC 가속기가 완공되던 시점인 2008년도에는 연간 15PB로 데이터양이 추정되던 것에 비교하면 급격하게 빅데이터 요구 사항의 수준이 높아지고 있다. LHC 실험의 요구 사항이 이렇게 지속해서 높아지는 배경에는 여러 가지 요소가 있는데, 그중에서 중요한 것은 실험이 진행되면서 근본 입자들에 조사해야 할 물리학적 질문들이 더 많아지고 복잡해지는 것과, LHC 가속기에 쓰이는 기술이 정체되어 있지 않고 더 향상되고 발전한다는 것이다. 1992년 당시에도 통계적 패턴 인식 기술을 포함해 사람의 두뇌를 모방하려는 뉴로모픽 VLSI 프로세서 기술이 있었으나 딥러닝과 딥러닝 전용 프로세서...

2018.09.27

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (1)

LCG 데이터 병렬 처리 프레임워크 - PROOF 본 연재의 여섯 번째 글에서 잠시 소개했던 LHC 이벤트 데이터를 분석 과정을 잠시 되새겨 보기로 하자. LHC 이벤트 데이터 분석 과정은 먼저 검출기의 Level-1 트리거와 고수준 트리거(high-level trigger)에서 수행되는 이벤트 데이터 파편(fragment)들을 검출기 센서의 위치에 맞게 배치, 병합하고, 물리학자들이 물리학적인 분석이 가능하도록 기초적인 메타데이터를 추가하는 자동화된 데이터 분석 과정이었다. 이렇게 자동화된 데이터 분석 과정은 물리학자들이 힉스 보존과 같은 새로운 입자를 쉽게 찾게 해주거나, 입자의 특성을 더 정밀하게 분석하길 원하는 입자에서 필요한 정보를 쉽게 계산해낼 수 있도록 이벤트 데이터를 가공하는 과정이다. 위와 같이 검출기의 온라인 데이터 수집 시스템을 통해서 이벤트 데이터를 자동으로 가공한 후에는 물리학적인 분석을 위한 단계에 들어간다. 이런 추가의 물리학적인 정밀한 분석이 필요한 이유는 자동화된 분석 단계에서 쓰이는 인공지능 기술이 아직 물리학자들이 물리학적 분석을 하는 것과 같이 복잡하고 창조적인 작업을 할 수 있을 정도로 발전하지 않았기 때문이다. 현재 LHC 이벤트 데이터 분석 과정에서 자동화된 부분은 앞서 여섯 번째 글에서 소개한 바와 같이 시뮬레이션을 통해 생성된 이벤트 데이터와 실제 수집된 이벤트 데이터를 비교하여 원시 이벤트 데이터에 시뮬레이션 데이터에서 추정된 메타데이터를 덧붙이는 패턴 매칭 과정이라고 소개한 바 있다. CMS를 비롯한 LHC의 각 검출기들이 초당 4천만 번의 횟수로 일어나는 양성자 빔 충돌로 인해 Level-1 트리거를 거치기 전에는 1TB이상의 많은 원시 데이터를 쏟아내지만, 양성자 빔 충돌 한번의 이벤트 데이터는 2MB 정도로 그렇게 큰 편이 아니다. 각각의 양성자 빔 충돌 이벤트는 서로 상호 연관이 없는 통계적으로 독립적인 이벤트들로 볼 수 있기 때문에 각 이벤트 데이터를 개별적으로 분석해도 ...

구글 빅데이터 아파치 하둡 스파크 텐서플로 김진철 CERN 병렬 처리

2018.03.23

LCG 데이터 병렬 처리 프레임워크 - PROOF 본 연재의 여섯 번째 글에서 잠시 소개했던 LHC 이벤트 데이터를 분석 과정을 잠시 되새겨 보기로 하자. LHC 이벤트 데이터 분석 과정은 먼저 검출기의 Level-1 트리거와 고수준 트리거(high-level trigger)에서 수행되는 이벤트 데이터 파편(fragment)들을 검출기 센서의 위치에 맞게 배치, 병합하고, 물리학자들이 물리학적인 분석이 가능하도록 기초적인 메타데이터를 추가하는 자동화된 데이터 분석 과정이었다. 이렇게 자동화된 데이터 분석 과정은 물리학자들이 힉스 보존과 같은 새로운 입자를 쉽게 찾게 해주거나, 입자의 특성을 더 정밀하게 분석하길 원하는 입자에서 필요한 정보를 쉽게 계산해낼 수 있도록 이벤트 데이터를 가공하는 과정이다. 위와 같이 검출기의 온라인 데이터 수집 시스템을 통해서 이벤트 데이터를 자동으로 가공한 후에는 물리학적인 분석을 위한 단계에 들어간다. 이런 추가의 물리학적인 정밀한 분석이 필요한 이유는 자동화된 분석 단계에서 쓰이는 인공지능 기술이 아직 물리학자들이 물리학적 분석을 하는 것과 같이 복잡하고 창조적인 작업을 할 수 있을 정도로 발전하지 않았기 때문이다. 현재 LHC 이벤트 데이터 분석 과정에서 자동화된 부분은 앞서 여섯 번째 글에서 소개한 바와 같이 시뮬레이션을 통해 생성된 이벤트 데이터와 실제 수집된 이벤트 데이터를 비교하여 원시 이벤트 데이터에 시뮬레이션 데이터에서 추정된 메타데이터를 덧붙이는 패턴 매칭 과정이라고 소개한 바 있다. CMS를 비롯한 LHC의 각 검출기들이 초당 4천만 번의 횟수로 일어나는 양성자 빔 충돌로 인해 Level-1 트리거를 거치기 전에는 1TB이상의 많은 원시 데이터를 쏟아내지만, 양성자 빔 충돌 한번의 이벤트 데이터는 2MB 정도로 그렇게 큰 편이 아니다. 각각의 양성자 빔 충돌 이벤트는 서로 상호 연관이 없는 통계적으로 독립적인 이벤트들로 볼 수 있기 때문에 각 이벤트 데이터를 개별적으로 분석해도 ...

2018.03.23

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (6)

CMS 온라인 데이터 수집 시스템의 모니터링 문제 흔히 모니터링하면 어떤 시스템의 상태를 관찰하고 운영하기 위해 필수적으로 만들어야 하는 기능이기도 하면서, 왠지 첨단 기술이 들어가지 않는 허드렛일이라는 생각을 많이 하게 되는 것 같다. 하지만, LCG와 같이 전 지구에 걸쳐 모니터링할 시스템이 흩어져 있어 모니터링할 시스템의 정보를 모아 수집하기가 어려운 경우, XDAQ이 운영되는 CMS 온라인 데이터 수집 시스템과 같이 그 시스템의 요구사항 수준이 높고 구성이 복잡하다. 구성하는 노드 수가 많은 시스템 같은 경우에는 시스템의 문제를 쉽게 발견하고, 해결하여 장애 없는 운영을 지원할 수 있는 효과적인 모니터링 시스템을 만드는 것 자체가 큰 기술적인 난제가 된다. 왜 그런지 한번 같이 생각해보자. XDAQ 미들웨어가 운영되었던 CMS 온라인 데이터 수집 시스템에서의 모니터링 문제를 같이 한번 생각해보기로 하자. 이 문제는 필자가 XDAQ 개발팀에서 일할 때 해결하기 위해 노력했던 문제 중의 하나로, 운영 지원 시스템(Operation Support System; OSS)에서 운영 지능화(operation intelligence) 시스템을 구축하는 것이 왜 중요한지 생각해보는 좋은 예가 될 것으로 생각한다. 필자가 XDAQ 팀에서 일했던 당시 CMS 온라인 데이터 수집 시스템 개발에서 풀어야 했던 문제 중의 하나가 CMS 온라인 데이터 수집 시스템 응용 프로그램을 개발하는 소프트웨어 엔지니어들이 어떻게 XDAQ을 이용해서 모니터링과 상태 진단 기능을 쉽게 개발하느냐는 것이었다. 데이터베이스에 저장된 시스템 상태 정보값만을 가져다가 시간값과 함께 그래프나 차트 소프트웨어를 이용해서 그냥 그려주면 되지 않겠어라고 생각하는 독자가 있을지 모르겠지만, 그렇게 간단한 문제가 아니라는 것을 같이 생각해보자. 첫번째로, XDAQ 응용 프로그램의 모니터링 정보가 하나의 서버에 모여 있지 않는다는 것이다. 지난 열세번째 글에서 필자가 설명했듯이 X...

CIO root MOLAP ROLAP PALO 넘파이 파이둡 파이스파크 엑스큐브 BSS 싸이파이 CERN 김진철 빅데이터 하둡 스플렁크 파이썬 데브옵스 R OSS 스파크 큐레이션 마이크로소프트 엑셀

2018.02.26

CMS 온라인 데이터 수집 시스템의 모니터링 문제 흔히 모니터링하면 어떤 시스템의 상태를 관찰하고 운영하기 위해 필수적으로 만들어야 하는 기능이기도 하면서, 왠지 첨단 기술이 들어가지 않는 허드렛일이라는 생각을 많이 하게 되는 것 같다. 하지만, LCG와 같이 전 지구에 걸쳐 모니터링할 시스템이 흩어져 있어 모니터링할 시스템의 정보를 모아 수집하기가 어려운 경우, XDAQ이 운영되는 CMS 온라인 데이터 수집 시스템과 같이 그 시스템의 요구사항 수준이 높고 구성이 복잡하다. 구성하는 노드 수가 많은 시스템 같은 경우에는 시스템의 문제를 쉽게 발견하고, 해결하여 장애 없는 운영을 지원할 수 있는 효과적인 모니터링 시스템을 만드는 것 자체가 큰 기술적인 난제가 된다. 왜 그런지 한번 같이 생각해보자. XDAQ 미들웨어가 운영되었던 CMS 온라인 데이터 수집 시스템에서의 모니터링 문제를 같이 한번 생각해보기로 하자. 이 문제는 필자가 XDAQ 개발팀에서 일할 때 해결하기 위해 노력했던 문제 중의 하나로, 운영 지원 시스템(Operation Support System; OSS)에서 운영 지능화(operation intelligence) 시스템을 구축하는 것이 왜 중요한지 생각해보는 좋은 예가 될 것으로 생각한다. 필자가 XDAQ 팀에서 일했던 당시 CMS 온라인 데이터 수집 시스템 개발에서 풀어야 했던 문제 중의 하나가 CMS 온라인 데이터 수집 시스템 응용 프로그램을 개발하는 소프트웨어 엔지니어들이 어떻게 XDAQ을 이용해서 모니터링과 상태 진단 기능을 쉽게 개발하느냐는 것이었다. 데이터베이스에 저장된 시스템 상태 정보값만을 가져다가 시간값과 함께 그래프나 차트 소프트웨어를 이용해서 그냥 그려주면 되지 않겠어라고 생각하는 독자가 있을지 모르겠지만, 그렇게 간단한 문제가 아니라는 것을 같이 생각해보자. 첫번째로, XDAQ 응용 프로그램의 모니터링 정보가 하나의 서버에 모여 있지 않는다는 것이다. 지난 열세번째 글에서 필자가 설명했듯이 X...

2018.02.26

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (5)

CMS 검출기에 영혼을 주는 CMS 온라인 소프트웨어 지난 열두번째 글에서 소개한 Level-1 트리거는 CMS를 비롯한 LHC 검출기에서 원시 데이터 처리를 위해 데이터 스트림이 가장 먼저 만나는 시스템이다. 초당 1TB 이상 검출기 센서에서 쏟아져 나오는 많은 데이터 중에서 물리학적으로 의미 있는 이벤트 데이터만 선별하는 데 필요한 빠른 데이터 처리를 위해 FPGA를 써서 연산을 가속한다고 소개하였다. 오늘 소개할 고수준 트리거(high-level trigger)는 Level-1 트리거에서 1차로 선별된 원시 데이터를 받아 물리학 분석이 가능하도록 자동으로 메타데이터를 덧붙이고 실제 사용할 수 있는 데이터로 원시 데이터를 가공하는 시스템이다. LHC 가속기와 검출기 실험 장치의 규모가 크다 보니, LHC 모든 서브 시스템이 하나의 시스템으로 통합되어 동작하려면 필연적으로 각 모듈이 네트워크를 통해 정보를 주고받으면서 데이터를 처리하는 분산 컴퓨팅 시스템으로 개발될 수밖에 없다. 분산 컴퓨팅 시스템이 하나의 시스템으로 통합되기 위해서는 시스템내의 각 서브 시스템의 동작을 표준화된 프로그래밍 모델과 통신 방식으로 프로그램할 수 있는 소프트웨어 기술이 필요하다. LHC 검출기별로 실험의 목적과 동작 특성, 요구 사항이 다르고, 네 대의 검출기에 필요한 요구사항을 모두 만족시킬 수 있는 소프트웨어를 만들기에는 LHC 검출기 시스템이 너무 복잡하기 때문에 LHC의 물리학자와 컴퓨터 과학자들은 검출기마다 고유의 분산 컴퓨팅 소프트웨어를 개발하여 검출기 기능을 통합하였다. 검출기 기능 통합에 사용된 분산 컴퓨팅 소프트웨어는 여러 대의 노드로 기능이 분산되어 네트워크 통신을 통해 이들 기능에서 처리된 데이터를 통합하는 미들웨어의 형태로 개발되었다. 필자가 건설에 참여하였던 CMS 검출기의 경우 XDAQ이라는 미들웨어를 사용하였다. XDAQ은 크로스 플랫폼 분산 데이터 수집, 처리 미들웨어(Cr운영체제(OS)s-platform(X)...

CIO 제프리 딘 LHS CERN 김진철 스파크 인피니밴드 CMS API 하둡 맵리듀스 미들웨어 빅데이터 구글 검색 샌제이 게마왓

2018.01.29

CMS 검출기에 영혼을 주는 CMS 온라인 소프트웨어 지난 열두번째 글에서 소개한 Level-1 트리거는 CMS를 비롯한 LHC 검출기에서 원시 데이터 처리를 위해 데이터 스트림이 가장 먼저 만나는 시스템이다. 초당 1TB 이상 검출기 센서에서 쏟아져 나오는 많은 데이터 중에서 물리학적으로 의미 있는 이벤트 데이터만 선별하는 데 필요한 빠른 데이터 처리를 위해 FPGA를 써서 연산을 가속한다고 소개하였다. 오늘 소개할 고수준 트리거(high-level trigger)는 Level-1 트리거에서 1차로 선별된 원시 데이터를 받아 물리학 분석이 가능하도록 자동으로 메타데이터를 덧붙이고 실제 사용할 수 있는 데이터로 원시 데이터를 가공하는 시스템이다. LHC 가속기와 검출기 실험 장치의 규모가 크다 보니, LHC 모든 서브 시스템이 하나의 시스템으로 통합되어 동작하려면 필연적으로 각 모듈이 네트워크를 통해 정보를 주고받으면서 데이터를 처리하는 분산 컴퓨팅 시스템으로 개발될 수밖에 없다. 분산 컴퓨팅 시스템이 하나의 시스템으로 통합되기 위해서는 시스템내의 각 서브 시스템의 동작을 표준화된 프로그래밍 모델과 통신 방식으로 프로그램할 수 있는 소프트웨어 기술이 필요하다. LHC 검출기별로 실험의 목적과 동작 특성, 요구 사항이 다르고, 네 대의 검출기에 필요한 요구사항을 모두 만족시킬 수 있는 소프트웨어를 만들기에는 LHC 검출기 시스템이 너무 복잡하기 때문에 LHC의 물리학자와 컴퓨터 과학자들은 검출기마다 고유의 분산 컴퓨팅 소프트웨어를 개발하여 검출기 기능을 통합하였다. 검출기 기능 통합에 사용된 분산 컴퓨팅 소프트웨어는 여러 대의 노드로 기능이 분산되어 네트워크 통신을 통해 이들 기능에서 처리된 데이터를 통합하는 미들웨어의 형태로 개발되었다. 필자가 건설에 참여하였던 CMS 검출기의 경우 XDAQ이라는 미들웨어를 사용하였다. XDAQ은 크로스 플랫폼 분산 데이터 수집, 처리 미들웨어(Cr운영체제(OS)s-platform(X)...

2018.01.29

익스피디아, 호텔스닷컴, 테슬라 공통점은 '하둡'··· 12가지 사례

지난 2015년 포레스터는 기업의 하둡 도입이 필수가 되고, 데이터에서 가치를 끌어내고자 하는 모든 기업은 최소한 하둡을 고려해야 한다고 예측한 바 있다. 하둡이란 무엇인가? 오픈소스 아파치 소프트웨어 재단은 하둡을 ‘분산 컴퓨팅 플랫폼’ 또는 ‘간단한 프로그래밍 모델을 사용해 여러 대의 컴퓨터에서 대규모 데이터 세트를 분산 처리할 수 있는 프레임워크’라고 설명하고 있다. 재단에 따르면, 고가용성을 제공하기 위해 하드웨어에 의존하는 게 아니라 라이브러리 자체는 애플리케이션 계층에서 오류를 감지하고 처리하여 컴퓨터 클러스터 상단에 고가용성 서비스를 제공하도록 설계했다. 하둡은 속도, 신뢰성, 비용 절감 등의 장점으로 기업에 침투했으며 기업은 다양한 규모로 기술을 도입하기 시작했다. 현재 통신사, 대기업 은행, 항공사, 소매/유통 등의 기업이 하둡을 도입해 사용하고 있으며 그 가운데 12개 사례를 소개한다. 1. BT BT는 아파치 하둡이 제공하는 클라우데라 엔터프라이즈 데이터 허브를 사용하여 엔지니어에 대한 요청-응대를 줄였다. 네트워크의 특성을 분석함으로써 BT는 느린 인터넷 속도가 네트워크나 고객 문제 때문인지를 확인할 수 있다. 그런 다음 엔지니어가 문제를 해결할 가능성이 있는지 평가할 수 있다. 클라우데라 허브는 하둡 환경에 저장된 고객 데이터의 통일된 뷰를 제공한다. BT는 도입 후 1년 이내에 200~250%의 투자 수익을 올렸다. 또한 BT는 고객이 엔지니어의 위치를 추적할 수 있게 해주는 SMS 및 이메일 알림 시스템인 ‘내 엔지니어 보기(View My Engineer)’ 같은 새로운 서비스를 만드는데도 하둡을 사용했다. 이 회사는 현재 예측 분석을 사용하여 차량 유지 보수를 개선하고자 한다. 2. 스코틀랜드 왕립 은행 스코틀랜드 왕립 은행(RBS)은 실리콘밸리의 트리팩타(Trifacta...

BT 호텔스닷컴 스코틀랜드 왕립 은행 엔터프라이즈 데이터웨어하우스 CERN 데이터 레이크 익스피디아 브리티시 텔레콤 영국항공 테슬라 EDW 클라우데라 하둡 야후 빅데이터 웨스턴유니온

2017.12.21

지난 2015년 포레스터는 기업의 하둡 도입이 필수가 되고, 데이터에서 가치를 끌어내고자 하는 모든 기업은 최소한 하둡을 고려해야 한다고 예측한 바 있다. 하둡이란 무엇인가? 오픈소스 아파치 소프트웨어 재단은 하둡을 ‘분산 컴퓨팅 플랫폼’ 또는 ‘간단한 프로그래밍 모델을 사용해 여러 대의 컴퓨터에서 대규모 데이터 세트를 분산 처리할 수 있는 프레임워크’라고 설명하고 있다. 재단에 따르면, 고가용성을 제공하기 위해 하드웨어에 의존하는 게 아니라 라이브러리 자체는 애플리케이션 계층에서 오류를 감지하고 처리하여 컴퓨터 클러스터 상단에 고가용성 서비스를 제공하도록 설계했다. 하둡은 속도, 신뢰성, 비용 절감 등의 장점으로 기업에 침투했으며 기업은 다양한 규모로 기술을 도입하기 시작했다. 현재 통신사, 대기업 은행, 항공사, 소매/유통 등의 기업이 하둡을 도입해 사용하고 있으며 그 가운데 12개 사례를 소개한다. 1. BT BT는 아파치 하둡이 제공하는 클라우데라 엔터프라이즈 데이터 허브를 사용하여 엔지니어에 대한 요청-응대를 줄였다. 네트워크의 특성을 분석함으로써 BT는 느린 인터넷 속도가 네트워크나 고객 문제 때문인지를 확인할 수 있다. 그런 다음 엔지니어가 문제를 해결할 가능성이 있는지 평가할 수 있다. 클라우데라 허브는 하둡 환경에 저장된 고객 데이터의 통일된 뷰를 제공한다. BT는 도입 후 1년 이내에 200~250%의 투자 수익을 올렸다. 또한 BT는 고객이 엔지니어의 위치를 추적할 수 있게 해주는 SMS 및 이메일 알림 시스템인 ‘내 엔지니어 보기(View My Engineer)’ 같은 새로운 서비스를 만드는데도 하둡을 사용했다. 이 회사는 현재 예측 분석을 사용하여 차량 유지 보수를 개선하고자 한다. 2. 스코틀랜드 왕립 은행 스코틀랜드 왕립 은행(RBS)은 실리콘밸리의 트리팩타(Trifacta...

2017.12.21

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (2)

LHC 빅데이터와 LHC Computing Grid의 계층 구조 LHC 빅데이터를 해결하기 위한 분석 인프라로 LHC Computing Grid가 오늘날 클라우드 컴퓨팅의 주요 기술 중 하나인 가상화를 이종 자원에서 작업 실행 환경의 다양성을 극복하는 기술로 쓰면서 현재의 클라우드 컴퓨팅이 시작되었다고 지난번 아홉 번째 글에서 소개하였다. 오늘은 빅데이터 인프라 구축 시 해결해야 하는 중요한 문제 중 하나인 자원 계층(resource hierarchy) 문제를 LHC Computing Grid에서는 어떻게 해결하고 있는지 살펴보면서 빅데이터 인프라 구축에서 자원 계층 문제의 중요성을 같이 생각해보자. 1992년 LHC 실험에서 1PB 이상의 데이터가 생성된다는 결론을 얻었을 때, CERN의 과학자들은 근본적으로 당시의 기술과 컴퓨터 아키텍처로는 이 많은 데이터를 위한 컴퓨터를 만들 수 없음을 깨달았다. 하지만, 전혀 희망이 없었던 것은 아니었다. LHC 가속기가 건설된 20여년 동안에는 어떤 식으로든 컴퓨터 기술은 발전할 테니, LHC 가속기를 건설하는 동안 발전하는 컴퓨터 기술을 잘 활용한다면 해결할 수 있을 것으로 생각했다. 더군다나 당시에는 VLSI 기술이 무어의 법칙에 따라 급격하게 발전하던 시기였기 때문에 전혀 근거 없는 생각은 아니었다. 하지만, 20여 년 후 미래에 더 좋은 기술이 나와 LHC 빅데이터 문제를 모두 다 해결해줄 것이라고 막연하게 생각할 수는 없었다. LHC 빅데이터가 가진 근본적인 문제가 무엇인지, 기술의 발전으로도 쉽게 해결이 되지 않는 문제가 있다면 그것이 무엇인지는 먼저 파악해야 했고 이에 대한 해결 방법은 찾아야 했다. LHC 검출기들이 만드는 빅데이터의 근본적인 특성은 CERN의 데이터센터에 원시 데이터부터 분석이 끝난 모든 데이터를 한꺼번에 다 담아 놓을 수 없다는 것이었다. 그렇다면, CERN에 얼마나 큰 데이터센터를 지어야 할 것인가? LHC 가속기와 검출기를 건설하는데 만도 천문학적인 액수의 비용이...

CIO CERN 김진철 3D 크로스포인트 NVMe 힉스 입자 PCIe 엔비디아 수퍼컴퓨팅 인메모리 빅데이터 인텔 LHC Computing Grid

2017.11.08

LHC 빅데이터와 LHC Computing Grid의 계층 구조 LHC 빅데이터를 해결하기 위한 분석 인프라로 LHC Computing Grid가 오늘날 클라우드 컴퓨팅의 주요 기술 중 하나인 가상화를 이종 자원에서 작업 실행 환경의 다양성을 극복하는 기술로 쓰면서 현재의 클라우드 컴퓨팅이 시작되었다고 지난번 아홉 번째 글에서 소개하였다. 오늘은 빅데이터 인프라 구축 시 해결해야 하는 중요한 문제 중 하나인 자원 계층(resource hierarchy) 문제를 LHC Computing Grid에서는 어떻게 해결하고 있는지 살펴보면서 빅데이터 인프라 구축에서 자원 계층 문제의 중요성을 같이 생각해보자. 1992년 LHC 실험에서 1PB 이상의 데이터가 생성된다는 결론을 얻었을 때, CERN의 과학자들은 근본적으로 당시의 기술과 컴퓨터 아키텍처로는 이 많은 데이터를 위한 컴퓨터를 만들 수 없음을 깨달았다. 하지만, 전혀 희망이 없었던 것은 아니었다. LHC 가속기가 건설된 20여년 동안에는 어떤 식으로든 컴퓨터 기술은 발전할 테니, LHC 가속기를 건설하는 동안 발전하는 컴퓨터 기술을 잘 활용한다면 해결할 수 있을 것으로 생각했다. 더군다나 당시에는 VLSI 기술이 무어의 법칙에 따라 급격하게 발전하던 시기였기 때문에 전혀 근거 없는 생각은 아니었다. 하지만, 20여 년 후 미래에 더 좋은 기술이 나와 LHC 빅데이터 문제를 모두 다 해결해줄 것이라고 막연하게 생각할 수는 없었다. LHC 빅데이터가 가진 근본적인 문제가 무엇인지, 기술의 발전으로도 쉽게 해결이 되지 않는 문제가 있다면 그것이 무엇인지는 먼저 파악해야 했고 이에 대한 해결 방법은 찾아야 했다. LHC 검출기들이 만드는 빅데이터의 근본적인 특성은 CERN의 데이터센터에 원시 데이터부터 분석이 끝난 모든 데이터를 한꺼번에 다 담아 놓을 수 없다는 것이었다. 그렇다면, CERN에 얼마나 큰 데이터센터를 지어야 할 것인가? LHC 가속기와 검출기를 건설하는데 만도 천문학적인 액수의 비용이...

2017.11.08

김진철의 How-to-Big Data | 빅데이터와 클라우드 기술 (1)

클라우드 컴퓨팅의 서막 – CERN은 왜 클라우드 컴퓨팅이 필요했나? LHC 실험과 인공지능 기술에 대한 내용을 더 다루기 전에, 독자들의 이해를 더 쉽게 돕기 위해 클라우드 컴퓨팅과 LHC 실험과의 관계를 살펴보고 지나가려 한다. 오늘은 CERN에서 어떻게 클라우드 컴퓨팅이 시작되었는지 같이 살펴보도록 하자. 흔히 많은 클라우드 컴퓨팅은 구글이 제일 먼저 시작했다고 알고 있다. 이 말은 반은 맞고, 반은 틀리다. 클라우드 컴퓨팅의 기반이 되는 기술은 사실 구글이 클라우드 컴퓨팅이라는 말을 사용하기 전에 이미 CERN과 IBM 등의 회사들을 통해서 많이 개발되어 있었기 때문에 반은 틀린 말이라는 것이고, 클라우드 컴퓨팅이라는 용어가 처음 생겨나서 업계에 자리 잡게끔 한 것이 구글이기 때문에 반은 맞는 사실이다. 클라우드 컴퓨팅이라는 말이 처음 나왔을 때는 그 의미가 명확하지 않아서, 오라클의 회장 래리 엘리슨은 클라우드 컴퓨팅이 무엇인지 잘 모르겠다고 혹독한 비판을 하기도 했다[2-7]. 1992년 CERN의 과학자들은 LHC 가속기와 네 개의 검출기의 개념 설계를 진행하면서 연간 약 1PB의 데이터가 생성될 것임을 알게 된 후, 과연 이 빅데이터를 어떻게 분석할 것인지 고민하기 시작했다. 검출기 데이터 처리를 자동화하기 위해 Level-1 트리거와 고수준 트리거(high-level trigger)에서 데이터 처리를 자동화하는 분산컴퓨팅 시스템을 만드는 것과는 별개로, 효과적인 데이터 분석을 하기 위해서는 또 다른 기술적인 난관을 해결해야 했다. 먼저, 분석하게 될 물리학자들이 CERN에 모두 모여 있지 않다는 것이다. LHC 데이터 분석을 수행할 물리학자들은 전 세계의 다양한 연구소에 소속되어 본인들이 소속된 연구기관에서 분석을 수행하게 될 것이었다. 이렇게 전 세계에 걸쳐 일하는 사람들이 어떻게 LHC 데이터를 전송받고, 전송받은 데이터를 분석하기 위한 막대한 양의 계산을 할 수 있도록 컴퓨팅 시스템을 만들어야 할 것인가? ...

오라클 힉스 입자 스파크 물리학 김진철 CERN LHC 메타컴퓨팅 자율컴퓨팅 아마존 웹 서비스 하둡 빅데이터 IBM AWS 오픈스택 미들웨어 래리 엘리슨 맵리듀스 수퍼컴퓨터 빅테이블

2017.09.25

클라우드 컴퓨팅의 서막 – CERN은 왜 클라우드 컴퓨팅이 필요했나? LHC 실험과 인공지능 기술에 대한 내용을 더 다루기 전에, 독자들의 이해를 더 쉽게 돕기 위해 클라우드 컴퓨팅과 LHC 실험과의 관계를 살펴보고 지나가려 한다. 오늘은 CERN에서 어떻게 클라우드 컴퓨팅이 시작되었는지 같이 살펴보도록 하자. 흔히 많은 클라우드 컴퓨팅은 구글이 제일 먼저 시작했다고 알고 있다. 이 말은 반은 맞고, 반은 틀리다. 클라우드 컴퓨팅의 기반이 되는 기술은 사실 구글이 클라우드 컴퓨팅이라는 말을 사용하기 전에 이미 CERN과 IBM 등의 회사들을 통해서 많이 개발되어 있었기 때문에 반은 틀린 말이라는 것이고, 클라우드 컴퓨팅이라는 용어가 처음 생겨나서 업계에 자리 잡게끔 한 것이 구글이기 때문에 반은 맞는 사실이다. 클라우드 컴퓨팅이라는 말이 처음 나왔을 때는 그 의미가 명확하지 않아서, 오라클의 회장 래리 엘리슨은 클라우드 컴퓨팅이 무엇인지 잘 모르겠다고 혹독한 비판을 하기도 했다[2-7]. 1992년 CERN의 과학자들은 LHC 가속기와 네 개의 검출기의 개념 설계를 진행하면서 연간 약 1PB의 데이터가 생성될 것임을 알게 된 후, 과연 이 빅데이터를 어떻게 분석할 것인지 고민하기 시작했다. 검출기 데이터 처리를 자동화하기 위해 Level-1 트리거와 고수준 트리거(high-level trigger)에서 데이터 처리를 자동화하는 분산컴퓨팅 시스템을 만드는 것과는 별개로, 효과적인 데이터 분석을 하기 위해서는 또 다른 기술적인 난관을 해결해야 했다. 먼저, 분석하게 될 물리학자들이 CERN에 모두 모여 있지 않다는 것이다. LHC 데이터 분석을 수행할 물리학자들은 전 세계의 다양한 연구소에 소속되어 본인들이 소속된 연구기관에서 분석을 수행하게 될 것이었다. 이렇게 전 세계에 걸쳐 일하는 사람들이 어떻게 LHC 데이터를 전송받고, 전송받은 데이터를 분석하기 위한 막대한 양의 계산을 할 수 있도록 컴퓨팅 시스템을 만들어야 할 것인가? ...

2017.09.25

김진철의 How-to-Big Data | 빅데이터와 인공지능 (2)

CERN이 인공지능 기술을 소환한 이유 – 2015년 LHC 데이터 과학 워크샵[3] 2015년 11월 9일, CERN의 고에너지 물리학자들과 전세계의 인공지능 기술 전문가들이 모여 CERN의 검출기 데이터 처리 및 분석에 최신 인공지능 기술을 어떻게 적용할 수 있을지 논의하는 워크샵을 열었다. 11월 9일부터 13일까지 5일간 열린 이 워크샵은 인공지능 기술이 앞으로의 과학 연구를 어떻게 바꿔 갈지 엿보게 하는 중요한 회의였다[2~3]. 이 워크샵에서 지금까지 인공지능 기술을 LHC 빅데이터를 처리, 분석에 적용한 성공 사례들이 소개되었다. 이에 더해서, LHC 빅데이터를 온전하게 활용하지 못하는 현재의 LHC 빅데이터 처리, 분석 기술의 한계를 인공지능을 이용해 어떻게 극복할 수 있을지, 그리고 인공지능 기술을 통해 극복할 수 있을 것으로 보이는 미해결 문제 및 요구사항에 대해서도 소개 되었다. 특히, 인공지능 기술이 LHC 빅데이터 분석에 줄 수 있는 많은 가능성들에 대해서 앞으로의 LHC 업그레이드 계획과 함께 열띤 토론이 이어졌다. 예전의 세번째 글에서 잠시 소개했던 것과 같이, CMS 검출기의 경우 LHC 가속기에서 충돌하는 양성자빔은 초당 4천만 번의 횟수로 원시 이벤트 데이터를 발생시킨다. 이 때문에 초당 약 1TB의 많은 원시 데이터(raw data)가 발생한다[1, 4]. 검출기 1단계 트리거(Level-1 Trigger) 하드웨어 장치에서 원시 데이터 처리에 3.2 마이크로초가 걸리며, 이 3.2 마이크로초 동안 원시 데이터를 보관, 처리할 수 있도록 Level-1 트리거의 전자회로(front-end electronics)가 설계, 제작되었다[1, 4]. 이러한 Level-1 트리거 하드웨어의 동작 특성 때문에 원시 데이터의 샘플링 빈도(sampling frequency)가 100kHZ에 불과하다. 이 얘기는 CMS 검출기에서 수집한 이벤트 원시 데이터의 약 천분의 일만 Level-1 트리거의 필터를 통과하여 ...

CIO LHC CERN 유럽입자물리학연구소 김진철 기계학습 인공지능 통계 빅데이터 구글 정보물리학

2017.08.28

CERN이 인공지능 기술을 소환한 이유 – 2015년 LHC 데이터 과학 워크샵[3] 2015년 11월 9일, CERN의 고에너지 물리학자들과 전세계의 인공지능 기술 전문가들이 모여 CERN의 검출기 데이터 처리 및 분석에 최신 인공지능 기술을 어떻게 적용할 수 있을지 논의하는 워크샵을 열었다. 11월 9일부터 13일까지 5일간 열린 이 워크샵은 인공지능 기술이 앞으로의 과학 연구를 어떻게 바꿔 갈지 엿보게 하는 중요한 회의였다[2~3]. 이 워크샵에서 지금까지 인공지능 기술을 LHC 빅데이터를 처리, 분석에 적용한 성공 사례들이 소개되었다. 이에 더해서, LHC 빅데이터를 온전하게 활용하지 못하는 현재의 LHC 빅데이터 처리, 분석 기술의 한계를 인공지능을 이용해 어떻게 극복할 수 있을지, 그리고 인공지능 기술을 통해 극복할 수 있을 것으로 보이는 미해결 문제 및 요구사항에 대해서도 소개 되었다. 특히, 인공지능 기술이 LHC 빅데이터 분석에 줄 수 있는 많은 가능성들에 대해서 앞으로의 LHC 업그레이드 계획과 함께 열띤 토론이 이어졌다. 예전의 세번째 글에서 잠시 소개했던 것과 같이, CMS 검출기의 경우 LHC 가속기에서 충돌하는 양성자빔은 초당 4천만 번의 횟수로 원시 이벤트 데이터를 발생시킨다. 이 때문에 초당 약 1TB의 많은 원시 데이터(raw data)가 발생한다[1, 4]. 검출기 1단계 트리거(Level-1 Trigger) 하드웨어 장치에서 원시 데이터 처리에 3.2 마이크로초가 걸리며, 이 3.2 마이크로초 동안 원시 데이터를 보관, 처리할 수 있도록 Level-1 트리거의 전자회로(front-end electronics)가 설계, 제작되었다[1, 4]. 이러한 Level-1 트리거 하드웨어의 동작 특성 때문에 원시 데이터의 샘플링 빈도(sampling frequency)가 100kHZ에 불과하다. 이 얘기는 CMS 검출기에서 수집한 이벤트 원시 데이터의 약 천분의 일만 Level-1 트리거의 필터를 통과하여 ...

2017.08.28

김진철의 How-to-Big Data | 빅데이터와 인공지능 (1)

LHC 실험 데이터의 복잡성과 인공지능 기술 이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자. LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다. 검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류...

CIO LHC CERN 유럽입자물리학연구소 김진철 자율주행차 기계학습 인공지능 통계 빅데이터 정보물리학

2017.07.26

LHC 실험 데이터의 복잡성과 인공지능 기술 이번 글부터 앞으로 세, 네 번에 걸쳐서 빅데이터 비즈니스에서 인공지능 기술이 왜 중요하고 어떻게 활용해야 하는지 같이 살펴보려고 한다. 최근 딥러닝이 IT 기술계에서 크게 관심을 끌면서 인공지능 기술에 관한 관심이 커졌다. 이러한 관심에 따라 딥러닝 기반의 인공지능 기술이 빅데이터를 잘 활용해야 효과가 있음은 많은 사람이 이제 알고 있는 듯하다. 그렇지만, 구체적으로 인공지능 기술이 빅데이터와 어떻게 연관이 있고 어떻게 활용해야 하는지에 대해 구체적인 방법을 전달하는 매체는 많지 않은 것으로 보인다. LHC 빅데이터 처리에 인공지능 기술이 어떻게 활용되는지 살펴보면서 빅데이터와 인공지능 기술 간의 관련성에 대해 같이 살펴보기로 하자. LHC 네 개의 검출기에서 수집하는 데이터는 최종적으로 3차원 이벤트 영상 데이터로 재구성(reconstruction)된다. 이전의 다섯 번째, 여섯 번째 글에서 자세히 설명한 대로, 검출기의 이벤트 영상들은 물리학적인 메타데이터가 추가되기 전까지는 어떤 이벤트가 어떤 종류의 입자가 만들어낸 이벤트인지 매우 알기가 어렵다. 이전의 안개상자(cloud chamber)에서 수집된 이벤트 정보를 물리학자들이 이벤트별로 판독하고 분석하는 데에 많은 시간이 걸렸다. 안개상자 데이터의 경우 2차원 평면 영상이었는데도 영상에 잡힌 각 입자의 이벤트를 하나하나 판독, 분석하는데 고도의 입자물리학 지식과 분석 작업이 필요하였다. LHC 검출기의 3차원 영상 데이터는 영상이 3차원 영상인 점도 분석을 어렵게 하지만, 데이터의 양도 안개상자 시절보다 10억 배에서 1조 배 많기 때문에 사람이 직접 데이터를 분석하는 것은 불가능하다. 검출기 원시 데이터를 이용해 1차로 재구성된 3차원 영상 데이터에 이벤트별로 어떤 입자인지 판별하여 가능성이 높은 입자 종류 및 물리학적 메타데이터를 붙이기 위해 LHC 실험에서는 당시 다른 분야에서는 생각지도 않은 방법을 시도했다. 바로 인공지능 기술의 한 종류...

2017.07.26

김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (4)

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

CIO 빅데이터 메타데이터 양자역학 김진철 유럽입자물리학연구소 CERN LHC 입자검출기

2017.07.05

LHC 실험 데이터 가공 과정과 데이터 형식 이번 글에서는 CMS에서 데이터를 저장하는 방법을 살펴보면서 데이터 형식의 중요성에 대해서 생각해보자. 그리고, 이번 글까지 빅데이터 수집에 관해 썼던 네 편의 글에 걸쳐 살펴본 내용을 바탕으로 비즈니스를 위한 빅데이터 수집을 어떻게 해야 할지 같이 정리해보자. LHC의 네 개의 검출기는 분석의 초점이 되는 현상이 달라 장치의 물리적인 운영 파라미터는 다소 차이가 있을 수 있지만, 기본적인 원리나 건설의 목적은 비슷하다. 그것은 고에너지 양성자 빔이 충돌하면서 생기는 다양한 입자들의 궤적과 상호작용의 과정을 사진을 찍듯이 영상으로 기록하는 것이다. 기록된 데이터를 이용해 검출기 내외부에 남긴 입자들의 운동 궤적과 상호작용의 양상을 센서별로 기록하고, 센서별로 기록된 단편적인 데이터들을 다시 모으고 조립, 통합하여 3차원의 영상으로 재구성한 후, 물리학자들이 재구성된 영상을 통해 검출기에서 일어났던 현상을 다시 관찰하면서 목표로 하는 힉스와 같은 입자들을 찾고 분석하는 것이다. 그림 1. LHC 데이터의 분석 과정 (그림 출처: [1]) 그림 1에서 표현한 CMS 검출기 데이터의 가공 과정을 살펴보자. 우리가 최종적으로 원하는 것은 이벤트 데이터를 3차원으로 재구성하여 힉스 입자의 붕괴 채널과 같이 분석하고자 하는 현상을 찾고 분석하는 것이다. CMS 검출기에서 처음으로 생성된 데이터에는 궤적별로 입자의 종류, 상호작용의 종류에 관한 식별자, 또는 메타데이터가 없고, 해당 입자의 운동량과 에너지와 같은 물리량과 같이 물리학적 분석을 할 수 있게 하는 정보는 저장되어 있지 않다. 다만 검출기 센서에서 측정된 전기 신호의 값만 수치화(digitize)되어 저장되어 있다. 물론 검출기 센서의 전기 신호 값은 물리학적 분석을 위해 필요한 정보를 얻을 수 있는 측정값을 기록하도록 설계되고 개발되었다. 우리가 재구성하고자 하는 이벤트 데이터를 사람이 눈으로 볼 수 있는 3차원 영상으로 재구성하기 위해 ...

2017.07.05

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9