김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)

CIO KR
빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?’에 이어 이번에는 빅데이터 비즈니스에서 빅데이터 수집의 중요성을 LHC의 빅데이터 수집 과정에 대해 알아보면서 같이 생각해보자.

빅데이터 원천으로서의 LHC 가속기

LHC를 운영하는 CERN은 구글과 같은 기업처럼 데이터를 이용해 직접 수익을 내는 조직은 아니지만, 조직의 목적에 맞는 빅데이터를 만들기 위한 조건을 탐구해보기에는 충분하다.

지난번 연재에서 소개했듯이, LHC에서는 초당 약 4,000만 번의 양성자 빔 충돌이 일어난다. 양성자 빔이 양성자 빔 원(proton beam source)에서 일단 생성되어 가속기가 켜지기 시작하면 매년 3월부터 11월까지 계속 켜져 있게 된다. (이를 빔타임(beam time)이라고 한다. 실제 양성자 빔으로 하는 실험은 3~10월, 그리고 중이온 빔을 이용한 실험이 11월에 진행된다.)

양성자 빔 충돌 이벤트는 양성자 빔만 생성해서 LHC 주가속기에 가두어두기만 하면 매초 4,000만 번이 일어나게 된다. 이 양성자 빔이 충돌하면서 이벤트를 만들 때 다양한 종류의 입자들이 궤적을 그리며 충돌지점 부근에 흩어지게 된다. 이렇게 흩어진 입자들은 자신이 가진 플러스, 또는 마이너스 전하 때문에 물질을 지나게 되면 물질 내부의 원자, 분자들과 상호작용을 일으키게 되며, 이런 상호작용의 자취를 전기 신호로 변환하여 검출기가 채집한 후 입자들의 궤적을 기록하게 된다.

그림 1. LHC 가속기에서 일어나는 양성자 빔 충돌 과정



양성자 빔은 14TeV의 고 에너지로 초당 4,000만 번, 양성자들끼리는 초당 1,000~10억 번 충돌하게 된다. (이때 발생하는 에너지는 한번에 498.4kg의 구리를 녹일 수 있는 에너지다[1].) 양성자간 충돌로 소립자들이 상호 작용하여 힉스 입자 등의 다양한 입자가 발생한다 (그림 출처: [2]).

입자검출기는 최첨단 기술의 집약체다. 규모도 어마어마하게 클 뿐 아니라, 입자의 궤적과 에너지 등 다양한 물리량들을 측정하기 위해 매우 많은 수의 센서를 집적하고 있다. 필자가 건설에 참여했던 CMS 검출기의 경우, 크게 트래커(tracker), 전자기 칼로리미터(electromagnetic calorimeter), 하드론 칼로리미터(hadron calorimeter), 뮤온 검출기(muon detector) 네 개의 센서 그룹으로 구성된다.

트래커(tracker)는 입자의 궤적을 기록한다. 전자기 칼로리미터(electromagnetic calorimeter)는 양성자 빔의 충돌에서 생겨나는 전자와 광자(빛)의 에너지를 측정한다. 하드론 칼로리미터(hadron calorimeter)는 쿼크와 글루온으로 구성되는 하드론과 다른 입자들과의 상호 작용이 매우 미미한 뉴트리노 등의 입자가 가지는 에너지를 측정한다. 뮤온 검출기는 힉스 보존 등의 입자들이 생성될 때 많이 발생한다고 알려진 뮤온(muon)을 검출하기 위한 센서다.

뮤온 검출기는 다시 표류 튜브(drift tube), 음극 스트립 상자(cathode strip chamber), 저항판상자(resistive plate chamber)로 구성된다. 표류 튜브(drift tube)는 CMS 검출기의 원통(barrel) 부분에서의 뮤온 입자의 위치를 추적한다. 음극 스트립 상자(cathode strip chamber)는 검출기 가장자리의 엔드캡(end-cap) 영역에서 빔 진행 방향 수직면의 뮤온 위치를 측정한다. 저항판상자(resistive plate chamber)는 뮤온의 운동량(momentum)을 측정한다.

위의 센서 중에서 입자의 궤적을 기록하는 트래커만 생각해보자. CMS 검출기의 트래커에 사용한 실리콘 기판 총면적은 테니스 코트 하나의 면적과 같은 205제곱미터에 달하고, 이 트래커에서 신호를 전달하는 채널의 수만도 7,600만 개나 된다. 트래커에서 수집된 신호를 처리하기 위해 7,600만 개의 채널에서 생성되는 초당 4,000만 개의 신호를 재구성해서 데이터로 기록해야 한다[4].

힉스를 비롯한 소립자들은 펨토미터(1,000조 분의 1미터) 이하의 매우 작은 규모에서 나타나기 때문에 직접 관찰이 불가능하여 다른 입자와의 상호 작용을 통해서 간접적으로 관찰해야 한다. 이런 소립자들을 실수 없이 판별해내기 위해서는 입자들이 만들어내는 궤적과 에너지를 정밀하게 분석, 기록할 수 있어야 한다. CMS 검출기의 입자 궤적 및 에너지, 운동량 기록, 판별의 정밀도는 이 세상 센서 중 최고 수준의 정밀도다.

그림 2. CMS 검출기에서 수집된 데이터를 이용해 재구성된 힉스 입자가 Z보존 한 쌍으로 변하는 이벤트 데이터


(그림 출처: [3]).

그림 3. CMS 검출기에서 사용되는 주요 검출기 및 센서들


CMS 검출기는 크게 트래커(tracker), 전자기 칼로리미터(electromagnetic calorimeter), 하드론 칼로리미터(hadron calorimeter), 뮤온 검출기(muon detector)로 구성된다.

입자 검출기를 만들 때 썼던 입자 검출기술은 이미 우리 실생활에서 사용되고 있다. 가장 대표적인 것이 의료 영상 장비이다. 양전자를 검출할 때 사용했던 기술을 응용해서 만든, 우리 몸을 외과수술을 하지 않고 정밀 검사할 수 있도록 하는 대표적인 비파괴 검사 기술인 PET(Positron Emission Tomography; 양전자 단층 촬영) 기술도 양전자 검출을 위해 CERN에서 개발된 기술이 산업계로 이전되어 만들어진 기술이다.

그림 4. CMS 검출기 트래커 모듈의 모습과 트래커에서 사용된 실리콘 센서 모듈


입자 궤적을 기록하기 위해 사용되는 실리콘 기판과 전자 회로의 설계 및 구현에는 첨단 기술이 필요하다. (그림 출처: (왼편) HEPHY Homepage - Der CMS Tracker, http://www.hephy.at/de/cmstracker/ (오른편) DESY CMS Group - CMS Tracker Design for HL-LHC, http://cms.desy.de/e53612/e155175/e155179/ )

LHC의 경쟁력은 바로 이런 데이터 수집 과정의 첨단 기술에서 나온다. 세계 어떤 연구소에서도 쉽게 측정하기 어려운 힉스 입자 및 소립자들을 검출하는 센서 기술과 검출기 통합 기술을 이용해 실험 데이터를 만들어 내어 전세계 물리학자들을 고객으로 하는 성공적인 빅데이터 비즈니스를 하고 있다고 볼 수 있다. 이와 함께 안정적으로 초당 1TB 이상의 데이터를 생성할 수 있도록 양성자빔을 공급하는 LHC 가속기 시스템 때문에 힉스 입자를 찾아낼 만큼의 충분히 많은 데이터를 생산하여 물리학자들에게 공급하고 있다. 이 두 가지가 LHC를 운영하는 CERN이 전 세계적인 첨단 연구조직으로서 가지는 중요한 경쟁력이라고 볼 수 있다.

빅데이터 비즈니스의 핵심 – 빅데이터 수집 과정의 차별화
필자가 빅데이터 관련 강의를 하게 되면 항상 청중에게 묻는 말이 있다. 빅데이터 비즈니스에서 가장 중요한 것이 무엇일까? 필자가 이 질문을 하게 되면 대개 청중들은 거의 비슷한 대답을 내놓는다. 빅데이터 처리가 중요하다는 말씀 아니면 하둡 등의 빅데이터 기술이 중요하다는 말씀들을 하신다. 정말 그럴까? 그럼 달리 질문해보자. 빅데이터 처리가 왜 필요할까? 하둡 등의 빅데이터 기술이 도대체 왜 필요한 걸까? 빅데이터가 아예 없는데, 빅데이터 처리와 빅데이터 기술이 무슨 소용이란 말인가?

필자가 위와 같이 질문을 달리 써보니, 독자분들은 이제 필자가 어떤 말을 하고 싶어 하는지 눈치채셨으리라 생각한다. 빅데이터가 없는데 빅데이터 처리가 무슨 의미가 있으며, 빅데이터 기술이 무슨 소용이란 말인가? 빅데이터 비즈니스에서 가장 중요한 것은 비즈니스를 가능하게 하는 빅데이터를 모으고 만드는 데 있다. 즉, 빅데이터 비즈니스에서 가장 중요한 것은 빅데이터를 수집하는 과정이다.

너무 당연한 말을 거창하게 한다고 여기실지 모르겠다. 하지만, 이렇게 당연한 것을 생각하지 않아 많은 빅데이터 프로젝트들이 제 몫을 못하고 있다는 사실을 많은 분들이 잘 모르는 듯하다.

빅데이터 비즈니스에서 가장 중요한 단계는 빅데이터를 수집하는 단계이다. 보통 이 단계에서 비즈니스의 핵심이 되는 비즈니스 모델이 나오게 된다. 빅데이터 수집 단계에서 어떻게 양질의 빅데이터를 수집하느냐에 따라 빅데이터 비즈니스의 성패가 갈리게 된다.

LHC의 경우로 다시 돌아가 보자. LHC 실험에서는 빅데이터가 힉스 보존 발견을 위한 실험 장치를 만들기 위해 넘어야 하는 기술적인 장벽이었을 뿐이라고 지난번 기고에서 설명한 바 있다. LHC 실험에서 힉스를 발견하기 위해서는 최대한 많은 양의 소립자 상호작용 이벤트를 만들어내어 기록할 수밖에 없었다. 힉스 입자가 발견되지 않은 새로운 입자였기 때문에 찾기도 어려웠을 뿐만 아니라, 이론적인 계산에 따르면 힉스 입자가 양성자-양성자 입자의 충돌에서 나타날 확률은 10조 분의 1로 매우 낮았다. 실제로, 2012년 7월 힉스 입자 발견을 확인하기까지 총 300조 개 이상의 양성자 충돌 이벤트를 분석해야만 했다.

LHC에서 힉스를 발견하기 위해서는 빅데이터를 만드는 것이 필수적이었고, 데이터의 양이 충분하지 못했다면 LHC가 운전을 시작한 지 4년 만에 힉스 입자를 발견하지도, 검증하기도 어려웠을 것이다.

LHC가 빅데이터를 만들어내는 과정을 살펴보면, 데이터가 사람이 일일이 수집할 수 없을 정도의 엄청난 양이었기 때문에, 이벤트가 일어날 때마다 이벤트를 자동으로 기록할 수 있는 첨단 데이터 수집 장치로서 입자 검출기가 필요했다. 입자 물리학 현상 데이터를 수집하기 위한 신호 처리 시스템뿐만 아니라, 이벤트들을 관찰하고 기록하기 위한 센서 기술도 소립자들이 만들어내는 미세한 신호를 잡아낼 수 있는 정밀 첨단 기술이었다. 이런 첨단 입자 검출 기술과 센서 기술이 자동으로 이벤트 데이터들을 전기 신호로 변환하여 데이터로 기록해주었기 때문에 방대한 양의 빅데이터 분석이 가능했던 것이다.

검출기뿐만 아니라, 힉스 입자 이벤트를 만들어낼 수 있는 양성자빔을 LHC 주가속기가 안정적으로 공급할 수 없었다면 이벤트 데이터가 아예 만들어질 수 없을 것이다. 데이터를 주는 근본 요인, LHC의 경우에는 양성자 빔 충돌 이벤트, 빅데이터 비즈니스의 경우에는 빅데이터를 만들어내게끔 하는 빅데이터 비즈니스의 상품 판매, 데이터 수집 등의 핵심 비즈니스 요소가 시장에서 경쟁력 있게 지속 가능하지 않으면 빅데이터 수집 자체가 불가능할 수 있다. 빅데이터를 제대로 수집할 수 없는데 빅데이터 비즈니스가 가능할 리 없다.

그렇다면 빅데이터를 수집하는 비즈니스 모델은 어떤 모습이어야 하는가? 빅데이터를 안정적으로 수집하는 비즈니스 모델을 고안하기 위해 어떤 것들을 고민해야 하는가? 다음 편에서는 빅데이터 수집의 비즈니스 모델에 대해서 좀더 진지하게 고민해보고자 한다. 이번 한 번의 기고로 빅데이터 수집의 중요성을 다 설명하기에는 지면이 부족하여 두 번에 나누어 설명하려고 한다.

LHC의 경우에는 빅데이터가 실험의 성패를 가르는 중요한 요소였다. 여러분들의 빅데이터 비즈니스는 어떠한가? 그저 평범한 전자상거래, 또는 플랫폼 비즈니스를 빅데이터라는 말로만 포장하고 있는가? 아니면 비즈니스의 성공에 빅데이터가 중요한 요소로 활용되고 있는가? 빅데이터가 비즈니스 모델에서 자리잡은 위치에 따라서 빅데이터 활용의 절박함은 다를 수밖에 없을 것이다.

빅데이터 활용의 절박함에서 새로운 혁신과 비즈니스 경쟁력이 싹틀 수밖에 없는 것에 모두들 당연하다고 입을 모으겠지만, 정말로 그런 절박함으로 빅데이터를 활용하고 있는가? 다시 한번 자문해봐야 할 것이다.

[참고 문헌]
[1] LHC Beams, https://lhc-machine-outreach.web.cern.ch/lhc-machine-outreach/beam.htm 
[2] Physics at 13 TeV – Cranking Up the LHC, http://www.naturphilosophie.co.uk/physics-13-tev-cranking-lhc/ 
[3] New CMS results at Moriond (Electroweak) 2013, http://cms.web.cern.ch/news/new-cms-results-moriond-electroweak-2013 
[4] Compact Muon Solenoid, https://en.wikipedia.org/wiki/Compact_Muon_Solenoid 
[5] Search for the Higgs boson, https://en.wikipedia.org/wiki/Search_for_the_Higgs_boson 

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr