2021.07.29

김진철의 How-to-Big Dataㅣ에필로그 – 맺는 글

김진철 | CIO KR
LHC 빅데이터의 미래 – FCC와 새로운 입자 물리학 실험들
LHC 실험은 2018년까지 13TeV, 190fb-1의 목표 성능에 대한 계획된 실험을 마치고 현재 가동을 잠시 중단한 상태다. 2027년 9월로 예정되어 있는 고광도 LHC(High-Luminosity LHC; HL-LHC) 실험을 위해 LHC 주 가속기와 ATLAS, CMS, ALICE, LHCb의 주요 검출기들의 성능을 높이기 위해서는 목표 성능을 낼 수 있도록 많은 부품과 장치들을 새롭게 제작, 교체해야 한다. 지금은 시운전, 테스트를 준비하며 LHC 주 가속기와 검출기들을 업그레이드하고 있다.
 
그림 1. LHC 실험의 일정. COVID-19의 영향으로 HL-LHC 실험 준비를 위한 두 번째 셧다운 기간인 LS2(Long Shutdown 2) 기간이 4개월 연장되었다. 지금 LHC 실험은 HL-LHC 실험을 준비하기 위해 LHC 주 가속기와 주요 검출기들의 성능을 업그레이드하는 작업을 진행하고 있다. (그림 출처: https://project-hl-lhc-industry.web.cern.ch/content/project-schedule)

COVID-19 바이러스는 CERN의 LHC 실험에도 영향을 미쳐서 LHC 실험의 일정을 지연시켰다. 원래 HL-LHC 실험을 위한 검출기들의 1차 업그레이드를 완료하고 첫 빔 테스트와 시운전을 진행할 예정이었던 2021년 5월에서 4개월 지연된 2021년 9월에 첫 빔 테스트를 진행할 예정이다. 예상치 못했던 COVID-19 바이러스 사태때문에 앞으로 COVID-19 바이러스 확산 상태에 따라 LHC 실험 일정이 다시 변경될 가능성도 있지만, 현재까지의 상황을 보면 2022년 5월부터 원래 예정되었던 LHC 세 번째 실험(Run3)이 진행될 가능성이 높다.

LHC 주 가속기가 업그레이드되어 양성자 빔이 14TeV의 목표 에너지와 3000fb-1의 반응 크로스 섹션(cross section)에 도달하면, LHC 실험 초반에 20 ~ 40PB 규모의 3차원 영상 이벤트 데이터를 쏟아냈던 ATLAS, CMS, ALICE, LHCb 네 개의 검출기들은 LHC 빔 충돌 지점(interaction point)에서 일어날 수 이벤트의 빈도가 LHC 건설 당시 100배이상 높아지게 되면서 이에 따라 각 검출기들이 생산해내는 이벤트 영상 데이터의 양도 크게 증가할 것으로 보인다. 

HL-LHC 업그레이드에 따른 LHC 가속기와 주요 검출기들의 성능 향상도 LHC 빅데이터의 증가에 영향을 주지만, 검출기의 데이터 수집 하드웨어에 쓰이는 FPGA와 데이터 수집용 컴퓨팅 장치의 성능 향상, 딥러닝을 비롯한 새로운 이벤트 검출 알고리즘의 개발로 검출기를 통해 수집되는 데이터의 양은 훨씬 가파르게 폭증할 것으로 보인다. 이렇게 폭증하는 LHC 이벤트 영상 데이터의 양은 의미 있는 물리학 이벤트의 발견과 정밀한 분석에 기여하여 우리의 우주와 자연을 지배하는 근본 법칙을 이해하는데 큰 도움이 될 것으로 보인다.

이렇게 LHC 가속기가 앞으로 40년 넘게 운영되면서 우주와 물질을 지배하는 근본 법칙에 대한 이해를 넓히는데 기여하고 있음에도 CERN은 벌써부터 LHC를 이어 실험을 수행하게 될 새로운 초거대 입자 가속기의 건설을 논의하고 있다.

2019년 1월 15일 과학전문 저널인 ‘네이처(Nature)’에 기고된 기사에 따르면 약 210억 유로, 한화로 약 29조 4천억원에 달하는 예산이 새로운 초거대 입자 가속기 건설에 투입될 것으로 예상하고 있다. 이는 현재 운영중인 LHC의 2008년도 첫 빔 시운전까지 투입된 건설 비용인 10억 유로, 약 1조 4천억원의 21배에 달하는 금액으로, 화성 탐사 프로젝트와 함께 가장 많은 예산이 투입되는 과학 프로젝트가 될 전망이다.

‘미래 원형 가속기(Future Circular Collider; FCC)’라고 불리는 이 가속기는 현재 운영중인 LHC 가속기를 또 다른 부스터 가속기로 삼아, LHC 가속기에서 가속된 빔을 받아 다시 더 높은 에너지로 양성자, 양전자, 전자 및 중이온 빔을 가속하여 새로운 입자 물리학적 현상을 탐색하고, 2012년에 발견된 힉스 입자를 비롯한 표준 모형에서 알려진 소립자들의 성질을 정밀 규명하는 실험을 할 것을 목표로 하고 있다.

FCC와 함께 운영될 HL-LHC는 현재 LHC 가속기의 일부로서 여전히 쓰이고 있는 SPS 가속기와 같이 FCC 원형 가속기에 가속된 양성자, 양전자, 전자 및 중이온 빔을 입사시키는 부스터 가속기의 역할을 하게 될 것으로 보인다. 2019년에 발간된 FCC 개념 디자인 보고서에 따르면 FCC 건설, 운영에도 HL-LHC에서 수행할 실험을 계획하고 있으며, FCC를 보조하는 가속기로서의 역할 뿐만 아니라, HL-LHC 본연의 역할도 계속해서 수행하게 된다.

HL-LHC는 양성자 빔과 중이온 빔을 충돌시키는 가속기였지만, FCC는 양전자-전자 빔 충돌 실험을 할 것도 목표로 하고 있다. FCC 개념 디자인 보고서에 따르면 FCC는 양전자-전자 빔 충돌, 양성자 빔 충돌, 전자-양성자 빔 충돌, 중이온 빔 충돌과 같은 다양한 빔 충돌 실험을 수행할 수 있도록 계획하고 있으며, 이를 통해 더 다양한 물리학 이벤트를 생성하고 이에 대한 데이터를 수집하게 된다.
 
그림 2. CERN이 LHC의 후속 실험을 위한 가속기 프로젝트로 준비하고 있는 '미래 원형 가속기'의 조감도. 프랑스와 스위스의 국경에 걸쳐 총 길이 100km에 달하는 거대 실험 장치가 될 전망이다. (그림 출처: https://home.cern/science/accelerators/future-circular-collider)

CERN의 FCC는 입자 물리학의 지평을 넓히는 거대 과학 실험 장치가 될 뿐만 아니라, IT 기술 발전의 획기적인 전환점이 될 것으로 또한 기대된다. CERN에서 가속기가 건설될 때마다 사회적 영향력이 큰 새로운 IT 기술이 등장했다는 것은 우연이 아니다.

한 예를 들자면 팀 버너스 리가 만든 월드 와이드 웹 기술을 들 수 있다. LEP 가속기 시절 물리학자들 사이에 연구 자료를 손쉽게 공유하기 위해 당시 CERN에서 근무하던 팀 버너스 리(Tim Berners Lee)가 1987년 하이퍼텍스트 프로토콜(HTTP)과 웹 브라우저 기술을 처음 고안, 개발하여 오늘날 인터넷 비즈니스의 기반을 만들었다.

현재 운영되고 있는 LHC 가속기 건설 과정에서는 LHC에서 생산되는 막대한 빅데이터를 처리하기 위해 필요한 컴퓨팅 파워를 지리적인 제약을 넘어 공급하기 위해 그리드 컴퓨팅 기술을 개발했다. 이 과정에서 이종 자원 통합 문제를 효과적으로 해결하기 위해 가상 머신을 도입하기 시작했던 것이 오늘날의 클라우드 컴퓨팅으로 발전하여 IT 비즈니스의 판도를 크게 바꾸어 놓고 있다.

FCC의 검출기에서 생산되는 데이터는 엑사바이트(Exa-byte) 이상의 3차원 영상 빅데이터가 생산될 것으로 추정되고 있다. 지금 LHC의 검출기에서 가장 많은 데이터 유실이 일어나는 병목 지점(bottleneck)이 되고 있는 저수준(Level-1) 트리거(trigger)의 데이터 수집 컴퓨팅 시스템에 쓰이고 있는 기술들은 2000년대 초반부터 2010년대 초반까지 개발된 컴퓨팅 기술들이다.

2010년부터 현재까지 컴퓨팅 기술이 엄청나게 발전하였으며, 고속 데이터 수집을 위한 전자 회로 기술도 크게 발전하여, FCC가 건설될 즈음에는 검출기에서 수집할 수 있는 데이터의 양이 훨씬 더 증가할 것으로 보인다.

FCC의 빅데이터 처리에서 주목할 만한 것은 이와 같은 고성능 빅데이터 컴퓨팅 기술과 함께 딥러닝을 비롯한 고급 인공지능 기술들이 FCC의 이벤트 데이터 분류와 분석에 대거 동원될 것으로 기대되고 있다는 것이다. 

최근 넷플릭스에서 방영한 애니메이션 ‘인그레스(Ingress: The Animation)’에서도 인류를 구하는데 쓰이는 인공지능이 CERN에서 만들어진 것으로 설정돼 있다. 이 애니메이션에서는 재미를 위한 요소로서 CERN이 인공지능 기술의 출현 배경으로 등장하지만 FCC의 극한 빅데이터 처리 요건을 생각하면 이런 최첨단의 인공지능이 FCC 건설 과정에서 등장하지 말라는 법은 없는 것 같다.

LHC의 기술적인 난제를 해결하는 과정에서 다양한 빅데이터 기술과 IT 기술들이 등장하여 컴퓨터 과학 발전에 영향을 주었다. 요즘은 반대로, 컴퓨터 과학, 공학계에서 깊이 연구하여 개발한 빅데이터 기술과 데이터 마이닝, 고급 데이터 분석 기법들이 LHC 데이터 분석에 많이 활용되면서 CERN의 LHC 실험을 수행하는 과학자들과 컴퓨터 과학자들 사이의 긍정적인 선순환적 시너지가 만들어지고 있다.

LHC 실험 데이터 분석을 수행하는 물리학자들과 컴퓨터 과학자들 사이의 협업이 확대되고 있으며, 앞서 소개했던 어바인 소재 캘리포니아 주립 대학(University of California, Irvine)의 피에르 발디(Pierre Baldi) 교수와 같이 LHC 실험 데이터 분석에 필요한 기계 학습 기술을 연구하면서 얻은 아이디어를 생물정보학과 다른 분야로 확대해서 적용해보려는 컴퓨터 과학자들도 늘어나고 있다.

FCC 가속기의 극한 빅데이터 요구 사항과 현재 발전하고 있는 고성능 컴퓨팅, 네트워크 패브릭 및 무선 통신 기술, 임베디드 컴퓨팅 프로세서 기술과 함께 양자 컴퓨팅 기술과 같이 새롭게 등장하고 있는 컴퓨팅 기술들이 더 발전된 빅데이터 컴퓨팅 기술을 탄생시킬 수 있을 것으로 보인다. 과연 FCC 건설 과정에서 빅데이터와 데이터 과학 분야에 어떤 종류의 새로운 돌파구가 나타날 것인지 기대된다.

양자 컴퓨팅과 인공지능의 발전
이전에 빅데이터 기술의 미래를 소개하면서 딥러닝의 대가 중 한 사람인 요슈아 벤지오 교수가 의식을 딥러닝 모델화하려는 연구를 수행한 결과를 NeurIPS 2019 학술회의에서 기조 연설로 발표한 내용을 같이 살펴본 바 있다.

최근 역시 딥러닝 분야의 대가 중 한 사람인 캐나다 토론토대 교수이자 구글 브레인(Google Brain) 소속 과학자인 제프리 힌튼 교수는 ‘GLOM’이라 불리는 모델을 제안하였다. ‘GLOM’은 사람의 두뇌에서 대표적으로 나타나는 정보 처리 양상인 ‘부분-전체 계층(part-whole hierarchy)’과 현재 심층 신경망 모델이 가진 가장 큰 한계 가운데 하나인 신경가소성(neural plasticity)을 가능하도록 하는 적응형 구조를 심층 신경망 모델로 만들어보려는 시도이다.

제프리 힌튼 교수는 ‘부분-전체 계층(part-whole hierarchy)’ 연산을 학습할 수 있는 완전히 새로운 심층 신경망 모델을 제안했다기 보다는 최근 제안된 심층 신경망 모델들인 ‘변환기(Transformer)’, ‘신경 장(Neural Fields)’, ‘대조적 표상 학습(Contrastive Representation Learning)’, ‘(지식) 추출((Knowledge) Distillation)’, ‘캡슐 신경망(Capsule Neural Network)’과 같은 요소 모델을 새롭게 응용해서 우리 두뇌의 ‘부분-전체 계층(part-whole hierarchy)’ 특성과 같은 연산을 할 수 있는 딥러닝 아키텍처를 제안하였다.

앞서 요슈아 벤지오 교수가 시스템 2 인지 기능을 모방할 수 있는 딥러닝 알고리즘과 모델의 연구를 앞으로 인공지능 분야의 중요한 연구 주제로 제시한 것과 같은 맥락으로, 제프리 힌튼 교수 또한 우리 두뇌의 연산을 모방할 수 있는 심층 신경망 아키텍처를 연구하고 이를 이용해 해결할 수 있는 문제들을 연구하고 있다. 

이와 같이 사람의 두뇌가 가지고 있는 고급 인지 기능을 딥러닝을 비롯한 인공지능 모델을 이용해 모방해보고, 이를 현재까지는 사람만이 할 수 있는 문제들에 적용해서 인공지능 기술의 지평을 넓히는 연구에 많은 인공지능 연구자들이 뛰어들고 있다.

사람의 고급 인지 기능을 딥러닝과 발전된 인공지능 지식을 이용해서 모델링하려는 연구와 함께, 이렇게 모델링된 결과를 실제 응용에 효과적으로 쓰일 수 있도록 하는 인공지능 응용 하드웨어와 프로세서 기술을 개발하려는 회사와 연구자들도 점점 많아지고 있다.

이전에 소개했던 그래프코어(GraphCore)사의 IPU, 세리브라 시스템즈(Cerebras System)의 웨이퍼 스케일 엔진(Wafer-Scale Engine)이 대표적인 경우이며, 전통적인 반도체 강자인 인텔, IBM과 같은 회사들도 뉴로모픽 프로세서 개발에 박차를 가하고 있다.

구글이 72큐비트 처리가 가능한 시카모어(Sycamore) 양자 컴퓨터 프로세서를 선보이면서 IBM도 2023년까지 1,000큐비트 연산이 가능한 양자 컴퓨터 시스템을 개발하겠다는 비전을 내세우며, IBM Q 시스템으로 불리는 시험적인 양자 컴퓨터도 선보였다. 

이와 같이 양자 컴퓨터 개발 경쟁이 가속화되면서, 딥러닝 모델을 이런 양자 컴퓨터에서 실행시키거나 아예 양자 컴퓨팅 모델로서 재해석하고 다시 만들어보려는 연구들도 이어지고 있어 양자 컴퓨팅과 접목되어 성능과 인지 기능의 수준이 대폭 향상된 인공지능 기술을 멀지 않은 미래에 만나볼 수 있을 것으로 기대된다.
 
그림 3. (위) 구글이 처음으로 양자 우위를 달성했던 연구에 사용한 시카모어 양자 컴퓨팅 프로세서. (아래) 시카모어 양자 컴퓨팅 프로세서가 탑재된 구글의 양자 컴퓨터. (그림 출처: (위) https://www.nature.com/articles/s41586-019-1666-5 (아래) https://www.extremetech.com/extreme/300987-googles-quantum-supremacy-paper-tldr-edition)

6G 이동통신 기술, 사이버 물리 시스템의 확산
5G 이동통신이 우리나라에서 세계 최초로 상용화된 지 벌써 3년이 되어 가지만, 5G 상용화 시점에 우리나라 이동통신사들이 내세웠던 LTE보다 20배 빠른 속도의 이동통신 서비스와 자율주행 서비스와 같은 발전된 서비스들을 우리 현실에서 만나보기에는 아직 요원해 보인다. 

당시 내세웠던 5G의 장점을 실제로 경험할 수 있게 하기 위해 필요한 28GHz 대역 기지국 설치와 서비스 커버리지 확대가 28GHz 기지국 장비 투자에 들어가는 비용 때문에 아직까지도 이동통신 사업자들이 선뜻 나서지 못하고 있기 때문이다.

이런 이유로 5G 이동통신 서비스에 불만을 가진 일부 소비자들이 모여 5G 이동통신 서비스에 대한 과대 허위 광고 소송을 준비하고 있다는 얘기도 들린다. 이렇게 5G 서비스가 목표한 수준까지 완전하게 성숙하지 못했음에도 벌써 6G 이동통신 기술을 준비하려 하는 많은 통신 기술 연구자들과 기업들에 대한 소식이 들려오고 있다.

5G 이동통신 서비스가 원래 목표한 수준에 도달하기까지 상용화 시점인 2019년부터 약 5 ~ 10년이 걸릴 것으로 보인다고 필자가 지난 빅데이터의 미래 여섯 번째 글인 마흔 번째 글에서 5G 이동통신과 모바일 에지 컴퓨팅에 대해 소개하면서 언급한 바 있다. 2019년 5G 이동통신 서비스가 상용화되기는 했으나 5G 이동통신 서비스는 여전히 발전하고 있는 중이다.

5G 이동통신 서비스가 성숙되어 이를 통해 제공될 다양한 지능형 서비스들을 사회에서 실제로 경험하게 될 때까지 아직 5 ~ 7년이상 더 기다려야 할 것으로 보이지만 소비자들의 기대는 좀처럼 수그러들지 않는 모양이다. 

이와 함께 5G에서 달성되리라 기대했던 네트워크 성능 수준이 현재 네트워크 기술 수준의 한계로 완전하게 달성되기 어려울 것이라고 생각되어, 현재 3GPP에서 합의한 5G 표준에서 정의하는 5G 이동통신 기술의 성능은 5G 표준 협의 초반에 원래 기대되었던 성능에 비해서 다소 후퇴한 상태다.

5G 이동통신 서비스를 통해 이루고자 했던 지능형 네트워크 인프라의 비전을 6G 이동통신 네트워크 기술을 통해 다시 한번 실현시키고자 시도하고 있다. 6G 이동통신 서비스에서는 테라비피에스(Tbps)급 대역폭을 실현하여 진정한 무선 사물인터넷의 시대가 본격적으로 열릴 것으로 많은 사람들이 기대하고 있다.

6G 이동통신 기술 표준으로 고려하고 있는 또 하나의 중요한 영역은 바로 ‘비지상 네트워크(Non-Terrestrial Network; NTN)’ 기술이다. 현재 LTE와 5G 모두 휴대전화와 같은 이동통신 단말기들이 이동통신망에 접속하는 안테나와 기지국 시설을 지상에 설치해서 운영하고 있다. NTN은 이런 기지국이 지상에 설치되는 것이 아니라, 인공위성이나 구글의 ‘룬(Lune)’ 프로젝트에서 기구로 인터넷 중계기를 띄우는 것과 같이 공중에 떠 있는 이동통신 기지국을 통해 중계, 연결되는 이동통신 서비스를 말한다.

6G 이동통신 표준 기술로 적극적으로 검토되고 있는 NTN이 중요한 이유는 현재 독일의 ‘릴리움(Lilium)’과 같은 ‘비행 택시(flying taxi)’ 서비스 스타트업, 도심형 플라잉 카 프로토타입을 선보이며 플라잉 카 시장에 진출하려 하고 있는 ‘에어로모빌(Aeromobil)’과 같은 회사들이 제공하게 될 ‘비행 택시(flying taxi)’, ‘자율 주행 드론 택시(autonomous drone taxi)’나 자가 비행 자동차와 같이 공중에서 주행하게 되는 교통수단들을 위한 모빌리티 및 커넥티비티 서비스 제공에 NTN이 필수적으로 사용되기 때문이다.

6G 이동통신을 통해 사물인터넷이 발전하게 되면 자율주행차 및 드론 택시와 같은 지능형 모빌리티 서비스가 급격하게 발전할 것으로 기대된다.

이와 함께 6G 이동통신 서비스를 통해 사물 사이에 교환되는 데이터의 양이 테라비피스(Tbps)급으로 현재보다 1,000배이상 향상되면 기계가 데이터센터의 지원을 받아 수행할 수 있는 작업의 복잡도가 크게 증가하여 지금보다 훨씬 더 정교하고 복잡한 지능형 서비스들이 등장할 것으로 보인다.
 
그림 4. 독일의 비행 택시 서비스 스타트업인 릴리움에서 개발한 릴리움 제트 비행 택시가 2017년 4월에 첫 시험 비행을 성공적으로 마쳤다. (그림 출처: https://flyingcarsmarket.com/a-german-startup-can-bring-flying-taxis/)

5G 서비스가 미처 성숙하기도 전에 6G 기술에 대한 논의가 시작되는 것은 5G 이동통신을 실현하기 위해 우리가 현재 가지고 있는 통신 기술의 한계를 빨리 넘어서서 6G 기술을 통해 좀더 편리하고 지능화된 사회 인프라를 빨리 만나보고 싶어하는 우리의 바램이 더 커졌기 때문일 것이다. 

5G 이동통신 서비스의 성숙, 6G 이동통신 서비스로의 발전은 사회의 다양한 서비스와 인프라가 사이버 물리 시스템으로 통합, 진화하는 속도를 더 높이게 될 것으로 보이고, 이를 통해 요구되는 기계의 지능 수준이 더 높아져 인공지능 기술과 데이터 과학, 빅데이터 기술의 요구가 더 높아질 것으로 보인다.

예전에는 공상 과학 영화에서나 나올 것이라고 생각했던 것들이 많은 혁신가들과 과학자, 공학자들 덕분에 점점 더 빨리 손에 잡힐 듯한 미래로 다가오고 있다. 이런 미래에서 빅데이터와 데이터 과학을 잘 활용하는 능력은 쏟아지는 데이터 앞에서 점점 더 중요한 역량이 될 것임은 분명한 사실이다. 여러분들은 이런 미래에 준비되어 있는가?
 
그림 5. (위) 2021년 3월 에어로모빌사의 비행 자동차가 시험 비행을 성공적으로 수행하고 있다. (아래) 에어로모빌사가 2023년 상용화할 것으로 기대되고 있는 비행 자동차. (그림 출처: (위) https://www.aviationtoday.com/2021/03/04/aeromobil-marks-milestone-toward-certification-flight-tests/  (아래) https://www.aerospace-technology.com/projects/aeromobil-4-0-flying-car/)

맺는 글
이 How-to-Big Data 시리즈는 원래 필자의 데이터 과학자, 빅데이터 전문가로서의 경험을 기업에서 빅데이터를 활용할 때 적절하게 참고할 수 있는 자료로 남겨두고 싶었던 필자의 바램으로 시작됐다. 당시 아이디어는 있었지만 글을 기고할 매체를 마땅히 찾지 못하고 있던 와중, 2016년 12월 초 이 글이 게재된 CIO Korea의 모회사 한국IDG에서 주최한 컨퍼런스에서 필자가 당시 한국IDG 박해정 선임기자님, 천신응 편집장님과 만나면서 비로소 독자분들과 만날 수 있게 되었다.

원래 계획은 12회분의 짧은 연재로 이 시리즈를 마무리할 생각이었지만, 글이 연재되는 와중에 필자의 글이 데이터 과학자로서 현업에, 또는 빅데이터 프로젝트를 기획, 실행하고 싶어하는 기업 담당자에게 매우 도움이 된다는 격려와 함께 보내주신 많은 문의에 응하다 보니 원래 계획보다 훨씬 더 길어져 무려 4년 7개월동안 55편의 글로 정리될 수 있었다. 

이렇게 4년 7개월동안 이 How-to-Big Data 시리즈가 장수할 수 있었던 것은 독자 여러분들께서 필자의 글에 많은 공감과 지지를 보내주시고, 필자가 생각을 더 잘 정리할 수 있도록 많은 질문을 던져 주신 탓이다.

많은 독자분들께서 성원과 응원을 보내 주시다 보니, 좀더 정확하고 유용한 지식과 통찰을 전달하기 위해 엄밀하게 자료 조사를 하고 글 내용과 생각을 다듬으면서 글 중반부부터는 다소 글이 길어지게 되었다. 이 때문에 독자들께서 글 읽는 재미가 반감되지는 않았기를 진심으로 바란다.

필자보다 더 출중하고 경력이 뛰어나신 데이터 과학자와 빅데이터 전문가분들도 많으실 것이지만, 필자의 경험이 기업에서 데이터 과학과 빅데이터를 활용하는데 도움이 되기를 바라며 최선을 다해 정리해보았다. 부디 기업에서 빅데이터 비즈니스를 기획, 실행하려는 담당자들과 현업에서 일하는 데이터 과학자들의 경력의 지평을 넓히는데 도움이 되었기를 바랄 뿐이다.

필자가 글을 연재하면서 실리콘밸리에서 현직 데이터 과학자로 일하시는 분께 글 내용이 많은 도움이 된다며 본인이 겪는 문제에 대해 직접 문의해 오셨던 이메일을 받았을 때 참 많은 보람을 느꼈다. 부디 데이터 과학자로서 경력을 설계하는 분들께도 필자의 글과 생각이 많은 도움이 되길 바란다.

감사의 글
이 How-to-Big Data가 세상에 빛을 볼 수 있도록 CIO Korea에 좋은 지면을 마련해주시고 성심껏 지원해주신 천신응 편집장님, 박해정 선임기자님과 강옥주 기자님께 이 지면을 빌어 다시 한번 감사의 말씀을 올립니다. 세 분이 아니었으면 이 시리즈가 빛을 보지 못했을 것입니다.

무려 4년 7개월 동안 매월 한 번씩 원고를 탈고하는 고통을 옆에서 보면서 격려해준 필자의 아내 안가비와 딸 연우, 아들 유건에게도 감사의 말을 전합니다. 주말에 같이 시간을 보내주지 못해 미안해하면서 탈고한 이 시리즈가 그 시간만큼 누군가에게 좋은 경험이 되기를 진심으로 바랍니다.

데이터 과학자로, 빅데이터 전문가로 성장하는 가운데 제가 했던 선택들을 믿어 주시고 지지해주신 부모님께도 다시 한번 감사의 말씀을 올립니다. 두 분께서 제게 보여주신 신뢰와 지지가 없었다면 당시에는 길이 보이지 않았던 경력 초반에 빅데이터 전문가로, 데이터 과학자로서 순간순간의 길을 선택하고 경험을 쌓기는 어려웠을 것입니다.

마지막으로 필자의 졸필을 재밌게 읽어 주시고 많은 관심과 격려를 보내주신 독자들과 현업 데이터 과학자들께도 감사의 말씀을 드립니다. 여러분들께서 주신 격려와 질문 덕에 제 생각이 명료하게 정리될 수 있었고, 장수할 수 있었던 시리즈가 된 것 같습니다. 여러분들께서 주신 질문과 문의에 답을 하면서 제 생각과 경험도 한층 더 성숙해졌습니다. 이 지면을 빌어 다시 한번 감사의 말씀드립니다.


* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr



2021.07.29

김진철의 How-to-Big Dataㅣ에필로그 – 맺는 글

김진철 | CIO KR
LHC 빅데이터의 미래 – FCC와 새로운 입자 물리학 실험들
LHC 실험은 2018년까지 13TeV, 190fb-1의 목표 성능에 대한 계획된 실험을 마치고 현재 가동을 잠시 중단한 상태다. 2027년 9월로 예정되어 있는 고광도 LHC(High-Luminosity LHC; HL-LHC) 실험을 위해 LHC 주 가속기와 ATLAS, CMS, ALICE, LHCb의 주요 검출기들의 성능을 높이기 위해서는 목표 성능을 낼 수 있도록 많은 부품과 장치들을 새롭게 제작, 교체해야 한다. 지금은 시운전, 테스트를 준비하며 LHC 주 가속기와 검출기들을 업그레이드하고 있다.
 
그림 1. LHC 실험의 일정. COVID-19의 영향으로 HL-LHC 실험 준비를 위한 두 번째 셧다운 기간인 LS2(Long Shutdown 2) 기간이 4개월 연장되었다. 지금 LHC 실험은 HL-LHC 실험을 준비하기 위해 LHC 주 가속기와 주요 검출기들의 성능을 업그레이드하는 작업을 진행하고 있다. (그림 출처: https://project-hl-lhc-industry.web.cern.ch/content/project-schedule)

COVID-19 바이러스는 CERN의 LHC 실험에도 영향을 미쳐서 LHC 실험의 일정을 지연시켰다. 원래 HL-LHC 실험을 위한 검출기들의 1차 업그레이드를 완료하고 첫 빔 테스트와 시운전을 진행할 예정이었던 2021년 5월에서 4개월 지연된 2021년 9월에 첫 빔 테스트를 진행할 예정이다. 예상치 못했던 COVID-19 바이러스 사태때문에 앞으로 COVID-19 바이러스 확산 상태에 따라 LHC 실험 일정이 다시 변경될 가능성도 있지만, 현재까지의 상황을 보면 2022년 5월부터 원래 예정되었던 LHC 세 번째 실험(Run3)이 진행될 가능성이 높다.

LHC 주 가속기가 업그레이드되어 양성자 빔이 14TeV의 목표 에너지와 3000fb-1의 반응 크로스 섹션(cross section)에 도달하면, LHC 실험 초반에 20 ~ 40PB 규모의 3차원 영상 이벤트 데이터를 쏟아냈던 ATLAS, CMS, ALICE, LHCb 네 개의 검출기들은 LHC 빔 충돌 지점(interaction point)에서 일어날 수 이벤트의 빈도가 LHC 건설 당시 100배이상 높아지게 되면서 이에 따라 각 검출기들이 생산해내는 이벤트 영상 데이터의 양도 크게 증가할 것으로 보인다. 

HL-LHC 업그레이드에 따른 LHC 가속기와 주요 검출기들의 성능 향상도 LHC 빅데이터의 증가에 영향을 주지만, 검출기의 데이터 수집 하드웨어에 쓰이는 FPGA와 데이터 수집용 컴퓨팅 장치의 성능 향상, 딥러닝을 비롯한 새로운 이벤트 검출 알고리즘의 개발로 검출기를 통해 수집되는 데이터의 양은 훨씬 가파르게 폭증할 것으로 보인다. 이렇게 폭증하는 LHC 이벤트 영상 데이터의 양은 의미 있는 물리학 이벤트의 발견과 정밀한 분석에 기여하여 우리의 우주와 자연을 지배하는 근본 법칙을 이해하는데 큰 도움이 될 것으로 보인다.

이렇게 LHC 가속기가 앞으로 40년 넘게 운영되면서 우주와 물질을 지배하는 근본 법칙에 대한 이해를 넓히는데 기여하고 있음에도 CERN은 벌써부터 LHC를 이어 실험을 수행하게 될 새로운 초거대 입자 가속기의 건설을 논의하고 있다.

2019년 1월 15일 과학전문 저널인 ‘네이처(Nature)’에 기고된 기사에 따르면 약 210억 유로, 한화로 약 29조 4천억원에 달하는 예산이 새로운 초거대 입자 가속기 건설에 투입될 것으로 예상하고 있다. 이는 현재 운영중인 LHC의 2008년도 첫 빔 시운전까지 투입된 건설 비용인 10억 유로, 약 1조 4천억원의 21배에 달하는 금액으로, 화성 탐사 프로젝트와 함께 가장 많은 예산이 투입되는 과학 프로젝트가 될 전망이다.

‘미래 원형 가속기(Future Circular Collider; FCC)’라고 불리는 이 가속기는 현재 운영중인 LHC 가속기를 또 다른 부스터 가속기로 삼아, LHC 가속기에서 가속된 빔을 받아 다시 더 높은 에너지로 양성자, 양전자, 전자 및 중이온 빔을 가속하여 새로운 입자 물리학적 현상을 탐색하고, 2012년에 발견된 힉스 입자를 비롯한 표준 모형에서 알려진 소립자들의 성질을 정밀 규명하는 실험을 할 것을 목표로 하고 있다.

FCC와 함께 운영될 HL-LHC는 현재 LHC 가속기의 일부로서 여전히 쓰이고 있는 SPS 가속기와 같이 FCC 원형 가속기에 가속된 양성자, 양전자, 전자 및 중이온 빔을 입사시키는 부스터 가속기의 역할을 하게 될 것으로 보인다. 2019년에 발간된 FCC 개념 디자인 보고서에 따르면 FCC 건설, 운영에도 HL-LHC에서 수행할 실험을 계획하고 있으며, FCC를 보조하는 가속기로서의 역할 뿐만 아니라, HL-LHC 본연의 역할도 계속해서 수행하게 된다.

HL-LHC는 양성자 빔과 중이온 빔을 충돌시키는 가속기였지만, FCC는 양전자-전자 빔 충돌 실험을 할 것도 목표로 하고 있다. FCC 개념 디자인 보고서에 따르면 FCC는 양전자-전자 빔 충돌, 양성자 빔 충돌, 전자-양성자 빔 충돌, 중이온 빔 충돌과 같은 다양한 빔 충돌 실험을 수행할 수 있도록 계획하고 있으며, 이를 통해 더 다양한 물리학 이벤트를 생성하고 이에 대한 데이터를 수집하게 된다.
 
그림 2. CERN이 LHC의 후속 실험을 위한 가속기 프로젝트로 준비하고 있는 '미래 원형 가속기'의 조감도. 프랑스와 스위스의 국경에 걸쳐 총 길이 100km에 달하는 거대 실험 장치가 될 전망이다. (그림 출처: https://home.cern/science/accelerators/future-circular-collider)

CERN의 FCC는 입자 물리학의 지평을 넓히는 거대 과학 실험 장치가 될 뿐만 아니라, IT 기술 발전의 획기적인 전환점이 될 것으로 또한 기대된다. CERN에서 가속기가 건설될 때마다 사회적 영향력이 큰 새로운 IT 기술이 등장했다는 것은 우연이 아니다.

한 예를 들자면 팀 버너스 리가 만든 월드 와이드 웹 기술을 들 수 있다. LEP 가속기 시절 물리학자들 사이에 연구 자료를 손쉽게 공유하기 위해 당시 CERN에서 근무하던 팀 버너스 리(Tim Berners Lee)가 1987년 하이퍼텍스트 프로토콜(HTTP)과 웹 브라우저 기술을 처음 고안, 개발하여 오늘날 인터넷 비즈니스의 기반을 만들었다.

현재 운영되고 있는 LHC 가속기 건설 과정에서는 LHC에서 생산되는 막대한 빅데이터를 처리하기 위해 필요한 컴퓨팅 파워를 지리적인 제약을 넘어 공급하기 위해 그리드 컴퓨팅 기술을 개발했다. 이 과정에서 이종 자원 통합 문제를 효과적으로 해결하기 위해 가상 머신을 도입하기 시작했던 것이 오늘날의 클라우드 컴퓨팅으로 발전하여 IT 비즈니스의 판도를 크게 바꾸어 놓고 있다.

FCC의 검출기에서 생산되는 데이터는 엑사바이트(Exa-byte) 이상의 3차원 영상 빅데이터가 생산될 것으로 추정되고 있다. 지금 LHC의 검출기에서 가장 많은 데이터 유실이 일어나는 병목 지점(bottleneck)이 되고 있는 저수준(Level-1) 트리거(trigger)의 데이터 수집 컴퓨팅 시스템에 쓰이고 있는 기술들은 2000년대 초반부터 2010년대 초반까지 개발된 컴퓨팅 기술들이다.

2010년부터 현재까지 컴퓨팅 기술이 엄청나게 발전하였으며, 고속 데이터 수집을 위한 전자 회로 기술도 크게 발전하여, FCC가 건설될 즈음에는 검출기에서 수집할 수 있는 데이터의 양이 훨씬 더 증가할 것으로 보인다.

FCC의 빅데이터 처리에서 주목할 만한 것은 이와 같은 고성능 빅데이터 컴퓨팅 기술과 함께 딥러닝을 비롯한 고급 인공지능 기술들이 FCC의 이벤트 데이터 분류와 분석에 대거 동원될 것으로 기대되고 있다는 것이다. 

최근 넷플릭스에서 방영한 애니메이션 ‘인그레스(Ingress: The Animation)’에서도 인류를 구하는데 쓰이는 인공지능이 CERN에서 만들어진 것으로 설정돼 있다. 이 애니메이션에서는 재미를 위한 요소로서 CERN이 인공지능 기술의 출현 배경으로 등장하지만 FCC의 극한 빅데이터 처리 요건을 생각하면 이런 최첨단의 인공지능이 FCC 건설 과정에서 등장하지 말라는 법은 없는 것 같다.

LHC의 기술적인 난제를 해결하는 과정에서 다양한 빅데이터 기술과 IT 기술들이 등장하여 컴퓨터 과학 발전에 영향을 주었다. 요즘은 반대로, 컴퓨터 과학, 공학계에서 깊이 연구하여 개발한 빅데이터 기술과 데이터 마이닝, 고급 데이터 분석 기법들이 LHC 데이터 분석에 많이 활용되면서 CERN의 LHC 실험을 수행하는 과학자들과 컴퓨터 과학자들 사이의 긍정적인 선순환적 시너지가 만들어지고 있다.

LHC 실험 데이터 분석을 수행하는 물리학자들과 컴퓨터 과학자들 사이의 협업이 확대되고 있으며, 앞서 소개했던 어바인 소재 캘리포니아 주립 대학(University of California, Irvine)의 피에르 발디(Pierre Baldi) 교수와 같이 LHC 실험 데이터 분석에 필요한 기계 학습 기술을 연구하면서 얻은 아이디어를 생물정보학과 다른 분야로 확대해서 적용해보려는 컴퓨터 과학자들도 늘어나고 있다.

FCC 가속기의 극한 빅데이터 요구 사항과 현재 발전하고 있는 고성능 컴퓨팅, 네트워크 패브릭 및 무선 통신 기술, 임베디드 컴퓨팅 프로세서 기술과 함께 양자 컴퓨팅 기술과 같이 새롭게 등장하고 있는 컴퓨팅 기술들이 더 발전된 빅데이터 컴퓨팅 기술을 탄생시킬 수 있을 것으로 보인다. 과연 FCC 건설 과정에서 빅데이터와 데이터 과학 분야에 어떤 종류의 새로운 돌파구가 나타날 것인지 기대된다.

양자 컴퓨팅과 인공지능의 발전
이전에 빅데이터 기술의 미래를 소개하면서 딥러닝의 대가 중 한 사람인 요슈아 벤지오 교수가 의식을 딥러닝 모델화하려는 연구를 수행한 결과를 NeurIPS 2019 학술회의에서 기조 연설로 발표한 내용을 같이 살펴본 바 있다.

최근 역시 딥러닝 분야의 대가 중 한 사람인 캐나다 토론토대 교수이자 구글 브레인(Google Brain) 소속 과학자인 제프리 힌튼 교수는 ‘GLOM’이라 불리는 모델을 제안하였다. ‘GLOM’은 사람의 두뇌에서 대표적으로 나타나는 정보 처리 양상인 ‘부분-전체 계층(part-whole hierarchy)’과 현재 심층 신경망 모델이 가진 가장 큰 한계 가운데 하나인 신경가소성(neural plasticity)을 가능하도록 하는 적응형 구조를 심층 신경망 모델로 만들어보려는 시도이다.

제프리 힌튼 교수는 ‘부분-전체 계층(part-whole hierarchy)’ 연산을 학습할 수 있는 완전히 새로운 심층 신경망 모델을 제안했다기 보다는 최근 제안된 심층 신경망 모델들인 ‘변환기(Transformer)’, ‘신경 장(Neural Fields)’, ‘대조적 표상 학습(Contrastive Representation Learning)’, ‘(지식) 추출((Knowledge) Distillation)’, ‘캡슐 신경망(Capsule Neural Network)’과 같은 요소 모델을 새롭게 응용해서 우리 두뇌의 ‘부분-전체 계층(part-whole hierarchy)’ 특성과 같은 연산을 할 수 있는 딥러닝 아키텍처를 제안하였다.

앞서 요슈아 벤지오 교수가 시스템 2 인지 기능을 모방할 수 있는 딥러닝 알고리즘과 모델의 연구를 앞으로 인공지능 분야의 중요한 연구 주제로 제시한 것과 같은 맥락으로, 제프리 힌튼 교수 또한 우리 두뇌의 연산을 모방할 수 있는 심층 신경망 아키텍처를 연구하고 이를 이용해 해결할 수 있는 문제들을 연구하고 있다. 

이와 같이 사람의 두뇌가 가지고 있는 고급 인지 기능을 딥러닝을 비롯한 인공지능 모델을 이용해 모방해보고, 이를 현재까지는 사람만이 할 수 있는 문제들에 적용해서 인공지능 기술의 지평을 넓히는 연구에 많은 인공지능 연구자들이 뛰어들고 있다.

사람의 고급 인지 기능을 딥러닝과 발전된 인공지능 지식을 이용해서 모델링하려는 연구와 함께, 이렇게 모델링된 결과를 실제 응용에 효과적으로 쓰일 수 있도록 하는 인공지능 응용 하드웨어와 프로세서 기술을 개발하려는 회사와 연구자들도 점점 많아지고 있다.

이전에 소개했던 그래프코어(GraphCore)사의 IPU, 세리브라 시스템즈(Cerebras System)의 웨이퍼 스케일 엔진(Wafer-Scale Engine)이 대표적인 경우이며, 전통적인 반도체 강자인 인텔, IBM과 같은 회사들도 뉴로모픽 프로세서 개발에 박차를 가하고 있다.

구글이 72큐비트 처리가 가능한 시카모어(Sycamore) 양자 컴퓨터 프로세서를 선보이면서 IBM도 2023년까지 1,000큐비트 연산이 가능한 양자 컴퓨터 시스템을 개발하겠다는 비전을 내세우며, IBM Q 시스템으로 불리는 시험적인 양자 컴퓨터도 선보였다. 

이와 같이 양자 컴퓨터 개발 경쟁이 가속화되면서, 딥러닝 모델을 이런 양자 컴퓨터에서 실행시키거나 아예 양자 컴퓨팅 모델로서 재해석하고 다시 만들어보려는 연구들도 이어지고 있어 양자 컴퓨팅과 접목되어 성능과 인지 기능의 수준이 대폭 향상된 인공지능 기술을 멀지 않은 미래에 만나볼 수 있을 것으로 기대된다.
 
그림 3. (위) 구글이 처음으로 양자 우위를 달성했던 연구에 사용한 시카모어 양자 컴퓨팅 프로세서. (아래) 시카모어 양자 컴퓨팅 프로세서가 탑재된 구글의 양자 컴퓨터. (그림 출처: (위) https://www.nature.com/articles/s41586-019-1666-5 (아래) https://www.extremetech.com/extreme/300987-googles-quantum-supremacy-paper-tldr-edition)

6G 이동통신 기술, 사이버 물리 시스템의 확산
5G 이동통신이 우리나라에서 세계 최초로 상용화된 지 벌써 3년이 되어 가지만, 5G 상용화 시점에 우리나라 이동통신사들이 내세웠던 LTE보다 20배 빠른 속도의 이동통신 서비스와 자율주행 서비스와 같은 발전된 서비스들을 우리 현실에서 만나보기에는 아직 요원해 보인다. 

당시 내세웠던 5G의 장점을 실제로 경험할 수 있게 하기 위해 필요한 28GHz 대역 기지국 설치와 서비스 커버리지 확대가 28GHz 기지국 장비 투자에 들어가는 비용 때문에 아직까지도 이동통신 사업자들이 선뜻 나서지 못하고 있기 때문이다.

이런 이유로 5G 이동통신 서비스에 불만을 가진 일부 소비자들이 모여 5G 이동통신 서비스에 대한 과대 허위 광고 소송을 준비하고 있다는 얘기도 들린다. 이렇게 5G 서비스가 목표한 수준까지 완전하게 성숙하지 못했음에도 벌써 6G 이동통신 기술을 준비하려 하는 많은 통신 기술 연구자들과 기업들에 대한 소식이 들려오고 있다.

5G 이동통신 서비스가 원래 목표한 수준에 도달하기까지 상용화 시점인 2019년부터 약 5 ~ 10년이 걸릴 것으로 보인다고 필자가 지난 빅데이터의 미래 여섯 번째 글인 마흔 번째 글에서 5G 이동통신과 모바일 에지 컴퓨팅에 대해 소개하면서 언급한 바 있다. 2019년 5G 이동통신 서비스가 상용화되기는 했으나 5G 이동통신 서비스는 여전히 발전하고 있는 중이다.

5G 이동통신 서비스가 성숙되어 이를 통해 제공될 다양한 지능형 서비스들을 사회에서 실제로 경험하게 될 때까지 아직 5 ~ 7년이상 더 기다려야 할 것으로 보이지만 소비자들의 기대는 좀처럼 수그러들지 않는 모양이다. 

이와 함께 5G에서 달성되리라 기대했던 네트워크 성능 수준이 현재 네트워크 기술 수준의 한계로 완전하게 달성되기 어려울 것이라고 생각되어, 현재 3GPP에서 합의한 5G 표준에서 정의하는 5G 이동통신 기술의 성능은 5G 표준 협의 초반에 원래 기대되었던 성능에 비해서 다소 후퇴한 상태다.

5G 이동통신 서비스를 통해 이루고자 했던 지능형 네트워크 인프라의 비전을 6G 이동통신 네트워크 기술을 통해 다시 한번 실현시키고자 시도하고 있다. 6G 이동통신 서비스에서는 테라비피에스(Tbps)급 대역폭을 실현하여 진정한 무선 사물인터넷의 시대가 본격적으로 열릴 것으로 많은 사람들이 기대하고 있다.

6G 이동통신 기술 표준으로 고려하고 있는 또 하나의 중요한 영역은 바로 ‘비지상 네트워크(Non-Terrestrial Network; NTN)’ 기술이다. 현재 LTE와 5G 모두 휴대전화와 같은 이동통신 단말기들이 이동통신망에 접속하는 안테나와 기지국 시설을 지상에 설치해서 운영하고 있다. NTN은 이런 기지국이 지상에 설치되는 것이 아니라, 인공위성이나 구글의 ‘룬(Lune)’ 프로젝트에서 기구로 인터넷 중계기를 띄우는 것과 같이 공중에 떠 있는 이동통신 기지국을 통해 중계, 연결되는 이동통신 서비스를 말한다.

6G 이동통신 표준 기술로 적극적으로 검토되고 있는 NTN이 중요한 이유는 현재 독일의 ‘릴리움(Lilium)’과 같은 ‘비행 택시(flying taxi)’ 서비스 스타트업, 도심형 플라잉 카 프로토타입을 선보이며 플라잉 카 시장에 진출하려 하고 있는 ‘에어로모빌(Aeromobil)’과 같은 회사들이 제공하게 될 ‘비행 택시(flying taxi)’, ‘자율 주행 드론 택시(autonomous drone taxi)’나 자가 비행 자동차와 같이 공중에서 주행하게 되는 교통수단들을 위한 모빌리티 및 커넥티비티 서비스 제공에 NTN이 필수적으로 사용되기 때문이다.

6G 이동통신을 통해 사물인터넷이 발전하게 되면 자율주행차 및 드론 택시와 같은 지능형 모빌리티 서비스가 급격하게 발전할 것으로 기대된다.

이와 함께 6G 이동통신 서비스를 통해 사물 사이에 교환되는 데이터의 양이 테라비피스(Tbps)급으로 현재보다 1,000배이상 향상되면 기계가 데이터센터의 지원을 받아 수행할 수 있는 작업의 복잡도가 크게 증가하여 지금보다 훨씬 더 정교하고 복잡한 지능형 서비스들이 등장할 것으로 보인다.
 
그림 4. 독일의 비행 택시 서비스 스타트업인 릴리움에서 개발한 릴리움 제트 비행 택시가 2017년 4월에 첫 시험 비행을 성공적으로 마쳤다. (그림 출처: https://flyingcarsmarket.com/a-german-startup-can-bring-flying-taxis/)

5G 서비스가 미처 성숙하기도 전에 6G 기술에 대한 논의가 시작되는 것은 5G 이동통신을 실현하기 위해 우리가 현재 가지고 있는 통신 기술의 한계를 빨리 넘어서서 6G 기술을 통해 좀더 편리하고 지능화된 사회 인프라를 빨리 만나보고 싶어하는 우리의 바램이 더 커졌기 때문일 것이다. 

5G 이동통신 서비스의 성숙, 6G 이동통신 서비스로의 발전은 사회의 다양한 서비스와 인프라가 사이버 물리 시스템으로 통합, 진화하는 속도를 더 높이게 될 것으로 보이고, 이를 통해 요구되는 기계의 지능 수준이 더 높아져 인공지능 기술과 데이터 과학, 빅데이터 기술의 요구가 더 높아질 것으로 보인다.

예전에는 공상 과학 영화에서나 나올 것이라고 생각했던 것들이 많은 혁신가들과 과학자, 공학자들 덕분에 점점 더 빨리 손에 잡힐 듯한 미래로 다가오고 있다. 이런 미래에서 빅데이터와 데이터 과학을 잘 활용하는 능력은 쏟아지는 데이터 앞에서 점점 더 중요한 역량이 될 것임은 분명한 사실이다. 여러분들은 이런 미래에 준비되어 있는가?
 
그림 5. (위) 2021년 3월 에어로모빌사의 비행 자동차가 시험 비행을 성공적으로 수행하고 있다. (아래) 에어로모빌사가 2023년 상용화할 것으로 기대되고 있는 비행 자동차. (그림 출처: (위) https://www.aviationtoday.com/2021/03/04/aeromobil-marks-milestone-toward-certification-flight-tests/  (아래) https://www.aerospace-technology.com/projects/aeromobil-4-0-flying-car/)

맺는 글
이 How-to-Big Data 시리즈는 원래 필자의 데이터 과학자, 빅데이터 전문가로서의 경험을 기업에서 빅데이터를 활용할 때 적절하게 참고할 수 있는 자료로 남겨두고 싶었던 필자의 바램으로 시작됐다. 당시 아이디어는 있었지만 글을 기고할 매체를 마땅히 찾지 못하고 있던 와중, 2016년 12월 초 이 글이 게재된 CIO Korea의 모회사 한국IDG에서 주최한 컨퍼런스에서 필자가 당시 한국IDG 박해정 선임기자님, 천신응 편집장님과 만나면서 비로소 독자분들과 만날 수 있게 되었다.

원래 계획은 12회분의 짧은 연재로 이 시리즈를 마무리할 생각이었지만, 글이 연재되는 와중에 필자의 글이 데이터 과학자로서 현업에, 또는 빅데이터 프로젝트를 기획, 실행하고 싶어하는 기업 담당자에게 매우 도움이 된다는 격려와 함께 보내주신 많은 문의에 응하다 보니 원래 계획보다 훨씬 더 길어져 무려 4년 7개월동안 55편의 글로 정리될 수 있었다. 

이렇게 4년 7개월동안 이 How-to-Big Data 시리즈가 장수할 수 있었던 것은 독자 여러분들께서 필자의 글에 많은 공감과 지지를 보내주시고, 필자가 생각을 더 잘 정리할 수 있도록 많은 질문을 던져 주신 탓이다.

많은 독자분들께서 성원과 응원을 보내 주시다 보니, 좀더 정확하고 유용한 지식과 통찰을 전달하기 위해 엄밀하게 자료 조사를 하고 글 내용과 생각을 다듬으면서 글 중반부부터는 다소 글이 길어지게 되었다. 이 때문에 독자들께서 글 읽는 재미가 반감되지는 않았기를 진심으로 바란다.

필자보다 더 출중하고 경력이 뛰어나신 데이터 과학자와 빅데이터 전문가분들도 많으실 것이지만, 필자의 경험이 기업에서 데이터 과학과 빅데이터를 활용하는데 도움이 되기를 바라며 최선을 다해 정리해보았다. 부디 기업에서 빅데이터 비즈니스를 기획, 실행하려는 담당자들과 현업에서 일하는 데이터 과학자들의 경력의 지평을 넓히는데 도움이 되었기를 바랄 뿐이다.

필자가 글을 연재하면서 실리콘밸리에서 현직 데이터 과학자로 일하시는 분께 글 내용이 많은 도움이 된다며 본인이 겪는 문제에 대해 직접 문의해 오셨던 이메일을 받았을 때 참 많은 보람을 느꼈다. 부디 데이터 과학자로서 경력을 설계하는 분들께도 필자의 글과 생각이 많은 도움이 되길 바란다.

감사의 글
이 How-to-Big Data가 세상에 빛을 볼 수 있도록 CIO Korea에 좋은 지면을 마련해주시고 성심껏 지원해주신 천신응 편집장님, 박해정 선임기자님과 강옥주 기자님께 이 지면을 빌어 다시 한번 감사의 말씀을 올립니다. 세 분이 아니었으면 이 시리즈가 빛을 보지 못했을 것입니다.

무려 4년 7개월 동안 매월 한 번씩 원고를 탈고하는 고통을 옆에서 보면서 격려해준 필자의 아내 안가비와 딸 연우, 아들 유건에게도 감사의 말을 전합니다. 주말에 같이 시간을 보내주지 못해 미안해하면서 탈고한 이 시리즈가 그 시간만큼 누군가에게 좋은 경험이 되기를 진심으로 바랍니다.

데이터 과학자로, 빅데이터 전문가로 성장하는 가운데 제가 했던 선택들을 믿어 주시고 지지해주신 부모님께도 다시 한번 감사의 말씀을 올립니다. 두 분께서 제게 보여주신 신뢰와 지지가 없었다면 당시에는 길이 보이지 않았던 경력 초반에 빅데이터 전문가로, 데이터 과학자로서 순간순간의 길을 선택하고 경험을 쌓기는 어려웠을 것입니다.

마지막으로 필자의 졸필을 재밌게 읽어 주시고 많은 관심과 격려를 보내주신 독자들과 현업 데이터 과학자들께도 감사의 말씀을 드립니다. 여러분들께서 주신 격려와 질문 덕에 제 생각이 명료하게 정리될 수 있었고, 장수할 수 있었던 시리즈가 된 것 같습니다. 여러분들께서 주신 질문과 문의에 답을 하면서 제 생각과 경험도 한층 더 성숙해졌습니다. 이 지면을 빌어 다시 한번 감사의 말씀드립니다.


* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr

X