Offcanvas

AI / 디지털 트랜스포메이션 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 클라우드

김진철의 How-to-Big Data | How-to-Big Data 핵심 정리(Key Takeaways) (1)

2021.04.27 김진철  |  CIO KR
이번 글과 다음 글에서는 지난 2017년 1월부터 지금까지 필자가 정리했던 빅데이터 활용 교훈의 핵심을 정리해보는 시간을 가지려고 한다. 필자가 기고를 시작했던 2017년부터 지금까지 빅데이터 기술이나 데이터 과학 활용 양상이 많이 발전했어도 많은 기업이 빅데이터를 차별화된 비즈니스 성공으로 이끈 사례는 생각보다 많지 않다. 필자가 CERN의 LHC 실험을 통해 살펴보았던 빅데이터 활용의 교훈들은 시간이 지나도 여전히 유효하다. 지금까지 살펴본 내용들을 같이 보면서 앞으로 빅데이터를 어떻게 활용해야 시행착오를 덜 겪으면서 비즈니스를 성공으로 이끌 수 있을지 같이 정리해보자.
 
ⓒGetty Images

--> 1회: 연재를 시작하며 (2017년 1월 23일 게재)

필자가 연재를 시작할 당시 데이터 과학 무용론이 고개를 들기 시작하던 때였다. 소위 하둡(Hadoop)과 같은 빅데이터 기술을 도입했지만 비즈니스 효과가 없다는 얘기도 있었고, 빅데이터와 데이터 과학이 실체가 없고 주요 IT 기업들의 솔루션 판매를 위한 마케팅 용어일 뿐이라는 주장도 나타났다. 

많은 기업들이 빅데이터의 효과를 확인하지 못하는 이유는 빅데이터를 처리하는 기술, 특히 당시에는 아파치 하둡(Hadoop)과 스파크(Spark)기술 중심의 빅데이터 기술을 도입하는 데에 관심을 보이고, 빅데이터 기술이 도입된 후 정작 해야 하는 데이터 과학을 제대로 하지 않았기 때문이라고 설명했다. 빅데이터와 데이터 과학을 잘 활용해서 효용을 얻기 위해 필요한 것을 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 관점에서 살펴보겠다고 소개했다.

빅데이터와 데이터 과학을 활용하기 위해 가장 중요한 것이 데이터 수집이다. 우선 어떤 데이터를 어떻게 획득할 것인가하는 문제가 빅데이터 비즈니스 모델의 설계와 성공에 많은 영향을 미치기 때문이고, 데이터가 없는데 빅데이터 비즈니스 모델이 작동할 리 없기 때문이다. 데이터는 빅데이터 비즈니스 모델의 연료와 같다.

--> 2회: 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가? (2017년 2월 23일 게재)

빅데이터를 활용하는 과정에서 기업이나 조직이 많이 저지르는 실수 중의 하나는 빅데이터를 이용해 풀려는 비즈니스 문제를 분명하게 정의하지 않는 것이다. 이를 이해하기 위해 필자는 LHC 실험이 왜 11조원의 막대한 예산을 들여 LHC 가속기와 이 가속기의 입자 검출기에서 나오는 연간 20PB의 막대한 이벤트 데이터를 처리, 분석하기 위한 LHC 컴퓨팅 그리드(The LHC Computing Grid)를 전 세계에 걸쳐 건설, 구축하게 됐는지 설명했다.

LHC실험에서 해결하려고 하는 문제는 입자 물리학의 연구 과정에서 제기된 문제들로, 약전자기 대칭(electroweak symmetry)가 어떻게 깨지는지, 이것이 표준 모형에서 예측하고 있는 힉스(Higgs) 입자와 어떤 관련이 있는지, 힉스(Higgs) 입자의 질량은 어느 정도인지와 같은 대칭성 깨짐, 힉스 입자 존재의 확인과 특성을 조사하는 문제와 함께 대표적인 문제 7가지를 소개했다. 

이 입자 물리학의 근본적인 질문 7가지에 대한 답을 얻기 위해 11조원의 막대한 돈을 들여 높은 에너지로 양성자 빔을 충돌시키고, 이 때 일어나는 이벤트에 대한 데이터를 수집하여 조사하는 LHC 가속기와 네 대의 검출기, 그리고 데이터를 분석하는 LHC 컴퓨팅 그리드와 같은 인프라가 필요했던 것이다.

기업과 조직이 빅데이터를 활용할 때에도 먼저 해결하려는 비즈니스 문제가 무엇인지, 그리고 이 비즈니스 문제를 해결하기 위해 어떤 데이터를 어떤 방식으로 모을 것인 것 깊게 고민하고 분석하는 것에서 시작해야 한다. 하둡(Hadoop)과 같은 빅데이터 기술은 이와 같은 비즈니스 문제에 대한 고민과 분석을 통해 빅데이터를 모으고 분석하는 것이 필요하다는 분명한 결론에 도달했을 때 도입해도 늦지 않으며, 기업의 많은 문제들은 굳이 빅데이터가 아니어도 해결되는 경우가 많다.

--> 3회: 빅데이터 수집에 관한 생각 (1) (2017년 3월 23일 게재)

LHC 실험에서 연간 20PB의 데이터를 처리, 분석하기 위해 입자 검출기의 레벨 1, 하이-레벨 트리거 장치와 LHC 컴퓨팅 그리드를 구축한 것은 막연하게 빅데이터를 활용하기 위한 것이 아니었다. 위 2회의 글에서 소개한 입자 물리학의 대표적인 7가지 문제들을 해결하기 위해 필요한 양성자 빔 충돌 에너지를 먼저 계산하고, 14TeV라는 높은 에너지로 양성자 빔이 서로 충돌했을 때 나타나는 이벤트 데이터의 양을 계산해보니 당시 기술로는 저장, 처리가 불가능한 연간 20PB라는 양이 계산되어 이 문제를 해결하기 위해 빅데이터 인프라와 기술을 개발하게 된 것이다.

LHC 가속기 실험의 과학자들은 자신들이 당면한 7개의 입자 물리학 근본 문제에 대한 해답을 얻기 위해 필요한 실험 시설을 어떻게 짓고 활용할 것인가라는 문제에만 집중했다. 이를 해결하려다 보니 LHC 가속기에서 생산되는 연간 20PB의 많은 데이터를 처리, 저장, 분석하기 위한 기술이 필요해서 그리드 컴퓨팅 기술을 이용해 빅데이터 처리 인프라를 만들었다. 빅데이터 활용이 주 목적이 아니라, LHC 가속기 실험으로 풀고자 하는 과학적 문제들의 해결이 주 목적이었던 것이다.

20PB라는 막대한 양의 데이터를 처리할 필요가 어떻게 생겨났는지 자세히 살펴보았다. 20PB라는 양은 인위적인 양이 아니라, LHC 가속기 실험 조건에서 양성자 빔의 초당 충돌회수를 계산했을 때 나오는 데이터의 양이었다. 당시 컴퓨터 기술로는 이렇게 많은 데이터를 합리적인 시간안에 빠르게 처리해서 저장, 분석할 수 없었기 때문에 LHC 컴퓨팅 그리드를 위한 다양한 빅데이터 기술을 개발하게 됐다고 설명하였다.

기업의 빅데이터 기술 도입과 활용도 이와 같이 당면한 문제에 대한 고민과 분석에서 얻어진 빅데이터 활용의 필요성에 대한 절실함이 먼저이다. 비즈니스 문제와 필요가 정의되지 않은 채로 빅데이터 기술만 도입하는 것은 빅데이터 비즈니스의 실패 가능성만 높인다.

--> 4회: 빅데이터 수집에 관한 생각 (2) (2017년 4월 20일 게재)

빅데이터 비즈니스 모델에 대해서 같이 생각해보았다. 빅데이터 활용 과정에서 중요한 것은 바로 빅데이터를 수집하는 과정인데, 비즈니스의 목적에 맞는 빅데이터가 잘 수집되어 있지 않다면 빅데이터 처리, 분석 자체가 불가능하기 때문이다.

빅데이터를 수집하는 과정은 비즈니스 모델의 영향을 받게 되며, 반대로 빅데이터를 수집하여 만들고자 하는 비즈니스 가치에 따라 비즈니스 모델이 정의되기도 한다. 빅데이터 비즈니스의 이런 특성 때문에 빅데이터 비즈니스는 다자 플랫폼 비즈니스 모델(multi-sided platform business model)의 형태를 띌 수밖에 없다.

CERN 또한 CERN의 주 수입인 예산을 분담금으로 제공하면서 LHC 실험의 빅데이터와 주요 연구 시설을 자국의 기초과학 발전과 응용 기술 개발에 활용하려는 유럽 회원국 각국 정부, 빅데이터 수집과 정제에 중요한 역할을 하고 빅데이터를 이용해 과학 연구 결과를 직접 내는 고객이자 파트너인 전세계 고에너지 물리학 연구소와 여기에서 근무하는 물리학자들, 다양한 분야의 과학자, 공학자들, 그리고 CERN의 연구 성과를 인지하고 자신들의 목적에 맞게 소비하여 CERN의 연구에 지지를 보내면서 CERN의 존속 이유를 제공하는 일반 대중과 같은 이해 관계자들 사이에서 LHC 실험장치와 WLCG 컴퓨팅 그리드 서비스가 다양한 가치를 전달하는 플랫폼으로서 역할을 한다.

빅데이터 비즈니스 모델을 설명하는 모델로서 자전거 모델(the Bicycle Model)을 소개했다. 자전거에 탄 사이클리스트가 고객과 시장을 바라보고 자전거로 질주하는 도로 환경, 즉 시장 환경과 고객에 대한 정보를 눈으로 수집하여 페달을 밟는 것이 비즈니스를 위한 빅데이터를 수집하는 과정이고, 이렇게 수집한 빅데이터를 비즈니스에 활용하는 과정은 발로 페달을 밟아 속도를 내는 과정에 비유할 수 있다. 빅데이터를 활용하는 중요한 시스템인 두 시스템으로 BSS(Business Support System), OSS(Operation Support System)를 들었고, BSS는 비즈니스의 방향을 설정하고 OSS는 비즈니스의 속도를 내게 해주는 역할을 한다.

--> 5회: 빅데이터 수집에 관한 생각 (3) (2017년 5월 26일 게재)

LHC 실험에서 연간 20PB의 3차원 영상 빅데이터를 만드는 입자 검출기가 어떻게 소립자들이 충돌하면서 만드는 이벤트들을 빅데이터로 만드는지 그 원리를 살펴보았다. 입자 검출기는 일종의 사진기로서, 현재 LHC 실험에서 쓰이는 입자 검출기의 실리콘 픽셀 검출기는 전하를 가진 입자가 실리콘을 지날 때 만들어내는 미세한 전류의 양과 궤적의 흔적으로 입자가 이동한 흔적을 검출하여 디지털화된 데이터로 만들어낸다.

다자 플랫폼 비즈니스 모델(multi-sided platform business model)로서 빅데이터 비즈니스 모델에 대해 좀더 자세하게 설명했다. 두 가지 관점의 다자 플랫폼 비즈니스 모델에 대해서 설명하였는데, 한 경우는 빅데이터 비즈니스를 수행하는 조직이 고객에게 서비스와 상품을 제공하면서 얻는 고객에 관한 빅데이터를 이용, 가공하여 고객의 선호, 취향 정보와 같은 또 다른 비즈니스 가치를 만들어 내고, 이를 필요로 하는 다른 개인 또는 조직에 이런 데이터를 기초로 만든 가공된 서비스나 상품을 제공하면서 기업의 수익을 올리는 비즈니스 모델을 생각해봤다. 소비자에게 인터넷 검색 서비스를 제공하면서 얻은 고객의 데이터를 이용해 맞춤형 광고 서비스를 하여 광고주들을 통해 수익을 올리는 구글과 같은 경우가 이런 경우라고 볼 수 있다.

또 다른 경우는, 데이터의 수집 대상이 사람이나 고객이 아닌 특정한 대상인 경우로, 데이터를 영상 센서와 같은 센서로 자동화된 방식으로 수집하여, 이렇게 수집된 데이터를 가공하여 또 다른 상품, 서비스로 만들어 다른 고객과 조직에 제공하여 수익을 내는 형태다. 이런 경우의 대표적인 예가 아마존 고(Amazon Go)와 같은 무인 매장의 경우인데, 앞으로 많은 빅데이터 비즈니스가 이렇게 센서 네트워크와 자율 에이전트와 같은 기계가 수집하는 데이터를 이용하는 형태로 나타날 것이다.

그리고 한가지 더 중요한 포인트로 LHC에서 실리콘 픽셀 검출 센서의 물리적인 한계와 성능이 관찰하고 분석할 수 있는 입자 이벤트의 공간 분해능(resolution)과 한계를 결정해 얻을 수 있는 데이터의 품질과 수준을 결정하는 것과 같이, 데이터를 수집하는 방법과 원리에 대한 이해가 데이터 분석에 필수라는 것이다. 우리가 원하는 정보를 주지 못하는 데이터를 수집해 봤자 비즈니스 문제 해결에 아무 도움도 되지 않기 때문에 이 문제는 빅데이터 비즈니스 모델 설계시에 중요한 문제다.

--> 6회: 빅데이터 수집에 관한 생각 (4) (2017년 6월 26일 게재)

LHC 실험의 대표적인 4개의 검출기 중 하나인 CMS 검출기에서 일어나는 입자 이벤트 데이터 수집, 가공 과정을 소개했다. CMS 검출기에서 레벨 1 트리거와 고수준 트리거 분산 컴퓨팅 장치를 거치면서 물리학자들이 이벤트를 분석할 수 있도록 3차원 재구성(reconstruction)이 가능하고, 분석에 필요한 메타데이터가 부여된 상태로 가공되기 위해서 여러 단계를 거쳐 데이터가 자동 가공, 분석된다.

LHC 실험 같은 경우, 이벤트 데이터에 메타데이터를 붙이고 분류하기 위해 이벤트 시뮬레이션 소프트웨어가 만든 데이터를 같이 활용한다고 설명하였다. 실제 실험 조건을 LHC 연구자들이 실험의 목적에 맞게 완전하게 조작하는 것은 현실적으로 불가능하기 때문에, 실험이 가능한 조건에서 얻은 실제 실험 데이터와, 일반 실험보다 더 다양한 조건에서 얻은 이벤트 시뮬레이션 데이터를 같이 대조하여 실험 데이터를 가공하고, 메타데이터를 부여하여, 데이터 분석을 한다.

데이터 형식을 잘 설계하는 것은 빅데이터를 이용해 문제를 해결하는 과정에서 중요하다. 데이터 형식을 어떻게 정의하느냐에 따라서 빅데이터 가공 과정이 쉬울 수도 있고 경우에 따라서는 아예 불가능할 수 있다. 해결하려는 문제의 목적에 맞게 단계별 데이터 가공 과정에서 데이터가 담아야 하는 정보가 어떤 것인지 사전에 충분히 분석이 되어야 데이터 형식에 따른 가공, 분석 과정 정의가 가능하다.

빅데이터 비즈니스 모델을 설계할 때 데이터 수집 과정을 설계하기 위해 고려해야 할 여섯 가지를 설명하였다. 이 여섯 가지를 고려해 데이터 수집 과정과 비즈니스 모델을 설계하였을 때 데이터 형식이 목적에 맞게 정의될 수 있다.

--> 7회: 빅데이터와 인공지능 (1) (2017년 7월 5일 게재)

빅데이터를 활용할 때 인공지능 기술이 어떤 목적과 용도로 필요한지 설명하였다. 많은 사람들이 딥러닝 같은 기계 학습 모델이 지금까지 알려지지 않았던 데이터의 패턴을 찾아내어 새로운 분석 결과를 얻어내는 데이터 마이닝과 분석의 용도로만 인공지능 기술을 고려하는 경우가 많은데, 사실 빅데이터를 활용할 때 인공지능 기술의 진정한 용도는 빅데이터 가공, 분석 과정을 자동화하는 것이다.

LHC 실험에서 인공지능 기술은 실험에서 얻은 이벤트 데이터를 시뮬레이션 데이터와 비교하여 실제 수집된 이벤트마다 입자의 종류와 에너지, 질량 추정치 등의 다양한 메타데이터를 자동으로 부여하는 과정에서 우선 활용된다. 이렇게 메타데이터가 부여된 이벤트 데이터를 분석에 맞게 정보를 줄이고 분류, 가공하는 과정을 자동화하는 용도로 쓰인다.

일반 기업이 데이터 분석만으로 비즈니스 효과를 보는 것은 매우 어렵다. 데이터 분석도 물론 중요하지만, 빅데이터 비즈니스의 효과를 진정으로 볼 수 있는 것은 비즈니스의 빅데이터 가공, 분석 과정을 자동화하여 비즈니스 속도를 높인 것에서 오는 기민함과, 빅데이터 처리, 분석 과정의 효율과 속도를 경쟁자들이 따라올 수 없도록 했을 때 만들 수 있는 비즈니스 진입 장벽이다.

딥러닝 같은 모델은 베이지안 모델과 같은 기계 학습 모델에 비해 학습에 많은 비용이 들고 해석이 어려워 데이터 분석보다는 자동화 용도로 쓰는 것이 더 적합하다. 최근 인기를 얻고 있는 딥러닝 모델을 비즈니스에 활용할 때에는 기계가 자율적으로 데이터를 수집, 분류, 가공하여 비즈니스 속도를 높일 수 있도록 하는 자동화에 초점을 맞추는 것이 좋다.

--> 8회: 빅데이터와 인공지능 (2) (2017년 8월 28일 게재)

인공지능 기술을 이용한 데이터 수집, 처리, 분석 과정의 자동화를 빅데이터 비즈니스 기획에 어떻게 이용하는 것이 좋은지 생각해보았다. 2015년에 열린 LHC 데이터 과학 워크샵에서 딥러닝을 비롯한 인공지능 기술의 LHC 가속기 실험 입장에서의 효용과 응용 가능성에 대한 다양한 토론이 이뤄졌다. 이 때 언급된 LHC 가속기 실험에서 인공지능 기술의 효용은 크게 세 가지로 정리된다.

현재 LHC 실험에서 가장 인공지능 기술이 절실한 부분은 레벨 1 트리거에서 이벤트 분류 속도와 정확도를 높여 현재 실제 일어나는 이벤트의 1000분의 1수준으로만 수집되고 있는 이벤트 데이터의 수집율을 높이고 유실율을 최대한 낮추기 위한 자동화 과정이다.

두 번째, 지금까지 알려지지 않은 새로운 입자 발견에 딥러닝 같은 기계 학습 기술을 이용하는 것이다. 이 역시 딥러닝의 일반화 능력, 패턴 발견 능력이 가장 잘 활용될 수 있는 중요한 분야이다. 마지막 세 번째, 검출기와 같은 실험 장치 운영 환경의 변화와 장치 자체의 측정 오류에서 오는 오차를 자동으로 조정하여 데이터의 신뢰성을 높이는 실험 장치 운영의 자동화와 적응성에 관한 것이었다.

인공지능 기술이 사람의 노동력과 일자리를 대체할 만큼 아직 완전한 자율성과 고급 인지 능력을 만들어내지는 못한다. 이런 이유로, 언론에서 얘기하는 것처럼 인공지능과 빅데이터를 이용한 비즈니스를 기획할 때 인공지능 기술을 이용한 자동화로 인력을 감축하거나 대체하여 비용을 낮추는 방향으로 설계하는 것보다는 빅데이터와 인공지능 기술을 이용해 기업과 조직의 구성원들의 업무 역량을 증강시키고 업무 효율과 비즈니스 수행의 기민성을 높여 수익을 내는 것이 좋다.

이와 같이 빅데이터와 인공지능이 협력하여 비즈니스를 향상시키는 것을 빅데이터 비즈니스의 자전거 모델(the Bicycle Model)을 이용하여 다시 설명하였다. 빅데이터 비즈니스 정보 시스템의 중요한 두 가지 축인 비즈니스 지원 시스템(Business Support System; BSS)과 운영 지원 시스템(Operation Support System; OSS)에 인공지능 기술을 적용하게 되면 지능적인 비즈니스 운영이 가능하고, 이것이 빅데이터 비즈니스에서 인공지능 기술의 주된 효용이어야 한다.

BSS에 인공지능 기술이 적용되어 비즈니스의 방향 설정을 위한 의사 결정을 돕는 정보 시스템은 비즈니스 지능화(Business Intelligence; BI)의 역할을 수행하며, OSS에 인공지능 기술이 적용되어 비즈니스 운영의 의사 결정을 돕는 정보 시스템은 운영 지능화(Operation Intelligence)의 역할을 수행한다. 

인공지능으로 지능화된 BI는 비즈니스 방향 설정의 오류와 시행 착오를 줄여 비즈니스의 성공율을 높이고, 인공지능으로 지능화된 OI는 비즈니스 운영의 효율과 속도를 높여 비즈니스의 수익성과 기민성을 높이는데 기여하게 된다.

--> 9회: 빅데이터와 클라우드 기술 (1) (2017년 9월 25일 게재)

빅데이터와 클라우드 기술의 연관성을 LHC 컴퓨팅 그리드 사례를 통해 자세하게 살펴보았다. 팀 버너스 리의 월드 와이드 웹이 21세기 인터넷의 발전을 급격하게 촉진하여 CERN의 정보기술 분야 리더십을 분명하게 보여주었던 것처럼, CERN은 LHC 실험을 위해 구축한 전 지구적인 대규모 컴퓨팅 인프라 기술인 그리드 컴퓨팅 기술을 월드 와이드 웹과 같은 차세대 정보기술로서 전략적으로 추진했다.

LHC 가속기의 네 대의 입자 검출기에서 쏟아져 나오는 연간 20PB(2008년 LHC 가속기 시운전 당시 추정치)에서 최근 연간 80PB에 이르는 3차원 이벤트 영상 데이터 분석을 위해 전세계 곳곳의 고에너지 물리학 연구소의 컴퓨팅 자원을 끌어 모아 전 지구적인 스케일의 슈퍼 컴퓨터가 필요했다. 

이를 위해 전 세계의 재능 있는 컴퓨터 과학자들과 물리학자들, 소프트웨어 엔지니어들이 그리드 컴퓨팅 기술을 만들어 성공적으로 운영하였다. 그리드 컴퓨팅은 LHC 실험 데이터 분석을 위해 필요한 막대한 컴퓨팅 자원을 당시 기술로는 하나의 데이터 센터에서 운영할 수 없었기 때문에 필요한 기술이었다.

CERN의 LHC 컴퓨팅 그리드 인프라에서 분석 작업 실패율을 줄이기 위해 분석 작업을 수행하는 실행 환경을 일관성 있게 만들도록 가상머신을 이용해 그리드 컴퓨팅 환경의 극단적인 자원 이질성(heterogeneity)을 극복하기 시작하려 한 것이 오늘날 클라우드 컴퓨팅의 시작이 됐다고 설명했다. 전 지구적인 스케일의 자원 확장성을 위해 개발했던 그리드 작업 스케줄러와 그리드 스토리지 기술이 오늘날 클라우드 컴퓨팅 환경에서 사용되는 리소스 스케줄러와 객체 스토리지 기술의 기초가 됐다.

클라우드 컴퓨팅이 빅데이터 처리, 분석에 필요한 극단적인 컴퓨팅 자원 확장성을 확보하기 위한 것이었다는 사실은 우리에게 많은 시사점을 준다. 이런 의미에서 빅데이터 비즈니스에서 클라우드 컴퓨팅 기술을 잘 활용하는 것은 중요하다. 

빅데이터 처리, 분석을 위한 자원 이종성(heterogeneity)과 확장성(scalability)을 유연하게 제공하기 위해 클라우드 컴퓨팅 기술은 필수적이다. 오늘날 많은 기업들이 빅데이터 처리를 위해 클라우드 컴퓨팅을 활용하는 사례가 점점 늘어나는 것은 LHC 컴퓨팅 그리드의 사례에 비추어 보면 당연한 것이다.

--> 10회: 빅데이터와 클라우드 기술 (2) (2017년 11월 8일 게재)

LHC 컴퓨팅 그리드는 전 지구적인 스케일로 IT 자원을 통합하지만, 지리적인 한계와 네트워크 자원의 유한성 때문에 효과적인 자원 통합을 위해 계층 구조를 가지도록 설계되었다. 이런 자원 계층(resource hierarchy) 문제는 그리드 컴퓨팅에서만 나타나는 것이 아니라 컴퓨팅 기술의 물리적인 한계 때문에 근본적으로 모든 정보기술에서 나타난다.

최근의 하드웨어 기술과 소프트웨어 기술은 자원 계층의 한계를 극복하기 위한 기술로서 개발되는 경우가 많다. 최근 인텔이 제안하고 발전시키고 있는 랙스케일 디자인(Rack-Scale Design) 아키텍처와 옴니 패스 고성능 네트워크, 100G 이더넷, 5G 이동 통신망과 같은 저지연, 고대역폭 네트워크 기술, 메모리 기술의 한계를 극복하기 위해 개발된 역시 인텔의 옵테인 메모리와 같은 기술들은 컴퓨팅 자원의 물리적인 한계를 극복하고 계층을 파괴하여 수평적인 자원 확장을 통해 빅데이터를 위한 컴퓨팅 성능 향상이 가능하도록 한다.

이러한 자원 계층 파괴를 통한 확장성은 클라우드 컴퓨팅 기술의 발전에 큰 영향을 미치고 있다. 앞으로 컴퓨팅 기술의 발전은 자원 계층의 한계를 지속적으로 극복하고 파괴하는 방향으로 발전해갈 것이며, 이런 자원 계층의 파괴는 다시 빅데이터 처리, 분석 기술의 발전으로 이어져 빅데이터 비즈니스의 확산을 가속할 것이다.

--> 11회: 빅데이터와 클라우드 기술 (3) (2017년 12월 6일 게재)

자원 계층 파괴에 가장 중요한 기술인 네트워크 인프라와 기술에 관해 좀더 자세하게 살펴보았다. CERN이 LHC 컴퓨팅 그리드를 구축하고 통합하기 위해 전 지구적인 네트워크 인프라를 어떻게 구축하고 활용했는지 자세히 살펴봤다.

LHC 컴퓨팅 그리드는 자원의 규모와 수준에 따라 Tier-0에서 Tier-3 계층까지 다른 계층을 가지게끔 설계되었다. 이러한 계층별 자원 통합에서 중요한 역할을 하는 것이 각 그리드 컴퓨팅 센터를 연결해주는 연구망 네트워크 인프라였다. 각 티어별로 전송되는 데이터의 양이 다르기 때문에 서로 다른 네트워크 대역폭 요구사항을 맞출 수 있게끔 전 세계 데이터센터들을 계층 지을 수밖에 없었다. 

이는 국가별, 연구기관별 예산 규모와 시설 수준에 따라 사용할 수 있는 네트워크 대역폭이 근본적으로 한계가 있었기 때문이었다. 이런 “디지털 격차(Digital Divide)”는 LHC 컴퓨팅 그리드 전반의 성능을 높이기 위해 지속적으로 해결해야 할 과제였다.

빅데이터 비즈니스를 위해 클라우드 컴퓨팅을 활용하는 과정에서도 가장 중요한 IT 인프라가 네트워크다. 빅데이터의 특성상 빅데이터 비즈니스를 위한 정보 시스템은 근본적으로 분산 컴퓨팅 시스템이 될 수밖에 없고, 이종 자원 통합이 중요할 수밖에 없어 빅데이터 비즈니스에서 네트워크 기술의 역할과 중요성은 점점 높아지고 있다.

클라우드 컴퓨팅과 빅데이터의 부상으로 데이터 센터 네트워크가 인터넷에서 각 서버 노드까지의 대역폭과 지연 성능을 중요시하는 수직적인 확장성(North-to-South scalability)보다는 데이터센터 내부 노드들 사이의 통신 대역폭과 지연 성능의 요구 사항을 만족하면서 워크로드의 수평적 확장이 쉬운 수평적 확장성(East-to-West scalability)을 중요시하게 된 것도 이런 이유이다.

네트워크 자원의 멀티테넌시와 쉽게 물리적 확장과 증설이 어렵고 비용이 많이 드는 네트워크 자원의 효율적인 사용을 위해 네트워크 가상화 기술이 중요하게 되었다. 최근 클라우드 컴퓨팅에서는 VxLAN, NVGRE등의 새로운 네트워크 가상화 프로토콜이 제안되었다. MPLS와 CERN과 LHC 실험 국제 공동 연구단이 LHC 컴퓨팅 그리드의 확장성 극복을 위해 사용한 가상 라우팅 포워드(Virtual Routing Forward; VRF)등의 종래 기술이 네트워크 가상화 용도로 새롭게 재발견되기도 했다.

어떤 방식이던 빅데이터 비즈니스의 요구사항을 만족시키기 위해 네트워크 인프라를 비즈니스 초기부터 모든 수준의 확장성을 고려해 설계하는 것이 중요하다. 비즈니스가 한창 성장하는 시점에서 네트워크 인프라를 근본적으로 다시 설계, 구축하는 것은 너무 위험하고 비즈니스 확장성에 큰 제약이 되어 사업의 성장에 걸림돌이 될 수 있다. 

유연한 네트워크 자원 확보를 위해 클라우드 컴퓨팅 서비스를 이용해 빅데이터 비즈니스 시스템을 구성한다고 해도 네트워크를 다시 구성하는 것은 다양한 문제를 일으키기 때문에 빅데이터 비즈니스 초반부터 확장성을 고려하여 신중하게 빅데이터 시스템의 네트워크를 설계하는 것이 좋다.

--> 12회: 빅데이터와 클라우드 기술 (4) (2017년 12월 27일 게재) 

LHC 실험에서 3.2마이크로초에 초당 60TB의 속도로 생성되는 막대한 데이터를 처리하는 요구사항을 만족시키야 하는 입자 검출기의 내부 구성 요소 중에서 가장 부하가 많이 걸리고 고성능 연산이 필요한 시스템이 바로 레벨 1(Level 1) 트리거 시스템이다. 

이 레벨 1 트리거 시스템이 데이터를 처음으로 받아 의미 있는 이벤트들을 필터링하고, 이 이벤트 데이터들을 데이터 분석을 위한 후속 처리와 분석이 가능한 형식으로 변환하기 위해 요구되는 성능 요건을 맞추기 위해서 LHC 실험에서는 FPGA를 사용해 하드웨어 수준에서 이벤트를 디지타이즈하고 필터링하는 기술을 만들어 사용하고 있다.

LHC의 입자 검출기의 레벨 1 트리거 시스템과 같이 저지연으로 대용량 데이터 처리를 위한 특수 목적 컴퓨팅 시스템을 만들기 위한 용도로 FPGA가 자주 활용된다. 내부 연산 방식을 프로그래밍 가능한 방식으로 마음대로 설계, 변경해 사용할 수 있는 FPGA는 빅데이터 수집, 가공 초반의 고성능 컴퓨팅 용도로 많이 사용된다. 

최근 인텔에서 내놓은 제온 파이 FPGA와 스트래틱스(Stratix) FPGA 연산 가속보드, 자일링스(Xilinx)에서 내어놓은 알베오(Alveo) FPGA 가속보드와 같이 딥러닝, 5G 같은 분야에서 요구되는 실시간 고성능 연산 처리 성능을 만족시키는 데에 FPGA가 많이 활용된다.

빅데이터 비즈니스에서 백엔드의 빅데이터 처리 부담을 경감시켜주고, 데이터 수집 초반에 의미 있는 데이터를 골라 필터링하며, 빠른 데이터 생성, 수집 속도에 맞추어 데이터 파이프라인 초반에 막대한 데이터를 처리하기 위한 용도로 FPGA의 활용이 확대되고 있다. 

FPGA와 함께 최근에는 엔비디아의 GPGPU가 많이 주목받고 있으나, 저전력, 낮은 발열, 하드웨어 아키텍처 수준에서 가지는 근본적인 유연함과 같은 FPGA의 장점 때문에 앞으로 빅데이터 비즈니스에서 FPGA 기술의 중요성은 더 높아질 것으로 보인다.

LHC 실험에서 FPGA는 클라우드 컴퓨팅으로 통합되는 자원의 일부는 아니었고, 레벨 1 트리거에서 고성능 스트림 데이터 처리를 위해 도입된 기술이었다.

그렇지만 연산 성능을 하드웨어 수준으로 높이고 특수한 목적에 맞는 고성능 데이터 처리 하드웨어를 유연하게 만들 수 있기 때문에 최근 아마존 웹 서비스(AWS)에서는 2017년말에 FPGA 자원을 탄력적으로 사용할 수 있는 AWS EC2 F1 인스턴스 상품을 내놓기도 했다. 이와 같이 주요 클라우드 컴퓨팅 서비스 제공자들도 FPGA를 클라우드 컴퓨팅 서비스화하여 내어 놓으면서 빅데이터와 딥러닝 같은 기계 학습, 인공지능 응용 분야에 FPGA의 활용은 점점 더 확대될 것이다.

--> 13회: 빅데이터와 클라우드 기술 (5) (2018년 1월 29일 게재)

CMS 검출기의 데이터 수집, 처리, 가공 시스템인 레벨1 트리거와 고수준 트리거(High-Level Trigger; HLT)를 통합하기 위해 개발한 분산 실시간 시스템 미들웨어인 XDAQ 미들웨어에 대해서 살펴봤다. 

XDAQ 미들웨어는 컴포넌트 기반 아키텍처를 가져 확장 가능하며, 복잡한 데이터 구조를 가지는 데이터 통신을 위한 SOAP/HTTP를 이용한 통신 방식과 I2O를 이용한 바이너리 메시지 방식의 통신을 선택하여 사용할 수 있고, 이를 이용해 XDAQ 응용 프로그램간 메시지 기반 고성능 분산 컴퓨팅이 가능하다. 

당시 가장 저지연의 고성능 네트워킹을 보장했던 미리넷(Myrinet) 프로토콜 또한 프로토콜 추상화 기법을 이용한 통신 플러그인을 지원하여 레벨 1 트리거와 고수준 트리거에서 고성능 분산 데이터 처리가 가능하도록 했다.

무엇보다 당시에는 흔치 않았던 방식으로 XDAQ안에 내장된 HTTP 서버와 클라이언트가 모든 XDAQ 컴포넌트와 응용 프로그램들을 웹 브라우저에서 접근, 동작시킬 수 있도록 하여 HTTP 프로토콜을 창시한 연구소 답게 HTTP 프로토콜과 웹 기반 분산 컴퓨팅 시스템 개발의 정수를 보여줬다.

빅데이터 비즈니스 시스템을 효과적으로 개발하기 위해서는 분산 컴퓨팅 시스템 개발에 효과적인 미들웨어와 소프트웨어 기술을 잘 활용해야 한다. 빅데이터의 특성과 활용 분야에 따라 이런 분산 컴퓨팅을 어느 정도 추상화하여 사용하기 쉽게 한 기술들이 바로 우리가 알고 있는 하둡(Hadoop)과 스파크(Spark)와 같은 빅데이터 소프트웨어 기술들이다.

이런 기술들로 잘 해결될 수 있는 비즈니스 문제들도 있겠지만, 그렇지 못한 경우에는 미들웨어 기술이나 분산 컴퓨팅을 위한 주요 시스템 소프트웨어 스택을 이용해 비즈니스 문제 해결에 맞는 빅데이터 소프트웨어를 직접 개발해야 할 수도 있다. 

비즈니스 문제 해결에 맞는 분산 컴퓨팅 프로그래밍 모델과 효과적인 빅데이터 분산 컴퓨팅 시스템 개발, 통합을 위한 소프트웨어 엔지니어링 기술 역량은 빅데이터 비즈니스를 수행하는 기업의 기술 경쟁력으로서 활용할 수 있다.

--> 14회: 빅데이터와 클라우드 기술 (6) (2018년 2월 26일 게재)

LHC 가속기의 CMS 검출기에서 수집한 이벤트 데이터를 3차원 영상으로 재구성하는 고수준 트리거인 CMS 온라인 컴퓨팅 시스템은 노드가 1,000여개가 넘는 분산 컴퓨팅 시스템이다. 이렇게 많은 수의 컴퓨팅 노드를 통해 복잡한 분산 컴퓨팅을 수행하는 CMS 온라인 컴퓨팅 시스템은 LHC 가속기와 CMS 검출기가 운영되는 동안 고장과 장애 없이 높은 신뢰도로 안정적으로 데이터를 수집할 수 있도록 효과적으로 전체 시스템의 상태와 성능을 모니터링하고 장애와 시스템 결함을 신속하게 발견하여 해결할 수 있는 문제 해결 체계(problem-solving system)가 필요했다.

복잡한 빅데이터 분산 컴퓨팅 시스템의 장애, 운영, 시스템 결함을 신속하게 발견하고 해결할 수 있도록 운영 데이터를 일관된 형식으로 효과적으로 재조직하고, 이를 문제 해결에 이용할 수 있도록 필자가 개발했던 XCube, XGraphMaker 프로젝트를 소개하면서 빅데이터 비즈니스 시스템에서 운영 지능화(Operation Intelligence) 체계의 중요성에 대해 같이 생각해봤다.

우리나라에서 빅데이터 붐이 일던 2011년대 스플렁크(Splunk)가 로그 데이터 분석을 통한 운영 지능화(Operation Intelligence) 기술로서 각광을 받았다. 이후 운영 지능화(Operation Intelligence) 체계를 구축하고 효과적으로 활용하는 것은 빅데이터 기술의 대표적인 활용분야의 하나로서 다양한 빅데이터 기술 발전의 촉진제가 됐다.

필자가 XDAQ의 운영 지능화(Operation Intelligence) 체계의 하나로서 개발한 XCube, XGraphMaker 프로젝트에서 제안했던 주문형 모니터링 및 모니터링 가시화, OLAP 데이터 구조를 이용한 모니터링 데이터 재조직과 온라인 운영 데이터 분석, 데이터 분석 사례가 자산으로 쌓이면서 시스템의 장애 대응 능력이 향상되고 시스템 결함율이 낮아져 안정화되는 효과를 만드는 점은 오늘날의 운영 지능화(Operation Intelligence) 시스템에서 이제 보편적인 개념이 됐다. 

빅데이터 비즈니스 시스템의 운영 지능화(Operation Intelligence)와 정보 시스템이 소스코드와 함께 진화해가는 오늘날의 데브옵스(DevOps)는 빅데이터 비즈니스를 안정적으로 수행할 수 있는 필수 요소로 자리 잡았다.

--> 15회: 빅데이터 주요 기술의 조건 (1) (2018년 3월 23일 게재)

15회부터 19회까지 CERN에서 LHC 빅데이터 문제를 해결하기 위해 직접 만들었던 소프트웨어 기술들을 살펴보면서 빅데이터 비즈니스 시스템을 위해 필요한 빅데이터 기술의 주요 조건들을 같이 생각해보았다. 첫번째로 같이 생각해본 LHC 빅데이터 기술의 사례는 바로 PROOF라고 하는 병렬 컴퓨팅 프레임워크였다.

PROOF는 C++로 만들어진 병렬 작업 스케줄링 및 실행 프레임워크다. LHC 실험 연구자들이 데이터 분석에 많이 사용하는 표준 데이터 분석 플랫폼은 오늘날 우리에게 잘 알려진 Scipy, Numpy와 같은 Python기반의 데이터 분석 환경이나 R과 같은 통계 데이터 분석 환경이 아니라 C++언어를 바탕으로 만들어진 ROOT라는 분석 환경이었다. 

이 ROOT에서 데이터를 분석하면서, LHC 컴퓨팅 그리드 환경에서 대규모 병렬 계산을 수행할 수 있도록 ROOT 컴포넌트를 사용하여 개발된 C++기반의 데이터 분석 작업을 스케줄링 해주고 분석 결과를 취합하여 데이터 분석에 활용할 수 있도록 해주는 것이 바로 PROOF이다.

PROOF는 바로 오늘날의 하둡(Hadoop)이나 스파크(Spark)와 같은 대규모 데이터 병렬 작업 실행을 ROOT와 LHC 컴퓨팅 그리드 상에서 가능하게 했다. 필자가 PROOF를 소개하면서 PROOF의 특성 중 상당수가 최근 부각된 빅데이터 기술인 하둡(Hadoop)이나 스파크(Spark)와 같은 것들이 많음을 지적하였으며, 이를 통해서 특정한 기술 하나가 모든 빅데이터 문제를 해결해주는 것이 아니라, 빅데이터 문제를 해결하는 공통된 패턴이 있다. 

맵리듀스와 같은 프로그래밍 모델이 그 한 예이고, 이 맵리듀스를 구현한 소프트웨어는 구글 맵리듀스(Google MapReduce), 아파치 하둡(Apache Hadoop), 아파치 스파크(Apache Spark)와 같이 여러 가지 종류가 있는 것이 좋은 예가 된다.

하둡(Hadoop)이나 스파크(Spark)와 같은 빅데이터 병렬 처리 소프트웨어 기술을 선택할 때 염두에 두어야 할 중요한 네 가지도 언급하였다. 첫 번째로, 비즈니스의 목표에 부합하면서 비즈니스 문제 해결에 적합한 빅데이터 기술을 사용하는 것이 중요하다. 두 번째, 조직에서 주로 사용하는 빅데이터 분석 플랫폼과 통합이 용이한 기술을 사용하는 것이 중요하다. 

세 번째, 다양한 원천 데이터(data source)로의 접근과 활용이 용이한 빅데이터 기술을 사용하는 것이 중요하다. 네 번째, 빅데이터 가공, 분석 과정을 하나의 파이프라인으로 구성, 관리할 수 있게 해주는 워크플로우와 오케스트레이션 도구와 같이 통합, 활용하기에 용이한 기술을 선택하는 것이 좋다.

--> 16회: 빅데이터 주요 기술의 조건 (2) (2018년 4월 24일 게재)

LHC 실험 데이터 분석의 표준 소프트웨어인 ROOT를 살펴보면서 빅데이터 분석 환경의 조건에 대해서 같이 생각해보았다. 당시 데이터 분석 상용 소프트웨어로 유명했던 MATLAB, SAS, SPSS, Maple 및 Mathematica와 같은 데이터 분석 환경이 아니라 굳이 C++ 언어 환경을 기반으로 한 ROOT라는 데이터 분석 환경을 CERN에서 왜 만들게 되었는지도 같이 살펴봤다.

W와 Z보존의 발견으로 CERN에 노벨상을 안겨준 LEP 실험의 후속 프로젝트로 LHC 실험이 계획될 시기에 LHC 실험에 참여하길 원하던 많은 물리학자들과 과학자, 공학자들이 기존에 사용하던 Fortran 언어 기반의 PAW 데이터 분석 환경이 LHC 실험을 수행할 때에는 더 이상 효과적이지 않을 것이라는 데 동의했다. 

당시 소프트웨어 개발에 가장 많이 활용돼 안정되어 있으면서 과학기술 계산 분야와 임베디드 컴퓨팅 분야에서 표준 언어와 같이 활용되고 있던 C++언어를 기반으로 한 데이터 분석 환경이 필요하다는 것에 공감했다. CERN의 르네 분(Rene Bune)과 폰즈 라드메이커즈(Fons Rademakers)가 C++ 인터프리터인 CINT를 이용한 데이터 분석 환경인 ROOT를 개발하기 시작했다.

ROOT가 LHC 실험에 적합했던 여러 가지 이유 중 가장 두드러진 것은 당시 CERN과 LHC 실험에서 일하던 대부분의 물리학자와 컴퓨터 과학자들이 가장 친숙한 언어가 C++였다는 것이고 이와 함께 당시까지 많은 데이터 분석, 수치 해석 소프트웨어들이 C++언어로 개발돼 리눅스 환경에서 실행되고 있었다는 점도 있었다. 

LHC 실험 장치를 위해 개발되는 데이터 수집(Data Acquisition; DAQ)과 시스템 소프트웨어 상당수가 C++로 개발돼 이렇게 하드웨어와 밀접하게 실행되는 실험 장치의 소프트웨어로부터 데이터를 쉽게 분석 환경으로 가져오기 위해서는 C++언어를 사용하는 것이 통합에 유리한 점도 있었다. 당시 많은 데이터 가시화 소프트웨어와 라이브러리들이 C++로 작성돼 있었기 때문에 이 또한 ROOT에서 활용하여 데이터 가시화에 사용하는데 유리했다.

LHC 실험에서 사용하는 데이터 가시화는 단순한 그래프나 차트와 같은 통계 데이터 가시화도 있었지만 3차원 이벤트 데이터 가시화와 실험 장치의 3자원 모델 가시화와 같은 복잡한 가시화도 필요했기 때문에 이렇게 C++ 언어로 개발된 데이터 가시화 소프트웨어와 라이브러리들을 통합하기 위한 C++ 언어 기반의 데이터 분석 환경이 LHC 실험에 꼭 필요했다. 

ROOT 데이터 분석 환경이 C++ 언어를 데이터 분석 언어로 사용하게끔 개발돼 LHC 실험에 참여하는 과학자들의 데이터 분석 생산성을 향상하는데 크게 공헌하였으며, 2013년 LHC가 가동을 시작한지 불과 5년만에 힉스 입자의 존재를 공식적으로 확인하는데 큰 기여를 하게 됐다.

ROOT의 사례를 생각해보면서 빅데이터 비즈니스를 성공적으로 수행하기 위해 필요한 데이터 분석 환경의 조건을 같이 정리해봤다. LHC 실험에 참여하는 과학자와 LHC 실험 환경의 고유한 특성에 맞게끔 만든 ROOT가 LHC 실험을 성공적으로 운영하는데 큰 역할을 한 것을 같이 확인했다. 두 번째로, 대규모 데이터 처리, 분석을 위한 병렬 분산 처리 소프트웨어 기술이나 인프라와의 연동이 쉬워야 한다. 

세 번째로, 워크플로우 엔진, 또는 비즈니스 프로세스 오케스트레이터와 연동이 쉬워야 한다. 마지막 네 번째로 데이터 가시화 환경의 통합과 사용이 쉬워야 함을 강조했다. 단순한 차트나 그래프 뿐만 아니라 비즈니스 요건에 맞는 3D 모델이나 그래프 가시화와 같은 복잡한 데이터 가시화 요건도 만족시킬 수 있어야 한다.

--> 17회: 빅데이터 주요 기술의 조건 (3) (2018년 5월 23일 게재)

빅데이터 비즈니스를 위한 주요 기술의 세 번 째로 LHC 컴퓨팅 그리드에서 사용되는 대용량 데이터 저장, 관리 기술들에 대해서 살펴보았다. 전지구에 걸쳐 분산된 저장 장치 자원들을 지리적인 위치와 제약에 관계없이 접근하여 데이터를 저장하고 데이터 분석에 사용할 수 있도록 하기 위해 뛰어난 확장성과 통합이 용이한 인터페이스를 가진 분산 데이터 저장 기술을 만들어야 했다. LHC 실험에 참여하는 과학자들의 노력으로 LCG 스토리지 요소(Storage Element), SRM(Storage Resource Manager), CASTOR, dCache, DPM, StoRM등의 다양한 분산 데이터 저장, 관리 미들웨어들이 개발됐다.

빅데이터를 활용할 때 가장 기본적인 기술은 비즈니스를 위해 수집, 가공한 데이터를 담아두는 그릇에 해당하는 기술이다. HDFS와 같은 분산 파일 시스템과 몽고DB, 카산드라(Cassandra)와 같은 NoSQL 데이터 베이스, 그리고 오픈 스택 스위프트(Swift)와 같은 객체 저장소(Object Storage) 소프트웨어가 바로 이런 기술이다.

빅데이터 비즈니스를 통해 쏟아져 들어오는 빅데이터를 안정적으로 담아 두고, 비즈니스 가치를 창출할 수 있도록 빅데이터 처리, 분석 소프트웨어와의 연계, 통합이 쉬우며, 비즈니스의 확장에 따라 빅데이터의 양과 유입 속도가 급격하게 늘어도 빅데이터 비즈니스 시스템의 확장성을 충분히 뒷받침할 수 있는 확장성 좋은 저장 장치 기술은 빅데이터 비즈니스를 위해 가장 기본적으로 갖추어야 하는 기술이다. 

이런 확장성을 뒷받침하기 위해서는 네트워크 인프라의 디자인과 성능, 그리고 저장 장치 인프라의 아키텍처가 다양한 확장성 요구사항을 만족할 수 있도록 디자인되는 게 중요하다. 이런 다양한 확장성 요구사항을 요즘 많이 언급되는 데이터 레이크의 사례를 들어 설명했다.

--> 18회: 빅데이터 주요 기술의 조건 (4) (2018년 6월 27일 게재)

LHC 실험에서 사용하는 데이터 가시화의 사례를 살펴보면서 빅데이터 비즈니스의 데이터 가시화의 조건에 대해 같이 생각해봤다. LHC 실험의 경우, 네 개의 검출기에서 수집되는 이벤트 데이터는 근본적으로 3차원 이벤트 데이터이기 때문에 데이터의 효과적인 분석을 위한 가시화의 요건과 수준이 매우 높고 까다롭다.

LHC 가속기의 입자 검출기에서 수집된 이벤트 데이터들을 데이터가 수집된 센서들의 위치와 배치 방식을 고려하여 실제 이벤트가 일어난 상황을 재연할 수 있도록 3차원 영상으로 재구성하는 과정은 많은 영상 데이터 처리와 메타데이터 추가를 위한 기계 학습 추론 계산이 이루어지는 복잡한 고성능 연산이 필요하다.

이렇게 재구성된 데이터를 과학자들이 손쉽게 분석할 수 있도록 3차원 모델로서 가시화하는 작업 또한 차트나 그래프를 이용하는 보통의 통계 데이터 가시화와는 많이 다르다. ROOT에서는 이렇게 검출기 이벤트 데이터 가시화를 위해 EVE와 같은 별도의 3차원 데이터 가시화 도구를 만들어 제공한다.

LHC 실험과정에서 검출기 이벤트 데이터를 재구성해 가시화하는 것 못지않게 이벤트 시뮬레이션 데이터를 가시화하는 것도 만만치 않게 복잡하고 어렵다. 검출기에 쓰이는 센서의 물리적인 특성까지 고려하여 검출기 이벤트 신호를 시뮬레이션 하는 GEANT4 시뮬레이터 데이터의 가시화 또한 3차원 영상이다. LHC 실험 데이터 분석 과정에서 시뮬레이션 데이터를 이용해 검출기 데이터에 이벤트 메타데이터를 부여하기 때문에 시뮬레이션 데이터의 가시화, 검증, 분석도 매우 중요하다.

LHC 실험의 사례와 같이 빅데이터 비즈니스를 수행하면서 만들어야 하는 데이터 가시화는 비즈니스 모델의 성격과 데이터의 종류, 특성에 따라 매우 복잡하고 만들기 어려울 수 있다. 빅데이터의 크기와 가시화 연산의 복잡도에 따른 제한 때문에 빅데이터의 가시화에서는 큐레이션을 잘 설계해야 한다. 빅데이터의 가시화를 효과적으로 설계하기 위해서는 가시화하려는 데이터의 구조와 맥락을 잘 이해하는 과정이 필요하다.

빅데이터 가시화 시스템에도 적지 않은 규모의 자원과 비용이 투자되어야 할 수 있기 때문에 비즈니스의 목적과 효용에 잘 맞도록 가시화의 수준과 내용을 잘 설계해야 한다. 때문에 빅데이터 큐레이션 문제가 데이터 가시화에서 더 중요하게 부각된다. 

빅데이터 가시화의 효과가 극대화되기 위해서는 빅데이터 비즈니스 지원 시스템(BSS), 운영 지원 시스템(OSS)과의 통합을 염두에 두고 설계, 개발돼야 한다. 빅데이터의 복잡성으로 가시화 및 큐레이션 시스템이 만족해야 할 요구사항을 모두 파악할 수 없을 것에 대비하여 점진적인 가시화 수준의 향상과 자원 확장성을 만족할 수 있도록 가시화와 큐레이션이 설계되어야 하는 것도 중요하다.

빅데이터의 가시화는 조직의 구성원이나 고객이 빅데이터 가공, 분석의 결과를 효과적으로 소비하도록 하고, 빅데이터 비즈니스 시스템의 효용을 높이는 데에도 중요한 역할을 한다. 이런 측면에서 고객, 조직내 구성원들과 데이터 과학팀의 소통을 촉진하고, 조직내 데이터 과학 문화를 확산하기 위한 용도로도 빅데이터 가시화는 중요하다.

--> 19회: 빅데이터 주요 기술의 조건 (5) (2018년 7월 23일 게재)

LHC 컴퓨팅 그리드 인프라를 구축하는 노력이 범 유럽 그리드 컴퓨팅 인프라를 구축하는 프로젝트로 확장되어 범 유럽 FP7 프로그램 하에 진행되었던 EGEE 프로젝트의 세부 과제 중 하나로서, 그리드 워크플로우 기술에 대해서 살펴보았다. 그리드 워크플로우 기술로서 영국 맨체스터 대학의 정보 기술 연구 그룹에서 개발된 타베르나(Taverna)를 소개했다.

보통 워크플로우 기술은 빅데이터 기술로서 잘 소개하지 않지만 필자는 데이터 처리, 분석 파이프라인을 자산화 하는 것이 빅데이터 비즈니스의 중요한 성공 요인 중 하나이기 때문에 워크플로우 기술도 중요한 빅데이터 기술의 하나로 본다.

생물학 분야에서 실험 과정을 표준화하고 연구팀간 연구 결과를 재연하는 데에 중요한 역할을 하는 것이 실험 프로토콜(protocol)이다. 이 실험 프로토콜 중에서 생물정보 데이터를 이용하는 과정을 타베르나(Taverna)를 이용해 자산화하고, 연구자들 사이에 타베르나(Taverna)로 공유된 실험 프로토콜을 “MyExperiment”라는 실험 사례 공유 서비스를 이용해 공유하고 재활용하여 연구 과정의 효율과 협업이 개선된 사례를 소개했다.

최근에는 클라우드 컴퓨팅 기술과 서비스의 발전으로 빅데이터 수집, 처리, 분석을 위한 분산 컴퓨팅 시스템 프로비저닝부터 빅데이터 분석 프로세스를 자동화하여 자동으로 리포트를 생성하고 공유하는 것까지 워크플로우 기술을 이용해 자동화, 파이프라인화 하는 것이 매우 쉬워졌다. 

클라우드 네이티브 프로그래밍과 마이크로서비스 기술의 발전, 아파치 에어플로우(Apache Airflow)와 같은 좋은 빅데이터 워크플로우 기술의 출현으로 인해 EGEE 그리드에서 타베르나(Taverna)를 이용한 생물정보 빅데이터 분석 자동화 과정에 비해 빅데이터 가공, 분석 과정의 자동화와 자산화가 훨씬 더 쉬워졌다.

워크플로우 기술을 이용한 빅데이터 가공, 분석 프로세스의 자동화는 조직내 협업도 촉진하며, 빅데이터 분석 결과로 얻은 성과물, 통찰, 지식이 조직 내에 더 빠르게 확산되고 정착되는 데에도 큰 역할을 한다. 워크플로우 기술은 자동화 측면에서도 중요하지만, 문서화되지 않은 무형의 데이터 과학 프로세스와 분석 소프트웨어를 자산화 하는 데에도 쓰여, 데이터로부터 얻은 비즈니스 가치를 유형화하고 효과적으로 관리할 수 있도록 돕는 중요한 역할을 한다.

--> 20회: 빅데이터와 인공지능 (3) (2018년 8월 27일 게재) 

LHC 가속기의 입자 검출기에서 고수준 트리거(High-Level Trigger) 시스템이 검출기 하드웨어에서 얻은 이벤트 데이터를 분류하고 메타데이터를 부여하는 과정을 자동화하고, 고급 분석을 수행하기 위해서 패턴 인식, 기계 학습과 같은 인공지능 기술을 활용한다고 이전 7회 글에서 설명한 바 있다.

LHC 실험 데이터 분석의 궁극적인 목적은 단순한 자동화가 아니라, 나노미터 이하의 미세한 척도(scale)에서 일어나는 물리 현상의 이해다. 이 때문에 기계 학습과 같은 인공지능 기술을 이용해 자동화된 분석 과정에서 기계 학습 모델이 해당 데이터를 분류하고 추론하여 결과를 내었을 때 왜 그렇게 분류하고 추론하였는지 분석하고 해석할 수 있는 인공지능 모델의 해석가능성(interpretability) 문제가 중요하게 부상하고 있다.

최근 딥러닝 기술을 LHC 가속기 입자 검출기의 레벨 1 트리거와 고수준 트리거에 적용하여 이벤트 손실을 줄이고 실험 목적에 더 부합하는 데이터를 선별하여 이벤트 검출의 성능을 높이려는 문제에 많은 관심이 모이고 있다. 딥러닝 모델은 해석이 매우 어려운 인공지능 모델이기 때문에 딥러닝 모델을 LHC 실험에 적용하기 위해 딥러닝 모델의 해석가능성 문제에 대해서 LHC 연구자들 또한 많은 관심을 가지고 연구하게 됐다.

이렇게 LHC 실험에서 부각된 인공지능 모델의 해석가능성 문제가 LHC 실험뿐만 아니라 빅데이터 비즈니스 시스템에서도 중요한 문제로 떠오르고 있다. 특히, 기계 학습 모델을 학습시킬 때 사용하는 데이터가 가진 근본적인 편향성(bias)때문에, 기계 학습 모델을 이용해 자동화된 서비스에서 특정 조건과 성향의 사람들이 서비스를 받는 과정에서 불이익을 받거나 차별을 받을 수 있는 인공지능 추론 결과의 편향성 문제가 최근 중요한 사회 이슈로 관심을 모으기 시작하면서 인공지능 모델의 해석가능성 문제는 중요한 사회 이슈로도 떠오르고 있다. 

유럽이 “유럽연합 일반 데이터 보호 규정(General Data Protection Regulation; GDPR)”을 정식으로 적용하면서 개인 정보와 데이터를 수집해 플랫폼 서비스를 하여 수익을 내는 플랫폼 사업자들도 인공지능 모델의 해석가능성 문제를 해결하기 위해 노력하기 시작했다.

해석가능한 인공지능 기술 개발을 위해 미국의 “방위고등연구계획국(Defense Advanced Research Projects Agency; DARPA)”에서 추진하고 있는 “해석가능한 인공지능 기술 프로젝트(eXplainable AI; XAI)”와 2017년 1월 IBM의 CEO인 지니 로메티 회장이 천명한 IBM 인지 컴퓨팅의 윤리적 조건에 대해서 소개했다. 

빅데이터 비즈니스를 기획, 추진하려는 기업에서는 데이터 수집, 가공, 분석과정에서 필수적으로 쓰이게 될 인공지능 기술이 기업에 손실을 끼치지 않도록 미리부터 해석가능한 인공지능 기술에 관심을 가지고 인공지능 기술이 줄 수 있는 위험요소에 대비하는 것이 좋다.

--> 21회: 빅데이터와 인공지능 (4) (2018년 9월 27일 게재)

CERN의 LHC 실험에서 신경모방 컴퓨팅 프로세서(neuromorphic processor) 활용 사례에 관해 소개했다. LHC 가속기의 업그레이드된 버전인 수퍼 LHC(Super-LHC; High-Luminosity LHC) 가속기에서 양성자 빔의 휘도(luminosity)가 높아지면서 더 많이 발생하는 이벤트 데이터의 처리 성능과 분류 정확도를 높이기 위해 딥러닝을 비롯한 인공지능 연산의 속도와 성능을 높이기 위한 다양한 연구개발이 수행되고 있다.

2014년에 IBM에서 발표한 신경모방 프로세서인 “트루 노스(True North)” 프로세서를 수퍼 LHC 실험 조건 하에서 입자 검출기의 이벤트 검출 성능 향상에 적용해본 스톡홀름 대학의 레베카 카니(Rebecca Carney)박사의 연구 결과를 같이 살펴봤다. 

레베카 카니 박사가 수퍼 LHC 실험 조건과 같은 조건에서 입자 검출기의 레벨 1 트리거 전자회로에 “트루 노스(True North)” 프로세서를 적용해 이벤트 처리 성능을 테스트해본 결과 요구되는 성능에 크게 미치지 못하는 것으로 나타났으며, “트루 노스(True North)” 프로세서는 수퍼 LHC 실험을 위한 이벤트 처리 성능 향상 대체 기술로서 적합하지 않다는 결론을 내렸다.

딥러닝 기술을 적용한 지능형 서비스와 상품이 시장에서 성공하게 하기 위해 현재 다양한 종류의 딥러닝 연산 가속 하드웨어 기술이 시장에 나타나고 있다. 엔비디아의 GPGPU, 구글의 TPU와 같은 이미 잘 알려진 딥러닝 연산에 특화된 하드웨어 기술 뿐만 아니라, 인간 두뇌의 정보처리 방식을 소자수준부터 모방한 신경모방 프로세서인 IBM의 “트루 노스(True North)” 프로세서, MIT의 저전력 신경모방 프로세서인 “아이리스(Eyeriss)” 프로세서와 함께 최근 본격적인 상업화가 이루어지고 있는 퀄컴(Qualcomm)의 “신경 프로세싱 유닛(Neural Processing Unit)” 프로세서에 이르기까지 새로운 인공지능 프로세서 기술들이 출현하고 있다.

신경모방 프로세서 기술과 함께 양자컴퓨팅(quantum computing)도 주목해야할 기술 중 하나다. 기계 학습 과정에서 중요한 연산인 최적화 연산을 가속시켜줄 하드웨어 기술과 아키텍처로서 양자컴퓨팅 기술도 많은 관심을 받으면서 급속도로 발전하고 있다. 이런 새로운 하드웨어 기술과 컴퓨터 아키텍처는 빅데이터 비즈니스를 시도하는 기업들에게 또 하나의 기술적인 차별화와 새로운 지능형 서비스 신사업의 기회를 선물할 것이다.  


* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. ciokr@idg.co.kr

 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.