Offcanvas

How To / 개발자 / 빅데이터 | 애널리틱스 / 애플리케이션

김진철의 How-to-Big Data | 연재를 시작하며

2017.01.23 김진철  |  CIO KR
* SK텔레콤에서 데이터 과학자로 재직중인 김진철 박사의 칼럼 '김진철의 How-to-Big Data'를 1월부터 연재합니다.

빅데이터 – 실재인가, 허상인가?
전 세계적 IT 트렌드로 조명받게 된 빅데이터가 우리나라에서 큰 관심을 받아 급격하게 성장하기 시작한 2011년을 많은 사람들이 우리나라 빅데이터 비즈니스의 원년으로 보고 있다. 그 이후로 국내 스타트업과 주요 기업들의 빅데이터 시스템 도입 및 활용 사례가 많이 알려졌으며, 빅데이터 활용으로 인해 사회가 크게 변할 것이라는 긍정적인, 또는 부정적인 예측이 넘쳐났다. 2014년 당시에는 전 세계 빅데이터 비즈니스 시장이 501억 달러까지 성장하는 금맥으로 예측되기도 했다(Wikibon, 2014년 2월, http://wikibon.org/wiki/v/Big_Data_Vendor_Revenue_and_Market_Forecast_2013-2017).

3년이 흐른 지금도 여전히 빅데이터의 중요성에 대해서 많이 언급되고 있지만 우리나라에서 이런 전망을 뒷받침할 만한 빅데이터 활용 사례는 나오지 않고 있다. 빅데이터 시스템을 도입, 활용한 사례들이 주요 솔루션 벤더들의 자사 제품 활용 홍보 사례로서 많이 소개되고 있지만, 상당수의 사례들이 명백한 비즈니스 영향력을 보여주는 사례라고 보기는 어렵다. 심지어 최근에는 지금까지 빅데이터 비즈니스의 꽃으로 여겨졌던 데이터 과학자의 수요가 2017년부터 정체되거나 줄 것이라는 어두운 전망까지 나오고 있다(CIO Korea, 2016년 12월 14일, http://www.ciokorea.com/news/32359).

왜 이런 일이 나타나고 있는 것일까? 정말 빅데이터 활용이 기업 경영에 미치는 영향이 크지 않기 때문일까? 빅데이터가 IT 솔루션 기업들의 마케팅 용어에 불과하기 때문일까? 아니면, 일부 사람들이 주장하는 것같이 빅데이터는 허상이고 실체가 없기 때문일까? 혹은 빅데이터라는 것이 주목할 만한 가치가 없었던 현상이었던 것일까? 대부분의 기업들이 빅데이터 활용으로 수익 구조를 대폭 개선하기에는 너무 보수적이고 경직돼 있기 때문일까?

필자는 앞으로 지금까지 밝은 전망으로 가득했던 우리나라 빅데이터 비즈니스 분야에서 왜 아직까지 주목할 만한 성과가 나오지 못하고 있고, 우리가 앞으로 빅데이터 비즈니스에서 성공하기 위해 생각해야 할 점들을 조금 색다른 분야의 사례를 통해 같이 생각해 보고자 한다.

CERN – 빅데이터의 조상
필자는 2005년 박사학위를 마친 후 정말 운이 좋게도 많은 노벨 물리학상 수상자들을 배출한 세계적인 연구기관인 유럽입자물리학연구소(European Particle Physics Laboratory; CERN)에서 한국 CMS 연구단 소속의 파견 연구원으로 일하게 됐다. 당시 국제 공동 연구로 건설하고 있던 대형강입자가속기(The Large Hadron Collider; LHC) 프로젝트의 빅데이터 처리 및 분석 인프라였던 LHC 컴퓨팅 그리드 프로젝트와 다목적 입자검출기인 CMS(Compact Muon Solenoid) 실험에 참여하게 됐는데, 이 경험이 현재의 빅데이터 전문가, 데이터 과학자로서의 커리어로 들어서게 된 큰 전기가 됐다.

CERN의 LHC 실험은 물리학과 과학을 좋아하는 사람들에게는 질량을 매개하는 입자로 알려진 힉스 입자 발견으로 잘 알려진 실험이지만, 일반인들에게는 생소한 연구 기관이다. 우주의 근본을 탐구하는 입자물리학 연구소로만 알려진 CERN이 현대 빅데이터 기술의 총 본산이라는 것을 아는 사람 또한 매우 드물다.

또 대중에게 잘 알려지지 않았지만, CERN은 첨단 IT기술로 유명하다. 가장 대표적인 것이 CERN의 물리학자였던 팀 버너스 리가 개발했고, 현재 우리들이 편리하게 쓰고 있는 웹 기반 인터넷 기술의 핵심 프로토콜인 HTTP와 웹 브라우저로 대표되는 월드 와이드 웹(World Wide Web) 기술이다. 이 밖에 LHC 데이터 그리드는 팀 버너스 리의 WWW 같이 많이 쓰이지는 않았지만, 오늘날 빅데이터 시스템이 갖춰야 할 면면을 잘 보여주고 있는 빅데이터 기술의 조상이라고 할 수 있다.

구글과 페이스북, 아마존 등 글로벌 IT 기업들의 빅데이터 기술 및 서비스 사례들이 간간이 언론에 소개되기는 하지만, 이들이 만든 빅데이터 시스템 및 서비스의 내부까지 들여다보기는 매우 어렵다. CERN의 LHC 데이터 그리드 시스템과 빅데이터 기술들은 대부분 논문과 기술 문서로 공개돼 있고, 상세한 정보를 얻을 수 있다. 단편적인 기술이나 사례만이 아니라, 빅데이터 시스템 구축 및 활용의 전반적인 내용을 CERN의 빅데이터 인프라와 LHC 실험을 통해 살펴볼 수 있다.

앞으로의 기고문에서는 CERN의 LHC 데이터 그리드 및 빅데이터 시스템들을 다루면서, 우리가 빅데이터 비즈니스와 IT시스템을 설계, 구축하고 운영하기 위해 고려해야 할 점들을 구체적으로 설명하고자 한다.

빅데이터 비즈니스의 네 가지 관점 – 데이터, 인프라, 조직 및 시스템, 사람
필자는 앞으로 기고문에서 빅데이터 비즈니스 시스템을 크게 네 가지의 관점으로 접근할 계획이다. 그 네 가지 관점이란 바로 데이터, 인프라, 조직 및 시스템, 사람이다. 

빅데이터 활용의 네 가지 관점과 CERN LHC의 사례


출처 : 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료

빅데이터 비즈니스 시스템에서 첫번째로 가장 중요한 것은 역시 데이터이다. 빅데이터가 존재하지 않는다면 빅데이터 기술과 비즈니스는 그 의미가 없다. 빅데이터 비즈니스에서 가장 중요한 것은 빅데이터의 수집이며, 빅데이터가 수집되기 위해서는 단순하게 빅데이터 시스템만 구축해서 될 일이 아니라, 데이터 수집을 위한 비즈니스 모델을 고려해야 한다.

많은 사람들이 관심을 가지고 있는 빅데이터의 처리 및 가공을 위해 어떤 점을 고려해야 하는지, 기술적인 측면과 비즈니스 시스템 측면에서 같이 살펴볼 것이다. 빅데이터가 기업에 유용한 정보를 지속적으로 흘려주는 정보의 샘으로서 기능하기 위해 인공지능 기술과 사물인터넷 기술이 매우 중요한데, 이 두 기술이 빅데이터 비즈니스에 왜 중요하고 어떻게 활용해야 하는지도 함께 다룰 것이다.

데이터 기반 비즈니스의 원천으로서 빅데이터가 수집된 다음에는 빅데이터를 비즈니스 요구사항에 맞게 가공하고 처리하는 인프라가 중요하다. 빅데이터 트렌드가 부각된 초반에는 오픈소스 소프트웨어인 Hadoop이 주목받았지만, 최근에는 인메모리 프로세싱 소프트웨어인 스파크(Spark)와 플링크(Flink), 상용 소프트웨어로는 HANA 등의 병렬 분산처리 프레임워크와, 데이터 웨어하우스 기반의 기존 기업 데이터 분석 시스템과의 통합이 용이한 SQL-on-Hadoop 기술의 활용 사례가 많아지고 있다. 빅데이터 처리를 위해 이런 인메모리 기술 및 병렬 처리 프레임워크 기술이 필요하다는 것도 LHC 컴퓨팅 그리드를 설계한 CERN의 과학자들은 잘 알고 있었다.

CERN에서 LHC 빅데이터를 처리하기 위해 만든 기술에는 ▲오늘날의 하둡이나 스파크와 유사한 병렬 처리 프레임워크 HDFS와 같은 확장성 있는 분산 파일시스템 ▲아파치 카프카(Apache Kafka)와 같은 스트림 처리 기술 ▲오늘날 분석을 위해 많이 사용되는 R, 파이썬(Python), SAS, SPSS 등과 유사한 개념과 기능을 가진 분석 소프트웨어 기술들이 포함된다.

CERN에서 빅데이터를 처리하기 위해 만든 소프트웨어 기술들을 보면, 빅데이터 문제를 풀기 위한 소프트웨어 도구들이 비슷한 기능과 쓰임을 발견할 수 있다. 필자는 하둡이나 스파크와 같은 특정 소프트웨어나 프레임워크가 모든 빅데이터 문제를 풀 수 있기보다는, 빅데이터의 유형이나 특성에 맞는 소프트웨어 도구를 잘 선택하거나 만들어 사용하는 것이 중요할 수 있다는 관점에서 CERN의 빅데이터 기술을 살펴보고자 한다.

지금까지 빅데이터에 관해 이야기한 많은 사람들이 하둡과 같은 빅데이터 기술에 초점을 맞춰 얘기하는 경향이 있었다. 이렇게 빅데이터 기술에 대해서만 빅데이터 담론의 초점이 맞춰지면서, 빅데이터를 잘 활용하는 데 필요한 조직 체계, 제도 및 시스템에 대한 얘기는 많이 다뤄지지 않았다. 막연하게 구글이나 페이스북과 같이 직원들에게 높은 보상을 해주고 자유롭게 일할 수 있게 하는 것이 중요하다는 식으로 얘기된 것이 대부분이다.

본 시리즈에서 필자는 빅데이터를 잘 활용하는 비즈니스 리더들의 배경이 과학 및 공학이었다는 점, 그래서 그들은 공통적으로 과학적인 문제 해결 방식이 몸에 밴 사람들이었다는 점, 자신이 이끄는 조직들도 그런 사람들이 잘 일할 수 있는 조직으로 만들려고 했었다는 사실을 함께 말하고자 한다. 빅데이터 소프트웨어 엔지니어와 데이터 과학자들이 문제를 해결하기 위해 접근하는 사고방식과, 기업에 큰 성과를 가져다줄 수 있는 데이터 과학자와 빅데이터 소프트웨어 엔지니어들의 요건과 특성에 대해서도 소개하고자 한다.

빅데이터를 잘 활용하기 위해 필요한 데이터, 인프라, 조직 및 시스템, 사람의 네 가지 측면을 고려해서 빅데이터 비즈니스를 설계하고 운영한다면 우리나라에서도 세계적인 빅데이터 비즈니스 기업이 나타나리라 믿는다. 앞으로 위 네 가지 차원에서 LHC 빅데이터 활용의 사례를 같이 살펴보면서 빅데이터를 도입하려는 CIO 및 IT 조직의 리더들과 실무자들이 빅데이터를 성공적으로 활용할 수 있는 좋은 교훈과 정보를 얻게 되길 바란다.

CERN의 LHC는 빅데이터 비즈니스를 위한 좋은 사례일 뿐만 아니라, 최첨단 기초 과학의 뒤에 숨어 있는 컴퓨터 및 IT 기술에 대한 흥미로운 교양 과학 이야기이기도 하다. 우주와 물질의 비밀을 밝혀내는 거대 실험 장치에서 빅데이터 IT 기술이 쓰이는 이야기는 데이터 쓰나미의 난제를 해결한 과학자들의 영웅담으로도 재미있게 읽힐 수 있을 것이다.

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.