Offcanvas

CIO / How To / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 애플리케이션

김진철의 How-to-Big Data | 빅데이터 주요 기술의 조건 (4)

2018.06.27 김진철  |  CIO KR


아래 그림 5와 같이 MonALISA의 가장 큰 특징은 Google Map에 각 그리드 데이터센터의 위치와 자원 운영 상태가 같이 표현된다는 것이다. 자원 운영 상태가 지도와 함께 표현된 주 모니터링 가시화 영역의 옆에는 모니터링 항목을 계층적으로 탐색하면서 선택할 수 있는 트리 구조의 메뉴가 있다. 이 트리 구조의 메뉴를 이용해 MonALISA 사용자는 자신이 모니터링하고자 하는 정보를 선택해서 각 그리드 데이터센터의 위치에 대조해서 관찰할 수 있다. 왼쪽 아래에는 실행되는 작업의 수가 게이지로 간단하게 표현되어 있어서 현재 전체 LHC 컴퓨팅 그리드의 작업 실행 부하가 어느 정도 되는지 간편하게 파악할 수 있다.



MonALISA에서 처음 시도된 Google Map을 이용한 그리드 자원 모니터링에서 아이디어를 얻어서, LHC 컴퓨팅 그리드 모니터링 시스템을 개발하는 CERN의 IT부서 개발팀은 그림 6과 같이 구글 어스(Google Earth)에 각 그리드 데이터센터의 위치와 서비스 가용성 상태, 그리고 네트워크 사용 현황을 같이 표현한 입체적인 모니터링 가시화를 개발했다. 이 구글 어스 기반의 모니터링은 구글 어스의 플러그인 기술 형식인 KLM 형식으로 제공되어 구글 어스를 사용하는 사람은 누구나 쉽게 설치해서 정보를 살펴볼 수 있다. (궁금한 독자는 직접 설치해서 확인해볼 수 있다. 구글 어스 WLCG 대시보드 KLM 파일을 http://dashb-earth.cern.ch/dashboard/dashb-earth-all.kmz에서 다운로드 받아 구글 어스의 “추가(A)  네트워크 링크”에 추가하면 된다.)

구글 어스의 독특한 지구본 스타일의 3D지도와 상호작용하여 각 데이터센터의 위치와 함께 자원 및 서비스 가용성 상태를 한 눈에 볼 수 있으며, 전 세계 그리드 데이터센터 간 데이터 전송 현황 및 네트워크의 부하도 한눈에 볼 수 있다. 이렇게 구글 어스를 이용해 전 세계 그리드 데이터센터의 서비스 가용성 정보와 네트워크 상황을 한눈에 볼 수 있게 한 WLCG 모니터링 시스템은 전세계적으로 흩어져 있는 LHC 컴퓨팅 그리드 자원, 서비스의 통합과 운영 품질을 높이는 데 크게 기여하였다.



LHC 실험 빅데이터 처리를 위해 LHC 실험 연구자들이 고민했던 데이터 가시화 사례와 방법론을 살펴보았다. 여기서 우리는 빅데이터 자체를 효과적으로 분석하고 탐색하는 가시화 방법과 시스템뿐만 아니라, 빅데이터 시스템 자체에 대한 가시화 방법과 시스템도 체계적이고 창의적으로 만들어야 한다는 것을 알 수 있다. LHC 가속기가 고휘도 LHC(High-Luminosity LHC)로 업그레이드되면 현재 생산되는 데이터보다 훨씬 더 많은 데이터가 나올 것이 예상되어, LHC 빅데이터의 가시화 방법과 이를 위한 연산 방법도 새로운 컴퓨팅 아키텍처를 이용해서 계속 연구되어야 할 것으로 보인다.

빅데이터 – 가시화와 큐레이션의 중요성
빅데이터를 활용할 때 가시화와 큐레이션이 중요한 것은 다음과 같은 이유 때문이다. 첫번째로, 빅데이터 처리와 분석을 위한 컴퓨팅 자원의 양에 언제나 제약이 있기 때문에 모든 빅데이터를 한 번에 보거나 다룰 수 없기 때문이다. 두번째로, 인간의 두뇌가 가진 정보처리 용량도 제한이 있기 때문에 한 번에 볼 수 있거나 다룰 수 있는 데이터의 양에 제한이 있기 때문이다. 세번째로, 데이터 그 자체는 현실이 아니라 현실을 반영하는 추상적인 상징(symbol)에 불과한데, 이렇게 수집과 관찰의 대상이 되는 현실 세계를 추상화하여 데이터로 표현한 맥락과 그 의미를 효과적으로 전달하는 과정 자체가 또한 매우 추상적이기 때문에 직관적으로 데이터의 의미와 맥락을 이해하기 어렵기 때문이다. 위와 같은 이유로, 인간 두뇌로 전달되는 정보량의 90% 이상을 차지하는 시각을 이용해서 데이터를 표현하는 것은 데이터의 의미와 맥락을 빠른 시간에 파악하기 위해 매우 중요한 일이다.

빅데이터를 가시화하고 큐레이션할 때 생각해야 할 것들을 앞에서 살펴본 LHC 컴퓨팅 그리드의 이벤트 데이터와 모니터링 데이터 가시화 사례에서 얻은 교훈을 바탕으로 같이 생각해보자.

먼저 데이터 가시화를 효과적으로 하기 위해서는 데이터의 구조와 특성에 대해 이해해야 한다. 이 문제는 쉬울 수도 있고 어려울 수도 있다. LHC 이벤트 데이터와 같이 현상의 어떤 측면을 볼지 알고, 입자물리학 현상을 기술하는 양자장론과 같이 데이터의 의미와 구조를 설명, 해석할 때 사용할 수 있는 사고 체계나 이론이 있어 데이터의 구조와 의미를 이해하고 있는 경우에는 가시화를 어떻게 할지 알아내기가 상대적으로 쉽다. 하지만, 탐색적인 데이터 분석, 마이닝을 통해 데이터의 의미를 찾아내야 하는 경우는 데이터의 구조나 의미를 사전에 알지 못하기 때문에 데이터의 의미를 쉽게 전달하는 가시화 방법을 찾아내기까지 많은 시행착오와 노력이 필요할 수 있다.

두번째로, 데이터가 활용되는 용도에 맞게 가시화되어야 한다. 앞에서 설명한 ALICE 검출기 이벤트 데이터의 경우에, 각 이벤트가 어떤 입자 간의 상호 작용에 의해 생긴 이벤트인지 쉽게 찾을 수 있고, 이벤트의 물리량을 쉽게 계산하고 분석할 수 있는 형태로 가시화가 되어야 했다. 이 때문에, 검출기의 3차원 모델에 대비하여 이벤트 데이터를 가시화해서 보여줄 필요가 있었고, 이벤트별로 시뮬레이션 데이터와 비교하여 대응된 물리학적 메타데이터에 따라 구분되어 가시화될 필요가 있었다.

이벤트 데이터의 경우, 표준 모형에 따른 입자물리학 현상학 이론에 따라 데이터 구조와 형식이 미리 정의되어 있어서 이벤트 자체를 가시화하는 방법을 찾아내는 것은 상대적으로 쉬웠다. 표준 모형으로 예측된 새로운 입자들을 발견하는 것과 함께 초대칭성, 현상론이나 표준 모형을 넘어선 입자물리학적 현상들의 미세한 신호를 포착하기 위해서는 가시화된 이벤트 데이터를 연구자가 상호작용하면서 연구자의 분석 목적에 맞게 다양한 측면에서 데이터를 관찰할 수 있어야 했다. 이런 이유로 이벤트 데이터는 사용자의 마우스 동작에 따라 다양한 방향에서 관찰할 수 있도록 분석 프레임워크인 ROOT와 이벤트 가시화 모듈인 EVE를 이용해 연구자와 상호작용이 가능한 가시화 모델로서 만들어졌다.

앞에서 두번째로 살펴본 데이터 가시화 사례인 LHC 컴퓨팅 그리드의 모니터링 데이터 가시화의 경우에는 LHC 컴퓨팅 그리드를 운영하는 과정에서 문제가 생겼을 때 쉽게 포착하고 문제의 원인을 신속하게 추적해 들어갈 수 있도록 데이터 가시화가 되어야 했다. 이 때문에, 우선 모니터링 가시화 정보가 그 수준에 따라 계층적으로 조직되어 있어야 했고, 이런 계층적 정보 구조에 따른 표현 수준에 맞게 데이터 가시화가 되어야 했다. GridMap과 MonALISA 등의 모니터링 시스템에서 각 그리드 데이터센터 서비스 및 자원의 대표 상태를 하나의 지표로 먼저 표현해 가시화하고, 문제가 있는 그리드 데이터센터의 서비스와 자원에 세부 상태를 차츰 접근해 들어가 조사할 수 있도록 모니터링 가시화를 표현한 것은 모니터링 시스템의 목적이 전체 시스템의 문제와 그 원인을 신속하게 찾아낼 수 있어야 하기 때문이다.

이번에는 빅데이터 큐레이션을 위해 생각해야 할 것들을 역시 앞에서 살펴본 LHC 컴퓨팅 그리드의 사례를 되새기면서 같이 생각해보자.

앞서 설명한 바와 같이 인간의 두뇌가 가진 정보처리 용량의 제한과 빅데이터를 다룰 때 쓰는 컴퓨팅 시스템 자원의 한계 때문에 사람이 한 번에 볼 수 있는 정보의 양은 제한되어 있다. 빅데이터의 경우 데이터의 양이 커지거나 데이터 소스의 종류가 다양해져서 데이터가 이루는 상태 공간(configuration space)의 차원이 높아지게 되면 빅데이터의 모든 정보를 한 번에 볼 수 없기 때문에, 데이터 분석의 우선순위와 필요에 맞게 빅데이터를 보는 특정한 시점만을 부각시키는 큐레이션 과정이 필요하다.

첫번째로, 앞서 빅데이터 가시화를 위해서는 데이터의 구조와 맥락을 이해하는 과정이 필요하다고 했는데, 이것은 큐레이션 과정에서도 똑같이 적용된다. 데이터 과학자가 분석해서 파악하려고 하는 의미와 맥락에 맞게 데이터 표현과 범위가 결정되어야 하기 때문에, 빅데이터에서 어떤 측면의 정보를 추출할 것인지, 어떤 정보를 먼저 볼 것인지, 볼 정보들을 어떤 과정을 통해 관찰하고 분석할 것인지를 사전에 잘 고려하고 디자인하는 것이 좋다.

두번째로 빅데이터 큐레이션 시스템을 개발, 구축할 때 생각해야 할 것은 빅데이터를 큐레이션하는 과정이 또 하나의 빅데이터 처리, 가공 과정이 되어 때에 따라서는 빅데이터 큐레이션을 위한 빅데이터 처리 자원이 필요할 수 있다는 것이다. 큐레이션된 빅데이터와 사용자 간의 상호작용이나 응답성 요구사항에 따라 이에 맞게 제한된 시간 안에 빅데이터 처리를 해낼 수 있는 큐레이션 로직을 개발할 수 있는 하둡이나 스파, 또는 고성능 인메모리 컴퓨팅 빅데이터 기술을 선택해서 사용하는 것이 필요하게 된다.

대개의 경우 가시화 자체가 큐레이션을 포함하고 있는 경우가 많고, 큐레이션하는 과정에서 여러 가지 종류의 복잡한 가시화를 하는 경우가 많다. 이렇게 되면 가시화와 큐레이션을 위한 데이터를 가공하는 과정뿐만 아니라, 가공된 데이터 자체가 또 하나의 빅데이터가 되어서 가시화와 큐레이션을 위해 데이터를 보여주는 것만도 많은 컴퓨팅 자원을 필요로 하는 빅데이터 처리 과정이 될 수 있다. 이런 경우의 한 예로 요즘 많이 관심을 받고 있는 시간에 따른 대상(유체, 의료 영상, 기상 데이터, 3차원 상품 모델 등)의 변화를 3차원으로 같이 표현하는 4D 가시화나 AR/VR을 이용한 가시화와 큐레이션을 들 수 있다.

이렇게 가시화와 큐레이션을 위한 데이터 자체가 또 하나의 빅데이터가 되면 데이터를 가시화하고 큐레이션하기 위해 병렬 시각화(parallel visualization)와 렌더링(parallel rendering)과 같은 고급 데이터 가시화 기술이 필요할 수 있다. 되도록 가시화를 통해 표현할 정보와 데이터의 양을 줄여서 가시화 시스템을 위한 비용과 노력을 줄이는 것이 좋지만, 가시화하고 큐레이션할 데이터와 정보가 나누기 어려운 하나의 전체로 홀리스틱(holistic)하게 다뤄야 할 경우에는 어쩔 수 없이 고급 데이터 가시화 시스템과 기술을 동원할 수밖에 없다.

세번째로 위와 같은 측면을 고려하여 빅데이터 가시화, 큐레이션 시스템이 디자인, 구축되면 기존의 비즈니스 지원 시스템(BSS), 운영 지원 시스템(OSS)과 효과적으로 통합되어 비즈니스 수행과 운영 지원에 적절하게 활용되어야 한다. 빅데이터 가시화 및 큐레이션 시스템은 결국 비즈니스 및 조직 운영의 의사 결정을 신속하고 정확하게 할 수 있도록 돕는 시스템이다. 비즈니스 및 조직 운영 의사 결정을 신속하게 하도록 하기 위해서는 비즈니스 지원 시스템과 운영 지원 시스템의 일부로서 빅데이터 가시화 및 큐레이션 시스템이 이음매 없이(seamlessly) 녹아들어 있어야 한다.

네번째로, IoT 등을 통해 수집된 복잡한 비즈니스 데이터의 구조와 의미를 처음부터 완벽하게 파악할 수 없고, 이런 이유로 빅데이터 가시화 및 큐레이션 시스템의 요구사항을 모두 완벽하게 파악하여 가시화 및 큐레이션 시스템을 설계할 수 있는 경우는 거의 없다. 이 때문에, 데이터 과학자와 데이터 과학팀의 데이터 분석 결과가 신속하게 비즈니스 지원 시스템과 운영 지원 시스템으로 통합될 수 있도록 모듈화되고 확장성 있는 아키텍처를 가진 빅데이터 가시화 및 큐레이션 시스템을 선택하고 설계, 구축하는 것이 중요하다.

특히 데이터 과학자와 데이터 과학팀이 탐색적 데이터 분석을 통해 데이터 기반의 새로운 비즈니스 기회를 뒷받침할 수 있는 분석 결과를 얻었을 경우, 이러한 데이터를 활용한 새로운 비즈니스 기회가 신속하고 적절한 시점에 실행되어 비즈니스 성과로 이어질 수 있도록 분석과정에서 사용된 데이터 가시화 방법과 큐레이션된 비즈니스 정보들이 기존의 비즈니스 지원 시스템과 운영 지원 시스템에 재빠르게 적용되어 모니터링될 수 있어야 한다. 이렇게 데이터 분석에 사용된 분석 자산과 가시화 자산들이 비즈니스 지원 시스템과 운영 지원 시스템의 모니터링 가시화, 큐레이션 요소로 손쉽게 추가 통합될 수 있는 확장성 있는 빅데이터 비즈니스 시스템을 고려하는 것이 좋다.

마지막으로, 적절하게 가시화되고 큐레이션된 빅데이터는 조직 구성원들의 빅데이터 소비와 활용을 촉진하는 역할을 하기도 한다. 빅데이터를 막 도입하기 시작한 조직이나 기업에서 흔히 부딪히는 문제인 조직적인 저항과 무관심이 적절하게 갖추어진 빅데이터 가시화, 큐레이션 시스템과 활용 사례를 통해서 극복될 수도 있다.

조직 구성원들이 가시화, 큐레이션된 정보를 각 업무 영역에서 손쉽게 인용하고 활용할 수 있도록 가시화, 큐레이션된 정보의 유통 체계를 조직 내에서 갖출 수 있으면 데이터 기반 비즈니스 문화를 조직에 퍼트리는 데 도움이 될 수 있다. 이렇게 조직 내에 데이터 기반 의사 결정의 비즈니스 문화를 전파하고 정착시키기 위한 도구로서도 빅데이터 가시화, 큐레이션 시스템을 디자인하고 구축하는 것도 적극적으로 검토해볼 만 하다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] Manfred Krammer, “The silicon sensors for the Inner Tracker of the Compact Muon Solenoid experiment,” Nuclear Instruments and Methods in Physics Research A V.531, p. 238–245, 2004.
[3] Manfred Krammer, “Operation and Performance of the CMS Silicon Tracker,” http://www.hephy.at/fileadmin/user_upload/Publikationen/Alushta-Krammer.pdf .
[4] The CMS Collaboration, CMS Tracker - Technical Design Report, CERN/LHCC 98-6, CMS TDR 5, 15 April 1998.
[5] The CMS Collaboration, Addendum to the CMS Tracker TDR, CERN/LHCC 2000-016, CMS TDR 5 Addendum 1, 21 February 2000.
[6] The CMS Collaboration, The Phase-2 Upgrade of the CMS Tracker - Technical Design Report, CERN-LHCC-2017-009, CMS-TDR-17-001, 1 July 2017.
[7] ROOT Documentation - The Event Display classes, https://root.cern.ch/root/html/GRAF3D_EVE_Index.html .
[8] ROOT Documentation - An event display based on ROOT GUI, https://root.cern/event-display-based-root-gui .
[9] Matt Strassler, Peter Skands. Albert De Roeck, Christophe Saout, Joanna Weng, Ianna Osborne, “Simulation of a detection of Hidden Valley Z' decay into jets in the CMS experiment,” CERN Document Server, CMS Photos, 2007. (https://cds.cern.ch/record/1074317# )
[10] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (1),” CIO Korea 칼럼. (http://www.ciokorea.com/news/35688)
[11] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (2),” CIO Korea 칼럼. (http://www.ciokorea.com/news/36179)
[12] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (3),” CIO Korea 칼럼. (http://www.ciokorea.com/news/36540)
[13] 김진철, “김진철의 How-to-Big Data - 빅데이터와 클라우드 기술 (6),” CIO Korea 칼럼. (http://www.ciokorea.com/news/37380)
[14] John Shade, “Visualization Ideas for Management Dashboards,” a presentation at the GDB Meeting, 5 Dec 2007. (https://indico.cern.ch/event/8508/contributions/2106100/attachments/1076823/1535915/EGEE_Management_Dashboard.pdf )
[15] Julia Andreeva, “SiteView Current status and plans,” a presentation at the GDB Meeting, Feb. 08, 2012. (http://slideplayer.com/slide/8752779/)

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr
 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.