한눈에 보자!··· 최신 데이터 애널리틱스 동향 15선

CIO
빅데이터, 머신러닝, 데이터 과학… 데이터 애널리틱스 혁명이 숨가쁘게 진화하고 있다. 기업으로서는 자사의 BA/BI 전문가와 데이터 과학자가 최신 기술과 전략 트렌드에 대응하도록 대비해야 할 상황이다.

데이터 분석이 IT의 핵심에 빠르게 자리잡고 있다. 빅데이터, 머신러닝, 딥러닝, 데이터 과학 등 방대한 양의 데이터 분석을 위한 기술과 기법의 범위가 빠른 속도로 확장되고 있다. 고객 행동, 시스템 성능, 새로운 수익 창출 기회에 대한 심도 있는 통찰을 얻기 위한 데이터 분석 전략은 최신 데이터 분석 트렌드를 확실히 꿰고 있을 때 그 효과가 더 커진다.

현재 인기 상승 중인 데이터 분석 기술과 기법 및 전략과 한 때 잘나갔지만 인기가 식기 시작한 데이터 분석 트렌드를 소개한다. 비즈니스 분석가에서부터 데이터 과학자는 물론, 경영진과 실무진까지 감안할 만한 내용이다.



인기 상승: 셀프서비스 BI
인기 상승: 모바일 대시보드

인기 하락: 하둡
인기 상승: R 언어
인기 상승: 심층 신경망


인기 하락: IoT
인기 상승: 텐서플로우
인기 상승: 믹스넷(MXNet)

인기 하락: 배치 분석(Batch analysis)
인기 상승: 마이크로소프트 인지 툴킷 2.0


인기 상승: 사이킷런(Scikit-learn)
인기 하락: 카페(Caffe)
인기 상승: 주피터 노트북(Jupyter Notebooks)
인기 상승: 클라우드 스토리지 및 분석

인기 하락: 월간 BI 보고서





인기 상승: 셀프서비스 BI
대상: BI/BA 전문가, 경영자

태블로(Tableau), 클릭 센스(Qlik Sense), 파워 비아이(Power BI), 도모(Domo)와 같은 셀프서비스 BI 도구를 이용함으로써 경영자는 원하는 최신 비즈니스 정보를 그래픽 형태로 얻을 수 있다.

처음 시작할 때, 그리고 데이터 소스를 추가할 때, 어느 정도 IT의 도움이 필요하지만 데이터 정제 및 분석 생성 업무의 대부분은 비즈니스 분석가가 수행할 수 있으며, 분석 파일은 열 때마다 최신 데이터로 자동 업데이트되게 된다.

그 후 경영자는 그래픽 형태의 분석 내용을 검토함으로써 해결해야 할 문제를 파악할 수 있다. 예컨대 BI로 생성한 대시보드에서라면 상세 검색을 통해 실적이 부진한 점포, 영업사원, 제품을 찾아내거나 매년 동일 점포를 비교하여 일정한 트렌드를 발견할 수 있다. 이렇게 알아낸 내용은 향후 재고 수준, 제품 영업 및 홍보, 심지어 서비스가 부족한 지역에 점포를 추가로 짓는 것 등에 대한 의사결정에 도움이 될 수 있다.

인기 상승: 모바일 대시보드
대상: BI/BA 전문가, 경영자, 개발자

경영자가 사무실 책상에 앉아 있는 경우가 그리 흔하지 않다. 때문에 유용성과 적시성을 갖춘 경영 도구이기 위해서는 모바일 친화적인 대시보드를 제공해야 한다. 대부분의 셀프서비스 BI 도구에는 이미 이 기능이 있지만 모든 핵심 사업 지표가 반드시 BI 도구를 거치는 것은 아니다.

예를 들면, 제조공장에는 대개 생산라인 전체를 감시하는 전용 QA시스템이 있다. 공장 관리자라면 생산라인 중 어느 하나라도 허용 범위에서 벗어날 경우 이를 몇 분 이내에 파악해야 한다. 이 문제는 매분 QA 데이터베이스에 질의를 하고 슈하트(Shewhart) 관리도를 업데이트 후 표시하며 생산 라인이 사양을 벗어날 경우 경고음을 울리는 옵션이 있는 앱이 있다면 쉽게 해결된다.

인기 하락: 하둡
대상: 데이터 과학자

하둡(Hadoop)은 한때 '빅데이터를 어떻게 저장하고 처리하는가?'는 문제에 대한 명실상부한 해답으로 간주됐다. 그러나 이제는 “시스템을 더 이상 관리할 수 없을 때까지 쑤셔 넣을 수 있는 가동 부품은 몇 개나 될까?”에 대한 답으로 전락한 것처럼 보인다.

아파치(Apache) 하둡 프로젝트에는 유틸리티인 하둡 커먼(Hadoop Common), 하둡 분산 파일 시스템(HDFS), 스케줄러인 하둡 얀(Hadoop YARN), 병렬 처리를 위한 하둡 맵리듀스(Hadoop MapReduce) 등 4개의 모듈이 포함되어 있다.

이와 더불어(또는 이들 대신에), 사람들이 하나 이상 자주 사용하는 관련 프로젝트로는 암바리(Ambari ; 클러스터 관리), 아브로(Avro ; 데이터 직렬화), 카산드라(Cassandra ; 멀티마스터 데이터베이스), 척와(Chukwa ; 데이터 수집), 에이치베이스(HBase ; 분산 데이터베이스), 하이브(Hive ; 데이터 창고), 머하웃(Mahout ; ML 및 데이터 마이닝), 피그(Pig ; 실행 프레임워크), 스파크(Spark ; 컴퓨트 엔진), 테즈(Tez ; 맵리듀스를 대체할 데이터플로우 프로그래밍 프레임워크), 주키퍼(ZooKeeper ;코디네이션 서비스) 등이 있다.

이 정도로도 이미 복잡하기 짝이 없지만 아파치 스톰(Storm ; 스트림 처리)과 카프카(Kafka ; 메시지 전송)도 있고 부가가치를 제공하는 아마존 EMR(Elastic Map Reduce), 클라우데라(Cloudera), 호튼웍스(Hortonworks), 마이크로스프트(에이치디인사이트(HDInsight), 맵알(MapR), SAP 알티스케일(Altiscale)도 있다. 정신이 혼미할 지경이다.

인기 상승: R 언어
대상: 통계가 강한 데이터 과학자

데이터 과학자들이 데이터 분석에 활용하는 통계적 방법은 다양하지만 가장 편리하고 강력한 방법 가운데 하나는 무료 R 프로그래밍 언어를 사용하는 것이다.

R은 재현 가능한 고급 분석을 생성할 수 있는 최고의 방식 가운데 하나다. 왜냐하면 스프레드시트와 달리 R 스크립트는 손쉽게 감사와 재실행이 가능하기 때문이다. R 언어와 그 패키지 저장소는 광범위한 통계 기법과 데이터 조작 및 플로팅(plotting)을 제공한다. 현존하는 기법은 모두 R 패키지에 구현되어 있다고 해도 과언이 아닌 수준이다.

단 R은 머신러닝을 강력하게 지원하지만 심층 신경망(deep neural networks)에 대해서는 최선의 선택이 아닐 수 있다. 심층 신경망은 R이 현재 제공하는 것보다 높은 성능의 컴퓨팅을 요구하기 때문이다.

R은 무료 오픈소스로 이용가능하며 마이크로소프트 애저 머신러닝 스튜디오(Microsoft Azure Machine Learning Studio), SQL 서버 2016을 비롯해 수십 가지 상용 제품에 내장돼 있다.

인기 상승: 심층 신경망
대상: 데이터 과학자

강력한 딥러닝 알고리즘 중에 심층 신경망(DNN ; deep neural networks)이 있다. 심층 신경망이란 선형 처리 장치와 비선형 처리 장치가 번갈아 있는 여러 개의 층(그래서 “심층”)으로 구축된 신경망으로서 대규모 알고리즘과 방대한 양의 훈련 데이터를 이용해 훈련된다. 심층 신경망에는 숨겨진 층이 10개 내지 20개인 반면 일반적인 신경망에는 몇 개에 불과하다.

망내 층이 많으면 많을수록 인식 가능한 특성도 많아진다. 반면, 망내 층이 많으면 많을수록 계산 시간이 더 길어지고 훈련시키기도 더 어려워진다. 심층 신경망 생성 패키지로는 카페(Caffe), 마이크로소프트 인지 툴킷(Microsoft Cognitive Toolkit), 믹스넷(MXNet), 네온(Neon), 텐서플로우(TensorFlow), 테아노(Theano), 토치(Torch) 등이 있다. 

인기 하락: IoT
대상: BI/BA 전문가, 데이터 과학자

사물인터넷(IoT)은 사상 최대로 과장 광고된 기술이라 할 만하다. 인터넷 보안 측면에서도 사상 최악이라고 할 수 있다.

IoT는 스마트 가정, 착용형 기기, 스마트 도시, 스마트 그리드, 산업 인터넷, 네트워크 연결 차량, 네트워크 연결 보건, 스마트 소매, 농업 등 각종 시나리오에서 활용된다고 홍보되어 왔다. 만일 이러한 응용 사례가 안전하게 구현되기만 한다면 문제가 없겠지만 아직 대체적으로 실현되지 않은 상태다.

사실, 제조사들은 근본적인 설계 오류를 자주 저질러 왔다. 스마트 기기가 인터넷을 통해 제조업체 서버에 연결되지 않으면 작동되지 않는 경우도 있다. 이는 소니 대시(Sony Dash)와 초기 네스트(Nest) 온도계의 사례에서 알 수 있듯이 제조사의 제품 지원이 종료될 때 심각한 장애점이 된다. 인터넷에 연결된 원격 서버를 제어 루프에 포함시키는 것도 제어 루프에 심각하고 변동이 심한 지연을 일으켜 불안정성이 초래될 수 있다.

더욱 심각한 것은 제조사들이 인터넷에 ‘사물’ 연결을 서두른 나머지 해커들이 악용한 취약점을 드러내고 말았다는 점이다. 그 결과, 자동차가 원격으로 탈취되고 가정용 라우터가 디도스(DDos) 공격 수행을 위해 봇넷(botnet)에 악용되는가 하면 일부 지역에서 공용 전력망이 전복되는 등의 사건이 발생했다.

IoT 기기들을 안전하게 만들려면 어떻게 해야 할까? 왜 제조사들은 신경을 쓰지 않고 있을까? 보안 문제가 해결되기 전까지는 IoT가 약속하는 데이터 분석은 장점보다는 위험이 더 클 가능성이 높다.

인기 상승: 텐서플로우
대상: 데이터 과학자

텐서플로우는 구글의 오픈소스 머신러닝 및 신경망 라이브러리로서 구글의 응용 머신러닝 서비스의 거의 대부분을 뒷받침하고 있다. 번역, 지도, 구글 앱은 모두 스마트폰에서 구동되는 텐서플로우 기반의 신경망을 사용한다. 구글 클라우드 자연어, 스피치(Speech), 번역, 비전(Vision)을 위한 응용 머신러닝 API 뒤에는 텐서플로우 모델이 있다.

데이터 과학자들은 일단 만만치 않은 프레임워크 학습 장벽을 극복하기만 하면 텐서플로우를 사용할 수 있다. 텐서플로우는 심도 있는 유연성, 진정한 이동성, 연구와 제작 연계 능력, 변수 자동 구별, CPU 대신 GPU를 우선시하여 성능을 최대화하는 능력을 자랑한다. 텐서플로우를 시작하려는 데이터 과학자들에게 사용 지침서를 소개해주거나 단순화된 텐서투텐서(Tensor2Tensor) 라이브러리를 살펴보게 하는 것이 좋다.

인기 상승: 믹스넷(MXNet)
대상: 데이터 과학자

믹스넷은 텐서플로우와 비슷한 딥러닝 프레임워크이다. 텐서플로우에 있는 시각적 디버깅 기능이 없는 반면 텐서플로우에 없는 텐서 계산을 위한 명령형 언어를 제공한다. 믹스넷 플랫폼은 기호 연산과 명령 연산을 그 때 그 때 자동으로 병렬화한다. 스케줄러 위에 있는 그래프 최적화 층은 기호 실행 속도와 메모리 효율을 높인다.

믹스넷은 현재 파이톤(Python), R, 줄리아(Julia), C++에서 모델 구축 및 훈련을 지원한다. 훈련된 믹스넷 모델은 맷랩(Matlab)과 자바스크립트(JavaScript)에서 예측에도 사용될 수 있다. 모델 구축에 사용하는 언어 종류와 관계 없이 믹스넷은 최적화된 C++ 백엔드(back-end) 엔진을 호출한다.

인기 하락: 배치 분석(Batch analysis)
대상: BI/BA 전문가, 데이터 과학자

데이터 분석을 위해 밤새 배치 작업을 실행하던 것은 1970년대 방식이다. 데이터가 9트랙 테이프에 존재하고 “중앙 처리 장치”는 세 번째 근무조에서 배치 처리 모드로 전환되던 시절이다. 2017년에는 굳이 하루 묵은 데이터에 만족해야 할 이유가 전혀 없다.

한 대 이상의 구형 시스템(1960년대까지 거슬러올라가는 경우도 있음)이 다른 용도로 사용되지 않는 야간에 분석 수행이나 데이터 백업만 가능한 경우가 있긴 하다. 그렇지 않은 다른 경우에는 배치 분석을 수행할 ‘기술적인’ 이유는 전혀 없다. 단지 “관행적으로 그렇게 해왔을 뿐”이다. 그것에 만족할 수는 없지 않는가? 게다가 경영진에게는 가장 최근의 데이터 분석을 제공하는 것이 마땅하다.

인기 상승: 마이크로소프트 인지 툴킷 2.0
대상: 데이터 과학자

줄여서 CNTK 2.0이라고도 하는 마이크로소프트 인지 툴킷은 통합 딥러닝 툴킷으로서 신경망을 방향 그래프를 통해 일련의 계산 단계로 기술한다. 텐서플로우, 믹스넷과 비슷한 점이 많다. 그러나 마이크로소프트 측의 주장에 따르면 CNTK는 특히 순환 신경망에서 텐서플로우보다 속도가 빠르고, 응용프로그램에 더 쉽게 통합시킬 수 있는 추론 기능을 갖고 있으며, 분산 학습도 지원하는 효율적인 내장 데이터 판독기가 있다고 한다.

현재 모델 갤러리에 약 60개의 샘플이 있으며 이 중에는 지난 10년간 대회에서 입상한 모델 대부분이 포함되어 있다. 인지 툴킷은 마이크로소프트 코타나(Cortana), 스카이프(Skype) 실시간 번역, 빙(Bing), 그리고 일부 X박스(Xbox) 기능의 근본 기술이다.

인기 상승: 사이킷런(Scikit-learn)
대상: 데이터 과학자

사이킷(Scikit)은 과학 계산용 파이톤(Python) 라이브러리인 사이파이(SciPy)를 중심으로 구축한 파이톤 기반 과학 툴박스이다. 사이킷런(Scikit-learn)은 머신러닝에 주력하는 오픈소스 프로젝트로서 통제 없는 범위 확장을 방지하고 검증되지 않는 알고리즘을 덜컥 사용하는 것에 신중한 특성을 지닌다. 동시에 제대로 엄선된 탄탄한 알고리즘을 보유하고 있으며 내부 루프와 같이 속도가 빨라야 하는 기능을 위해 사이톤(Cython ; 파이톤에서 C로의 컴파일러)을 사용한다.

사이킷런이 다루지 않는 분야로는 딥러닝, 강화학습, 그래픽 모델, 서열 예측 등이 있다. 파이톤 안에 있는, 파이톤을 위한 것으로 정의되어 있기 때문에 다른 언어를 위한 API는 없다. 사이킷런은 파이톤 JIT(Just-in-Time) 컴파일러인 파이파이(PyPy)와 GPU 가속을 지원하지 않는다. GPU 가속은 신경망을 제외하고 사이킷런에서는 거의 필요로 하지 않는다.

사이킷런은 필자가 테스트한 모든 머신러닝 프레임워크 중에서 개발 용이성 부문에서 점수가 가장 높다. 알고리즘은 기대만큼 잘 작동하며 API는 일관성이 있고 잘 설계되어 있다. 데이터 구조 간에 ‘임피던스 불일치’(impedance mismatch)’는 거의 없다. 기능들이 철저히 구체화되어 있고 버그를 철저히 잡아낸 라이브러리는 작업하기에 좋다.

인기 하락: 카페(Caffe)
대상: 데이터 과학자

원래는 이미지 분류를 위한 강력한 프레임워크였으며 한 때 유망했던 카페(Caffe) 딥러닝 프로젝트는 정체되고 있는 듯 하다. 이 프레임워크는 이미지 인식을 위한 강력한 컨볼루셔널 네트워크(convolutional networks), CUDA GPU에 대한 우수한 지원, 그리고 괜찮은 이동성을 갖추고 있다. 그러나 그 모델들은 지나치게 많은 양의 GPU 메모리를 필요로 하는 경우가 많으며 소프트웨어에는 몇 년이 넘도록 수정되지 않은 버그가 있고 설명서는 아무리 잘 봐주더라도 문제가 있다.

카페는 1년 넘게 버그투성이의 릴리즈 캔디데이트와 씨름한 끝에 마침내 2017년 4월 1.0 출시 단계에 도달했다. 그러나 2017년 7월 현재 아직 해결되지 않은 문제가 500건이 넘는다. 외부인이라면 딥러닝 커뮤니티가 텐서플로우, CNTK, 믹스넷으로 이동한 가운데 이 프로젝트가 정체되었다는 인상을 받을 것이다.

인기 상승: 주피터 노트북(Jupyter Notebooks)
대상: 데이터 과학자

원래는 아이파이톤 노트북(IPython Notebook)이라 불렸던 주피터 노트북(Jupyter Notebook)은 오픈소스 웹 응용프로그램으로서 데이터 과학자들로 하여금 라이브 코드(live code), 방정식, 시각화, 설명 텍스트 등이 포함된 문서를 생성하고 공유할 수 있게 해 준다. 데이터 정제 및 변환, 수치 시뮬레이션, 통계 모델링, 머신러닝 등등의 용도로 활용된다.

주피터 노트북은 많은 데이터 과학자와 머신러닝 연구자가 선호하는 개발 환경으로 자리잡았다. 애저, 데이터브릭스(Databricks)를 비롯해 머신러닝과 빅데이터가 포함된 기타 온라인 서비스의 표준 구성요소다. 로컬로도 실행할 수 있다.

‘주피터’(Jupyter)’란 이름은 데이터 분석에 많이 쓰이는 언어이자 노트북 커널의 첫 번째 대상 중 세 가지인 줄리아(Julia), 파이톤(Python), R의 첫 글자를 조합해서 만든 것이다. 그러나 요즘에는 약 80가지 언어에 대한 주피터 커널이 존재하고 있다.

인기 상승: 클라우드 스토리지 및 분석
대상: BI/BA 전문가, 데이터 과학자

효율적인 분석에 대한 격언 가운데 하나는 ‘데이터가 존재하는 곳에서 컴퓨팅을 하라’는 것이다. 이 규칙을 따르지 않거나 따를 수 없다면 데이터가 로컬 네트워크로 움직일 경우 분석에 큰 지연이 생길 가능성이 높으며 데이터가 인터넷으로 움직인다면 지연은 더 커진다. 마이크로소프트가 최근 SQL 서버에 R 지원을 추가한 이유다.

회사에서 생성되는 데이터 양이 기하급수적으로 늘어남에 따라 데이터 센터의 용량이 부족해지면 클라우드 스토리지를 추가해야 한다. 데이터를 클라우드로 옮기면 분석 역시 클라우드에서 실시해야 한다. 궁극적으로는 대부분의 신규 프로젝트가 클라우드에서 시행되고 기존 프로젝트는 클라우드로 이주할 것이다. 회사의 설비투자 지출이 운영비용 지출로 옮겨가는 셈이다.

인기 하락: 월간 BI 보고서
대상: BI/BA 전문가, 데이터 과학자

셀프서비스 비즈니스 인텔리전스(BI)가 인기를 얻기 전까지는 BI가 IT의 소관이었다. 경영자가 스스로 보고 싶은 것을 설명하면 비즈니스 분석가는 이를 사양으로 변환시키고 BI 전문가는 해당 사양을 충족하기 위한 보고서를 만들었다.

이러한 프로세스는 결국 일이 밀리는 결과를 낳았다. 보고서가 정의되고 나면 매달 거의 영구적으로 수행되었다. 가능한 모든 보고서의 출력물이 매달 1일 경영진에게 이메일로 전송되었다. 이를 살펴보고 회의 시에 논의한 후 조치를 취하거나 무시되었다.

어떤 경우에는 이 조치라는 것이 기존 보고서에서 제기된 질문에 답하는 새로운 보고서를 정의하는 작업이었다. 그러면 전체 주기가 처음부터 다시 시작된다. 한두 달 후에 새 보고서가 월간 출력물에 추가된다.

유감스럽지만 민첩성을 원하는 기업이 환경과 시장의 변화에 대응하는 데 몇 달을 끌 수는 없는 노릇이다. 질문을 한 후 답변을 받기까지의 시간은 몇 주나 몇 달이 아닌 몇 초나 몇 분이어야 한다.

* 인포월드 자문 편집자이자 리뷰어인 Martin Heller는 웹 및 윈도우 프로그래밍 컨설턴트 경력을 보유자다. 1986년부터 2010년까지는 데이터베이스, 소프트웨어, 웹사이트 개발자로 일했으며 그 이후에는 알파 소프트웨어의 기술 및 교육 부사장, 튜브파이의 의장이자 CEO를 역임했다. ciokr@idg.co.kr