2017.08.09

한눈에 보자!··· 최신 데이터 애널리틱스 동향 15선

Martin Heller | CIO
빅데이터, 머신러닝, 데이터 과학… 데이터 애널리틱스 혁명이 숨가쁘게 진화하고 있다. 기업으로서는 자사의 BA/BI 전문가와 데이터 과학자가 최신 기술과 전략 트렌드에 대응하도록 대비해야 할 상황이다.

데이터 분석이 IT의 핵심에 빠르게 자리잡고 있다. 빅데이터, 머신러닝, 딥러닝, 데이터 과학 등 방대한 양의 데이터 분석을 위한 기술과 기법의 범위가 빠른 속도로 확장되고 있다. 고객 행동, 시스템 성능, 새로운 수익 창출 기회에 대한 심도 있는 통찰을 얻기 위한 데이터 분석 전략은 최신 데이터 분석 트렌드를 확실히 꿰고 있을 때 그 효과가 더 커진다.

현재 인기 상승 중인 데이터 분석 기술과 기법 및 전략과 한 때 잘나갔지만 인기가 식기 시작한 데이터 분석 트렌드를 소개한다. 비즈니스 분석가에서부터 데이터 과학자는 물론, 경영진과 실무진까지 감안할 만한 내용이다.



인기 상승: 셀프서비스 BI
인기 상승: 모바일 대시보드

인기 하락: 하둡
인기 상승: R 언어
인기 상승: 심층 신경망


인기 하락: IoT
인기 상승: 텐서플로우
인기 상승: 믹스넷(MXNet)

인기 하락: 배치 분석(Batch analysis)
인기 상승: 마이크로소프트 인지 툴킷 2.0


인기 상승: 사이킷런(Scikit-learn)
인기 하락: 카페(Caffe)
인기 상승: 주피터 노트북(Jupyter Notebooks)
인기 상승: 클라우드 스토리지 및 분석

인기 하락: 월간 BI 보고서





인기 상승: 셀프서비스 BI
대상: BI/BA 전문가, 경영자

태블로(Tableau), 클릭 센스(Qlik Sense), 파워 비아이(Power BI), 도모(Domo)와 같은 셀프서비스 BI 도구를 이용함으로써 경영자는 원하는 최신 비즈니스 정보를 그래픽 형태로 얻을 수 있다.

처음 시작할 때, 그리고 데이터 소스를 추가할 때, 어느 정도 IT의 도움이 필요하지만 데이터 정제 및 분석 생성 업무의 대부분은 비즈니스 분석가가 수행할 수 있으며, 분석 파일은 열 때마다 최신 데이터로 자동 업데이트되게 된다.

그 후 경영자는 그래픽 형태의 분석 내용을 검토함으로써 해결해야 할 문제를 파악할 수 있다. 예컨대 BI로 생성한 대시보드에서라면 상세 검색을 통해 실적이 부진한 점포, 영업사원, 제품을 찾아내거나 매년 동일 점포를 비교하여 일정한 트렌드를 발견할 수 있다. 이렇게 알아낸 내용은 향후 재고 수준, 제품 영업 및 홍보, 심지어 서비스가 부족한 지역에 점포를 추가로 짓는 것 등에 대한 의사결정에 도움이 될 수 있다.

인기 상승: 모바일 대시보드
대상: BI/BA 전문가, 경영자, 개발자

경영자가 사무실 책상에 앉아 있는 경우가 그리 흔하지 않다. 때문에 유용성과 적시성을 갖춘 경영 도구이기 위해서는 모바일 친화적인 대시보드를 제공해야 한다. 대부분의 셀프서비스 BI 도구에는 이미 이 기능이 있지만 모든 핵심 사업 지표가 반드시 BI 도구를 거치는 것은 아니다.

예를 들면, 제조공장에는 대개 생산라인 전체를 감시하는 전용 QA시스템이 있다. 공장 관리자라면 생산라인 중 어느 하나라도 허용 범위에서 벗어날 경우 이를 몇 분 이내에 파악해야 한다. 이 문제는 매분 QA 데이터베이스에 질의를 하고 슈하트(Shewhart) 관리도를 업데이트 후 표시하며 생산 라인이 사양을 벗어날 경우 경고음을 울리는 옵션이 있는 앱이 있다면 쉽게 해결된다.

인기 하락: 하둡
대상: 데이터 과학자

하둡(Hadoop)은 한때 '빅데이터를 어떻게 저장하고 처리하는가?'는 문제에 대한 명실상부한 해답으로 간주됐다. 그러나 이제는 “시스템을 더 이상 관리할 수 없을 때까지 쑤셔 넣을 수 있는 가동 부품은 몇 개나 될까?”에 대한 답으로 전락한 것처럼 보인다.

아파치(Apache) 하둡 프로젝트에는 유틸리티인 하둡 커먼(Hadoop Common), 하둡 분산 파일 시스템(HDFS), 스케줄러인 하둡 얀(Hadoop YARN), 병렬 처리를 위한 하둡 맵리듀스(Hadoop MapReduce) 등 4개의 모듈이 포함되어 있다.

이와 더불어(또는 이들 대신에), 사람들이 하나 이상 자주 사용하는 관련 프로젝트로는 암바리(Ambari ; 클러스터 관리), 아브로(Avro ; 데이터 직렬화), 카산드라(Cassandra ; 멀티마스터 데이터베이스), 척와(Chukwa ; 데이터 수집), 에이치베이스(HBase ; 분산 데이터베이스), 하이브(Hive ; 데이터 창고), 머하웃(Mahout ; ML 및 데이터 마이닝), 피그(Pig ; 실행 프레임워크), 스파크(Spark ; 컴퓨트 엔진), 테즈(Tez ; 맵리듀스를 대체할 데이터플로우 프로그래밍 프레임워크), 주키퍼(ZooKeeper ;코디네이션 서비스) 등이 있다.

이 정도로도 이미 복잡하기 짝이 없지만 아파치 스톰(Storm ; 스트림 처리)과 카프카(Kafka ; 메시지 전송)도 있고 부가가치를 제공하는 아마존 EMR(Elastic Map Reduce), 클라우데라(Cloudera), 호튼웍스(Hortonworks), 마이크로스프트(에이치디인사이트(HDInsight), 맵알(MapR), SAP 알티스케일(Altiscale)도 있다. 정신이 혼미할 지경이다.

인기 상승: R 언어
대상: 통계가 강한 데이터 과학자

데이터 과학자들이 데이터 분석에 활용하는 통계적 방법은 다양하지만 가장 편리하고 강력한 방법 가운데 하나는 무료 R 프로그래밍 언어를 사용하는 것이다.

R은 재현 가능한 고급 분석을 생성할 수 있는 최고의 방식 가운데 하나다. 왜냐하면 스프레드시트와 달리 R 스크립트는 손쉽게 감사와 재실행이 가능하기 때문이다. R 언어와 그 패키지 저장소는 광범위한 통계 기법과 데이터 조작 및 플로팅(plotting)을 제공한다. 현존하는 기법은 모두 R 패키지에 구현되어 있다고 해도 과언이 아닌 수준이다.

단 R은 머신러닝을 강력하게 지원하지만 심층 신경망(deep neural networks)에 대해서는 최선의 선택이 아닐 수 있다. 심층 신경망은 R이 현재 제공하는 것보다 높은 성능의 컴퓨팅을 요구하기 때문이다.

R은 무료 오픈소스로 이용가능하며 마이크로소프트 애저 머신러닝 스튜디오(Microsoft Azure Machine Learning Studio), SQL 서버 2016을 비롯해 수십 가지 상용 제품에 내장돼 있다.

인기 상승: 심층 신경망
대상: 데이터 과학자

강력한 딥러닝 알고리즘 중에 심층 신경망(DNN ; deep neural networks)이 있다. 심층 신경망이란 선형 처리 장치와 비선형 처리 장치가 번갈아 있는 여러 개의 층(그래서 “심층”)으로 구축된 신경망으로서 대규모 알고리즘과 방대한 양의 훈련 데이터를 이용해 훈련된다. 심층 신경망에는 숨겨진 층이 10개 내지 20개인 반면 일반적인 신경망에는 몇 개에 불과하다.

망내 층이 많으면 많을수록 인식 가능한 특성도 많아진다. 반면, 망내 층이 많으면 많을수록 계산 시간이 더 길어지고 훈련시키기도 더 어려워진다. 심층 신경망 생성 패키지로는 카페(Caffe), 마이크로소프트 인지 툴킷(Microsoft Cognitive Toolkit), 믹스넷(MXNet), 네온(Neon), 텐서플로우(TensorFlow), 테아노(Theano), 토치(Torch) 등이 있다. 

CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.
2017.08.09

한눈에 보자!··· 최신 데이터 애널리틱스 동향 15선

Martin Heller | CIO
빅데이터, 머신러닝, 데이터 과학… 데이터 애널리틱스 혁명이 숨가쁘게 진화하고 있다. 기업으로서는 자사의 BA/BI 전문가와 데이터 과학자가 최신 기술과 전략 트렌드에 대응하도록 대비해야 할 상황이다.

데이터 분석이 IT의 핵심에 빠르게 자리잡고 있다. 빅데이터, 머신러닝, 딥러닝, 데이터 과학 등 방대한 양의 데이터 분석을 위한 기술과 기법의 범위가 빠른 속도로 확장되고 있다. 고객 행동, 시스템 성능, 새로운 수익 창출 기회에 대한 심도 있는 통찰을 얻기 위한 데이터 분석 전략은 최신 데이터 분석 트렌드를 확실히 꿰고 있을 때 그 효과가 더 커진다.

현재 인기 상승 중인 데이터 분석 기술과 기법 및 전략과 한 때 잘나갔지만 인기가 식기 시작한 데이터 분석 트렌드를 소개한다. 비즈니스 분석가에서부터 데이터 과학자는 물론, 경영진과 실무진까지 감안할 만한 내용이다.



인기 상승: 셀프서비스 BI
인기 상승: 모바일 대시보드

인기 하락: 하둡
인기 상승: R 언어
인기 상승: 심층 신경망


인기 하락: IoT
인기 상승: 텐서플로우
인기 상승: 믹스넷(MXNet)

인기 하락: 배치 분석(Batch analysis)
인기 상승: 마이크로소프트 인지 툴킷 2.0


인기 상승: 사이킷런(Scikit-learn)
인기 하락: 카페(Caffe)
인기 상승: 주피터 노트북(Jupyter Notebooks)
인기 상승: 클라우드 스토리지 및 분석

인기 하락: 월간 BI 보고서





인기 상승: 셀프서비스 BI
대상: BI/BA 전문가, 경영자

태블로(Tableau), 클릭 센스(Qlik Sense), 파워 비아이(Power BI), 도모(Domo)와 같은 셀프서비스 BI 도구를 이용함으로써 경영자는 원하는 최신 비즈니스 정보를 그래픽 형태로 얻을 수 있다.

처음 시작할 때, 그리고 데이터 소스를 추가할 때, 어느 정도 IT의 도움이 필요하지만 데이터 정제 및 분석 생성 업무의 대부분은 비즈니스 분석가가 수행할 수 있으며, 분석 파일은 열 때마다 최신 데이터로 자동 업데이트되게 된다.

그 후 경영자는 그래픽 형태의 분석 내용을 검토함으로써 해결해야 할 문제를 파악할 수 있다. 예컨대 BI로 생성한 대시보드에서라면 상세 검색을 통해 실적이 부진한 점포, 영업사원, 제품을 찾아내거나 매년 동일 점포를 비교하여 일정한 트렌드를 발견할 수 있다. 이렇게 알아낸 내용은 향후 재고 수준, 제품 영업 및 홍보, 심지어 서비스가 부족한 지역에 점포를 추가로 짓는 것 등에 대한 의사결정에 도움이 될 수 있다.

인기 상승: 모바일 대시보드
대상: BI/BA 전문가, 경영자, 개발자

경영자가 사무실 책상에 앉아 있는 경우가 그리 흔하지 않다. 때문에 유용성과 적시성을 갖춘 경영 도구이기 위해서는 모바일 친화적인 대시보드를 제공해야 한다. 대부분의 셀프서비스 BI 도구에는 이미 이 기능이 있지만 모든 핵심 사업 지표가 반드시 BI 도구를 거치는 것은 아니다.

예를 들면, 제조공장에는 대개 생산라인 전체를 감시하는 전용 QA시스템이 있다. 공장 관리자라면 생산라인 중 어느 하나라도 허용 범위에서 벗어날 경우 이를 몇 분 이내에 파악해야 한다. 이 문제는 매분 QA 데이터베이스에 질의를 하고 슈하트(Shewhart) 관리도를 업데이트 후 표시하며 생산 라인이 사양을 벗어날 경우 경고음을 울리는 옵션이 있는 앱이 있다면 쉽게 해결된다.

인기 하락: 하둡
대상: 데이터 과학자

하둡(Hadoop)은 한때 '빅데이터를 어떻게 저장하고 처리하는가?'는 문제에 대한 명실상부한 해답으로 간주됐다. 그러나 이제는 “시스템을 더 이상 관리할 수 없을 때까지 쑤셔 넣을 수 있는 가동 부품은 몇 개나 될까?”에 대한 답으로 전락한 것처럼 보인다.

아파치(Apache) 하둡 프로젝트에는 유틸리티인 하둡 커먼(Hadoop Common), 하둡 분산 파일 시스템(HDFS), 스케줄러인 하둡 얀(Hadoop YARN), 병렬 처리를 위한 하둡 맵리듀스(Hadoop MapReduce) 등 4개의 모듈이 포함되어 있다.

이와 더불어(또는 이들 대신에), 사람들이 하나 이상 자주 사용하는 관련 프로젝트로는 암바리(Ambari ; 클러스터 관리), 아브로(Avro ; 데이터 직렬화), 카산드라(Cassandra ; 멀티마스터 데이터베이스), 척와(Chukwa ; 데이터 수집), 에이치베이스(HBase ; 분산 데이터베이스), 하이브(Hive ; 데이터 창고), 머하웃(Mahout ; ML 및 데이터 마이닝), 피그(Pig ; 실행 프레임워크), 스파크(Spark ; 컴퓨트 엔진), 테즈(Tez ; 맵리듀스를 대체할 데이터플로우 프로그래밍 프레임워크), 주키퍼(ZooKeeper ;코디네이션 서비스) 등이 있다.

이 정도로도 이미 복잡하기 짝이 없지만 아파치 스톰(Storm ; 스트림 처리)과 카프카(Kafka ; 메시지 전송)도 있고 부가가치를 제공하는 아마존 EMR(Elastic Map Reduce), 클라우데라(Cloudera), 호튼웍스(Hortonworks), 마이크로스프트(에이치디인사이트(HDInsight), 맵알(MapR), SAP 알티스케일(Altiscale)도 있다. 정신이 혼미할 지경이다.

인기 상승: R 언어
대상: 통계가 강한 데이터 과학자

데이터 과학자들이 데이터 분석에 활용하는 통계적 방법은 다양하지만 가장 편리하고 강력한 방법 가운데 하나는 무료 R 프로그래밍 언어를 사용하는 것이다.

R은 재현 가능한 고급 분석을 생성할 수 있는 최고의 방식 가운데 하나다. 왜냐하면 스프레드시트와 달리 R 스크립트는 손쉽게 감사와 재실행이 가능하기 때문이다. R 언어와 그 패키지 저장소는 광범위한 통계 기법과 데이터 조작 및 플로팅(plotting)을 제공한다. 현존하는 기법은 모두 R 패키지에 구현되어 있다고 해도 과언이 아닌 수준이다.

단 R은 머신러닝을 강력하게 지원하지만 심층 신경망(deep neural networks)에 대해서는 최선의 선택이 아닐 수 있다. 심층 신경망은 R이 현재 제공하는 것보다 높은 성능의 컴퓨팅을 요구하기 때문이다.

R은 무료 오픈소스로 이용가능하며 마이크로소프트 애저 머신러닝 스튜디오(Microsoft Azure Machine Learning Studio), SQL 서버 2016을 비롯해 수십 가지 상용 제품에 내장돼 있다.

인기 상승: 심층 신경망
대상: 데이터 과학자

강력한 딥러닝 알고리즘 중에 심층 신경망(DNN ; deep neural networks)이 있다. 심층 신경망이란 선형 처리 장치와 비선형 처리 장치가 번갈아 있는 여러 개의 층(그래서 “심층”)으로 구축된 신경망으로서 대규모 알고리즘과 방대한 양의 훈련 데이터를 이용해 훈련된다. 심층 신경망에는 숨겨진 층이 10개 내지 20개인 반면 일반적인 신경망에는 몇 개에 불과하다.

망내 층이 많으면 많을수록 인식 가능한 특성도 많아진다. 반면, 망내 층이 많으면 많을수록 계산 시간이 더 길어지고 훈련시키기도 더 어려워진다. 심층 신경망 생성 패키지로는 카페(Caffe), 마이크로소프트 인지 툴킷(Microsoft Cognitive Toolkit), 믹스넷(MXNet), 네온(Neon), 텐서플로우(TensorFlow), 테아노(Theano), 토치(Torch) 등이 있다. 

CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.
X