Offcanvas

AI / 개발자 / 디지털 트랜스포메이션 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 신기술|미래 / 오픈소스

미래 보여주는 수정구슬··· ‘예측 분석’ 위한 툴 15가지 

2020.07.20 Peter Wayner  |  CIO
어느샌가 컴퓨터가 데이터를 보관하는 ‘캐비닛’에서 미래를 보여주는 ‘수정구슬’로 바뀌었다. 데이터 분석으로 몇 초, 며칠, 심지어는 몇 년 후에 일어날지도 모르는 일들을 예측할 수 있기 때문이다.  

이러한 분석 툴은 ‘예측 분석(predictive analytics)’이라는 용어의 범주에 속한다. 예측 분석은 통계부터 인공지능(AI), 머신러닝(ML), 다차원적 수학에 이르기까지 다양한 분야에서 수년간 개발된 알고리즘을 모두 포괄한다. 

예측 분석 툴은 연구소에서 등장해 기업의 서버 팜(Server Farm)에 적용됐다. 이제 이 툴들은 리소스 할당 및 수익 창출과 관련해 기업이 적절한 의사결정을 내릴 수 있도록 안내할 준비를 마쳤다. 
 
ⓒArthur Ogleznev / Unsplash (CC0)

이 툴들은 크게 두 가지 역할을 한다. 무엇보다 가장 중요한 역할은 데이터베이스라는 정보의 바다를 들여다보고 미래를 위한 비전을 찾는 것이다. 다양한 전략적 접근방식을 통해 여러 알고리즘을 지원하며, 수십 가지의 알고리즘을 지원하는 경우도 있다.

나머지 역할은 눈에 잘 띄진 않지만 더 많은 시간을 투입해야 하기도 한다. 바로 데이터 준비다. 대부분의 데이터가 일관성을 유지하고 있지 않거나 깨끗하지 않기 때문에 데이터 준비는 매우 성가신 과정이다.

예를 들어 2개의 파일을 통합할 때 서로 다른 시간대로 인해 날짜 형식이 다른 경우다. 여기까지는 그럭저럭 쉽게 해결할 수 있다고 치자. 하지만 더 어려운 과제는 오류의 결과일 수 있는 누락된 필드나 특이치다. 데이터 무결성을 유지하면서 오류를 제거하는 것은 정말 어렵다. 훌륭한 툴은 데이터를 준비하고 결과를 제시하는 데 적절한 지원을 제공한다. 

많은 예측 분석 툴은 데이터베이스 개발사, 비즈니스 애널리틱스 및 리포팅 벤더가 구축한 확장 기능으로 제공된다. 이들은 기존 보고서 생성 툴과 AI 알고리즘을 통합해 예측을 요약하고 제공하는 툴을 개발했다.

또한 많은 툴이 특정 데이터 스토리지 제품과 긴밀하게 연계돼 있다. 즉 CSV(Comma Separated Values)와 같은 범용적인 형식과 호환되긴 하지만 일부 데이터베이스와 좀 더 잘 호환되는 경향이 있다. 예측 기능을 개발한 기업이 소유한 데이터베이스일수록 그렇다. 따라서 현재 사용 중인 데이터베이스 업체의 툴을 선택하는 것이 가장 편리할 수 있다. 물론 다른 툴을 사용할 수도 있다. 데이터를 표준 형식으로 마이그레이션하거나 내보낸다면 말이다.

이제 기업들이 데이터를 활용하여 비즈니스 의사결정 방식을 혁신할 수 있는 15가지 예측 분석 툴을 살펴본다.

1. 알터릭스(Alteryx)
알터릭스는 예측 알고리즘을 자사의 리포트 생성 및 워크플로우 관리용 플랫폼에 통합해 예측 분석을 자동화하는 데 주력해왔다. 이 툴에는 새로운 혹은 오래된 주요 소스와 기타 소스로부터 데이터를 가져올 수 있는 대규모 데이터 수집 라이브러리가 있다. 

또한 이 툴은 사용자 정의 범위가 넓고, 개발자가 아닌 데이터를 잘 아는 일반 관리자를 대상으로 한다. 리포팅 및 비즈니스 인텔리전스(BI)를 위한 예측 기술의 발전을 촉진하기 위해서다. 이 밖에 알터릭스는 해당 툴을 더욱더 빠르게 도입할 수 있도록 여러 기업 부서에 맞게 맞춤형으로 구축된 솔루션도 제공한다.

2. 아마존(Amazon)
AWS의 툴들은 데이터 스트림에서 신호를 검색할 수 있도록 설계됐으며 계속해서 확장되고 있다. 일반적으로 서로 다른 제품군으로 분류되며 AWS의 데이터 스토리지 옵션(S3 버킷)과 연결돼 있다. 

아마존 포캐스트(Amazon Forecast)를 예로 들자면 이는 시계열 예측까지 AWS의 제품군을 확장했다. 다음 분기의 판매량을 비롯해 수요에 따라 미리 준비해야 할 리소스의 양을 예측해준다. 

잘못된 코드 패턴을 찾아주는 아마존 코드 구루(Amazon Code Guru)부터 프로드 디텍터(Fraud Detector), 아마존 퍼스널라이즈(Amazon Personalize)까지 일부 툴들은 아마존 내부 사업부에서 사용하고자 개발된 것들이다. 이제 아마존은 이러한 툴들을 다른 기업들에게 재판매하고 있다.

3. 보드(Board)
데이터 트렌드를 요약한 대시보드를 유지하고 싶은 기업이라면 ‘보드’를 사용해 다양한 데이터 사일로(ERP, SQL 등)에서 데이터를 수집할 수 있다. 또한 이 데이터를 미래 예측 보고서로 전환할 수 있다. 핵심은 가능한 한 많은 소스로부터 데이터를 수집하고 각각을 표준화된 ‘관점(view)’으로 바꾸어 시각화 또는 예측 분석(ML, 클러스터링 알고리즘, 통계 알고리즘 등)에 직접 제공하는 것이다.

4. 대시(Dash)
대시 툴 세트는 무료 오픈소스 버전 그리고 개발 및 사용 중인 모델의 클라우드를 관리하는 기업용 시스템 두 가지로 구분된다. 오픈소스 버전은 분석 및 데이터 시각화를 위해 적절한 파이썬 라이브러리들을 함께 제공한다. 

기업용 버전은 쿠버네티스, 인증, 대규모 사용자를 위한 배포용 GPU 통합 등 여러 툴이 추가된다. 또한 기업용 버전에는 대시보드 및 기타 인터페이스를 생성하기 위한 추가적인 로우-코드(low-code) 툴도 포함돼 있다. 

5. 데이터브릭스(Databricks)
데이터 컬렉션이 방대한 기업이라면 4대 인기 오픈소스 프로젝트인 아파치 스파크, 델타 레이크, 텐서 플로우, ML 플로우를 기반으로 개발한 데이터브릭스 툴 세트를 사용할 수 있다. 또한 데이터브릭스는 협업 노트북, 데이터 처리 파이프라인 등의 툴 모음을 추가해 워크플로우에 데이터를 더 쉽게 통합할 수 있도록 했다. 

한편 데이터브릭스는 클라우드에서의 데이터 작업을 간소화하기 위해 AWS 및 애저와 통합한 버전도 개발했다. 최근의 사례 연구는 석유를 채굴하는 과정에서 데이터브릭스가 유지보수 문제를 사전 예측하는 데 얼마나 도움이 됐는지 보여준다. 

6. 데이터로봇(DataRobot)
로컬 하드웨어, 클라우드 또는 하이브리드 인프라에 모델을 배치하기 위한 다양한 옵션을 찾고 있는 기업이라면 데이터로봇을 사용해 데이터와 모델을 관리할 수 있다. 이 툴은 일반적인 산업군에 맞게 사용자 정의된 루틴 모음으로 자동화된 머신러닝을 제공한다. 

7. IBM
IBM의 툴은 두 가지 뿌리에서 비롯됐다. 그 첫 번째로, 1960년대에 등장한 ‘SPSS 모델러’는 통계로 생산라인을 최적화하려는 많은 기업의 기반이었다. 그러나 초창기 저장매체를 일컫는 펀치카드(punch-card) 시대의 코드는 오래전에 사라졌다. 이제 이 툴은 비 개발자 직군들이 그래픽 사용자 인터페이스로 데이터를 드래그 앤드 드롭해 통계 측정값으로 작성된 리포트를 생성하는 데 사용된다. 

두 번째 IBM의 다른 대형 컬렉션은 ‘왓슨(Watson)’이라는 이름으로 제공되는 번들이다. 이 툴은 학습 데이터를 가져와서 모델로 전환할 수 있는 반복적인 머신러닝 알고리듬을 기반으로 한다. 여기서 코드는 미가공 수치, 이미지, 또는 구조화되지 않은 텍스트와 호환될 수 있다. 

8. 인포메이션 빌더스(Information Builders)
인포메이션 빌더스의 데이터 플랫폼을 통해 데이터 아키텍트는 소스에서 데이터를 수집하고 정리한 후 애널리틱스 엔진을 시작하는 시각적 파이프라인을 구성할 수 있다. 일련의 주요 옵션으로 전체 데이터 거버넌스 모델이 모든 사용자와 광범위하게 공유할 수 없는 정보를 보호할 수 있다. 또한 제조 및 유틸리티 등의 주요 산업군에 적합한 맞춤형 템플릿이 있다. 이를 통해 사용자가 자사 정책에 맞는 운영 인사이트를 신속히 개발할 수 있다.

9. 매스웍스(MathWorks)
매스웍스는 과학자들이 매트랩(MATLAB)을 사용해 대규모 매트릭스를 다룰 수 있도록 지원하는 데서 시작됐다. 서서히 성장해 현재는 다양한 형태의 데이터 수치 분석을 아우르고 있다. 매트랩 계열의 제품은 최적화 및 통계 분석에 초점을 맞추고 있으며, 시뮬링크(SIMULINK) 계열의 툴은 시뮬레이션과 모델링을 제공한다. 자율주행 자동차, 안테나 설계, 이미지 처리 등 특정 분야에 맞춰 툴을 사용자 정의하는 전문 툴 박스도 지원한다. 

10. 파이썬(Python)
펄(Perl)과 유사한 스크립트 언어로 시작된 파이썬은 현재 가장 인기 있는 데이터 분석 언어가 됐다. 많은 연구소에서 파이썬 코드를 사용해 결과를 분석한다. 또한 최근 들어 데이터 과학자들은 데이터, 분석 코드, 주피터 노트북에 작성된 설명을 통합하기 시작했다. 주피터 노트북은 읽을 수 있을 뿐만 아니라 수정하고 재분석할 수 있는 실시간 보고서를 작성하는 형식을 일컫는다. 

주피터 노트북(Jupyter notebooks), 파이참(PyCharm), 스파이더(Spyder), IDLE 등의 파이썬 툴은 최신 기술들을 확인할 수 있는 ‘장’이지만 아직은 소프트웨어 개발자 및 데이터 과학자들에게 적합하다. 현재 많은 클라우드 업체들이 텍스트나 스프레드시트 등의 주피터 노트북을 공유할 수 있는 특화된 환경을 제공하고 있으며, 이는 예측 분석과 잘 호환된다.

11. R
R은 기술적으로 데이터 분석용 오픈소스 언어다. 주로 학계에서 개발하고 지원한다. R 스튜디오(R Studio), 래디언트(Radiant), 비주얼 스튜디오(Visual Studio) 등 R을 사용하기 위한 보편적인 통합 툴이 있지만 이 툴들은 프로그래머와 하드코어 데이터 과학자들에게 적합하다. 

연구소의 최신 기술은 우선 R 패키지(R packages)로 등장하는 경우가 많으며, 대부분 하드코어 데이터 과학자들이 연구한다. 이 패키지 목록의 다른 툴들을 사용해 R 코드를 모듈로 통합할 수 있다. 통합 툴에서 원하는 것을 얻을 수 없다면 언제나 오픈소스 R 모듈을 더 심도 깊게 연구할 수도 있다.

12. 래피드 마이너(Rapid Miner)
래피드마이너의 모델링 툴은 가능한 한 자동화되도록 설계됐다. 팀이 도움을 거의 받지 않고 예측 모델을 생성할 수 있도록 말이다. 개발 스튜디오는 ‘자동화된 모델 선택’과 ‘가이드에 다른 데이터 준비’를 통해 운영용 주피터 노트북을 제작할 수 있다. 

이 모델은 전통적인 머신러닝, 베이지안 로직(Bayesian logic), 통계적 회귀, 다양한 클러스터링 형태 등의 원리를 기반으로 구축된 여러 일반적인 옵션에서 선택된다. 개발자들은 모델이 결과를 도출하는 방법을 더욱더 신뢰할 수 있도록 설명을 추가해 ‘블랙박스’를 지양하고자 노력해왔다.

13. SAP
많은 기업이 SAP로 공급망을 관리하고 있다. 현재 개선된 SAP의 리포팅 툴은 예측 분석을 제공한다. 따라서 팀은 과거 데이터로 구축한 머신러닝 모델에서 예측을 생성할 수 있다. 알고리즘에는 전통적인 인공지능과 시뮬레이션이 포함돼 있다. 소프트웨어는 로컬 또는 SAP 클라우드로 구동할 수 있다. 

또한 개발자들은 부서 간 일관성을 유지할 수 있는 맞춤형 사용자 인터페이스로 기업 전체를 지원하는 것이 목표다. 웹 기반 환경 또는 모바일 장치를 운용하는 사용자들은 광범위한 도입을 위해 조정된 리포팅을 받는다.

14. SAS 어드밴스트 애널리틱스(SAS Advanced Analytics)
약 24개의 다양한 패키지로 구성된 SAS의 툴 모음은 SAS 데이터를 인사이트와 예측으로 변환하는 플랫폼과 통합돼 있다. 통계 패키지와 데이터 마이닝은 데이터 요소 사이의 상관관계를 확인한다. 최적화 및 예측 툴은 해결책과 미래 방향성을 찾는다. 비정형 텍스트의 세부사항을 파악하고자 텍스트 분석이 크게 강조되고 있다. SAS는 최근 이 소프트웨어가 팬데믹을 추적하는 데 어떤 도움을 주는지 시연하면서 그 역량을 입증했다.

15. 타블로(Tableau)
지난해 세일즈포스닷컴(Salesforce.com)이 인수한 타블로는 리포팅 정보를 정교하고 아름다운 그래픽 렌더링으로 구현해준다는 점에서 주목을 받았다. 이제 시각적 이해를 위한 양방향 옵션을 제공하고자 내장된 애널리틱스 모델을 사용하여 대시보드를 확장할 수 있다. 이 툴은 분석을 위해 데이터를 수집하고 준비하는 데 있어서 풍부한 모듈 컬렉션을 사용한다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.