AI / 개발자 / 디지털 트랜스포메이션 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 신기술|미래 / 오픈소스

미래 보여주는 수정구슬··· ‘예측 분석’ 위한 툴 15가지

2020.07.20 Peter Wayner | CIO

어느샌가 컴퓨터가 데이터를 보관하는 ‘캐비닛’에서 미래를 보여주는 ‘수정구슬’로 바뀌었다. 데이터 분석으로 몇 초, 며칠, 심지어는 몇 년 후에 일어날지도 모르는 일들을 예측할 수 있기 때문이다.

이러한 분석 툴은 ‘예측 분석(predictive analytics)’이라는 용어의 범주에 속한다. 예측 분석은 통계부터 인공지능(AI), 머신러닝(ML), 다차원적 수학에 이르기까지 다양한 분야에서 수년간 개발된 알고리즘을 모두 포괄한다.

예측 분석 툴은 연구소에서 등장해 기업의 서버 팜(Server Farm)에 적용됐다. 이제 이 툴들은 리소스 할당 및 수익 창출과 관련해 기업이 적절한 의사결정을 내릴 수 있도록 안내할 준비를 마쳤다.

이 툴들은 크게 두 가지 역할을 한다. 무엇보다 가장 중요한 역할은 데이터베이스라는 정보의 바다를 들여다보고 미래를 위한 비전을 찾는 것이다. 다양한 전략적 접근방식을 통해 여러 알고리즘을 지원하며, 수십 가지의 알고리즘을 지원하는 경우도 있다.

나머지 역할은 눈에 잘 띄진 않지만 더 많은 시간을 투입해야 하기도 한다. 바로 데이터 준비다. 대부분의 데이터가 일관성을 유지하고 있지 않거나 깨끗하지 않기 때문에 데이터 준비는 매우 성가신 과정이다.

예를 들어 2개의 파일을 통합할 때 서로 다른 시간대로 인해 날짜 형식이 다른 경우다. 여기까지는 그럭저럭 쉽게 해결할 수 있다고 치자. 하지만 더 어려운 과제는 오류의 결과일 수 있는 누락된 필드나 특이치다. 데이터 무결성을 유지하면서 오류를 제거하는 것은 정말 어렵다. 훌륭한 툴은 데이터를 준비하고 결과를 제시하는 데 적절한 지원을 제공한다.

많은 예측 분석 툴은 데이터베이스 개발사, 비즈니스 애널리틱스 및 리포팅 벤더가 구축한 확장 기능으로 제공된다. 이들은 기존 보고서 생성 툴과 AI 알고리즘을 통합해 예측을 요약하고 제공하는 툴을 개발했다.

또한 많은 툴이 특정 데이터 스토리지 제품과 긴밀하게 연계돼 있다. 즉 CSV(Comma Separated Values)와 같은 범용적인 형식과 호환되긴 하지만 일부 데이터베이스와 좀 더 잘 호환되는 경향이 있다. 예측 기능을 개발한 기업이 소유한 데이터베이스일수록 그렇다. 따라서 현재 사용 중인 데이터베이스 업체의 툴을 선택하는 것이 가장 편리할 수 있다. 물론 다른 툴을 사용할 수도 있다. 데이터를 표준 형식으로 마이그레이션하거나 내보낸다면 말이다.

이제 기업들이 데이터를 활용하여 비즈니스 의사결정 방식을 혁신할 수 있는 15가지 예측 분석 툴을 살펴본다.

1. 알터릭스(Alteryx)
알터릭스는 예측 알고리즘을 자사의 리포트 생성 및 워크플로우 관리용 플랫폼에 통합해 예측 분석을 자동화하는 데 주력해왔다. 이 툴에는 새로운 혹은 오래된 주요 소스와 기타 소스로부터 데이터를 가져올 수 있는 대규모 데이터 수집 라이브러리가 있다.

또한 이 툴은 사용자 정의 범위가 넓고, 개발자가 아닌 데이터를 잘 아는 일반 관리자를 대상으로 한다. 리포팅 및 비즈니스 인텔리전스(BI)를 위한 예측 기술의 발전을 촉진하기 위해서다. 이 밖에 알터릭스는 해당 툴을 더욱더 빠르게 도입할 수 있도록 여러 기업 부서에 맞게 맞춤형으로 구축된 솔루션도 제공한다.

2. 아마존(Amazon)
AWS의 툴들은 데이터 스트림에서 신호를 검색할 수 있도록 설계됐으며 계속해서 확장되고 있다. 일반적으로 서로 다른 제품군으로 분류되며 AWS의 데이터 스토리지 옵션(S3 버킷)과 연결돼 있다.

아마존 포캐스트(Amazon Forecast)를 예로 들자면 이는 시계열 예측까지 AWS의 제품군을 확장했다. 다음 분기의 판매량을 비롯해 수요에 따라 미리 준비해야 할 리소스의 양을 예측해준다.

잘못된 코드 패턴을 찾아주는 아마존 코드 구루(Amazon Code Guru)부터 프로드 디텍터(Fraud Detector), 아마존 퍼스널라이즈(Amazon Personalize)까지 일부 툴들은 아마존 내부 사업부에서 사용하고자 개발된 것들이다. 이제 아마존은 이러한 툴들을 다른 기업들에게 재판매하고 있다.

3. 보드(Board)
데이터 트렌드를 요약한 대시보드를 유지하고 싶은 기업이라면 ‘보드’를 사용해 다양한 데이터 사일로(ERP, SQL 등)에서 데이터를 수집할 수 있다. 또한 이 데이터를 미래 예측 보고서로 전환할 수 있다. 핵심은 가능한 한 많은 소스로부터 데이터를 수집하고 각각을 표준화된 ‘관점(view)’으로 바꾸어 시각화 또는 예측 분석(ML, 클러스터링 알고리즘, 통계 알고리즘 등)에 직접 제공하는 것이다.

4. 대시(Dash)
대시 툴 세트는 무료 오픈소스 버전 그리고 개발 및 사용 중인 모델의 클라우드를 관리하는 기업용 시스템 두 가지로 구분된다. 오픈소스 버전은 분석 및 데이터 시각화를 위해 적절한 파이썬 라이브러리들을 함께 제공한다.

기업용 버전은 쿠버네티스, 인증, 대규모 사용자를 위한 배포용 GPU 통합 등 여러 툴이 추가된다. 또한 기업용 버전에는 대시보드 및 기타 인터페이스를 생성하기 위한 추가적인 로우-코드(low-code) 툴도 포함돼 있다.

5. 데이터브릭스(Databricks)
데이터 컬렉션이 방대한 기업이라면 4대 인기 오픈소스 프로젝트인 아파치 스파크, 델타 레이크, 텐서 플로우, ML 플로우를 기반으로 개발한 데이터브릭스 툴 세트를 사용할 수 있다. 또한 데이터브릭스는 협업 노트북, 데이터 처리 파이프라인 등의 툴 모음을 추가해 워크플로우에 데이터를 더 쉽게 통합할 수 있도록 했다.

한편 데이터브릭스는 클라우드에서의 데이터 작업을 간소화하기 위해 AWS 및 애저와 통합한 버전도 개발했다. 최근의 사례 연구는 석유를 채굴하는 과정에서 데이터브릭스가 유지보수 문제를 사전 예측하는 데 얼마나 도움이 됐는지 보여준다.

6. 데이터로봇(DataRobot)
로컬 하드웨어, 클라우드 또는 하이브리드 인프라에 모델을 배치하기 위한 다양한 옵션을 찾고 있는 기업이라면 데이터로봇을 사용해 데이터와 모델을 관리할 수 있다. 이 툴은 일반적인 산업군에 맞게 사용자 정의된 루틴 모음으로 자동화된 머신러닝을 제공한다.

7. IBM
IBM의 툴은 두 가지 뿌리에서 비롯됐다. 그 첫 번째로, 1960년대에 등장한 ‘SPSS 모델러’는 통계로 생산라인을 최적화하려는 많은 기업의 기반이었다. 그러나 초창기 저장매체를 일컫는 펀치카드(punch-card) 시대의 코드는 오래전에 사라졌다. 이제 이 툴은 비 개발자 직군들이 그래픽 사용자 인터페이스로 데이터를 드래그 앤드 드롭해 통계 측정값으로 작성된 리포트를 생성하는 데 사용된다.

두 번째 IBM의 다른 대형 컬렉션은 ‘왓슨(Watson)’이라는 이름으로 제공되는 번들이다. 이 툴은 학습 데이터를 가져와서 모델로 전환할 수 있는 반복적인 머신러닝 알고리듬을 기반으로 한다. 여기서 코드는 미가공 수치, 이미지, 또는 구조화되지 않은 텍스트와 호환될 수 있다.

8. 인포메이션 빌더스(Information Builders)
인포메이션 빌더스의 데이터 플랫폼을 통해 데이터 아키텍트는 소스에서 데이터를 수집하고 정리한 후 애널리틱스 엔진을 시작하는 시각적 파이프라인을 구성할 수 있다. 일련의 주요 옵션으로 전체 데이터 거버넌스 모델이 모든 사용자와 광범위하게 공유할 수 없는 정보를 보호할 수 있다. 또한 제조 및 유틸리티 등의 주요 산업군에 적합한 맞춤형 템플릿이 있다. 이를 통해 사용자가 자사 정책에 맞는 운영 인사이트를 신속히 개발할 수 있다.

9. 매스웍스(MathWorks)
매스웍스는 과학자들이 매트랩(MATLAB)을 사용해 대규모 매트릭스를 다룰 수 있도록 지원하는 데서 시작됐다. 서서히 성장해 현재는 다양한 형태의 데이터 수치 분석을 아우르고 있다. 매트랩 계열의 제품은 최적화 및 통계 분석에 초점을 맞추고 있으며, 시뮬링크(SIMULINK) 계열의 툴은 시뮬레이션과 모델링을 제공한다. 자율주행 자동차, 안테나 설계, 이미지 처리 등 특정 분야에 맞춰 툴을 사용자 정의하는 전문 툴 박스도 지원한다.

10. 파이썬(Python)
펄(Perl)과 유사한 스크립트 언어로 시작된 파이썬은 현재 가장 인기 있는 데이터 분석 언어가 됐다. 많은 연구소에서 파이썬 코드를 사용해 결과를 분석한다. 또한 최근 들어 데이터 과학자들은 데이터, 분석 코드, 주피터 노트북에 작성된 설명을 통합하기 시작했다. 주피터 노트북은 읽을 수 있을 뿐만 아니라 수정하고 재분석할 수 있는 실시간 보고서를 작성하는 형식을 일컫는다.

주피터 노트북(Jupyter notebooks), 파이참(PyCharm), 스파이더(Spyder), IDLE 등의 파이썬 툴은 최신 기술들을 확인할 수 있는 ‘장’이지만 아직은 소프트웨어 개발자 및 데이터 과학자들에게 적합하다. 현재 많은 클라우드 업체들이 텍스트나 스프레드시트 등의 주피터 노트북을 공유할 수 있는 특화된 환경을 제공하고 있으며, 이는 예측 분석과 잘 호환된다.

11. R
R은 기술적으로 데이터 분석용 오픈소스 언어다. 주로 학계에서 개발하고 지원한다. R 스튜디오(R Studio), 래디언트(Radiant), 비주얼 스튜디오(Visual Studio) 등 R을 사용하기 위한 보편적인 통합 툴이 있지만 이 툴들은 프로그래머와 하드코어 데이터 과학자들에게 적합하다.

연구소의 최신 기술은 우선 R 패키지(R packages)로 등장하는 경우가 많으며, 대부분 하드코어 데이터 과학자들이 연구한다. 이 패키지 목록의 다른 툴들을 사용해 R 코드를 모듈로 통합할 수 있다. 통합 툴에서 원하는 것을 얻을 수 없다면 언제나 오픈소스 R 모듈을 더 심도 깊게 연구할 수도 있다.

12. 래피드 마이너(Rapid Miner)
래피드마이너의 모델링 툴은 가능한 한 자동화되도록 설계됐다. 팀이 도움을 거의 받지 않고 예측 모델을 생성할 수 있도록 말이다. 개발 스튜디오는 ‘자동화된 모델 선택’과 ‘가이드에 다른 데이터 준비’를 통해 운영용 주피터 노트북을 제작할 수 있다.

이 모델은 전통적인 머신러닝, 베이지안 로직(Bayesian logic), 통계적 회귀, 다양한 클러스터링 형태 등의 원리를 기반으로 구축된 여러 일반적인 옵션에서 선택된다. 개발자들은 모델이 결과를 도출하는 방법을 더욱더 신뢰할 수 있도록 설명을 추가해 ‘블랙박스’를 지양하고자 노력해왔다.

13. SAP
많은 기업이 SAP로 공급망을 관리하고 있다. 현재 개선된 SAP의 리포팅 툴은 예측 분석을 제공한다. 따라서 팀은 과거 데이터로 구축한 머신러닝 모델에서 예측을 생성할 수 있다. 알고리즘에는 전통적인 인공지능과 시뮬레이션이 포함돼 있다. 소프트웨어는 로컬 또는 SAP 클라우드로 구동할 수 있다.

또한 개발자들은 부서 간 일관성을 유지할 수 있는 맞춤형 사용자 인터페이스로 기업 전체를 지원하는 것이 목표다. 웹 기반 환경 또는 모바일 장치를 운용하는 사용자들은 광범위한 도입을 위해 조정된 리포팅을 받는다.

14. SAS 어드밴스트 애널리틱스(SAS Advanced Analytics)
약 24개의 다양한 패키지로 구성된 SAS의 툴 모음은 SAS 데이터를 인사이트와 예측으로 변환하는 플랫폼과 통합돼 있다. 통계 패키지와 데이터 마이닝은 데이터 요소 사이의 상관관계를 확인한다. 최적화 및 예측 툴은 해결책과 미래 방향성을 찾는다. 비정형 텍스트의 세부사항을 파악하고자 텍스트 분석이 크게 강조되고 있다. SAS는 최근 이 소프트웨어가 팬데믹을 추적하는 데 어떤 도움을 주는지 시연하면서 그 역량을 입증했다.

15. 타블로(Tableau)
지난해 세일즈포스닷컴(Salesforce.com)이 인수한 타블로는 리포팅 정보를 정교하고 아름다운 그래픽 렌더링으로 구현해준다는 점에서 주목을 받았다. 이제 시각적 이해를 위한 양방향 옵션을 제공하고자 내장된 애널리틱스 모델을 사용하여 대시보드를 확장할 수 있다. 이 툴은 분석을 위해 데이터를 수집하고 준비하는 데 있어서 풍부한 모듈 컬렉션을 사용한다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

빅데이터 데이터 데이터 분석 데이터 애널리틱스 예측 분석 인공지능 머신러닝 분석 툴 알터릭스 아마존 보드 대시 쿠버네티스 데이터브릭스 데이터로봇 IBM 왓슨 SPSS 인포메이션 빌더스 매스웍스 파이썬 펄 주피터 노트북 R 래피드 마이너 SAP SAS 타블로 세일즈포스닷컴

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점

Offcanvas

미래 보여주는 수정구슬··· ‘예측 분석’ 위한 툴 15가지

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

Sponsored

댓글

추천 테크라이브러리

인터뷰 | “‘친환경+AI’ 앞세워 데이터센터 새바람 이끌 것”··· 엠피리온 디지털 최고전략책임자 최용석

일문일답 | “AI 기반 옵저버빌리티, IT 넘어 기업 전반에서 중요해질 것” 다이나트레이스 이효은 지사장

인터뷰 | “위기에서 기회를 보다’ 아이브릭스 채종현 대표가 전하는 ‘비즈니스 AI’ 이야기

인터뷰 | 빠른 대용량 편집기 ‘엠에디터’를 아시나요? ··· 40년 경력의 개발자 에무라 유타카 대표

일문일답 | 브로드컴 앤디 날라판 CIO·CTO·CSO가 말하는 클라우드 성공 노하우