Offcanvas

BI / How To / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 애플리케이션

네가 있어 웃는다··· '데이터 준비 도구' 따라잡기

2019.11.07 Thor Olavsrud  |  CIO


- 현대적인 분석 및 BI 플랫폼들. 이들 벤더는 ‘엔드 투 엔드’ 분석 워크플로우의 일부로 데이터 준비 도구를 제공한다. 데이터 준비가 현대적인 분석 및 BI에 아주 중요하기 때문에, 이 분야의 모든 벤더가 데이터 준비 기능을 탑재시키고 있다. 알테릭스(Alteryx), 태블로(Tableau), 캠브릿지 시맨틱스(Cambridge Semantics), 인포직스(Infogix), 마이크로소프트(Microsoft), 마이크로스트래티지(MicroStrategy), 오라클(Oracle), 클릭(Qlik), SAP, SAS, 팁코 소프트웨어(TIBCO Software), TMM데이터(TMMData)가 이런 벤더들이다.

- 데이터 사이언스 및 머신러닝 플랫폼. 가트너에 따르면, 이들 벤더는 ‘엔드 투 엔드’ 데이터 사이언스와 ML 프로세스의 일부로 데이터 준비 기능을 제공한다. 알테릭스(Alteryx), 캠브릿지 시맨틱스(Cambridge Semantics), 데이터이쿠(Dataiku), IBM, 인포직스(Infogix), 래피드 인사이트(Rapid Insight), SAP, SAS가 대표적인 벤더들이다.

위에 설명한 4개 범주 외에, 데이터 준비 기능을 제공하는 새로운 범주가 있다. 다음 플랫폼과 벤더가 여기에 해당된다.

- 데이터 관리/데이터 레이크 구현 플랫폼 : 인포매티카(Informatica), 탈렌드(Talend), 유니피(Unifi), 잘로니(Zaloni)
- 데이터 엔지니어링 플랫폼 : 인포웍스(Infoworks)
- 데이터 품질 도구 : 엑스페리안(Experian)
- 데이터 통합 전문 : 알루마(Alooma), 넥슬라(Nexla), 스트림세트(StreamSets), 스트림(Striim)


6종의 핵심 데이터 준비 도구들
다음은 현재 가용한 것들을 더 상세하게 제공하는 6종의 데이터 준비 도구들이다.

알터릭스 디자이너(Alteryx Designer)
이 스탠드얼론 데이터 준비 도구는 알터릭스 애널리틱스(Alteryx Analytics) 및 데이터 사이언스(Data Science) 플랫폼의 일부이기도 하다. 더 광범위한 현대적인 분석 및 BI 플랫폼, 더 광범위한 데이터 사이언스 및 머신러닝 플랫폼의 기능으로 데이터 준비 기능이 제공된다는 이야기이다. 

SQL 코드 없이 데이터를 혼합하고, 준비하고, 프로파일링할 수 있는 ‘드랙 앤 드롭’ 워크플로우를 지원한다. 라이선스 방식은 사용자 수에 기준을 둔 연간 구독 방식이다.

캠브릿지 시맨틱스 안조(Cambridge Semantics Anzo)
안조는 캠브릿지 시맨틱스의 엔드 투 엔드 데이터 발견(검색) 및 통합 플랫폼이다. 이는 가트너의 4개 범주 모두에 해당되는 플랫폼이다. 안조는 기존 데이터 인프라에 그래프 기반의 시멘틱 데이터 패브릭 계층을 적용, 엔터프라이즈 데이터를 매핑하고, 데이터세트간 연결성을 드러내고, 시각적인 탐색 및 발견(검색)을 지원하고, 여러 데이터세트를 혼합한다. 라이선스 방식은 구독 방식이다. 코어와 사용자 수를 토대로 가격이 책정된다.

데이터미어 엔터프라이즈(Datameer Enterprise)
데이터미어 엔터프라이즈는 가트너의 범주 중 스탠드얼론에 해당되는 데이터 준비 및 데이터 엔지니어링 플랫폼이다. 마법사 기반 통합 프로세스를 사용, 이질적인 로우(원본) 데이터 소스를 통합해 단일 데이터 스토어를 만드는데 초점이 맞춰져 있다. 

데이터미어는 쉽게 데이터를 섞어 시각적으로 탐색할 수 있도록 스프레드시트 형태의 인터페이스를 제공한다. 컴퓨터 성능이나 데이터 볼륨(양)을 토대로 가격이 책정된다. 클라우드 고객의 경우 시간당 과금제나 연간 라이선스 방식으로 도구를 이용할 수 있다.

인포직스 데이터3식스티 애널라이즈(Infogix Data3Sixty Analyze)
데이터3식스티 애널라이즈는 인포직스가 라바스톰(Lavastorm)을 인수해 만든 웹 기반 솔루션이다. 데이터미어처럼 가트너의 4개 범주 모두에 해당되는 도구이다. 데이터3식스티 는 사용자 정의에 역할 개념을 사용한다. 설계자는 데이터 흐림을 만들고, 수정할 수 있다. 그리고 탐색자는 데이터 흐름에 대한 실행만 가능하다. 또 스케줄러는 자동 프로세싱에 대해 예약을 하고, 이를 수정할 수 있다. 인포직스는 데이터3식스티를 구독 기반 데스크톱 제품, 영구 라이선스나 구독 라이선스에 바탕을 둔 서버 제품으로 제공한다.

탈렌드 데이터 프레퍼레이션(Talend Data Preparation)
탈렌드는 3종류의 데이터 준비 도구를 공급하고 있다 탈렌드 데이터 프레퍼레이션 (오픈소스 데스크톱 버전), 탈렌드 데이터 프레퍼레이션 클라우드(Talend Cloud Platform의 일부로 제공되는 커머셜 버전), 또 다른 형태의 탈렌드 데이터 프레퍼레이션(온프레미스 Talend Data Fabric 상품의 일부로 제공되는 커머셜 버전)이 여기에 해당된다. 

탈렌드 데이터 프레퍼레이션은 스탠드얼론 도구이다. 반면 탈렌드 클라우드와 탈렌드 패브릭은 조더 광범위한 데이터 통합/데이터 관리 도구의 일부로 데이터 준비 기능을 제공한다. 

탈렌드는 표준화와 클린징, 패턴 인식, 조정에 머신 학습 알고리즘을 사용한다. 오픈소스 버전은 무료이다. 커머셜 버전은 기명 사용자 라이선스에 기반을 둔 구독 모델이 적용된다.

트리팩타 랭글러(Trifacta Wrangler)
트리팩타 랭글러는 클라우드와 온프레미스 컴퓨팅 환경을 지원하는 다양한 에디션이 있는 스탠드얼론 데이터 준비 플랫폼이다. 연결할 데이터를 추천하고, 데이터 구조와 스키마를 추론하고, 조인을 추천하고, 사용자 엑세스를 규정하고, 조사 및 데이터 품질에 대한 비주얼리제이션을 자동화하는 ML 기능이 탑재되어 있다. 트리팩타 랭글러 는 무료 버전으로 제공된다. 또 랭글러 프로(컴퓨터 성능과 사용자 수에 따라 과금)와 랭글러 엔터프라이즈(컴퓨팅/프로세싱 성능과 사용자의 수로 과금되는 온프레미스 및 클라우드 버전), 구글 클라우드 데이터프랩 바이 트리팩타(Google Cloud Dataprep by Trifacta ; 컴퓨팅 사용량으로 과금) 버전이 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.