2018.05.08

"가자, 데이터의 세계로" 무료 애널리틱스 툴 7선

Matt Kapko | CIO
방대한 데이터 더미 속에 숨겨진 인사이트를 찾으려는 기업이 늘어나면서 데이터 애널리틱스의 중요성도 커지고 있다. 적절한 애널리틱스 툴을 이용하면 고객과 사업에 대한 매우 값진 관점을 확보할 수 있다. 이런 툴은 다양한 소스로부터 데이터를 받아 정리하고 분류한 후 통계적 결론을 도출한다.

데이터 애널리틱스 툴을 비교 검토할 때 기업이 고려해야 할 요소는 매우 다양하다. 그러나 적절한 애플리케이션을 찾아 그 기능을 효율적으로 이용하면 큰 효과를 볼 수 있다. 여기서는 현재 사용할 수 있는 다양한 무료 데이터 애널리틱스 소프트웨어를 비교했다. 장점과 강점을 분석했고 업계 전문가의 검토를 받았으며 다양한 시장조사업체의 순위 자료도 참고했다. 그 결과 다음 7가지 무료 툴을 최종 선정했다. 순서는 알파벳 순이다.



데이터멜트
데이터멜트(DataMelt)는 '디멜트(DMelt)'라고 불리기도 한다. 대용량 데이터에 대한 통계 분석과 시각화를 지원하는 플랫폼이다. 이 프로그램은 주로 자연과학과 엔지니어링, 금융 시장 관련 모델링과 분석에 사용된다. 파이썬과 빈쉘(BeanShell), 그루브(Groovy), 루비, 자바 등 다양한 프로그래밍 언어를 지원한다.

데이터멜트의 장점은 다이내믹 스크립팅은 통해 방대한 라이브러리를 사용할 수 있다는 것이다. 연산과 시각화를 담당하는 자바 클래스가 4만개 이상이고 파이썬 모듈도 500개가 넘는다. 더 전문적인 기능은 개발자 또는 상용 라이선스가 필요하지만 무료 버전에도 데이터를 탐색, 분석, 시각화하는 핵심 기능이 다수 포함돼 있다. 윈도우와 리눅스, 맥OS, 안드로이드 기기를 지원한다.

나임 애널리틱스 플랫폼
나임 애널리틱스 플랫폼(KNIME Analytics Platform)을 이용하면 비주얼 프로그래밍을 통해 데이터를 관리, 분석하고 모델링할 수 있다. 1000개 이상의 모듈과 바로 사용할 수 있는 수백개 예제가 포함돼 있다. 데이터에 숨겨진 잠재적 인사이트를 찾아내고 머신러닝을 통해 미래를 예측할 수 있는 다양한 툴도 내장돼 있다.

나임은 코드를 직접 쓰는 대신 작업 간의 연결점을 드래그 앤 드롭 방식으로 프로그래밍한다. 또한 단일 시각화 워크 플로우 내에서 심플 텍스트 파일과 데이터베이스, 문서, 이미지, 네트워크와 하둡기반 데이터 등에 대한 데이터 블랜딩을 지원한다. 오픈소스이며 연 2회 새 버전이 나온다. 윈도우와 맥OS, 리눅스 기기에서 사용할 수 있다.



오픈리파인

오픈리파인(OpenRefine)의 본래 명칭은 구글 리파인(Google Refine)이었다. 관리하지 않았던 다양하고 복잡한 데이터를 처리할 수 있는 툴이다. 구글은 지난 2012년 이 프로젝트를 중단했지만 자발적인 개발자들에 의해 정기적으로 업데이트되고 있다. 오픈리파인은 클린징, 변환, 포맷팅 등 다양한 데이터 작업을 처리한다. 이를 통해 분석과 탐색에 더 적합한 데이터로 바꿔준다. 또한, 외부 웹서비스에서 데이터를 가져와 통합하고 일치시킨다.

오픈 리파인은 다양한 데이터베이스에 사용할 수 있는 최고의 툴은 아니다. 그러나 예측 모델링을 위해 데이터 클린징에 막대한 시간을 쓰고 있는 애널리스트에게는 매우 요긴하다. 윈도우와 맥OS, 리눅스에서 사용할 수 있다.

오렌지
오렌지(Orange)는 오픈소스 데이터 분석 및 시각화 툴이다. 슬로베니아의 류블랴나대학에서 개발했다. 터미널 윈도우에서 비주얼 프로그래밍이나 파이썬 스크립트로 데이터 작업을 할 수 있다. 통계적 분포와 박스 플롯, 스케터 플롯 등을 확인하고, 의사결정 분지도(decision trees), 계층 클러스터링, 히트맵 등으로 고급 분석을 수행하는 것이 대표적이다.

오렌지의 장점은 그래픽 인터페이스다. 덕분에 코딩 대신 데이터 분석에 집중할 수 있다. 머신러닝 컴포넌트와 외부 데이터에 대한 마이닝을 강화하는 애드온도 충실하다. 자연어 처리, 텍스트 마이닝, 바이오인포매틱스, 네트워크 분석, 룰 마이닝 등에 적합하다. 윈도우와 맥OS, 리눅스를 지원한다.



R
R 프로그래밍 언어는 통계 방법론 연구에 광범위하게 사용된다. 데이터 처리와 연산, 시각화를 모두 지원하는 통합 스위트라는 장점이 있다. 핵심 통계 기능은 선형/비선형 모델링, 전통적인 통계 검정, 시계열 분석, 분류, 클러스터링 등이다. R은 유닉스와 윈도우, 맥OS에서 사용할 수 있다.

태블로 퍼블릭
태블로 퍼블릭(Tableau Public)은 데이터 분석과 시각화 애플리케이션이다. 인터랙티브 데이터를 웹에 게시할 수 있다. 태블로의 무료 버전은 데이터 스토리지가 1GB, 100만 열로 제한된다. 그러나 단순하고 직관적이어서 널리 사용되는 데이터 분석 툴 중 하나로 자리를 잡았다.

태블로 퍼블릭은 구글 시트, 마이크로소프트 엑셀, CSV 파일, JSON 파일, 통계 파일, 공간 파일, 웹 데이터 커넥터와 오픈데이터프로토콜(OData) 등으로부터 데이터를 끌어와 마이닝할 수 있다. 인터랙티브 차트와 그래픽, 지도를 만들어 소셜 미디어나 사이트에 내장해 서비스할 수도 있다. 태블로 퍼블릭은 윈도우와 맥OS에서 사용할 수 있다.



트리팩타 랭글러
트리팩타 랭글러(Trifacta Wrangler)는 데이터 애널리스트가 다양한 소스에서 끌어온 복합적인 데이터를 정제하고 관리할 수 있는 앱이다. 일단 데이터세트를 트리팩타 랭글러에 추가하면 자동으로 데이터를 정리해 구조화한다. 머신러닝 알고리즘을 이용해 변환과 통합을 거쳐 더 상세한 분석이 가능한 상태로 만들어준다.

트리팩타 랭글러는 마이크로소프트 엑셀, JSON 파일, CSV 파일 등에서 데이터를 불러올 수 있다. 또한 놓치거나 잘못 연결되거나 일관성이 없는 열이 어느 정도나 되는지 알려주는 데이터 프로파일을 만든다. 각 데이터 포인트의 날짜, 시간, 스트링, IP 주소 등을 기준으로 시각적으로 카테고리로 나누는 기능도 지원한다. 트리팩타 랭글러는 최대 100MB까지 데이터를 처리할 수 있으며, 윈도우와 맥OS에서 사용할 수 있다. ciokr@idg.co.kr 

2018.05.08

"가자, 데이터의 세계로" 무료 애널리틱스 툴 7선

Matt Kapko | CIO
방대한 데이터 더미 속에 숨겨진 인사이트를 찾으려는 기업이 늘어나면서 데이터 애널리틱스의 중요성도 커지고 있다. 적절한 애널리틱스 툴을 이용하면 고객과 사업에 대한 매우 값진 관점을 확보할 수 있다. 이런 툴은 다양한 소스로부터 데이터를 받아 정리하고 분류한 후 통계적 결론을 도출한다.

데이터 애널리틱스 툴을 비교 검토할 때 기업이 고려해야 할 요소는 매우 다양하다. 그러나 적절한 애플리케이션을 찾아 그 기능을 효율적으로 이용하면 큰 효과를 볼 수 있다. 여기서는 현재 사용할 수 있는 다양한 무료 데이터 애널리틱스 소프트웨어를 비교했다. 장점과 강점을 분석했고 업계 전문가의 검토를 받았으며 다양한 시장조사업체의 순위 자료도 참고했다. 그 결과 다음 7가지 무료 툴을 최종 선정했다. 순서는 알파벳 순이다.



데이터멜트
데이터멜트(DataMelt)는 '디멜트(DMelt)'라고 불리기도 한다. 대용량 데이터에 대한 통계 분석과 시각화를 지원하는 플랫폼이다. 이 프로그램은 주로 자연과학과 엔지니어링, 금융 시장 관련 모델링과 분석에 사용된다. 파이썬과 빈쉘(BeanShell), 그루브(Groovy), 루비, 자바 등 다양한 프로그래밍 언어를 지원한다.

데이터멜트의 장점은 다이내믹 스크립팅은 통해 방대한 라이브러리를 사용할 수 있다는 것이다. 연산과 시각화를 담당하는 자바 클래스가 4만개 이상이고 파이썬 모듈도 500개가 넘는다. 더 전문적인 기능은 개발자 또는 상용 라이선스가 필요하지만 무료 버전에도 데이터를 탐색, 분석, 시각화하는 핵심 기능이 다수 포함돼 있다. 윈도우와 리눅스, 맥OS, 안드로이드 기기를 지원한다.

나임 애널리틱스 플랫폼
나임 애널리틱스 플랫폼(KNIME Analytics Platform)을 이용하면 비주얼 프로그래밍을 통해 데이터를 관리, 분석하고 모델링할 수 있다. 1000개 이상의 모듈과 바로 사용할 수 있는 수백개 예제가 포함돼 있다. 데이터에 숨겨진 잠재적 인사이트를 찾아내고 머신러닝을 통해 미래를 예측할 수 있는 다양한 툴도 내장돼 있다.

나임은 코드를 직접 쓰는 대신 작업 간의 연결점을 드래그 앤 드롭 방식으로 프로그래밍한다. 또한 단일 시각화 워크 플로우 내에서 심플 텍스트 파일과 데이터베이스, 문서, 이미지, 네트워크와 하둡기반 데이터 등에 대한 데이터 블랜딩을 지원한다. 오픈소스이며 연 2회 새 버전이 나온다. 윈도우와 맥OS, 리눅스 기기에서 사용할 수 있다.



오픈리파인

오픈리파인(OpenRefine)의 본래 명칭은 구글 리파인(Google Refine)이었다. 관리하지 않았던 다양하고 복잡한 데이터를 처리할 수 있는 툴이다. 구글은 지난 2012년 이 프로젝트를 중단했지만 자발적인 개발자들에 의해 정기적으로 업데이트되고 있다. 오픈리파인은 클린징, 변환, 포맷팅 등 다양한 데이터 작업을 처리한다. 이를 통해 분석과 탐색에 더 적합한 데이터로 바꿔준다. 또한, 외부 웹서비스에서 데이터를 가져와 통합하고 일치시킨다.

오픈 리파인은 다양한 데이터베이스에 사용할 수 있는 최고의 툴은 아니다. 그러나 예측 모델링을 위해 데이터 클린징에 막대한 시간을 쓰고 있는 애널리스트에게는 매우 요긴하다. 윈도우와 맥OS, 리눅스에서 사용할 수 있다.

오렌지
오렌지(Orange)는 오픈소스 데이터 분석 및 시각화 툴이다. 슬로베니아의 류블랴나대학에서 개발했다. 터미널 윈도우에서 비주얼 프로그래밍이나 파이썬 스크립트로 데이터 작업을 할 수 있다. 통계적 분포와 박스 플롯, 스케터 플롯 등을 확인하고, 의사결정 분지도(decision trees), 계층 클러스터링, 히트맵 등으로 고급 분석을 수행하는 것이 대표적이다.

오렌지의 장점은 그래픽 인터페이스다. 덕분에 코딩 대신 데이터 분석에 집중할 수 있다. 머신러닝 컴포넌트와 외부 데이터에 대한 마이닝을 강화하는 애드온도 충실하다. 자연어 처리, 텍스트 마이닝, 바이오인포매틱스, 네트워크 분석, 룰 마이닝 등에 적합하다. 윈도우와 맥OS, 리눅스를 지원한다.



R
R 프로그래밍 언어는 통계 방법론 연구에 광범위하게 사용된다. 데이터 처리와 연산, 시각화를 모두 지원하는 통합 스위트라는 장점이 있다. 핵심 통계 기능은 선형/비선형 모델링, 전통적인 통계 검정, 시계열 분석, 분류, 클러스터링 등이다. R은 유닉스와 윈도우, 맥OS에서 사용할 수 있다.

태블로 퍼블릭
태블로 퍼블릭(Tableau Public)은 데이터 분석과 시각화 애플리케이션이다. 인터랙티브 데이터를 웹에 게시할 수 있다. 태블로의 무료 버전은 데이터 스토리지가 1GB, 100만 열로 제한된다. 그러나 단순하고 직관적이어서 널리 사용되는 데이터 분석 툴 중 하나로 자리를 잡았다.

태블로 퍼블릭은 구글 시트, 마이크로소프트 엑셀, CSV 파일, JSON 파일, 통계 파일, 공간 파일, 웹 데이터 커넥터와 오픈데이터프로토콜(OData) 등으로부터 데이터를 끌어와 마이닝할 수 있다. 인터랙티브 차트와 그래픽, 지도를 만들어 소셜 미디어나 사이트에 내장해 서비스할 수도 있다. 태블로 퍼블릭은 윈도우와 맥OS에서 사용할 수 있다.



트리팩타 랭글러
트리팩타 랭글러(Trifacta Wrangler)는 데이터 애널리스트가 다양한 소스에서 끌어온 복합적인 데이터를 정제하고 관리할 수 있는 앱이다. 일단 데이터세트를 트리팩타 랭글러에 추가하면 자동으로 데이터를 정리해 구조화한다. 머신러닝 알고리즘을 이용해 변환과 통합을 거쳐 더 상세한 분석이 가능한 상태로 만들어준다.

트리팩타 랭글러는 마이크로소프트 엑셀, JSON 파일, CSV 파일 등에서 데이터를 불러올 수 있다. 또한 놓치거나 잘못 연결되거나 일관성이 없는 열이 어느 정도나 되는지 알려주는 데이터 프로파일을 만든다. 각 데이터 포인트의 날짜, 시간, 스트링, IP 주소 등을 기준으로 시각적으로 카테고리로 나누는 기능도 지원한다. 트리팩타 랭글러는 최대 100MB까지 데이터를 처리할 수 있으며, 윈도우와 맥OS에서 사용할 수 있다. ciokr@idg.co.kr 

X