세상에는 다양한 빅데이터 툴과 서비스가 있다. 지난 주 산호세에서 열린 스트라타 월드/하둡 월드쇼에서는 최신 오픈소스 데이터베이스 기술부터 이들을 관리할 툴에 이르기까지 다양한 제품들이 선보였다. 앞으로 시장을 주름잡을 최신 빅데이터 기술을 만나 보자. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
HD인사이트 R 서버와 스파크 최신 버전가격: R 서버 시작 가 40센트/노드/시간, 스파크 시작 가 32센트/노드/시간
주요 기능: HD인사이트 R 서버(R Server for HDInsight)는 마이크로소프트의 R서버를 HD인사이트 서비스로 구동한다. 하둡과 스파크(Spark) 로 오픈소스 R보다 1,000배 더 큰 데이터를 처리할 수 있으며 멀티 쓰레드 매스 라이브러리와 R 서버의 병렬처리로 50배가량 더 빠른 성능을 낼 수 있게 됐다. 더 자세한 정보는 여기 참조.
애저 데이터 카달로그주요 기능: 애저 데이터 카달로그(Azure Data Catalog)는 데이터 소스의 셀프서비스 발견을 허용하는 기업 메타데이터 카달로그 서비스다. 애널리스트, 데이터 과학자, 데이터 개발자들이 데이터 소스를 등록, 강화, 발견, 이해, 소비할 수 있도록 돕는다. 더 자세한 정보는 여기 참조.
워크로드 마이그레이션 1.0 & 데이터 블렌딩 1.0 주요 기능: 임페투스 워크로드 마이그레이션(Workload Migration)은 기존의 데이터 웨어하우스에서 하둡으로 더 쉽고 빠르게 데이터와 워크로드를 식별하고, 분석하며 전달할 수 있게 해 준다. 다수의 데이터 소스를 수집하여 데이터 소스의 믹스, 매치, 강화 등을 통해 더욱 강력하고 복합적인 워크플로우 파이프라인을 만들어 낸다. 더 자세한 정보는 여기 참조.
루커 블럭스(Blocks) 주요 기능: 루커(Looker)는 IBM 클라우드 데이터 서비스와의 협력을 통해 루커 블럭스를 제작할 계획임을 밝혔다. 블럭스는 IBM 클라우드 데이터 서비스를 사용하는 모든 기업 고객들이 더 간편하게 개별 요구사항에 맞는 데이터 분석을 할 수 있는 개발자 툴이다.
이는 심플 데이터 파이프(Simple Data Pipe) 앱에 대한 IBM의 비전을 완성시키는 툴이기도 한데, 루커와 심플 데이터 파이프 앱을 통해 대쉬DB로 이전된 데이터를 빠르게 변형할 수 있기 때문이다. 더 자세한 정보는 여기 참조.
트리팍타 엔터프라이즈와 포톤 컴퓨트 프레임워크 주요 기능: 포톤 컴퓨트 프레임워크(Photon Compute Framework)는 트리팍타(Trifacta) 인터페이스의 핵심이라 할 수 있는 기술 강화로 인-메모리 데이터셋에서 상호작용하고 지능적인 데이터 관리 경험을 제공한다. 더 자세한 정보는 여기 참조.
현재 아파치 스파크와 호환될 수 있는 탐의 데이터 통합 플랫폼주요 기능: 스파크와의 호환성 외에도 탐(Tamr)은 스파크로 구동되는 데이터 큐레이션 솔루션을 지원하기 위한 핵심 요소와 오픈 인터페이스 개발에 박차를 가하고 있다. 이 툴셋은 조달에서 고객 데이터 통합, 생명과학에 이르기까지 다양한 확장성 애플리케이션 개발을 지원하게 될 것이다. 더 자세한 정보는 여기 참조.
현재 아파치 스파크와 호환될 수 있는 탐의 데이터 통합 플랫폼주요 기능: 스파크와의 호환성 외에도 탐(Tamr)은 스파크로 구동되는 데이터 큐레이션 솔루션을 지원하기 위한 핵심 요소와 오픈 인터페이스 개발에 박차를 가하고 있다. 이 툴셋은 조달에서 고객 데이터 통합, 생명과학에 이르기까지 다양한 확장성 애플리케이션 개발을 지원하게 될 것이다. 더 자세한 정보는 여기 참조.
리프트 원 클러스터주요 기능: 리프트 원 클러스터(Ryft ONE Cluster)는 페타바이트 규모의 빅데이터 애널리틱스에 적합한 데이터센터 건축을 현대화 할 수 있는 효율적인 방법을 제공한다. 더 자세한 정보는 여기 참조.
어댑티브 데이터 프리퍼레이션 플랫폼주요 기능: 팍사타(Paxata)의 16년 봄 시즌 데이터 프레퍼레이션 플랫폼(Data Preparation Platform) 릴리즈에는 고급 필터 그램, 복합적 JSON/XML 데이터와 하둡 컴프레스드 파일의 스마트 통합, 데이터셋 전반의 모든 열과 셀에 대한 구체적인 서칭 등의 기능을 포함되어 있다. 더 자세한 정보는 여기 참조.
스트림 주요 기능: 스트림(Striim)은 기업 단계의 스트리밍 통합 및 인텔리전스 솔루션이다. 이 플랫폼은 실시간 데이터 통합, 기업 데이터베이스에서 하둡, 카프카, 클라우드 등으로 체인지 데이터 캡처(Change Data Capture)를 가능케 한다. 더 자세한 정보는 여기 참조.
엘라스틱 인테그레이션 플랫폼-2016년 겨울 릴리즈주요 기능: 스냅로직(SnapLogic)의 엘라스틱 인테그레이션 플랫폼(Elastic Integration Platform) 겨울 릴리즈에는 새로운 스파크 데이터 파이프라인 모드의 스크립팅 없이도 데이터 파이프라인을 스파크 데이터 프로세싱 프레임워크로 전환할 수 있는 기능이 추가됐다. 더 자세한 정보는 여기 참조.
클러스터GX(ClusterGX) 가격: 커뮤니티 에디션은 오픈소스로 무료로 다운로드 가능하다. 기업 에디션의 경우 아직 출시 전으로 가격이 정해지지 않았다.
주요 기능: 클러스터나 컨테이너, 하둡, 스파크를 써 본적 없어도 5분만에 도커 컨테이너로 하둡/스파크 클러스터를 만들 수 있다. 설치도 어렵지 않다. 일반 스마트폰 앱을 설치할 수 있을 정도면 충분하다. 더 자세한 정보는 여기 참조.
스트림 프로세싱 퀵 스타트 솔루션 주요 기능: 스트림 프로세싱 퀵 스타트 솔루션(Stream Processing Quick Start Solution)은 맵알 소프트웨어와 서비스를 합쳐놓은 것으로 용량이 큰 스트리밍 데이터를 처리하여 사물인터넷 애플리케이션을 쉽게 만들 수 있게 해 준다. 더 자세한 정보는 여기 참조.
그래프랩 크리에이트주요 기능: 그래프랩 크리에이트(GraphLab Create)는 머신러닝 모델과 예측 결과를 평가하고, 탐구하며, 설명하는 데 도움을 주는 툴이다. 머신러닝 모형과 그 예측 결과의 품질을 계량적으로 측정하고 대안과 비교할 수 있다. 왜 특정 모델링이 그렇게 예측했는지에 설명할 수 있기 때문에 개발자가 모델링의 의사 결정에 신뢰를 가질 수 있도록 해 준다. 더 자세한 정보는 여기 참조.
플랫포라 5.2 주요 기능: 플랫포라 5.2(Platfora 5.2)는 어떤 SQL 클라이언트라고 이를 통해 접근할 수 있는 타블로(Tableau), 렌즈-액셀러레이티드 SQL(Lens-Accelerated SQL)로 통합할 수 있다. 또 YARN과 고도화된 비즈보드(vizboard)를 이용해 하둡 클러스터에서 직접 구동할 수도 있다. 더 자세한 정보는 여기 참조.