Offcanvas

BI / 데이터센터 / 빅데이터 | 애널리틱스 / 스토리지

데이터브릭스, 데이터 마켓플레이스 시장 진출... 스노우플레이크 추격

2022.06.29 Anirban Ghoshal  |  InfoWorld
데이터브릭스는 새 데이터 마켓플레이스를 포함한 여러 기능이 데이터 엔지니어링 작업을 가속화할 것으로 기대한다고 전했다. 향후 데이터를 수익화할 수 있는 기능도 추가할 예정이라고 밝혔다. 
 
ⓒAdobe Stock Image

데이터 레이크 제공업체 데이터브릭스가 22일 데이터 커뮤니티 글로벌 이벤트 '데이터+ AI 서밋(Data + AI Summit)'에서 새로운 데이터 엔지니어링 기능과 데이터 마켓플레이스를 출시한다고 밝혔다. 이어 델타레이크를 오픈소스화한다는 발표도 뒤따랐다. 

앞으로 몇 달 안에 출시될 새로운 마켓플레이스로 기업은 테이블, 파일, 머신러닝 모델, 노트북, 대시보드와 같은 데이터 및 분석 자산을 공유할 수 있다고 회사 측은 말했다. 또한 이제 데이터 공유를 위해 클라우드 스토리지에서 데이터를 이동하거나 복제할 필요가 없어졌다고 설명했다. 

즉, 새 마켓플레이스를 이용하면 기업은 데이터 세트를 개발할 필요 없이 데이터 세트에 바로 접근할 수 있으며, 따로 대시보드를 새로 만들지 않고 데이터브릭스가 제공하는 애널리틱스 대시보드를 구독할 수 있다. 

마켓플레이스로 데이터 공유 및 수익화 
데이터브릭스는 데이터 자산을 공유하는 기업이 마켓플레이스를 통해 손쉽게 수익을 창출할 수 있다고 말했다. 새로운 마켓플레이스는 디자인과 전략 면에서 스노우플레이크(Snowfake)의 데이터 마켓플레이스와 유사하다고 몇몇 애널리스트는 평가했다. 
 
데이터브릭스 마켓플레이스. ⓒDatabricks

아말감인사이츠(Amalgam Insights)의 수석 애널리스트 박현은 "스노우플레이크를 포함한 주요 엔터프라이즈 플랫폼이 진정한 플랫폼으로 거듭나려면 제대로 된 애플리케이션 생태계를 갖추는 것은 필수다. 데이터브릭스도 마찬가지다. 데이터 자산 분야에서 주요 플레이어가 되고자 하는 듯 보인다. 델타레이크에 데이터 애널리틱스를 구축하려는 ISV와 애플리케이션 개발자에게 좋은 기회라고 생각된다"라고 전했다.

컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨센은  데이터브릭스와 스노우플레이크를 비교하면서, 현재 형태의 데이터브릭스의 마켓플레이스는 통합 및 데이터 수익화 지원을 제공하는 스노우플레이크와 달리 내·외부적으로 데이터 공유만 다루는 초기 단계라고 언급했다.

데이터브릭스는 새로운 보안 환경인 데이터 클린룸(Data Cleanroom)도 소개했다. 다른 기업과 데이터를 공유하는 방식의 보안을 강화하는 것이 목적이다. 회사는 앞으로 몇 달 안에 이 기능을 출시할 예정이라고 밝혔다. 

데이터브릭스에 따르면, 데이터 클린룸은 먼저 개인 식별 가능 정보를 익명화한 뒤에 처리 및 저장한다. 이 과정에서 향후 개인 정보 보호 규정을 위반하지 않는 방식으로 변환할 수 있도록 데이터가 저장된다.  

회사는 또한 데이터 클린룸을 사용해 복제 없이 전사적으로 데이터를 공유하고 결합할 수 있다고 언급했다. 아울러 기업이 파이썬, R 및 스칼라(Scala)를 포함한 SQL 및 데이터 과학 도구를 모두 사용하여 복잡한 컴퓨팅 및 워크로드를 실행하는 클라우드 기업 및 파트너와 협업할 수 있는 유연성을 제공한다고 데이터브릭스는 덧붙였다. 

박현 애널리스트는 "개인정보 규정 준수 지원은 흥미로운 아이디어"라며 "규제 가이드라인이 엄격한 금융서비스, 정부, 법률, 의료 분야가 중요한 시험대가 될 것"이라고 말했다. 

데이터 엔지니어링 및 관리 도구 업데이트
또한 데이터브릭스는 데이터 엔지니어링 도구에 몇 가지 기능을 추가했다. 새로운 도구 중 하나인 엔자임(Enzyme)은 올 4월 회사가 출시한 델타 라이브 테이블(Delta Live Tables)에서 추출, 변환, 로드(ETL) 프로세스를 가속화하는 새로운 최적화 레이어다.

벤타나 리서치(Ventana Research)의 리서치 디렉터 맷 애슬렛은 "최적화 레이어는 쿼리 플랜과 데이터 변경 요구 사항 분석을 결합해, 델타 라이브 테이블 기반의 자동화된 증분 데이터 통합 파이프라인(incremental data integration pipelines)을 지원하는 데 초점이 맞춰져 있다"라고 설명했다.

헨첸은 이 레이어가 "많은 고객이 기대했던 요구사항을 충족시킨다”라며 “기존 데이터 웨어하우스 및 데이터 마켓플레이스 플랫폼 시장에서의 경쟁력이 더 높아질 것”이라고 말했다. 

데이터브릭스는 또한 델타 레이크 플랫폼에서 ‘프로젝트 라이프스피드(Project Lightspeed)’로 불리는 차세대 스파크 구조 스트리밍(Spark Structured Streaming)을 발표했다. 확장된 커넥터 생태계를 사용함으로써 비용을 절감하고 대기 시간을 단축하는 것이 목적이라는 게 회사 측의 설명이다. 

회사에 따르면 델타레이크란 데이터 스토리지 및 애널리틱스를 모두 제공하는 아키텍처기반의 데이터 레이크하우스다. 이는 데이터를 네이티브 형식으로 저장하는 데이터 레이크나 빠른 쿼리를 위해 구조화된 데이터(종종 SQL 형식)를 저장하는 데이터 웨어하우스와는 대조된다고 회사는 설명했다. 

애슬렛은 "데이터 스트리밍은 데이터브릭스가 다른 데이터 레이크하우스 업체들과 차별화되는 분야다. 스트리밍 데이터와 이벤트를 기반으로 한 실시간 애플리케이션이 주류가 되면서 더 큰 관심을 받고 있다"라고 말했다.

박 애널리스트는 스파크의 차세대 버전이 애널리틱스 및 기계 학습용 소형 데이터 소스를 지원하고자 하는 데이터브릭스의 노력이 증가하고 있음을 나타낸다고 분석했다. "머신러닝은 더 이상 대규모 빅데이터용 도구가 아니다. 이제 실시간 및 분산 데이터에 대한 중요한 피드백 및 경고를 제공하는 메커니즘의 역할도 한다"라고 그는 말했다. 

또한 데이터브릭스는 기업의 데이터 거버넌스를 위한 유니티용 데이터 리니지 카탈로그(Data Lineage for Unity Catalog)를 출시했다. 이 카탈로그는 향후 몇 주안에 AWS와 애저에서 사용 가능하게 될 것이라고 회사 측은 밝혔다. 

가트너의 전 빅데이터 및 애널리틱스 담당 연구 부사장이었던 산지브 모우한은 "유니티 카탈로그의 출시 덕분에 파일, 테이블 및 ML 모델과 같은 레이크하우스 리소스의 보안 및 거버넌스 측면을 크게 개선할 수 있을 것이다. 이는 민감한 데이터를 보호하는 데 필수적이다"라고 설명했다. 

여기에 더해 회사는 데이터브릭스 SQL 서버리스(Databricks SQL Serverless, AWS용)도 출시했다. 레이크하우스에서 클라우드 인프라를 유지, 구성 및 확장할 수 있는 총체적 관리 서비스를 제공한다고 회사 측은 전했다. 

이 밖에 발표된 새로운 기능에는 데이터브릭스 SQL에 대한 쿼리 연합 기능과, 사용자가 로컬 컴퓨터에서 직접 쿼리를 실행하도록 지원하는 SQL CLI의 새 기능이 있다. 새 쿼리 연합 기능을 사용하면 개발자와 데이터 과학자가 소스 시스템에서 데이터를 추출하고 로드할 필요 없이 포스트그레SQL(PostgreSQL), 마이SQL(MySQL), AWS 레드시프트(AWS Redshift) 같은 원격 소스에서 데이터를 쿼리할 수 있다고 회사 측은 설명했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.