Offcanvas

빅 데이터

"데이터 파이프라인 자동화" 데이터브릭스, 'DLT' 공개 

2022.04.08 Anirban Ghoshal  |  InfoWorld
데이터 통합 플랫폼 데이터브릭스(Databricks)가 새로운 ETL(추출, 변환, 로드) 프레임워크 '델타 라이브 테이블(Delta Live Tables; DLT)'을 공개했다. 이 프레임워크는 현재 마이크로소프트 애저, AWS, 구글 클라우드 플랫폼에서 GA 버전으로 사용할 수 있다
 

델타 라이브 테이블(DLT)은 신뢰할 수 있는 데이터 파이프라인을 구축하고, 관련 인프라를 대규모로 자동 관리하는 데 간단한 선언적 접근법을 사용한다. 이를 통해 데이터 엔지니어와 데이터 과학자가 복잡한 운영 작업에 소모하는 시간을 줄여준다는 게 회사 측 설명이다. 

컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨첸은 "데이터베이스 및 데이터 관리에서 테이블 구조는 일반적이다. 델타 라이브 테이블은 더욱더 자동화되고 코드 집약적인 방식으로 파이프라인의 작성, 관리, 일정을 지원하는 멀티클라우드 데이터브릭스 플랫폼을 위한 업그레이드다"라고 말했다. 

이어서 그는 "회사가 커질수록 모든 코드 작성 및 기술적인 문제로 어려움을 겪는 경우가 많다. 수많은 데이터 파이프라인을 구축, 유지관리, 실행해야 하기 때문이다"라면서, "델타 라이브 테이블은 데이터 파이프라인을 원활하게 유지하는 데 필요한 코딩, 관리, 최적화 작업의 많은 부분을 쉽게 만들고 아울러 자동화하는 것을 목표로 한다"라고 설명했다. 

데이터 레이크하우스의 초기 단계 
하지만 헨첸은 엔터프라이즈 환경에서 데이터레이크와 데이터 웨어하우스를 결합하는 플랫폼은 아직 초기 단계라고 언급했다. 그는 "기존 데이터레이크와 데이터 웨어하우스를 교체하기 보다 새로운 사용 사례를 위한 그린필드 배포와 테스트가 늘어나고 있다"라며, DLT는 오픈소스 아파치 아이스버그(Apache Iceberg) 프로젝트와 경쟁 관계에 있다고 덧붙였다. 

"데이터 관리, 특히 분석 데이터 파이프라인 분야에서 요즘 많은 관심을 받고 있는 또 다른 새로운 옵션은 아파치 아이스버그다. 아이스버그의 설립자가 만든 회사(Tabular)는 로우코드 개발 및 자동화와 동일한 이점을 제공하고자 하고 있다"라고 그는 전했다. 아이스버그는 이번주'빅레이크(BigLake)'라고 하는 새로운 데이터레이크 및 데이터 웨어하우스 결합 제품의 프리뷰로 이 오픈소스 테이블 형식을 채택하면서 주목을 받았다. 

한편 데이터브릭스는 ADP, 쉘(Shell), H&R 블록(H&R Block), 브래드 파이낸스(Bread Finance), 점보(Jumbo), JLL 등을 비롯해 전 세계 400개 기업에서 이미  DLT를 사용하고 있다고 밝혔다. ciokr@idg.co.kr
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.