Offcanvas

CIO / 개발자 / 애플리케이션 / 클라우드

데이터브릭스, 데이터 엔지니어링용 새 버전 출시

2017.04.14 Thor Olavsrud  |  CIO
호스팅 형태의 스파크(Spark) 환경을 서비스하는 데이터브릭스(Databricks)가 '데이터 엔지니어링용 데이터브릭스(Databricks for Data Engineering)'를 발표했다. 데이터 엔지니어가 실제 비즈니스용 데이터 파이프라인을 구축할 수 있는 아파치 스파크 기반 클라우드 플랫폼의 새로운 버전으로, 특히 데이터 엔지니어링 워크로드에 최적화됐다.



데이터브릭스는 아파치 스파크(빅데이터 분석 기술로, 2014년 첫 버전 1.0 출시)의 창시자 알리 고디시가 설립한 업체로, 이미 클라우드 플랫폼에서 데이터 과학 워크로드를 지원하고 있다.

데이터브릭스의 CEO겸 공동 설립자인 알리 고디시는 "현재 500개에 이르는 기업 고객과 5만명의 커뮤니티 에디션 사용자를 보유하고 있다. 이들 거의 모두가 SQL과 구조화된 스트리밍, ETL, 머신러닝 워크로드 등을 스파크에 통합해 실제 고객이 사용하는 서버 환경에서 데이터 파이프라인을 활용하는 방법을 찾고 있다"라고 말했다.

퍼지 데이터 정리
빅데이터 작업을 하다보면 일반적으로 왜곡되고 불확실하며 오류 가능성이 있는 데이터도 함께 다뤄야 한다. 스파크는 파이프라인을 구축해 이러한 데이터를 정리하고 정형화된 형태로 만든다.

고디시는 "스파크의 인터랙티브 API를 이용하면 데이터 세트를 탐색한 후 실제 고객이 사용하는 서버 환경의 데이터 파이프라인으로 구축할 수 있다. 이후에는 사람이 관여할 필요 없이 자동으로 반복하며 데이터를 관리한다. 데이터 엔지니어링용 데이터브릭스으로 파이프라인을 구축하면 기존 제품보다 50~75% 비용 절감 효과를 볼 수 있다"라고 말했다.

새로운 데이터브릭스의 특징은 다음과 같다.

- 성능 최적화 : 데이터브릭스 I/O(DBIO) 기술은 최적화된 AWS S3 엑세스 레이어와 더불어 광범위한 인스턴스 유형에 알맞게 조정되고 최적화됐다. DBIO는 데이터 탐색 속도를 최대 10배 높인다.
- 비용 절감 : 자동 확장, AWS 스팟 인스턴스와 같은 클러스터 관리 기능을 지원해 복잡한 스파크 인프라 구축, 구성 및 유지관리 작업에 드는 소모적인 시간을 줄여 운영비용을 절감한다. 워크로드 계산에 필요한 최적의 시스템 수를 자동으로 파악한다. 고디시는 "이제 더 이상 얼마나 많은 시스템이 필요한지 오랜 시간 힘들게 고민할 필요가 없다"라고 말했다.
- 통합 최적화 : REST API 세트를 제공해 클러스터와 작업을 프로그래밍 방식으로 시작하고, 아마존 레드시프트(Amazon Redshift: 클라우드 데이터 웨어하우스) 및 아마존 키네시스(Amazon Kinesis: 스트리밍 데이터 처리 서비스)에서부터 텐서플로우(TensorFlow: 구글 제품에 머신러닝을 적용하기 위한 오픈소스 소프트웨어 라이브러리)와 같은 머신러닝 프레임에 이르는 툴과 서비스를 통합할 수 있도록 지원한다.
- 엔터프라이즈 보안 : 데이터 엔지니어링용 데이터브릭스에는 턴키 보안 기준이 적용됐다. 개인정보보호 국제인증인 SOC2 -유형 1 인증과 미국의료정보보호법(HIPAA) 준수, 엔드투엔드 데이터 암호화, 디버깅을 위해 AWS S3에서 볼 수 있는 상세 로그, SAML 2.0 지원이 되는 싱글사인온(Single Sign-On)과 클러스터, 작업 및 노트북에 대한 직무 별 접근 권한 등과 같은 IT 관리자 기능을 지원한다.
- 데이터 과학 통합 : 플랫폼이 데이터브릭스의 데이터 과학 영역에 통합돼 데이터 엔지니어링과 인터렉티브 데이터 과학 워크로드간의 원활한 전환이 가능하다.

고디시는 특히 마지막 기능을 강조했다. 그는 "인터렉티브 계산(computation)과 실제 비즈니스용 파이프라인 간의 전환은 실제로 매우 어렵다. 많은 사람이 인터렉티브 분석을 하거나 아니면 데이터 파이프라인을 구축해야 한다고 생각한다. 그러나 이건 개발자 방식이라고 할 수 없다. 데이터 파이프라인을 구축하는 동시에, 데이터 탐색, 디버깅 및 테스트를 거쳐 데이터 파이프라인이 실제 작동하는지 확인해야 한다. 그러면서도 동시에 인터렉티브 분석이 필요하다"라고 말했다.


데이터 파이프라인과 인터렉티브 분석 간의 모드 전환
사람의 개입 없이 데이터 파이프라인을 순환 반복적으로 운영하고 있는데, 문제가 발생하면 추가 개발을 위해 인터렉티브 분석 모드로 원활하게 전환할 수 있어야 한다. 이에 대해 고디시는 "우리는 쉽고 원활하게 두 모드간의 전환이 가능하도록 지원한다"라고 말했다.

소비자에게 면도기를 정기 배송하는 스타트업 달러쉐이브클럽(Dollar Shave Club)의 데이터 엔지니어링 매니저인 브랫 비버는 "데이터 엔지니어링용 데이터브릭스 최신 버전은 통합 개발 환경과 배포(deployment) 파이프라인 모두에 적합한 플랫폼을 제공하여 스파크 사용을 매우 쉽게 해준다. 처음 사용하던 날부터 완전히 새로운 차원에서 데이터 문제를 해결할 준비가 되었다."라고 사용 소감을 밝혔다.

새로운 서비스는 즉시 이용할 수 있다. 가격은 ETL과 자동화된 작업(데이터브릭스 유닛 당 0.2 달러와 AWS 비용 합산)과 같은 데이터 엔지니어링 작업량에 따라 책정된다. ciokr@idg.co.kr 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.