Offcanvas

BI / 빅데이터 | 애널리틱스

일명 ‘쿼리 가속기’ 데이터 레이크하우스 활용 사례 4선

2022.08.23 Stan Gibson  |  CIO
쿼리 가속기(query accelerator)라고도 불리는 데이터 레이크하우스는 데이터에서 신속하게 인사이트를 도출해내 여러 산업에 걸쳐 다양한 용도로 활용되고 있다. 
 
ⓒDepositphotos

코로나19 팬데믹이 미국에서 기승을 부릴 때였다. 대형 약국 운영기업 월그린의 의약품 및 헬스케어 플랫폼 기술 담당 부사장 루이지 구아다뇨는 6,500만 개가 넘는 백신의 유통 업무를 도맡았다. 이를 위해 그는 마이크로소프트 애저 기반 데이터브릭스 기술로 구현된 회사의 데이터 레이크하우스를 활용했다.

그는 “먼저 상황을 파악하기 위해 레이크하우스를 활용했다”라고 말했다. 회사는 백신 잔여분과 환자 수요를 정확히 알아내야 했고, 때마침 기술적 기반이 갖춰져 있었다. 비슷한 비즈니스 목표를 위해 데이터 레이크하우스를 막 도입했던 시기였다. 구아다뇨는 “적재적소에 제품을 공급하자”라는 목표로 구축한 이 시스템이 팬데믹의 요건과 맞아떨어졌다고 전했다.

이전에 회사는 데이터 레이크로 이 목표를 이루려 했지만 비용과 시간이라는 두 가지 장애물에 직면했다. 이는 월그린스뿐만 아니라 대다수 기업이 겪는 문제다. 그 결과 최근에는 기업이 가치 있는 인사이트를 손쉽게 도출하도록 지원하는 새로운 기술 패러다임이 등장했다. 

일명 ‘쿼리 가속기’라 불리는 데이터 레이크하우스 
기존 기업은 데이터에서 인사이트를 도출하고자 크게 2가지 시스템을 동시에 운영해왔다. 비즈니스를 운영하고 BI를 수집하는 기록 시스템인 데이터 웨어하우스와 그 뒤에 나온 데이터 레이크다. 데이터 레이크는 AI·ML로 더 고도화된 인사이트를 제공하기 위한 용도로 사용되곤 한다.

하지만 이러한 이중체계가 지속 가능하지 않음을 체감하는 기업이 점점 늘어나고 있다.

데이터 웨어하우스에서 데이터를 정형화해 쿼리한 뒤 결과값을 얻으려면 ETL이라는 매우 긴 프로세스를 거쳐야 한다. 한편 데이터 레이크에서 인사이트를 도출하려면 비정형 데이터를 모조리 집어넣은 뒤 숙련된 데이터 과학자가 파이썬, 아파치 스파크, 텐서플로우 등의 툴로 수작업해야 한다. 
 
월그린스의 구아다뇨 부사장은 회사의 인사이트 시스템을 모두 데이터 레이크하우스에 통합시켰다. 이처럼 다른 많은 회사들도 데이터 레이크하우스로 전환하고 있다. 데이터 관리 툴분야의 시장 범주에서 레이크하우스는 쿼리 가속기(query accelerator)로 분류된다. 많은 회사가 쿼리를 쉽고 빠르게 할 수 있는 도구로 레이크하우스를 선택한 것이다.

가트너 부사장 겸 애널리스트 아담 론탈은 “레이크하우스는 데이터 레이크의 몇몇 단점을 보완하는 대안으로 등장했다. 레이크가 충분한 가치를 제공하지 못했다고 기업들이 느낀 듯하다”라고 말했다.

예를 들어 데이터브릭스의 델타 레이크 레이크하우스(Delta Lake Lakehouse)는 웨어하우스의 정형 데이터를 레이크에 추가하는 식으로 작동한다. 그다음 이 데이터가 레이크하우스에서 여러 단계의 최적화를 거쳐 인사이트 도출에 더 용이한 형태로 다듬어진다.
 
ⓒDepositphotos

가트너의 ‘애널리틱스 쿼리 가속화를 위한 시장 가이드(Market Guide for Analytics Query Accelerators.)’에 따르면 현재 레이크하우스 솔루션 업체는 수십 개에 달한다.  데이터브릭스 외에도 스노우플레이크(Snowflake), 스타버스트(Starbust), 드레미오(Dremio), 그리드게인(GridGain), 데이터로봇(DataRobot) 등 12개가 넘는 업체가 보고서에 소개됐다.

독일 금융회사 문페어: 드레미오 레이크하우스
독일의 사모펀드 금융회사 문페어(Moonfare)도 비즈니스 인텔리전스 및 예측 애널리틱스전용으로 설계된 데이터 레이크하우스로 전환 중이다. AWS 기반 포스트그레SQL 데이터 웨어하우스에서 드레미오 레이크하우스로의 전환이다.
 
2022년 하반기에 전환이 완료되면 기업 고객은 AWS S3의 데이터에 더해 자체 애널리틱스를 수행할 수 있게 된다고 업체 측은 설명했다. 예컨대 각 마케팅 캠페인의 효과, 기업 고객의 투자 현황, 펀드 매니저의 성과에 대한 결과값을 쿼리할 수 있다. 사기 방지에도 도움이 될 것이라고 업체 측은 덧붙였다. 

문페어의 데이터 엔지니어 안젤로 슬라윅은 “데이터 레이크에서 원하는 데이터를 직관적으로 쿼리할 수 있게 될 예정이다. 데이터 웨어하우스를 쓰던 이제 사용자는 데이터가 어디에 있는지 신경 쓸 필요 없다”라며 “또다른 장점은 ETL 프로세스가 더 이상 필요 없어진다는 점이다. 드레미오에서는 S3에 있는 데이터라면 무엇이든지 쿼리할 수 있다”라고 말했다. 

문페어는 드레미오를 도입하기로 결정하기 전 AWS 아테나(AWS Athena) 서비스와 비교 테스트를 시행했다고 전했다. AWS 아테나는 대화형 SQL 쿼리 서비스다. 슬라윅은 드레미오를 선택한 이유로 빠른 성능과 데이터 추세를 직관적으로 나타내는 인터페이스를 꼽았다. 여기에 더해 드레미오의 역할 기반 데이터 뷰 및 접근 관리 방식은 유럽 정부의 보안 및 거버넌스 준수 사항에 맞춰져 있었다. 독일 기업인 문페어에게 GDPR 규정 준수의 용이함도 매우 중요한 고려 사항이다. 

프랑스 대형은행 BNP파리바: 그리드게인의 아파치 이그나이트
프랑스 대형 금융기관 BNP파리바(BNP Paribas)에는 여러 팀이 산재된 데이터 사일로에서 BI를 수집하는 문제가 있었다. 프리랜서 데이터 애널리스트 엠마뉴엘 비젠펠트는 트레이더 등의 고객이 ‘단일 데이터 소스(single source of truth)’에서 자체 애널리틱스 쿼리를 실행할 수 있도록 데이터 체계를 재설계했다. 

비젠펠트는 “트레이딩 팀은 다른 팀과 협업하기 원했지만 데이터가 흩어져 있었다. 애널리틱스 툴도 제각각이었기 때문에 유지 비용이 상당했다”라며 “그래서 데이터 소스를 단일화해 실시간 현황을 더 명확하게 파악할 수 있도록 하고 싶었다. 이제 사용자는 스스로 데이터 쿼리 스크립트를 작성해 실행할 수 있다”라고 전했다.
 
비젠펠트가 사용한 도구는 그리드게인의 아파치 이그나이트(Apache Ignite) 기술이다. 인메모리(in-memory) 컴퓨팅 아키텍처를 구축해 ETL에서 ELT로 전환한 것이 핵심이다. ELT는 데이터 계산과 변환을 동시에 진행해 프로세스를 간소화한다. 그는 이 결과 처리 시간이 몇 시간에서 몇 초로 단축됐다고 전했다. 그는 이후 카와(Kawa)라는 스타트업을 창립해 다른 회사(특히 헤지 펀드 회사)을 비슷한 방식으로 돕고 있다.

스위스 의학 SW 회사 소피아 제네틱스: 스타버스트 메시 아키텍처 
미국 스타트업 스타버스트는 분산된 데이터의 접근성을 개선하고자 데이터 메시(data mesh) 접근 방식을 취한다. 오픈소스 기반의 트리노(Trino) 기술을 활용해 데이터를 중앙 웨어하우스로 전송할 필요 없이 그대로 접근하도록 한다. 

스타버스트의 스타버스트 엔터프라이즈(Starbust Enterprise) 플랫폼을 사용하는 기업 고객 중 하나는 스위스의 의학 소프트웨어 회사 소피아 제네틱스(Sophia Genetics)다. 이 회사는 클라우드 기반의 바이오인포매틱스 SaaS 애널리틱스 플랫폼을 운영한다. 메시 아키텍처 플랫폼을 쓰는 이유는 단 하나라고 회사는 설명했다. 규제 때문이다.
 
데이터 서비스 담당 이사 알렉산더 제홀저는 “규제 준수의 제약으로 단일 데이터 시스템은 선택지에 없었다”라고 설명했다.  

보완이냐 대체냐
이러한 쿼리 가속 솔루션 분야는 계속 진화 중이다. 가령 데이터브릭스와 스노우플레이크는 소매업과 의료업과 같은 특정 산업에서 기업 요구에 맞춤 설계된 데이터 클라우드 및 데이터 레이크하우스를 발표했다. 이러한 움직임은 하이퍼스케일러 업체인 애저, GCP, AWS가 도입한 산업별 클라우드 서비스와 궤를 같이한다.

애널리스트 론탈은 레이크에서 레이크 하우스로의 전환을 어느 정도 예상했다고 전했다. 론탈은 “이제 데이터 레이크하우스가 베스트 프랙티스로 여겨지는 분위기가 형성됐지만, 아직 많은 기업이 뒤쳐져 있다. 애초부터 데이터 레이크는 기업의 수요를 맞추기 어려운 방식이었다”라고 주장했다.

한편 웨어하우스를 레이크하우스 제품에 포함시키려는 업체가 많아지고 있음에도 가트너는 웨어하우스가 계속 시장에 남을 것이라고 전망했다. 가트너는 “쿼리 가속 서비스가 웨어하우스를 대체하지는 않을 것이다. 영업 및 기술직군의 요구사항을 더 효과적으로 충족해 데이터 레이크의 가치를 배가하는 역할로 자리잡을 것”이라고 결론지었다. 
 
ⓒDepositphotos

반면 포레스터 리서치의 부사장 겸 수석 애널리스트 노엘 유하나는 레이크하우스가 웨어하우스와 레이크를 대체할 것이라고 주장했다.

그는 “미래에는 웨어하우스와 레이크가 데이터 레이크하우스로 일원화되리라 본다. 하나의 시스템이면 충분하다”라고 말했다. 웨어하우스가 레이크가 분산되어 있는 기업의 경우 스타버스트 같은 업체가 제공하는 메시 아키텍처가 해법이 될 수 있다고 그는 덧붙였다. 산재된 데이터 소스의 연합 거버넌스(federated governance)를 가능케 하기 때문이다.

아울러 유하나는 기술적인 접근 방식도 중요하지만, 결국 중요한 건 기업이 데이터에서 더 신속하게 가치를 창출하는 온갖 방법을 모색하고 있다는 점이라 강조했다. “기업은 전방적인 고객 인사이트를 얻기 위해 오래 기다릴 수 없다. 지금 당장 필요하다. 이런 게 “빠른 데이터”다. 생성되자마자 애널리틱스를 거쳐 인사이트를 도출할 수 있어야 한다”라고 그는 설명했다. 

즉각 행동에 옮길 수 있는 데이터 시스템으로   
구아다뇨가 맡은 백신 유통 작업은 생명과 관련된 만큼 전 미국인이 주목한 중차대한 일이었다. 하지만 실상을 들여다보면 월그린스의 레이크하우스는 처방 알림 및 제품 쿠폰 발송 등 늘 상 해왔던 의약품 소매업무를 더 효과적으로 처리했을 뿐이다.
 
이런 작업은 별것 아닌 듯 보이지만 결코 단순하지 않다. 고객 행태를 최대한 정확히 가늠하고 의약품 및 기타 제품의 재고 상태를 확실히 파악해야 하기 때문이다. 구아다뇨는 “더 세세한 고객별 인사이트를 얻으려면 시스템의 복잡도는 그만큼 증가한다”라며 “하지만 이걸 해낸다면 정말 고객이 원하는 서비스를 제공할 수 있다”라고 설명했다.

그는 이와 비슷한 문제를 해결해야 하는 이들에게 다음과 같은 조언을 전했다. “장황한 데이터 모델링이나 합리화(rationalization) 같은 절차에 시간 낭비하지 말고 모든 데이터를 가능한 빨리 레이크하우스에 넣어라. 가치 창출이 최우선 사항이 되야 한다. 모든 데이터를 레이크하우스에 모아 거버넌스와 협업을 중심으로 모든 이해관계자가 접근할 수 있도록 하는 게 우선이다. 다시 말하지만 통합이나 ETL 같은 곳에 비용을 낭비하지 않길 바란다”.

월그린스가 데이터브릭스 레이크하우스가 쓰는 목적은 오직 효율성뿐만이 아니다. 전반적인 비즈니스 전략의 핵심이라고 구아다뇨는 전했다. 그는 “회사의 목표는 개인화다. 고객과의 접점에서 고객이 필요할 때 딱 원하는 상품을 구비해 놓는 것. 이게 회사가 생각하는 데이터의 궁극적인 용도다. 기록 및 인사이트용 데이터 시스템의 시대는 지났다. 데이터의 결과를 최대한 빨리 행동으로 옮기기 위한 시스템의 시대가 도래했다”라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.