Offcanvas

빅데이터 | 애널리틱스 / 클라우드

‘일관성·유연성’ 덕에 각광… 데이터 레이크하우스 활용 사례

2022.07.11 Maria Korolov  |  CIO
데이터 레이크하우스는 데이터 웨어하우스의 일관성와 데이터 레이크의 유연성을 모두 누릴 수 있게 해준다. 수집하고자 하는 모든 데이터를 최대한 활용할 수 있게 해주는 다용도 도구로서 각광받고 있다. 
 
ⓒDepositphotos

보유한 데이터를 최대한 활용하고자 하는 기업들 사이에서 데이터 레이크하우스(Data Lakehouse)라는 개념이 유행하고 있다. 

데이터 레이크하우스의 핵심은 데이터 레이크(Data lake)와 데이터 웨어하우스(Data warehouse) 각각의 장점을 결합한 것이라고 가트너 애널리스트 아담 론달은 설명했다. 

데이터 웨어하우스의 특징은 명확하게 정의된 스키마를 설정할 수 있게 해준다는 점이다. 따라서 대량의 데이터를 구조화하여 저장하기 원하는 기업에게 적합하다. 다중의 쿼리를 동시에 지원하고, 한 번에 여러 사용자에게 결과값을 신속하게 전달하도록 설계됐다.  

반면, 데이터 레이크는 회사의 데이터 애널리스트를 위해 가공되지 않은, 다양한 형식의 로우(raw) 데이터를 수집하기 원하는 기업에게 적합하다. 먼저 데이터의 활용 목적을 정하지 않고도 일단 대규모의 데이터 스트림을 저장해 놓을 수 있다는 유연성에 힘입어 광범위한 데이터 풀을 구축하는 기업들이 채택하곤 한다.  

론달은 이 두 가지 데이터 저장 방식이 “레이크하우스 개념으로 융합되고 있다”라고 설명했다. 기존의 몇몇 데이터 웨어하우스 제공업체는 비정형 데이터를 관리하는 기능을 추가했고,  데이터 레이크 제공업체도 서비스에 구조화 기능을 선보이는 움직임을 보이고 있다.
 
대표적인 사례는 AWS의 레드시프트(Amazon Redshift) 데이터 웨어하우스 서비스다. 2017년에 AWS는 레드시프트를 아마존 레드시프트 스펙트럼(Amazon Redshift Spectrum)과 페어링하여 아마존의 비정형 S3 데이터 레이크에 접근할 수 있는 기능을 선보였다. 아울러 데이터레이크 제공업체 스노우플레이크(Snowflake)는 최근 외부 테이블의 비정형 데이터를 지원하기 시작했다.  

데이터 레이크 서비스와 데이터 웨어하우스 서비스를 별도로 이용하면 여러 불편함이 나타난다고 론달은 설명했다. 더 많은 비용과 시간이 소요됨은 물론 각 저장소 간 데이터를 이전할 시 지연이 발생한다. 따라서 이 두 형태의 저장소를 하나의 플랫폼으로 결합하면 비용과 데이터 이전 시간을 모두 줄일 수 있다는 설명이다. 결과적으로 데이터에서 인사이트가 추출되는 시간도 빨라진다. 

그리고 플랫폼에 따라 데이터 레이크하우스는 데이터 스트리밍, 머신러닝, 협업 등의 데이터를 다방면으로 활용할 여러 도구도 제공한다. 데이터 레이크하우스를 발빠르게 도입한 기업들이 어떻게 이러한 이점을 데이터 분석 전략에 활용하는지 살펴본다. 

세가 유럽(Sega Europe)의 활용사례: 넘쳐흐르는 게임 데이터, 레이크하우스로 실시간 분석
비디오 게임 회사 세가 유럽이(Sega Europe)이 게임 사업을 운영하는 데 있어 데이터 저장소가 차지하는 비중은 지난 몇 년 동안 크게 늘어났다.

2016년에 회사는 축구 운영 시뮬레이션 게임 풋볼 매니저(Football Manager)의 사용자 이벤트(user event) 데이터를 수집하고자 아마존 레드시프트 데이터 웨어하우스 서비스를 쓰기 시작했다. 처음에 수집한 이벤트는 단순히 플레이어가 게임을 실행하고 종료하는 행동만 포함했다. 이 데이터의 분석을 맡은 직원은 2명에 불과했고, 레드시프트에 스트리밍되는 데이터의 양은 초당 10건에 그쳤다. 

세가 유럽의 데이터 서비스 책임 펠릭스 베이커는 “훨씬 더 많은 데이터를 수집할 수 있다는 것을 알고 있었다. 더 많은 인력과 자원만 투자하면 되는 일이었다”라고 전했다. 

그에 말대로 시간이 지나면서 데이터의 양은 급증했다. 2017년에 초당 800건, 2020년에는 초당 7,000건으로 불어났다. 30개의 세가 게임에서 스트리밍되는 데이터를 분석하는 직원도 25명으로 늘어났다. 

이쯤 되자 시스템이 한계에 부딪히기 시작했다고 베이커는 말했다. 데이터 웨어하우스가 요구하는 특정한 구조 때문에 데이터가 무더기로 스트리밍되었고, 분석되는 데만 30분에서 1시간의 시간이 걸렸다. 

“데이터 분석 시간이 너무 길었다. 우리는 실시간으로 분석 결과값을 즉각 얻고 싶었다. 그러나 당시에 회사가 쓰던 레드시프트 서비스로는 불가능한 일이었다”라고 그는 회상했다. 

그래서 회사는 분석 속도를 높이기 위해 레드시프트, 스노우플레이크, 그리고 데이터브릭스(Databricks) 플랫폼을 모두 테스트했다. 그 결과 데이터브릭스에 정착하기로 했다. 참고로 데이터브릭스는 데이터 레이크하우스 서비스를 처음 시작한 회사 중 하나다. 

베이커는 “데이터브릭스를 선택한 이유는 바로 사용 가능한 관리형 서비스였기 때문이다. 우리가 아무것도 개발할 필요 없이 필요한 작업을 수행할 수 있다는 점이 가장 큰 장점으로 다가왔다”라고 설명했다. "실시간 스트리밍 데이터 분석뿐만 아니라 머신러닝 및 협업 웨크스페이스 같은 기능이 제공된다는 점도 매력적인 요소였다"라고 그는 덧붙였다. 
 
여기에 더해 데이터브릭스의 데이터 레이크하우스 아키텍처를 사용해 회사는 소셜 미디어 등과 같은 출처에서 비정형 데이터를 수집할 수도 있게 됐다고 그는 전했다. 

베이커는 “레드시프트를 쓸 때는 스키마 설계에 집중해야 했고, 모든 테이블에 구조가 설정되어야만 데이터를 수집이 가능해 여러모로 불편했다. 반면 데이터 레이크하우스를 쓰기 시작하자 데이터 관리 작업이 한결 더 편해졌다”라고 설명했다. 
 
세가 유럽의 데이터브릭스 플랫폼은 2020년 중반부기부터 가동됐다. 2~3명의 데이터브릭스 소속 컨설턴트가 6~7명의 세가 유럽 직원과 협력하여 스트리밍 솔루션을 설치하고 운용했다. 레드시프트에서 이용했던 솔루션과 매치시키는 방식을 사용해 호환성을 보장했다. 이렇게 구축된 레이크하우스는 3개의 레이어로 구성됐으며, 1단계의 레이어는 하나의 큰 테이블로 모든 데이터를 마구잡이로 쌓아 놓는 곳이다. 

베이커는 “개발자가 새로운 이벤트를 생성하더라도 이를 위한 새로운 데이터 필드를 만들지 않아도 된다. 그냥 모든 데이터를 전송하면 된다”라며 “ 이후 상위 레이어에서 작업을 구성해 유용한 데이터만 추출하면 끝이다”라고 설명했다. 

게다가 세가 유럽은 애초부터 데이터브릭스로 전환하기 유리한 위치에 있었다. 회사는 이전에도 오픈소스 클러스터 프레임워크인 아파치 스파크(Apache Spark)로 데이터를 처리해본 경험이 있었다. 데이터브릭스가 바로 프레임워크를 기반으로 구축된 서비스였다. 때문이다. 

베이커는 “팀 내부에 이미 아파치 스파크에 대해 잘 알고 있는 엔지니어가 꽤 있었다. 그래서 이미 쌓아 놓은 역량으로 데이터 스트림을 단시간 안에 구현할 수 있었다”라고 말했다. 

그 결과 이제 데이터의 양과 분석에 투입되는 자원 모두 대폭 증가했다. 현재 30명이 넘는 직원이 100개가 넘는 게임에서 발생하는, 초당 2만 5,000건의 이벤트 데이터를 분석한다. 원래 30분에서 1시간이 걸렸던 분석 작업이 단 1분 안에 완료된다. 

베이커는 “수집되는 데이터의 양이 어마어마하게 많아졌다. 팬데믹 이후 몇몇 게임의 사용량은 2배 더 증가해 데이터양을 더 증폭시켰다”라고 밝혔다. 

재미있는 가능성 
또한 새로운 플랫폼은 새로운 가능성을 열어줬다. 예컨대 세가 유럽은 게임 방송 플랫폼 트위치(Twitch)와 협력해 휴먼카인드(Humankind)라는 게임의 데이터 스트림을 구축했다. 그 결과 트위치 시청자에게 플레이어가 달성한 레벨, 승리한, 전투, 정복한 문명 등의 기록이 실시간으로 보이는 새로운 시청 경험을 제공했다. 
 
세가 유럽이 스페셜 라이브 방송 이후 공개한 게임 데이터. ⓒTwitter

“게임을 방송하는 화면 위에 오버레이가 표시되면서 여러 게임 데이터가 실시간으로 업데이트되는 방식이었다. 데이터브릭스를 쓰기 전에는 구현할 수 없었을 것이다”라고 베이커는 전했다. 

회사는 레이크하우스의 머신러닝 기능도 활용했다. 일례로 데이터 과학자들은 플레이어가 게임 플레이를 중단하는 이유를 파악하고 유지율을 높이는 방법을 모색하는 머신러닝 모델을 고안해냈다.

베이커는 “이런 모델이 구축되는 엄청난 속도에 경탄했다. 게다가 이런 모델이 몇 주마다 계속 만들어진다”라며 놀라움을 표했다.

데이터 레이크하우스의 비즈니스적 가치 
이렇듯 데이터 레이크하우스는 유연성과 범용성에 힘입어 큰 인기를 얻고 있다. 특히 광범위한 데이터를 보유하고 있지만 효과적인 활용법을 찾지 못한 기업에게 더 유용하다. 데이터 자산으로 수익을 창출하려는 기업들이 디지털 이니셔티브 전략을 추진하면서 그 기반으로 삼기에 제격인 서비스라 인정받고 있는 추세다. 

컨설팅 기업 캡제미니 캐나다(Capgemini Canada)의 부사장 겸 인사이트 및 데이터 책임자 스티븐 카란은 “결국 데이터 레이크하우스의 가장 큰 가치는 비용 효율성이다. 기업의 정형 및 비정형 데이터를 모두 저장하고 관리할 수 있는 단일 소스를 제공하기 때문이다”라고 진단했다. 실제로 캡제미니 캐나다는 금융, 통신, 소매 분야의 대기업이 데이터 레이크하우스를 도입하는 것을 도운 바 있다.   

게다가 데이터 레이크하우스는 기성 비즈니스 인텔리전스 및 보고 시스템부터, 최신 기술인 머신러닝과 인공지능까지 광범위한 기술을 즉시 사용할 수 있는 방식으로 데이터를 저장한다고 카란은 설명했다. 그는 이 외에도 “데이터 중복 감소, IT 운영, 데이터 스키마 관리 및 데이터 거버넌스 간소화 같은 여러 이점이 있다”라고 덧붙였다.
 
특히 더 가치 있는 활용 사례는 오래됐거나 사일로화된 회사의 데이터 시스템에서도 비즈니스 가치를 창출해내는 것이다. 이를테면 10년에 걸쳐 인수합병으로 몸집을 키운 캡제미니의 한 고객사는 구형 시스템 때문에 리셀러와 관련된 중요한 데이터에 접근할 수 없어 골머리를 앓고 있었다.   

그는 “사일로화된 데이터를 구형 데이터 웨어하우스에서 중앙의 데이터 레이크하우스로 이전함으로써 이 고객사의 오랜 고민이 해결됐다”라며 “새로운 시스템을 활용하여 어떤 리셀러의 성과가 가장 높았는지를 비롯해 추천 프로그램과 구조 변화가 매출에 끼친 영향 등을 파악할 수 있게 됐다”라고 전했다. 

데이터 파이프라인 기업 파이브트랜(Fivetran)의 수석 제품 관리자 미에라 비스와나단은 모든 데이터를 단일화된 데이터 레이크하우스에 넣으면 관리가 훨씬 더 쉬워질 수밖에 없다고 설명했다. 기존에 데이터 레이크나 데이터 웨어하우스를 썼던 기업은 별도의 팀이 담당하는 경우가 잦기 때문이다. “정작 데이터를 활용해야 하는 사업부의 직원들이 당황하는 경우가 빈번했다”라고 그는 말했다.  
 
빅레이크 온 구글 클라우드 플랫폼. ⓒGoogle Cloud

데이터브릭스, 아마존 레드시프트 스펙트럼, 스펙트럼 외에도 다른 데이터 레이크하우스 제공업체로는 레드시프트 플랫폼 애저 시냅스(Azure Synapse)를 가진 마이크로소프트(Microsoft), 빅레이크 온 구글 클라우드 플랫폼(BigLake on Google Cloud Platform)을 가진 구글, 데이터 레이크하우스 플랫폼 스타버스트(Starburst) 등이 있다.

IQVIA의 활용사례: 효과적인 데이터 관리로 사람의 생명까지 구한다   
데이터 레이크하우스의 이점을 활용해 가치를 창출하는 또 다른 기업은 생명공학 애널리틱스 및 서비스비즈니스를 펼치는 IQVIA다. 

IQVIA의 임상 데이터 분석 책임자 웬디 모라한은 팬데믹 이전의 제약 회사는 약물 임상 실험에 필요한 데이터를 수집하고자 직접 직원을 병원과 기타 현장으로 파견했다고 전했다. “환자의 안전을 지키기 위해서는 이렇게 고군분투해야 했다”라고 그는 말했다. 

그러나 팬데믹 이후 현장이 봉쇄되면서 제약 회사들은 필요한 데이터를 얻기 위한 다른 방법을 찾아야 했다. 게다가 규정은 준수하면서, 잠재적인 문제점을 신속하게 찾아낼 수 있으며 빠르게 진행될 수 있는 데이터 수집 방식이 필요했다. 

이에 더해 의료 분야에서 웨어러블 장치가 등장하면서 “수십만 개의 데이터 포인트가 추가됐다”라고 모라한은 덧붙였다. 
 
스노플레이크는 올해 3월 '의료 및 생명과학 데이터 클라우드 플랫폼(Healthcare & Life Sciences Data Cloud)'을 발표했다. ⓒSnowflake

IQVIA는 지난 20년 동안 이런 방대한 양의 데이터를 수집하는 기술을 개발해왔다고 임상 데이터 분석 책임자 수하스 조시가 말했다. 약 4년 전부터 회사는 개발 과정의 일환으로 데이터브릭스 같은 기업의 데이터 레이크하우스 서비스를 도입하기 시작했다. 또한 최근 출시된 스노플레이크의 데이터레이크 기능도 같이 활용하고 있다. 

조시는 “스노우플레이크와 데이터브릭스 덕에 비정형 데이터를 어떤 형태로든 저장할 수 있게 됐다. 수많은 양의 이미지와 오디오 데이터를 다뤄야 하는데, 이 모든 데이터를 건강 모니터링에 활용한다. 이러한 서비스를 도입하기 전에 몇몇 작업은 여러 시스템을 오가며 수작업으로 처리해야 했다. 하지만 도입 후 하나의 플랫폼에서 모든 작업을 수행하게 돼 훨씬 더 간편해졌다”라고 설명했다. 

데이터 수집 과정 자체도 더 빨라졌다고 그는 밝혔다. 과거에는 데이터를 얻으려 코드를 작성해야 했지만, 지금은 데이터베이스 형식에 맞추지 않고도 데이터를 분석할 수 있다. 

이러한 역량이 왜 중요한지는 몇몇 환자의 사례를 통해 알 수 있다. 가령 임상 약물 실험에 참가하고 있는 환자가 한 명이 임신 중이었다는 사실이 검사 결과에서 드러난 적이 있었다. 임신 여부 확인서를 제대로 작성하지 않은 것이 원인이었다. 해당 약물이 임산부의 건강에 악영향을 끼칠 수도 있었기에 중대한 사고였다.

또 다른 예로, 혈압약을 복용해야 함에도 데이터 시스템상의 알 수 없는 착오로 인해 약을 처방받지 못한 환자도 있었다.

이렇듯 각종 건강 관련 데이터를 모두 수집하여 연동하는 것은 따라서 매우 중차대한 일이다. “[데이터를 제대로 수집하고 분석하지 않으면] 환자의 목숨이 위태로워지는 사태까지 일이 번질 수 있다”라고 그는 강조했다. ciokr@idg.co.kr
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.