데이터 레이크에 새롭게 주목해야 할 시점이다. 지금까지 기업들은 업무 프로세스를 지원하기 위해 ERP 등 시스템을 구축∙운영해 왔고, 이와 같은 레거시 시스템을 통해서 업무와 관련된 데이터가 발생해 왔다. 약 10년전 ‘빅데이터’라는 새로운 화두는 이처럼 업무를 담당하거나 운영을 지원하는 시스템에서 발생하는 데이터를 기업 의사결정에 접목하려는 목적으로 시작됐다. 이러한 목적에 있어 가장 근접한 ‘최신 기술 집약체’가 바로 ‘데이터 레이크’다. 데이터 레이크 분야에의 관심이 시장 성장으로 이어지고 있는 배경이다.
활성화 요인
데이터 레이크 시장이 뜨거워지는 주요 요인으로는 ▲ 데이터 활용 수요 증가, ▲ 데이터를 둘러싼 기술 발전, ▲ 데이터 기반 의사결정이라는 3가지 추세가 있다.
① 데이터 활용 수요 증가
데이터 레이크는 아직 가공되지 않은 데이터를 저장하기 때문에 보다 효율적으로 다양한 관점에서 분석을 진행할 수 있다. 한정된 데이터에 기반한 분석을 넘어서는 것이 가능하다. 예를 들어 스트리밍 데이터를 활용한 분석, 대규모 데이터와 다양한 언어(텍스트, 이미지 및 비디오 포함)를 활용하는 보다 세분화한 형태의 마케팅, 여러 변수를 활용하는 정확도 높은 수요 예측 등을 가능케 한다.
이렇게 데이터를 활용하면서 기업의 운영 역량(Operational Excellency) 개선 사례(business case)가 늘어나고 있다. 다양한 실증 사례가 여러 산업에서 출현하면서 데이터를 활용하여 비즈니스 프로세스를 운영하려는 필요성이 수요와 연계되어, 데이터 활용 니즈가 증가 추세에 있다.
② 데이터를 둘러싼 기술 발전
기존 관계형 DBMS와 같은 전통방식으로는 BI(Business Intelligence)기반 리포트와 대시보드, ad hoc 보고서 작성 위주라는 한계가 있음을 기업 주체들이 경험했다. 이로 인해 빠르게 급증하는 각종 산업 데이터를 저장하고 처리하기 위해 데이터 레이크를 적용하려는 기업이 점점 늘어나고 있다.
이와 함께 기술 발전에 따라 데이터를 한군데 모으는데 들어가는 비용이 내려가고, 저장과 관리에 효율을 높이는 솔루션이 시장에 많이 나오고 있다. 더불어, AI/ML 기술이 발전되고 클라우드 형태로 기업 인프라가 전환되기 시작했고, 이러한 기술을 실제 적용할 수 있는 데이터 과학자가 조직 내부 또는 외주형태로 자리잡게 되면서 기업들은 실제로 데이터 기술을 업무 현장에 적용하고 그 효과를 맛볼 수 있는 상황까지 도달했다.
③ 데이터를 의사결정에 활용
그 동안 데이터 기반 의사결정이 기업 경영에 있어서 매우 중요한 주제 영역이었지만, 동시에 정형 데이터 등 가용 데이터 위주 분석, 조직 사일로 현상과 연동된 데이터 사일로, 비정형 데이터를 수집∙저장하기 위한 IT 인프라 투자 비용 등 여러 걸림돌이 존재했다.
그럼에도 기업들은 데이터 분석 과정에 겪은 시행착오를 통해서, 과거에는 쓸모 없다고 수집되지 않았던 비정형 데이터가 이제는 정형 데이터 이상으로 중요성이 더욱 커지고 있음을 알게 되었다.
이와 더불어 데이터 기반 의사결정을 하기 위해 데이터 거버넌스 정책, 데이터 기반 조직 운영에 대한 책임을 맡는 최고 데이터 의사결정자(CDO: Chief Data Officer) 제도가 활성화되고 있다. AI/ML이 조직에 효과 높게 적용되기 위해서는 데이터 확보가 비즈니스 대전제로 부상한 상황에 이르렀다.
이러한 배경에서 데이터 종류와 모델에 관계없이 모든 유형의 데이터를 저장하고 분석할 수 있는 방안으로 데이터 레이크 개념이 도입돼 확대되고 있다. 실제로 여러 클라우드 사업자뿐만 아니라 스토리지 벤더들도 데이터 레이크 구성을 지원하는 솔루션들을 출시하고 있는 상황이다. 이를 통해 데이터 수집부터 분석까지 한 번에 가능한 데이터 환경이 창출되고 있다.
데이터 레이크 향후 전망 1) 시장 전망
가트너에 따르면, 데이터 인프라 지출은 2019년에 660억 달러로 사상 최대치를 기록했다. 이는 전체 인프라 소프트웨어 지출 중 24%에 해당하고 비율이며, 향후 지속 성장할 것으로 예측된다. 데이터 레이크 시장으로 좁혀 보면, 2019년 78억 5,000만 달러(한화로 약 8.6조원)를 기록했으며, 2020~2024년간 20.6%의 연평균성장률(CAGR)을 기록, 2024년에는 200억 5,000만 달러(약 23조원)에 달할 전망이다.
시장을 구분해보면 솔루션데이터 탐색, 통합·관리, 분석, 시각화 등 솔루션 부문은 2024년 116억 달러, 관련 데이터 서비스 부문은 2024년 85억 달러 규모로 성장할 전망이다. [마켓앤마켓, 2020.1]
산업 측면에서 보면 다양한 기회가 있을 것으로 예상된다. 스마트 시티 구축, 정부 계획 등의 요인에 의해 사물인터넷(IoT) 디바이스 적용은 빠르게 진행되고 있고, IoT 도입 및 적용에서 비롯된 데이터 급증은 데이터 레이크 시장 성장을 가속화할 것이다.
또한 클라우드가 확산되면서 클라우드와 구축형이 혼합된 ‘하이브리드 데이터 레이크’를 기반으로 다양한 종류의, 대용량 데이터를 비용∙시간 효율적으로 저장 관리하며, 실행 환경을 동적으로 구성하여 제공하는 형태로 발전할 것이다.
전문 분석 기관인 IDC에 따르면 데이터 레이크는 RDB, HDFS, NoSQL 등 여러 형태의 스토리지로 구성되며, 안전하고 통일된 방식으로 데이터에 접근하여 통합 활용을 지원하는 기술로서, 향후 10년 동안 기술 생애주기상 최고 정점을 유지할 것으로 전망된다.
2) 활용 전망
데이터 레이크는 조직 주요 성과 지표(KPI – 비용(Cost), 생산성(Productivity), 제공 서비스(Service))와 강하게 연계된 데이터 전략의 중요 기반으로 자리 잡을 것으로 예상된다.
a) 비용 측면에서 데이터 레이크는 통상 범용 하드웨어를 사용하기 때문에 큰 규모에도 불구하고 저렴하게 유지될 수 있다. 따라서 데이터 분석을 포함한 데이터 파이프라인 구축, 그리고 이를 통한 데이터 의사 결정을 비용효율적으로 할 수 있게 될 것이다.
b) 생산성 측면에서는 데이터를 원본 그대로 저장하기 때문에 저장 속도가 빠르고, 획득 가능 데이터를 수집∙저장함으로써 내부 사용자들이 원하는 목적에 맞게 데이터의 활용이 가능한, 유연한 데이터 사용이 가능하게 되어 업무 생산성이 향상될 것이다.
c) 서비스 측면에서 클라우드로 저장 공간이 쉽게 확보되면서 대규모 데이터 분석 및 모델을 정의-테스트-배포해 데이터 기반 서비스에 많이 적용될 수 있을 것으로 전망된다.
3) 솔루션 전망
과거의 데이터 레이크는 정형∙비/반정형 데이터를 한 곳에 넣어 두고 용도에 따라 꺼내 쓸 수 있는 데이터 중앙 공급소의 역할에 치중되어 있었다. 이로 인해 데이터 레이크 솔루션이라고 하면 단순히 DW를 재활용하거나 하둡을 떠올리는 경우가 많았다.
하지만 데이터가 폭발적으로 증가하고 보다 고도화된 분석이 요구됨에 따라 무분별한 사일로화 없이 성능과 용량을 비용효율적으로 동시에 늘릴 수 있는 선형적 확장이 가능한 솔루션이 점차 각광받고 있다. 특히 매초 쏟아지는 데이터를 실시간으로 분석하기 위해서 성능의 측면이 보다 강조되고 있는 상황이다.
이와 함께 데이터가 쌓여 가고 복잡해질수록 장기적이고 자동화된 데이터 관리 및 거버넌스에 대한 요구사항이 커지고 있다. 이에 따라 데이터 카탈로그 솔루션의 필요성이 증대될 것으로 예상된다. ciokr@idg.co.kr