Offcanvas

CIO / 개발자 / 빅데이터 | 애널리틱스 / 애플리케이션 / 오픈소스 / 클라우드

칼럼 | 하둡의 실패 넘어선다··· 오픈 데이터 분야를 견인하는 4가지 기술 동향

2021.09.14 캐스버 왕  |  IDG Connect
기업들이 방대한 양의 데이터를 수집하고 있다. 이를 제대로 활용하기 위해서는 수십, 수천 개의 서로 다른 데이터 소스와 여러 다른 데이터 형식으로부터 통찰을 추출해낼 수 있어야 한다. 이러한 가운데 오픈 데이터 생태계와 관련된 빅데이터 기술이 눈길을 끌고 있다. 오픈 데이터 생태계가 부상하는 이유가 뭘까? 그리고 이 기술 트렌드가 기업의 미래 경쟁력으로 어떻게 이어질 수 있을까?

수준 높은 애널리틱스와 AI 이니셔티브를 추진함으로써 대량의 데이터를 분석해 우수한 고객 통찰을 도출하고 가치 있는 질문들을 해결할 수 있기를 수많은 기업들이 바라고 있다. 이러나 이러한 결과를 실현하려면 기업은 우선 구조적 및 비구조적이고, 다양한 형식인 이질적 데이터 출처와 씨름하면서 통찰을 도출해야 한다. 그리고 이는 간단한 일이 아니다. 

지난 20년 동안 여러 기술이 이 문제를 해결할 수 있다고 약속했고 실패했다. 대표적인 것이 2000년대 중반의 하둡(Hadoop)이다. 

하둡 이전의 유일한 선택지는 거대한 리소스를 가진 온-프레미스 데이터베이스였다. 이는 데이터를 신중하게 모델링하고, 스토리지를 관리하고, 가치를 평가하고, 이들을 연결하는 방법을 파악하는 일을 요구했다. 

이와 달리 하둡은 데이터 레이크, 오픈 데이터 표준, 모듈식 첨단 소프트웨어 스택, 그리고 고객을 위해 가치를 견인하는 경쟁적인 데이터 관리 벤더로 이루어진 오픈 데이터 생태계를 주창했다. 

하둡 운동과 아파치 유형의 프로젝트는 오픈 데이터 생태계라는 발상을 진전시켰지만 아래의 3가지 이유 때문에 궁극적으로 실패했다. 

• 하드웨어를 구입하고 확장하고 관리하는 비용이 지나치게 비쌈
• 애플리케이션과 데이터 레이크 간의 공통 데이터 포맷의 결여로 인한 데이터 관리 및 이용의 난해함 
• 데이터 관리에 이용할 수 있는 툴 및 스킬의 부족 

하둡의 성과는 실망스러웠지만 그럼에도 불구하고 오픈 데이터는 다시 부상하고 있다. 그리고 이번에는 새로운 오픈 데이터 생태계 기술이 하둡의 단점을 해소하며 기업 내의 모든 데이터 범위를 아우르고 있다. 

그렇다면 왜 지금 이런 일이 일어나는가? 4가지 핵심적인 기술 동향이 오픈 데이터 생태계의 부활을 이끌고 있기 때문이다. 
 
Image Credit : Getty Images Bank


1. 클라우드 스토리지의 성장 
클라우드 데이터 스토리지, 다시 말해 아마존 S3, 애저 데이터 레이크 스토리지(ADLS), 구글 클라우드 스토리지(GCS)의 급속한 성장은 구조적 및 비구조적 데이터 레이크를 대량으로 수용할 수 있음을 의미한다. 

1세대 시스템은 온프레미스 연산 및 스토리지 시스템을 구축하는 데 큰 자본을 요구했다. 유지 관리가 값비쌌고 확장하는 데에는 훨씬 더 많은 비용이 들었다. 

그러나 클라우드 스토리지는 데이터 스토리지 문제로부터 값비싼 온프레미스 하드웨어를 제거했다. 대신 리소스 기준 과금이 도입되면서 기업들은 사용한 스토리지에 대해서만 비용을 지불하면 된다. 그리고 가격이 하락하면서 클라우드 스토리지 서비스는 데이터의 기본 정착지가 되었다. 범용적인 기록 시스템(System of Record, SoR)이 되는 것이다.

오늘날의 기업에게 클라우드의 예측 가능한 성능 및 유연성은 가속 쿼리 이행 등의 데이터 역량을 현실화하고, 복제를 회피하고, 데이터 레이크의 감독 및 관리를 개선하는 데 있어서 핵심적이다. 

2. 대세화된 오픈소스 데이터 포맷 
프로그래밍 언어 및 구현물 전반을 아우르는 데이터 호환성을 위해 오픈 데이터 포맷을 채택하는 기업이 많아지고 있다. 

오픈 스토리지 데이터 포맷, 예를 들어 아파치 파케이(Apache Parquet: 컬럼 지향 데이터 스토리지), 아파치 애로우(Apache Arrow: 애널리틱스, 인공지능, 머신러닝을 위한 메모리 포맷), 아파치 아이스버그(Apache Iceberg: 표 포맷/트랜잭션 레이어) 등은 현재 및 미래의 모든 툴에서 데이터를 이용할 수 있음을 의미하고, 비호환성으로 인한 벤더 속박을 해소한다. 

기업들은 즉시 이용할 수 있는 오픈 포맷으로 데이터를 대량으로 저장할 수 있고, 이와 연관된 비즈니스 애널리틱스와 AI 워크로드를 직접 실행할 수 있다. 데이터 변환을 요하는 길고도 값비싼 소프트웨어 구현이 필요하지 않다. 

이는 오늘날의 기업에게 특히 매력적이다. 왜냐하면 API ‘플러그 앤 플레이’ 데이터 분석 및 AI 툴, 예를 들어 H20, 데이터로봇(DataRobot) 등은 구현하고 결과를 보는 것이 빠르고 쉽기 때문이다. 

3. 클라우드 네이티브 벤더 지원의 성장 
2000년대 중반 하둡은 데이터 스키마, 소비, 및 관리에 구애받지 않고 데이터를 레이크에 무차별적으로 투척할 수 있게 해주었다. 

기업들은 아키텍처 설계, 액세스, 애널리틱스, 지속가능성을 고려하지 않은 채 더 많은 데이터를 수집하는 데에만 열중했다. 이들은 데이터 레이크 안에 무엇이 있는지 알지 못했고, 이들을 관리하거나 가치를 추출하는 법도 알지 못했다. 이런 문제를 해결할 툴이 나오지 않은 상황에서 데이터 레이크는 데이터 늪으로 변했다. 

그러나 오늘날 특정한 데이터 관리 문제를 처리하는 데 도움을 주는 벤더와 툴이 수없이 생겨났다. 데이터 관리 분야는 급속히 성장 중이고, 데이터 스트리밍, 변환, 가시성, 품질, 거버넌스, 최종 이용자의 소비에 걸쳐 솔루션이 속속 가세하고 있다. 

드레미오(Dremio), 트리노(Trino) 같은 회사는 클라우드 데이터 레이크에서 SQL 쿼리를 직접 운영한다. 세그먼트(Segment), 마틸리온(Matillion) 등의 회사가 가진 기술은 데이터를 흡수해 오픈 포맷으로 작성한다. 그리고 에어플로우(Airflow), 퍼펙트(Perfect), 대그스터(Dagster) 등의 플랫폼은 데이터 오케스트레이션을 취급한다. 이들 벤더들이 경쟁하면서 오픈 데이터 생태계에서의 운영은 갈수록 쉬워지고 있다. 

기업들이 어떤 기술로 자신의 데이터 인프라를 운영할 것인지를 결정함에 있어 기성 벤더와 전문 스타트업은 각각 장점과 단점을 가지고 있다. 올바른 진로를 선택하는 데에는 아래와 같은 차이를 고려하는 것이 좋다. 

• 통상적으로 기성 벤더는 한층 우수한 온-프레미스 호환성을 제공한다. 그러나 최고 수준의 전문 스타트업 툴이 가진 기능성이 부족하다. 
• 통상적으로 최고 수준의 전문 스타트업 솔루션은 한 분야에서 차원 높은 기능성을 가지고 있지만 보안, 거버넌스 등 기업 요구사항을 충족하는 면에서 성숙도가 떨어진다. 

4. 애플리케이션이 적정 고도에서 이용자와 만나고 있다
데이터 애널리스트, 과학자 및 현업 이용자는 수작업 스키마 변경, 리소스 프로비저닝, 여타 데이터베이스 관리의 하부에서 이루어지는 데이터 작용에 별로 관심이 없다. 그러나 이러한 작업은 1세대 오픈 데이터 생태계에서 필수적이었다. 

오늘날에는 수직적으로 통합된 툴에 추상화가 매립되어 있고, 이는 최종 이용자가 자신이 원하는 통찰 수준에서 작업을 할 수 있도록 도움을 준다.  

애플리케이션이 계속 진화하고, 기업들의 데이터 역량이 다각화되면서, 한층 정교해진 이용자들은 수준 높은 유연성과 깊이를 추구할 것이다. 

오픈 데이터 생태계는 기나긴 여정
이들 4가지 동향이 오픈 데이터 생태계의 부활을 견인하는 가운데, 이들은 스노우플레이크(Snowflake) 등 소유권적 클라우드 데이터 웨어하우스의 성장을 촉진하기도 했다. 

모든 워크로드를 아우르는 단일 데이터 웨어하우스라는 스노우플레이크의 접근법이 유일한 미래의 길이라고 주장하는 사람들이 있다. 그러나 시간이 지나면서 애플리케이션 개발이 단일 아키텍처로부터 API 기반의 마이크로서비스 아키텍처로 변화하고 있는 것처럼 데이터 애널리틱스 워크로드는 소유권적 데이터 웨어하우스로부터 오픈 데이터 아키텍처로 점진적으로 이동할 것으로 예상된다. 

요약 : 오픈 데이터가 어느 때보다 기업들에게 한층 접근 가능해짐에 따라 그야말로 흥미로운 시기에 접어들고 있다. 클라우드 데이터 레이크, 데이터 관리, 오픈 데이터 포맷 등 하둡의 단점에 대처하는 기술을 바탕으로 기업들이 마침내 조직 내에서 데이터를 완벽히 포착하고 이용할 수 있는 환경이 조성되면서 빅 데이터의 비전이 다시 활기를 찾고 있다.

*캐스버 왕은 사파이어 벤처의 부사장이다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.