Offcanvas

빅데이터 | 애널리틱스

칼럼ㅣ'ETL'은 빅데이터와의 경쟁에서 패배했다

2021.09.15 Yash Mehta  |  CIO
‘ETL(Extract, Transform, Load)’은 빅 데이터와의 경쟁에서 패배했다. 솔루션은 전통적인 프로세스 통합 단계를 재정렬하는 것만큼이나 간단하다. 

일반 컴퓨터 사용자에게 인터넷이 보급됐던 1989년으로 되돌아가보자. 당시의 데이터 프로세스는 순차적이고, 정적이었으며, 유연하지 못했다. 그러한 시대에서 통합은 혁명이었으며, ‘ETL(추출, 변환, 로드)’은 일반적인 비즈니스 범위를 벗어나는 최신 기술이었다. 
 
ⓒGetty Images

다시 현재로 거슬러 올라오자. 오늘날 인터넷에서는 수십억 명의 사용자가 매 순간 상상할 수 없는 양의 데이터를 생성하고 있다. 이로 인해 새로운 시스템 환경이 탄생하고, 모든 것이 주문형(on-demand)으로 이뤄지고 있다. 

그 시대의 많은 프로세스와 마찬가지로, 온프레미스 환경을 위한 전통적인 ETL은 더 이상 필요가 없다. 수년간의 진화에도 불구하고 기존 ETL 프로세스는 빅 데이터라는 광기와의 경쟁에서 패배했다. 

가트너에 따르면 분석 인사이트의 20%만이 핵심 비즈니스 결과를 촉발한다. 예상한 대로 부정확하고 불충분한 데이터가 주요 원인이다. 

전통적인 ETL의 단점
기존 ETL에는 다음과 같은 단점이 있다. 

• 모든 변환의 비즈니스 요구사항이 고유하기 때문에 데이터 엔지니어는 커스텀 코드 프로그램 및 스크립트를 처리해야 한다. 따라서 특화되고 변환 불가능한 기술을 개발해야 하고, 코드 베이스 관리가 복잡해진다.  

• ETL은 지속적인 간접비가 발생한다. 전담 데이터 엔지니어의 긴 재설계 사이클이 필요하다.  

• ETL에서 데이터 과학자는 엔지니어가 변환하고 정제한 데이터 세트만 받을 수 있다. 이로 인해 프로세스가 경직될 뿐만 아니라 결과의 민첩성이 제한된다.  

• 초기에 ETL의 목적은 주기적인 배치(batch) 처리 세션이었다. 이는 지속적이고 자동화된 데이터 스트리밍을 지원하지 않는다. 또한 실시간 데이터 처리, 수집, 통합 성능이 부족하다. 

위에서 언급한 것 외에 온프레미스에서 클라우드로의 엔터프라이즈 환경의 혁신적인 변화도 데이터 통합 트렌드를 변화시켰다. 이로 인해 실시간으로 생성 및 소비되는 데이터 양이 폭발적으로 증가했다. 

처음에 데이터 준비 프로세스는 스트림이 체계적으로 전략화된 웨어하우스 모델에 맞춰 설계됐다. 이는 모든 것이 클라우드 환경에서 호스팅되는 오늘날의 환경엔 적합하지 않다. 

여기에서는 데이터 레이크 모델이 더 가치 있다. 레이크는 데이터 정제를 위해 데이터 세트를 푸시하기 전에 한 곳에서 여러 소스의 데이터를 캡처한다. 따라서 모든 데이터 세트를 서로 다른 소스에서 별도로 변환하는 대신 레이크에서 모두 수집한 다음 목적지에서 변환한다. 

더 나은 접근법
전통적인 ETL 프로세스에서는 이러한 광기(빅 데이터)를 처리하는 게 거의 불가능해졌고, ELT(추출, 로드, 변환)이라는 대안이 등장했다. ELT에서는 이전과 같은 비즈니스 로직 중심의 변환 없이 소스와 타깃 시스템 간에 데이터 통합이 이뤄진다. 변환이 마지막에 이뤄지도록 기존 통합 단계를 재정렬한 것이다. 수정된 단계는 아래와 같다.

1. 추출(Extraction): 온프레미스 애플리케이션, SaaS 애플리케이션, 데이터베이스 등의 분산된 소스에서 원시 데이터 세트를 수집한다. 

2. 로드(Loading): 데이터 스키마 및 타입을 포함해 타깃 시스템에 데이터를 직접 로드한다. 추출된 데이터는 데이터 레이크, 웨어하우스 또는 비관계형 데이터베이스 등 데이터 저장소에 로드된다. 

3. 변환(Transformation): 변환은 타깃 시스템에서 이뤄진다. 보고 및 기타 용도로 서드파티 도구를 사용한다. 데이터 변환은 주로 스크립트를 사용하여 데이터 레이크 또는 웨어하우스에서 수행된다. 

즉 ELT 프로세스의 경우 현재는 문제가 되지 않지만 향후 의도하지 않은 혼란을 일으킬 수 있는 그 자체의 한계를 가지고 있다. 예를 들면 다음과 같다. 

- 컴플라이언스는 ELT의 주된 병목 현상이다. 데이터 스트림을 암호화하거나 마스킹하지 않기 때문에 프라이버시 규정 준수가 취약하다. 

- ELT는 데이터 레이크 및 웨어하우스 등의 최신 스토리지 기술을 따라잡을 수 있는 고급 인프라가 필요하다. 

- 대부분 온프레미스 시스템의 레거시 환경에 관한 연결성이 부족하다. 이는 온프레미스 시스템을 더 이상 사용하지 않을 때까지 계속해서 문제가 된다. 

데이터 통합의 미래
데이터 통합이 민첩해지면서 ETL의 맞춤형 대안이 채택되고 있다. 예를 들면 파이프라인을 통한 데이터 스트리밍은 데이터베이스 테이블이 아닌 비즈니스 엔티티를 기반으로 한다. 

여기서 논리적 추상화 계층은 처음에 모든 데이터 소스에서 비즈니스 엔티티의 모든 속성을 캡처한다. 그다음 데이터를 수집, 정제, 보관하여 최종 데이터 자산에 넣는다. 

추출 단계에서 요청된 엔티티의 데이터는 모든 소스에서 캡처된다. 변환 단계에서 데이터 세트는 디지털 엔티티 인스트스에서 미리 결정된 규칙에 따라 필터링, 익명화, 변환된다. 마지막으로 로드 단계에서 데이터 세트가 빅 데이터 저장소로 전달된다. 

이러한 접근법은 주어진 시간에 수천 개의 비즈니스 엔티티를 처리하고, 엔터프라이즈급 처리량 응답 시간을 보장한다. 또 배치 처리와 달리 이 접근법은 다양한 소스 시스템에서 실시간으로 데이터 변경 사항을 캡처한다. 그다음 추가적으로 비즈니스 엔티티 계층을 통해 타깃 데이터 소스로 스트리밍된다. 

궁극적으로 비즈니스 엔티티를 기반으로 하는 데이터 수집, 처리, 파이프라인은 새롭게 통합된 데이터 자산을 생성한다. 

인기 있는 데이터 패브릭 도구는 위의 접근법을 활용하여 ‘분석 가능한(analytics-ready)’ 데이터를 제공한다. 또 모든 소스에서 모든 타깃 데이터 저장소로 데이터 세트를 안전하고 신속하게 전송할 수 있다. CDC, 메시징, 가상화, 스트리밍, JDBC, API 등의 모든 통합 방법도 지원한다. 

중요한 것은 복잡한 쿼리를 지속적으로 지원하는 한편 처리량이 많은 테이블 조인을 실행할 필요가 없다는 점이다. 

결론 
데이터가 갈수록 증가하면서 데이터 통합에도 고급 접근법이 필요해졌다. 아직 기존 관행에서 벗어나지 않았다면 데이터 과학 인프라를 평가하는 동시에 더 신속하고 정확하며 스마트한 데이터 스트리밍을 목표로 삼아야 한다. 

* Yash Mehta는 사물인터넷, M2M 커뮤니케이션, 빅 데이터 기술 전문가다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.