Offcanvas

������������ ������������

빅데이터 분석 위한 대규모 확장형 스토리지··· ‘데이터 레이크’ A to Z

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

데이터 레이크 하둡 스토리지 클러스터 데이터마트 데이터 웨어하우스 애널리틱스

2022.05.03

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

2022.05.03

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.13