Offcanvas

���������������

빅데이터 분석 위한 대규모 확장형 스토리지··· ‘데이터 레이크’ A to Z

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

데이터 레이크 하둡 스토리지 클러스터 데이터마트 데이터 웨어하우스 애널리틱스

2022.05.03

데이터 레이크는 데이터 웨어하우스와는 무엇이 다를까? 정의에서부터 활용처, 활용 양태에 대해 살펴본다.    2011년, 당시 비즈니스 인텔리전스 기업 펜타호(Pentaho)의 CTO였던 제임스 딕슨이 ‘데이터 레이크(Data Lake)’라는 용어를 만들었다. 그는 당시 인기 있었던 ‘데이터 마트(Data Mart)’에서 흔히 나타났던 정보 사일로와 대비되는 개념으로 데이터 레이크를 설명했다.    데이터 마트가 손쉬운 소비를 위해 세척되고 패키지화 되며, 구조화된 생수 더미라면 데이터 레이크는 더욱 자연스러운 상태의 물이다. 데이터 레이크의 콘텐츠는 소스로부터 흘러나와 레이크를 채우며, 다양한 레이크 사용자가 검토하거나 몰두하거나 샘플을 채취할 수 있다. 그 이후로 데이터 레이크는 꾸준히 진화했으며, 이제는 빅데이터 저장과 애널리틱스 측면에서 데이트 웨어하우스(Data Warehouse)와 경쟁하고 있다. 오늘날 다양한 도구와 제품이 데이터 레이크에서의 더 빠른 SQL 쿼리를 지원한다. 또 3대 주요 클라우드 벤더는 데이터 레이크 스토리지 및 분석을 제공한다. 한편에서는 거버넌스, 보안, 분석과 알맞은 스토리지를 결합하는 새로운 ‘데이터 레이크하우스(Data Lakehouse)’ 개념도 등장했다. 이 글은 데이터 레이크에 관한 개괄적인 이해를 돕기 위해 작성됐다. 정의에서부터 사용 방법, 데이터 레이크가 데이터 스웜(Data Swamp)이 되지 않도록 하는 방법 등을 살펴본다. 데이터 레이크 개념 ‘데이터 레이크’는 기본적으로 분석 준비가 완료될 때까지 데이터를 보관하는 단일 저장소를 의미한다. 모든 데이터 담는 경우도 있지만, 데이터 웨어하우스에 맞지 않는 데이터만을 보관하기도 한다. 일반적으로, 데이터 레이크는 데이터를 네이티브 파일 형식으로 저장하지만 효율적인 분석을 위해 데이터를 다른 형식으로 전환하는 경우도 있다. 대개 데이터 레이크는 이미지와 비디오 등의 바이너리 데이터, PDF 문서 등의 비구조화...

2022.05.03

블로그 | 데이터 분석을 클라우드로 옮기는 것이 어려운 이유

클라우드라는 새로운 플랫폼으로 데이터 웨어하우스와 데이터마트를 현대화하고자 한다면, 주의해야 한다. 생각보다 쉽지 않을 수 있다. 과거의 데이터 웨어하우스와 데이터 마트가 잘 사용되지 않았다는 것을 이해하는 것은 어렵지 않다. 이들 환경의 데이터는 보통 너무 오래 됐고, 처리하기도 성가시고 비용도 너무 많이 든다. 오늘날의 클라우드 기반 데이터 분석은 실시간으로 이런 작업을 처리할 수 있는 역량이 있으며, 데이터베이스 역시 “필요한 만큼의 속도”로 운영할 수 있다. 또한, 아무리 작은 규모의 기업이라도 데이터 분석 처리를 머신러닝이나 예측 알고리즘 같은 최신 기술과 결합해 사용할 수 있다. 이런 멋진 가능성에 찬물을 끼얹기는 싫지만, 클라우드 기반 데이터 분석으로 가는 길이 많은 기업이 생각했던 것보다 멀고 험하다는 것이 드러났다. 이런저런 실패 사례가 필자의 레이더에 걸려들기 시작했는데, IT 부서가 과도한 비용에 직면하거나 기술이 기대치를 만족하지 못하기도 하며, 단지 데이터의 규모 자체가 문제인 것으로 드러나기도 했다. 우선 데이터를 기업에서 퍼블릭 클라우드로 전송하는 것이 예상 밖의 힘든 일인데, 대부분 수작업이라는 특성이 이를 더욱 악화시킨다. AWS나 구글, 마이크로소프트 등은 이를 위한 자체 기술을 갖추고 있다. 하지만 이런 툴을 이용해도 페타바이트급 데이터를 옮기는 과정은 매우 까다롭다. 두번째, 데이터 통합은 클라우드에서는 여전히 문젯거리다. 데이터를 옮긴다고 통합이라는 과제가 저절로 해결되는 것은 아니다. 기록 시스템은 여전히 온프레미스에 남고, 그래서 이제 클라우드에 저장된 데이터를 시의적절한 방식으로 최신 결과치와 동기화해야 할 필요도 있다. 이는 신구 데이터 통합 기술을 섞어 사용해야 하고, 데이터 이전과 구조 변환을 포함한 프로세스를 마련해야 한다는 의미이다. 마지막으로 클라우드 기반 분석 데이터베이스 자체가 복잡하고 설정하기 어렵다는 점이다. 이런 복잡성 중 일부는 데이터베...

마이그레이션 온프레미스 데이터웨어하우스 데이터마트

2018.04.19

클라우드라는 새로운 플랫폼으로 데이터 웨어하우스와 데이터마트를 현대화하고자 한다면, 주의해야 한다. 생각보다 쉽지 않을 수 있다. 과거의 데이터 웨어하우스와 데이터 마트가 잘 사용되지 않았다는 것을 이해하는 것은 어렵지 않다. 이들 환경의 데이터는 보통 너무 오래 됐고, 처리하기도 성가시고 비용도 너무 많이 든다. 오늘날의 클라우드 기반 데이터 분석은 실시간으로 이런 작업을 처리할 수 있는 역량이 있으며, 데이터베이스 역시 “필요한 만큼의 속도”로 운영할 수 있다. 또한, 아무리 작은 규모의 기업이라도 데이터 분석 처리를 머신러닝이나 예측 알고리즘 같은 최신 기술과 결합해 사용할 수 있다. 이런 멋진 가능성에 찬물을 끼얹기는 싫지만, 클라우드 기반 데이터 분석으로 가는 길이 많은 기업이 생각했던 것보다 멀고 험하다는 것이 드러났다. 이런저런 실패 사례가 필자의 레이더에 걸려들기 시작했는데, IT 부서가 과도한 비용에 직면하거나 기술이 기대치를 만족하지 못하기도 하며, 단지 데이터의 규모 자체가 문제인 것으로 드러나기도 했다. 우선 데이터를 기업에서 퍼블릭 클라우드로 전송하는 것이 예상 밖의 힘든 일인데, 대부분 수작업이라는 특성이 이를 더욱 악화시킨다. AWS나 구글, 마이크로소프트 등은 이를 위한 자체 기술을 갖추고 있다. 하지만 이런 툴을 이용해도 페타바이트급 데이터를 옮기는 과정은 매우 까다롭다. 두번째, 데이터 통합은 클라우드에서는 여전히 문젯거리다. 데이터를 옮긴다고 통합이라는 과제가 저절로 해결되는 것은 아니다. 기록 시스템은 여전히 온프레미스에 남고, 그래서 이제 클라우드에 저장된 데이터를 시의적절한 방식으로 최신 결과치와 동기화해야 할 필요도 있다. 이는 신구 데이터 통합 기술을 섞어 사용해야 하고, 데이터 이전과 구조 변환을 포함한 프로세스를 마련해야 한다는 의미이다. 마지막으로 클라우드 기반 분석 데이터베이스 자체가 복잡하고 설정하기 어렵다는 점이다. 이런 복잡성 중 일부는 데이터베...

2018.04.19

데이터 호수에 대해 CIO가 알아야 할 5가지

데이터 호수는 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 대규모 스토리지 저장소다. 하지만 데이터 호수가 빅데이터 프로젝트를 위한 만병통치약은 아니다. 1. 아직 개념이 새롭다. 펜타호(Pentaho)의 CTO 제임스 딕슨이 언급했듯이 데이터 호수라는 단어는 몇 년 전부터 유행이 됐다. 하지만 IDC 애널리스트인 애쉬시 내드카니에 따르면, 기업 자원으로서 데이터 호수에 대한 생각은 여전히 초기 단계에 머물러 있다. 데이터 호수는 대용량의, 비교적 저렴한 스토리지 저장소로 정의된다. 마치 하둡처럼 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 저장소다. 데이터 호수는 처리되지 않고 관리되지 않은 가장 원초적인 형태로 데이터를 보관하고 있다.  2. 바로 사용할 수 있는 완성된 형태의 데이터 호수를 구입할 수 없다. 관련 업체들은 빅데이터 프로젝트를 위한 만병통치약으로 데이터 호수를 판매하고 있다. 하지만 가트너에 따르면, 이는 사기다. "데이터웨어 하우스와 마찬가지로 데이터의 호수는 개념이 아니라 기술"이라고 가트너 애널리스트 닉 휴데커는 지적했다. "데이터 호수를 구축하기 위해 몇 가지 기술을 사용할 수 있다. 그 핵심은 데이터의 호수는 데이터 스토리지 전략이다"고 그는 전했다.  3. 데이터 호수는 빅데이터에 대한 욕구를 자극할 것이다. 데이터 호수는 보관하거나 나중에 사용하기 위해 데이터를 처리하고 내보내며 모으는 등 일련의 과정을 위해 만들어 졌다. "데이터웨어하우스의 스토리지 비용 모델이 데이터 취합 대용량 데이터 취합에 적합하다면, 데이터 호수도 그렇다"라고 휴대커는 말했다. "또 데이터 호수는 데이터가 사용 가능하기 전에 스키마를 작성하는 사용자를 필요로 하지 않는다. 데이터가 쉽게 취합할 수 있도록 스키마가 생성되고 데이터가 로딩된 경우에 적용된다"고 그는 덧붙였다....

CIO 빅데이터 가트너 DW 사기 데이터웨어하우스 데이터 호수 데이터마트

2015.08.03

데이터 호수는 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 대규모 스토리지 저장소다. 하지만 데이터 호수가 빅데이터 프로젝트를 위한 만병통치약은 아니다. 1. 아직 개념이 새롭다. 펜타호(Pentaho)의 CTO 제임스 딕슨이 언급했듯이 데이터 호수라는 단어는 몇 년 전부터 유행이 됐다. 하지만 IDC 애널리스트인 애쉬시 내드카니에 따르면, 기업 자원으로서 데이터 호수에 대한 생각은 여전히 초기 단계에 머물러 있다. 데이터 호수는 대용량의, 비교적 저렴한 스토리지 저장소로 정의된다. 마치 하둡처럼 데이터가 분석이나 마이닝에 필요할 때까지 모든 유형의 데이터를 보관할 수 있는 저장소다. 데이터 호수는 처리되지 않고 관리되지 않은 가장 원초적인 형태로 데이터를 보관하고 있다.  2. 바로 사용할 수 있는 완성된 형태의 데이터 호수를 구입할 수 없다. 관련 업체들은 빅데이터 프로젝트를 위한 만병통치약으로 데이터 호수를 판매하고 있다. 하지만 가트너에 따르면, 이는 사기다. "데이터웨어 하우스와 마찬가지로 데이터의 호수는 개념이 아니라 기술"이라고 가트너 애널리스트 닉 휴데커는 지적했다. "데이터 호수를 구축하기 위해 몇 가지 기술을 사용할 수 있다. 그 핵심은 데이터의 호수는 데이터 스토리지 전략이다"고 그는 전했다.  3. 데이터 호수는 빅데이터에 대한 욕구를 자극할 것이다. 데이터 호수는 보관하거나 나중에 사용하기 위해 데이터를 처리하고 내보내며 모으는 등 일련의 과정을 위해 만들어 졌다. "데이터웨어하우스의 스토리지 비용 모델이 데이터 취합 대용량 데이터 취합에 적합하다면, 데이터 호수도 그렇다"라고 휴대커는 말했다. "또 데이터 호수는 데이터가 사용 가능하기 전에 스키마를 작성하는 사용자를 필요로 하지 않는다. 데이터가 쉽게 취합할 수 있도록 스키마가 생성되고 데이터가 로딩된 경우에 적용된다"고 그는 덧붙였다....

2015.08.03

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.6