Offcanvas

BI / How To / 데이터센터 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 스토리지

빅데이터 분석 위한 대규모 확장형 스토리지··· ‘데이터 레이크’ A to Z

2022.05.03 Martin Heller  |  InfoWorld


데이트 레이크하우스
스파크와 머신러닝 플로우(MLflow)를 지원하는 기업 데이터브릭스(Databricks)는 ‘데이트 레이크하우스’라는 것을 주창한다. 데이터브릭스에 따르면 데이터레이크하우스는 데이터 웨어하우스와 데이터 레이크의 장점을 결합한 것이다. 다음과 같이 설명된다.

데이트 레이크하우스는 데이트 웨어하우스와 데이트 레이크하우스의 장점을 하나의 단순한 플랫폼으로 통합하여 모든 데이터, 분석, AI 사용 사례를 처리한다. 모든 데이터 유형을 효율적으로 처리하고 모든 데이터 및 클라우드 플랫폼에서 하나의 공통 보안 및 거버넌스 접근방식을 적용하는 신뢰할 수 있는 개방형 데이터 기초에 기반한다.


데이터브릭스가 오픈소스로 공개한 델타 레이크(Delta Lake)는 데이터 레이크에 있는 데이터에 집적 신뢰성과 높은 성능을 제공하여 레이크하우스의 기초를 형성한다. 데이터브릭스 레이크하우스 플랫폼(Databricks Lakehouse Platform)에는 데이터 및 AI를 위한 미세 거버넌스를 제공하는 유니티 카탈로그(Unity Catalog)가 포함되어 있다. 데이터브릭스는 자사의 데이터 레이크하우스가 데이터 웨어하우스보다 12배 높은 가성비를 제공한다고 주장하고 있다.

온프레미스 및 퍼블릭 클라우드의 데이터 레이크
역사적으로, 데이터 레이크는 상품 컴퓨터로 구성된 아파치 하둡(Hadoop) 클러스터와 HDFS(Hadoop Distributed File System)를 사용하여 온프레미스로 구현된 형태이곤 했다. 하둡 클러스터는 한 때 클라우데라(Cloudera), 호튼웍스(Hortonworks) 등에 대형 비즈니스였다. 클라우데라와 호튼웍스는 2018년에 합병되었으며, 이를 통해 시장의 방향을 알 수 있다.

그동안 클라우드가 바뀌었으며, 특히, 초대형 퍼블릭 클라우드 제공업체인 AWS, 마이크로소프트 애저, GCP 등이 그랬다. 이 3개 클라우드 제공업체는 아마존 S3 및 아마존 EMR(Amazon Elastic MapReduce), ADLS(Azure Data Lake Store), GCS(Google Cloud Storage) 등의 데이터 레이크 스토리지 제품을 제공한다. 또한 데이터 수집, 데이터 처리, 분석, 머신 러닝을 위한 서비스를 제공한다. 데이터센터에서 하둡 클러스터를 관리하는 것보다 클라우드 데이터 레이크를 생성, 관리, 확장하기가 훨씬 쉽다. 단점은 장기적으로 운영 지출이 결국 상당해질 수 있다는 점이다.

데이터 레이크를 위한 분석 및 머신러닝(ML)
SQL은 데이터를 분석하는 수단 중 하나일 뿐이지만 꽤 중요하며 첫 번째 단계인 경우가 많다. 또 파워 BI(Power BI), 타블로(Tableau), 클릭(Qlik) 등의 비즈니스 인텔리전스 도구, 주피터(Jupyter), 제펠린(Zeppelin), 스파크(Spark) 노트북, SKL(SciKit-Learn), 스파크ML(SparkML), KNIME 등의 머신러닝 도구, 텐서플로우(TensorFlow)나 파이토치(PyTorch) 등의 딥러닝 도구가 널리 활용된다.

초대형 클라우드 제공업체들은 데이터 레이크에 연결된 자체적인 분석 및 머신러닝 도구가 있다. 아마존 아테나(Amazon Athena)는 프레스토와 하이브를 사용하여 아마존 S3에서 데이터에 대한 SQL 쿼리를 수행한다. 아마존 EMR은 아파치 스파크, 아파치 하이브, 프레스토 등의 오픈소스 분석 프레임워크를 사용하여 대규모 분산형 데이터 처리 작업, 양방향 SQL 쿼리, 머신 러닝 애플리케이션을 실행하기 위한 클라우드 빅데이터 플랫폼이다. ASM(Amazon SageMaker)은 머신러닝 모델을 구축, 훈련, 배치하도록 돕는 완전 관리형 서비스이다.

마이크로소프트의 ADLA(Azure Data Lake Analytics)는 빅데이터를 간소화하고 SQL과 C#이 조합된 U-SQL을 사용하는 구식 주문식(서버리스(Serverless)) 분석 작업 서비스이다. ADLA는 데이터 통합, 기업 데이터 웨어하우징(Warehousing), 빅데이터 분석을 결합한 무제한 분석 서비스인 ASS(Azure Synapse Analytics)로 대체되고 있다. 이를 통해 대규모로 서버리스 또는 전용 옵션을 사용하여 데이터를 원하는 조건으로 쿼리 처리할 수 있다. ASS는 데이터 레이크, 기업 데이터 웨어하우스, 기존 운영 데이터 쿼리 기능을 결합하며, ADLA뿐 아니라 데이터 웨어하우스의 데이터와 코드를 자동으로 마이그레이션할 수 있다. ASS는 또 AML(Azure Machine Learning), ACS(Azure Cognitive Services), 파워 BI와 심층적으로 통합되어 있다.

구글의 GCS는 빅쿼리(BigQuery, 데이터 웨어하우스), 데이터프록(Dataproc, 하둡 생태계), 데이터플로(Dataflow, 서버리스 스트리밍 분석), Video Intelligence API, Cloud Vision API, AI 플랫폼 등 여러 강력한 구글 클라우드 서비스와의 네이티브 통합을 제공한다.

즉 데이터를 분석하기 위해 적절한 도구를 선택할 상당한 유연성은 이미 확보돼 있다고 볼 수 있다.

결론
데이터 레이크는 하둡 클러스터와 맵리듀스(MapReduce) 시대 이후로 훨씬 유용해졌다. 프레스토와 아파치 스파크는 인메모리 및 MPP와 하이브 기반 스키마 덕분에 맵리듀스 보다 훨씬 빠른 SQL 프로세서를 제공한다. 클라우드 기반 데이터 레이크는 상품 컴퓨터로 구성된 구내 클러스터보다 생성, 관리, 확장이 훨씬 쉽고 빠르다. 그리고 클라우드 데이터 레이크는 광범위한 분석 및 인공지능 도구와 긴밀하게 통합된다. 

* 인포월드 기고 편집자이자 리뷰어인 Martin Heller는 웹 및 윈도우 프로그래밍 컨설턴트 경력을 보유자다. 1986년부터 2010년까지는 데이터베이스, 소프트웨어, 웹사이트 개발자로 일했으며 그 이후에는 알파 소프트웨어의 기술 및 교육 부사장, 튜브파이의 의장이자 CEO를 역임했다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.