Offcanvas

BI / 디지털 트랜스포메이션 / 빅데이터 | 애널리틱스 / 스토리지

데이터 분석용 ‘원드라이브’ 될까··· 마이크로소프트 ‘원레이크’ 살펴보기

2023.08.16 Simon Bisson  |  InfoWorld
마이크로소프트 애저의 새로운 통합 데이터 플랫폼 ‘원레이크(OneLake)’는 대규모 분석 및 기계 학습을 위한 원스톱 상점을 추구하고 있다. 
 
ⓒ Getty Images Bank

마이크로소프트 컨퍼런스인 빌드(Build)에서 나오는 소식을 둘러보면, 마이크로소프트가 어떤 가치를 중점을 두고 개발자용 서비스를 만드는지 파악할 수 있다. 실제로 2023년에 열린 빌드(Build) 행사에서 나온 소식 대부분은 인공지능과 머신러닝과 관련돼 있었다. 동시에 데이터 관리는 물론 AI 애플리케이션 전체를 구축할 수 있도록 풀 스택 기술을 강조했다.

주목해야 할 소식은 바로 ‘마이크로소프트 패브릭(Fabric)이 출시된 점이다. 패브릭은 데이터 과학과 데이터 엔지니어링에 필요한 SaaS(Software-as-a-Service) 도구 세트다. 맞춤형 AI 애플리케이션은 머신러닝 모델을 설계하고 훈련하는 데 필요한 데이터를 식별하고 제공하는 작업부터 진행해야 한다. 패브릭은 AI 애플리케이션을 실행하는 것을 넘어 최신 비즈니스를 운영하는 데 필요한 실시간 분석 기능도 제공한다.

마이크로소프트 패브릭 : 원스톱 데이터 상점
마이크로소프트 패브릭은 비즈니스 사용자와 개발자 모두를 공략해 만든 것이다. 패브릭에 있는 기능 대부분은 이미 마이크로소프트 애저(Microsoft Azure)와 파워 플랫폼(Power Platform)에서도 볼 수 있다. 패브릭만의 차이점은 개방형 데이터 형식에 중점을 두고 다양한 데이터 작업을 위한 단일 포털을 제공하는 것이다.

마이크로소프트의 패브릭은 데이터 분석 스택의 핵심 요소를 통합하여 서로 부족한 부분을 채워준다. 그리고 관련 모든 정보가 단일 SaaS(Software-as-a-Service) 대시보드에 표현되도록 만들었다. 가령 파워 플랫폼의 도구와 애저 데이터 플랫폼의 요소가 모두 포함되어 있으며, 소스가 무엇이든 엔터프라이즈 데이터에 대한 신뢰할 수 있는 단일 소스를 제공한다.

마지막 부분을 눈 여겨보자. 다양한 애플리케이션에서 데이터가 생성되고 사용되는 과정에서 저장 방식과 관계없이 해당 데이터에 접근하고 사용할 공통 장소가 필요하다. 패브릭을 사용하면 정형 데이터와 반정형 데이터를 혼합하고 관계형 및 NoSQL 저장소를 사용하여 필요한 인사이트를 얻을 수 있다. 즉 네트워크의 엣지에서 데이터를 가져와 사람들이 필요로 하는 정보를 엔터프라이즈 대시보드에 제공할 수 있는 엔드 투 엔드 엔터프라이즈 데이터 플랫폼이다. 동시에 패브릭은 머신러닝 모델을 위한 학습 데이터를 제공할 수 있다.

사용자는 따라서 다양한 목적에 따라 여러 사용자 경험을 제공하는 단일 데이터 플랫폼을 경험할 수 있다. 분석 과정에 패브릭을 사용하는 경우, 파워 BI의 파워 쿼리(Power Query)를 사용하여 데이터를 탐색할 수 있다. 운영 데이터에서 인사이트를 찾고 있다면 아파치 스파크(Apache Spark) 및 파이썬 노트북(Python Notebook)을 사용할 수 있으며, 머신러닝 개발자는 오픈소스 ML플로우(MLflow) 환경을 사용하여 데이터를 처리할 수 있다.
 
마이크로소프트 패브릭에서 제공하는 서비스 ⓒ 마이크로소프트

원레이크, 데이터용 원드라이브(OneDrive)를 꿈꾸다
마이크로소프트 패브릭은 단일 데이터 플랫폼인 원레이크(OneLake)를 기반으로 구축되었다. ‘데이터용 원드라이브’라고 하는 원레이크는 모든 분석 데이터를 위한 조직 규모의 데이터 레이크다. 과거에는 보통 개별 부서에서 자체 데이터 레이크를 관리하고 그로 인해 사일로 현상이 발생하는데, 원레이크는 그런 접근 방식을 지양한다. 다시 말해 모든 데이터가 원레이크로 이동하고 그로 인해 별도의 데이터 웨어하우스와 레이크하우스를 확보할 수 있다. 동시에 중앙에서 관리되는 정책과 보안 도구를 가진 작업 공간에서 데이터가 부적절하게 사용되지 않도록 할 수 있다.

원레이크는 애저의 2세대 데이터 레이크 도구를 기반으로 한다. 테넌트 당 하나의 원레이크만 있으며, 데이터는 여러 컨테이너에 저장된다. 각 원레이크는 자체 액세스 정책을 사용하여 여러 작업 영역으로 세분화하여 각자의 데이터 항목을 관리할 수 있다. 원레이크는 데이터를 탐색하고 사용하는 데 도움이 되는 웹 기반 및 데스크톱 도구를 모두 사용하여 모든 유형의 파일을 호스팅하도록 설계되었다.

데이터는 반드시 애저를 통해서만 가져올 필요는 없다. 커넥터 라이브러리를 통해 패브릭의 데이터 팩토리 도구를 사용하여 여러 원본의 데이터를 관리할 수 있다. 여기서 한 가지 주요 기능은 아파치 파케이 (Apache Parquet) 데이터 형식을 지원한다는 것이다.

대규모 데이터 웨어하우스를 위해 설계된 파케이는 쉽게 압축되고 메모리 효율이 높은 컬럼 중심의 데이터 저장 형식으로, 고성능 컬럼 쿼리를 지원한다. 패브릭 데이터 팩토리 커넥터를 사용하여 대부분의 클라우드 스토리지 서비스에서 파케이 형식으로 데이터를 내보낼 수 있기 때문에, 파케이는 패브릭의 데이터 레이크에서 사용할 데이터 내보내기를 최적화하는 방법을 제공한다.

원레이크의 기본 스토리지 형식은 테이블용 델타(Delta) 형식이다. 델타는 트랜잭션 지원과 확장 가능한 메타데이터를 갖춘 아파치 파케이의 확장 버전이며 다양한 유형의 데이터 소스를 지원할 수 있는 개방형 형식이다. 델타 형식 테이블은 패브릭과 마찬가지로 대규모 데이터 레이크를 위해 설계되었으며 기존 분석 및 머신 러닝과 더 쉽게 통합할 수 있는 다양한 API를 제공한다. 원레이크를 사용하면 데이터를 한 번만 저장하면 되고 원하는 쿼리 도구로 사용할 수 있다.

원레이크와 데이터 레이크하우스
패브릭을 사용할 때는 ‘레이크하우스’ 개념도 잘 알고 있어야 한다. 레이크하우스는 필요한 데이터를 한 곳으로 가져와 조직 전체의 애저 호스팅 데이터 레이크에서 액세스할 수 있다. 레이크하우스는 대량의 데이터를 사용할 수 있는 방법과 함께 데이터를 저장, 관리 및 분석하기 위한 도구가 포함된 단일 뷰를 제공한다.

패브릭의 레이크하우스 구현은 델타 테이블과 함께 작동하도록 설계되었으므로, 레이크하우스의 모든 데이터가 적절한 형식으로 되어 있는지 확인해야 한다. 데이터를 가져온 후에는 노트북을 사용하여 데이터를 탐색하고 코드를 사용하여 조직 내 다른 곳에서 사용할 수 있는 정보를 추출할 수 있다. 또는 다른 애플리케이션에서 레이크하우스 데이터에 액세스하기 위해 SQL 엔드포인트를 사용할 수도 있다. 원레이크는 기존 젠 2 애저 데이터 레이크 스토리지 API(Gen 2 Azure Data Lake Storage API)를 사용하여 애저 데이터브릭스 및 애저 HD인사이트와 같은 도구 작업을 지원한다.

레이크하우스를 만드는 것은 아주 쉽다. 대시보드나 기존 패브릭 작업공간에서 시작할 수 있다. 레이크하우스가 생성되면 데이터 소스에 따라 데이터가 만들어지면 여러 가지 메커니즘을 사용하여 데이터를 로드 할 준비가 된 것이다. 간편한 선택지는 PC에서 직접 데이터를 업로드하는 것이지만, 내장된 복사 도구를 사용하여 데이터를 델타 테이블로 변환하여 바로 사용할 수 있도록 하는 것도 실용적이지 고려해보자. 또한 다른 플랫폼의 커넥터로부터 데이터를 가져오고 적절한 변환 작업을 처리하기 위해 파워 BI의 익숙한 데이터플로우 도구를 사용할 수도 있다. 또는 아파치 스파크 코드를 사용하여 레이크하우스에 데이터를 로드 할 수 있다.

패브릭의 실시간 분석은 반정형 형식의 시간 기반 데이터를 지원한다. 장기 분석과 운영 분석을 위해 별도의 도구를 사용하지 않고도 이제 동일한 데이터를 다른 방식으로 처리할 수 있다. 데이터가 도착하면 운영 분석을 통해 즉각적인 대응이 필요한 문제를 정확히 파악할 수 있다. 저장된 동일한 데이터는 다른 시스템의 데이터와 함께 머신 러닝을 위한 학습 데이터와 보고서 기반 데이터 분석을 위한 소스 데이터의 기초가 된다.
 
원레이크 구조 ⓒ 마이크로소프트

편리한 사용이 가능한 원레이크
원레이크에서 유용한 점은 모든 소스 데이터를 원레이크에 저장할 필요가 없다는 것이다. 바로가기를 사용해 다른 저장소 위치에 연결할 수 있다. 바로 가기는 데이터 레이크의 심볼릭 링크에 해당하는 것으로, 애저에서 데이터를 호스팅하지 않고도 데이터를 사용할 수 있다. 이렇게 하면 데이터 복사와 관련된 위험이 줄일 수 있으며, 패브릭 대시보드 내부에서 현업 시스템에 대한 액세스를 제어할 수 있다. 

바로가기가 생성되면, 바로가기는 폴더(구조화된 데이터의 테이블 폴더와 구조화되지 않은 데이터의 파일 폴더)로 표시된다. 바로 가기에 델타 또는 파케이 형식 데이터가 포함된 경우 자동으로 테이블로 사용되며, 패브릭은 연결의 메타데이터를 로드하고 이를 사용하여 결과 테이블을 관리한다.

점점 더 많은 기업이 다양한 데이터에를 한꺼번에 저장할 수 있는 공통 저장소를 찾고 있다. 마이크로소프트는 패브릭으로 이러한 수요에 대응하려는 모양새다. 마이크로소프트는 델타 및 파케이와 같은 개방형 표준을 기반으로 구축함으로써 기업이 기존 데이터 플랫폼 기술을 사용하여 데이터 레이크를 구축하고 관리할 수 있도록 지원하는 방법을 찾았으며 데이터 웨어하우스 분석과 머신 러닝을 모두 지원할 준비가 되어 있다. 현재 패브릭은 프리뷰 단계로 공개됐으며 무료 평가판 형태로 이용 가능하다. 기업 입장에서 평가판을 활용한다면 장기적인 영향을 미치는 결정을 내리기 전에 미리 도움을 받을 수 있을 것이다. 
ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.