Offcanvas

AI / BI / 디지털 트랜스포메이션 / 빅데이터 | 애널리틱스 / 클라우드

MS 데이터 애널리틱스 제품 전부가 패브릭으로 통합된 이유

2023.05.25 Anirban Ghoshal  |  InfoWorld
이크로소프트는 기존의 데이터 웨어하우징, 비즈니스 인텔리전스, 데이터 애널리틱스 제품을 마이크로소프트 패브릭(Microsoft Fabric)이라는 단일 제품으로 통합하겠다고 24일 밝혔다.
 
ⓒ 마이크로소프트

애널리스트들은 이번 조치로 기업들이 워크로드를 통합하는 동시에 IT 통합 간접비와 복잡성 그리고 비용을 줄일 수 있다고 예상한다.

컨설팅 기업 산지모(SanjMo)의 수석 애널리스트 산지브 모한에 따르면, 통합 데이터 애널리틱스 플랫폼이 패브릭이라는 형태로 출시되는 것은 기업의 최신 데이터 스택에 제품들이 마구잡이로 크게 늘어나는 현상에 대한 ‘대응’이라고 볼 수 있다.

모한은 “마이크로소프트는 고객들이 통합 간접비와 복잡성을 줄이고자 한다는 사실을 인식했다. 고객들은 돈을 쓰지 않겠다는 것이 아니라 IT 투자 대비 더 나은 가치를 찾고 있다”라며 “만일 패브릭이 적합한 결과를 제공할 수 있다면 공용 클라우드 서비스 제공업체들에게 ‘적합한’ 전략이 될 수 있다”라고 덧붙였다.

모한은 패브릭이 IT 복잡성은 물론 비용도 줄일 수 있다고 말했다. 그는 “통합 솔루션은 동급 최고의 전문 솔루션들을 모은 것보다 비용이 덜 들어야 한다. 사전에 통합된 패브릭 역시 통합 비용을 줄이고 다양한 도구를 익히는 데 필요한 기술도 줄인다”라고 설명했다.

마이크로소프트도 패브릭을 구매한 경우 리소스 관리가 더 간단하다고 설명했다. 마이크로소프트는 보도자료를 통해 “고객들은 패브릭 워크로드 전체를 구동하는 단일 컴퓨팅 풀을 구매할 수 있다.  범용 컴퓨팅 용량은 비용 감소 효과가 크다. 한 워크로드에서 사용되지 않은 컴퓨팅 용량은 다른 워크로드에서 활용될 수 있기 때문이다”라고 밝혔다.

포레스터의 수석 애널리스트 보리스 에벨슨에 따르면, 원시 데이터는 거래, 운영 등 무엇이 되었든 데이터 수집, 추출, 이동, 통합, 정리, 모델링, 카탈로그화 등의 단계를 거쳐야 비로소 가치 있는 정보로 전환될 수 있다.

에벨슨은 “일반적으로 각각의 단계를 지원하는 기술은 다양한 업체가 제공하며 데이터 또는 애널리틱스 전문가들은 통합에 시간을 보내야 한다”라며 “패브릭이 구성요소 통합의 필요성을 완전히 없애 주지는 않더라도 통합 시간과 노력은 줄여주므로 데이터 및 애널리틱스 사용자들이 비즈니스 문제 해결과 비즈니스 기회 대응에 더욱 집중할 수 있다”라고 설명했다.

마이크로소프트 패브릭, 7가지 핵심 서비스 및 도구 제공
마이크로소프트에 따르면, 마이크로소프트 패브릭은 통합 아키텍처를 사용하여 개발자들에게 서비스형 소프트웨어(SaaS) 경험을 제공함으로써 원시 데이터에서 인사이트를 추출하는 것을 돕고 이를 비즈니스 사용자에게 제공한다. 이번 새로운 통합 애널리틱스 제품에는 데이터 커넥터, 데이터 엔지니어링 도구, 데이터 과학을 위한 데이터 워크플로, 애널리틱스 도구를 비롯한 7가지 핵심 모듈 및 툴셋이 함께 제공된다.

프리뷰 단계로 공개한 데이터 팩토리(Data Factory)라는 모듈은 150개가 넘는 커넥터를 클라우드 및 온프레미스 데이터 소스에 제공함으로써 보다 쉽게 데이터 변환이 가능하며 데이터 파이프라인을 조율할 수 있게 만들었다. 마이크로소프트는 “프리뷰 단계로 공개된 시냅스 데이터 엔지니어링(Synapse Data Engineering) 모듈도 통합했으며 이는 아파치 스파크(Apache Spark)에서의 모델 작성에 도움이 된다”라고 설명했다. 

마이크로소프트는 패브릭에는 데이터 과학자들이 정교한 AI 모델을 구축하기 위한 엔드투엔드 워크플로인 시냅스 데이터 사이언스(Synapse Data Science)와 레이크하우스 및 웨어하우징 도구와 공개 데이터 형식에 SQL을 실행하는 기능을 결합한 시냅스 데이터 웨어하우징(Synapse Data Warehousing)도 포함되어 있다고 밝혔다. 둘 다 프리뷰 단계로 이용가능 하다.

시냅스 리얼타임 애널리틱스(Synapse Real-Time Analytics)이라는 모듈은 개발자들이 스트리밍 데이터로 작업하고 대용량의 반정형 데이터를 분석할 수 있게 해 줄 것으로 보인다. 그뿐만 아니라, 마이크로소프트는 비즈니스 애널리스트와 기업의 비즈니스 사용자들이 AI 기반 도구의 지원을 받아 데이터로부터 인사이트를 생성할 수 있도록 파워 BI(Power BI) 모듈도 패브릭에 통합 중이다.

마이크로소프트는 파워 BI 경험이 마이크로소프트 365에도 깊숙이 통합되어 있다고 밝혔다. 아말감 인사이츠(Amalgam Insights)의 수석 애널리스트 박현은 “파워 BI가 패브릭에 추가되면서 기존에 파워 BI가 클릭(Qlik), TIBCO, SAS 등과 같은 애널리틱스 플랫폼과 비교할 때 기업 수준에 적합하지 않아 보이게 했던 다양한 결점이 메워진다”라고 평가했다.

마이크로소프트는 실시간으로 데이터를 탐지하고 모니터링할 목적의 데이터 액티베이터(Data Activator) 모듈이 패브릭에 함께 제공된다고 밝혔다. 또한, 이 모듈은 데이터에서 명시된 패턴이 발견되면 알림과 동작을 촉발시킬 수 있으며 현재 비공개 프리뷰 단계라고 덧붙였다. 마이크로소프트에 따르면, 7가지 모듈 모두 마이크로소프트 포털에서 체험할 수 있다.

코파일럿도 마이크로소프트 패브릭에 추가된다
마이크로소프트는 패브릭에 애저 오픈AI(Azure OpenAI) 서비스를 추가 중이며 곧 GPT 기반 코파일럿(Copilot)을 통합할 예정이라고 밝혔다.

마이크로소프트는 “마이크로소프트 패브릭에 코파일럿이 통합되면 사용자들은 대화 언어를 사용하여 데이터 플로우 및 데이터 파이프라인을 만들고 코드 및 전체 함수를 생성하며 머신 러닝 모델을 구축하거나 결과를 시각화할 수 있다”라고 덧붙였다.

옴디아(Omdia) 최고 애널리스트 브래들리 심민은 애저 오픈AI 서비스와 코파일럿이 추가되면 솔루션 간의 많은 장벽이 허물어지므로 마이크로소프트 애저에 단련된 데이터 전문가들이 수행하는 작업의 속도가 크게 높아질 것이라고 내다봤다.

심민은 “또한, 마이크로소프트 자체의 기본 모델은 물론, 솔직히 말하면 마이크로소프트의 머신 러닝 툴링 포트폴리오 전체에 대한 채택 속도도 빨라질 것이다”라고 덧붙였다.

모한은 이런 움직임은 오픈AI에서 나온 대규모 언어모델의 API를 자체 포트폴리오 전체에 걸쳐 통합하려는 마이크로소프트의 계속된 노력으로도 볼 수 있다고 말했다.

마이크로소프트는 기업들이 애저 오픈AI 서비스의 대규모 언어모델을 기업 자체 데이터와 결합하여 자체적인 대화 언어 경험을 창출할 수도 있다고 말했다. 아울러, 코파일럿은 기업의 테넌트 데이터를 대상으로 한 훈련은 받지 않았다고 덧붙였다.

패브릭, 원레이크 지원 및 데이터브릭스 델타(Delta) 테이블 형식 채택
마이크로소프트에 따르면, 패브릭의 데이터와 워크로드는 모두 원레이크(OneLake)라는 SaaS 멀티클라우드 데이터 레이크에 저장된다. 마이크로소프트 365 애플리케이션 데이터가 원드라이브(OneDrive)에 저장되는 것과 비슷하다.

마이크로소프트는 보도자료에서 “데이터는 데이터 허브에 정리되며 검색, 공유, 관리, 규정 준수의 목적으로 자동으로 인덱싱 된다. 모든 개발자를 위한 단일 통합 저장 시스템이 제공되어 데이터의 검색 및 제공이 쉬워지고 정책 및 보안 정책이 중앙에서 시행된다”라고 밝혔다.

마이크로소프트는 이는 서로 다른 개발자들이 저마다의 고립된 저장소 계정을 프로비저닝하고 구성하기 때문에 생기는 데이터 사일로를 방지하는 데 도움이 된다고 설명했다. 또한, 원레이크를 활용하면 기업들이 ADLS 2세대, AWS S3, 구글 스토리지(Google Storage)에서 데이터 레이크 저장소를 시각화할 수 있다고 덧붙였다.

포레스터의 에벨슨에 따르면, 원레이크가 도입되면 기업들은 며칠 내지 몇 주가 아닌 몇 분 만에 손쉽게 자체적인 미니 데이터 레이크를 만들 수 있게 된다.

에벨슨은 “물론, 그 데이터 레이크를 임무에 필수적인 앱에 쓸 수 있게 준비시키려면 여전히 시간이 걸리겠지만 시제품 제작과 개념 증명, 애자일 개발은 쉬워질 것이다”라고 내다봤다.

또한, 패브릭은 파케이(Parquet) 파일에 결합된 델타(Delta) 파일을 기본 데이터 형식으로 취급하며 이 형식은 모든 워크로드의 기본값이다.

마이크로소프트는 “이처럼 일반적인 오픈 데이터 형식을 깊이 신뢰한다는 것은 고객들이 데이터를 레이크에 한 번만 로드하면 되고 별도로 흡수할 필요 없이 모든 워크로드가 동일한 데이터를 대상으로 작동할 수 있다는 의미다”라고 밝혔다. 또한 이는 원레이크가 모든 형식의 정형 데이터와 비정형 데이터를 지원한다는 의미라고 덧붙였다.

에벨슨은 오픈소스 형식을 채택할 경우 시간과 노력, 저장용량을 크게 아낄 수 있다고 표현했다. 에벨슨은 “원레이크 자체는 오픈소스가 아니지만 내부의 데이터 구조는 애널리틱스에 최적화된 데이터 형식인 파케이라는 오픈소스 형식을 기반으로 한다. 이는 데이터 레이크, 데이터 웨어하우스, BI 플랫폼(이 경우에는 파워 BI)이 정확히 동일한 형식, 가장 중요한 것은 동일한 인스턴스/데이터 버전을 사용하게 된다는 의미다”라고 설명했다.

아울러, 마이크로소프트는 기업들이 다양한 데이터 엔진, 모듈 또는 도구에 걸쳐 데이터 보안을 관리하도록 돕기 위해 원레이크에서 관리되는 패브릭용 범용 보안 모델을 도입할 계획이라고 밝혔다.

마이크로소프트는 이 모델이 도입되면 모든 데이터 엔진 또는 모델이 질의나 기타 작업을 처리하는 과정에서 반드시 보안 모델을 실행하게 될 것이라고 설명했다.

마이크로소프트, 패브릭을 기회로 활용할 수 있을까?
애널리스트들은 마이크로소프트 패브릭이 업계 인기를 누릴 확률은 반반이라고 예상하고 있다. 에벨슨은 “현재 E5 오피스 365 사용권이 있으면 파워 BI를 쓸 수 있는 것처럼 모든 오피스 365 사용자에게 패브릭이 제공된다면 파워 BI와 똑같이 빠르게 퍼지는 효과를 갖게 될 것이다”라고 내다봤다.

그러나, 컨스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨셴은 패브릭이 하루아침에 성공하지는 않을 것이라고 경고했다.

헨센은 “발표된 것은 아직 프리뷰 단계 기술로 마이크로소프트는 데이터 웨어하우징과 같은 분야에서는 성공만이 아니라 실패도 경험한 바 있다는 사실을 유념해야 한다. 가장 최근의 사례인 애저 시냅스(Azure Synapse)는 레이크하우스 플랫폼으로서 광범위하게 채택되거나 고객의 찬사를 받지 못했다”면서 보통 기업들은 데이터 플랫폼을 빠르게 바꾸지 않는다고 덧붙였다.

애널리스트들은 마이크로소프트 패브릭을 구글 데이터플렉스(Google DataPlex), SAP 데이터스피어(SAP DataSphere) IBM 데이터 패브릭(IBM Data Fabric) 류와 비교할 수 있다고 말했다.
ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.