Offcanvas

머신러닝|딥러닝 / 빅 데이터 / 애플리케이션 / 클라우드

“쉽고 빠른 풀스택 접근법” MS 애저 애널리틱스 서비스 7선

2022.07.04 Mary Branscombe  |  CIO
마이크로소프트는 애저 클라우드에서 (전체 애널리틱스 스택으로 함께 작동하는) 다양한 데이터 애널리틱스 옵션을 제공한다. 여기서는 핵심 서비스와 적합한 사용 사례를 살펴본다. 

비즈니스 데이터를 이해할 수 없다면 사실상 눈을 가린 채로 비행하는 것이나 마찬가지다. 데이터에 숨겨진 인사이트는 비즈니스 운영을 최적화하고, 고객 경험을 미세 조정하며, 새로운 제품 또는 새로운 비즈니스 라인(예: 예측 유지 보수 등)을 개발하는 데 필수적이다. 

애널리틱스는 이러한 인사이트를 발견하기 위한 수단이고, 이를 제대로 하려면 데이터 수집 및 준비, 데이터 보강 및 태깅, 보고서 작성 및 공유, 데이터 및 인사이트 관리 및 보호를 위한 도구가 필요하다. 또한 기업들이 점점 더 많은 양의 데이터와 씨름하면서 클라우드는 애널리틱스 작업에 안성맞춤인 장소로 빠르게 변하고 있다.  
 
ⓒGetty Images Bank

많은 기업에서 ‘마이크로소프트 애저(Microsoft Azure)’는 애널리틱스를 위한 중앙 허브가 됐다. 데이터 애널리틱스를 광범위하게 해석하는 애저는 12개 이상의 서비스를 제공한다(이후 AI 기반 분석 및 새로운 데이터마트 옵션을 지원하는 ‘파워 BI(Power BI)’ 또는 마이크로소프트 퍼뷰(Microsoft Purview) 등의 거버넌스 지향 접근법도 추가됐다). 

마이크로소프트 애널리틱스(Microsoft Analytics)의 CTO 아미르 네츠는 “단편적인 접근법이 아니라, 함께 작동하도록 설계된 애저에서 전체 애널리틱스 서비스 스택을 제공하는 것을 목표로 하고 있다”라고 말했다. 

다양한 서비스 간에 중복되는 부분이 있긴 하지만 그는 애저의 애널리틱스 서비스가 애널리틱스 아키텍처 프레임워크 생성 시 기업이 구축하는 계층에 광범위하게 해당된다고 밝혔다. 넷츠는 “데이터 레이크 생성, 데이터 저장, 레이크에서의 데이터 처리, 데이터 엔지니어링, 데이터 웨어하우스 구축, 머신러닝 알고리즘 및 데이터 과학 실행, 비즈니스 사용자에게 데이터 제공 등의 기능이 있다”라고 설명했다. 

최근 발표된 ‘마이크로소프트 인텔리전트 데이터 플랫폼(Microsoft Intelligent Data Platform)’은 이러한 사실을 분명히 보여준다. 여기에서는 마이크로소프트 애저의 필수 애널리틱스 서비스 및 용도, 클라우드에서의 애널리틱스 전략을 위한 포괄적인 스택을 만드는 방법을 소개한다.
 
애저에 많은 애널리틱스 서비스가 있는 이유는 애저에서 전체 스택을 구축할 수 있기 때문이다. ⓒMicrosoft

1. 애저 분석 서비스(Azure Analysis Services)
비즈니스 인텔리전스용 SQL 서버 분석 서비스(SQL Server Analysis Services)를 사용하는 데 익숙하다면 이 분석 서비스는 엔터프라이즈급 애널리틱스 엔진을 클라우드 서비스로 제공한다. 파워 BI에도 연결할 수 있다. 하지만 파워 BI 프리미엄(Power BI Premium) 기능이 애저 분석 서비스 기능보다 강력하기 때문에 마이크로소프트는 데이터 모델을 파워 BI로 이전하려는 고객을 대상으로 올 하반기 자동화된 마이그레이션 도구를 제공할 예정이다. 

2. 애저 데이터 팩토리(Azure Data Factory)
데이터 팩토리는 코드 없는(code-free) 데이터 이동 및 변환 파이프라인을 위한 서비스로, 다양한 소스의 데이터를 데이터 웨어하우스로 쉽게 통합할 수 있다. ETL(추출, 변환, 로드) 및 ELT(추출, 로드, 변환)를 커넥터가 내장된 서비스로 간주하지만 데이터를 적절한 위치로 옮기는 것보다 데이터를 변환하고 보강하는 데 중점을 둔다(데이터를 클라우드로 이동하는 데 사용할 수도 있다). 

아울러 데이터 팩토리에는 쿼리 작성을 지원하는 ‘예제별 코드(code by example)’ 등의 기능뿐만 아니라 파이썬, 자바 및 닷넷 등의 언어를 깃(Git) 및 CI/CD 지원과 함께 사용하는 옵션도 포함돼 있어 SQL 서버 통합 서비스(SQL Server Integration Services)를 애저로 마이그레이션 하는 데도 유용하다.

3. 애저 데이터 익스플로러(Azure Data Explorer)
데이터 익스플로러는 이름에서 알 수 있듯이 프로젝트 코드 이름에서 쿠스토 쿼리 언어(Kusto Query Language)라고도 하는 KQL을 사용하여 데이터를 탐색하는 데 사용할 수 있는 빅데이터 애널리틱스 플랫폼이다. 이 플랫폼은 자크 쿠스토(Jacques Cousteau; 프랑스의 해양 탐험가)처럼 데이터라는 바다를 탐색하는 데 참조가 될 수도 있고 그렇지 않을 수도 있다. 

또한 애저 데이터 익스플로러는 마이크로소프트 퍼뷰, 마이크로소프트 디펜더 포 엔드포인트(Microsoft Defender for Endpoint), 마이크로소프트 센티넬(Microsoft Sentinel), 애저 모니터 로그 애널리틱스(Log Analytics in Azure Monitor) 등의 서비스 데이터를 저장 및 쿼리하는 데 활용된다.

4. 애저 데이터 레이크 애널리틱스(Azure Data Lake Analytics)
데이터 웨어하우스는 데이터와 관련해 이미 알고 있는 그리고 몇 번이고 묻고 싶은 질문을 위해 설계됐다. 반면에 데이터 레이크를 사용하면 정형 및 비정형 데이터를 저장하여 이전에 질문하지 않았던 새로운 질문을 탐색할 수 있다. 

애저 데이터 레이크 애널리틱스는 (머신러닝을 기반으로 텍스트, 음성, 이미지를 처리하는 기능인 애저 코그니티브 서비스(Azure Cognitive Services)과 함께) R, 파이썬, 닷넷 또는 U-SQL(SQL과 C#의 결합)을 사용하여 쿼리를 작성하는 애저 데이터 레이크에서 데이터를 추출, 정리, 준비하는 데 유용하다. 이는 페타바이트 규모의 데이터 변환을 처리할 수 있는 서버리스 애널리틱스 서비스이기 때문에 인프라를 관리할 필요 없이 사용한 만큼의 비용만 지불하면 된다.

5. 애저 시냅스 애널리틱스(Azure Synapse Analytics)
기업의 여러 팀이 데이터 레이크에서 데이터를 추출하고 비즈니스 사용자가 개별적으로 접근하여 작업해야 하는 데이터 웨어하우스를 구축하는 데 사용할 자체 애널리틱스 프레임워크를 만들고 싶지 않다면? 시냅스 애널리틱스를 사용하면 클라우드 데이터 웨어하우스와 데이터 레이크 서비스의 기능을 제공하지만 ETL 프로세스를 기다리거나 데이터가 저장되는 위치 또는 연결 방법을 걱정할 필요 없이 모든 정형 및 비정형 데이터에 SQL이든 스파크(Spark)이든 상관없이 선호하는 애널리틱스 엔진을 실행할 수 있다. 

시냅스 애널리틱스의 데이터 플로우는 애저 데이터 팩토리를 기반으로 하며, 코스모스 DB(Cosmos DB)를 사용하면 운영 데이터베이스의 트랜잭션이 미러링 및 기록된 지 몇 초 후에 애널리틱스에 사용할 수 있기 때문에 빅데이터와 관계형 데이터를 함께 탐색할 수 있다. 계속해서 질문할 만큼 충분히 유용하다면 기존 애널리틱스 기법을 사용해서 공식화할 수 있다.

6. 애저 데이터브릭스(Azure Databricks)
데이터를 변환, 정리, 보강하기 위해 스파크 클러스터를 온디맨드 방식으로 스핀업하고 싶다면 애저 데이터브릭스를 고려할 만하다. 이는 애저에 최적화된 아파치 스파크(Apache Spark) 기반 빅데이터 애널리틱스 서비스로 다양한 데이터 유형에 적합한 데이터 어댑터와 스파크 데이터플로우 구축을 위한 인터랙티브 워크스페이스를 제공한다.

파이썬, 스칼라, R, 자바 또는 SQL에서 작업할 수 있지만 특히 AI 시스템 구축에 적합하다. 아울러 텐서플로우(TensorFlow), 파이토치(PyTorch), 사이키트(sci-kit) 학습 등의 일반적인 데이터 과학 프레임워크를 쓸 수 있고, 애저ML(Azure Machine Learning)과의 통합도 가능하다.

7. 파워BI 데이터마트(Datamarts in Power BI)
데이터마트는 엔터프라이즈급 데이터 웨어하우스가 아닌 비즈니스 유닛(BU) 수준에서 애널리틱스를 할 수 있도록 설계된 관계형 데이터베이스다. 이 관계형 데이터베이스는 주로 여러 소스에서 데이터를 수집하고, 가벼운 방식으로 통합해야 하는 비즈니스 사용자에 적합하다.

이러한 비즈니스 사용자는 애저 포털(Azure portal)에서 전체 관계형 데이터 웨어하우스를 프로비저닝할 수 있는 스킬이나 예산이 없고, 페타바이트 또는 테라바이트 단위의 데이터도 필요하지 않으며, 현재 쉐어포인트(SharePoint) 목록이나 엑셀(Excel) 등의 기술을 쓰고 있기 때문에 CIO들이 원하는 것보다 더 적은 거버넌스를 제공하는 서비스가 부족한 상황이다. 

파워BI 프리미엄의 데이터마트는 성능을 위해 자동으로 최적화된 워크로드와 파워 쿼리(Power Query)와 유사한 사용자 인터페이스를 갖춘 완전 관리형 셀프서비스 노코드 옵션이다(최대 100GB의 데이터, 고급 사용자는 DAX 또는 SQL 쿼리를 작성할 수 있다). 데이터마트는 파워BI의 시맨틱 모델과 관계형 데이터베이스 모델을 결합하여 테이블 간의 관계를 발견하고, 데이터 세트를 생성한다.

네츠는 “DBA가 되는 방법은 아무것도 알 필요가 없다. 파티션 분할 방식이나 인덱스 작성 방법도 묻지 않는다. SQL을 작성하고 데이터를 가져오거나 쿼리하는 방법을 알 필요가 없다. 모든 것이 시각적이며, 사용하기 쉽다. 모든 것은 파워BI 보고서 작성 방법을 알고 있는 사용자를 대상으로 설계됐다”라고 설명했다. 

Bonus: 애저 스트림 애널리틱스&애저 타임 시리즈 인사이트(Azure Stream Analytics&Azure Time Series Insights)
특히 클라우드에 적합한 애널리틱스를 사용하는 새로운 방법이 있다. 기존 애널리틱스는 데이터베이스의 데이터에 중점을 뒀지만, 센서와 IoT 기기를 사용하면 거의 실시간으로 처리하고 액션을 취하고자 하는 일시적이고 시간에 민감한 데이터를 갖게 된다. 클릭스트림 폼의 웹 앱과 모바일 앱에서도 마찬가지다. 

애저 스트림 애널리틱스를 사용하면 스트리밍되는 데이터를 보고 즉시 처리하여 액션을 취해야 하는지 확인할 수 있다. 해당 처리는 데이터가 수집되는 곳 근처에서 이뤄져야 하기 때문에 이벤트 허브(Event Hubs)를 사용하여 데이터를 수집하고 스트림 애널리틱스에 전달한다. 또 데이터를 집계하여 저장되는 양을 줄이고, 나중에 쿼리를 실행하여 트렌드를 분석하거나 수요를 예측하며, 밀리초마다 온도를 기록하는 대신 마지막 1초의 이동 평균을 저장할 수도 있다.

만약 이러한 종류의 애널리틱스를 위한 자체 스택을 구축하고 싶지 않다면 애저 타임 시리즈 인사이트는 IoT 기기에서 데이터를 가져와 모니터링, 분석, 시각화 및 액션을 취하는 엔드투엔드 플랫폼이다. 이를 사용하여 트렌드를 파악하고, 이상 징후를 표시하며, 근본 원인을 식별할 수 있다. 애저는 애널리틱스 서비스의 풀스택을 제공하기 때문에 해당 데이터를 애저 데이터 브릭스 등의 다른 서비스에 전달하거나, 애저 ML로 모델을 만드는 데 활용할 수 있다. ciokr@idg.co.kr
 
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.