Offcanvas

개발자 / 디지털 트랜스포메이션 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 서버 / 애플리케이션 / 클라우드

"도구, 통합, 거버넌스, 인사이트" AWS 리인벤트 2022, 데이터 관리 및 분석 서비스에 주안점

2022.12.01 Anirban Ghoshal  |  InfoWorld
올해 아마존 리인벤트(re:Invent) 행사의 주안점은 단연 데이터였다. 아마존은 ETL 프로세스 간소화를 위한 일련의 통합 기능을 발표했다. 이에 더해 데이터를 쉽게 카탈로그화하고 검색할 수 있도록 돕는 새 서비스와 기능을 여럿 공개했다. 
 
AWS CEO 아담 셀립스키는 데이터 관리에는 알맞은 도구(Right Tools), 통합(Integration), 거버넌스(Governance), 그리고 인사이트(Insights) 4가지 영역이 가장 중요하다고 말했다. 

그는 제일 먼저 알맞은 도구와 매끄러운 통합의 중요성에 대해 말하며 이제 ETL 작업 없이(zero-ETL) 아마존 레드시프트(Amazon RedShift)를 사용해 아마존 오로라(Amazon Aurora) 데이터를 거의 실시간으로 분석할 수 있다고 밝혔다. 

이에 더해 AWS는 이제 아마존 레드시프트 데이터로 아파치 스파크(Apache Spark) 애플리케이션을 쉽게 실행할 수 있다고 발표했다. 

ETL이란 데이터를 데이터베이스에서 데이터웨어하우스로 옮기기 위해 해야 하는 작업인데, 많은 엔지니어가 번거롭게 여긴다. 미가공 데이터(raw data)를 일일이 클렌징해야 함은 물론 필터링하고, 재정렬하고, 축약해야 하기 때문이다. 

AWS는 많은 기업이 데이터를 분석하기 위해 데이터 파이프라인을 준비하는 팀을 별도로 유지해야 하기에 여기에 들어가는 추가 비용도 큰 문제라고 지적했다. 
 

ETL 없는 시대를 향해 

AWS는 아마존 오로라와 레드시프트의 제로 ETL 통합으로 오로라에 기록되는 트랜잭션 데이터가 거의 즉시 레드시프트에 복제돼 분석될 수 있다고 설명했다. 

셀립스키는 “기업 고객은 여러 아마존 오로라 데이터베이스 클러스터의 데이터를 하나의 아마존 레드시프트 인스턴스로 복제해 여러 애플리케이션에서 인사이트를 손쉽게 얻을 수 있다”라고 말했다. 이 통합 기능은 현재 프리뷰 형태로 제공된다. 

또한 이제 아마존 레드시프트와 아파치 스파크가 통합돼(Amazon RedShift Integration for Apache Spark)은 개발자가 AWS의 애널리틱스 및 머신러닝 서비스를 사용해 아마존 레드시프트 데이터에 아파치 스파크 애플리케이션을 구축하고 실행할 수 있게 됐다. 

아파치 스파크는 개발자가 애용하는 빅데이터 분석에 애용하는 오픈소스 애널리틱스 엔진이다.  

셀립스키는 “개발자는 이제 자주 쓰는 언어(자바, 파이썬, R, 스칼라 등)를 사용해 아마존 레드시프트 데이터에 구축한 아차피 스파크 애플리케이션으로 데이터 쿼리를 몇 초 안에 실행할 수 있다”라고 말했다. 

아파치 스파크 통합은 정식으로 출시됐다. 
 

'사내 거버넌스의 광장' 아마존 데이터존(Amazon DataZone)

AWS는 아마존 데이터존이라는 새로운 데이터 거버넌스 서비스도 선보였다. 아직 사용해볼 수는 없지만, 이 데이터 카탈로그 서비스의 목표는 구성원 모두가 사내, 혹은 타사 데이터 소스에 있는 데이터를 모두 쉽게 검색하고 공유하도록 돕는 것이다. 

데이터를 카탈로그화 하는 방법은 간단하다고 셀립스키는 말했다. 데이터 생산자는 서비스의 웹 포털에서 데이터 소스, 범주, 거버너는 정책 등을 정의하면 된다. 
 
ⓒAWS

셀립스키는 “아마존 데이터존은 머신러닝을 활용해 데이터 카탈로그 관리의 번거로움을 덜어준다. 메타데이터를 일일이 수집해 입력되는 데이터에 알맞은 메타데이터는 추천하기도 한다. 출처나 데이터 종류를 제시할 수 있다. 이 머신러닝 모델은 사용자가 데이터를 분류하고 정의하는 방식을 학습하며 시간이 지날수록 더 똑똑해진다”라고 설명했다. 

카탈로그 셋업이 완료되면 데이터 사용자는 데이터존 웹포탈에서 데이터 에셋을 쉽게 검색할 수 있다고 셀립스키는 전했다. 메타데이터가 맥락에 맞는지 검토할 수도 있으며, 특정 데이터셋이 필요하면 바로 포털에서 요청하면 된다.  
데이터 애널리틱스를 실행하려면 기업 사용자는 아마존 데이터존 데이터 프로젝트(Amazon DataZone Data Project)를 먼저 생성해야 한다. 데이터존 데이터 프로젝트는 웹 포털의 공유 공간으로서 다양한 데이터 세트를 한곳에 모아 여러 사용자가 데이터 애널리틱스 작업을 같이 수행하도록 돕는다. 

셀립스키는 “아마존 데이터존은 AWS 애널리틱스 서비스(레드시프트, 아테나, 퀵사이트)와 연동되기도 한다. 따라서 사용자는 데이터 프로젝트를 진행하면서 이 서비스의 장점을 같이 활용할 수 있다”라고 말했다. 

또한 이 서비스는 사용자 지정 솔루션이나 데이터브릭스(DataBricks), 스노우플레이크(Snowflake) 및 타블로(Tableau) 같은 타사 솔루션과 연동할 수 있는 API를 제공한다.
 

'파트너와도 데이터 협업' AWS 클린 룸(AWS Clean Rooms) 

AWS는 AWS 클린룸이라는 새로운 서비스를 시작한다고 밝혔다. 파트너 기업과의 협업을 돕는 것이 목표다. 
 
ⓒAWS

현재 이 서비스는 AWS 기업 사용자만 AWS 관리 콘솔에서 써볼 수 있다. 기업 고객은 협업을 원하는 파트너를 선택해 공유할 데이터 세트를 지정하고, 권한을 부여할 수 있다. 쿼리 제어, 쿼리 출력 제한, 쿼리 로깅 등 권한을 세밀하게 구분해 부여하는 기능도 제공된다.

AWS 클린룸은 별도의 솔루션으로 제공된다. 회사 측에 따르면 2023년 초즘 미국 동부(오하이오), 미국 동부(북버지니아), 미국 서부(오레곤), 아시아 태평양(서울), 아시아 태평양(싱가포르), 아시아 태평양(시드니), 아시아 태평양(도쿄), 유럽(프랑크푸르트), 유럽(아일랜드), 유럽(스톡홀름) 지역에서 출시될 예정이다. 
 

아마존 퀵사이트, 일상어로 쿼리한다  

AWS는 아마존 퀵사이트(Amazon QuickSight)라는 통합 비즈니스 인텔리전스 서비스에 자연처 처리 기능을 추가한다고 밝혔다. 이제 퀵사이트는 사용자는 일상 언어로 데이터 쿼리를 실행할 수 있다. 
 
ⓒAWS

셀립스키는 이제 퀵사이트 사용자가 몇 초만에 원하는 결과를 얻을 수 있을거라고 말했다. 특히 ‘이유(Why)’를 물어봐도 데이터에 대한 예측 인사이트를 제공할 만큼 지능적이라고 설명했다. 이 기능은 기존 퀵사이트 사용자에게 추가 비용 없이 제공된다. 

또한 퀵사이트는 데이터셋에 의미 있는 정보를 자동으로 추정해 추가한다. 비즈니스 인텔리전스 팀에 자연어 쿼리에 답하기 위해 데이터를 준비하는 시간을 크게 단축시킬 수 있다고 셀립스키는 설명했다. 이 기능 또한 기존 사용자에게 추가 비용 없이 제공된다고 업체 측은 밝혔다. 

이 밖에도 퀵사이트는 페이지로 구성된 보고서를 자동으로 생성하는 기능과 대규모 데이터 세트를 빠르게 분석하는 기능 등을 새로 제공한다. 

보고서 생성 기능은 퀵사이트 엔터프라이즈 에디션 기업 고객에게 추가 기능으로만 제공된다고 업체 측은 밝혔다. ciokr@idg.co.kr
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.