Offcanvas

빅데이터 | 애널리틱스

GCP 빅레이크, 모든 종류의 비정형 데이터 지원한다

2022.10.13 Anirban Ghoshal  |  InfoWorld
구글 클라우드(GCP)은 그간 모든 종류의 데이터를 지원하는 단일 플랫폼을 빅레이크(BigLake)의 형태로 제공하고자 시도해왔다. 그리고 지난 11일(현지 시각) 데이터 레이크에서 흔히 쓰이는 오픈소스 데이터 표 형식을 지원하겠다고 밝혔다. 
 
ⓒGCP

2022년 클라우드 넥스트(Cloud Next) 컨퍼런스에서 구글은 최근 내세우고 있는 빅레이크 서비스에 대해 소개했다. 정형 및 비정형 데이터 모두에 데이터 애널리틱스와 엔지니어링을 적용할 수 있는 서비스라는 것이 회사의 설명이다. 

구글 클라우드(Google Cloud)의 데이터 부석 부사장 게릿 카즈마이어는 블로그 게시물에서 “스토리지 엔진 빅레이크는 아파치 아이스버그(Apache Iceberg), 데이터브릭스(Databricks)의 델타 레이크(Delta Lake), 아파치 후디(Apache Hudi)에 대한 지원을 추가한다. 이렇게 광범위하게 도입된 데이터 형식을 지원함으로써 기업이 데이터의 가치를 완전히 실현하는 길에 있는 장애물을 없애도록 도울 수 있다”라고 밝혔다. 

이는 다른 클라우드 기반 데이터 웨어하우스 및 데이터 레이크 제공업체와 경쟁하기 위한 전략이기도 하다. 회사는 자사의 클라우드 데이터 서비스의 전반적인 개방성을 높이려는 전략을 펼쳐왔다.

회사는 아파치 아이스버그 지원은 프리뷰에서 제공될 것이라고 밝혔으며, 후디와 델타 레이크 지원도 곧 추가되리라고 덧붙였다. 프리뷰 버전이나 공식 버전이 언제 출시될지는 밝히지 않았다.  

데이터 레이크에 대한 트랜잭션 관리 기능을 지원하는 것이 오픈소스 테이블 형식을 지원하기로 결정한 이유라고 벤타나 리서치(Ventana Research)의 조사 책임자 매트 아슬렛이 말했다.

아슬렛은 “데이터 레이크 도입자 중 57%는 현재 최소한 이런 새로운 테이블 형식 중 한 가지를 사용하고 있다. 이에 따라 데이터 레이크 사용량이 증가해 데이터 웨어하우징 환경을 대체할 가능성이 높아졌다"라고 말했다. 

하지만 벤타나 리서치의 최근 데이터 레이크 역학 인사이트 조사에 따르면 기업 중 1/4 미만이 기존의 데이터 웨어하우스 환경을 대체하기 위해 데이터 레이크를 도입했으며, 3/4에는 데이터 레이크와 데이터 웨어하우스 환경이 공존하고 있다.

아슬렛은 “구글 빅레이크는 하나의 환경에서 데이터 웨어하우스와 데이터 레이크 접근방식을 모두 수용하므로 유리한 위치에 있다”라고 말했다.

이런 오픈소스 테이블 형식에 대한 구글의 지원은 스노우플레이크(Snowflake)와 데이터브릭스(Databricks)의 제품 업데이트에 대한 대응인 것으로 보인다고 콘스텔레이션 리서치(Constellation Research)의 수석 애널리스트 더그 헨쉔이 말했다.

헨쉔은 “아파치 아이스버그는 개방성뿐 아니라 성능 향상을 제공하므로 인기를 얻고 있다. 구글은 이번에 지원을 약속함으로써 한쪽만을 선택하지 않을 것임을 분명히 밝힌 셈이다. 스노우플레이크와 후디도 마찬가지이다”라고 말했다.

구글의 경쟁사 오라클(Oracle)도 다가올 클라우드월드(CloudWorld) 연례 컨퍼런스에서 유사한 기능을 발표할 수 있다고 db인사이트(dbInsight)의 수석 애널리스트 토니 베어가 말했다.
 

비정형 데이터를 지원하는 빅쿼리(BigQuery)

클라우드 넥스트 발표의 일환으로 구글은 비정형 데이터에 대한 지원 추가 외에 관리형 기업 데이터 웨어하우스 빅쿼리용 신기능을 추가했다.

카즈마이어는 “이제부터 데이터 팀은 빅쿼리에서 빅쿼리의 익숙한 SQL 인터페이스를 사용하여 구조화 및 비정형 데이터를 분석할 수 있으며, 구글 클라우드의 머신러닝(ML), 음성 인식, 컴퓨터 비전, 번역, 텍스트 처리 기능에 손쉽게 접근할 수 있다”라고 밝혔다.

구글에 따르면 기업에 있는 데이터 팀은 대부분 정형 데이터를 사용하지만, 이는 생성되는 전체 데이터의 10%에 불과하다. 구조화 데이터로는 운영 데이터베이스, 어도비(Abode), SAP, 서비스나우(ServiceNow), 워크데이(Workday) 같은 SaaS 애플리케이션의 데이터와 JSON 로그 파일 형식의 반정형 데이터도 있다. 비정형 데이터에는 텔레비전 아카이브의 비디오, 고객센터 또는 라디오의 오디오, 다양한 형식의 문서가 포함된다.

구글은 기업들이 증가하는 비정형 데이터 처리에 대한 수요에 직면하고 있다고 주장했다.  

비정형 데이터에 대한 지원 추가는 클라우드 서비스 시장에서 유효한 차별점이 될 것이라고 애널리스트들은 평가했다.  

현재 구글만큼 비정형 데이터 지원의 필요성을 적극적으로 해결하고 있는 클라우드 서비스 제공업체는 없다고 헨쉔이 말했다. 헨쉔은 “단일 플랫폼에서 모든 데이터 유형을 해결하면 CIO, 데이터 사이언티스트, 개발자 등의 업무가 크게 간소화된다”라고 덧붙였다.
 

클라우드 넥스트에서 공개된 다른 빅쿼리 업데이트

또한 구글은 오픈소스 통합 분석 엔진 아파치 스파크(Apache Spark)에 대한 지원을 발표했다. 이는 자사의 클라우드 서비스를 애널리틱스, 웨어하우스, 데이터 과학을 지원하는 최신 레이크하우스로 발전시키려는 회사의 전략과 일치한다고 애널리스트들이 말했다.

비공개 프리뷰로 제공될 새로운 통합 기능으로 기업 데이터 팀은 빅쿼리에서 아파치 스파크를 사용하여 SQL 파이프라인과 통합되는 절차를 생성할 수 있다고 구글을 밝혔다. 

헨쉔은 “스파크를 수용함으로써 구글은 데이터 과학자가 가장 많이 쓰는 도구를 마침내 도입한 것”이라고 말했다.

헨쉔은 이어 “구글과 달리 스노우플레이크는 여전히 자사의 데이터 과학 위에서 스노우파크(Snowpark)를 통해 파이썬(Python)과 기타 언어를 사용하는 초기 단계에 머물러 있다. 지원을 위해 주로 파트너들에게 의존하고 있는 것이다”라고 덧붙였다.

또 다른 경쟁자 데이터브릭스도 자사 플랫폼에서의 데이터 웨어하우스와 BI 작업 부하에 대한 지원을 개선했다.

한편, 구글은 또한 데이터스트림(Datastream)이라는 스트림 서비스를 빅쿼리와 통합했다.

구글은 “이번 통합으로 기업들은 알로이DB(AlloyDB), PostgreSQL, MySQL, 오라클 등의 제3자 데이터베이스의 실시간 데이터 등 온갖 종류의 소스로부터 얻은 데이터를 효과적으로 복제할 수 있을 것이다”라고 밝혔다.

또한, 구글은 데이터 품질과 관련된 프로세스를 자동화하기 위해 자사의 데이터 통합자 서비스 데이터플렉스(DataPlex)를 업데이트했다.

카즈마이어는 “예를 들어, 사용자는 이제 데이터의 출처와 시간이 지남에 따라 변화 및 이동한 방식 등 데이터 혈통을 더 쉽게 파악할 수 있다. 많은 시간이 소요되는 수동 프로세스를 할 필요가 줄어든다”라고 밝혔다.
 

비즈니스 인텔리전스 제품을 통합하는 루커 스튜디오(Looker Studio)

클라우드 넥스트에서 구글은 루커와 데이터 스튜디오(Data Studio)를 루커 스튜디오로 통합하여 비즈니스 인텔리전스 제품들을 통합하고 3가지 옵션으로 제공할 것이라고 밝혔다.

구글 클라우드의 BI 제품 관리 책임자 케이트 라이트는 블로그 게시물에서 “루커 스튜디오는 현재 800개 이상의 데이터 소스를 지원하며 카탈로그에는 600개 이상의 커넥터가 포함되어 있어 다양한 소스의 데이터를 손쉽게 탐구할 수 있다”라고 밝혔다.

루커 스튜디오는 데이터 모델에 대한 비공개 프리뷰 액세스를 제공할 예정이며, 새로운 인터페이스가 적용될 계획이다. 회사는 루커 스튜디오의 기본 버전을 무료로 제공한다고 밝혔다. 

제품을 통합하기 전, 루커는 유료 서비스였고 데이터 스튜디오는 무료 서비스였다. 아슬렛에 따르면 무료 버전은 더 이상 지원되지 않을 예정이다. 지원을 받고자 하는 기업 고객은 루커 스튜디오의 프로 버전으로 업데이트해야 한다.

라이트는 “루커 스튜디오 프로로 업그레이드하는 고객은 새로운 기업 관리 기능, 팀 협업 기능, SLA[Service Level Agreement]를 얻게 된다. 이것은 첫번째 릴리즈에 불과하며, 기업 고객들이 요구했던 데이터 혈통과 메타데이터 가시성을 위한 데이터플렉스 통합부터 시작하여 기능 로드맵을 구성했다”라고 밝혔다.

루커에 대한 다른 업데이트로는 데이터에 액세스하기 위한 타블로(Tableau)와 마이크로소프트 파워 BI(Microsoft Power BI) 등의 시각화 도구에 대한 지원이 있다고 해당 기업이 밝혔다.
 

버텍스 AI 비전(Vertex AI Vision) 공개

개발자와 데이터 과학자가 컴퓨터 비전 기반 애플리케이션을 개발 및 배치할 수 있도록 돕기 위한 노력의 일환으로 구글은 버텍스 AI 비전이라는 새로운 기능을 추가하여 자사의 머신러닝 플랫폼 버텍스 AI의 기능을 확장했다.

구글은 지난해 5월 버텍스 AI 플랫폼 출시와 함께 ML 작업 용이성을 위해 노력했으며, 이후 10월에는 협업 개발 플랫폼 버텍스 AI 워크벤치(Vertex AI Workbench)를 공개했다.

“새로운 E2E(End to End) 애플리케이션 개발 환경은 시각 데이터를 수집, 분석, 저장하는 데 도움이 될 것이다”고 밝히면서 구글은 새로운 서비스를 통해 컴퓨터 비전 애플리케이션을 개발하는 시간이 수 주에서 수 시간으로 단축되고 비용도 기존 제품의 1/10 수준이 될 것이라고 주장했다.

구글은 상대적으로 사용하기 쉬운 인터페이스와 사용 카운팅, 제품 인식, 객체 감지 등의 보편적인 작업을 위한 사전 훈련된 머신러닝 모델 라이브러리를 제공함으로써 이런 효율성을 달성한다고 주장했다.

구글은 “또한 기존의 AutoML 또는 맞춤형 ML 모델을 버텍스 AI에서 버텍스 AI 비전 애플리케이션으로 가져오는 옵션을 제공한다. 늘 그래왔듯이, 모든 새로운 AI 제품은 구글의 AI 원칙을 고수할 것이다”라고 밝혔다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.