Offcanvas

빅데이터 | 애널리틱스 / 애플리케이션 / 클라우드

'클라우드 DW' 첫 유니콘 나왔다··· 스노우플레이크 "공격적 시장 확대"

2018.01.29 Marc Ferranti  |  IDG News Service
스노우플레이크(Snowflake)가 2억 6,300만 달러 투자를 유치하면서 '유니콘' 대열에 합류했다. 클라우드 기반 데이터 웨어하우스 스타트업으로는 첫 사례다. 스노우플레이크는 올 해 글로벌 시장으로 확대하고 지역간 데이터 공유 기능을 제공해 상호 운용성을 개선한다는 구상이다.

스노우플레이크가 최근 공개한 재정 보고서를 보면, 총 4억 7,300만 달러의 투자를 확보했다. 기업 가치는 15억 달러에 달한다. 이번 벤처 자금 라운드는 ICONIQ 캐피탈(ICONIQ Capital), 알티미터 캐피탈(Altimeter Capital), 신규 기업인 시쿼이어 캐피탈(Sequoia Capital)이 주도했다. 2012년에 설립된 이 기업은 처음부터 클라우드에 맞춰 데이터 웨어하우스를 개발했다. 처리할 수 있는 데이터의 양과 동시 쿼리(Query) 수에 대한 제한을 없애 큰 주목을 받았다.

스노우플레이크란?
스노우플레이크는 기본적으로 ACID(Atomicity, Consistency, Isolation, Durability)를 준수하는 MPP(Massively Parallel Processing) 분석 관계형 데이터베이스다. 배리언트(variant) 사용자 정의 데이터 형태를 이용해 SQL뿐만 아니라 반구조화된 데이터를 JSON 등의 형식으로 처리한다. 오늘날 기업 환경에는 기계가 생성한 반구조화된 데이터가 넘쳐나고 있으므로, 이처럼 SQL과 반구조화된 데이터를 함께 처리하는 기술이 필수적이다.

독특한 3-계층 아키텍처를 가진 스노우플레이크는 수 페타바이트(Petabyte)의 데이터에 대해 수 백 개의 동시 쿼리를 실행할 수 있다. 사용자는 클라우드의 비용 효율성과 탄력성 혜택을 누릴 수 있어 필요에 따라 가상 웨어하우스를 만들고 없앨 수 있다. 심지어 신용카드 한 장으로 셀프 프로비저닝(Self-provisioning)이 가능하면서도 AWS EC2 인스턴스를 구성하는 정도의 작업만 하면 된다.



스노우플레이크의 CEO 밥 머글리아에 따르면, SOD(Snowflake on Demand) 셀프 서비스 옵션은 중소기업에 매력적이지만, 클라우드로 이행하는 은행 등의 대기업에도 적합하다. 머글리아는 2014년 스노우플레이크에 합류하기 전까지 마이크로소프트에서 20년 이상 근무했고 주니퍼(Juniper)에서도 2년 동안 근무했다.

그는 "데이터 웨어하우스는 기업 IT 인프라의 중심점 중 하나다. 데이터 웨어하우스가 계속 온프레미스로 운영되면 이 데이터 웨어하우스를 중심으로 하는 엄청난 수의 시스템까지 지속적으로 온프레미스로 운영해야 한다. 따라서 미리 클라우드로 이동하는 것이 좋다"라고 말했다.

클라우드의 비용 효율성은 자금 여력이 있는 은행 등 대기업에도 매력적이다. 머글리아는 "금융 시장 분석가가 수 천 개의 노드를 2시간 동안만 사용할 경우, 이를 지원하기 위한 시스템을 1년 365일 동안 운영하는 것보다는 임시로만 사용하는 것이 더 효율적이다"라고 말했다.

스노우플레이크, 전 세계로 시장 확대 예정
현재 스노우플레이크는 미국 서부, 미국 동부, 프랑크푸르트, 시드니 등 4개 지역에서 운영되고 있다. 머글리아는 "수 주 안에 다른 유럽 지역에서도 운영될 것이다. 새 투자를 받았으므로, 1년 안에 아시아와 남아메리카 지역도 추가할 것이다"라고 말했다. 이 기업의 야심은 이뿐만이 아니다.

- 교차 지역 데이터 복제 능력 추가. 현재 스노우플레이크의 데이터 쉐어하우스(Data Sharehouse)는 아마존 내에서만 고객들 사이에서 실시간 데이터 공유를 허용한다. 대륙을 초월하는 복제 기능을 통해 글로벌 기업을 추가로 고객으로 영입한다는 구상이다.
- 다른 클라우드 업체서 운영. 머글리아는 제공자에 대해서는 함구했지만 마이크로소프트 애저(Azure)일 가능성이 높다. 머글리아에 따르면 교차 제공자 복제도 개발 중이다.
- 시스템이 고객이 사용하는 다양한 툴과 상호 운용하는 기능을 지속적으로 개발. 고객은 심지어 업체가 업데이트를 중단한 후에도 특정 데이터베이스 툴과 부가기능을 수 년 동안 사용하는 경우가 많고 이와 호환되는 새로운 시스템을 원하므로 이를 지원해야 한다.

경쟁자들의 등장
하지만 온라인 데이터 웨어하우스 시장을 놓고 경쟁자가 점점 늘어나고 있다. 예를 들어, 스노우플레이크는 마이크로소프트 애저의 SQL 데이터 웨어하우스(SQL Data Warehouse), 구글의 빅쿼리(BigQuery), 클라우드 SQL(Cloud SQL, 사용자가 오라클(Oracle)의 마이SQL 운용 가능), 아마존의 레드시프트(RedShift)와 경쟁해야 한다.

하지만 머글리아는 스노우플레이크의 강점으로 독특한 아키텍처를 꼽았다. 그는 "이를 통해 클라우드에서 운영하는 상태에서도 전통적인 SQL 데이터베이스보다 더 크게 확장할 수 있다. 특별한 교육이나 하둡(Hadoop) 등 noSQL 대안 같은 기술도 필요 없다"라고 말했다.

대부분의 전통적인 데이터베이스뿐만 아니라 레드시프트와 여러 NoSQL 시스템은 비공유 아키텍처를 사용한다. 시스템의 모든 처리 노드에 데이터의 부분 집합을 분배하므로, 공유 디스크 시스템의 통신 병목이 없다. 대신 이런 시스템의 문제는 연산을 저장소에 상관 없이 확장할 수 없다. 그래서 많은 시스템에서 과도한 프로비저닝이 발생하고 있다는 것이 스노우플레이크의 주장이다.



머글리아는 "이뿐만이 아니다. 추가된 노드의 수에 상관 없이 이런 시스템에 사용하는 RAM 때문에 처리할 수 있는 동시 쿼리의 양이 제한된다. 그래서 오늘날 고객은 용량이 부족한 기존 시스템을 넘어 클라우드로 이행하고 이를 통해 기존의 한계를 타파하고 싶어한다"라고 말했다. 스노우플레이크는 3-계층 아키텍처를 사용해 이런 문제를 해결하도록 개발됐다.

- 테이블 데이터와 쿼리 결과를 보관하기 위해 아마존 S3를 사용하는 데이터 저장 계층
- 스노우플레이크가 가상 웨어하우스라고 말하는 탄력적인 가상머신 클러스터들 내에서 쿼리 실행을 처리하는 가상 웨어하우스 계층
- 트랜잭션(Transaction), 쿼리, 가상 웨어하우스, 데이터베이스 스키마(Scheme) 등의 메타데이터(Metadata), 액세스 제어를 관리하는 클라우드 서비스 계층

이 아키텍처를 통해 복수의 가상 웨어하우스가 동시에 같은 데이터로 작업할 수 있기 때문에 스노우플레이크는 비공유 경쟁사보다 동시 실행을 크게 확대할 수 있다. 단, 3-계층 아키텍처는 레이턴시(Latency) 문제로 이어질 가능성이 있다.

머글리아는 "시스템 성능을 유지하기 위해 SQL 쿼리의 프리디케이트(Predicate)를 스캔할 데이터를 판단하는 메타데이터와 함께 사용하는 서비스 계층에 쿼리 컴파일러(Compiler)를 확보했다. 가능한 작은 데이터를 스캔하는 것이 기술이다"라고 말했다.

현재의 스노우플레이크는 OLTP 데이터베이스가 아니다. 분석 특성을 가진 작업에서만 제한적으로 오라클 또는 SQL 서버와 경쟁한다. 하지만 스노우플레이크는 스스로 새로운 지평을 열고 있다. 머글리아는 "글로벌 기업을 운영하는 측면에서 글로벌 데이터베이스를 확보하는 것은 매우 중요하다. 우리가 나아가는 방향도 바로 그 쪽이다"라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.