Offcanvas

빅데이터 | 애널리틱스 / 신기술|미래 / 애플리케이션 / 클라우드

'하둡 사용자 유혹하는' 구글의 빅쿼리 업데이트

2013.03.15 Joab Jackson  |  IDG News Service
구글 빅쿼리(BigQuery)가 다중 데이터 테이블를 쿼리할 수 있게 됐다. 다분히 아파치 하둡 이용자를 겨냥한 행보로 풀이된다.

구글 빅쿼리 프로덕트 매니저 주카이 퀙은 블로그 포스트를 통해 이번 업데이트에 대해 다음과 같이 언급했다.

"테라바이트 크기의 태이블을 연결시키는 작업은 데이터 애널리스트들에게 그야말로 어려운 작업이었다. 복잡한 맵리듀스 개발 스킬이나 강력한 하드웨어, 방대한 시간이 요구되곤 햇다. 이들 3가지가 한꺼번에 요구되는 경우도 있었다. 이제 빅쿼리를 통해 기업은 SQL과 같은 쿼리를 이용해 인사이트를 전달할 수 있게 됐다. 훨씬 적은 자원만으로, 더 빠른 시간에 가능하다."

구글 측은 이어 하둡 대신 빅쿼리를 이용함으로써 비용을 절감할 수 있다고 주장했다. 개별 하둡 지원 콤포넌트를 구동하기 위한 연산 비용을 지불하는 대신, 처리되는 쿼리에 대해서만 비용을 지불하면 된다는 이유에서다.

2010년 출범한 빅쿼리에 대해 구글은 대용량 데이터를 처리할 수 있는 쌍방향 서비스라고 홍보하고 있다. 이용자가 데이터 세트를 구글에 업로드하고 빅쿼리 API를 이용해 이에 대한 쿼리를 던지는 방식으로 이용할 수 있다.

이번 업데이트는 빅쿼리의 능력을 확대하는 것으로, 특히 새로운 조인(JOIN) 항목은 다중 데이터 소스를 가로질러 쿼리 결과를 조합할 수 있게 해준다. 기존 빅쿼리의 조인 항목은 8MB 이하의 데이터 세트에 대해서만 이용할 수 있었지만, 새로운 조인 이치(JOIN EACH) 항목에서는 데이터 용량 제한이 없어졌다.

이는 빅쿼리가 하둡의 맵리듀스 대체품으로 활용될 가능성을 시사한다. 현재 많은 하둡 업무는 2개 이상의 데이터 세트에서 비롯된 대용량 데이터를 조합해 이뤄지곤 한다. 개발자는 이를 위해 맵리듀스 프로세스를 처음부터 작성해야 하는데, 이는 많은 시간과 자원을 요구하곤 했다. 반면 조인 이치는 공통 키를 공유하는 2개의 대용량 데이터베이스 테이블로부터 단일 결과를 산출할 수 있다.

구글의 클라우드 플랫폼 개발자 프로그램 엔지니어 마이클 마누체리는 이번 업데이트에 대해 다음과 같이 설명했다.

"새로운 기능성이 추가되면서 이제 사용자는 SQL과 유사한 쿼리나 통합 써드파티 도구를 이용해 멀티 테라바이트 데이터세트에 대한 총계 분석을 이용할 수 있을 것이다. 복잡한 코딩 프로젝트를 출범시킬 필요가 없어지는 것이다."

빅쿼리는 또한 쿼리 결과를 그룹화할 더 나은 방안을 제공할 수 있다. 그룹 바이 이치(The GROUP BY EACH) 명세서는 단일 결과 세트에 그룹화될 수 있는 분리된 독립체 숫자를 늘려준다.

한편 이번 빅쿼리 업데이트에는 다른 새로운 기능들도 포함돼 있다. 타임스탬프를 위한 지원이 추가된 것도 그중 하나다. 이제 타임스탬프 데이터에 쿼리할 수 있는 것은 물론, 다른 시스템으로부터 빅 데이터가 타임스탬프를 임포트할 수 있다. 이 밖에 기존 테이블에 칼럼을 추가할 수 있으며 특정 데이터세트에 북마크할 수도 있다. 또 새로운 데이터세트에의 접근이 허용될 때 자동화된 이메일을 받을 수 있다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.