Offcanvas

BI / CIO / 빅데이터 | 애널리틱스 / 애플리케이션 / 오픈소스

SQL-온-하둡 엔진 BMT '임팔라·스파크·하이브는 어떻게 다른가'

2016.02.26 Thor Olavsrud  |  CIO


앳스케일에서 상품 관리 사업부 부사장을 맡고 있는 조쉬 클라허는 “우리가 실제 기업들의 경험에 기초해 자료를 개발함으로써 모든 기술 평가원들이 자신들의 평가 과정에 이를 사용할 수 있기를 원했다”라고 밝혔다.

테스트 팀은 3개의 대상 엔진을 모두 실험했고, 이들 모두가 기준 워크로드를 충분히 안정적으로 지원한다는 사실을 확인할 수 있었다. 그러나 모든 요구사항에 대해 최고의 성능을 보인 엔진은 없었다. 각 엔진은 각자의 ‘강점'을 가지고 있었으며, 실제 기업들의 활용사례 대부분은 이 세 엔진을 적절히 혼합함으로써 최선의 성과를 낼 수 있는 것들이었다.

하이브의 경우 일반적으로 가장 기본적인 SQL-온-하둡 엔진으로 평가받고 있지만, 벤치마크에서는 가장 느린 속도를 기록했으며 따라서 쌍방형 쿼리 작업에는 부족한 부분이 있는 것으로 확인됐다.

마리아니는 “하이브 테즈(Hive Tex)만을 통해 쌍방형 쿼리를 처리할 경우, 당신이 구현할 수 있는 최대 속도는 2.4초가 한계다”라고 설명했다.

속도 측면에서 아쉬움이 있긴 하지만 안정성 부분에선 하이브의 점수가 가장 높았다. 다수 쿼리 유형에 걸친 일관성을 구현하는데 있어서는 최적의 엔진인 것이다.

마리아니는 “하이브 테즈는 거북이 같다. 재빠르진 않지만, 작업을 끝내지 못하는 경우도 없다. 가장 안정적인 엔진이다”라고 평가했다.

반면 보다 작은 규모의 데이터 셋을 다룰 때는 임팔라와 스파크가 더 뛰어난 성능을 보여줬다. 마리아니는 “워크로드 전 범위를 아우르는 측면에서는 임팔라가 우세를 보였지만, 스파크의 경우 1.5 버전에서 1.6 버전으로 넘어오며 막대한 퍼포먼스 개선에 성공했다. 그 개발 과정에 오픈소스 커뮤니티의 적극적인 참여가 이뤄진 덕택으로 보인다. 이런 긍정적인 흐름은 앞으로도 계속될 것이라 생각된다”고 전망했다. 임팔라의 경우에도 최근 그것을 아파치 소프트웨어 재단(Apache Software Foundation)에 기부하겠다는 클라우데라의 제안이 공개되며 그 개발이 새로운 전환점을 맞이할 것으로 기대를 모으고 있다.

대규모의 사용자 지원을 요하는 활용사례들의 경우, 현재로서는 임팔라가 가장 뛰어난 역량을 보여줬다.

마리아니는 “동시 실행의 경우 임팔라의 역량이 압도적이었다. 대규모의 사용자 집단이 소규모의, 빠른 쿼리를 구동하는 작업을 필요로 하는 기업들이라면, 임팔라가 스파크 보다 훨씬 더 만족스러울 것이다”고 말했다.

그는 “속도보다 안정성과 신뢰도가 더 중요한 경우라면, 하이브 테즈를 데이터 파이프 엔진으로 이용하는 것이 현명하다. 대형 배치(batch) 워크로드에는 하이브 테즈가 가장 적합한 엔진이다. 그러나 내 웨어하우스에 BI 사용자들이 접근하는 것을 보장하고자 한다면, 스파크나 임팔라가 보다 나은 선택이다”고 덧붙여 설명했다.

마리아니는 이번 벤치마크에서 아파치 드릴(Apache Drill)이나 아파치 프레스토(Apache Presto)와 같은 엔진들을 다루지 않았다고 이야기하며 해당 엔진들의 경우 추후 시험을 진행할 예정이라고 밝혔다.

그는 “우리의 벤치마크는 현 시점에서의 결과이며, 앞으로 배포가 계속되며 양상은 얼마든지 변화할 수 있음을 참고하길 바란다”라는 설명도 덧붙였다. ciokr@idg.co.kr
 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.