SQL-온-하둡 엔진 임팔라, 스파크, 하이브를 벤치마크테스트한 결과, 이들 각각은 BI 워크로드에 대해서 고유의 강점과 약점을 가지고 있는 것으로 나타났다.
이미지 출처 : Thinkstock
BI 온 하둡(BI on Hadoop) 구현 작업을 전문적으로 다루는 신생업체인 앳스케일(AtScale)은 최근 새롭게 공개한 벤치마크(benchmark)를 통해 시장의 대표적인 세 SQL-온-하둡(SQL-on-Hadoop) 엔진인 아파치 임팔라 2.3(Apache Impala 2.3), 아파치 스파크 1.6(Apache Spark 1.6), 아파치 하이브 1.2(Apache Hive 1.2)가 각각 강점과 약점을 지니고 있으며, 그에 따라 서로 다른 비즈니스 인텔리전스(BI)에 적합할 수도 그렇지 않을 수도 있다고 밝혔다.
앳스케일의 설립자이자 CEO인 데이브 마리아니는 “모든 요구사항을 충족시키는 완벽한 엔진은 어디에도 없다는 것이 연구의 결론이다. 우리 역시 고객들에게 제공하는 배치 서비스에 여러 개의 엔진을 적용했다”라고 설명했다.
앳스케일의 비즈니스 인텔리전스 온 하둡 벤치마크는 테크놀로지 평가원들이 자사의 BI 활용사례에 가작 적합한 SQL-온-하둡 테크놀로지를 선정할 수 있도록 지원하는 것을 목표로 구성된 가이드다. 앳스케일의 테스트는 스타 스키마 벤치마크(SSB, Star Schema Benchmark) 데이터 셋을 활용했고, 시장에서 폭넓게 이용되고 있는 TPCH 데이터에 기반을 뒀으며, 전형적인 BI 지향 데이터 레이아웃을 정확하게 재연할 수 있도록 조정 과정을 거쳐 이뤄졌다. 데이터 셋은 테스트 팀이 대규모의 테이블 전역에 걸쳐 쿼리를 테스트할 수 있도록 했다. 라인오더(lineorder) 테이블에는 60 억에 가까운 행이, 대형 커스터머 테이블에는 10억 이상의 행이 각각 포함돼 있다.
SQL-온-하둡 엔진들은 서로 다른 ‘최적 궁합'의 워크로드를 지닌다
앳스케일은 SQL-온-하둡 엔진과 BI 워크로드들 간의 적합성을 확인하기 위한 기준으로 3개의 요청을 설정했다.
• 빅데이터 성능. SQL-온-하둡 엔진은 수 십억, 수 조의 데이터 행을 오류 없이 일관되게 분석할 수 있어야 하며, 그 응답 시간은 10~100초 대를 넘겨선 안된다.
• 소규모 데이터 신속하게 처리. SQL-온-하둡 엔진은 알려진 쿼리 패턴에 대해서는 쌍방으로 성능을 전달할 수 있어야 한다. 즉 소규모(수 억 행 규모)의 데이터 셋에 대해서는 늦어도 수 초 내에 결과를 보여줄 수 있어야 하는 것이다.
• 다수 사용자에 대한 안정적인 지원. 기업 BI는 수 백 혹은 수 천의 데이터 작업자들을 사용자 기반으로 삼는다. 이들을 지원하기 위해 기저의 SQL-온-하둡 엔진은 고도의 동시 발생적 분석 워크로드 하에서도 안정적인 성능을 구현할 수 있어야 한다.
야후!(Yahoo!)에서 세계에서 가장 큰 규모로 알려진 BI용 OLAP 큐브를 구축하는 프로젝트를 이끈 바 있는 인물인 마리아니는 이 세 기준이 BI 온 하둡을 다루는 일반적인 기업들이 가장 주요하게 필요로 하는 기능들이라고 설명했다. 이 기준은 금융, 의료, 소매, 통신 등 다양한 분야의 수많은 기업들과 작업을 진행해온 앳스케일 테스트 팀의 경험에 기초해 만들어진 것이다.