Offcanvas

데이터센터 / 빅데이터 | 애널리틱스 / 애플리케이션

DB2 10.5에 대한 IBM의 기대 ‘하둡 킬러’

2013.06.18 Joab Jackson  |  PCWorld
지난 14일 공개한 DB2의 업데이트에서, IBM은 BLU라는 코드명을 가진 가속 기술을 추가했다. 이를 통해 이 전통 있는 DBMS(database management system)는 대용량의 인메모리 데이터 분석을 실행함에 있어 더 나은 성능을 보여줄 수 있게 됐다.

IBM의 정보관리 소프트웨어 분야의 최고기술경영자 이며 부사장인 팀 빈센트는 “BLU는 분석 및 리포팅 워크로드에 있어 중대한 이점이 있다”라고 강조했다.

BLU(이는 원래 개발 코드명으로 처리속도가 빠르고 사용하기 쉬운 빅 데이터라는 의미를 가지고 있다)는 IBM R&D연구소에서 개발한 것으로, 데이터 압축, 병렬 벡터 프로세싱, 데이터 중복제거, 컬럼나 프로세싱(columnar processing)에 관련된 새로운 기술들은 합쳐놓은 것이다.

빈센트는 BLU가 데이터베이스 메모리 최적화를 구현하는데 주안점을 두고 있다고 설명했다. “BLU는 메모리에서 실행되겠지만 모든 자원을 메모리에 쏟아 부을 필요는 없다”라며 그는, BLU기술이 성능향상을 위해 SQL 쿼리를 튜닝해야 할 필요를 없애준다고 전했다.

IBM은 BLU로 인해 DB2 10.5는 25배 이상 데이터 분석을 빨리 할 수 있게 되었다고 주장했다. 또 이러한 성능상의 개선으로 인해 신속한 데이터 분석과 트랜젝션 프로세싱을 위해 필요한 오라클의 타임즈텐(Oracle’s TimesTen)과 같은 별도의 인메모리 데이터베이스를 구매할 필요가 없어졌다는 주장이다.

빈센트는 “기존의 비용모델 관점을 버리라고 말하는 것이 아니라 데이터베이스의 크기를 조정하여 모든 것이 메모리 안에 줄어들도록 하려는 것이다”라고 말했다.

IBM이 웹 상에서 BLU기술을 사용하는 32코어 시스템이 어떻게 1초도 안되어 10TB의 데이터 세트를 위한 쿼리를 처리하는 지에 대한 사례를 제공하고 있다.

빈센트는 “10TB에 있어 당신은 아마 날마다 데이터의 25%를 다루고 있을 것이다. 어쩌면 데이터 인메모리로 25%만 유지해도 될 것이다. 오늘날 5TB의 SSD, 1TB의 램이 깔린 최신 서버장비는 3만 5,000달러 이하에 구입할 수 있다”라고 말했다.


IBM의 BLU 가속 기술은 대규모 데이터 세트에 대한 DB2 쿼리 속도를 빠르게 해준다.

그에 따르면 DB2의 사용은 별도의 데이터 웨어하우스 운용을 위한 인건비를 낮출 수도 있다. 몇몇 경우에는 하둡의 데이터 처리 플랫폼의 대체물로도 기능할 수 있다는 설명이다.

신기술 중 하나로는 압축알고리즘이 있다. 이를 통해 데이터는 읽혀지기 전에 압축될 필요가 없게 된다. 빈센트는 데이터가 저장된 순서대로 압축된다며, 이는 다시 말해 쿼리에 WHERE절을 삽입하는 등의 작업이 데이터 세트의 압축을 풀지 않고도 실행 가능하다고 설명했다.

시간을 절감할 수 있는 또 다른 기법도 있다. 이 소프트웨어는 메타데이터 테이블을 유지하며 각 데이터 페이지나 데이터의 칼럼 마다 높고 낮은 키값을 표현한다. 따라서 쿼리가 실행될 때, 이 데이터베이스는 어떤 검색값이 데이터 페이지에 나타난다면 이를 확인할 수 있게 된다.

빈센트는 “페이지가 인메모리에 없다면, 이를 메모리로 읽어들일 필요가 없다. 이미 인메모리에 있는 상황이라면, 이를 CPU 버스를 끌고올 필요나 페이지 전체의 값을 분석하느라 CPU에 부하를 줄 필요가 없다. 이를 통해 CPU 효율과 대역폭을 향상시킬 수 있다”라고 말했다.

또 칼럼나 처리(columnar processing)를 통해, 쿼리는 데이터베이스 테이블의 모든 열(row)이 아닌 선택된 칼럼에 삽입될 수 있다. 이는 메모리의 더 많은 사용을 의미한다. 빈센트는 “매우 효율적인 알고리즘의 사용을 통해 어느 칼럼과 어느 칼럼 범위에 사용자가 캐시 메모리에 데이터를 저장하고 싶은지에 대해 결정할 수 있다”라고 설명했다.

하드웨어 측면에서, 이 소프트웨어는 병렬 벡터 처리 능력이 있어 SIMD를 사용하는 모든 멀티플 프로세서에 단 하나의 명령을 내릴 수 있다. SIMD는 인텔이나 파워PC의 칩셋에서 사용 가능한 기능이다. 이 소프트웨어는 시스템이 레지스터에 위치시킬 수 있는 많은 칼럼에 단 하나의 쿼리를 실행시킬 수 있다. 빈센트는 “이 레지스터는 시스템의 측면에 있어서는 가장 효율적인 메모리 활용이다”라고 설명했다.

업계의 경쟁
서버 메모리에 가능한 많은 데이터베이스를 집어넣는 새로운 방법을 연구하는 것은 비단 IBM뿐만이 아니다. 지난주 마이크로소프트는 자사의 2014년 SQL서버가 새로운 기술 요소를 포함하게 될 것이라고 발표했다.

이 기술 요소의 이름은 헤커톤(Hekaton)으로, 워킹 메모리 뿐만 아니라 엑셀의 파워피봇 기술로부터 차용된 칼럼나 처리 기술의 최적 사용을 그 골자로 한다.

모나쉬 리서치의 데이터베이스 분석가인 커트 모나쉬는 IBM의 DB2 10.5버전의 발표로 인해 “주요 IT기업 중 진정한 칼럼나 처리를 제공하지 않는 유일한 DBMS 벤더는 이제 오라클 뿐이다”라고 설명했다.

IBM 스스로도 DB2 10.5의 BLU 구성요소를 DB2 스마트클라우드 IaaS의 초석으로 이용해 데이터 리포팅 및 분석 업무의 개선을 꾀하고 있다. BLU 기술이 인포믹스와 같은 다른 IBM 데이터 저장 및 분석제품에 적용될 가능성도 충분하다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.