2011.06.29

부상하는 클라우드 최적화 DB, 주목 받는 신생업체들

James Niccolai | IDG News Service

전통적인 관계형 데이터베이스 관리 시스템을 클라우드 환경에 적용하면서 드러난 단점을 해결하기 위해 새로운 데이터베이스 기술을 개발 중인 업체들이 있다. 그리고 이들 중 4개 업체가 최근 개최된 기가옴 스트럭처(GigaOm Structure) 컨퍼런스에 패널로 참석해 그 방법을 설명했다.

이들이 풀고자 하는 가장 기본적인 문제는 방대한 상용 x86 서버 클러스터에 RDBMS 시스템을 확장하는데 있어서 겪는 어려움이다. 이런 문제들을 탄력적으로 해소해 기업들이 수요에 맞춰 인프라를 늘리거나 줄일 수 있도록 하는 것이다.

MySQL에서 수석 아키텍트로 일했고 관계형 데이터베이스의 초기 개발자 중 한 명인 짐 스타키는 "기존의 관계형 데이터베이스 관리 시스템은 진정한 의미로 확장이 불가능하다는 게 근본 문제이다"라고 설명했다.

SQL을 사용하는 비관계형 데이터베이스
스타키는 님버스DB(NimbusDB)의 설립자 겸 CTO로 관계형 데이터베이스 기술의 '급진적인 재시작'과 관련된 문제 해소에 노력하고 있다. 스타키에 따르면, 님버스DB의 소프트웨어는 개발자가 표준 SQL 쿼리 언어를 사용할 수 있다는 점을 제외하고는 기존 시스템과 공통된 부분이 없다.

님버스DB는 새로운 하드웨어를 '플러그인'하는 것만으로 확장이 가능하고, 분산된 환경에서 많은 수의 데이터베이스를 자동으로 관리해주는 데이터베이스 소프트웨어를 제공하는데 목표를 두고 있다. 개발자들은 소규모로 로컬 컴퓨터에서 애플리케이션을 개발한 후, 데이터베이스를 오프라인으로 전환할 필요 없이 클라우드로 이전할 수 있다.

스타키는 "클라우드 컴퓨팅의 가장 큰 장점 중 하나는 모든 결정을 사전에 내릴 필요가 없다는 것이다. 쉬운 것부터 시작해 오프라인으로 전환하지 않고 다른 환경으로 이전이 가능하다"고 강조했다.

님버스DB의 소프트웨어는 아직 초기 단계이며, 정식 출시 일정에 대해서도 아직 밝히지 않고 있다. 스타키는 초기 몇 노드는 무료로 제공하고, 추가 용량에 대해 요금을 부과하는 방식을 고려하고 있으며, 서비스보다는 소프트웨어 제품에 가깝겠지만, 오픈소스는 아니라고 설명했다.

제라운드(Xeround) 또한 님버스DB가 다루고 있는 유사한 문제를 해소하는데 목표를 두고 있다. 그러나 제라운드는 이미 MySQL 서비스에 호스팅해 2,000명의 고객에게 베타 버전을 제공하고 있으며, 지난 주에 출시가 이뤄진 상태라고 말했다. 친숙한 SQL 코딩을 기반으로 클라우드의 탄력성을 제공하기 원한다는 점은 님버스DB와 같다.

CEO 라지 샤리르는 "여러 가상 노드와 데이터센터에 분산되어 인메모리를 실행하는 분산형 데이터베이스로, 동시에 많은 고객들에게 서비스를 제공할 수 있다"며, "확장과 탄력성은 서비스가 자동으로 처리하게 된다"고 설명했다.

인메모리 기반의 실시간 분석도 인기
제라운드는 트랜잭션 워크로드를 대상으로 설계됐으며, 데이터베이스의 최적 용량은 2GB에서 50GB이다. 현재 유럽과 미국을 대상으로 서비스를 제공 중이고, 아마존과 랙스페이스(Rackspace)를 포함 몇몇 클라우드 업체에서 호스팅하고 있다.

제라운드는 어떤 지역의 데이터센터에서 구동되는가는 상관없는 이른바 “클라우드 불가지론적”이다. 그러나 일반적인 클라우드 데이터베이스 고객들은 서로 인접해 있거나 같은 장소인 데이터센터에서 자신들의 애플리케이션과 데이터베이스를 실행할 필요가 있다. 성능 때문이다.

샤리르는 "아마존 이스트나 아마존 유럽에서 애플리케이션을 실행하고 있다면, 우리가 있는 지점과 근접하도록 하는 게 바람직하다. 또 과금 대상인 로드(데이터)는 같은 장소일 필요가 있다"고 덧붙였다.

파액셀(ParAccel)의 소프트웨어는 제라운드와 달리 애널리틱스 워크로드를 실행할 수 있도록 설계되어 있으며, 최적 용량은 대략 25TB이다. 파액셀의 CTO 베리 제인은 "대용량 데이터(Big Data)의 전형이라고 보면 된다"고 강조했다. 파액셀은 금융 서비스, 소매, 온라인 광고 회사를 포함, 많은 데이터를 분석해야 하는 기업들을 고객으로 두고 있다.

예를 들어 이 회사의 고객사인 인터클릭(interclick)은 온라인 광고 회사들이 어떤 광고가 최종 사용자에게 도달했는지 파악할 수 있도록 파액셀을 활용해 통계나 클릭률 데이터를 분석하고 있다. 이런 작업은 실시간에 가깝게 이뤄져야 한다. 따라서 인터클릭은 32노드 클러스로 2TB의 인메모리 데이터베이스를 실행한다. 이 밖에도 디스크 기반의 아키텍처를 사용해 대형 데이터 세트를 처리하는 고객도 있다.

파액셀은 개발자들이 SQL 쿼리를 쓸 수 있도록 하고 있다. 그러나 확장을 통해 대용량 데이터 분석을 목적으로 맵리듀스(MapReduce) 프레임워크를 사용할 수 있다.

제인은 "SQL은 강력한 언어다. 아주 정교한 작업에도 사용하기 간편하다. 하지만 SQL이 할 수 없는 종류의 작업도 있다. 따라서 파액셀은 서버 클러스트 내외부로 테라바이트에 달하는 데이터를 이전하도록 하기보다는 확장성을 제공해 맵리듀스 형식의 기능을 데이터베이스에서 직접 처리할 수 있도록 하고 있다. 그리고 솔직히 말해 다른 경쟁업체들도 이런 역량을 제공한다"고 말했다.

기업 내부나 퍼블릭 클라우드용 소프트웨어를 만드는 클라우던트(Cloduant)는 이번 패널에서 SQL을 기반으로 하지 않은 데이터베이스를 개발한 유일한 업체였다. 구조화된 또는 비구조화된 데이터 모두를 관리하고, 애플리케이션 수명주기를 줄여주는 것이 특징이다.

SQL 없이 대용량 데이터 처리
클라우던트의 공동 설립자이자 최고 과학자인 마이크 밀러는 "애플리케이션은 복잡한 데이터 모델링 단계를 거칠 필요가 없다. 프로그래밍 인터페이스는 HTTP이다. 즉 원하는 브라우저를 이용해 데이터베이스에 사인업을 하고 대화를 시작하며, 이런 방식으로 애플리케이션을 구축할 수 있다는 이야기다. 우리는 수위를 낮춰 배치를 쉽게 하도록 하기 위해 노력했다."고 설명했다. 또 "이 밖에도 검색과 실시간 분석을 통합해 웨어하우스를 기반으로 한 개념을 데이터베이스 그 자체로 옮기려 했다"고 덧붙였다.

클라우던트의 소프트웨어는 아마존과 소프트레이어 테크놀러지(SoftLayer Technologies)의 퍼블릭 클라우드에 수만 개의 애플리케이션을 호스팅하고 있다. 클라우던트의 데이터베이스 용량은 몇 기가바이트에서 100TB까지 다양하다. 고객들은 광고 분석, 데이터마트 형식의 애플리케이션, 소셜 그래프를 바탕으로 한 분석 등을 목적으로 한 애플리케이션을 실행하고 있다. 하둡(Hadoop)을 사용하는 추출, 전환, 로드로 이어지는 워크플로우가 아닌 실시간 워크플로우를 기반으로 한다.

하지만 참가자들은 클라우드 데이터베이스는 확장 문제를 해결해 주지만, 이와 동시에 새로운 도전을 제시한다고 입을 모았다. 제인에 따르면 퍼블릭 클라우드의 서버 하드웨어 품질이 종종 장애가 되곤 한다. 따라서 빠른 속도로 분석 작업을 해야 하는 기업들은 독자적인 하드웨어를 구입해 관리하는 것을 원할 수 있다는 것.

또 밀러는 많은 서비스 공급업체들이 '클라우드 불가지론'을 주창하고 있지만, 현실은 다른 경우가 많다고 설명했다. 클라우드 소프트웨어 업체들은 자신들의 데이터베이스 소프트웨어에서 최대한의 성능을 뽑아내기 위해 아마존 EC2같은 서비스 이면에 자리잡고 있는 아키텍처를 파악해야 한다. 따라서 많은 '역 엔지니어링' 작업을 해야 할 수 있다.

샤리르와 제인은 여전히 대용량 데이터 분석은 자사 제품에 절대적으로 득이 되는 애플리케이션이 될 것이라고 낙관하고 있다. 스타키의 경우는 '웹'이다. 스타키는 "웹에 있는 사람들은 동일한 문제를 갖고 있다. 데이터베이스 시스템으로 이끄는 가는 파이프와 같다. 데이터베이스의 확장에 문제가 있고, 이런 문제는 많은 곳에서 나타나고 있다"고 지적했다. ciokr@idg.co.kr




2011.06.29

부상하는 클라우드 최적화 DB, 주목 받는 신생업체들

James Niccolai | IDG News Service

전통적인 관계형 데이터베이스 관리 시스템을 클라우드 환경에 적용하면서 드러난 단점을 해결하기 위해 새로운 데이터베이스 기술을 개발 중인 업체들이 있다. 그리고 이들 중 4개 업체가 최근 개최된 기가옴 스트럭처(GigaOm Structure) 컨퍼런스에 패널로 참석해 그 방법을 설명했다.

이들이 풀고자 하는 가장 기본적인 문제는 방대한 상용 x86 서버 클러스터에 RDBMS 시스템을 확장하는데 있어서 겪는 어려움이다. 이런 문제들을 탄력적으로 해소해 기업들이 수요에 맞춰 인프라를 늘리거나 줄일 수 있도록 하는 것이다.

MySQL에서 수석 아키텍트로 일했고 관계형 데이터베이스의 초기 개발자 중 한 명인 짐 스타키는 "기존의 관계형 데이터베이스 관리 시스템은 진정한 의미로 확장이 불가능하다는 게 근본 문제이다"라고 설명했다.

SQL을 사용하는 비관계형 데이터베이스
스타키는 님버스DB(NimbusDB)의 설립자 겸 CTO로 관계형 데이터베이스 기술의 '급진적인 재시작'과 관련된 문제 해소에 노력하고 있다. 스타키에 따르면, 님버스DB의 소프트웨어는 개발자가 표준 SQL 쿼리 언어를 사용할 수 있다는 점을 제외하고는 기존 시스템과 공통된 부분이 없다.

님버스DB는 새로운 하드웨어를 '플러그인'하는 것만으로 확장이 가능하고, 분산된 환경에서 많은 수의 데이터베이스를 자동으로 관리해주는 데이터베이스 소프트웨어를 제공하는데 목표를 두고 있다. 개발자들은 소규모로 로컬 컴퓨터에서 애플리케이션을 개발한 후, 데이터베이스를 오프라인으로 전환할 필요 없이 클라우드로 이전할 수 있다.

스타키는 "클라우드 컴퓨팅의 가장 큰 장점 중 하나는 모든 결정을 사전에 내릴 필요가 없다는 것이다. 쉬운 것부터 시작해 오프라인으로 전환하지 않고 다른 환경으로 이전이 가능하다"고 강조했다.

님버스DB의 소프트웨어는 아직 초기 단계이며, 정식 출시 일정에 대해서도 아직 밝히지 않고 있다. 스타키는 초기 몇 노드는 무료로 제공하고, 추가 용량에 대해 요금을 부과하는 방식을 고려하고 있으며, 서비스보다는 소프트웨어 제품에 가깝겠지만, 오픈소스는 아니라고 설명했다.

제라운드(Xeround) 또한 님버스DB가 다루고 있는 유사한 문제를 해소하는데 목표를 두고 있다. 그러나 제라운드는 이미 MySQL 서비스에 호스팅해 2,000명의 고객에게 베타 버전을 제공하고 있으며, 지난 주에 출시가 이뤄진 상태라고 말했다. 친숙한 SQL 코딩을 기반으로 클라우드의 탄력성을 제공하기 원한다는 점은 님버스DB와 같다.

CEO 라지 샤리르는 "여러 가상 노드와 데이터센터에 분산되어 인메모리를 실행하는 분산형 데이터베이스로, 동시에 많은 고객들에게 서비스를 제공할 수 있다"며, "확장과 탄력성은 서비스가 자동으로 처리하게 된다"고 설명했다.

인메모리 기반의 실시간 분석도 인기
제라운드는 트랜잭션 워크로드를 대상으로 설계됐으며, 데이터베이스의 최적 용량은 2GB에서 50GB이다. 현재 유럽과 미국을 대상으로 서비스를 제공 중이고, 아마존과 랙스페이스(Rackspace)를 포함 몇몇 클라우드 업체에서 호스팅하고 있다.

제라운드는 어떤 지역의 데이터센터에서 구동되는가는 상관없는 이른바 “클라우드 불가지론적”이다. 그러나 일반적인 클라우드 데이터베이스 고객들은 서로 인접해 있거나 같은 장소인 데이터센터에서 자신들의 애플리케이션과 데이터베이스를 실행할 필요가 있다. 성능 때문이다.

샤리르는 "아마존 이스트나 아마존 유럽에서 애플리케이션을 실행하고 있다면, 우리가 있는 지점과 근접하도록 하는 게 바람직하다. 또 과금 대상인 로드(데이터)는 같은 장소일 필요가 있다"고 덧붙였다.

파액셀(ParAccel)의 소프트웨어는 제라운드와 달리 애널리틱스 워크로드를 실행할 수 있도록 설계되어 있으며, 최적 용량은 대략 25TB이다. 파액셀의 CTO 베리 제인은 "대용량 데이터(Big Data)의 전형이라고 보면 된다"고 강조했다. 파액셀은 금융 서비스, 소매, 온라인 광고 회사를 포함, 많은 데이터를 분석해야 하는 기업들을 고객으로 두고 있다.

예를 들어 이 회사의 고객사인 인터클릭(interclick)은 온라인 광고 회사들이 어떤 광고가 최종 사용자에게 도달했는지 파악할 수 있도록 파액셀을 활용해 통계나 클릭률 데이터를 분석하고 있다. 이런 작업은 실시간에 가깝게 이뤄져야 한다. 따라서 인터클릭은 32노드 클러스로 2TB의 인메모리 데이터베이스를 실행한다. 이 밖에도 디스크 기반의 아키텍처를 사용해 대형 데이터 세트를 처리하는 고객도 있다.

파액셀은 개발자들이 SQL 쿼리를 쓸 수 있도록 하고 있다. 그러나 확장을 통해 대용량 데이터 분석을 목적으로 맵리듀스(MapReduce) 프레임워크를 사용할 수 있다.

제인은 "SQL은 강력한 언어다. 아주 정교한 작업에도 사용하기 간편하다. 하지만 SQL이 할 수 없는 종류의 작업도 있다. 따라서 파액셀은 서버 클러스트 내외부로 테라바이트에 달하는 데이터를 이전하도록 하기보다는 확장성을 제공해 맵리듀스 형식의 기능을 데이터베이스에서 직접 처리할 수 있도록 하고 있다. 그리고 솔직히 말해 다른 경쟁업체들도 이런 역량을 제공한다"고 말했다.

기업 내부나 퍼블릭 클라우드용 소프트웨어를 만드는 클라우던트(Cloduant)는 이번 패널에서 SQL을 기반으로 하지 않은 데이터베이스를 개발한 유일한 업체였다. 구조화된 또는 비구조화된 데이터 모두를 관리하고, 애플리케이션 수명주기를 줄여주는 것이 특징이다.

SQL 없이 대용량 데이터 처리
클라우던트의 공동 설립자이자 최고 과학자인 마이크 밀러는 "애플리케이션은 복잡한 데이터 모델링 단계를 거칠 필요가 없다. 프로그래밍 인터페이스는 HTTP이다. 즉 원하는 브라우저를 이용해 데이터베이스에 사인업을 하고 대화를 시작하며, 이런 방식으로 애플리케이션을 구축할 수 있다는 이야기다. 우리는 수위를 낮춰 배치를 쉽게 하도록 하기 위해 노력했다."고 설명했다. 또 "이 밖에도 검색과 실시간 분석을 통합해 웨어하우스를 기반으로 한 개념을 데이터베이스 그 자체로 옮기려 했다"고 덧붙였다.

클라우던트의 소프트웨어는 아마존과 소프트레이어 테크놀러지(SoftLayer Technologies)의 퍼블릭 클라우드에 수만 개의 애플리케이션을 호스팅하고 있다. 클라우던트의 데이터베이스 용량은 몇 기가바이트에서 100TB까지 다양하다. 고객들은 광고 분석, 데이터마트 형식의 애플리케이션, 소셜 그래프를 바탕으로 한 분석 등을 목적으로 한 애플리케이션을 실행하고 있다. 하둡(Hadoop)을 사용하는 추출, 전환, 로드로 이어지는 워크플로우가 아닌 실시간 워크플로우를 기반으로 한다.

하지만 참가자들은 클라우드 데이터베이스는 확장 문제를 해결해 주지만, 이와 동시에 새로운 도전을 제시한다고 입을 모았다. 제인에 따르면 퍼블릭 클라우드의 서버 하드웨어 품질이 종종 장애가 되곤 한다. 따라서 빠른 속도로 분석 작업을 해야 하는 기업들은 독자적인 하드웨어를 구입해 관리하는 것을 원할 수 있다는 것.

또 밀러는 많은 서비스 공급업체들이 '클라우드 불가지론'을 주창하고 있지만, 현실은 다른 경우가 많다고 설명했다. 클라우드 소프트웨어 업체들은 자신들의 데이터베이스 소프트웨어에서 최대한의 성능을 뽑아내기 위해 아마존 EC2같은 서비스 이면에 자리잡고 있는 아키텍처를 파악해야 한다. 따라서 많은 '역 엔지니어링' 작업을 해야 할 수 있다.

샤리르와 제인은 여전히 대용량 데이터 분석은 자사 제품에 절대적으로 득이 되는 애플리케이션이 될 것이라고 낙관하고 있다. 스타키의 경우는 '웹'이다. 스타키는 "웹에 있는 사람들은 동일한 문제를 갖고 있다. 데이터베이스 시스템으로 이끄는 가는 파이프와 같다. 데이터베이스의 확장에 문제가 있고, 이런 문제는 많은 곳에서 나타나고 있다"고 지적했다. ciokr@idg.co.kr


X