2014.02.05

클라우데라, 하둡용 인메모리 분석 툴 개발

Joab Jackson | IDG News Service
하둡 업체인 클라우데라가 클레우데라의 하둡 환경에서 실시간으로 데이터를 분석하는 아파치 스파크(Apacahe Spark) 프로그램의 상용 버전을 개발했다.

이 상용 버전은 스트림 처리와 빠른 기계 학습을 위한 하둡 사용을 확대할 수 있다.

클라우데라의 제품 마케팅 담당 이사 매트 브랜드웨인은 "데이터 과학자들이 스파크를 좋아한다"라고 밝혔다.

브랜드웨인은 "지금까지 보면, 하둡을 사용한다고 하면, 대게 맵리듀스를 쓴다고 할 수 있다. 그러나 맵리듀스는 정말 느리다"라며 “맵리듀스 프레임워크는 여러 읽기 및 기계 학습 임무를 수행하기 위해 디스크에 많이 기록해야 한다”고 지적했다. 데이터가 메모리 작업에 머물러 있는 동안 스파크는 이 작업을 수행할 수 있다. 소프트웨어 유지보수 업체들은 스파크가 인메모리 설계 모델 덕분에 하둡보다 100배 빠르게 프로그램을 운영할 수 있다고 주장했다.

스파크는 일정한 데이터 흐름을 모니터링하고 일정한 조건이 충족될 경우. 특정 기능을 수행할 수 있는 스트림를 잘 처리한다.

가령 스트림 처리는 사기 관리와 보안 사과 관리에 적용할 수 있다. "이 경우 어떤 이상을 감지하고 조치를 취하기 위해 오프라인 상태에서도 실시간 데이터를 분석하고 있다"고 브랜드웨인은 말했다. 데이터를 좀더 상호작용하며 심도 깊은 배치 프로세싱 분석을 위한 하둡파일시스템으로 내릴 수도 있다.

처음 버클리대학에서 개발된 아파치 스파크는 실시간으로 조회 할 수 있는 서버 클러스터의 작업 메모리에 스트리밍 데이터를 로드할 수 있는 방법을 제공하고 있다. 아파치 스파크가 사용할 수 있는 서버 대수나 메모리 양에는 제한이 없다.

그것은 YaRN(Yet another Research Negotiator)을 사용하는 하둡 데이터 처리 네트워크의 최신 버전을 사용한다. 하지만 스파크는 배치 모드에서 작동하는 맵리듀스 프레임워크를 필요로 하지 않는다. 스파크는 자바, 스칼라, 파이썬을 위한 API를 가지고 있다. 스파크는 기본적으로 HDFS(하둡 파일 시스템), HBase 하둡 데이터베이스, 카산드라 데이터 저장소에서 데이터를 읽을 수 있다.

아파치 스파크 프로젝트에 참여한 개발자는 120명이 넘으며 야후, 인텔 이외에 소기업들이 이 기술을 이용했다. 자체적으로 스파크의 상용 버전을 제공하는 데이터브릭스(DataBricks)는 클라우데라의 사용자를 대신해 스파크에 대한 지원을 제공하고 있다.

하둡 방식의 분석을 스트리밍 데이터에 적용한다는 아이디어는 새로운 것은 아니다. 트위터는 메시지를 분석하기 위해 사용하는 오픈소스 소프트웨어 제품인 스톰(Storm)을 유지 관리했다.

스파크 이외에 클라우데라는 사용 하둡 제품을 재구성해 기본 버전, 플렉스 버전, 엔터프라이즈 허브 버전 등 3개의 별도 패키지를 발표했다. 엔터프라이즈 허브는 클라우데라가 HBase, 스파크, 백업 기능, 임플라(Impala) SQL 분석 버전 등을 포함한 하둡과 통합한 모든 추가 툴을 번들로 한 제품이다. 플렉스 버전은 사용자에게 핵심 하둡뿐 아니라 하나의 툴을 추가로 선택하도록 해준다.

한편 클라우데라는 자사의 클라우데라 표준 버전의 이름을 클라우데라 익스프레스로 변경했다. ciokr@idg.co.kr



2014.02.05

클라우데라, 하둡용 인메모리 분석 툴 개발

Joab Jackson | IDG News Service
하둡 업체인 클라우데라가 클레우데라의 하둡 환경에서 실시간으로 데이터를 분석하는 아파치 스파크(Apacahe Spark) 프로그램의 상용 버전을 개발했다.

이 상용 버전은 스트림 처리와 빠른 기계 학습을 위한 하둡 사용을 확대할 수 있다.

클라우데라의 제품 마케팅 담당 이사 매트 브랜드웨인은 "데이터 과학자들이 스파크를 좋아한다"라고 밝혔다.

브랜드웨인은 "지금까지 보면, 하둡을 사용한다고 하면, 대게 맵리듀스를 쓴다고 할 수 있다. 그러나 맵리듀스는 정말 느리다"라며 “맵리듀스 프레임워크는 여러 읽기 및 기계 학습 임무를 수행하기 위해 디스크에 많이 기록해야 한다”고 지적했다. 데이터가 메모리 작업에 머물러 있는 동안 스파크는 이 작업을 수행할 수 있다. 소프트웨어 유지보수 업체들은 스파크가 인메모리 설계 모델 덕분에 하둡보다 100배 빠르게 프로그램을 운영할 수 있다고 주장했다.

스파크는 일정한 데이터 흐름을 모니터링하고 일정한 조건이 충족될 경우. 특정 기능을 수행할 수 있는 스트림를 잘 처리한다.

가령 스트림 처리는 사기 관리와 보안 사과 관리에 적용할 수 있다. "이 경우 어떤 이상을 감지하고 조치를 취하기 위해 오프라인 상태에서도 실시간 데이터를 분석하고 있다"고 브랜드웨인은 말했다. 데이터를 좀더 상호작용하며 심도 깊은 배치 프로세싱 분석을 위한 하둡파일시스템으로 내릴 수도 있다.

처음 버클리대학에서 개발된 아파치 스파크는 실시간으로 조회 할 수 있는 서버 클러스터의 작업 메모리에 스트리밍 데이터를 로드할 수 있는 방법을 제공하고 있다. 아파치 스파크가 사용할 수 있는 서버 대수나 메모리 양에는 제한이 없다.

그것은 YaRN(Yet another Research Negotiator)을 사용하는 하둡 데이터 처리 네트워크의 최신 버전을 사용한다. 하지만 스파크는 배치 모드에서 작동하는 맵리듀스 프레임워크를 필요로 하지 않는다. 스파크는 자바, 스칼라, 파이썬을 위한 API를 가지고 있다. 스파크는 기본적으로 HDFS(하둡 파일 시스템), HBase 하둡 데이터베이스, 카산드라 데이터 저장소에서 데이터를 읽을 수 있다.

아파치 스파크 프로젝트에 참여한 개발자는 120명이 넘으며 야후, 인텔 이외에 소기업들이 이 기술을 이용했다. 자체적으로 스파크의 상용 버전을 제공하는 데이터브릭스(DataBricks)는 클라우데라의 사용자를 대신해 스파크에 대한 지원을 제공하고 있다.

하둡 방식의 분석을 스트리밍 데이터에 적용한다는 아이디어는 새로운 것은 아니다. 트위터는 메시지를 분석하기 위해 사용하는 오픈소스 소프트웨어 제품인 스톰(Storm)을 유지 관리했다.

스파크 이외에 클라우데라는 사용 하둡 제품을 재구성해 기본 버전, 플렉스 버전, 엔터프라이즈 허브 버전 등 3개의 별도 패키지를 발표했다. 엔터프라이즈 허브는 클라우데라가 HBase, 스파크, 백업 기능, 임플라(Impala) SQL 분석 버전 등을 포함한 하둡과 통합한 모든 추가 툴을 번들로 한 제품이다. 플렉스 버전은 사용자에게 핵심 하둡뿐 아니라 하나의 툴을 추가로 선택하도록 해준다.

한편 클라우데라는 자사의 클라우데라 표준 버전의 이름을 클라우데라 익스프레스로 변경했다. ciokr@idg.co.kr

X