2014.03.20

'아직은 막상막하' 하둡 서비스 업체 9곳 장단점 정리

Brandon Butler | Network World
당신의 회사가 막대한 데이터를 다루고 있다면 하둡을 반드시 고려해봐야 한다. 한때 구글과 야후와 같은 글로벌 인터넷 기업의 전유물이던 가장 인기있고 잘 알려진 빅데이터 관리 시스템이 이제 다른 기업에까지 확산되고 있다.

거기에는 두 가지 이유가 있다. 첫째, 기업이 관리해야 될 데이터가 훨씬 많아졌고, 하둡은 기존의 정형 데이터와 새로운 비정형 데이터를 혼합하는데 탁월한 플랫폼이라는 점이다. 둘째, 수많은 개발업체가 하둡 지원과 서비스를 제공하는데 뛰어들어 기업 입장에서 선택의 폭이 늘어났다는 것이다.

포레스터 2013년 4분기 소프트웨어 조사 보고서에 따르면, 대부분의 기업들은 이미 보유한 데이터 가운데 단 12%만을 분석하고 있으며, 나머지 88%는 그냥 방치해두고 있다.

포레스터 애널리스트 마이크 갈티에리와 노엘 유하나는 "하둡은 자체 오픈소스 기반이 기업 데이터 관리 아키텍처로 넓고 깊게 성장함에 따라 더 이상 멈출 수 없는 흐름이 됐다"며, 최근 포레스터 웨이브 리포트(Wave Report)에서 하둡 시장에 대해 평가했다.

이 보고서는 "포레스터는 하둡이 대기업에게는 갖춰야 할(Must-have) 데이터 플랫폼이며, 모든 유연한 미래 데이터 관리 플랫폼의 초석을 형성하고 있다고 파악했다. 만약 자신의 조직에 정형, 비정형 혹은 바이너리 데이터가 많다면 하둡이 제 역할을 제대로 해낼 수 있다"고 설명했다.

그러면 어디서부터 시작할까?
포레스터는 다양한 분야 가운데 아홉 곳의 하둡 서비스 개발업체를 평가해 각각의 장단점을 밝혔다. 포레스터는 현 시점에서 빅데이터 벤처 업체들이 상당한 서비스 제공을 무기로 IT 업계를 대표하는 거대기업들과 우열을 가리기 힘든 경쟁을 하고있다고 결론내렸다.

우선 배경부터 정리해보자. 하둡은 오픈소스 아파치(Apache) 프로젝트로 누구든 무료로 하둡 커먼(Hadoop Common), HDFS(Hadoop Distributed File System), 하둡 YARN, 하둡 맵리듀스(MapReduce) 등을 포함한 하둡의 핵심을 다운로드할 수 있다.

IBM에서부터 아마존 웹 서비스(Amazon Web Services), 마이크로소프트(Microsoft), 테라데이터(Teradata)까지 많은 IT업체들이 이 하둡을 좀더 간편히 사용할 수 있도록 배포하거나 서비스 상품으로 내놓았다. 각각의 업체는 조금씩 다른 전략을 취하고 있지만 하둡에 잠재적으로 수천 개의 서버에 걸쳐 작업부하를 분산시켜 빅데이터를 관리 가능한 데이터로 바꾸는 능력이 바로 차별화 요소다.

다음 목록에서 주의할 점은 포레스터의 웨이브 보고서에 나온 개발업체 정보에 기반한 것으로, 하둡과 빅데이터 관리 플랫폼 전부를 망라한 것은 아니다. 그리고 나열 순서는 알파벳 순이다.

아마존 웹 서비스(AWS)
하둡 플랫폼에 호스팅된 퍼블릭 클라우드를 찾는 고객들은 포레스터가 '클라우드의 제왕'이라고 부르는 아마존 웹 서비스만 고려해도 될 것이다.
아마존 웹 서비스의 하둡 제품은 EMR(Elastic Map Reduce)라는 이름으로, AWS의 하둡 활용 빅데이터 관리 서비스를 말한다. 하지만 순수 오픈소스 하둡은 아니고, AWS의 클라우드상에서 특정적으로 실행된다.

포레스터는 EMR이 시장에서 가장 큰 하둡 플랫폼이라고 말했다. 이미 EMR을 기반으로 쿼리, 모델링, 통합, 관리 등의 서비스를 제공하는 다양한 협력업체들이 있다. 그리고 AWS는 EMR이 작업 부하 필요에 따라 자동적으로 확장 축소되어 규모를 바꾸는 능력을 위한 로드맵으로 혁신 중에 있다고 한다.

AWS는 레드시프트(RedShift) 데이터 웨어하우스, 새로 발표된 케네시스(Kenesis) 실시간 프로세싱 엔진 등을 포함한 기타 자체 제품과 서비스로 EMR 지원을 강화하려는 계획을 발표했으며, 추가적인 NoSQL 데이터베이스와 비즈니스 인텔리전스 툴 지원 계획도 갖고 있다.

다만 사용자가 자체 시스템 상에서 실행할 수 있는 하둡 배포판은 AWS가 가지고 있지 않다. 이어 소개하는 클라우데라와 호튼웍스는 해당 분야를 전문으로 한다.
 

클라우데라(Claudera)
클라우데라는 아파치 프로젝트의 많은 측면을 활용하는 오픈소스 하둡의 배포판을 가지고 있지만, 이 외에도 수많은 발전을 해왔다. 클라우데라는 자체 제품에 클라우데라 매니저(claudera manager)라는 관리와 모니터링 툴부터 임팔라(Impala)라는 관계형 데이터 실행을 위한 SQL 엔진까지 여러 가지 기능을 개발해왔다.

클라우데라는 자체 배포판의 기본에 오픈소스 하둡을 활용하지만 순수 오픈소스 제품은 아니다. 클라우데라의 고객들이 오픈소스 하둡이 가지지 못한 무언가를 필요로 할 때, 클라우데라는 자체적으로 이를 구축하거가 그 부족 기능을 갖고 있는 협력업체를 찾았다.

포레스터는 "클라우데라의 하둡 접근방식은 핵심 하둡을 고수하면서도 고객 수요를 충족시키기 위해 빠르고 공격적으로 혁신을 감행하며 자체 솔루션을 다른 개발업체와 차별화하는 것"이라고 평가했다.

이 결과로 클라우데라의 플랫폼 채택은 꾸준히 상승해왔고, 현재 200여 곳의 유료 고객을 갖추고 있으며, 일부는 1페타바이트(PB)가 넘는 규모의 데이터를 1,000개가 넘는 노드에 걸쳐 가지고 있을 정도다.




2014.03.20

'아직은 막상막하' 하둡 서비스 업체 9곳 장단점 정리

Brandon Butler | Network World
당신의 회사가 막대한 데이터를 다루고 있다면 하둡을 반드시 고려해봐야 한다. 한때 구글과 야후와 같은 글로벌 인터넷 기업의 전유물이던 가장 인기있고 잘 알려진 빅데이터 관리 시스템이 이제 다른 기업에까지 확산되고 있다.

거기에는 두 가지 이유가 있다. 첫째, 기업이 관리해야 될 데이터가 훨씬 많아졌고, 하둡은 기존의 정형 데이터와 새로운 비정형 데이터를 혼합하는데 탁월한 플랫폼이라는 점이다. 둘째, 수많은 개발업체가 하둡 지원과 서비스를 제공하는데 뛰어들어 기업 입장에서 선택의 폭이 늘어났다는 것이다.

포레스터 2013년 4분기 소프트웨어 조사 보고서에 따르면, 대부분의 기업들은 이미 보유한 데이터 가운데 단 12%만을 분석하고 있으며, 나머지 88%는 그냥 방치해두고 있다.

포레스터 애널리스트 마이크 갈티에리와 노엘 유하나는 "하둡은 자체 오픈소스 기반이 기업 데이터 관리 아키텍처로 넓고 깊게 성장함에 따라 더 이상 멈출 수 없는 흐름이 됐다"며, 최근 포레스터 웨이브 리포트(Wave Report)에서 하둡 시장에 대해 평가했다.

이 보고서는 "포레스터는 하둡이 대기업에게는 갖춰야 할(Must-have) 데이터 플랫폼이며, 모든 유연한 미래 데이터 관리 플랫폼의 초석을 형성하고 있다고 파악했다. 만약 자신의 조직에 정형, 비정형 혹은 바이너리 데이터가 많다면 하둡이 제 역할을 제대로 해낼 수 있다"고 설명했다.

그러면 어디서부터 시작할까?
포레스터는 다양한 분야 가운데 아홉 곳의 하둡 서비스 개발업체를 평가해 각각의 장단점을 밝혔다. 포레스터는 현 시점에서 빅데이터 벤처 업체들이 상당한 서비스 제공을 무기로 IT 업계를 대표하는 거대기업들과 우열을 가리기 힘든 경쟁을 하고있다고 결론내렸다.

우선 배경부터 정리해보자. 하둡은 오픈소스 아파치(Apache) 프로젝트로 누구든 무료로 하둡 커먼(Hadoop Common), HDFS(Hadoop Distributed File System), 하둡 YARN, 하둡 맵리듀스(MapReduce) 등을 포함한 하둡의 핵심을 다운로드할 수 있다.

IBM에서부터 아마존 웹 서비스(Amazon Web Services), 마이크로소프트(Microsoft), 테라데이터(Teradata)까지 많은 IT업체들이 이 하둡을 좀더 간편히 사용할 수 있도록 배포하거나 서비스 상품으로 내놓았다. 각각의 업체는 조금씩 다른 전략을 취하고 있지만 하둡에 잠재적으로 수천 개의 서버에 걸쳐 작업부하를 분산시켜 빅데이터를 관리 가능한 데이터로 바꾸는 능력이 바로 차별화 요소다.

다음 목록에서 주의할 점은 포레스터의 웨이브 보고서에 나온 개발업체 정보에 기반한 것으로, 하둡과 빅데이터 관리 플랫폼 전부를 망라한 것은 아니다. 그리고 나열 순서는 알파벳 순이다.

아마존 웹 서비스(AWS)
하둡 플랫폼에 호스팅된 퍼블릭 클라우드를 찾는 고객들은 포레스터가 '클라우드의 제왕'이라고 부르는 아마존 웹 서비스만 고려해도 될 것이다.
아마존 웹 서비스의 하둡 제품은 EMR(Elastic Map Reduce)라는 이름으로, AWS의 하둡 활용 빅데이터 관리 서비스를 말한다. 하지만 순수 오픈소스 하둡은 아니고, AWS의 클라우드상에서 특정적으로 실행된다.

포레스터는 EMR이 시장에서 가장 큰 하둡 플랫폼이라고 말했다. 이미 EMR을 기반으로 쿼리, 모델링, 통합, 관리 등의 서비스를 제공하는 다양한 협력업체들이 있다. 그리고 AWS는 EMR이 작업 부하 필요에 따라 자동적으로 확장 축소되어 규모를 바꾸는 능력을 위한 로드맵으로 혁신 중에 있다고 한다.

AWS는 레드시프트(RedShift) 데이터 웨어하우스, 새로 발표된 케네시스(Kenesis) 실시간 프로세싱 엔진 등을 포함한 기타 자체 제품과 서비스로 EMR 지원을 강화하려는 계획을 발표했으며, 추가적인 NoSQL 데이터베이스와 비즈니스 인텔리전스 툴 지원 계획도 갖고 있다.

다만 사용자가 자체 시스템 상에서 실행할 수 있는 하둡 배포판은 AWS가 가지고 있지 않다. 이어 소개하는 클라우데라와 호튼웍스는 해당 분야를 전문으로 한다.
 

클라우데라(Claudera)
클라우데라는 아파치 프로젝트의 많은 측면을 활용하는 오픈소스 하둡의 배포판을 가지고 있지만, 이 외에도 수많은 발전을 해왔다. 클라우데라는 자체 제품에 클라우데라 매니저(claudera manager)라는 관리와 모니터링 툴부터 임팔라(Impala)라는 관계형 데이터 실행을 위한 SQL 엔진까지 여러 가지 기능을 개발해왔다.

클라우데라는 자체 배포판의 기본에 오픈소스 하둡을 활용하지만 순수 오픈소스 제품은 아니다. 클라우데라의 고객들이 오픈소스 하둡이 가지지 못한 무언가를 필요로 할 때, 클라우데라는 자체적으로 이를 구축하거가 그 부족 기능을 갖고 있는 협력업체를 찾았다.

포레스터는 "클라우데라의 하둡 접근방식은 핵심 하둡을 고수하면서도 고객 수요를 충족시키기 위해 빠르고 공격적으로 혁신을 감행하며 자체 솔루션을 다른 개발업체와 차별화하는 것"이라고 평가했다.

이 결과로 클라우데라의 플랫폼 채택은 꾸준히 상승해왔고, 현재 200여 곳의 유료 고객을 갖추고 있으며, 일부는 1페타바이트(PB)가 넘는 규모의 데이터를 1,000개가 넘는 노드에 걸쳐 가지고 있을 정도다.


X