Offcanvas

빅데이터 | 애널리틱스

하둡을 사용할 때와 하지 않을 때

2014.08.14 Chris Nerney  |  CITEworld
기업들은 빅데이터와 분석의 효과에 대해 관심있을 때, 어떻게 시작했는 지에 대해 물을 때, 종종 아파치 소프트웨어의 오픈소스 데이터 스토리지와 프로세싱 프레임워크인 하둡과 함께 시작할 것을 조언한다.

하둡이 아주 매력적이라는 것에는 몇 가지 이유가 있다. 이 플랫폼은 상대적으로 저비용으로 컴퓨팅 배포나 연산 역량을 제공할 뿐만 아니라 모바일 기술, 소셜 미디어, 사물인터넷, 그리고 떠오르는 디지털 기술들에 의해 수집되는 데이터가 기하급수적으로 증가하는 것을 예측해 확장할 수 있다.

이런 강점은 입소문과 페이스북, 야후, 포천 50대 기업들이 하둡 적용을 추진하고 있는, 세간의 이목을 끄는 기업 사례와도 일치한다.

지난 3월 리서치 조사 업체인 리서치빔(Researchbeam)은 전세계 하둡 시장이 2012년 15억 달러에서 2020년에는 500억 달러로 성장할 것이라고 예측했다. 하둡 시장의 대부분은 클라우데라, 호튼웍스, 그리고 맵알 테크놀로지와 같은 상업화된 하둡 전문가들에 의해 제공되는 서비스 부문에서 발생된다.

그러나 모든 데이터 과학자가 하둡이라는 기차에 타고 있지 않다. 사실 많은 이들이 하둡에서 하차했다.

최근 개발업체 패러다임4(Paradigm4)가 데이터 과학자를 대상으로 빅데이터 분석에서의 장애물이라는 주제로 실시한 설문조사에서 데이터 과학자 3/4이상이 하둡 또는 하둡 배포 파일시스템에 구축된 연산 프레임워크인 스파크(Spark)을 사용한다고 응답했으며 용처에는 한계가 있었다.

특히 응답자의 39%는 하둡은 프로그램을 위해 너무 많은 노력이 필요하며, 37%는 쌍방향. 애드혹 쿼리에서는 너무 느리다고 말했다. 또다른 30%는 실시간 분석에 너무 느리다고 지적했다.

그리고 하둡과 스파크를 사용했던 데이터 과학자 1/3 이상이 사용을 중단했다고 말했다.

이 설문조사를 실시한 이 개발업체는 하둡보다 더 나은 것을 제공하고 있다고 말했다.그러나 이 설문조사는 개발업체의 사기라기보다는 하둡에 대한 불만을 설명한 실제 이슈에 근거를 두고 있다.

응답 시간을 가져라
마케팅업체인 디스틸러리(Dstillery) 데이터 과학자 수장인 클라우디아 페리치는 "만약 자신이 복잡한 분석 또는 실시간 분석을 하려 한다면 아마도 하둡은 적합한 플랫폼이 아니다"고 말했다.
페리치는 "디스틸러리의 사업 가운데 일부인 광고 온라인 딜리버리는 실시간 분석이 필수적이다. 이 부문에서는 하둡을 사용할 수 없다"고 지적했다.

페리치는 "만약 30ms 시간 내에 3억 명의 데이터베이스 속에서 정보를 검색해야 한다면
하둡으로써는 답이 없다"며, "하둡은 빠른 기술이 아니다"고 설명했다.
그러나 디스틸러리는 응답 시간에 여유가 있는, 정확하고 통찰을 위한 분석 서비스에 하둡을 이행하고 있다.

페리치는 "들어오는 모든 데이터가 분석에 사용하기 위해 하둡에 실린다. 디스틸러리는 많은 예측 모델을 시행하는데, 하둡을 선택한 것은 놀랄 일이 아니다. 특히 비용측면에서 볼 때, 모든 것을 저장할 수 있고 적절한 시간에 접속할 수 있다. 그러나 실시간이 아니며 적당한 시간이다"고 말했다.

하둡 사용을 중단한 일부 데이터 과학자는 우선 실시간 분석과 같은 잘못된 선택을 했을 지도 모른다.

하둡에 대한 또다른 잠재적인 불만 요소는 비용이다(이는 패러다임4의 설문조사 정보가 아니다). 오픈소스기 때문에 무료 또는 저렴하다고 생각했던 기업들이 하둡으로 가면서 비용 문제로 깜짝 놀란다.

기업들은 분석가가 인하우스로 일할 수 있게 하는데 보통 하둡 서비스 개발업체와 계약하거나 고수준의 하둡 프로그래머를 고용함으로써 끝난다고 생각한다. 하지만 이렇게 하둡 프로젝트를 잘못 인식하고 시작하는 것으로 인해 경쟁업체에 뒤쳐지는 원인이 된다.

하둡의 첫번째 물결에 피해를 입은 하둡 얼리어답터들은 환멸을 느낄지 모른다. 빅데이터와 분석 기술의 점진적인 성숙은 지식을 갖춘 고객들과 함께 진행되며, 기업들이 최선의 분석 솔루션을 쉽게 선택, 활용할 수 있도록 만들어야 한다.

페리치는 "하둡이 적합한 지 여부는 해결할 것이 무엇이냐에 달려있다"고 말했다. editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.