빅데이터는 여전히 유망하다. 그러나 클라우데라(Cloudera), 호톤웍스(Hortonworks), 맵알(MapR) 같은 하둡 회사가 휘청거리면서 다소 빛이 바랜 조짐이 나타나고 있다. 한 때 막대한 현금을 조달할 수 있는 선망 받는 데이터 회사들이었지만, (인텔은 단 1차례 투자에서 클라우데라에 7억 6,600만 달러를 투입했다) 현재는 중량급 선수들이 합병(클라우데라와 호톤웍스)이나, 경영자 사임(맵알) 등 구조조정에 내몰리고 있다.
한편, 다른 오픈소스 빅데이터 사업자들, 예컨대 엘라스틱(Elastic), 몽고DB 등은 한창 잘나가고 있다. 이유가 무엇일까? 물론 수많은 이유가 있다. 그 가운데 하나는 왕년의 하둡 사업자들이 잘못된 표적, 즉 데이터센터에 묶인 설계자에게 집중했다는 점이다. 반면 시장의 중심은 클라우드에서 자유를 추구하는 개발자로 이동했다.
크기는 상대적이다
맵알은 하둡에 쏠린 자금에 편승해 비대해졌던 전력을 가진 존재다. 한때 10억 달러를 상회하는 가치가 있었지만, 최근에는 CEO인 존 스크로더, 여타 상임 임원들, 그리고 많은 수의 엔지니어를 포함해 122 명의 직원을 해고해야 하는 것으로 드러났다 (전체 종업원의 약 22%). 아울러 투자자를 찾을 수 없다면 본사도 문을 닫아야 할 처지이다.
투자자가 6월 14일까지 참여하지 않는다면 맵알의 미래는 암울해 보인다.
그러나 가까운 과거에도 마찬가지였다. 링크드인 데이터를 보면 지난 2년 동안 맵알은 29%가 축소됐다. 문제는 맵알에 그치지 않는다. 호톤웍스를 합병한 클라우데라는 이제 막 참담한 실적 자료를 발표하면서 애널리스트의 전망보다 6,900만 달러에서 8,900만 달러가 더 적은 매출을 전망했다. 동시에 CEO인 탐 레일리와 CSO이자 공동설립자인 마이크 올슨은 둘 다 사임할 것이라고 발표했다.
주가는 신속히 40% 급락했다.
이러한 결과는 빅데이터의 거품이 꺼진 것이라고 예단하기 쉽지만, 하둡의 주요 사업자들이 붕괴하는 동안 승승장구한 업체들도 있었다. 예를 들어 몽고DB 데이터베이스는 인기가 계속 상승하며 이제는 인기 있는 오라클, 마이SQL의 대략 3분의 1 정도에 육박했다(여러 지표들을 바탕으로 측정됨). 이는 5년 전의 10분의 1보다 크게 증가한 수치이다. 이 인기에 힘입어 매출은 계속해서 크게 성장했고, 가장 최근에는 무려 78%가 급증했다.
이와 마찬가지로 엘라스틱서치(Elasticsearch) 분산 검색 및 분석 엔진을 운영하는 엘라스틱(Elastic)은 지난해 종업원이 2배 증가했고, 직전 분기에서 매출이 70% 증가했다. 기업들은 전통적인 텍스트 검색 등을 위해 엘라스틱으로 돌아서고 있다. 예를 들어 런던 스탠스데드 공항은 엘라스틱의 툴을 이용해 공항 전체에 걸쳐 사람과 화물의 이동을 추적하고 시각화하고 실시간으로 분석한다.
이는 예상과 전혀 다른 추세이다. 몽고DB, 엘라스틱서치 같은 기술과 이를 운영하는 회사들이 하둡과 하둡 회사들의 경쟁자가 되리라고는 아무도 예상치 못했다. 그런데 결과는 반대로 나타났다. 이유는 무엇인가?
암담한 미래
클라우드가 한 이유이다. 그러나 이는 여러 이유 가운데 일부일 뿐이다. 아나콘다의 수석 부사장인 매튜 로지가 말한 것처럼, 클라우데라, 호톤웍스, 맵알은 온-프레미스 제품으로부터 진화하려고 필사적으로 노력했다. 그러나 AWS, 마이크로소프트 애저, 구글 클라우드 등이 제시하는 클라우드 네이티브 선택지는 모두 더 낮은 취득 비용 및 더 저렴한 확장 비용을 갖는 전면적으로 통합된 상품을 제공하는 쪽으로 나아갔다. 다시, 하둡 사업자들은 클라우드 서비스를 최대한 신속히 내놓으려고 노력했지만, 클라우드에 치중하는 경쟁업체들의 속도에 전혀 미치지 못했다.
한때는 혁명적이었을지라도 하둡은 클라우드 대안들에 비해 터무니없이 비쌌다. 클린트 샤프가 지적하듯이, “하둡의 주요한 1차 이용 사례는 언제나 저렴한 스토리지였다. 클라우드 스토리지는 이보다 더 저렴해졌을 뿐 아니라 S3+EMR과 여타 서비스의 UX는 1,000배가 우월하다.”
하둡은 예컨대 전통적인 사유 데이터 웨어하우스의 탁월한 대안이었을지 모르지만, 클라우드 기반 스노우플레이크(Snowflake) 같은 한층 현대적인 접근법에는 상대조차 되지 않는다.
동시에, 클라우드는 데이터를 처리하는 상이하고 새로운 방식을 예고했다. 유사한 것들 사이의 대체가 아니었다. 예를 들어 몽고DB, 엘라스틱서치는 하둡과 동일한 문제를 처리하지만, 정신을 마비시킬 정도의 어려움이 전혀 없다. 몽고DB의 조 드럼굴은 “효과적인 분산 맵-리듀스 알고리즘을 작성하는 것은 정말 어렵다”라고 지적한 바 있다.
게다가 하둡 회사들은 방대한 오픈소스 애드온을 하둡 제품에 성급히 도입했다. 임팔라(Impala!), 피그(Pig!), 하이브(Hive!), 플룸(Flume!) 등이 그것이다. 그러면서 솔루션 스택은 한층 번잡해졌고, 혹자의 표현처럼 마침내 누구도 하둡 회사들이 도대체 무엇을 하고 있는지 알 수 없는 지경에 이르렀다.
일부 기업에게 이는 시간과 집중 측면에서 고통을 견딜만한 가치가 있었다. 그러나 ‘작업을 완수하는 것’이 임무인 개발자의 경우 보다 직접적인 대안을 선택하는 쪽이 우세해졌다.
편리함이 모든 것을 제압한다
하둡과 하둡 회사의 이용자가 겪은 경험은 비상식적이다. 이를 몽고DB와 비교해보라. 몽고DB의 전직 임원인 켈리 스터먼은 몽고DB 이용자 경험을 핵심적인 차별 요소로 꼽는다. 이를 톰 바버는 아래와 같이 설명한다:
몽고DB는 한 서버 상에 간단히 설치할 수 있고, 끔찍한 VM과 씨름하지 않고서도 운영할 수 있다. 실무적으로 하나의 서버에서 실행할 수 있다. 수많은 코드를 작성할 필요 없이 수많은 것들과 연결할 수 있다. 사람들은 데이터베이스를 원한다…… 몽고DB는 데이터 삽입과 추출이 모두 간단하다.
개발자의 사랑이 몽고DB가 하둡을 제압한 이유이다. 몽고는 최초 사용자 경험에 주력했다. 하둡은 운영하기가 어려운 것으로 악명 높다. 하둡 회사의 판매 전술은 기업 고객에게는 통했지만, 개발자의 사랑을 받지 못하면서 성장은 정체되었고 시장은 증발했다.
한편 개발자의 사랑만으로 몽고DB와 엘라스틱이 클라우데라와 맵알을 제압했다고 설명하기는 지나친 감이 있다. 그러나 이는 분명 하나의 실제 요소이다.
제이크 캘던버의 추론에 따르면 개발자는 몽고DB를 자신의 현대적 애플리케이션들에 접목하기 시작했다. 시간의 경과와 함께 개발자들은 몽고DB를 비교적 중요하지 않은 애플리케이션에 투입하다가 점차 중대한 업무를 처리하는 애플리케이션으로 이동시켰다. 몽고DB가 예컨대 다중 문서 트랜잭션 같은 보다 복잡한 이용 사례를 가능하게 하는 기능을 추가했기 때문이다. 그러면서도 이를 엄청나게 복잡한 작업으로 만들지 않았다.
그렇다면 과거의 빅데이터 거인들은 어떻게 되는가? 로지는 아래와 같이 설명한다.
거의 10년 동안 클라우데라, 호톤웍스, 맵알은 빅데이터 우주의 중심이었지만, 중력의 중심이 다른 곳으로 이동했다. 일류 클라우드 사업자들은 클라우데라와 호톤웍스의 거대한 하둡/스파크 클러스러를 운영하지 않는다. 대신 컨테이너 인프라 위에서 분산 클라우드 규모 데이터베이스와 애플리케이션을 운영한다. 머신러닝에서는 자바가 아닌 파이썬, R, 여타 언어를 사용한다. 점진적으로, 기업들은 비슷한 접근법으로 이동하고 있다. 동일한 속도 및 규모의 혜택을 원하기 때문이다. 하둡과 스파크의 세계가 변화할 시점이 되었다.
이는 오픈소스 인프라 혁신의 축복이자 저주이다. 맹렬한 속도로 펼쳐지는 혁신의 와중에서 일부 사업자는 도태되기 마련이다.
* Matt Asay는 인포월드에 기고하는 기술 전문 저술가다. ciokr@idg.co.kr