최근 아일랜드 더블린에서 열린 하둡 서밋(Hadoop Summit) 행사에서 호튼웍스(Hortonworks)를 비롯한 업계 관계자들이 기업용 오픈소스 빅데이터 툴 관련해서 기업 고객이 가장 원하는 것에 대해 의미 있는 인사이트를 공유했다. 이들에 따르면 업체는 머신러닝, 실시간 예측 애널리틱스인 스파크(Spark)의 유연한 기능에 관해 이야기하고 싶어했지만, 정작 기업이 가장 원하는 것은 자신의 아이디어에서 가치를 끌어낼 수 있는 단순성이었다.
이미지 출처 : flickr / Yuko Honda
단순성
많은 기업이 현재 데이터 과학자 부족에 시달리고 있다. 그래서 이들은 빅데이터 전략에서 코딩과 프로그래밍에 대한 의존도를 낮추려고 하고 있다. 이는 단순하면서도 기업 환경에 적합한 하둡이 기업이 원하는 오픈소스 빅데이터 솔루션이라는 의미다.
실제로 호튼웍스의 기업 전략 부회장 숀 코놀리은 이 업체의 핵심 경쟁력으로 아파치 기술을 상용화된 기업 기술로 상품화하는 것을 꼽았다. EMC의 기술 마케팅 디렉터 스테판 보스도 “단순성은 우리가 기업 고객에게서 듣는 가장 중요한 트렌드"라며 "많은 기업이 멋지고 새로운 프로젝트를 추구하지만 결국 이를 기존 시스템과 통합하는 복잡함 때문에 어려움을 겪고 있다"고 말했다.
이 때문에 그는 자신의 기업고객에 통합된 기업용 솔루션을 추천한다. 많이 사용하지 않는 데이터에는 HDP(Hortonworks DataPlatform)을, 현재 사용하는 데이터에는 HDF(Hortonworks DataFlow)를 각각 제안한다. 그는 "이 제품은 데이터 과학자가 데이터 스트림에 기반해 어떤 툴이 필요한지 선택해 빠르게 배치할 수 있도록 지원한다"고 말했다.
보스는 사물인터넷을 위해 더 많은 하둡용 산업 특화 툴이 개발될 것으로 보고 있다. 특히 헬스케어 산업에서는 간편하게 바로 설치해 사용할 수 있는 데이터 분석 툴이 등장할 것으로 예상했다. 그는 "이런 방식으로 기반 구조의 복잡성을 숨길 수 있다"고 말했다. HPE의 헤이븐 온디맨드 CTO인 크리스 굿펠로우도 기업이 단순함을 추구한다는 보스의 견해에 동의했다.
그는 "기업 고객 중 상당수, 특히 더 전통적인 기업은 데이터는 모두 흩어져 있고 각각 사일로(silo)로 구분돼 있다. 이런 환경에서 각각 30명씩 인력을 붙여 100가지 하둡 프로젝트를 진행할 수는 없으므로 결국 하둡 기술을 더 단순하게 만드는 것이 중요하다. 이를 통해 2~3명의 개발자가 어떤 사업적 문제를 해결할 때 백지부터 시작할 필요 없이 바로 서버와 네트워킹에 배치해 사용할 수 있게 하는 것이 목표"라고 말했다.
데이터 방출
호튼웍스의 임원에 따르면, 일반적으로 기업 고객은 데이터 분석에 있어 두 가지 경향을 보인다. 바로 '개조'와 '혁신'이다. 전자는 다양한 사일로에 이질적으로 분산된 데이터를 단일 데이터 레이크로 모으는 것을 의미한다. HDP가 이 역할을 맡는다. 후자는 기업의 모든 데이터가 하둡 클러스터에 저장돼 있을 때 고급 애널리틱스, 머신러닝, 예측 모델링을 지원하는 것이다. 이는 HDF의 몫이다.
마이크로소프트의 데이터 CTO인 라구 라마크리쉬난은 현재 기업은 전용 데이터를 문맥적 정보와 결합해 통찰을 끌어내는 '개조' 단계에 있다고 평가했다. 그는 "지금은 기업 전반에 걸쳐 데이터-중심성이 더 커졌다. 이는 전통적인 관계형 데이터베이스를 적극적으로 활용하고 있다는 것을 의미한다. 하지만 기업은 점점 더 이 데이터를 관계형이 아닌 운영 데이터 소스의 다른 정보와 결합하고 싶어 한다. 이들 소스에는 트위터부터 사물인터넷 기기까지 다양하다"고 말했다.
이어 "그래서 모든 것을 가능한 한 쉽게 만들어야 한다. 기존 시스템이 충분히 복잡하므로, 기업은 비즈니스 로직에 더 집중하고, 이 모든 데이터를 균일하게 관리, 산정될 수 있는 플랫폼을 요구하고 있다"고 말했다. 이에 대해 굿펠로우는 기업이 데이터가 통합됐을 때 무엇을 할 수 있는지에 대해 점점 더 능숙해지고 있다는 데 동의했다. 그는 "이제 기업은 전통적인 비즈니스 인텔리전스를 통해 지난주 매출을 확인하면서 동시에 실시간으로 다른 작업을 하고 싶어 한다"고 말했다.
EMC의 스테판 래드키는 내부 데이터와 외부 데이터를 함께 분석한 대표적 사례로 차량 흐름을 분석하는 정부 스마트 시티 프로젝트를 제시했다. 그는 "도로의 교통량을 예측하는 모델을 개발하려면 날씨 데이터, 학교가 언제 여닫는지 등 다양한 유형의 데이터가 필요하다. 따라서 최대한 많은 데이터를 데이터 레이크에 저장하고 사용하고 싶은 방식으로 즉석에서 결정해야 한다"고 말했다.
오픈소스
마이크로소프트의 라마크리쉬난은 마이크로소프트가 오픈소스를 어떻게 수용하고 있는지에 대해 상세하게 설명했다. 그는 "기업이 특정 솔루션에 종속되지 않으려면 모든 데이터 분석 제품이 데이터가 위치한 동일 기기에서 실행돼야 한다"고 말했다.
그는 하둡 배포와 관련된 아키텍처 측면의 문제도 지적했다. 그는 "우리가 개발한 소켓을 개방한 것이 가장 중요하다. 마이크로소프트는 데이터 관리와 분석에 있어 레고 같은 아키텍처를 추구한다. 중요한 것은 데이터를 유지하고 관리하는 공간과, 가능한 데이터에 가깝게 컴퓨팅 자원을 배정할 수 있는 리소스 관리다"라고 말했다.
마이크로소프트는 이미 HD인사이트를 통해 하둡 기능을 자사의 클라우드 제품군에 통합했다. 마이크로소프트의 클라우드 제품은 애저 데이터 레이크, 파워 BI, 애저 머신러닝, 애저 액티브 디렉터리 등이 있다.
이러한 점을 종합해 보면 일부 오픈소스 전문가의 기대와 달리 기업은 빅데이터에 예상보다 능숙하지 않다는 것을 알 수 있다. 기업 고객 대부분은 단지 자사의 데이터 과학자가 연관 데이터에 접속할 수 있는 더 좋은 방법을 찾고 있을 뿐이며, 복잡한 머신러닝이나 예측 모델링 단계까지 나가지 못했다.
호튼웍스의 고객사인 마켈 인슈어런스(Markel Insurance)의 닐 윈터스는 기업이 호튼웍스와 같은 제품을 어떻게 생각하고 있는지를 이렇게 포현했다. 그는 "고위 임원들은 호튼웍스에 대해 잘 모른다. 그러나 데이터 웨어하우스와 BI팀이 더 빠르게 운영되고 있으며 그들이 전례 없는 속도로 솔루션을 내놓는다는 것은 분명히 알고 있다"고 말했다.
윈터스의 마지막 말은 "비용은 계속 줄고 있고 기능성은 계속 향상하고 있다"는 것이었다. 이는 빅데이터 전략을 추진하는 모든 기업에서 전사적인 지지를 끌어낼 수 있는 거의 확실한 방법이기도 하다. ciokr@idg.co.kr