빅데이터 애널리틱스 10년 전망 · · · 변화 견인차는 '클라우드'

InfoWorld

기업 빅데이터의 미래는 퍼블릭 클라우드에 있다. 빅데이터의 가치를 제대로 얻기 위해 필요한 통합 플랫폼이 퍼블릭 클라우드로 인해 탄생하고 있다.

오늘날 빅데이터 애널리틱스 시장은 불과 몇 년 전 업계의 모습과도 사뭇 다르다. 그러나 앞으로 10년 동안 더욱 급격한 변화와 혁신, 파괴가 나타날 전망이다.

실리콘앵글 미디어 애널리스트 그룹 위키본(Wikibon)이 최근 시장 조사 연간 업데이트를 발표했다. 이에 따르면, 2017년 전세계 빅데이터 애널리틱스 시장은 전년도 대비 24.5 % 성장했다.

이는 지난해 보고서의 예상보다 빠른 속도다. 플랫폼, 도구 등 솔루션의 통합이 가속화 되었을 뿐만 아니라 퍼블릭 클라우드 배치 및 활용이 예상보다 강세를 보인 덕분이다. 또한, 기업들은 빅데이터 애널리틱스로 실험 및 개념 증명 단계를 빠르게 벗어나고 있으며 배치된 것들로부터 더 높은 수준의 업무 가치를 달성하고 있다. ((참고 : 필자는 위키본에 소속해 있다.)

위키본은 향후 전체 빅데이터 애널리틱스 시장이 2027년까지 연 11% 성장을 거듭해 전세계적으로 1,0 30억 달러 규모에 이를 것으로 예상하고 있다. 장기적으로 사물인터넷(IoT), 이동성 등 엣지 컴퓨팅 용도에 빅데이터 애널리틱스가 활용되면서 시장 성장의 많은 부분을 이끌 것으로 보인다.



향후 10년간 빅데이터 애널리틱스의 주요 발전 동향
위키본의 조사에서 확인된 바에 따르면, 향후 10년간 빅데이터 애널리틱스 업계를 주도할 주요 발전 동향은 다음과 같다.

- 퍼블릭 클라우드 제공업체들은 지배력을 확장한다. 빅데이터 업계는 3대 퍼블릭 클라우드 제공업체인 아마존웹서비스(AWS), 마이크로소프트 애저(Microsoft Azure), 구글 클라우드 플랫폼(Google Cloud Platform)을 중심으로 집중되고 대부분의 소프트웨어 업체는 3대 플랫폼 모두에서 운영되는 솔루션을 구축한다.

기성 빅데이터 업체인 IBM과 오라클(Oracle) 등을 비롯한 다른 빅데이터 퍼블릭 클라우드 제공업체들도 관리 IaaS 및 PaaS 데이터 레이크(data lake) 서비스를 제공한다. 고객과 협력업체가 새로운 응용프로그램 개발을 권장 받는 장소이자 구형 응용프로그램을 이주시키는 장소이다. 이처럼 다양화된 퍼블릭 클라우드 제공업체의 지배력이 점점 커지고 있는 빅데이터 공간에서 순수 데이터 플랫폼/NoSQL 업체들은 소외된 나머지 사망하는 형국이다.

- 프라이빗 클라우드 대비 퍼블릭 클라우드의 장점이 계속 커진다. 퍼블릭 클라우드는 전 고객 부문에서 선호되는 빅데이터 애널리틱스 플랫폼으로 자리잡는다. 왜냐하면 퍼블릭 클라우드 솔루션은 성숙 속도와 풍부한 기능 추가, 경쟁력 있는 소유 비용 측면에서 온프레미스 스택을 계속 앞서나가기 때문이다. 퍼블릭 클라우드는 응용프로그램 프로그래밍 인터페이스 생태계를 성장시킨다. 자체 관리 도구의 향상 속도 역시 구내 배치용 빅데이터 애널리틱스 솔루션에 비해 빠르다.

- 하이브리드 클라우드는 기업 빅데이터가 퍼블릭 클라우드에 완벽히 배치되기 전의 중간 지점으로 자리잡는다. 하이브리드 클라우드는 대부분 대기업의 빅데이터 계획에 주로 과도기적 전략에 포함된다. 기업들이 더 많은 빅데이터 자산을 퍼블릭 클라우드에 넣는 추세이기 때문이다. 이러한 동향을 인지한 전통적인 빅데이터 업체들은 자신들의 제품을 하이브리드 용도에 최적화시킨다. 같은 이유로 구내 기반 빅데이터 플랫폼은 퍼블릭 클라우드 내 배치를 위해 재설계된다.

- 클라우드 기반 빅데이터 사일로 통합이 기업 가치 실현 시간을 가속화시킨다. 기업 사용자들은 사일로화된 빅데이터 자산을 퍼블릭 클라우드에 통합하는 데 박차를 가한다. 퍼블릭 클라우드 제공업체의 지배력이 커지면서, 지금까지 기업의 사설 빅데이터 아키텍처를 괴롭혀 온 업무 간 사일로가 붕괴된다.

이에 못지 않게 중요한 것은, 복잡성을 줄이고 가치 실현 시간을 앞당기도록 설계된 통합 제품에 클라우드 기반은 물론 구내 빅데이터 솔루션이 통합된다는 것이다. 접속 간소화와 배치 가속화를 위해 표준화된 API를 제공하고 빅데이터 솔루션 스택 전체를 통해 더욱 종합적인 관리를 가능하게 하는 솔루션 제공업체가 늘어난다.

- 혁신적인 빅데이터 신생업체들이 점점 정교해지는 AI를 결합한 응용프로그램을 출시한다. 혁신적인 응용프로그램 제공업체들이 AI 기반 솔루션으로 빅데이터 경쟁 지형을 파괴하기 시작한다. 새롭게 시장에 합류한 업체들에 의한 위협이 전 빅데이터 부문에서 가속된다. 혁신의 대부분은 퍼블릭 또는 하이브리드 클라우드 배치가 목적이다. 최근 몇 년간 많은 수의 데이터베이스, 스트림 처리, 데이터 과학 신생업체들이 시장에 합류했다.

- 파괴적 빅데이터 방식이 기성 플랫폼의 가능성 있는 대안으로 자리잡는다. IoT, 블록체인, 스트림 컴퓨팅을 합친 차세대 방식으로 무장한 신세대 빅데이터 플랫폼 제공업체들이 머지 않아 등장한다. 이러한 차세대 빅데이터 플랫폼은 머신러닝, 딥러닝, AI용 엔드투엔드(end-to-end) 데브옵스(devops) 파이프라인 관리에 최적화 되는 경우가 많아진다. 또한, 빅데이터 플랫폼은 엣지 기기에 대한 AI 마이크로서비스를 위해 재설계된다.

- 하둡(Hadoop)은 빅데이터 퍼즐의 한 조각으로 전락한다. 하둡이 시장에서 파괴적 업무 응용프로그램용 전략적 플랫폼이 아닌 구식 빅데이터 기술로 치부되는 조짐이 보이고 있다. 그러나, 하둡은 여러 사용자 IT 조직에서 비정형 정보 정제 등 핵심 용도에 널리 활용되는 성숙한 기술이다. 여러 조직에서 유용하게 쓰일 날이 아직 많이 남아 있다. 이러한 장기적 관점을 염두에 두고 업체들은 독자적으로 개발된 하드웨어 및 소프트웨어 요소들 간의 보다 원활한 상호운용성을 설계함으로써 계속해서 제공 제품을 개선해 나간다.


- 사용자들이 오픈 생태계에서 여러 업체의 빅데이터 배치를 혼합해 연출하는 경향이 커진다. 독점, 비표준 또는 비 오픈소스 구성요소가 포함된 솔루션을 제공하는 빅데이터 업체가 줄어든다. 고객들은 오늘날 시장의 경쟁이 치열한 점을 노려 빅데이터 애널리틱스 업체들로부터 계속되는 기능 개선을 얻어낸다.

한편, 업체들은 고객들이 다양한 기능 수준에서 구성요소를 교환할 수 있는 모듈식 아키텍처 내로 자신들의 도구를 분리시킨다. 이는 풀스택(full-stack) 업체 종속이 과거의 일이 되어 버린 시장을 일정 수준으로 계속 점유하고자 하는 업체에게 최상의 방식이다.

- 데이터베이스가 혁신적인 방식으로 해체되고 재조립된다. 아키텍처의 관점에서 보면 우리가 알던 데이터베이스는 시들해진다. 우리는 스트리밍, 인메모리(in-memory), 무서버 빅데이터 애널리틱스 인프라가 대권을 장악할 미래로 진입한다. 업체들은 자동화된 머신러닝 파이프라인과 엣지 페이싱(edge-facing) 인지 IoT 분석과 같이 새롭게 등장한 요건에 대처하기 위해 핵심 데이터베이스 기능을 재설계할 새로운 방법을 모색한다.

이러한 발전 과정에서 보다 고성능 거래 분석 기능이 각종 데이터 플랫폼에 통합됨에 따라, 분석 및 응용 데이터베이스가 통합된다. 또한, 데이터베이스 저장 엔진은 데이터 보관소로 자리잡는다. 주요 보관 대상은 핵심 가치 지표 및 객체 스키마와 같은 교체 구조를 통해 주소 지정 가능한 기계 데이터이다.

- 데이터 과학 도구 체인의 엔드 투 엔드 데브옵스 파이프라인 자동화가 늘어난다. 빅데이터 강화 프로그래밍이 계속해서 더욱 정교해진다. 머신러닝, 딥러닝 등 AI 자산의 개발과 배치 및 관리의 다양한 작업을 자동화하기 위한 데브옵스 도구가 늘어나고 개발자들은 이를 활용한다. 이처럼 늘어나는 솔루션들은 심지어 전문 머신러닝 알고리즘을 활용해 하이퍼파라미터 튜닝(hyperparameter tuning)과 같은 머신러닝 개발 기능을 구동한다.

- 패키지된 빅데이터 애널리틱스 응용프로그램이 보다 광범위하게 사용 가능하게 된다. 향후 10년 동안에는, 빅데이터 애널리틱스 솔루션을 사전에 구축, 교육되고 템플릿화된 클라우드 서비스로서 구입하는 사용자들이 많아진다. 이들 서비스 중에는 최적의 업무 결과를 지속적으로 제공하기 위해서 임베디드 된 머신러닝, 딥러닝, AI 모델을 자동으로 조정 및 조율하는 것이 많다. 또한 고객이 스스로의 필요에 맞게 수정하고 확장할 수 있는 사전 교육된 모델을 포함시키는 경우도 많다.

빅데이터 애널리틱스의 발전과 배치를 가로막는 장애물
빅데이터 애널리틱스 활용에 대한 여러 장밋빛 예상에도 불구하고, 사용자들을 좌절시키는 고질적인 문제들이 아직 많이 남아 있다. 그 가운데 주요 문제들은 다음과 같다.

- 지나친 복잡성. 빅데이터 애널리틱스 환경 및 응용프로그램은 여전히 너무 복잡하다. 업체들은 이러한 환경의 인터페이스와 아키텍처, 기능, 도구 등을 계속해서 간소화해 나가야 한다. 그렇게 한다면, 필요한 전문 기술을 갖춘 사내 IT 직원이 부족한 경우가 많은 주류 개발자 및 사용자들도 정교한 빅데이터 애널리틱스 기능을 활용할 수 있게 된다.

- 번거로운 절차. 많은 IT 전문가들에게 빅데이터 애널리틱스 관리 및 통제 절차는 여전히 너무 사일로화돼 있고 비용이 많이 들며 비효율적이다. 업체들은 대규모 전문 직원 팀이 데이터와 메타데이터, 분석, 서비스 정의 등을 보다 효율적이고 빠르고 정확하게 관리할 수 있도록 도움을 주는 사전 패키지된 작업흐름을 구축해야 한다.

- 질질 끄는 파이프라인. 빅데이터 애널리틱스 응용프로그램 개발 및 운용화 파이프라인은 여전히 너무 시간이 오래 걸리고 수동적인 방식이다. 업체들은 제공 도구의 자동화 기능을 강화하여 사용자 기술 직원의 생산성을 높이는 한편, 미숙련 직원조차 복잡한 작업을 일관성 있게 처리 가능하게 해야 한다.

- 사용자 정의 응용프로그램. 빅데이터 애널리틱스 전문 서비스는 여러 사용자 정의 응용프로그램의 개발, 배치 및 관리에 여전히 필수적이다. 하이브리드 클라우드에 걸쳐 있고 이종의 플랫폼 및 도구를 활용하며 가늠할 수 없을 정도로 복잡한 데이터 절차가 포함된 데이터 주도 응용프로그램의 경우 특히 그렇다. 업체들은 흔한 빅데이터 애널리틱스 응용프로그램을 위한 사전 패키지된 응용프로그램 콘텐츠를 강화하는 한편 사용자들이 외부 도움 없이 복잡한 업무 로직을 명시할 수 있는 셀프 서비스 시각 도구를 제공해야 한다.

기업 IT 부문에게 위키본이 주로 권하는 내용은 ‘빅데이터 애널리틱스 개발 활동의 더 많은 부분을 퍼블릭 클라우드 환경으로 이주시키기 시작하라’라는 것이다. 그러면, AWS, 마이크로소프트, 구글, IBM 등 퍼블릭 클라우드 제공업체에서 제공하는 급속도로 성숙하고 있는 저가 제품을 더 빠른 속도로 활용할 수 있게 된다. 또 향후 몇 년 간 퍼블릭 클라우드로의 원활한 이전을 위해 기업 하이브리드 클라우드 확장을 고려해야 한다.

* James Kobielus는 실리콘앵글 위키본의 수석 애널리스트다. AI, 데이터과학, 애플리케이션 개발 분야를 담당한다. ciokr@idg.co.kr