올해 빅데이터·BI 주도할 3가지 '머신러닝, 데이터 레이크, 스파크'

Computerworld UK
2017년이 시작됐다. 하지만, 기업들은 이제야 데이터 조작성(Operationalising)을 갖게 됐다는 이야기를 하고 있다. 조작성이란 실제 이용할 수 있는 유용한 데이터를 이 데이터가 필요한 때와 장소에 맞게 현업 사용자에게 전달해야 한다는 의미다.



데이터 스토리지 가격이 계속 하락하고 SaaS 분석 솔루션이 확산되면서, 과거 어느 때보다 저렴하면서도 쉽게 직원들에게 인사이트를 전달할 수 있게 됐다. 2017년 빅데이터, 애널리틱스(분석), 비즈니스 인텔리전스(BI)와 관련한 3가지 트렌드를 정리했다.

머신러닝 수용
시장 조사 회사인 오범은 머신러닝이 2017년에 빅데이터 분석에 가장 큰 변화를 가져오는 기술이 될 것으로 전망했다.

오범의 정보 관리 담당 수석 애널리스트인 토니 바에어는 빅데이터 트렌드를 다룬 보고서에서 "머신러닝이 계속 성장할 전망이다. 그러나 대부분의 경우 맞춤 개발보다는 애플리케이션과 서비스에 탑재될 것이다. 글로벌 2000대 기업과 온라인 디지털 기업을 제외하면, 데이터 과학자를 보유한 기업은 극소수에 불과하기 때문이다"고 분석했다.

IT업체들은 기업이 보유한 데이터 세트에 머신러닝을 쉽게 적용할 수 있도록 돕는 '패키지'를 판매하고 있다. 이런 점을 고려하면, 기업들은 앞으로 계속 예측 분석, 고객 인사이트 및 개인화, 추천 엔진, 사기 및 위협 감지를 이용하게 될 것이다.

하둡에서 탈피
지난 몇 년, BI 업계의 화두는 오픈소스 데이터 스토리지 솔루션인 아파치 하둡(Apache Hadoop)이었다. 하지만 아파치 스파크(Apache Spark)를 중심으로 인기 프레임워크에 토대를 둔 대안들이 등장하고 있다.

몇 년 전부터 인메모리 데이터 처리 엔진에 대한 '과도한 기대'가 존재했다. 그러나 바에어가 보고서에서 지적했듯, 인메모리 도입을 견인하는 요소는 스파크를 클라우드에 적용하는 기능이다. 바에어는 "클라우드 기반 스파크, 관련된 머신러닝과 IoT 서비스가 하둡을 고려하는 기업에 대안을 제공하게 될 것이다"고 설명했다.

서로 밀접한 관련이 있지만, 스파크와 하둡은 별개의 제품이다. 바에어는 각기 장단점이 있다고 말했다. 그는 "논쟁이 격하다. 범용 데이터 처리 및 스토리지 엔진(하둡의 경우 YARN)이라는 오버헤드를 없앨 경우, 스파크가 훨씬 효율적이기 때문이다. 그러나 스파크 클러스터만을 떼어 놓고 보면, 하둡과 달리 보안이나 데이터 거버넌스 기능이 부족하다는 단점이 존재한다"고 설명했다.

데이터 시각화 전문 업체인 태블로(Tableau)에 따르면, 추후 하둡 도입 기업들은 2017년에 구현될 셀프서비스 데이터 준비 도구를 이용할 수 있다. 태블로는 "셀프서비스 데이터 준비 도구를 이용하면 하둡 데이터를 소스 수준에서 준비할 수 있으며, 이 데이터를 훨씬 빠르고 쉽게 탐색할 수 있는 스냅샷으로 제공할 수 있다. 알테릭스(Alteryx), 트리팍타(Trifacta), 팍사타(Paxata) 등 최종 사용자 데이터를 빅데이터에 맞게 준비하는 데 초점을 맞춘 기업일수록 혁신이 활발하다"고 강조했다.
 
---------------------------------------------------------------
2017년 전망 인기기사
->가트너, 2017년 10대 전략 기술 트렌드 발표
-> 2017년 주목해야 할 스마트폰 트렌드 10가지
-> 두번째 파도 온다··· 2017년 클라우드 컴퓨팅 트렌드 6가지
-> 2017년 CIO가 주목해야 할 7가지 트렌드와 5가지 기술
->칼럼 | 2017년을 낙관한다
->"2017년 가장 중요한 개발 트렌드는 도커와 머신러닝"
->블로그 | 2017년에 걱정해야 할 '10+1'가지
---------------------------------------------------------------


유용성 높은 데이터 레이크
지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다. 다시 말해 아주 큰 비정형 데이터 세트인 데이터 레이크를 기업들이 구현하는 것은 2017년 새롭게 등장할 트렌드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.

데이터 관리 전문 업체인 렐티오(Reltin)의 라몬 첸은 "초기에 데이터 레이크를 도입한 기업 중에는 경제적인 스토리지와 프로세스 구현에 투자한 기업들이 많다"고 밝혔다. 그에 따르면, 많은 기업은 엄청난 수의 빅데이터를 통합하고 연결해 더 나은 인사이트를 발굴하는 서비스에 투자했다. 이어서 그는 "신뢰할 수 있는 데이터 토대에 대한 필요성을 인식하고 있는 기존 빅데이터 프로젝트에 전체적인 데이터 관리 전략이 결합한 새로운 프로젝트에 힘입어, 데이터 레이크는 2017년에 그 잠재력을 실현하게 될지 모른다"고 설명했다.

오범의 바에어는 데이터 레이크가 매일 쓰이는 단계에 이르면, 엑셀 스프레드시트 프로세스를 교체하는 기업들이 늘어날 것으로 내다봤다. 그는 "데이터 레이크 도입자들이 가장 많이 직면한 문제점은 데이터 목록화 및 보안과 관련이 있다. 현재 엑셀 스프레드시트만 사용하는 기업들이 여기서 벗어나고 싶어하는데, 이들의 출발점은 바로 데이터 준비 정도(Data preparation)다. 데이터 통합업체가 이 기능을 제공하며, 분석 및 데이터 과학 툴이 포함되는 등 기능을 확대했을 때 2017년에는 관련 툴의 도입이 많이 증가할 전망이다"고 말했다.


여전히 데이터 과학자를 필요로 하는 기업들
능력을 갖춘 대학졸업생들이 고용 시장으로 더 많이 유입되면서, 데이터 과학자 수요가 줄어들 전망이다. 하지만 2017년에는 해당 사항이 없다.

하이어드의 2016년 마인드 더 갭(Mind The Gap) 보고서에 따르면, 데이터 과학자에게 제안하는 연봉이 지난 18개월간 29% 상승했다. 또 이 기간에 데이터 엔지니어에 대한 면접 요청 건수는 234%나 증가했다.
 

고용주의 관심이 높은 IT직종


출처 : 하이어드의 2016년 마인드 더 갭 보고서

셀프서비스 BI 증가
인메모리 분석 전문 기업인 EXASOL의 CEO 애론 올드는 현업 사용자가 분석과 인사이트를 직접 이용할 수 있는 셀프서비스 BI를 2017년에도 계속 중요한 트렌드로 전망했다.

올드는 "대기업과 신생창업 회사 모두 셀프서비스 툴을 점점 더 많이 도입하는 추세다. 데이터 분석이 비즈니스의 핵심 요소로 통합되면서, 기업들은 데이터 분석과 데이터베이스, 태블로 같은 시각화 도구, 알테릭스 같은 데이터 준비 툴을 통합해 이용하게 될 것이다"고 설명했다.
 
클라우드 기반 분석
데이터 시각화 전문 기업인 태블로에 따르면, 2017년에는 중요한 데이터 저장 및 분석 워크플로가 더 많이 클라우드로 이동할 전망이다. 올드는 "데이터를 클라우드로 이전하면서, 클라우드에 기반을 둔 분석이 '주류'가 되어야 한다는 점을 깨닫게 될 것이다. 2017년에는 분석을 위해 상관관계를 규명해야 할 필요가 있는 데이터를 가장 큰 데이터 세트가 위치한 장소로 옮기는 '데이터 중력' 현상이 기업에게 데이터가 위치한 장소에서 분석하도록 만들 것이다. 아마존 레드시프트(Amazon Redshift) 같은 클라우드 데이터 웨어하우스가 계속 인기를 끌 것이고, 그 결과 클라우드 기반 분석이 확대될 전망이다"고 설명했다.

스트리밍 분석
스트리밍 분석이란 기업 내부로 유입되는 데이터에 대한 모니터링이다. 기존의 배치 분석과는 다른 방식이다. 핵심 인프라나 기계의 상태를 모니터링할 때 특히 유용하다. 2017년에 스트리밍 분석이 계속 확대되는 이유가 여기에 있다. 또 더 많은 기업이 사물 인터넷을 추구할 것이기 때문이다.

오범의 바에어에 따르면, 스트리밍 분석은 몇십 년 전에 등장했다. 그러나 오픈소스 기술이 진입 장벽을 낮췄다. 제조업과 의료 산업을 중심으로 연결된 장치와 IoT가 증가하면서, 2017년은 스트리밍 분석이 빛을 발하는 한 해가 될 전망이다.

바에어는 "새로운 IoT 활용 사례가 수요를 창출한다. 실시간 감지, 분석, 대응이 기술 업체들로 하여금 틈새 CEP(Complex Event Processing)를 찾는 데 도움을 줄 것이다"고 말했다.

결론: 2017년 데이터 트렌드
빅데이터는 여전히 어려운 점이 많은 분야가 될 것이다. 그러나 클라우드가 더 저렴하면서도 쉽게, 그리고 수많은 데이터 과학자의 도움 없이 데이터로 더 많은 것을 달성하도록 도울 것이다.

AWS와 마이크로소프트는 머신러닝용 API를, 구글은 텐서플로(TensorFLow) 오픈소스 도구를 출시하고 있다. 2017년은 '첨단' 데이터 처리 기법이 '주류' 데이터 처리 기법이 되는 한 해가 될 전망이다. ciokr@idg.co.kr