2017.01.03

올해 빅데이터·BI 주도할 3가지 '머신러닝, 데이터 레이크, 스파크'

Scott Carey | Computerworld UK
2017년이 시작됐다. 하지만, 기업들은 이제야 데이터 조작성(Operationalising)을 갖게 됐다는 이야기를 하고 있다. 조작성이란 실제 이용할 수 있는 유용한 데이터를 이 데이터가 필요한 때와 장소에 맞게 현업 사용자에게 전달해야 한다는 의미다.



데이터 스토리지 가격이 계속 하락하고 SaaS 분석 솔루션이 확산되면서, 과거 어느 때보다 저렴하면서도 쉽게 직원들에게 인사이트를 전달할 수 있게 됐다. 2017년 빅데이터, 애널리틱스(분석), 비즈니스 인텔리전스(BI)와 관련한 3가지 트렌드를 정리했다.

머신러닝 수용
시장 조사 회사인 오범은 머신러닝이 2017년에 빅데이터 분석에 가장 큰 변화를 가져오는 기술이 될 것으로 전망했다.

오범의 정보 관리 담당 수석 애널리스트인 토니 바에어는 빅데이터 트렌드를 다룬 보고서에서 "머신러닝이 계속 성장할 전망이다. 그러나 대부분의 경우 맞춤 개발보다는 애플리케이션과 서비스에 탑재될 것이다. 글로벌 2000대 기업과 온라인 디지털 기업을 제외하면, 데이터 과학자를 보유한 기업은 극소수에 불과하기 때문이다"고 분석했다.

IT업체들은 기업이 보유한 데이터 세트에 머신러닝을 쉽게 적용할 수 있도록 돕는 '패키지'를 판매하고 있다. 이런 점을 고려하면, 기업들은 앞으로 계속 예측 분석, 고객 인사이트 및 개인화, 추천 엔진, 사기 및 위협 감지를 이용하게 될 것이다.

하둡에서 탈피
지난 몇 년, BI 업계의 화두는 오픈소스 데이터 스토리지 솔루션인 아파치 하둡(Apache Hadoop)이었다. 하지만 아파치 스파크(Apache Spark)를 중심으로 인기 프레임워크에 토대를 둔 대안들이 등장하고 있다.

몇 년 전부터 인메모리 데이터 처리 엔진에 대한 '과도한 기대'가 존재했다. 그러나 바에어가 보고서에서 지적했듯, 인메모리 도입을 견인하는 요소는 스파크를 클라우드에 적용하는 기능이다. 바에어는 "클라우드 기반 스파크, 관련된 머신러닝과 IoT 서비스가 하둡을 고려하는 기업에 대안을 제공하게 될 것이다"고 설명했다.

서로 밀접한 관련이 있지만, 스파크와 하둡은 별개의 제품이다. 바에어는 각기 장단점이 있다고 말했다. 그는 "논쟁이 격하다. 범용 데이터 처리 및 스토리지 엔진(하둡의 경우 YARN)이라는 오버헤드를 없앨 경우, 스파크가 훨씬 효율적이기 때문이다. 그러나 스파크 클러스터만을 떼어 놓고 보면, 하둡과 달리 보안이나 데이터 거버넌스 기능이 부족하다는 단점이 존재한다"고 설명했다.

데이터 시각화 전문 업체인 태블로(Tableau)에 따르면, 추후 하둡 도입 기업들은 2017년에 구현될 셀프서비스 데이터 준비 도구를 이용할 수 있다. 태블로는 "셀프서비스 데이터 준비 도구를 이용하면 하둡 데이터를 소스 수준에서 준비할 수 있으며, 이 데이터를 훨씬 빠르고 쉽게 탐색할 수 있는 스냅샷으로 제공할 수 있다. 알테릭스(Alteryx), 트리팍타(Trifacta), 팍사타(Paxata) 등 최종 사용자 데이터를 빅데이터에 맞게 준비하는 데 초점을 맞춘 기업일수록 혁신이 활발하다"고 강조했다.
 


유용성 높은 데이터 레이크
지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다. 다시 말해 아주 큰 비정형 데이터 세트인 데이터 레이크를 기업들이 구현하는 것은 2017년 새롭게 등장할 트렌드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.

데이터 관리 전문 업체인 렐티오(Reltin)의 라몬 첸은 "초기에 데이터 레이크를 도입한 기업 중에는 경제적인 스토리지와 프로세스 구현에 투자한 기업들이 많다"고 밝혔다. 그에 따르면, 많은 기업은 엄청난 수의 빅데이터를 통합하고 연결해 더 나은 인사이트를 발굴하는 서비스에 투자했다. 이어서 그는 "신뢰할 수 있는 데이터 토대에 대한 필요성을 인식하고 있는 기존 빅데이터 프로젝트에 전체적인 데이터 관리 전략이 결합한 새로운 프로젝트에 힘입어, 데이터 레이크는 2017년에 그 잠재력을 실현하게 될지 모른다"고 설명했다.

오범의 바에어는 데이터 레이크가 매일 쓰이는 단계에 이르면, 엑셀 스프레드시트 프로세스를 교체하는 기업들이 늘어날 것으로 내다봤다. 그는 "데이터 레이크 도입자들이 가장 많이 직면한 문제점은 데이터 목록화 및 보안과 관련이 있다. 현재 엑셀 스프레드시트만 사용하는 기업들이 여기서 벗어나고 싶어하는데, 이들의 출발점은 바로 데이터 준비 정도(Data preparation)다. 데이터 통합업체가 이 기능을 제공하며, 분석 및 데이터 과학 툴이 포함되는 등 기능을 확대했을 때 2017년에는 관련 툴의 도입이 많이 증가할 전망이다"고 말했다.


2017.01.03

올해 빅데이터·BI 주도할 3가지 '머신러닝, 데이터 레이크, 스파크'

Scott Carey | Computerworld UK
2017년이 시작됐다. 하지만, 기업들은 이제야 데이터 조작성(Operationalising)을 갖게 됐다는 이야기를 하고 있다. 조작성이란 실제 이용할 수 있는 유용한 데이터를 이 데이터가 필요한 때와 장소에 맞게 현업 사용자에게 전달해야 한다는 의미다.



데이터 스토리지 가격이 계속 하락하고 SaaS 분석 솔루션이 확산되면서, 과거 어느 때보다 저렴하면서도 쉽게 직원들에게 인사이트를 전달할 수 있게 됐다. 2017년 빅데이터, 애널리틱스(분석), 비즈니스 인텔리전스(BI)와 관련한 3가지 트렌드를 정리했다.

머신러닝 수용
시장 조사 회사인 오범은 머신러닝이 2017년에 빅데이터 분석에 가장 큰 변화를 가져오는 기술이 될 것으로 전망했다.

오범의 정보 관리 담당 수석 애널리스트인 토니 바에어는 빅데이터 트렌드를 다룬 보고서에서 "머신러닝이 계속 성장할 전망이다. 그러나 대부분의 경우 맞춤 개발보다는 애플리케이션과 서비스에 탑재될 것이다. 글로벌 2000대 기업과 온라인 디지털 기업을 제외하면, 데이터 과학자를 보유한 기업은 극소수에 불과하기 때문이다"고 분석했다.

IT업체들은 기업이 보유한 데이터 세트에 머신러닝을 쉽게 적용할 수 있도록 돕는 '패키지'를 판매하고 있다. 이런 점을 고려하면, 기업들은 앞으로 계속 예측 분석, 고객 인사이트 및 개인화, 추천 엔진, 사기 및 위협 감지를 이용하게 될 것이다.

하둡에서 탈피
지난 몇 년, BI 업계의 화두는 오픈소스 데이터 스토리지 솔루션인 아파치 하둡(Apache Hadoop)이었다. 하지만 아파치 스파크(Apache Spark)를 중심으로 인기 프레임워크에 토대를 둔 대안들이 등장하고 있다.

몇 년 전부터 인메모리 데이터 처리 엔진에 대한 '과도한 기대'가 존재했다. 그러나 바에어가 보고서에서 지적했듯, 인메모리 도입을 견인하는 요소는 스파크를 클라우드에 적용하는 기능이다. 바에어는 "클라우드 기반 스파크, 관련된 머신러닝과 IoT 서비스가 하둡을 고려하는 기업에 대안을 제공하게 될 것이다"고 설명했다.

서로 밀접한 관련이 있지만, 스파크와 하둡은 별개의 제품이다. 바에어는 각기 장단점이 있다고 말했다. 그는 "논쟁이 격하다. 범용 데이터 처리 및 스토리지 엔진(하둡의 경우 YARN)이라는 오버헤드를 없앨 경우, 스파크가 훨씬 효율적이기 때문이다. 그러나 스파크 클러스터만을 떼어 놓고 보면, 하둡과 달리 보안이나 데이터 거버넌스 기능이 부족하다는 단점이 존재한다"고 설명했다.

데이터 시각화 전문 업체인 태블로(Tableau)에 따르면, 추후 하둡 도입 기업들은 2017년에 구현될 셀프서비스 데이터 준비 도구를 이용할 수 있다. 태블로는 "셀프서비스 데이터 준비 도구를 이용하면 하둡 데이터를 소스 수준에서 준비할 수 있으며, 이 데이터를 훨씬 빠르고 쉽게 탐색할 수 있는 스냅샷으로 제공할 수 있다. 알테릭스(Alteryx), 트리팍타(Trifacta), 팍사타(Paxata) 등 최종 사용자 데이터를 빅데이터에 맞게 준비하는 데 초점을 맞춘 기업일수록 혁신이 활발하다"고 강조했다.
 


유용성 높은 데이터 레이크
지난 몇 년간 여러 사일로 대신 하나의 데이터 소스를 추구하는 경향이 생겼다. 전사적으로 쉽게 인사이트를 공유하는 데 도움이 되기 때문이다. 다시 말해 아주 큰 비정형 데이터 세트인 데이터 레이크를 기업들이 구현하는 것은 2017년 새롭게 등장할 트렌드가 아니다. 그러나 2017년은 이를 적절히 관리해 운영하는 첫해가 될 전망이다.

데이터 관리 전문 업체인 렐티오(Reltin)의 라몬 첸은 "초기에 데이터 레이크를 도입한 기업 중에는 경제적인 스토리지와 프로세스 구현에 투자한 기업들이 많다"고 밝혔다. 그에 따르면, 많은 기업은 엄청난 수의 빅데이터를 통합하고 연결해 더 나은 인사이트를 발굴하는 서비스에 투자했다. 이어서 그는 "신뢰할 수 있는 데이터 토대에 대한 필요성을 인식하고 있는 기존 빅데이터 프로젝트에 전체적인 데이터 관리 전략이 결합한 새로운 프로젝트에 힘입어, 데이터 레이크는 2017년에 그 잠재력을 실현하게 될지 모른다"고 설명했다.

오범의 바에어는 데이터 레이크가 매일 쓰이는 단계에 이르면, 엑셀 스프레드시트 프로세스를 교체하는 기업들이 늘어날 것으로 내다봤다. 그는 "데이터 레이크 도입자들이 가장 많이 직면한 문제점은 데이터 목록화 및 보안과 관련이 있다. 현재 엑셀 스프레드시트만 사용하는 기업들이 여기서 벗어나고 싶어하는데, 이들의 출발점은 바로 데이터 준비 정도(Data preparation)다. 데이터 통합업체가 이 기능을 제공하며, 분석 및 데이터 과학 툴이 포함되는 등 기능을 확대했을 때 2017년에는 관련 툴의 도입이 많이 증가할 전망이다"고 말했다.


X