2016.08.08

"빅데이터 알뜰 혁신"··· 맵알이 전하는 8가지 융합 요령

Thor Olavsrud | CIO

CIO나 여타 IT 의사 결정권자들에게 친숙한 미션 중 하나는 더 적은 자원으로 더 많은 일을 하는 것이다. 빅데이터(Big Data) 세계에서도 예산을 효율적으로 운영할 방안들이 있다.

대표적인 것이 개발, IT 운영(Ops), BI(Business Intelligence), 오픈소스, 분산형 컴퓨팅, 클라우드, 마이크로 서비스 개발을 융합하는 것이다. 이러한 접근법을 통해 비용 절감뿐 아니라 생산성도 높일 수 있다.

맵알 테크놀로지스(MapR Technologies)의 데이터 및 애플리케이션 수석 부사장 잭 노리스는 "CIO들은 '더 적은 자원으로 더 많은 일을 하라'는 이야기를 너무 자주 들었기 때문인지, 비용 절감을 주제로 한 토론에 그리 적극적인 태도를 보이지 않곤 한다”라며 "그렇다면 다르게 표현해보자. 여러 기술과 역량을 융합함으로써 예산 대비 2배의 효과를 얻을 수 있다. 즉, 데이터와 애플리케이션 플랫폼을 2배 또는 3배로 가동하여 비용, 복잡성, 노력을 절감하는 방안이 있을 수 있다"라고 말했다.

노리스는 여러 기술을 융합해 효율성을 도모하는 방법을 어떻게 찾아낼 수 있는 지와 관련해 다음 8가지 요령을 제시했다.


Image Credit : Getty Images Bank

기업 프로토콜(Protocol)을 재활용
그렇다. 새로운 툴과 기법과 API를 도입할 이유는 있기 마련이다. 그러나 노리스는 CIO 및 엔터프라이즈 아키텍트들이 SQL, NFS, LDAP, POSIX 등의 기존 기업 표준과 새로운 기술 사이의 연결고리를 찾아내야 한다고 강조했다.

"이미 비용이 지불된 전문지식들이며, 수십 년 동안 사용되는 것들이기도 하다. 반드시 교체해야 할 시점이 아닌 한 새로운 것으로 대체해서는 안 된다. 기존의 세계와 새로운 세계를 연계하는데 도움을 줄 수 있는 기업 소프트웨어 벤더가 있을 것이다. 그들을 찾으려는 노력을 등한시해서는 안 된다"라고 그는 말했다.

스파크(Spark)와 하둡(Hadoop), 함께 있으나 분리된 존재
아파치 하둡은 현대 빅데이터 분석에서 혁명의 시작에 일조했다. 그러나 최근에는 아파치 스파크가 데이터 지향적인 애플리케이션에 활발히 사용되기 시작하면서 이목을 집중시키기 시작했다.

노리스는 "하둡 이후 개발된 스파크는 하둡 상에서 구동될 수 있다. 그러나 단독형 클러스터로도 동작할 수 있다. 현재는 스파크가 하둡의 맵리듀스(MapReduce) 모델보다 선호되는 개발 플랫폼이다. 그러나 하둡의 데이터 관리 역량 때문에 이 둘을 유지할 가능성이 있다. 어떤 선택을 하든 데이터 보호가 무엇보다도 중요하다는 점을 기억해야 한다. 애플리케이션은 다시 시작할 수 있지만 손실되거나 손상된 데이터는 잃게 될 수 밖에 없기 때문이다"라고 말했다.

클러스터 분산을 방지
컴퓨팅 클러스터(Cluster)는 친숙한 존재지만 오늘날의 환경에서는 자칫 "클러스터의 클러스터"로 이어지기 십상이다. 스파크와 하둡이 개별적인 클러스터로 배치되는 경우가 많다. 또 카프카 스트리밍, 파일 관리용 클러스터화된 파일 시스템 Node.js 프론트 엔드(Front End) 및 여타 다양한 것들이 클러스터 분산을 초래하기 십상이다.

노리스는 "스케일 아웃(Scale-Out) 클러스터링은 빅데이터의 근본적인 기초 중 하나임에 틀림없다. 하지만 각 클러스터에는 자체 보안 모델, 관리 인터페이스, 데이터 포맷, 지속 규칙, 개별적인 하드웨어 등이 있을 수 있다! 이로 인해 기술 사일로(Silo) 구조가 빠르게 나타날 수 있다. 클러스터들을 하나의 플랫폼이나 최소한의 플랫폼들로 통합 또는 융합할 수 있는 환경을 추구해야 한다"라고 말했다.

레이크(Lake) 상에 데이터 웨어하우스
데이터 웨어하우스가 아직 건재하지만 데이터 레이크가 매력적인 대안으로 부상했다. 사실 때로는 IT 조직이 씨름하는 가장 보편적인 빅데이터 사용례이기도 하다. 노리스는 레이크 상에 데이터 웨어하우스를 구축하는 방안을 검토하라고 권고했다.

"고객들이 데이터 레이크에서 체험할 수 있는 가장 큰 이점은 회사가 '알고 있는 것'들을 가시성을 높여 제시해준다는 것"이라며 "이런 가시성이 선사하는 즉각적인 이점은 좀더 완전하면서도 정확한 고객 360 모델이다. 이러한 이점은 더 양질의 마케팅 및 판매로 이어질 수 있다. 사기, 낭비, 남용 예측 및 예방 모델을 더 정확하게 구현해주기도 한다"라고 그는 말했다.




2016.08.08

"빅데이터 알뜰 혁신"··· 맵알이 전하는 8가지 융합 요령

Thor Olavsrud | CIO

CIO나 여타 IT 의사 결정권자들에게 친숙한 미션 중 하나는 더 적은 자원으로 더 많은 일을 하는 것이다. 빅데이터(Big Data) 세계에서도 예산을 효율적으로 운영할 방안들이 있다.

대표적인 것이 개발, IT 운영(Ops), BI(Business Intelligence), 오픈소스, 분산형 컴퓨팅, 클라우드, 마이크로 서비스 개발을 융합하는 것이다. 이러한 접근법을 통해 비용 절감뿐 아니라 생산성도 높일 수 있다.

맵알 테크놀로지스(MapR Technologies)의 데이터 및 애플리케이션 수석 부사장 잭 노리스는 "CIO들은 '더 적은 자원으로 더 많은 일을 하라'는 이야기를 너무 자주 들었기 때문인지, 비용 절감을 주제로 한 토론에 그리 적극적인 태도를 보이지 않곤 한다”라며 "그렇다면 다르게 표현해보자. 여러 기술과 역량을 융합함으로써 예산 대비 2배의 효과를 얻을 수 있다. 즉, 데이터와 애플리케이션 플랫폼을 2배 또는 3배로 가동하여 비용, 복잡성, 노력을 절감하는 방안이 있을 수 있다"라고 말했다.

노리스는 여러 기술을 융합해 효율성을 도모하는 방법을 어떻게 찾아낼 수 있는 지와 관련해 다음 8가지 요령을 제시했다.


Image Credit : Getty Images Bank

기업 프로토콜(Protocol)을 재활용
그렇다. 새로운 툴과 기법과 API를 도입할 이유는 있기 마련이다. 그러나 노리스는 CIO 및 엔터프라이즈 아키텍트들이 SQL, NFS, LDAP, POSIX 등의 기존 기업 표준과 새로운 기술 사이의 연결고리를 찾아내야 한다고 강조했다.

"이미 비용이 지불된 전문지식들이며, 수십 년 동안 사용되는 것들이기도 하다. 반드시 교체해야 할 시점이 아닌 한 새로운 것으로 대체해서는 안 된다. 기존의 세계와 새로운 세계를 연계하는데 도움을 줄 수 있는 기업 소프트웨어 벤더가 있을 것이다. 그들을 찾으려는 노력을 등한시해서는 안 된다"라고 그는 말했다.

스파크(Spark)와 하둡(Hadoop), 함께 있으나 분리된 존재
아파치 하둡은 현대 빅데이터 분석에서 혁명의 시작에 일조했다. 그러나 최근에는 아파치 스파크가 데이터 지향적인 애플리케이션에 활발히 사용되기 시작하면서 이목을 집중시키기 시작했다.

노리스는 "하둡 이후 개발된 스파크는 하둡 상에서 구동될 수 있다. 그러나 단독형 클러스터로도 동작할 수 있다. 현재는 스파크가 하둡의 맵리듀스(MapReduce) 모델보다 선호되는 개발 플랫폼이다. 그러나 하둡의 데이터 관리 역량 때문에 이 둘을 유지할 가능성이 있다. 어떤 선택을 하든 데이터 보호가 무엇보다도 중요하다는 점을 기억해야 한다. 애플리케이션은 다시 시작할 수 있지만 손실되거나 손상된 데이터는 잃게 될 수 밖에 없기 때문이다"라고 말했다.

클러스터 분산을 방지
컴퓨팅 클러스터(Cluster)는 친숙한 존재지만 오늘날의 환경에서는 자칫 "클러스터의 클러스터"로 이어지기 십상이다. 스파크와 하둡이 개별적인 클러스터로 배치되는 경우가 많다. 또 카프카 스트리밍, 파일 관리용 클러스터화된 파일 시스템 Node.js 프론트 엔드(Front End) 및 여타 다양한 것들이 클러스터 분산을 초래하기 십상이다.

노리스는 "스케일 아웃(Scale-Out) 클러스터링은 빅데이터의 근본적인 기초 중 하나임에 틀림없다. 하지만 각 클러스터에는 자체 보안 모델, 관리 인터페이스, 데이터 포맷, 지속 규칙, 개별적인 하드웨어 등이 있을 수 있다! 이로 인해 기술 사일로(Silo) 구조가 빠르게 나타날 수 있다. 클러스터들을 하나의 플랫폼이나 최소한의 플랫폼들로 통합 또는 융합할 수 있는 환경을 추구해야 한다"라고 말했다.

레이크(Lake) 상에 데이터 웨어하우스
데이터 웨어하우스가 아직 건재하지만 데이터 레이크가 매력적인 대안으로 부상했다. 사실 때로는 IT 조직이 씨름하는 가장 보편적인 빅데이터 사용례이기도 하다. 노리스는 레이크 상에 데이터 웨어하우스를 구축하는 방안을 검토하라고 권고했다.

"고객들이 데이터 레이크에서 체험할 수 있는 가장 큰 이점은 회사가 '알고 있는 것'들을 가시성을 높여 제시해준다는 것"이라며 "이런 가시성이 선사하는 즉각적인 이점은 좀더 완전하면서도 정확한 고객 360 모델이다. 이러한 이점은 더 양질의 마케팅 및 판매로 이어질 수 있다. 사기, 낭비, 남용 예측 및 예방 모델을 더 정확하게 구현해주기도 한다"라고 그는 말했다.


X