2014.10.27

빅데이터 분야에 부는 8가지 바람

Robert L. Mitchell | Computerworld
인튜이트(Intuit)의 빌 로콘졸로 데이터 엔지니어링 부사장은 '데이터 호수(Data Lake)'에 온 몸을 던졌다. 스마터 리마케터(Smarter Remarketer)의 딘 애보트 최고 데이터 과학자는 클라우드를 향해 나아가고 있다.

빅데이터와 애널리틱스, 클라우드 컴퓨팅 분야의 첨단 영역은 지금 이 순간도 변화하고 있다.

로콘졸로는 "계속 새로운 툴이 출현하고 있다. 과거에는 신기술이 성숙하기까지 몇 년이 걸렸다. 이제는 사람들이 몇 달이나 몇 주 만에 솔루션을 발전시킨다"고 말했다. 그렇다면 주시해야 할 최고의 신기술과 트렌드는 뭘까? 컴퓨터월드는 IT 리더, 컨설턴트, 업계 분석가들에게 비교 평가를 부탁했다.



1. 클라우드에서의 빅데이터 애널리틱스
2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상
3. 빅 데이터 호수(Big data lakes)
4. 예측 분석 적용의 확대
5. 더 빠르고 우수해지는 하둡의 SQL
6. 더 풍부하고 좋아진 NoSQL
7. 딥러닝(Deep Learning)
8. 인-메모리 애널리틱스



1. 클라우드에서의 빅데이터 애널리틱스
많은 데이터 세트를 처리하는 프레임워크이자 툴 세트인 하둡(Hadoop)은 원래 물리적 클러스터에서 작동하도록 설계돼 있었다. 그러나 지금은 아니다. 포레스터 리서치의 브라이언 홉킨스는 "클라우드에서 데이터를 처리하는 기술이 증가하고 있는 추세다"라고 말했다.

아마존 레드시프트(Redshift) BI 데이터 웨어하우스, 구글의 빅쿼리(BigQuery) 데이터 분석 서비스, IBM의 블루믹스(Bluemix) 클라우드 플랫폼, 아마존의 키네시스(Kinesis) 데이터 처리 서비스를 예로 들 수 있다. 그는 "온-프레미스(내부)와 클라우드가 결합된 형태가 빅데이터의 미래로 관측된다"라고 진단했다.

SaaS 기반 소매 분석, 분할, 마케팅 서비스 공급업체인 스마터 리마케터(Smarter Remarketer)는 최근 내부 기반 하둡과 몽고DB 데이터베이스 인프라스트럭처를 클라우드 기반의 데이터 웨어하우스인 아마존 레드시프트로 옮겼다.

이 인디애나에 소재한 기업은 온라인과 소규모 소매업체의 판매 및 고객 인구통계 데이터, 실시간 행위 데이터를 수집함으로써 소매업체들이 표적화된 메시지를 만들 수 있도록 실시간으로 정보를 분석하고 있다.

스마터 리마케터의 데이터 요구사항에는 아마존 레드시프트가 비용 효율적으로 판단됐다. 특히 구조화 데이터 보고 기능이 광범위했다. 또 호스팅 방식이기 때문에 확장성과 이용 편의성이 높다는 장점이 있다. 그는 "관리 측면에서 실제 머신을 구입하는 것보다는 가상 머신에서 확장을 하는 것이 더 저렴하다"라고 말했다.

캘리포니아 마운틴 뷰에 소재한 인튜이트는 안전하고, 안정적이고, 감사가 가능한 환경이 필요하다. 이에 따라 클라우드 애널리틱스를 조심스럽게 도입해 나가고 있다.

이 재무 소프트웨어 기업는 현재 프라이빗인 인튜이트 애널리틱스 클라우드에 모든 것을 보관하고 있다. 로콘졸로는 "현재는  높은 가용성과 안전한 분석이 가능한 퍼블릭과 프라이빗이 결합되어 있으며, 두 곳으로 모두 확장이 가능한 클라우드를 구현하는 방법을 찾기 위해 아마존, 클라우데라와 제휴를 했다. 그러나 아직까지는 완전한 해결책을 찾지 못했다"고 말했다.

그럼에도 불구하고 클라우드에서 실행되는 제품을 판매하고 있는 인튜이트 같은 회사는 클라우드로의 이전이 불가피하다고 판단하고 있다. 그는 "모든 데이터를 프라이빗 클라우드로 옮기기에는 언젠가 비용상의 제약에 부딪히게 되기 때문이다"고 설명했다.

2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상
맵리듀스(MapReduce) 등의 분산형 애널리틱스 프레임워크가 분산형 자원 관리자로 발전을 하면서, 하둡이 범용 데이터 운영체제로 부상하고 있다. 홉킨스는 "분산형 파일 저장 시스템으로 하둡에 추가시킴으로써 다양한 데이터 처리 및 분석 작업을 할 수 있다"라고 설명했다.

이는 기업에 어떤 의미가 있을끼? SQL, 맵리듀스, 인메모리, 스트림 프로세싱, 그래프 애널리틱스, 기타 워크로드를 하둡에서 적합한 성능으로 처리할 수 있게 됨에 따라, 하둡을 기업용 데이터 허브로 이용하는 기업들이 증가하게 된다.

홉킨스는 "하둡에서 여러 데이터 쿼리와 작업을 처리할 수 있게 되면, 하둡은 기업들이 분석하고 싶은 데이터를 낮은 비용에 보관할 수 있는 범용 저장소가 된다"라고 설명했다.

인튜이트는 이미 하둡 기반 환경을 구축하고 있는 중이다. 로콘졸로는 "맵리듀스 및 하둡과 밀접히 연동되는 하둡 분산형 파일 시스템(Hadoop Distribution File Systems)을 기반으로 모든 형태의 사람, 제품 접촉을 구현하는 장기 전략을 세웠다"라고 말했다.

3. 빅 데이터 호수(Big data lakes)
기존 데이터베이스 이론에 따르면, 데이터 세트를 설계한 후 데이터를 입력한다. 그런데 프라이스워터하우스쿠퍼스(PwC)의 미국 컨설팅 부문 수석 기술자인 크리스 큐란에 따르면, 데이터 호수(엔터프라이즈 데이터 호수, 엔터프라이즈 데이터 허브)가 이 모델을 뒤집고 있다.
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.



2014.10.27

빅데이터 분야에 부는 8가지 바람

Robert L. Mitchell | Computerworld
인튜이트(Intuit)의 빌 로콘졸로 데이터 엔지니어링 부사장은 '데이터 호수(Data Lake)'에 온 몸을 던졌다. 스마터 리마케터(Smarter Remarketer)의 딘 애보트 최고 데이터 과학자는 클라우드를 향해 나아가고 있다.

빅데이터와 애널리틱스, 클라우드 컴퓨팅 분야의 첨단 영역은 지금 이 순간도 변화하고 있다.

로콘졸로는 "계속 새로운 툴이 출현하고 있다. 과거에는 신기술이 성숙하기까지 몇 년이 걸렸다. 이제는 사람들이 몇 달이나 몇 주 만에 솔루션을 발전시킨다"고 말했다. 그렇다면 주시해야 할 최고의 신기술과 트렌드는 뭘까? 컴퓨터월드는 IT 리더, 컨설턴트, 업계 분석가들에게 비교 평가를 부탁했다.



1. 클라우드에서의 빅데이터 애널리틱스
2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상
3. 빅 데이터 호수(Big data lakes)
4. 예측 분석 적용의 확대
5. 더 빠르고 우수해지는 하둡의 SQL
6. 더 풍부하고 좋아진 NoSQL
7. 딥러닝(Deep Learning)
8. 인-메모리 애널리틱스



1. 클라우드에서의 빅데이터 애널리틱스
많은 데이터 세트를 처리하는 프레임워크이자 툴 세트인 하둡(Hadoop)은 원래 물리적 클러스터에서 작동하도록 설계돼 있었다. 그러나 지금은 아니다. 포레스터 리서치의 브라이언 홉킨스는 "클라우드에서 데이터를 처리하는 기술이 증가하고 있는 추세다"라고 말했다.

아마존 레드시프트(Redshift) BI 데이터 웨어하우스, 구글의 빅쿼리(BigQuery) 데이터 분석 서비스, IBM의 블루믹스(Bluemix) 클라우드 플랫폼, 아마존의 키네시스(Kinesis) 데이터 처리 서비스를 예로 들 수 있다. 그는 "온-프레미스(내부)와 클라우드가 결합된 형태가 빅데이터의 미래로 관측된다"라고 진단했다.

SaaS 기반 소매 분석, 분할, 마케팅 서비스 공급업체인 스마터 리마케터(Smarter Remarketer)는 최근 내부 기반 하둡과 몽고DB 데이터베이스 인프라스트럭처를 클라우드 기반의 데이터 웨어하우스인 아마존 레드시프트로 옮겼다.

이 인디애나에 소재한 기업은 온라인과 소규모 소매업체의 판매 및 고객 인구통계 데이터, 실시간 행위 데이터를 수집함으로써 소매업체들이 표적화된 메시지를 만들 수 있도록 실시간으로 정보를 분석하고 있다.

스마터 리마케터의 데이터 요구사항에는 아마존 레드시프트가 비용 효율적으로 판단됐다. 특히 구조화 데이터 보고 기능이 광범위했다. 또 호스팅 방식이기 때문에 확장성과 이용 편의성이 높다는 장점이 있다. 그는 "관리 측면에서 실제 머신을 구입하는 것보다는 가상 머신에서 확장을 하는 것이 더 저렴하다"라고 말했다.

캘리포니아 마운틴 뷰에 소재한 인튜이트는 안전하고, 안정적이고, 감사가 가능한 환경이 필요하다. 이에 따라 클라우드 애널리틱스를 조심스럽게 도입해 나가고 있다.

이 재무 소프트웨어 기업는 현재 프라이빗인 인튜이트 애널리틱스 클라우드에 모든 것을 보관하고 있다. 로콘졸로는 "현재는  높은 가용성과 안전한 분석이 가능한 퍼블릭과 프라이빗이 결합되어 있으며, 두 곳으로 모두 확장이 가능한 클라우드를 구현하는 방법을 찾기 위해 아마존, 클라우데라와 제휴를 했다. 그러나 아직까지는 완전한 해결책을 찾지 못했다"고 말했다.

그럼에도 불구하고 클라우드에서 실행되는 제품을 판매하고 있는 인튜이트 같은 회사는 클라우드로의 이전이 불가피하다고 판단하고 있다. 그는 "모든 데이터를 프라이빗 클라우드로 옮기기에는 언젠가 비용상의 제약에 부딪히게 되기 때문이다"고 설명했다.

2. 하둡: 새로운 엔터프라이즈 데이터 운영체제로 부상
맵리듀스(MapReduce) 등의 분산형 애널리틱스 프레임워크가 분산형 자원 관리자로 발전을 하면서, 하둡이 범용 데이터 운영체제로 부상하고 있다. 홉킨스는 "분산형 파일 저장 시스템으로 하둡에 추가시킴으로써 다양한 데이터 처리 및 분석 작업을 할 수 있다"라고 설명했다.

이는 기업에 어떤 의미가 있을끼? SQL, 맵리듀스, 인메모리, 스트림 프로세싱, 그래프 애널리틱스, 기타 워크로드를 하둡에서 적합한 성능으로 처리할 수 있게 됨에 따라, 하둡을 기업용 데이터 허브로 이용하는 기업들이 증가하게 된다.

홉킨스는 "하둡에서 여러 데이터 쿼리와 작업을 처리할 수 있게 되면, 하둡은 기업들이 분석하고 싶은 데이터를 낮은 비용에 보관할 수 있는 범용 저장소가 된다"라고 설명했다.

인튜이트는 이미 하둡 기반 환경을 구축하고 있는 중이다. 로콘졸로는 "맵리듀스 및 하둡과 밀접히 연동되는 하둡 분산형 파일 시스템(Hadoop Distribution File Systems)을 기반으로 모든 형태의 사람, 제품 접촉을 구현하는 장기 전략을 세웠다"라고 말했다.

3. 빅 데이터 호수(Big data lakes)
기존 데이터베이스 이론에 따르면, 데이터 세트를 설계한 후 데이터를 입력한다. 그런데 프라이스워터하우스쿠퍼스(PwC)의 미국 컨설팅 부문 수석 기술자인 크리스 큐란에 따르면, 데이터 호수(엔터프라이즈 데이터 호수, 엔터프라이즈 데이터 허브)가 이 모델을 뒤집고 있다.
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.

X