2011.12.14

빅 데이터 전문가들 "잠재력은 뚜렷, 그러나 신중히 접근해야"

Stephen Lawson | IDG News Service
데이터량이 증가하고 이를 다루는 도구 또한 성장하고 있지만, 이를 활용하기 위해서는 치밀한 계획이 필요하다고 전문가들이 입을 모았다.

대용량 데이터 세트의 확산이 비즈니스와 과학을 바꿔놓는 트렌드가 이제 갓 태동하고 있지만, 기업 입장에서는 철저한 준비 또한 요구되고 있다고 지난 주 열린 한 실리콘 밸리 인터뷰에서 패널리스트들이 일제히 지적했다.

캘리포니아 마운틴 뷰에서 지난 7일 열린 처칠 클럽 이벤트의 연사들에 따르면, ‘빅 데이터’ 트렌드는 데이터 저장과 분석 도구라는 두 측면에서 도전 과제를 안겨주고 있다. 이번 토론은 EMC의 그린플럼 통합 애널리틱스 플랫폼 출시 행사 이후 진행된 것이다.

오늘 날 데이터량은 가파르게 증가하고 있다. IDC가 지난 주 발표한 바에 따르면, 올해 2분기 스토리지 업체들이 출하한 총 용량은 5,429페타바이트로, 전년 2분기와 비교해 30.7% 증가했다.

월마트 글로벌 E-커머스 부사장이자 @월마트랩스 대표인 아난드 라자라만은 "데이터량이 증가하는 속도는 무어의 법칙과 네트워크 확산 속도보다 빠르다"라고 말했다.

월마트랩스의 주요 임무 중 하나는 새로운 형태의 데이터를 이용할 수 있는 도구를 개발하는 것이다. 이를테면 트위터나 페이스북과 같은 출처를 통해 확보한 정보를 통해 트렌드를 파악하거나 소비자 개인 기호를 파악할 수 있도록 하는 애플리케이션을 개발하고 있다.

라자라만은 그러나 이러한 비구조적 빅 데이터 분석은 기업 뿐 아니라 지구과학, 생물학, 심리학 및 다른 영역에도 혜택을 준다고 말했다. 그는 "과학 분야야말로 방대한 데이터를 수집해 분석하고 있다"라고 전했다.

그린플럼의 CTO이자 공동설립자 루크 로너간은 빅 데이터에 대해 '새로운 도구로 분석해야하는 데이터'라며, '크기가 관건인 것은 아니다'라고 요약했다. 예를 들어 30GB 분량의 데이터로 특정 사건의 개연성을 예측하는데 사용되는 로지스틱 회귀 알고리즘을 구동하기 위해서는 27시간이 소요되는데, 32개의 컴퓨터상에서 분석하면 60초만에 이뤄질 수 있다고 그는 설명했다.

로너간은 "과거 세대에 비해 크고 비병렬적인 인프라스트럭처라는 정의가 유용할 수 있다. 과거의 방식과는 다른 어떤 것"이라고 말했다.

패널들은 데이터 분석이 어려워지는 이유에 대해 크기 외에도 새로운 출처의 등장이 있다고 입을 모았다.

블로그, 웹 상의 코멘트 및 여타 비구조화된 데이터의 형태로 정보가 유입되기 때문에 기존의 관계형 데이터베이스로는 처리가 어렵다는 이야기다.

이에 따라 구글과 페이스북이 주창한 하둡 프레임워크와 같은 신형 데이터 분석 플랫폼이 등장했다고 그들은 설명했다.

벤처 캐피털 기업 액셀 파트너스의 빅 데이터 펀드 수장 핑 리는, 빅 데이터 분석 및 관리 시장이 지속적으로 성장하고 있다고 평가했다. 그는 "새로운 데이터 플랫폼의 대다수는 이제 갓 개발됐을 뿐"이라고도 말했다.

그는 또 전통적인 비즈니스 인텔리전스와 ERP 플랫폼으로 빅 데이터를 다루려는 시도도 있지만, 새로운 세상에 적합한 네이비트 애플리케이션이 요구되고 있다고 말했다.

이어 특히 개발도상국에서 이러한 시도가 활발한데, 이는 이들 국가 소재 기업의 경우 레거시 시스템이 부재하기 때문이라고 그는 전했다.

월마트의 라자라만은 빅 데이터로부터 가치를 이끌어내는 작업이 이커머스 초기 온라인 스토어를 구축하는 것과 유사하다고 비유했다. 그는 아마존닷컴의 마켓플레이스 비즈니스를 개발하는데 일조한 인물이기도 하다.

그에 따르면 아마존은 지불, 사기 탐지 등과 같은 업무를 위해 독자적인 시스템을 개발했었는데, 이들 각각의 영역은 이후 독자적인 벤더의 출현을 촉발시켜던 바 있다.

기업 입장에서는 빅 데이터의 함의를 이해하고 새로운 도구의 작동법을 알아내는 작업이 선행되어야 한다는 의견도 강조됐다.

SAS의 CTO이나 부사장 케이스 콜린스는 "관리 프레임워크 없이 단지 하둡을 도입하고 직접 작성하는 기업이라면 이내 환멸감을 느낄 것"이라고 경고했다.

콜린스는 "하둡과 같은 빅 데이터 도구만으로는 각종 정보로부터 가치를 창출할 수 없다"면서, "데이터로부터 어떤 것을 발견하려 하는지 그리고 어떻게 데이터를 처리해야 그러한 정보를 얻을 수 있는지를 알아야만 한다"라고 말했다.

그는 "데이터 이슈는 이 질문을 이해한 이후에야 해결할 문제"라고 덧붙였다. ciokr@idg.co.kr



2011.12.14

빅 데이터 전문가들 "잠재력은 뚜렷, 그러나 신중히 접근해야"

Stephen Lawson | IDG News Service
데이터량이 증가하고 이를 다루는 도구 또한 성장하고 있지만, 이를 활용하기 위해서는 치밀한 계획이 필요하다고 전문가들이 입을 모았다.

대용량 데이터 세트의 확산이 비즈니스와 과학을 바꿔놓는 트렌드가 이제 갓 태동하고 있지만, 기업 입장에서는 철저한 준비 또한 요구되고 있다고 지난 주 열린 한 실리콘 밸리 인터뷰에서 패널리스트들이 일제히 지적했다.

캘리포니아 마운틴 뷰에서 지난 7일 열린 처칠 클럽 이벤트의 연사들에 따르면, ‘빅 데이터’ 트렌드는 데이터 저장과 분석 도구라는 두 측면에서 도전 과제를 안겨주고 있다. 이번 토론은 EMC의 그린플럼 통합 애널리틱스 플랫폼 출시 행사 이후 진행된 것이다.

오늘 날 데이터량은 가파르게 증가하고 있다. IDC가 지난 주 발표한 바에 따르면, 올해 2분기 스토리지 업체들이 출하한 총 용량은 5,429페타바이트로, 전년 2분기와 비교해 30.7% 증가했다.

월마트 글로벌 E-커머스 부사장이자 @월마트랩스 대표인 아난드 라자라만은 "데이터량이 증가하는 속도는 무어의 법칙과 네트워크 확산 속도보다 빠르다"라고 말했다.

월마트랩스의 주요 임무 중 하나는 새로운 형태의 데이터를 이용할 수 있는 도구를 개발하는 것이다. 이를테면 트위터나 페이스북과 같은 출처를 통해 확보한 정보를 통해 트렌드를 파악하거나 소비자 개인 기호를 파악할 수 있도록 하는 애플리케이션을 개발하고 있다.

라자라만은 그러나 이러한 비구조적 빅 데이터 분석은 기업 뿐 아니라 지구과학, 생물학, 심리학 및 다른 영역에도 혜택을 준다고 말했다. 그는 "과학 분야야말로 방대한 데이터를 수집해 분석하고 있다"라고 전했다.

그린플럼의 CTO이자 공동설립자 루크 로너간은 빅 데이터에 대해 '새로운 도구로 분석해야하는 데이터'라며, '크기가 관건인 것은 아니다'라고 요약했다. 예를 들어 30GB 분량의 데이터로 특정 사건의 개연성을 예측하는데 사용되는 로지스틱 회귀 알고리즘을 구동하기 위해서는 27시간이 소요되는데, 32개의 컴퓨터상에서 분석하면 60초만에 이뤄질 수 있다고 그는 설명했다.

로너간은 "과거 세대에 비해 크고 비병렬적인 인프라스트럭처라는 정의가 유용할 수 있다. 과거의 방식과는 다른 어떤 것"이라고 말했다.

패널들은 데이터 분석이 어려워지는 이유에 대해 크기 외에도 새로운 출처의 등장이 있다고 입을 모았다.

블로그, 웹 상의 코멘트 및 여타 비구조화된 데이터의 형태로 정보가 유입되기 때문에 기존의 관계형 데이터베이스로는 처리가 어렵다는 이야기다.

이에 따라 구글과 페이스북이 주창한 하둡 프레임워크와 같은 신형 데이터 분석 플랫폼이 등장했다고 그들은 설명했다.

벤처 캐피털 기업 액셀 파트너스의 빅 데이터 펀드 수장 핑 리는, 빅 데이터 분석 및 관리 시장이 지속적으로 성장하고 있다고 평가했다. 그는 "새로운 데이터 플랫폼의 대다수는 이제 갓 개발됐을 뿐"이라고도 말했다.

그는 또 전통적인 비즈니스 인텔리전스와 ERP 플랫폼으로 빅 데이터를 다루려는 시도도 있지만, 새로운 세상에 적합한 네이비트 애플리케이션이 요구되고 있다고 말했다.

이어 특히 개발도상국에서 이러한 시도가 활발한데, 이는 이들 국가 소재 기업의 경우 레거시 시스템이 부재하기 때문이라고 그는 전했다.

월마트의 라자라만은 빅 데이터로부터 가치를 이끌어내는 작업이 이커머스 초기 온라인 스토어를 구축하는 것과 유사하다고 비유했다. 그는 아마존닷컴의 마켓플레이스 비즈니스를 개발하는데 일조한 인물이기도 하다.

그에 따르면 아마존은 지불, 사기 탐지 등과 같은 업무를 위해 독자적인 시스템을 개발했었는데, 이들 각각의 영역은 이후 독자적인 벤더의 출현을 촉발시켜던 바 있다.

기업 입장에서는 빅 데이터의 함의를 이해하고 새로운 도구의 작동법을 알아내는 작업이 선행되어야 한다는 의견도 강조됐다.

SAS의 CTO이나 부사장 케이스 콜린스는 "관리 프레임워크 없이 단지 하둡을 도입하고 직접 작성하는 기업이라면 이내 환멸감을 느낄 것"이라고 경고했다.

콜린스는 "하둡과 같은 빅 데이터 도구만으로는 각종 정보로부터 가치를 창출할 수 없다"면서, "데이터로부터 어떤 것을 발견하려 하는지 그리고 어떻게 데이터를 처리해야 그러한 정보를 얻을 수 있는지를 알아야만 한다"라고 말했다.

그는 "데이터 이슈는 이 질문을 이해한 이후에야 해결할 문제"라고 덧붙였다. ciokr@idg.co.kr

X