이제는 빅 데이터 대비할 때 • • • ‘5가지 가이드라인’

Computerworld
“빅 데이터(Big data)” 계획을 잘 세우고 있는가? 아직도 제대로 된 계획이 없다면 이제는 정말 차근차근 고민해봐야 할 시점이다.

빅 데이터가 미래의 핵심 전략적 사업 부문으로 일컬어지고 있다. (물론 혹자는 보는 관점에 따라 과장 선전이라고 말하기도 한다.) 이 말은 즉 고급사무실에 앉아 있는 임원들이 IT부문에게 빅 데이터에 대한 의견을 구할 날이 그저 시간문제일 뿐이라는 뜻이다.

그들에게 무슨 말을 해줘야 할까? 애널리스트들은 분명 대부분의 IT 부서들이 이미 많은 양의 데이터 처리에 어느 정도 익숙하긴 하지만, 빅 데이터는 그 이전에 하고 있는 데이터 웨어하우징(data warehousing), 데이터 마이닝(data mining), 비즈니스 인텔리전스(Business Intelligence) 분석 등과는 완전히 다르다고 지적하고 있다.

이들에 따르면 오늘날 데이터는 그 어느 때보다 빠른 속도로, 더욱 다양하게 생성되고 있으며 과거의 데이터와는 달리 대부분이 비정형(unstructured), 미가공(raw) 형태의 데이터다. 간혹 “그레이 데이터(gray data)”라고 불리기도 한다.

애널리스트들은 블로그, 소셜미디어 네트워크, 기계의 센서 및 위치기반 데이터 등과 같은 비정형 데이터가 완전히 새로운 과제를 만들어내고 있다면서, 그 데이터들을 재빨리 포착하고, 관리하고, 분석한다면 과거에는 인지할 수 없었던 사실과 패턴들을 밝혀낼 수 있을 것이라고 입을 모으고 있다.
 
CSC(Computer Sciences Corp.) 리딩 에지 포럼, 테크놀로지 프로그램(Leading Edge Forum, Technology Programs)의 디렉터 폴 구스타프손은 “우리는 오랫동안 데이터를 수집해왔지만, 아주 제한된 수준이었다. 많은 데이터를 생산해냈지만, 아무도 그것을 많이 활용하지 않았다. 이전에도 데이터는 보관되었고, 비즈니스 프로세스들을 중심으로 모델화되었지만, 더 광범위하게 정의되는 기업의 핵심 지식으로 구축되지는 않았다. 이제는 수집에서 연결로의 전환이 새롭게 요구되고 있다”라고 말했다.
 
일례로, 맥킨지 글로벌 인스티튜트(McKinsey Global Institue)에서 5월에 발행된 보고서에 따르면 치료의 질, 성공률, 의료기록 등과 관련된 데이터를 효율적으로 이용함으로써 미국의 의료 산업계는 효율성을 증진시키고 생산성을 높일 수 있을 것으로 기대된다.

이 보고서는 업계가 그러한 빅 데이터 전략을 활용하면 돈으로 환산하면 3,000억 달러 이상의 가치를 매년 창출해낼 수 있을 거라 추정했다. 뿐만 아니라 보고서에서는 빅 데이터가 일반 소매점의 영업 마진을 60% 이상 증대시킬 잠재력도 가지고 있음을 시사하고 있다.

전문가들은 IT가 데이터 혁명의 선두에 서 있다고 관측했다. 카탈리나 마케팅(Catalina Marketing)의 CIO 에릭 윌리엄스는 “CEO 사무실에 걸어 들어와 ‘나는 이 기업을 바꿀 수 있고, 5년 전에는 전혀 알 수 없었던 지식을 단 몇 초안에 당신에게 제공할 수 있다’ 고 말할 기회다”라고 말했다.

윌리엄스는 카탈리나가 미국 최대의 소매업계 체인점들에 의해 수집된 1억 9,000만 명 이상의 식료품점 소비자들에 관한 정보를 포함하여 2.5페타바이트에 달하는 충성고객 데이터베이스를 유지하고 있다는 사실을 언급하며, 후에 이 정보들은 구매 내력에 근거하여 계산대에서 사용하는 쿠폰들을 만드는데 사용될 예정이라고 말했다.

윌리엄스를 비롯하여 업계를 주시하고 있는 다른 전문가들은 기업들이 실시간 예측 인텔리전스(real-time predictive intelligence)의 시대로 나아가기 위해, 기술 매니저들이 테라바이트와 페타바이트 단위로 측정되는(잠재적으로는 엑사바이트, 제타바이트까지 확장될 수 있는) 데이터에 대해 보다 수준 높은 분석을 지원할 수 있도록 그들의 기업 정보 관리 구조와 문화를 발전시켜야 한다고 주장했다.

윌리엄스는 “IT는 언제나 기업에 더 가까워질 수 있는 방법을 찾고 싶다고 말하고 있다. 빅 데이터야말로 바로 딱 그렇게 할 수 있는 기회다”라고 덧붙였다.

빅 데이터 난관 돌파하기
아직 초기 단계이기 때문에, 빅 데이터 기술들은 계속해서 발전하고 있는 단계다. 제품의 성숙도는 아직 IT 매니저들이 익숙해질 만한 수준에 이르지 못했다.

가트너의 리서치 디렉터 마르쿠스 콜린스는 많은 신흥 빅 데이터 제품들이 오픈 소스 기술들에 기초를 두고 있다면서, 상업용이 배포되고 있긴 하지만 ERP 같은 기존의 기업 애플리케이션들과 함께 사용될 수 있는 지원 생태계와 잘 발달된 자문 환경 등이 아직 부족하다고 지적했다.

게다가 대부분의 IT부서들은 이제껏 더 전통적이고, 정형화된 데이터 웨어하우스들을 구축하고 유지하는 데에 집중해왔다면서 빅 데이터 기술과는 상당한 격차가 존재한다고 덧붙였다.
 
가트너의 정보 관리 리서치 담당 부사장인 마크 베이어 또한 “빅 데이터가 IT 조직 내부에서 회사 전체까지 성공적으로 장악할 수 있기 이전에, 기존의 정보 관리 관행들과 문화와 관련하여 주요한 변화들이 먼저 일어날 것이다”라고 지적했다.

베이어를 비롯한 애널리스트들은 이와 함께 “현명한 IT 리더들이라면 부분부분들이 맞아 떨어질 때까지 기다릴 것이 아니라 변화보다 한발 앞서 그들 자신과 조직들을 사전에 대비시키기 시작해야 한다”고 조언했다.

IT 매니저들이 미래의 빅 데이터 시대를 대비하여 적절한 기반 구축을 위해 반드시 해야 할 가장 중요한 5가지 과제를 소개한다.

현 데이터 상황을 조사하라
거의 모든 조직들이 끊임없는 비정형 데이터 스트림에 잠재적으로 접근할 수 있다. 데이터 스트림이 소셜 미디어 네트워크에서 나오든, 작업 현장을 모니터링하는 센서들로부터 나오든 간에 말이다. 그러나 조직이 이 엄청난 정보들을 생성해낸다는 이유만으로 반드시 모든 바이트마다 저장하고 조치를 취해야 할 필요는 없다.

콘스텔레이션 리서치(Constellation Research)의 부사장이자 수석애널리스트 닐 레이든은 "빅 데이터를 둘러싸고 초기 관심이 크게 쏠리면서 사람들은 웹블로그나 센서들에서 나오는 모든 데이터를 이해해야 할 압박감을 느끼고 있다”고 지적했다.

그러한 불안은 기업 컴퓨팅에서 차기 대박을 노리는 업체들과 컨설턴트들에게 일부 기인한 것일 수도 있다. 또 레이든이 관찰한 바에 따르면, 이 기술을 상용화하고 있는 업체들이 밀어붙이는 경향이 있다.

그러나 현명한 IT 매니저들이라면 우선 조급해하며 서두르지 않고, 조직에 어떤 데이터가 유의미하고 어떤 데이트가 무의미한지를 가려내는 필터 역할을 할 것이다.
 
레이든은, 내부적으로 어떤 데이터가 생성되는지를 조사하고, 만약 있다면 어떤 외부 데이터 소스가 지식 격차를 메우고 기업에 추가적인 통찰을 가져다 줄 것인지 판단하는 것이 좋은 출발점이 될 것이라고 조언했다.

레이든은 “일단 데이터 조사가 시작되면 IT부문은 한편에서 빅뱅, 빅 데이터 프로젝트들을 선택하지 않을 경우 어떠한 결과가 나타날지를 보여줄 프로젝트들을 진행해야 한다. 수백만 달러를 들여서 우선 프로젝트를 시작해놓고 그것이 과연 그만한 가치가 있는지 가만히 지켜보고 있을 필요가 없다”고 덧붙였다.


데이터 장비들은 비즈니스 수요에 맞게 늘려라
같은 말을 몇 번씩 하는 것처럼 들리겠지만 IT 애널리스트들은 빅 데이터처럼 규모가 크고 다양한 형태의 구상에는 IT/비즈니스 연계(IT/business alignment)가 절대적으로 중요하다고 지적하고 있다.

초기 빅 데이터 기회들 중 상당수가 IT 외부 영역들에서 시작되어왔다. 한 예로 마케팅에서는 일찍이 소셜 미디어 스트림을 활용하여 소비자 요구와 구매 경향을 더 잘 파악할 수 있게 되었다.

비즈니스 쪽이 기회들을 이해하고는 있다 해도, 결국 IT가 빅 데이터 전략의 핵심인 데이터 공유와 데이터 연합 개념들을 책임지고 떠안아야 할 필요성이 있다.

PwC(PricewaterhouseCoopers LLP)에서 정보관리업계 책임자를 맡고 있는 데이브 패튼은 “이는 IT 부문이 스스로 할 수 있는 성질의 것이 아니다. 빅 데이터 구상이 비즈니스의 목표와 연계되지 않는다면 성공으로 이끌기는 어려울 것”이라고 말했다.
 
카타리나 마케팅의 윌리엄스는 빅 데이터 구상의 초기 단계에서 비즈니스 매니저들을 한데 모아 재무 계획 및 분석(FPA) 그룹을 구성하고 정보 아키텍쳐 투자에 대해 입증해 보이도록 지시했다. 이를 통해 비즈니스 쪽에서는 새로운 통찰이 어떤 영역에서 가치를 제공해줄 수 있을지를 밝혀냈다. 예를 들면 쇼핑 카트 아이템들에 근거하여 혹은 제품에 근거한 차후 구매 분석 등을 통해 차후 구매를 파악할 수 있었다. 그리고 FPA 팀에서는 생산성 향상이나 판매 증대 등과 관련하여 결과가 의미하는 것들을 수량화했다.
 
인프라 시설과 데이터 아키텍처를 재평가하라
가트너의 베이어와 다른 전문가들이 한결같이 주장하듯, 빅 데이터는 대부분 기업들의 서버 및 스토리지 인프라와 정보 관리 아키텍처 모두에 변화를 요구하게 된다. 그들의 주장에 따르면 정형 및 비정형 데이터 저장 모두가 계속해서 늘어나면서 그것을 처리하기 위해 IT 매니저들은 IT 플랫폼을 확장시킬 준비를 해야 한다.

이를 위해서는 확장가능하고 크기조정이 가능한 플랫폼을 만들고 서로 다른 시스템들을 모두 통합하는 로드맵을 개발하기 위한 최상의 접근법들을 알아내야 하는데, 이러한 과정들은 빅 데이터 분석을 위한 디딤돌이 될 수 있다

IBM의 빅 데이터 제품부서 부책임자인 앤줄 밤브리는 “오늘날 대부분의 기업들은 급여, 고객 관리, 마케팅 등을 위한 서로 다른, 배타적인 시스템들을 가지고 있다. CIO들은 이렇게 다르고 배타적인 시스템들을 한데 모아 시스템들로 이루어진 시스템을 구축하기 위한 전략을 정말이지 세워야 한다. 해답을 얻기 위해서는 이 모든 시스템들을 가로지르는 질문을 던져야하기 때문이다”라고 말했다.
 
물론 모든 시스템이 통합될 필요는 없을 것이다. 분명 기업의 규모, 비즈니스 문제의 범위, 데이터 요건 등에 따라 접근법이 다양할 것이다. 그러나 밤브리와 다른 이들은 시스템 간의 데이터 흐름을 보장하는 정보 관리 아키텍처를 만드는 것이 최우선 목표가 되어야 한다고 주장하며, 이러한 토대를 쌓기 위해 기업들은 그 중에서도 미들웨어(middleware), SOA(Service-oriented architecture), 비즈니스 프로세스 통합 등의 기술들을 활용해야 할 것이라고 전했다.

기존의 데이터 웨어하우스 아키텍처들도 역시 압박 받고 있다. 가트너의 베이어는 어떤 점에서 보면 현재 배치된 데이터 웨어하우스의 85%가 2015년쯤에는 가히 엄청날 데이터 관리를 둘러싼 새로운 문제들을 더 이상 해결할 수 없을 것이라 전망했다.
 
그러면서도 그는 “우리는 전면교체(rip-and-replace)를 상정하는 개념은 원치 않는다. 그 대신 기존의 저장 공간들이 내재된 데이터 처리 능력들을 모두 활용할 수 있도록 확장되고 조정될 수 있을 것이다”고 귀띔했다.

베이어는 “과거의 웨어하우스는 어떤 종류의 데이터 저장 공간을 어디에 둘 것인지 결정하는 데에 집중해 왔다. 그러나 새로운 사고방식에 따르면 데이터 웨어하우스는 새로운 그리고 기존의 저장공간들뿐 아니라 데이터 처리와 전달 서비스들까지 모두 합쳐 놓은 복합적인 결합체가 될 것이다”고 설명했다.


기술과 트렌드를 파악하라
빅 데이터 세상이 도래하면 그 동안 전혀 접해보지 못했을 새로운 약어와 기술들이 엄청나게 쏟아질 것이 확실하다.

현재 하둡(Hadoop), 맵리듀스(MapReduce), 노SQL(NoSQL) 과 같은 기술들과 함께 오픈 소스 기술에 관심 대부분이 쏠리고 있다. 실제로 이들 기술들은 구글이나 페이스북 등의 웹기반 대기업들에 일조하고 있다. 그러나 더 상용화된 형태로 제공되기 시작하고 있음에도, 이 중 많은 기술들은 아직 충분히 성장하지 못했고, 여전히 아주 전문적인 능력을 갖춘 사람들에게만 맞춰져 있다.
 
IT 조직들은 새로운 오픈 소스 옵션들뿐 아니라 인데이터베이스 분석(In-database analytics), 컬럼형 데이터베이스(columnar database), 데이터 웨어하우스 어플라이언스(data warehouse appliance) 등 빅 데이터 세계에 중요한 다른 기술들에도 확실히 대비해야 한다.

전문가들은 IT 매니저들과 직원들이 빅 데이터 관련 의사결정들을 추진하는데 있어 이러한 새 툴들이 적재적소에 이용될 수 있도록 그것들을 열심히 배우고 최소한 익숙해져야 한다고 강조했다.

직원 고용 혹은 재훈련 준비가 필요하다
하둡 전문가이건 데이터 과학자(data scientist)이건 간에 대부분의 IT 조직들에는, 빅 데이터의 다음 단계를 밟기에 충분한 구성원들이 매우 부족한 상황이다. 가장 결정적인 것은 아마도 분석 능력들일 테고, 이는 현재 격차가 가장 큰 영역의 대표격이기도 하다.
 
맥킨지는 2018년이면 미국에서만 통계적 방법과 데이터 분석 기술, 급부상하고 있는 ‘데이터 과학자’ 분야에서까지 14만에서 19만 명 사이의 추가적인 전문가들이 필요할 것이라고 추정했다.

맥킨지 또한 예측 분석과 통계를 정규 교육으로 배우고 데이터를 다룰 줄 아는 매니저들이 비즈니스 영역에서든 가정의 기술 영역에서든 추가로 150만 명 정도가 더 필요해질 것이라 예상했다.

즉 IT부서의 관할권 아래 기존의 데이터 웨어하우스와 BI 전문가들은 재훈련을 받아야할 필요성이 제기되고 있다.

그리고 새로운 예측 분석 툴과 빅 데이터를 포함하는 데이터 관리 플랫폼의 전문가들은 말할 것도 없거니와 새로운 빅 데이터 전문가들은 정보 관리, 거버넌스(governance) 및 데이터베이스 구조에 관한 기존의 기술들에 더하여 추가적으로 시맨틱(semantics)에 관한 학습과 수학적 훈련이 필요하다.

카탈리나의 윌리엄스는 “과거에 데이터베이스를 구축했던 사람들이 반드시 미래의 데이터베이스까지 구축하는 것은 아니다. 이러한 것을 만들어내기 위한 시도에 내재되어 있는 복잡함을 간과해서는 안 된다”라고 경고했다.

일부 기업들에게는, 그리고 특히 인구밀도가 낮은 지역에 있는 기업들에게는 직원 고용이 아마도 문제를 더 복잡하게 만들 것으로 예상된다. 메인주 길포드(Guilford, Maine)에 위치한 트루 텍스타일(True Textiles)의 CIO 릭 코완은 “빅 데이터는 확실히 아주 많은 영역들에서 완전히 다른 마음가짐과 기술들을 요구한다”고 말했다. 이 기업은 인테리어 패브릭스(interior fabrics) 상용 제품을 제조하는 계약생산업체이다.

코완은 “중소기업에게는 직원들을 모집하고 그들이 계속해서 변화는 환경에 뒤떨어지지 않게 교육시키기가 어렵다”고 토로했다. 코완은 이러한 필요를 해결하기 위해, 공식적으로 재훈련을 시작하여 프로그래머들과 데이터베이스 분석가들이 보다 진보된 분석에 맞춰 따라갈 수 있도록 노력하고 있다고 전했다.  

IT 부서의 지휘자들은 이 멋진 신세계에서 앞서나갈 수 있도록 스스로를 변화시켜야 할 것이다. 가트너의 베이어는 과거에는 최고의 기술 리더들이 상황에 따라 정보 사서 역할도 하고 인프라 시설 엔지니어 역할도 했지만, 미래의 IT 매니저는 데이터 과학자와 비즈니스 프로세스 엔지니어의 혼합형이 될 것이라고 전망했다.

그는 “현재의 CIO들은 사업부에서 주어진 명령어 집합에 기초하여 인프라 시설을 관리하는 데에 익숙해져 있다. 이는 기회를 찾아내고 정보의 혁신적 이용을 향해 밀어붙일 수 있는 CIO와는 대조된다. 이제는 바로 그러한 변화가 이루어져야 한다”고 설명했다.

* Stackpole)은 컴퓨터월드(Computerworld)에 자주 기고하며, 비즈니스와 기술에 관하여 20년이 넘게 보도해왔다. ciokr@idg.co.kr