Offcanvas

How To / 빅데이터 | 애널리틱스

'대박과 쪽박 사이' 애널리틱스 실패를 막기 위한 6가지 조언

2017.08.14 Bob Violino  |  InfoWorld
빅데이터 및 분석 계획은 판도를 바꿀 수 있다. 경쟁 상대를 제치고 새로운 수익원을 창출하며 고객 서비스를 개선시킬 수 있는 통찰력을 제공하기 때문이다. 그러나 빅데이터 및 분석계획은 엄청난 실패가 될 수도 있다. 그 결과 많은 돈과 시간이 낭비된다. 유능한 기술 전문가들이 답답한 경영진의 실수에 질린 나머지 떠나버리는 손실은 말할 것도 없다.

빅데이터 실패를 방지하려면 어떻게 해야할까? 일부 모범 사례를 기본적인 기업 경영의 관점에서 보면 분명하다. 회사 최고위급 임원의 지원은 물론 기술 투자에 필요한 적정 자금을 확보하며, 필요한 전문지식을 도입하거나 양질의 교육을 실시하는 것이다. 이러한 기본적인 사항을 먼저 해결하지 않는다면 다른 것은 그다지 의미가 없다.

기본적인 사항을 해결했다고 가정한다면, 빅데이터 분석의 성패를 좌우하는 것은 기술적 문제와 과제에 대처하는 방식이다. 지속적인 성공을 위해 할 수 있는 일은 다음과 같다.

1. 빅데이터 분석 도구를 신중하게 선택하라
기술 실패의 원인은 회사가 달성하려는 목표와 전혀 맞지 않는 제품을 구입해서 시행하기 때문인 경우가 많다. 유행에 편승해 “빅데이터”나 “고급 분석”과 같은 말을 제품 설명에 때려 넣은 것은 아무 업체나 할 수 있다.

그러나 제품마다 품질과 효과는 물론 주력 분야도 크게 다르다. 따라서 기술적 역량이 뛰어난 제품을 선택하더라도 막상 사용자에게 필요한 작업에는 능하지 않을 수도 있다.

빅데이터 분석에 거의 예외 없이 적용되는 기본 기능이 있다. 예를 들면 데이터 변환과 스토리지 아키텍처 관련 기능이다(하둡(Hadoop)과 아파치 스파크(Apache Spark))를 떠올리면 된다). 그런데 빅데이터 분석에는 여러 가지 틈새 기능도 있다. 본인의 기술 전략과 실질적으로 관련된 틈새 기능에 맞는 제품을 구해야 한다. 이러한 틈새 기능으로는 프로세스 마이닝(process mining), 예측 분석, 실시간 솔루션, 인공지능, 비즈니스 인텔리전스(BI) 대시보드 등을 들 수 있다.

빅데이터 분석 제품이나 스토리지 플랫폼에 대한 구매 결정을 내리기 전에 실질적인 비즈니스 요구사항 및 문제점이 무엇인지 파악해야 하며 그러한 구체적인 사안을 효과적으로 해결할 수 있는 제품을 선택해야 한다.

예를 들면, 비정형 데이터 분석에는 인공지능을 활용하는 분석 등 인지 빅데이터 제품을 선택하는 것이 좋다. 방대한 분량의 데이터를 컴파일하려면 복잡하기 때문이다. 반면, 정형화되고 표준화된 데이터에는 인지 도구를 사용하지 않는 것이 좋다. 그 대신, 보다 합리적인 가격에 실시간으로 고급 인사이트를 생산할 수 있는 분석 제품을 선택하라고 무선통신회사 보다폰(Vodafone)의 빅데이터 글로벌 프로세스 책임자 이스라엘 익스포지토는 조언했다.

익스포지토는 생산 환경에 사용할 제품을 선택하기에 앞서 최소한 두 가지 제품으로 개념 증명을 실시하는 것이 현명하다고 덧붙였다. 또한 관련 엔터프라이즈 플랫폼과 인터페이스 가능한 제품을 선택해야 한다.

빅데이터 분석 도구를 사용하려면 반드시 백엔드 시스템에서 데이터 모델을 개발해야 한다. 이것이 프로젝트에서 가장 중요한 부분이다. 따라서 이를 위해 시스템 통합자와 해당 비즈니스 영역의 전문가가 협력하게 해야 한다. 시간을 충분히 두고 처음부터 제대로 하는 것이 좋다.

반드시 명심해야 할 점은 적정 데이터는 항시 이용가능해야 하고 비즈니스 언어로 번역되어야 한다. 그래야만 사용자가 결과를 충분히 이해하고 이를 이용해 기회를 촉진하거나 개선 사항을 처리할 수 있기 때문이다.

2. 사용하기 쉬운 도구인지 확인하라
빅데이터와 고급 분석은 복잡하다. 그러나 비즈니스 사용자가 데이터에 접근하여 이해할 목적으로 사용하는 제품은 복잡할 필요가 없다.

데이터 발견은 물론 분석과 시각화에 사용할 수 있도록 비즈니스 분석 팀에게 제공되는 도구는 단순하면서도 효과적이어야 한다.

도메인 이름 등록기관 고대디(GoDaddy)의 엔터프라이즈 데이터를 위한 BI 도구 전도사 샤론 그레이브즈에 따르면, 적절한 조합의 도구를 찾아내는 것이 고대디에게 힘든 일이었다고 한다. 빠른 시각화를 위해 단순하면서도 심층 분석이 가능할 정도의 성능도 갖추어야 했기 때문이다.
고대디는 비즈니스 사용자가 적절한 데이터를 손쉽게 찾아낸 후 스스로 시각화를 생성할 수 있는 제품을 찾아낼 수 있었다. 덕분에 분석 팀은 고급 분석 수행에 더 집중할 수 있는 여유를 갖게 되었다.

무엇보다도, 프로그래머급 도구를 일반 비즈니스 사용자에게 제공하는 것은 금물이다. 이들은 좌절한 나머지 예전에 쓰던 도구로 돌아갈 지도 모르기 때문이다. 종전 도구로는 작업을 감당할 수 없다(그렇지 않다면 빅데이터 분석 프로젝트가 아닐 것이다).

3. 실제 비즈니스 요구사항에 프로젝트와 데이터를 일치시켜라
빅데이터 분석 활동이 실패하는 또 다른 이유는 사실 존재하지 않는 문제를 찾아서 해결하려 들기 때문이다. 따라서, 해결하려는 비즈니스 과제/요구사항을 적정 분석 문제로 표현해 내야 한다고 정보서비스 제공업체 익스피리언(Experian)의 글로벌 데이터 연구소 최고 과학자 샨지 슝은 강조했다.

관건은 분석 경험이 풍부한 주제 전문가들을 프로젝트 초기에 투입시켜 데이터 과학자들과 함께 문제를 정의하게 하는 것이다.

익스피리언의 빅데이터 분석 계획 사례를 살펴보자. ID 사기에 대처할 분석 솔루션 개발의 과제는 이름, 주소, 주민등록번호 등이 결합된 개인식별정보(PII)가 진짜인지 판단하는 것이다. 아니면 일련의 신원 정보로 대출을 신청하는 고객이 해당 신원 정보의 합법적 소유자인지 판단하는 것이다. 두 가지 과제가 모두 존재할 수도 있다.

첫 번째 과제는 “합성 ID” 문제로서 소비자 또는 PII 단계에서 개발한 합성 ID 위험 평가 분석 모델이 필요하다고 슝은 설명했다. 두 번째 과제는 신청 사기 문제로써 사기 위험 평가 점수를 신청 단계에서 개발해야 한다. 처음에는 표현 방식만 다른 같은 문제라고 여겨졌지만 서로 다른 두 가지 문제이다. 익스피리언은 이 문제를 이해한 후 해결을 위한 적정 모델과 분석을 만들어내야 했다.

대출 신청을 위해 일련의 PII가 두 곳의 금융기관에 제출되면 합성 위험 점수가 똑같이 나와야 하는 것이 일반적인 요건이지만 신청 사기 점수에 대한 요건은 아닌 경우가 보통이라고 슝은 설명했다.

BI를 추출하고 정확한 예측을 하려면 적정 데이터에 적정 알고리즘을 적용해야 한다. 적절한 데이터를 수집해 이를 모델링 과정에 포함시키는 것이 기계학습 알고리즘을 미세조정하는 것보다 거의 항상 더 중요하다. 따라서 데이터 관련 활동을 최우선 순위로 삼아야 한다.

4. 데이터 레이크를 구축하되 대역폭은 아끼지 마라
빅(big)이라는 단어에서 알 수 있듯이 빅데이터는 그 양이 엄청나다. 과거에는 그렇게 많은 양의 데이터를 정리하고 분석하는 것은 고사하고 보관할 수 있는 기업도 거의 없었다. 그러나 오늘날에는 클라우드에서는 물론 사내 시스템을 통해서 고성능 스토리지 기술과 대규모 병렬 처리 기능이 널리 이용되고 있다.

그러나, 스토리지 자체로는 부족하다. 빅데이터 분석에 제공되는 이질적인 종류의 데이터를 처리할 방법이 필요하다. 아파치 하둡의 천재성이 여기에서 발휘되었다. 방대한 이종 데이터 모음의 스토리지와 매핑을 가능하게 해 주었기 때문이다. 그러한 저장소는 데이터 레이크(호수, data lake)라고 불리곤 한다. 실제 호수에는 여러 개의 물길이 흘러 들어가고 다양한 종의 식물과 물고기 등의 동물들이 살고 있다. 데이터 레이크에는 여러 개의 데이터원이 흘러 들어가고 여러 종류의 데이터가 들어 있다.

그렇다고 해서 데이터 레이크가 데이터 쓰레기 하치장이 되어서는 안된다. 데이터 수집 방식에 대해 사려 깊게 생각해서 특성을 의미 있는 방식으로 확장해야 한다고 매국 애리조나 주립 대학교(ASU)의 연구 컴퓨팅 책임자 제이 에칭스는 조언했다. 데이터는 이질적일 수 있지만 맵리듀스(MapReduce), 아파치 스파크 등의 도구를 이용해 분석에 적합하게 변환하는 것은 믿을 수 있는 데이터 아키텍처가 구비된 상태에서 이루어져야 한다.

데이터 흡수, 색인 작업, 정규화를 제대로 계획한 빅데이터 전략을 갖고 데이터 레이크를 만들어야 한다. 명확히 이해하여 표현한 청사진이 없다면, 대부분의 데이터 집약적 계획은 실패할 수밖에 없다고 에칭스는 경고했다.

마찬가지로, 대역폭을 충분히 갖추는 것이 중요하다. 대역폭이 부족하면 다양한 출처의 데이터가 데이터 레이크와 비즈니스 사용자를 향해 움직이는 속도가 충분히 빠르지 않기 때문에 데이터가 쓸모 없어지게 된다. 방대한 데이터 자원 보유라는 약속을 지키기 위해서는 초당 입출입 작업 횟수(IOPS)가 수백 만 번 가능한 빠른 디스크가 필요할 뿐 아니라 데이터가 생성되는 대로 쉽게 접근할 수 있는 상호 연결 노드 및 처리 엔진도 필요하다고 에칭스는 설명했다.

속도는 SNS 트렌드에서 트래픽 라우팅에 이르기까지 실시간 분석에 특히 중요하다. 따라서, 데이터 호수 구축 시에는 가장 빠른 상호 연결 시스템을 선택해야 한다.

5. 빅데이터의 모든 측면에 보안 설계를 하라
계산 인프라 구성요소의 높은 이질성 덕분에 기업들이 데이터로부터 의미 있는 인사이트를 얻어내는 능력이 가속화되었다. 그 대신 단점은 시스템을 관리하고 안전하게 보호하기가 훨씬 더 복잡해진 것이라고 에칭스는 지적했다. 관련 데이터 양이 방대하고 대부분의 빅데이터 분석 시스템은 임무 수행에 필수적인 점을 감안할 때, 시스템과 데이터를 보호할 수 있는 적절한 예방조치를 취하지 않는 것은 대규모의 문제를 자초하는 것이다.

회사에서 수집, 보관, 분석, 공유하는 데이터의 많은 부분은 고객 정보이며 그 중에는 개인식별 정보도 있다. 이러한 데이터가 엉뚱한 사람의 손에 들어간다면 그 결과는 불 보듯 뻔하다. 각종 소송으로 인한 금전적 손실을 입게 되고 벌금을 물게 될 가능성도 있으며 브랜드와 평판에 타격을 입고 고객의 불만을 초래한다.

보안 조치에는 데이터 암호화(가능하다면 언제든지), ID 및 접근 관리, 네트워크 보안 등 기본 엔터프라이즈 도구를 배포하는 것이 포함되어야 한다. 데이터의 적절한 접근 및 사용에 대한 정책 시행과 훈련 역시 포함되어야 한다.

6. 데이터 관리와 품질을 최우선시 하라
모든 빅데이터 분석 프로젝트는 양질의 데이터 관리 및 품질을 보장해야 한다. 그렇지 않으면 실패 확률이 훨씬 크다.

정확한 최신 데이터를 적시에 제공할 수 있는 통제 장치를 마련해야 한다. 고대디는 빅데이터 계획의 일환으로 경보 시스템을 구현해 데이터 업데이트가 실패했거나 늦어지는 경우 경영자에게 통보하고 있다. 이와 더불어 주요 측정 지표에 대한 데이터 품질 점검 시스템도 구현해 지표가 기대치를 벗어나는 경우 경보를 발송하고 있다.

데이터 품질과 거버넌스 보장에 중요한 부분은 숙련된 데이터 관리 전문가를 채용하는 것이다. 여기에는 데이터 관리 담당 이사나 이러한 분야를 감독할 다른 임원이 포함된다. 이러한 계획의 전략적 중요성을 감안했을 때, 기업들은 데이터 관리, 거버넌스, 정책보다는 데이터를 소유하는 것이 실질적으로 필요하다. editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.