Offcanvas

디지털 트랜스포메이션 / 비즈니스|경제 / 빅데이터 | 애널리틱스

‘대체(Alt) 데이터’에 숨겨진 비용 폭탄 5가지

2022.05.23 Martin De Saulles  |  CIO
‘대체 데이터(Alternative Data)’는 기업들이 경쟁 우위를 확보할 수 있는 기회를 제공하지만 이를 비즈니스 워크플로우에 통합하는 비용은 생각보다 클 수 있다.

오늘날 ‘대체 데이터’ 소스가 다양한 부문에서 기업의 비즈니스 프로세스에 포함되고 있다. 美 법률회사 로웬스타인 샌들러(Lowenstein Sandler)의 2022년 설문조사 결과에 따르면 헤지펀드부터 사모펀드, 벤처 캐피탈까지 무려 92%의 투자 회사가 의사결정에 정보를 제공하기 위해 중간 또는 상당한 수준으로 대체 데이터를 활용하고 있다고 답했다. 또한 2022년에 대체 데이터 사용이 증가할 것으로 예상됐다. 

--> '대체 데이터'에 주목해야 할 시점... 정체는? 활용법은?
 
ⓒGetty Images Bank

일반적으로 이는 다른 비즈니스 프로세스에서 나오는 데이터를 말한다. 예를 들면 소셜 미디어 활동, 인공위성 사진, 위치 추적 데이터, 신용카드 거래, 웹 스크랩핑 등이 있다. 

대체 데이터는 마케팅부터 영업, 재무, 전략 기획까지 기업 전반에서 사용될 수 있지만 (이러한) 서드파티 데이터를 소유하고 관리하는 곳은 대부분 IT 부서다. 지난 2019년 포레스터 리서치는 IT 소속의 CIO 및 CDO가 대체 데이터 수집의 56%를 관리하고 있다고 밝혔다. 

대체 데이터를 ‘소싱’하고, ‘저장’하며, ‘관리’하는 일은 IT 관리자에게 새로운 과제를 안겨준다. 아울러 불필요하고 상당한 비용을 수반할 수 있다. 여기서는 이에 따른 5가지 문제와 완화하는 방법을 살펴본다. 

1. 벤더 선택 비용(Vendor selection costs)
로웬스타인의 설문조사 결과에 따르면 ‘벤더 선택 비용(61%)’은 대체 데이터 사용자가 가장 우려하는 부분이다. 이 비용은 대체 데이터 벤더를 검토하고, 해당 벤더가 제공하는 데이터의 품질이 충분한지 확인하는 과정에서 발생한다. 이는 특히 데이터가 비즈니스 프로세스의 핵심 요소이며, 쉽게 교체할 수 없을 때 중요하다. 이러한 상황에서 구매자는 벤더가 예측 가능한 미래까지 이 데이터를 지속적으로 제공할 것이라는 확신이 있어야 한다.

이런 위험을 완화하는 방법은 산업 컨소시엄을 조사하여 신뢰할 수 있는 데이터 소스를 식별하는 것이다. 같은 분야에 있는 다른 기업들도 비슷한 요구사항을 가지고 있을 가능성이 높으며, (이를 통해) 아이디어와 모범 사례를 공유할 수 있다. 

2. 숙련된 인력 찾기(Finding appropriately skilled staff)
퀀트허브(Quanthub)의 설문조사 결과에 따르면 지난 2020년에는 약 25만 명의 데이터 과학자가 부족했다. 2022년 4월 말을 기준으로 구인/구직 사이트 인디드닷컴(Indeed.com)에는 (영국에서만) 데이터 과학자를 찾는 2,700개의 구인 공고가 게시됐다. 이러한 인재 부족 문제로 인해 급여가 높아지고 직원을 유지하기가 더욱더 어려워지고 있다. 아울러 데이터 과학자가 있다고 대체 데이터를 비즈니스에 통합할 수 있는 것도 아니다. 

포레스터 리서치는 기업들이 활용할 수 있는 대체 데이터를 추적하고, 이러한 소스의 정확성과 무결성을 검증하는 ‘데이터 헌터’ 서비스를 사용하라고 권고했다. 이를테면 유럽의 재보험 회사 뮈닉 리(Munich Re)는 이 목적으로 20명의 데이터 헌터로 구성된 팀을 고용하고 있다. 

또한 이 스킬 부족을 완화할 수 있는 해결책에는 (신입 직원보다는) 비즈니스와 비즈니스 요구사항을 알고 있는 기존 인력을 교육시키는 것이 포함된다. 데이터 과학 과정 지원, 학생 취업 알선 및 졸업생 교육 프로그램을 모색하는 대학과의 파트너십도 스킬 파이프라인을 구축하는 또 다른 방법이다.

3. 데이터 소유권 확인하기(Ascertaining data ownership)
대체 데이터의 속성 그리고 비전통적인 소스에 기반한다는 점 때문에 신뢰할 수 있는 벤더가 제공하는 데이터보다 데이터 소유권을 검증하는 것이 어려울 수 있다. 특히 구매 전에 여러 데이터 소스가 결합돼 있어 출처가 복잡할 때 더욱더 그렇다. 라이선스, 지적재산권, 데이터 보호 규정과 관련하여 문제가 발생할 수도 있다. 고객에게 데이터 소싱 방법을 어느 정도 투명하게 제공하는 (신뢰 가능한) 벤더를 선택하여 이 문제를 완화할 수 있다. 물론 가능하다면 내부 데이터를 사용하는 것도 위험을 줄이는 또 다른 방법이다.

4. 대체 데이터 처리를 위한 모델 업데이트(Updating models to process alt data)
데이터 모델을 유지관리하여 일관성을 보장하고, 오류가 발생했을 때 이를 처리하는 데 상당한 비용이 발생한다. 많은 기업이 이를 간과한다. 아이데라(Idera)는 유지관리가 개발 예산의 50~80%를 차지한다고 추산했다. 모델에 새로운 데이터 소스를 추가하면 상당한 비용이 추가될 수 있다. 처음부터 데이터를 신중하게 모델링하고, 모델 설계에 어느 정도의 유연성을 통합하면 이 프로세스가 원활해질 수 있다.

5. 대체 데이터를 저장하는 도구(Appropriate tools to store alt data)
로웬스타인에서 실시한 설문조사 응답자의 1/4은 대체 데이터를 저장하는 도구와 기술 부족을 심각한 문제로 꼽았다. 이 문제는 업데이트 빈도, API, 데이터 형식 측면에서 다양한 소스 간의 일관성 부재에 기인한다. 모델이 원활하게 실행될 뿐만 아니라 일관적이며 신뢰할 수 있는 결과를 생성하도록 데이터를 정리하는 일은 상당한 비용이 들 수 있다. 온프레미스 시스템부터 클라우드 및 하이브리드 솔루션까지 점차 증가하는 스토리지 옵션과 데이터 모델의 수집 요구사항에 따라 효율적으로 작동하도록 하는 일도 또 다른 복잡성 계층과 비용을 추가한다. 

데이터가 상업적 가능성을 활용할 수 있는 경쟁 우위의 원천을 계속 제공하면서 대체 데이터의 중요성이 커질 전망이다. 많은 대체 데이터 소스에 액세스하는 데 비용이 거의 또는 전혀 발생하지 않을 수 있지만 목적에 적합하게 만들고, 기존 워크플로우에 통합하는 것과 관련해 때로는 상당한 비용이 별도로 수반될 수 있다는 사실을 이해해야 한다.

* Martin De Saulles 박사는 데이터 기반 혁신과 사물인터넷 연구 및 집필을 전문으로 하는 작가이자 학자다. 현재 英 브라이튼 대학에서 수석 강사로 일하고 있다. ciokr@idg.co.kr

 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.