Offcanvas

AI / CIO / How To / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스

"기업 분야의 암흑물질"··· '다크 데이터' 봉인 해제하기

2022.08.16 Maria Korolov  |  CIO
인간 사이의 커뮤니케이션에서 기계의 로그에 이르기까지 수많은 데이터를 수집할 터다. 그러나 이러한 '다크 데이터'를 제대로 활용할 계획이 꼼꼼하게 수립된 경우는 드물다. 준수한 거버넌스와 AI가 상황을 바꿀 수 있다. 

수집하는 데이터로부터 비즈니스적 가치를 끌어내고 싶어하는 IT 리더들은 각종 문제에 직면하기 마련이다. 그러나 특히 간과되는 문제가 하나 있다. 이는 수집 및 저장되고 있음에도 불구하고 제대로 활용되지 못하는 데이터 한 종류와 관련이 있다. 

물리학의 암흑 물질(Dark Matter)에서 따온 ‘다크 데이터’는 비즈니스 수행 과정에서 정기적으로 수집되는 정보를 말한다. 직원, 고객, 비즈니스 프로세스에 의해 생성되는 데이터다. 기계, 애플리케이션, 보안 시스템에 의해 로그 파일로써 흔히 생성된다. 준법감시 목적으로 반드시 저장해야 하는 데이터인 경우도 있으며, 절대로 저장하지 않아야 하는 민감한 데이터인 경우도 있다.

가트너에 따르면, 기업 정보라는 이름의 우주의 대부분이 ‘다크 데이터’로 구성되어 있다. 많은 기업들이 이 데이터를 얼마나 많이 보유하고 있는지조차 모르고 있다. 이로 인해 준법감시 및 사이버 보안 위험이 증가하며, 당연히 비용도 증가하게 된다.

보유하고 있는 다크 데이터, 보관 장소, 포함된 정보를 파악하는 것이 이 다크 데이터를 보호하고 보관하지 말아야 하는 것들을 삭제하기 위한 필수적인 단계다. 하지만 이런 숨겨진 데이터와 관련한 진정한 이점은 실제로 비즈니스에 도움이 되도록 사용할 때 드러난다.

하지만 다크 데이터 마이닝은 쉬운 일이 아니다. 형식이 광범위한데다, 형식이 전혀 없을 수 있다. 스캔 된 문서 또는 오디오 또는 비디오 파일 형식인 사례도 있다. 다크 데이터를 비즈니스 기회로 전환하는 사례와 다크 데이터 활용에 대한 업계의 조언을 살펴본다.
 
Image Credit : Getty Images Bank

레이스 카 드라이버의 오디오
5년 동안 인비전 레이싱(Envision Racing)은 20명 이상의 드라이버가 운전한 100회 이상의 포뮬러 E 레이스에서 오디오 기록물을 수집해왔다.

“라디오 스트림이 누구든 들을 수 있도록 개방 주파수로 전송된다”라고 이 인비전 레이싱이 이 데이터를 활용할 수 있도록 도운 컨설팅 기업 젠팩트(Genpact)의 글로벌 분석 리더 아마레쉬 트리패시가 말했다.

영국에 위치한 이 레이싱 팀의 레이스 엔지니어들은 과거 이 데이터에 주목한 적이 있었다. 다른 드라이버가 말하는 내용을 이해하면 인비전 레이싱의 드라이버의 레이싱 전략에 도움이 될 수 있을 것이라는 기대에서였다. 그러나 드라이버들이 사용하는 코드 이름과 두문자어 때문에 말의 내용을 이해하는 것 자체가 트리패시가 말했다.

그는 “그러나 어택 모드를 사용하는 시기, 드라이버를 추월하는 시점, 브레이크를 적용하는 시점 등의 정보가 담겨 있는 것이 분명했다”라고 말했다.

인비전 레이싱과 젠팩트는 일단 타이어, 배터리, 브레이크 등 자체 차량의 센서 데이터를 수집하고 풍속과 강수량 등의 외부 데이터를 제공업체로부터 구매했다. 이어 자연어 처리를 활용하여 이를 분석하는 딥러닝 모델을 구축했다. 데이터 파이프라인 준비부터 데이터 수집, 노이즈 필터링, 유의미한 대화 획득까지 6개월이 소요됐다.

트리패시는 인간이 오디오를 듣는 경우에는 내용을 파악하는 데 5~10초가 소요되며, 이 지연 시간 때문에 데이터 활용에 어려움이 있었다고 전했다. 그러나 이제 AI 모델의 예측 및 인사이트 덕분에 그들은 1~2초 만에 대응할 수 있다.

7월, 뉴욕에서 열린 ABB FIA 포뮬러 E 월드 챔피언십에서 인비전 레이싱 팀은 1위와 3위를 차지했다. 트리패시는 이전에 다크 데이터였던 것을 활용한 덕분이라고 말했다.

다크 데이터의 황금 영역 : 인간 생성 데이터
인비전 레이싱의 오디오 파일은 인간이 다른 인간과 소통하는 과정에서 생성된 다크 데이터의 예이다. 이런 종류의 다크 데이터는 기업에 매우 유용할 수 있다고 데이터 보관 플랫폼 제공기업 ZL 테크놀로지스(ZL Technologies)의 공동 설립자 겸 CEO 콘 레옹이 말했다.

그는 “문화, 성과, 영향력, 전문성, 참여 등 기업의 인간적 측면의 모든 요소를 이해하는 데 놀랍도록 유용하다. 매일 엄청난 양의 디지털 정보와 지식이 만들어지지만 제대로 활용되지 못한다”라고 말했다.

가령 이메일, 메시지, 파일에 포함된 정보는 조직 내 직원 사이의 관계에 대한 인사이트를 도출하는 데 도움이 될 수 있다. 레옹은 “기업의 시간 중 80%가 의사소통에 소요된다. 하지만 의사소통 데이터가 분석되는 경우는 드물다”라고 말했다.

여기에는 이유가 있다. 인간이 생성한 비구조적 데이터를 처리하기란 특별히 어렵다. 이런 의사소통 데이터를 처리하기 위해 데이터 웨어하우스를 구성하지도 않는다. 게다가 이런 의사소통 정보를 수집하면 준법감시, 프라이버시 등과 관련해 새로운 문제가 발생할 수 있다.

레옹은 “이런 데이터를 데이터 레이크로 수집하면 또다른 사일로가 형성되고 프라이버시 및 준법감시 위험이 증가할 수 있다”라고 말했다.

그러나 대안이 있다. 이러한 데이터를 현재의 위치에 그대로 남겨두고 검색성을 위해 인덱스 및 메타데이터 계층을 추가할 수 있다. 데이터를 제자리에 남겨두면 기존의 준법감시 구조 안에도 남게 된다고 그가 말했다.

효과적인 거버넌스가 열쇠
다크 데이터를 취급하는 다른 접근방식은 ‘추적성’(traceability)으로 시작하는 것이다.

앤시 페트렐라는 “긍정적인 발전이 이루어지고 있다. 이제 다크 데이터가 활용할 수 있는 미지의 자원으로 인식되고 있다”고 말했다. 페트렐라는 데이터 가관측성 제공기업 켄수(Kensu)의 설립자이기도 하다.

그는 “다크 데이터 활용의 문제점은 (특히 데이터 수집 위치와 방법과 관련하여) 낮은 수준의 신뢰도이다. 관찰가능성은 데이터 계통을 투명하게 하여 추적 가능하게 할 수 있다. 추적성을 확보하면 이런 데이터를 활용해 AI 모델을 훈련시킬 수 있게 된다”라고 말했다.

규제, 위험, 준법감시 사안 전문 글로벌 자문 기업 스톤턴(StoneTurn)의 상무이사 척 소하는 기업의 보편적인 접근방식(모든 것을 데이터 레이크에 넣기)이 다크 데이터 측면에서 상당한 위험을 유발한다는 점에 동의했다. 기업들이 몇 년 동안 데이터를 데이터 레이크로 전송해온 금융 서비스 산업에서 특히 그렇다는 설명이다. 

그는 “일반적인 기업에서 IT 부서는 임의로 모든 가용 데이터를 일부 기본적인 메타데이터와 함께 한 곳에 모아두며 비즈니스 팀들과 공유하는 프로세스를 구축하곤 한다”라고 말했다.

필요한 분석 인력을 내부적으로 보유하고 있거나 특정 사용 사례를 위해 외부 컨설턴트를 고용하는 비즈니스 팀에게 효과적이다. 하지만 대부분의 경우 이런 이니셔티브는 부분적인 성공일 뿐이라고 소하가 말했다.

소하는 대신 이미 개별적인 사업부들 내부에서 제공되고 있는 적절한 운영 데이터 사이의 점들을 연결하라고 조언했다. 이런 관계를 파악하면 인사이트를 생성하여 다크 데이터의 활용성을 높이면서도 위험성을 낮출 수 있다는 설명이다. “다크 데이터에서 공백을 메우기 위해 살펴보아야 하는 곳의 우선순위를 설정할 수도 있다”라고 그는 말했다.

마지막으로 그는 AI가 비구조적 데이터를 이해하도록 돕는 데 매우 유용할 수 있다고 말했다. 그는 “머신러닝과 AI 기법을 활용한다면, 다크 데이터의 1%만 살펴봐도 적합성을 분류할 수 있다. 그리고 강화 학습 모델은 남은 데이터의 적합성 점수를 신속하게 생성하여 어떤 데이터를 더 긴밀하게 살펴볼지에 대한 우선순위를 설정할 수 있다”라고 말했다.

AI를 활용하여 가치 얻어내기
다크 데이터를 처리하기 위한 일반적인 AI 기반 솔루션으로는 아마존(Amazon)의 텍스트랙트(Textract), 마이크로소프트(Microsoft)의 ACS(Azure Cognitive Services), IBM의 데이터캡(Datacap)뿐 아니라 구글(Google)의 클라우드 비전(Cloud Vision), 다큐먼트(Document), 오토ML(AutoML), NLP API 등이 있다.

인비전 레이싱과의 협력관계에서 젠팩트는 내부적으로 머신러닝 알고리즘을 개발했다고 트리패시가 말했다. 이를 위해 도커(Docker), 쿠버네티스(Kubernetes), 자바(Java), 파이썬(Python)뿐 아니라 NLP, 딥러닝, 머신러닝 알고리즘 개발에 대한 지식이 필요했다고 말하면서 그는 ML옵스(MlOps) 아키텍트가 전체 프로세스를 관리했다고 덧붙였다.

안타깝게도 이런 역량은 활용하기 어렵고 영입하기도 어렵다. 스플렁크(Splunk)가 지난 가을 공개한 보고서에 따르면 조사에 참여한 1,300명 이상의 IT 및 비즈니스 의사결정자 중 10%만이 AI를 활용해 다크 데이터 문제를 해결하고 있다고 말했다. 필요한 스킬의 부재가 데이터 자체의 양에 이어 두 번째로 큰 다크 데이터 활용의 주요 장애물이었다.

문제(그리고 기회) 증가
위험과 기회를 동시에 품은 다크 데이터는 나날이 늘어가고 있다. 기업의 다크 데이터의 비율에 대한 추정치는 산업별로 다르지만 대략 40%~90% 선이다.

퀘스트(Quest)가 후원한 ‘ESG(Enterprise Strategy Group)의 7월 보고서’에 따르면 전체 데이터의 평균 47%가 다크 데이터로 추정된다. 기업이 보유한 데이터의 70% 이상이 다크 데이터라고 답한 응답자는 1/5에 달했다. 스플렁크의 조사에서도 유사한 현실이 포착됐다. 전체 기업 데이터의 평균 55%가 다크 데이터로 조사됐으며, 응답자 중 1/3이 조직의 데이터 중 75% 이상이 다크 데이터라고 대답했다.

특히 응답자 중 60%는 조직의 데이터 중 절반 이상이 전혀 수집되지 않고 있고 대부분은 존재조차 파악되지 않고 있다고 응답했다. ciokr@idg.co.kr
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.