Offcanvas

CIO / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스

데이터 과학 프로젝트가 '실패'하는 8가지 이유

2021.06.24 Bob Violino  |  CIO
오늘날 ‘데이터 과학(Data Science)’만큼 IT 및 비즈니스 리더의 관심을 끄는 분야가 있을까. 하지만 그렇다고 해서 데이터 과학에 실패가 없는 건 아니다.  

실제로 (과학적 기법, 프로세스, 알고리즘, 기술 시스템을 활용해 구조적 및 비구조적 데이터에서 일련의 인사이트를 도출하는) 데이터 과학 이니셔티브는 수많은 이유로 실패할 수 있고 그러면서 시간과 비용, 기타 리소스를 낭비할 수 있다. 

잘못된 프로젝트는 의사결정권자의 잘못된 선택을 유도해 기업에 혜택을 제공하기 보다는 더 큰 피해를 입힌다. 여기서는 데이터 과학 프로젝트가 예상대로 진행되지 않는 가장 일반적인 이유 8가지를 살펴본다. 
 
ⓒGetty Images

1. 데이터 품질 불량  
잘못된 데이터는 형편없는 데이터 과학으로 이어지기 마련이다. 따라서 데이터 품질을 높이는 데 시간을 할애하는 게 중요하다. 이는 모든 애널리틱스 작업에 해당되는 이야기이며, 데이터 과학도 마찬가지다.

디지털 트랜스포메이션 컨설팅 회사 어댑터비스트(Adaptavist)의 CIO 닐 라일리는 “부실하거나 불량한 데이터로는 데이터 과학 이니셔티브가 불가능하다. 데이터는 깨끗해야 하고 데이터 애널리스트가 사용할 수 있는 수준이어야 한다. 그렇지 않다면 시간 낭비에 불과하다”라면서, “데이터 과학 프로젝트에 부정확한 데이터를 사용하면 데이터 과학 모델은 엉뚱한 결과물을 도출할 것이다”라고 말했다. 

때에 따라 데이터세트의 편향이나 불일치로 인해 데이터 품질이 떨어지는 경우도 있다. 美 보험사 WAEPA의 CIO 브랜든 존스는 “비즈니스 운영에 여러 시스템을 사용하는 기업이 있다. 심지어 오래된 기업이라면 참조 또는 검증을 위해 아직도 레거시 시스템을 사용하고 있을 수 있다. 각 시스템을 교체하다 보면 기업 내에서 하나의 지표를 계산하는 서로 다른 프로세스 및 방식이 생길 수밖에 없다”라고 전했다. 

이는 데이터 과학 이니셔티브가 실패하는 주요 원인이라는 게 존스의 설명이다. 수정된 비즈니스 프로세스를 기반으로 한 이중 계산 때문에 결과값이 부풀려질 수 있다는 것. 그는 “이 문제를 해결하려면 데이터 애널리틱스 프로그램의 기준을 확립해야 한다”라며, “특정 일자를 지정해 데이터를 검증하고 모든 사람이 조직의 업무에 쓰일 공통 표준을 이해하고 동의하도록 하는 것이다”라고 말했다. 

2. 해결할 문제에 관한 불명확한 정의 
해결하고자 하는 비즈니스 문제를 팀원들이 이해하지 못한다면 데이터 과학 이니셔티브를 어떻게 성공으로 이끌 수 있을까? 하지만 데이터 과학팀은 프로젝트를 맡을 때 간혹 이러한 문제에 부딪히기도 한다. 

사이버보안 업체 케나 시큐리티(Kenna Security)의 최고 데이터 과학자 마이클 로이트먼은 “문제를 정의하는 일은 흔히 데이터 과학자의 몫이다. 그런데 실제로 문제를 정의하는 일은 업무를 검토하고 잠재적 투자 수익(ROI)을 정의하는 비즈니스 사례로 구성된다”라고 언급했다. 

의료 컨설팅 회사 임팩트 어드바이저스(Impact Advisors)의 상임 고문 겸 CIO인 마크 존슨은 데이터 과학을 활용하려는 비즈니스 사용자는 해결하고자 하는 문제에 관해 심층적인 질문을 해야 한다고 권고했다. 

존슨은 “다른 프로젝트와 마찬가지로 문제 범위를 확정해 적절한 데이터 소스를 식별해야 한다”라면서, “몇 년 전 20년가량 된 회사에서 애널리틱스 제품을 만들어 달라는 의뢰를 받았다. 그러면서도 해당 회사는 고객을 대상으로 제품의 시장성을 파악하지조차 않았다. 고객이 애널리틱스로 보고자 하는 지표도 확인하지 않았다. 단지 경쟁업체들이 애널리틱스 제품을 가지고 있다는 주장과 고객들이 이를 원한다는 소문 때문에 벌어진 일이었다”라고 설명했다. 

프로젝트는 아무런 방향도 잡지 못한 채 2년 동안 정체됐다. 그는 “해결하고자 하는 문제에 대한 불명확한 정의가 원인이었다”라고 전했다. 

3. 관련 데이터 부족
데이터 과학에 실패하는 또 다른 이유는 특정 문제를 처리하는 데 필요한 특정 유형의 데이터를 제공하지 않는 것이다. 막연히 대량의 데이터를 쏟아붓는 것은 해답이 아니다. 

로이트먼은 “대규모 데이터가 인사이트로 이어질 것이라 생각한다. 하지만 이런 경우는 거의 없다”라면서, “깨끗하면서 잘 재단된 작은 데이터세트가 일반화할 수 있는 탄탄한 모델을 제공하는 경우가 더 많다”라고 말했다. 

존슨은 데이터 과학을 통해 가치를 창출하려면 가장 관련성 높은 소스에서 지속적으로 데이터를 수집해야 한다면서, “창조는 일회성 이벤트가 아니다”라고 언급했다. 

그에 따르면 다양한 소스에서 데이터를 수집하거나 구매할 때 데이터 과학팀은 데이터 변경으로 결과가 왜곡되지 않고 전체 데이터세트 품질이 훼손되지 않도록 해야 한다. 또 데이터세트와 관련해 프라이버시, 법적, 윤리적 문제가 없는지도 확인해야 한다.  

4. 데이터 투명성 부족  
데이터 과학팀은 모델을 구축하는 데 사용하는 데이터에 관해 투명해야 한다. 美 뉴저지주 사법부의 CIO 잭 맥카시는 “데이터 과학 프로젝트는 사람들이 모델을 신뢰하지 않거나 솔루션을 이해하지 못한다면 실패한다”라면서, “이 문제를 해결하려면 기술 및 통계 지식이 없을 수 있는 이해관계자에게 ‘결과가 도출되는 과정’을 보여줄 수 있어야 하고, 설명할 수 있어야 한다”라고 강조했다. 

즉 데이터 과학자는 데이터 출처가 어디인지, 모델을 계산하기 위해 무엇을 했는지 설명해야 하고 모든 관련 데이터에 관한 액세스를 제공해야 한다. 맥카시는 “성공적인 프로젝트의 핵심은 투명성이다”라고 말했다. 

그는 뉴저지에서 사용되는 위험 평가 알고리즘을 예로 들었다. 맥카시는 “모든 이해관계자에게 피고인의 이력에서 어떤 사건이 어떤 범주에 속하는지, 그리고 각 점수가 어떻게 산정되는지 보여주는 보고서를 제공한다”라면서, “이는 모든 상대방에게 제공되고 이들은 각 사건을 살펴보고 이의를 제기할 수 있다. 모두 투명하게 이뤄진다”라고 설명했다. 

5. 결과가 불확실하다는 것을 인정하지 않으려는 태도 
때에 따라 (인사이트를 요청한) 비즈니스 그룹 또는 데이터 과학팀은 결과가 불확실(혹은 불분명)하거나 비즈니스 애플리케이션에 적합하지 않다는 결론을 내리려 하지 않는 경우가 있다고 로이트먼은 지적했다. 그는 “정 그렇다면 이 모델은 비즈니스에 ROI를 창출하기에 충분하지 않다고 말하는 것도 한 방법이다”라고 덧붙였다.  

로이트먼은 “케나 시큐리티의 데이터 과학팀은 두 달에 걸쳐 공통의 취약점 목록을 생성하는 취약점 분류 모델을 구축한 적이 있다. 모델은 작동하긴 했다. 하지만 고객에게 가치가 있을 정도로 제대로 작동하진 않았다. 정밀성이 너무 낮았다. 그래서 시간을 투자했고 성과를 도출했지만 프로젝트를 폐기했다”라고 말했다. 

6. 경영진의 지원 부재 
데이터 과학 이니셔티브는 C-레벨 내의 옹호자를 필요로 한다. 그래야만 충분한 리소스와 지원을 확보할 수 있기 때문이다. 라일리는 “소속 기업에서는 데이터 과학을 비즈니스 운영의 필수적인 부분으로 봤다. 그래서 CIO가 데이터 과학 이니셔티브의 옹호자가 됐다”라고 전했다. 

물론 CIO는 (데이터 과학을 지지하지 않더라도) 관련된 모든 데이터를 안전하게 유지해야 할 책임이 있다. 그러나 참여는 보안의 차원을 훨씬 넘어서야 한다는 게 그의 설명이다. 

라일리는 “오늘날 수집한 데이터를 최대한 활용하는 일은 CIO의 책임이라고 할 수 있다. 이러한 모든 데이터를 통해 인사이트를 얻거나, 이를 지능적으로 사용할 수 있는 도구가 마련돼 있다. CIO는 조직 전반에서 업무를 지원하는 데 이를 활용할 수 있다”라고 말했다. 

이어서 그는 어댑티비스트의 경우 영업 프로세스에서 활용할 수 있는 새로운 전략과 개선사항을 판단하는 데 데이터 과학을 사용하여 큰 성과를 거뒀다고 언급했다. 라일리는 “비즈니스 프로세스 최적화 관점에서 가장 도움이 됐다. 내부 영업에서 리드를 더욱더 원활하게 처리하고 관리할 수 있었다”라고 덧붙였다. 

7. 역량 부족
기술 격차는 여러 IT 영역에서 문제가 되고 있으며, 데이터 과학도 예외는 아니다. 프로젝트를 유지하거나 또는 최대 가치를 도출할 기술 역량을 갖추지 못한 조직이 많다. 

클라우드 기반 어카운트 자동화 회사 빈웍스(Beanworks)의 엔지니어링 및 데이터 CIO 트레이시 후이티카는 “유능한 데이터 과학자는 수요가 높고 찾기도 어려우며 몸값은 엄청나다”라면서, “일반적으로 물리학 또는 과학 분야 박사학위 그리고 R과 파이썬으로 코드를 작성할 수 있는 역량이 필요하다”라고 말했다. 

데이터 과학 프로젝트가 실패하는 가장 큰 이유는 (프로젝트가 배포 단계에 도달했다고 하더라도) 이를 계속해서 관리할 운영 역량이 부족하기 때문이라고 존슨은 지적했다. 그는 “유능한 데이터 과학자가 모델을 만들더라도 시장 및 데이터 변화에 맞춰 지속적인 개선 작업이 이뤄지지 않는다면 자동차를 만들어서 10살짜리 아이에게 줘버리는 것과 같다. 아무런 소용이 없다”라고 설명했다. 

기업들은 데이터 과학에 능통한 컨설턴트 등의 외부 전문가를 채용하거나 아웃소싱해 프로덕션 단계에 들어간 데이터 과학 모델을 유지관리할 수 있는 적절한 역량을 확보해야 한다. 

8. 애초에 적절한 해법이 아니었던 경우 
데이터 과학이 특정 문제의 적절한 해법이 아예 아니었다면? 데이터 과학의 잘못된 사용은 실패로 이어질 수 있다. 따라서 데이터 과학 기법, 프로세스, 도구를 언제 적용해야 하고 적용하면 안 되는지 신중하게 생각해야 한다. 라일리는 “데이터 과학 프로젝트가 실패하는 가장 큰 이유는 데이터 과학, 알고리즘, 머신러닝이 적절한 해법이 아닌 경우다”라고 말했다. 

이어서 그는 “머신러닝 모델이 전혀 필요하지 않을 수 있다. 간단한 회귀 분석이면 충분할 수 있다”라면서, “한때 비즈니스 부문의 재정적 예측 변수를 시각화하기 위해 금융 데이터 과학 모델링을 검토했던 적이 있었다. 그런데 여기에 사용하기 가장 적절했던 방법은 데이터 과학이 아니었다. 다름 아닌 통계적 회귀 분석이었다”라고 덧붙였다.
 
---------------------------------------------------------------
데이터 과학 인기기사
-> 사내 '데이터 과학' 교육은 이렇게··· 전문가 4인의 조언
-> 10년 후, 데이터 과학자 사라진다?··· ‘오토ML’로 싹 달라진다!
-> 데이터 과학자의 놀이터이자 배움터··· ‘캐글’ 탐험 안내서<티오베>
-> '데이터 과학자' 영입보다 양성··· 한 제조서비스 회사의 업스킬링 사례​​​​​​​
-> '데이터 과학자 없는 머신러닝' AutoML의 이해
-> '핫'한 직업 데이터 과학자, 필요 역량은?​​​​​​​
-> '32만 구독자 만족시켜라'··· 블룸버그의 머신러닝·데이터 과학 활용법​​​​​​​
---------------------------------------------------------------

ciokr@idg.co.kr

 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.