2018.05.11

장밋빛 기대에 찬물··· 흔한 '데이터 과학' 실수 12가지

Mary Branscombe | CIO
이미 수많은 기업과 기관들이 빅데이터와 예측 분석, 자동화된 알고리즘으로 비즈니스 프로세스와 고객 지원, 의사결정을 강화하는 데 도움을 주는 도구와 서비스를 찾고 있다. IDC에 따르면, 2018년에는 기업과 ISV 개발자 가운데 75%가 최소 1개 이상의 애플리케이션(적용 분야)에 AI나 머신러닝을 사용할 전망이다.

이렇게 데이터를 활용해 의사 결정을 내리고, 성과를 향상시키는 데 많은 관심이 쏠려 있지만, 데이터 사이언스 전문가와 전문성은 아직 부족하고 미흡하다. 특히 이제 막 데이터 사이언스를 활용하는 노력을 시작했다면, 흔히 저지르는 실수들을 주의할 필요가 있다. 



1. 데이터를 사용할 준비가 되었으며, 필요한 모든 것이 갖춰졌다고 가정한다
수집한 데이터의 양과 품질을 모두 학인하고, 이를 활용할 계획을 수립해야 한다. 데이터닷월드(Data.world)의 데이터 과학자 겸 지식 엔지니어인 조나단 오티즈는 “대부분의 시간, 때론 80%에 달하는 시간을 데이터 획득과 정리에 투자하게 된다. 그리고 추적해야 할 것들을 추적하고 있기 때문에, 데이터 과학자가 자신이 할 일을 할 수 있다고 가정하곤 한다”라고 말했다.

그렇지만 올바른 데이터를 추적하고 있어도 기록을 잘못하고 있을 수 있다. 또는 기록 방식이 시간이 지나면서 바뀔 수 있고, 데이터를 수집하는 동안 수집 시스템이 바뀔 수도 있다.
 오티즈는 “매달 조금씩 바뀌고 있다고 가정하자. 분석을 하거나, 모델을 구축할 때 데이터 전체를 사용하지 못하게 된다. 시스템이 바뀌었기 때문이다”라고 경고했다.

테크타겟(TechTarget)의 존 스타이너트 최고 마케팅 책임자(CMO)에 따르면, 올바른 데이터를 수집하고 있어도 데이터 양이 적고 독립적인 변수의 수가 많아 B2B 마케팅과 영업 같은 비즈니스 분야를 대상으로 한 예측 모델 구축이 힘들 수도 있다.

그는 “데이터 사이언스는 데이터가 많을수록 좋고, 예측 모델은 데이터가 많을수록 강력해진다. 트랜젝션 비율은 낮고 트랜젝션에 영향을 주는 독립 변수는 많으면 데이터 세트의 양은 적고 관계는 복잡해진다. 그리고 이는 예측 모델의 힘을 약화시킨다”라고 설명했다.

이를 해결하는 한 가지 방법은 ‘구매 동기(의도)’ 데이터 같은 데이터 세트를 구입하는 것이다. 물론 소속 기업에서 활용할 수 있는 데이터 세트여야 한다. 또는 데이터를 시뮬레이션 할 수도 있다.

이와 관련해 아반데(Avande)의 친탄 샤 수석 컨설턴트 겸 데이터 과학자는 시뮬레이션은 각별히 주의를 기울여 실시해야 한다고 강조했다. 샤는 “데이터가 처음 수립한 가정과 가설에 맞지 않을 수도 있다”라고 말했다.

2. 데이터를 탐구(조사)하지 않은 상태에서 데이터 사이언스를 시작한다
데이터 세트가 제시할 수 있는 것에 대한 ‘이론'과 '직관’이 있을 것이다. 그러나 데이터 팀은 데이터를 사용해 데이터 모델을 훈련하기 전에 데이터를 상세히 조사하고 탐구하는 시간을 투자해야 한다.

오티즈는 “반직관적인 무엇을 발견했다는 것은 가정(가설)이나 데이터가 부정확할 수 있다는 의미다. 데이터를 조사하고, 분류하고, 탐구적으로 분석하는 것이 가장 중요하다. 이를 생략하거나 서둘러 대충 하는 사람들이 많다. 데이터에 대해 철저히 이해를 해야 한다”라고 말했다. 이렇게 사전에 탐구를 하면, 데이터가 더 빨리 주제 전문성과 비즈니스 통찰력을 토대로 적절한 ‘스토리’를 제시한다는 사실을 확인하게 될 것이라고 그는 덧붙였다.

3. 지나치게 큰 기대를 한다
AI를 둘러싼 ‘하이프(과대 선전)’ 때문에 “컴퓨터 알고리즘에 데이터를 공급하면, 알아서 모든 것을 파악한다”라고 생각하는 사람들이 많다. 샤는 “데이터가 제 아무리 많아도, 이를 유용한 형태로 전환하기 위해서는 사람 전문가가 필요하다”라고 말했다.

기업이 과거 했던 일만 조사해서는 새로운 기회를 발굴할 수 없다. 지금까지 했던 일의 효율성을 높이는 방법만 찾을 수 있을 뿐이다. 스타이너트는 “미래를 예측하면서 과거를 많이 사용하면 새로운 기회를 찾을 확률이 낮아진다”라고 지적했다.

제품이나 서비스 수요를 찾기 위해 써드파티 데이터를 구입했다고 가정하자. 이 경우에도 제품이나 서비스 판매에 도움이 될 수 있다는 보장이 없다. 그는 “데이터 모델이 당신의 상품(서비스)과 잘 어울리는 고객 기업을 알려줄 수 있다. 그러나 해당 기업에 지금 당장 특정한 필요사항이 있는지는 알려주지 못한다”라고 덧붙였다.

오티즈는 “사람들은 과거 다른 분야와는 다르게, 데이터 과학자를 철석같이 신뢰하고 있다. 많은 리소스를 투입한다. 그리고 모든 질문에 대답을 할 것이라고 기대한다. 이런 식으로 데이터 과학자에게 큰 기대를 품고 있다. 데이터를 사용하면 질문에 대답을 하고, 의사결정을 견인할 수 있다고 생각한다”라고 말했다.

오티즈에 따르면, 데이터 과학자들은 작은 프로젝트부터 시작해 빨리 성과를 일궈내는 방법으로 기업과 기관에 가치를 입증해 보여야 한다. 그는 “쉽고 빠르게 달성할 수 있는 목표를 추구해야 한다. 기술 ‘토끼굴’에 들어가고, 정말 큰 가치가 있을 것으로 생각하는 대형 프로젝트에 많은 시간을 투자하는 방식으로 시작을 하면 안 된다”라고 강조했다.

4. 새 데이터 모델 테스트를 위해 통제 그룹을 활용하지 않는다
데이터 모델 구축에 많은 시간과 돈을 투자한다면, 투자 가치를 실현시킬 수 있는 모든 장소에서 이를 활용하고 싶어한다. 그러나 이런 방식으로는 모델이 실제 얼마나 잘 작동하는지 평가할 수 없다. 또 사용자가 모델을 신뢰하지 않으면, 이를 사용하지 않을 수도 있고, 그러면 테스트가 불가능하다.

해결책은 무엇일까? 스타이너트는 모델이 확실히 도입되도록 만드는 변화관리 프로그램, 이를 사용하지 않는 통제 그룹이라고 덧붙였다. 모델이 규명한 기회를 추구하는 그룹, 지금까지 해왔던 일을 경험과 독자적인 권한을 가지고 계속 추구하는 통제 그룹을 운영해야 한다는 의미다.

5. 가정(가설)이 아닌 목표로 시작한다
48시간 이내에 해결하는 고객 서비스 비율 80% 달성, 분기 기업 실적 10% 향상 등 특정한 성과를 제공할 수 있는 데이터 모델을 찾으려 시도하기 쉽다. 그러나 이런 매트릭스는 불충분하다. 오티즈는 다음과 같이 설명했다.

“가정(가설)으로 시작하는 것이 더 낫다. 전체 매트릭스에서 곡선이나 선을 보는 경우가 많다. 이를 옮기고 싶어한다. 좋은 비즈니스 목표가 될 수 있지만, 이를 끌어 당기기 위해 필요한 레버를 파악하기 어렵다. 향상과 개선을 가져오는 것에 대한 가정(가설)을 통제 그룹을 이용하거나, 데이터를 탐구해 테스트해야 한다.”

“통제 그룹으로 분리해 테스트를 실시할 수 있고, 두 그룹이 대표성 있는 표본을 제공한다면, 사용하고 있는 방법이 영향을 주고 싶어하는 대상에 실제 영향을 주는지 여부를 확인할 수 있다. 사실에 대한 데이터를 조사하는 것이라면, 가정(가설)으로 시작하는 것이 범위를 좁히도록 도움을 준다. 매트릭스를 10% 증가시켜야 한다면 영향을 줄 수 있는 것에 대한 가설을 수립한다. 그러면 데이터에서 이에 대해 추적하는 탐구 데이터 분석을 할 수 있다. 물으려는 질문을 명확히 하고, 테스트를 할 가설을 수립한다. 그러면 많은 시간을 절약할 수 있다.” 
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.
2018.05.11

장밋빛 기대에 찬물··· 흔한 '데이터 과학' 실수 12가지

Mary Branscombe | CIO
이미 수많은 기업과 기관들이 빅데이터와 예측 분석, 자동화된 알고리즘으로 비즈니스 프로세스와 고객 지원, 의사결정을 강화하는 데 도움을 주는 도구와 서비스를 찾고 있다. IDC에 따르면, 2018년에는 기업과 ISV 개발자 가운데 75%가 최소 1개 이상의 애플리케이션(적용 분야)에 AI나 머신러닝을 사용할 전망이다.

이렇게 데이터를 활용해 의사 결정을 내리고, 성과를 향상시키는 데 많은 관심이 쏠려 있지만, 데이터 사이언스 전문가와 전문성은 아직 부족하고 미흡하다. 특히 이제 막 데이터 사이언스를 활용하는 노력을 시작했다면, 흔히 저지르는 실수들을 주의할 필요가 있다. 



1. 데이터를 사용할 준비가 되었으며, 필요한 모든 것이 갖춰졌다고 가정한다
수집한 데이터의 양과 품질을 모두 학인하고, 이를 활용할 계획을 수립해야 한다. 데이터닷월드(Data.world)의 데이터 과학자 겸 지식 엔지니어인 조나단 오티즈는 “대부분의 시간, 때론 80%에 달하는 시간을 데이터 획득과 정리에 투자하게 된다. 그리고 추적해야 할 것들을 추적하고 있기 때문에, 데이터 과학자가 자신이 할 일을 할 수 있다고 가정하곤 한다”라고 말했다.

그렇지만 올바른 데이터를 추적하고 있어도 기록을 잘못하고 있을 수 있다. 또는 기록 방식이 시간이 지나면서 바뀔 수 있고, 데이터를 수집하는 동안 수집 시스템이 바뀔 수도 있다.
 오티즈는 “매달 조금씩 바뀌고 있다고 가정하자. 분석을 하거나, 모델을 구축할 때 데이터 전체를 사용하지 못하게 된다. 시스템이 바뀌었기 때문이다”라고 경고했다.

테크타겟(TechTarget)의 존 스타이너트 최고 마케팅 책임자(CMO)에 따르면, 올바른 데이터를 수집하고 있어도 데이터 양이 적고 독립적인 변수의 수가 많아 B2B 마케팅과 영업 같은 비즈니스 분야를 대상으로 한 예측 모델 구축이 힘들 수도 있다.

그는 “데이터 사이언스는 데이터가 많을수록 좋고, 예측 모델은 데이터가 많을수록 강력해진다. 트랜젝션 비율은 낮고 트랜젝션에 영향을 주는 독립 변수는 많으면 데이터 세트의 양은 적고 관계는 복잡해진다. 그리고 이는 예측 모델의 힘을 약화시킨다”라고 설명했다.

이를 해결하는 한 가지 방법은 ‘구매 동기(의도)’ 데이터 같은 데이터 세트를 구입하는 것이다. 물론 소속 기업에서 활용할 수 있는 데이터 세트여야 한다. 또는 데이터를 시뮬레이션 할 수도 있다.

이와 관련해 아반데(Avande)의 친탄 샤 수석 컨설턴트 겸 데이터 과학자는 시뮬레이션은 각별히 주의를 기울여 실시해야 한다고 강조했다. 샤는 “데이터가 처음 수립한 가정과 가설에 맞지 않을 수도 있다”라고 말했다.

2. 데이터를 탐구(조사)하지 않은 상태에서 데이터 사이언스를 시작한다
데이터 세트가 제시할 수 있는 것에 대한 ‘이론'과 '직관’이 있을 것이다. 그러나 데이터 팀은 데이터를 사용해 데이터 모델을 훈련하기 전에 데이터를 상세히 조사하고 탐구하는 시간을 투자해야 한다.

오티즈는 “반직관적인 무엇을 발견했다는 것은 가정(가설)이나 데이터가 부정확할 수 있다는 의미다. 데이터를 조사하고, 분류하고, 탐구적으로 분석하는 것이 가장 중요하다. 이를 생략하거나 서둘러 대충 하는 사람들이 많다. 데이터에 대해 철저히 이해를 해야 한다”라고 말했다. 이렇게 사전에 탐구를 하면, 데이터가 더 빨리 주제 전문성과 비즈니스 통찰력을 토대로 적절한 ‘스토리’를 제시한다는 사실을 확인하게 될 것이라고 그는 덧붙였다.

3. 지나치게 큰 기대를 한다
AI를 둘러싼 ‘하이프(과대 선전)’ 때문에 “컴퓨터 알고리즘에 데이터를 공급하면, 알아서 모든 것을 파악한다”라고 생각하는 사람들이 많다. 샤는 “데이터가 제 아무리 많아도, 이를 유용한 형태로 전환하기 위해서는 사람 전문가가 필요하다”라고 말했다.

기업이 과거 했던 일만 조사해서는 새로운 기회를 발굴할 수 없다. 지금까지 했던 일의 효율성을 높이는 방법만 찾을 수 있을 뿐이다. 스타이너트는 “미래를 예측하면서 과거를 많이 사용하면 새로운 기회를 찾을 확률이 낮아진다”라고 지적했다.

제품이나 서비스 수요를 찾기 위해 써드파티 데이터를 구입했다고 가정하자. 이 경우에도 제품이나 서비스 판매에 도움이 될 수 있다는 보장이 없다. 그는 “데이터 모델이 당신의 상품(서비스)과 잘 어울리는 고객 기업을 알려줄 수 있다. 그러나 해당 기업에 지금 당장 특정한 필요사항이 있는지는 알려주지 못한다”라고 덧붙였다.

오티즈는 “사람들은 과거 다른 분야와는 다르게, 데이터 과학자를 철석같이 신뢰하고 있다. 많은 리소스를 투입한다. 그리고 모든 질문에 대답을 할 것이라고 기대한다. 이런 식으로 데이터 과학자에게 큰 기대를 품고 있다. 데이터를 사용하면 질문에 대답을 하고, 의사결정을 견인할 수 있다고 생각한다”라고 말했다.

오티즈에 따르면, 데이터 과학자들은 작은 프로젝트부터 시작해 빨리 성과를 일궈내는 방법으로 기업과 기관에 가치를 입증해 보여야 한다. 그는 “쉽고 빠르게 달성할 수 있는 목표를 추구해야 한다. 기술 ‘토끼굴’에 들어가고, 정말 큰 가치가 있을 것으로 생각하는 대형 프로젝트에 많은 시간을 투자하는 방식으로 시작을 하면 안 된다”라고 강조했다.

4. 새 데이터 모델 테스트를 위해 통제 그룹을 활용하지 않는다
데이터 모델 구축에 많은 시간과 돈을 투자한다면, 투자 가치를 실현시킬 수 있는 모든 장소에서 이를 활용하고 싶어한다. 그러나 이런 방식으로는 모델이 실제 얼마나 잘 작동하는지 평가할 수 없다. 또 사용자가 모델을 신뢰하지 않으면, 이를 사용하지 않을 수도 있고, 그러면 테스트가 불가능하다.

해결책은 무엇일까? 스타이너트는 모델이 확실히 도입되도록 만드는 변화관리 프로그램, 이를 사용하지 않는 통제 그룹이라고 덧붙였다. 모델이 규명한 기회를 추구하는 그룹, 지금까지 해왔던 일을 경험과 독자적인 권한을 가지고 계속 추구하는 통제 그룹을 운영해야 한다는 의미다.

5. 가정(가설)이 아닌 목표로 시작한다
48시간 이내에 해결하는 고객 서비스 비율 80% 달성, 분기 기업 실적 10% 향상 등 특정한 성과를 제공할 수 있는 데이터 모델을 찾으려 시도하기 쉽다. 그러나 이런 매트릭스는 불충분하다. 오티즈는 다음과 같이 설명했다.

“가정(가설)으로 시작하는 것이 더 낫다. 전체 매트릭스에서 곡선이나 선을 보는 경우가 많다. 이를 옮기고 싶어한다. 좋은 비즈니스 목표가 될 수 있지만, 이를 끌어 당기기 위해 필요한 레버를 파악하기 어렵다. 향상과 개선을 가져오는 것에 대한 가정(가설)을 통제 그룹을 이용하거나, 데이터를 탐구해 테스트해야 한다.”

“통제 그룹으로 분리해 테스트를 실시할 수 있고, 두 그룹이 대표성 있는 표본을 제공한다면, 사용하고 있는 방법이 영향을 주고 싶어하는 대상에 실제 영향을 주는지 여부를 확인할 수 있다. 사실에 대한 데이터를 조사하는 것이라면, 가정(가설)으로 시작하는 것이 범위를 좁히도록 도움을 준다. 매트릭스를 10% 증가시켜야 한다면 영향을 줄 수 있는 것에 대한 가설을 수립한다. 그러면 데이터에서 이에 대해 추적하는 탐구 데이터 분석을 할 수 있다. 물으려는 질문을 명확히 하고, 테스트를 할 가설을 수립한다. 그러면 많은 시간을 절약할 수 있다.” 
CIO의 프리미엄 콘텐츠입니다. 이 기사를 더 읽으시려면 개인정보 등록이 필요합니다. 이미 등록하신 분은 '본인확인'을 해주십시오.
X