2021.08.03

칼럼ㅣ결코 하찮지 않다!··· '데이터 랭글링' 작업이 가치 있는 이유

Matt Asay | InfoWorld
우수한 데이터 과학 산출물을 얻기 위해서는 고품질의 데이터가 필요하다. 데이터를 정제하고 준비하는 작업은 흥미롭진 않더라도 매우 중요한 이유다. 

하버드 비즈니스 리뷰의 표현대로라면 데이터 과학자는 금세기 가장 섹시한 직업 중 하나다. 하지만 고된 수작업이 뒤따르는 직업이기도 하다. 아나콘다의 2021년 데이터 사이언스 현황 설문 조사에 따르면 응답자들은 작업 시간의 39%를 데이터 준비와 정제에 할애한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 할애하는 시간보다 많았다. 

데이터 과학자라기보단, 데이터 잡역부에 가까워 보인다.
 
ⓒGetty Images Bank

그게 잘못됐다는 얘기가 아니다. 오히려 데이터 정제 작업은 중요하다는 이야기다. 지난 수년간 사람들은 (암 치료용 데이터 모델들을 구축하는 등) 데이터 과학의 매력적인 측면을 부풀려 말하곤 했다. 하지만 데이터 과학의 8할은 데이터 정제 및 준비 작업이라는 점은 간과해왔다. 데이터 과학의 이런 측면이 데이터 과학을 올바르게 수행하기 위한 근간이라는 점 또한 마찬가지다. 

컨설턴트인 아론 주는 "그 어떠한 통계 분석 작업과 머신러닝 모델이라도 입력되는 데이터의 품질에 따라 성능의 우수함이 결정된다"라고 말했다.

누군가는 고된 작업을 도맡아야 한다
데이터 랭글링(데이터 준비 및 정제 작업을 의미)에 소요되는 시간은 점차 줄어드는 것처럼 보인다. 올해는 데이터 과학자들이 시간의 39%를 데이터 랭글링에 할애한다고 전했지만, 지난해 아나콘다의 설문에서는 45%였다. 불과 몇 년 전에는 80%에 육박하는 것으로 추정되기도 했다. 

오픈 데이터 연구소의 컨설턴트 레이 도즈는 이러한 추정치가 사실상 틀린 것이라고 지적했다. 더욱이 (이런 수치는) 데이터 랭글링 작업의 중요성을 격하함으로써 랭글링의 가치를 잘못 이해하게 만든다고 그는 주장했다. 

그는 "데이터 과학자들은 데이터를 변환하고, 탐색하며, 이해도를 높이는 데 시간을 할애해야 한다. 데이터는 그들이 작업하는 매체다. 데이터를 잘 이해할수록 더욱 훌륭한 통찰력을 얻을 수 있다”라고 설명했다. 

즉, 데이터 과학 산출물에 집중하고 싶어도 입력 데이터를 간과한다면 좋은 결과물을 얻기 힘들다. 쓰레기를 입력하면, 쓰레기가 나오는 법이다. 

데이터 과학에서 사람의 역할
데이터 과학과 그 원형인 ‘빅데이터’에 관해 얘기할 때면 사람들은 다들 수작업의 필요성을 없애주는 머신의 등장을 고대하곤 했다. 이는 빅데이터의 한 범주인 데이터 과학에서뿐 아니라 데이터 랭글링에 대해서도 마찬가지다. 

데이터 정제를 위해 숱한 고민을 하다 보면 그냥 데이터 준비 작업을 자동화해버리고 싶어질지도 모른다. 하지만 일부 데이터 작업은 자동화할 수 있을지 몰라도 궁극적으로 데이터 랭글링은 사람이 해야 하는 것이 현실이다. 왜 그럴까? 

하버드 비즈니스스쿨 온라인의 기고자 팀 스토비에스키에 따르면 데이터 랭글링은 “분석 프로세스의 중요한 부분"을 차지한다. 그는 "정제된 데이터의 모양새와 원천 데이터를 사용 가능한 형태로 만드는 법을 아는" 사람이 필요하다고 말했다. 예컨대, 데이터 랭글링의 발견 단계에서는 데이터에서 패턴뿐만 아니라 차이를 볼 줄 아는 사람이 있어야 하다는 설명이다.

아나콘다 2021 보고서는 "데이터 준비와 데이터 정제가 오랜 시간이 걸리는 지루한 작업이지만, 그렇다고 해서 자동화가 해결책은 아니다. 사람이 개입하면 데이터의 품질이 보장되고, 보다 정확한 결과를 얻을 수 있으며, 데이터에 맥락을 제공할 수 있다"라고 설명했다. 

항상 그랬다. 빅데이터 초창기에는 아파치 하둡에 데이터를 입력하면 산출물에서 ‘실행 가능한 인사이트’를 얻을 수 있는 세상을 다들 상상했다. 그러나 인생(그리고 데이터 과학)은 그런 식으로 돌아가지 않는다.

필자가 2014년에 "통계, 수학 및 프로그래밍 기술을 도메인 지식과 잘 조합하는 사람이 데이터 과학도 잘 해낸다"라고 설명했듯 데이터 과학에서는 궁극적으로 사람이 중요하다. 

사람은 도메인 지식과 데이터를 바탕으로 창의성을 발현할 수 있다. 자신의 도메인에 익숙할수록 해당 영역의 데이터를 수월하게 모델링할 수 있다. 아울러 데이터의 패턴과 이상 징후로부터 인사이트를 얻을 가능성도 더욱 커진다. 
 
또한 도메인 지식은 데이터 과학 모델에서 최종 산출물에도 일조한다. 아나콘다 보고서는 "응답자 중 단 36%만이 소속 조직 의사 결정권자가 뛰어난 데이터 문해력을 바탕으로 시각화 자료와 데이터 모델을 파악한다고 답했다. 반면, 52%는 의사 결정권자가 데이터 문해력은 갖추고 있지만, 시각화와 데이터 모델의 의미를 설명해줄 필요가 있다고 전했다”라고 전했다. 

의사 결정권자들의 모델/시각화 이해력이 부족하다는 문제를 짚는 결과일 수 있겠지만, 이 결과는 모델/시각화 자료를 만드는 데이터 과학자와도 관련성을 지닌 것일 수 있다. 데이터 과학자가 도메인에 익숙할수록 머신러닝 모델로 데이터에 내재한 인사이트를 보다 명료하게 설명하는 자료를 만들 수 있기 마련이다. 

달리 말해본다. 데이터 과학자가 임원용 최종 보고서를 만드는 마지막 단계에서는 도메인 지식이 그리 유용하지 않을 수 있다. 도메인 지식이 특히 유용한 순간은, 하찮아 보이는 데이터 랭글링 작업 초기다. 데이터 랭글링 작업이 좀더 갈채를 받아 마땅한 이유다.

*Matt Asay는 아마존 웹 서비스(AWS)의 Principal이다. 어도비의 개발자 에코시스템 총괄, 몽고DB의 비즈니스 개발, 마케팅, 커뮤니티 부문 부사장을 역임한 바 있다. ciokr@idg.co.kr
 



2021.08.03

칼럼ㅣ결코 하찮지 않다!··· '데이터 랭글링' 작업이 가치 있는 이유

Matt Asay | InfoWorld
우수한 데이터 과학 산출물을 얻기 위해서는 고품질의 데이터가 필요하다. 데이터를 정제하고 준비하는 작업은 흥미롭진 않더라도 매우 중요한 이유다. 

하버드 비즈니스 리뷰의 표현대로라면 데이터 과학자는 금세기 가장 섹시한 직업 중 하나다. 하지만 고된 수작업이 뒤따르는 직업이기도 하다. 아나콘다의 2021년 데이터 사이언스 현황 설문 조사에 따르면 응답자들은 작업 시간의 39%를 데이터 준비와 정제에 할애한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 할애하는 시간보다 많았다. 

데이터 과학자라기보단, 데이터 잡역부에 가까워 보인다.
 
ⓒGetty Images Bank

그게 잘못됐다는 얘기가 아니다. 오히려 데이터 정제 작업은 중요하다는 이야기다. 지난 수년간 사람들은 (암 치료용 데이터 모델들을 구축하는 등) 데이터 과학의 매력적인 측면을 부풀려 말하곤 했다. 하지만 데이터 과학의 8할은 데이터 정제 및 준비 작업이라는 점은 간과해왔다. 데이터 과학의 이런 측면이 데이터 과학을 올바르게 수행하기 위한 근간이라는 점 또한 마찬가지다. 

컨설턴트인 아론 주는 "그 어떠한 통계 분석 작업과 머신러닝 모델이라도 입력되는 데이터의 품질에 따라 성능의 우수함이 결정된다"라고 말했다.

누군가는 고된 작업을 도맡아야 한다
데이터 랭글링(데이터 준비 및 정제 작업을 의미)에 소요되는 시간은 점차 줄어드는 것처럼 보인다. 올해는 데이터 과학자들이 시간의 39%를 데이터 랭글링에 할애한다고 전했지만, 지난해 아나콘다의 설문에서는 45%였다. 불과 몇 년 전에는 80%에 육박하는 것으로 추정되기도 했다. 

오픈 데이터 연구소의 컨설턴트 레이 도즈는 이러한 추정치가 사실상 틀린 것이라고 지적했다. 더욱이 (이런 수치는) 데이터 랭글링 작업의 중요성을 격하함으로써 랭글링의 가치를 잘못 이해하게 만든다고 그는 주장했다. 

그는 "데이터 과학자들은 데이터를 변환하고, 탐색하며, 이해도를 높이는 데 시간을 할애해야 한다. 데이터는 그들이 작업하는 매체다. 데이터를 잘 이해할수록 더욱 훌륭한 통찰력을 얻을 수 있다”라고 설명했다. 

즉, 데이터 과학 산출물에 집중하고 싶어도 입력 데이터를 간과한다면 좋은 결과물을 얻기 힘들다. 쓰레기를 입력하면, 쓰레기가 나오는 법이다. 

데이터 과학에서 사람의 역할
데이터 과학과 그 원형인 ‘빅데이터’에 관해 얘기할 때면 사람들은 다들 수작업의 필요성을 없애주는 머신의 등장을 고대하곤 했다. 이는 빅데이터의 한 범주인 데이터 과학에서뿐 아니라 데이터 랭글링에 대해서도 마찬가지다. 

데이터 정제를 위해 숱한 고민을 하다 보면 그냥 데이터 준비 작업을 자동화해버리고 싶어질지도 모른다. 하지만 일부 데이터 작업은 자동화할 수 있을지 몰라도 궁극적으로 데이터 랭글링은 사람이 해야 하는 것이 현실이다. 왜 그럴까? 

하버드 비즈니스스쿨 온라인의 기고자 팀 스토비에스키에 따르면 데이터 랭글링은 “분석 프로세스의 중요한 부분"을 차지한다. 그는 "정제된 데이터의 모양새와 원천 데이터를 사용 가능한 형태로 만드는 법을 아는" 사람이 필요하다고 말했다. 예컨대, 데이터 랭글링의 발견 단계에서는 데이터에서 패턴뿐만 아니라 차이를 볼 줄 아는 사람이 있어야 하다는 설명이다.

아나콘다 2021 보고서는 "데이터 준비와 데이터 정제가 오랜 시간이 걸리는 지루한 작업이지만, 그렇다고 해서 자동화가 해결책은 아니다. 사람이 개입하면 데이터의 품질이 보장되고, 보다 정확한 결과를 얻을 수 있으며, 데이터에 맥락을 제공할 수 있다"라고 설명했다. 

항상 그랬다. 빅데이터 초창기에는 아파치 하둡에 데이터를 입력하면 산출물에서 ‘실행 가능한 인사이트’를 얻을 수 있는 세상을 다들 상상했다. 그러나 인생(그리고 데이터 과학)은 그런 식으로 돌아가지 않는다.

필자가 2014년에 "통계, 수학 및 프로그래밍 기술을 도메인 지식과 잘 조합하는 사람이 데이터 과학도 잘 해낸다"라고 설명했듯 데이터 과학에서는 궁극적으로 사람이 중요하다. 

사람은 도메인 지식과 데이터를 바탕으로 창의성을 발현할 수 있다. 자신의 도메인에 익숙할수록 해당 영역의 데이터를 수월하게 모델링할 수 있다. 아울러 데이터의 패턴과 이상 징후로부터 인사이트를 얻을 가능성도 더욱 커진다. 
 
또한 도메인 지식은 데이터 과학 모델에서 최종 산출물에도 일조한다. 아나콘다 보고서는 "응답자 중 단 36%만이 소속 조직 의사 결정권자가 뛰어난 데이터 문해력을 바탕으로 시각화 자료와 데이터 모델을 파악한다고 답했다. 반면, 52%는 의사 결정권자가 데이터 문해력은 갖추고 있지만, 시각화와 데이터 모델의 의미를 설명해줄 필요가 있다고 전했다”라고 전했다. 

의사 결정권자들의 모델/시각화 이해력이 부족하다는 문제를 짚는 결과일 수 있겠지만, 이 결과는 모델/시각화 자료를 만드는 데이터 과학자와도 관련성을 지닌 것일 수 있다. 데이터 과학자가 도메인에 익숙할수록 머신러닝 모델로 데이터에 내재한 인사이트를 보다 명료하게 설명하는 자료를 만들 수 있기 마련이다. 

달리 말해본다. 데이터 과학자가 임원용 최종 보고서를 만드는 마지막 단계에서는 도메인 지식이 그리 유용하지 않을 수 있다. 도메인 지식이 특히 유용한 순간은, 하찮아 보이는 데이터 랭글링 작업 초기다. 데이터 랭글링 작업이 좀더 갈채를 받아 마땅한 이유다.

*Matt Asay는 아마존 웹 서비스(AWS)의 Principal이다. 어도비의 개발자 에코시스템 총괄, 몽고DB의 비즈니스 개발, 마케팅, 커뮤니티 부문 부사장을 역임한 바 있다. ciokr@idg.co.kr
 

X