Offcanvas

������

칼럼ㅣ결코 하찮지 않다!··· '데이터 랭글링' 작업이 가치 있는 이유

우수한 데이터 과학 산출물을 얻기 위해서는 고품질의 데이터가 필요하다. 데이터를 정제하고 준비하는 작업은 흥미롭진 않더라도 매우 중요한 이유다.  하버드 비즈니스 리뷰의 표현대로라면 데이터 과학자는 금세기 가장 섹시한 직업 중 하나다. 하지만 고된 수작업이 뒤따르는 직업이기도 하다. 아나콘다의 2021년 데이터 사이언스 현황 설문 조사에 따르면 응답자들은 작업 시간의 39%를 데이터 준비와 정제에 할애한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 할애하는 시간보다 많았다.  데이터 과학자라기보단, 데이터 잡역부에 가까워 보인다.   그게 잘못됐다는 얘기가 아니다. 오히려 데이터 정제 작업은 중요하다는 이야기다. 지난 수년간 사람들은 (암 치료용 데이터 모델들을 구축하는 등) 데이터 과학의 매력적인 측면을 부풀려 말하곤 했다. 하지만 데이터 과학의 8할은 데이터 정제 및 준비 작업이라는 점은 간과해왔다. 데이터 과학의 이런 측면이 데이터 과학을 올바르게 수행하기 위한 근간이라는 점 또한 마찬가지다.  컨설턴트인 아론 주는 "그 어떠한 통계 분석 작업과 머신러닝 모델이라도 입력되는 데이터의 품질에 따라 성능의 우수함이 결정된다"라고 말했다. 누군가는 고된 작업을 도맡아야 한다 데이터 랭글링(데이터 준비 및 정제 작업을 의미)에 소요되는 시간은 점차 줄어드는 것처럼 보인다. 올해는 데이터 과학자들이 시간의 39%를 데이터 랭글링에 할애한다고 전했지만, 지난해 아나콘다의 설문에서는 45%였다. 불과 몇 년 전에는 80%에 육박하는 것으로 추정되기도 했다.  오픈 데이터 연구소의 컨설턴트 레이 도즈는 이러한 추정치가 사실상 틀린 것이라고 지적했다. 더욱이 (이런 수치는) 데이터 랭글링 작업의 중요성을 격하함으로써 랭글링의 가치를 잘못 이해하게 만든다고 그는 주장했다.  그는 "데이터 과학자들은 데이터를 변환하고, 탐색하며, 이해도를 높이는 데 시간을 할애해야 한다. 데이터는 그들이 작업...

데이터 랭글링 데이터 데이터 과학 정제 필터링

2021.08.03

우수한 데이터 과학 산출물을 얻기 위해서는 고품질의 데이터가 필요하다. 데이터를 정제하고 준비하는 작업은 흥미롭진 않더라도 매우 중요한 이유다.  하버드 비즈니스 리뷰의 표현대로라면 데이터 과학자는 금세기 가장 섹시한 직업 중 하나다. 하지만 고된 수작업이 뒤따르는 직업이기도 하다. 아나콘다의 2021년 데이터 사이언스 현황 설문 조사에 따르면 응답자들은 작업 시간의 39%를 데이터 준비와 정제에 할애한다고 답했다. 모델 학습, 모델 선택, 모델 배포에 할애하는 시간보다 많았다.  데이터 과학자라기보단, 데이터 잡역부에 가까워 보인다.   그게 잘못됐다는 얘기가 아니다. 오히려 데이터 정제 작업은 중요하다는 이야기다. 지난 수년간 사람들은 (암 치료용 데이터 모델들을 구축하는 등) 데이터 과학의 매력적인 측면을 부풀려 말하곤 했다. 하지만 데이터 과학의 8할은 데이터 정제 및 준비 작업이라는 점은 간과해왔다. 데이터 과학의 이런 측면이 데이터 과학을 올바르게 수행하기 위한 근간이라는 점 또한 마찬가지다.  컨설턴트인 아론 주는 "그 어떠한 통계 분석 작업과 머신러닝 모델이라도 입력되는 데이터의 품질에 따라 성능의 우수함이 결정된다"라고 말했다. 누군가는 고된 작업을 도맡아야 한다 데이터 랭글링(데이터 준비 및 정제 작업을 의미)에 소요되는 시간은 점차 줄어드는 것처럼 보인다. 올해는 데이터 과학자들이 시간의 39%를 데이터 랭글링에 할애한다고 전했지만, 지난해 아나콘다의 설문에서는 45%였다. 불과 몇 년 전에는 80%에 육박하는 것으로 추정되기도 했다.  오픈 데이터 연구소의 컨설턴트 레이 도즈는 이러한 추정치가 사실상 틀린 것이라고 지적했다. 더욱이 (이런 수치는) 데이터 랭글링 작업의 중요성을 격하함으로써 랭글링의 가치를 잘못 이해하게 만든다고 그는 주장했다.  그는 "데이터 과학자들은 데이터를 변환하고, 탐색하며, 이해도를 높이는 데 시간을 할애해야 한다. 데이터는 그들이 작업...

2021.08.03

CRM 데이터 정제가 필요한 이유

의도가 아무리 좋아도 결과까지 반드시 좋으라는 법은 없다. 업데이트된 데이터를 저장하는 것이 바로 그렇다. 이론적으로 가능한 신속하게 데이터베이스 트랜잭션을 정제해 테이블을 최신으로 유지하게 되면 데이터 통합이나 시간을 잡아먹는 문제에 대해 걱정할 필요가 없어진다. 하지만 항상 그렇게 간단한 것은 아니다. 실제 클라우드 시스템에서는 느슨하게 연결된 수십 개의 데이터베이스를 가질 수 있다. 일반적으로 업데이트는 수 초에 한 번씩 이루어지지만 약화된 시스템, 새로 고침 또는 쿼터 종료(Quarter End) 보고 등 특정 조건에서 트랜잭션은 1시간 이상이 걸릴 수도 있다. 이것이 그 작동 메커니즘이다. 따라서 느슨하게 연결된 클라우드 시스템에서 가장 먼저 해 야할 일은 모든 시스템의 마지막 단계에서 트랜잭션이 시간순서에 따라 정리되도록 하고 비즈니스 로직이 실제로 몇 시간이나 늦은 ‘새’ 업데이트가 생겼을 때 무엇을 해야 하는지(또는 어떻게 조화를 꾀하는지) 파악하도록 하는 것이다. 자, 이것으로 트랜잭션 테이블(거래, 결제, 송금 등)에는 충분하다고 생각한다. 하지만 일반적으로 회계 콘텐츠를 그리 많이 가지고 있지 않은 CRM 시스템의 핵심은 어떠할까? CRM 시스템은 다른 기업용 소프트웨어와는 다르다. 데이터 품질의 기준이 다르며 이는 데이터 입력 소스(고객 또는 판매 대리인)와 데이터 업데이트의 주기 때문이다. 일부 개별 기록이 하루에 몇 번이나 변경될 수 있다. CRM에서 가장 위험한 테이블은 ‘영업 기회’와 ‘고객 계약’이다. 영업 기회는 계약이 성사되는 단계로 옮겨갈 수 있으며 고객 계약은 정보 피라미드에서 최상단에 위치하기 때문이다. 따라서 이런 테이블에 대한 업데이트는 접속 제어 시스템(영업 담당자는 이 기록이 특정 상태에 있을 때 해당 영역을 수정하지 못할 수도 있다)과 검증 규칙 또는 어떤 데이터가 변경될 수 있는 조건을 ...

CRM 데이터 복제 업데이트 정제

2012.04.25

의도가 아무리 좋아도 결과까지 반드시 좋으라는 법은 없다. 업데이트된 데이터를 저장하는 것이 바로 그렇다. 이론적으로 가능한 신속하게 데이터베이스 트랜잭션을 정제해 테이블을 최신으로 유지하게 되면 데이터 통합이나 시간을 잡아먹는 문제에 대해 걱정할 필요가 없어진다. 하지만 항상 그렇게 간단한 것은 아니다. 실제 클라우드 시스템에서는 느슨하게 연결된 수십 개의 데이터베이스를 가질 수 있다. 일반적으로 업데이트는 수 초에 한 번씩 이루어지지만 약화된 시스템, 새로 고침 또는 쿼터 종료(Quarter End) 보고 등 특정 조건에서 트랜잭션은 1시간 이상이 걸릴 수도 있다. 이것이 그 작동 메커니즘이다. 따라서 느슨하게 연결된 클라우드 시스템에서 가장 먼저 해 야할 일은 모든 시스템의 마지막 단계에서 트랜잭션이 시간순서에 따라 정리되도록 하고 비즈니스 로직이 실제로 몇 시간이나 늦은 ‘새’ 업데이트가 생겼을 때 무엇을 해야 하는지(또는 어떻게 조화를 꾀하는지) 파악하도록 하는 것이다. 자, 이것으로 트랜잭션 테이블(거래, 결제, 송금 등)에는 충분하다고 생각한다. 하지만 일반적으로 회계 콘텐츠를 그리 많이 가지고 있지 않은 CRM 시스템의 핵심은 어떠할까? CRM 시스템은 다른 기업용 소프트웨어와는 다르다. 데이터 품질의 기준이 다르며 이는 데이터 입력 소스(고객 또는 판매 대리인)와 데이터 업데이트의 주기 때문이다. 일부 개별 기록이 하루에 몇 번이나 변경될 수 있다. CRM에서 가장 위험한 테이블은 ‘영업 기회’와 ‘고객 계약’이다. 영업 기회는 계약이 성사되는 단계로 옮겨갈 수 있으며 고객 계약은 정보 피라미드에서 최상단에 위치하기 때문이다. 따라서 이런 테이블에 대한 업데이트는 접속 제어 시스템(영업 담당자는 이 기록이 특정 상태에 있을 때 해당 영역을 수정하지 못할 수도 있다)과 검증 규칙 또는 어떤 데이터가 변경될 수 있는 조건을 ...

2012.04.25

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.13