Offcanvas

��������� ������

‘데이터 랭글링’ 및 ‘탐구 데이터 분석’ 따라잡기

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

데이터 과학자 데이터 랭글링 탐구 데이터 분석 데이터 처리 애널리틱스 데이터 정제 데이터 모델링 ETL ELT 데이터 마이닝 데이터 스크래핑

2021.03.26

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

2021.03.26

데이터 과학자가 겪는 가장 큰 어려움은?··· "고된 데이터 준비 및 정제"

'데이터 정제 및 준비 작업'이 여전히 데이터 과학자 업무의 거의 절반을 차지하고 있는 것으로 나타났다.  데이터 과학자와 소프트웨어 엔지니어가 겪는 가장 큰 어려움은 무엇일까. 아나콘다(Anaconda)의 최근 설문조사에 따르면 고된 데이터 수집 및 정제, 편향된 모델, 데이터 프라이버시, 경험과 기술을 갖춘 전문가 채용의 어려움 등이 주된 문제인 것으로 드러났다.    과학용 컴퓨팅 애플리케이션의 파이썬 배포판 제작 업체 아나콘다가 '2020 데이터 과학 현황 조사(2020 State Of Data Science)'를 공개했다. 이번 설문에는 전 세계 100개국 2,360명이 참여했고 이 중 절반 정도가 미국 개발자였다. 보고서는 최근 데이터 과학 환경이 많이 개선됐음에도 데이터 관련 소모적인 작업이 여전히 데이터 과학자들의 주 업무라고 밝혔다. 응답자들은 데이터 로딩과 정제 작업에 각각 업무 시간의 19%와 26%를 사용한다고 말했다. 이는 전체 업무 시간의 절반에 해당하는 수치다. 이 밖에 모델 선택과 학습, 배포에 각각 11% 정도로, 총 34%를 쓰고 있는 것으로 나타났다. 데이터 과학 실무 관련해서 가장 큰 어려움은 기업의 IT 보안 규정을 준수하는 것이었다. 데이터 과학자와 개발자, 시스템 관리자의 대답이 모두 비슷했다. 이는 주로 새로운 앱을 대규모로 배포하는 것과 관련 있다. 또한 머신러닝과 데이터 과학 앱의 수명주기 문제는 보안 취약점을 패치하면서 다양한 오픈소스 애플리케이션 스택을 유지하는 것 등 내부적인 이슈를 가리킨다고 보고서는 설명했다. 설문 결과 확인된 또 다른 문제는 기업에서 필요로 하는 기술과 교육기관에서 가르치는 기술 간의 차이다. 대학 대부분이 통계와 머신러닝 이론, 파이썬 프로그래밍 수업을 제공하고 학생 대부분도 이런 과정을 듣는다. 그러나 기업이 가장 필요로 하는 데이터 관리 기술은 대학에서 거의 가르치지 않는다. 고급 수학 지식도 필요한 데 학생들이 종종 간과하곤 한다. 학생들은 ...

아나콘다 데이터 과학 데이터 과학자 소프트웨어 엔지니어 데이터 정제 데이터 준비 데이터 프라이버시 파이썬 머신러닝 자바스크립트 자바 줄리아

2020.07.01

'데이터 정제 및 준비 작업'이 여전히 데이터 과학자 업무의 거의 절반을 차지하고 있는 것으로 나타났다.  데이터 과학자와 소프트웨어 엔지니어가 겪는 가장 큰 어려움은 무엇일까. 아나콘다(Anaconda)의 최근 설문조사에 따르면 고된 데이터 수집 및 정제, 편향된 모델, 데이터 프라이버시, 경험과 기술을 갖춘 전문가 채용의 어려움 등이 주된 문제인 것으로 드러났다.    과학용 컴퓨팅 애플리케이션의 파이썬 배포판 제작 업체 아나콘다가 '2020 데이터 과학 현황 조사(2020 State Of Data Science)'를 공개했다. 이번 설문에는 전 세계 100개국 2,360명이 참여했고 이 중 절반 정도가 미국 개발자였다. 보고서는 최근 데이터 과학 환경이 많이 개선됐음에도 데이터 관련 소모적인 작업이 여전히 데이터 과학자들의 주 업무라고 밝혔다. 응답자들은 데이터 로딩과 정제 작업에 각각 업무 시간의 19%와 26%를 사용한다고 말했다. 이는 전체 업무 시간의 절반에 해당하는 수치다. 이 밖에 모델 선택과 학습, 배포에 각각 11% 정도로, 총 34%를 쓰고 있는 것으로 나타났다. 데이터 과학 실무 관련해서 가장 큰 어려움은 기업의 IT 보안 규정을 준수하는 것이었다. 데이터 과학자와 개발자, 시스템 관리자의 대답이 모두 비슷했다. 이는 주로 새로운 앱을 대규모로 배포하는 것과 관련 있다. 또한 머신러닝과 데이터 과학 앱의 수명주기 문제는 보안 취약점을 패치하면서 다양한 오픈소스 애플리케이션 스택을 유지하는 것 등 내부적인 이슈를 가리킨다고 보고서는 설명했다. 설문 결과 확인된 또 다른 문제는 기업에서 필요로 하는 기술과 교육기관에서 가르치는 기술 간의 차이다. 대학 대부분이 통계와 머신러닝 이론, 파이썬 프로그래밍 수업을 제공하고 학생 대부분도 이런 과정을 듣는다. 그러나 기업이 가장 필요로 하는 데이터 관리 기술은 대학에서 거의 가르치지 않는다. 고급 수학 지식도 필요한 데 학생들이 종종 간과하곤 한다. 학생들은 ...

2020.07.01

딥러닝의 한 갈래 '지도학습'이란?

머신러닝은 데이터로부터 자동으로 모델을 생성하는 알고리즘이 포함된 인공지능의 한 지류다. 머신러닝의 종류는 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning), 능동적 머신러닝(Active Machine Learning) 등 4가지가 있다. 강화학습과 능동적 머신러닝은 상대적으로 새롭기 때문에 이런 종류의 목록에서 생략될 때도 있다. 또한 반 지도학습(Semi-supervised Learning)도 목록에 포함해야 한다.   지도학습이란 무엇인가? 지도학습은 올바른 답변(목표 값)으로 태그된 학습 데이터부터 출발한다. 학습 과정 후 이미 태그되지 않은 유사한 데이터에 대한 답을 예측할 수 있는 조정된 웨이트를 가진 모델을 얻게 된다. 오버피팅이나 언더피팅 없이 정확도가 높은 모델을 훈련해야 한다. 정확도가 높다는 것은 손실 함수를 최적화했다는 뜻이다. 분류 문제 맥락에서 정확도는 모델이 올바른 출력을 생성하는 예의 비율이다. 오버피팅이란 모델이 관찰한 데이터와 너무 긴밀하게 연관되어 있어서 관찰하지 않은 데이터로 일반화하지 않는다는 뜻이다. 언더피팅은 모델이 데이터의 기본 트렌드를 포착할 만큼 충분히 복잡하지 않다는 뜻이다. 손실 함수는 모델의 ‘나쁨’을 반영하기 위해 선택한다. 최고의 모델을 찾기 위해 손실을 최소화한다. 수치적 (회귀) 문제의 경우 손실 함수는 MSE(Mean Square Error)인 경우가 많으며 RMSE(Root Mean Squared Error)나 RMSD(Root Mean Square Deviation)으로도 표현된다. 이는 데이터 포인트와 모델 곡선 사이의 유클리드 거리에 해당한다. 분류 (비수치적) 무제의 경우 손실 함수는 ROC 곡선 아래의 영역(AUC), 평균 정확도, 정밀도 기억, 로그 손실 등 일련의 조치 중 하나에 기초할 수 있다. (AUC와 ROC 곡선에 대한 설명은 아래를 참조한다). 오버...

통계 지도학습 비지도학습 능동적 머신러닝 Unsupervised Learning Supervised learning Active Machine Learning reinforcement learning 강화학습 신경망 데이터 정제 함수 인공지능 하이퍼파라미터

2019.06.21

머신러닝은 데이터로부터 자동으로 모델을 생성하는 알고리즘이 포함된 인공지능의 한 지류다. 머신러닝의 종류는 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning), 능동적 머신러닝(Active Machine Learning) 등 4가지가 있다. 강화학습과 능동적 머신러닝은 상대적으로 새롭기 때문에 이런 종류의 목록에서 생략될 때도 있다. 또한 반 지도학습(Semi-supervised Learning)도 목록에 포함해야 한다.   지도학습이란 무엇인가? 지도학습은 올바른 답변(목표 값)으로 태그된 학습 데이터부터 출발한다. 학습 과정 후 이미 태그되지 않은 유사한 데이터에 대한 답을 예측할 수 있는 조정된 웨이트를 가진 모델을 얻게 된다. 오버피팅이나 언더피팅 없이 정확도가 높은 모델을 훈련해야 한다. 정확도가 높다는 것은 손실 함수를 최적화했다는 뜻이다. 분류 문제 맥락에서 정확도는 모델이 올바른 출력을 생성하는 예의 비율이다. 오버피팅이란 모델이 관찰한 데이터와 너무 긴밀하게 연관되어 있어서 관찰하지 않은 데이터로 일반화하지 않는다는 뜻이다. 언더피팅은 모델이 데이터의 기본 트렌드를 포착할 만큼 충분히 복잡하지 않다는 뜻이다. 손실 함수는 모델의 ‘나쁨’을 반영하기 위해 선택한다. 최고의 모델을 찾기 위해 손실을 최소화한다. 수치적 (회귀) 문제의 경우 손실 함수는 MSE(Mean Square Error)인 경우가 많으며 RMSE(Root Mean Squared Error)나 RMSD(Root Mean Square Deviation)으로도 표현된다. 이는 데이터 포인트와 모델 곡선 사이의 유클리드 거리에 해당한다. 분류 (비수치적) 무제의 경우 손실 함수는 ROC 곡선 아래의 영역(AUC), 평균 정확도, 정밀도 기억, 로그 손실 등 일련의 조치 중 하나에 기초할 수 있다. (AUC와 ROC 곡선에 대한 설명은 아래를 참조한다). 오버...

2019.06.21

기고 | CRM 서식하는 5가지 괴물, 어떻게 퇴치할까

CRM 시스템 속에는 시간이 지나면서 괴물들이 생겨난다. CRM에 숨어 있는 괴물들을 찾아내 격파시킬 방법을 소개한다. 이미지 출처 : Thinkstock 당신의 CRM 시스템 안에는 온갖 종류의 괴물들이 있다. 이들을 퇴치하려면 각기 다른 전략이 필요한데, 이 전략들에는 모두 “지하실에 가지 마!”같은 사용자들의 습관을 바로잡는 것과 데이터베이스를 바로 잡는 행동이 반드시 필요하다. 우선, 전적으로 IT의 통제 아래 있었던 단순한 것부터 시작해보자. 프랑켄슈타인: 엉망진창으로 만들어진 괴물 프랑켄슈타인 박사가 비트들의 조합을 쥐어 짰다. 그가 만든 괴물의 걸음걸이는 느리고 서툴렀다. 당신이 아무렇게나 배치한 소프트웨어는 프랑켄슈타인 괴물이 CRM 시스템 안에 자리잡은 근본적 이유다. CRM 시스템에는 수백 가지의 작업흐름, 타당성 검증 규칙, 공식 필드, 버튼, 스타일 시트, 자바스크립트 파편들이 모두 서로 교류하는데, 이들이 모두 제대로 작동해야 한다. 필드 정의에 아무런 변화도 주지 않고 다른 수십 곳에 해당 코드를 업데이트하기 때문에 너무나도 쉽다. 그러면 곧바로 버그 천국이 되어버린다. (또 하나의 공포 영화가 나오는 셈이다.) CRM 시스템에서 프랑켄슈타인을 감지하고 이를 죽이는 방법을 소개한다: -PC나 맥에 이클립스(Eclipse)를 설치하고 포스닷컴 플러그인을 추가하라. -IDE를 사용해 세일즈포스닷컴 사용 부서에서 모든 메타데이터를 뽑아내라. -IDE 검색 기능을 사용해 자바스크립트, 인클루드스크립트(includescript), 리콰이어스크립트(requirescript) 등의 키워드를 찾아라. -가장 문제 있는 요소가 모두 어디에 있는지 목록을 정리하라. 그들이 어떻게 연결되어 있는지 알아내라. -다른 변화를 주기 앞서 검색 기능을 사용해 영향을 분석하라. -인플레이스 문서를 심각하게 생각하라. ...

CRM 데이터 CIO 버그 오류 괴물 데이터 정제 중복 제거

2014.11.07

CRM 시스템 속에는 시간이 지나면서 괴물들이 생겨난다. CRM에 숨어 있는 괴물들을 찾아내 격파시킬 방법을 소개한다. 이미지 출처 : Thinkstock 당신의 CRM 시스템 안에는 온갖 종류의 괴물들이 있다. 이들을 퇴치하려면 각기 다른 전략이 필요한데, 이 전략들에는 모두 “지하실에 가지 마!”같은 사용자들의 습관을 바로잡는 것과 데이터베이스를 바로 잡는 행동이 반드시 필요하다. 우선, 전적으로 IT의 통제 아래 있었던 단순한 것부터 시작해보자. 프랑켄슈타인: 엉망진창으로 만들어진 괴물 프랑켄슈타인 박사가 비트들의 조합을 쥐어 짰다. 그가 만든 괴물의 걸음걸이는 느리고 서툴렀다. 당신이 아무렇게나 배치한 소프트웨어는 프랑켄슈타인 괴물이 CRM 시스템 안에 자리잡은 근본적 이유다. CRM 시스템에는 수백 가지의 작업흐름, 타당성 검증 규칙, 공식 필드, 버튼, 스타일 시트, 자바스크립트 파편들이 모두 서로 교류하는데, 이들이 모두 제대로 작동해야 한다. 필드 정의에 아무런 변화도 주지 않고 다른 수십 곳에 해당 코드를 업데이트하기 때문에 너무나도 쉽다. 그러면 곧바로 버그 천국이 되어버린다. (또 하나의 공포 영화가 나오는 셈이다.) CRM 시스템에서 프랑켄슈타인을 감지하고 이를 죽이는 방법을 소개한다: -PC나 맥에 이클립스(Eclipse)를 설치하고 포스닷컴 플러그인을 추가하라. -IDE를 사용해 세일즈포스닷컴 사용 부서에서 모든 메타데이터를 뽑아내라. -IDE 검색 기능을 사용해 자바스크립트, 인클루드스크립트(includescript), 리콰이어스크립트(requirescript) 등의 키워드를 찾아라. -가장 문제 있는 요소가 모두 어디에 있는지 목록을 정리하라. 그들이 어떻게 연결되어 있는지 알아내라. -다른 변화를 주기 앞서 검색 기능을 사용해 영향을 분석하라. -인플레이스 문서를 심각하게 생각하라. ...

2014.11.07

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.5