Offcanvas

������ ��������� ������

머신러닝 프로젝트를 '레벨 업'시킬 수 있는 8가지 방법

데이터를 분류하거나 결과를 예측해야 하는가? 머신러닝(ML) 프로젝트 진행에 어려움을 겪고 있는가? 상황을 호전시킬 수 있는 다양한 기법들이 있다. 아래에서 논의하는 8가지 방법 중 일부는 ML 프로세스를 극적으로 가속화할 것이며, 프로세스를 가속화할 뿐 아니라 더 나은 모델을 구축하는 데 도움이 되는 것들도 있을 것이다. 이 모든 기법이 특정 프로젝트에 적합하지는 않을 것이다. 단, 첫 번째인 탐구 데이터 분석은 거의 모든 프로젝트에 유효하다. ML 또는 딥러닝 프로젝트를 도약시킬 수 있는 8가지 방법을 살펴본다.    탐구 데이터 분석부터 시작하라 데이터를 심층적으로 검토하지 않고 ML 훈련에 바로 뛰어드는 것은 설계 없는 건축과 같다. 많은 노력이 필요하며 큰 보람도 없을 것이다. 탐구 데이터 분석(Exploratory data analysis)은 그래픽 및 통계 방법을 결합한다. 좀더 보편적인 기법으로는 개별적인 변수에 대한 히스토그램 및 상자-수염 플롯, 변수 쌍에 대한 분산 차트, 변수들 사이의 상관관계를 쌍별 상관관계에 대한 히트맵 플롯으로 표시하는 기술통계 플롯 등이 있다. 탐구 데이터 분석에는 또한 PCA(Principal Component Analysis)와 NLDR(Nonlinear Dimensionality Reduction) 등 차원수 감소 기법도 포함될 수 있다. 시간 의존적인 데이터의 경우 시간을 기준으로 미가공 변수와 통계에 대한 선도표를 작성해야 하며, 이를 통해 폭풍과 (에헴) 유행병 등의 외부 효과로부터 발생하는 계절적 및 요일별 변동과 변칙적인 움직임을 파악할 수 있다. 탐구 데이터 분석은 단순한 통계 그래프가 아니다. 이것은 데이터를 모델에 강제로 적용하는 대신에 열림 마음가짐을 유지할 수 있도록 도와주기 위해 고안된 데이터 분석에 대한 철학적인 접근방식이다. 요즈음에는 탐구 데이터 분석에 관한 많은 아이디어가 데이터 마이닝에 통합됐다. 자율 클러스터를 구축하라 클러스터 분석(Cluster a...

탐구 데이터 분석 머신러닝 프로젝트 자율 클러스터 반자율 학습 AutoML 전이 학습 모델 주 하이퍼파라미터 옵티마이저

2021.04.02

데이터를 분류하거나 결과를 예측해야 하는가? 머신러닝(ML) 프로젝트 진행에 어려움을 겪고 있는가? 상황을 호전시킬 수 있는 다양한 기법들이 있다. 아래에서 논의하는 8가지 방법 중 일부는 ML 프로세스를 극적으로 가속화할 것이며, 프로세스를 가속화할 뿐 아니라 더 나은 모델을 구축하는 데 도움이 되는 것들도 있을 것이다. 이 모든 기법이 특정 프로젝트에 적합하지는 않을 것이다. 단, 첫 번째인 탐구 데이터 분석은 거의 모든 프로젝트에 유효하다. ML 또는 딥러닝 프로젝트를 도약시킬 수 있는 8가지 방법을 살펴본다.    탐구 데이터 분석부터 시작하라 데이터를 심층적으로 검토하지 않고 ML 훈련에 바로 뛰어드는 것은 설계 없는 건축과 같다. 많은 노력이 필요하며 큰 보람도 없을 것이다. 탐구 데이터 분석(Exploratory data analysis)은 그래픽 및 통계 방법을 결합한다. 좀더 보편적인 기법으로는 개별적인 변수에 대한 히스토그램 및 상자-수염 플롯, 변수 쌍에 대한 분산 차트, 변수들 사이의 상관관계를 쌍별 상관관계에 대한 히트맵 플롯으로 표시하는 기술통계 플롯 등이 있다. 탐구 데이터 분석에는 또한 PCA(Principal Component Analysis)와 NLDR(Nonlinear Dimensionality Reduction) 등 차원수 감소 기법도 포함될 수 있다. 시간 의존적인 데이터의 경우 시간을 기준으로 미가공 변수와 통계에 대한 선도표를 작성해야 하며, 이를 통해 폭풍과 (에헴) 유행병 등의 외부 효과로부터 발생하는 계절적 및 요일별 변동과 변칙적인 움직임을 파악할 수 있다. 탐구 데이터 분석은 단순한 통계 그래프가 아니다. 이것은 데이터를 모델에 강제로 적용하는 대신에 열림 마음가짐을 유지할 수 있도록 도와주기 위해 고안된 데이터 분석에 대한 철학적인 접근방식이다. 요즈음에는 탐구 데이터 분석에 관한 많은 아이디어가 데이터 마이닝에 통합됐다. 자율 클러스터를 구축하라 클러스터 분석(Cluster a...

2021.04.02

‘데이터 랭글링’ 및 ‘탐구 데이터 분석’ 따라잡기

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

데이터 과학자 데이터 랭글링 탐구 데이터 분석 데이터 처리 애널리틱스 데이터 정제 데이터 모델링 ETL ELT 데이터 마이닝 데이터 스크래핑

2021.03.26

초보 데이터 사이언티스트는 데이터를 위한 적절한 모델만 찾아 적용하면 된다는 생각을 할 때가 있다. 애석하게도 이보다 더 데이터 사이언스의 현실과 동떨어진 것도 드물 것이다. 사실, 데이터 랭글링(Data Wrangling, 소위 말하는 데이터 정제 및 변경)과 탐구 데이터 분석(exploratory data analysis)은 데이터 사이언티스트가 소요하는 시간의 80%를 차지하는 경우가 많다. 데이터 랭글링과 탐구 데이터 분석의 개념은 쉽다. 단 제대로 하기가 어려울 수 있다. 정제되지 않거나 잘못 정제된 데이터는 쓰레기이며, GIGO 원리(garbage in, garbage out)는 모델링과 분석에도 적용된다. 데이터 랭글링이란? 데이터가 곧바로 사용 가능한 형태로 나오는 경우는 드물다. 오류와 누락으로 오염되는 경우가 많으며 원하는 구조를 가진 경우가 거의 없고 일반적으로 콘텍스트가 누락되어 있다. 데이터 랭글링은 데이터를 발견하고 정제하며 검증하고 사용 가능하도록 구조화한 후 콘텐츠의 질을 높이며(날씨와 경제 상황 등 공개 데이터로부터 얻은 정보 추가 등의 방식으로) 경우에 따라 데이터를 통합 및 변환하는 과정이다. 정확하게 말하면 데이터 랭글링 작업은 경우에 따라 달라질 수 있다. 데이터가 기구 또는 IoT 장치에서 제공되는 경우 데이터 전송이 프로세스의 주된 부분일 수 있다. 데이터를 머신러닝에 사용하는 경우 변환에 정규화와 표준화뿐 아니라 차원수 감소도 포함될 수 있다.  탐구 데이터 분석이 메모리와 저장 공간이 제한된 개인용 컴퓨터에서 수행되는 경우, 랭글링 프로세스에 데이터 하위 세트 추출이 포함될 수 있다. 데이터를 여러 개의 소스로부터 얻는 경우 측정값의 필드 이름과 단위를 매핑과 변환을 통해 통합해야 한다. 탐구 데이터 분석이란 무엇인가? 탐구 데이터 분석은 프린스턴 대학교(Princeton University)와 벨 연구소(Bell Labs) 소속인 존 투키와 긴밀히 연관되어 있다. 투키는 1961년에 탐구 데이터 ...

2021.03.26

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9