Offcanvas

������������ ������������

머신러닝 프로젝트를 '레벨 업'시킬 수 있는 8가지 방법

데이터를 분류하거나 결과를 예측해야 하는가? 머신러닝(ML) 프로젝트 진행에 어려움을 겪고 있는가? 상황을 호전시킬 수 있는 다양한 기법들이 있다. 아래에서 논의하는 8가지 방법 중 일부는 ML 프로세스를 극적으로 가속화할 것이며, 프로세스를 가속화할 뿐 아니라 더 나은 모델을 구축하는 데 도움이 되는 것들도 있을 것이다. 이 모든 기법이 특정 프로젝트에 적합하지는 않을 것이다. 단, 첫 번째인 탐구 데이터 분석은 거의 모든 프로젝트에 유효하다. ML 또는 딥러닝 프로젝트를 도약시킬 수 있는 8가지 방법을 살펴본다.    탐구 데이터 분석부터 시작하라 데이터를 심층적으로 검토하지 않고 ML 훈련에 바로 뛰어드는 것은 설계 없는 건축과 같다. 많은 노력이 필요하며 큰 보람도 없을 것이다. 탐구 데이터 분석(Exploratory data analysis)은 그래픽 및 통계 방법을 결합한다. 좀더 보편적인 기법으로는 개별적인 변수에 대한 히스토그램 및 상자-수염 플롯, 변수 쌍에 대한 분산 차트, 변수들 사이의 상관관계를 쌍별 상관관계에 대한 히트맵 플롯으로 표시하는 기술통계 플롯 등이 있다. 탐구 데이터 분석에는 또한 PCA(Principal Component Analysis)와 NLDR(Nonlinear Dimensionality Reduction) 등 차원수 감소 기법도 포함될 수 있다. 시간 의존적인 데이터의 경우 시간을 기준으로 미가공 변수와 통계에 대한 선도표를 작성해야 하며, 이를 통해 폭풍과 (에헴) 유행병 등의 외부 효과로부터 발생하는 계절적 및 요일별 변동과 변칙적인 움직임을 파악할 수 있다. 탐구 데이터 분석은 단순한 통계 그래프가 아니다. 이것은 데이터를 모델에 강제로 적용하는 대신에 열림 마음가짐을 유지할 수 있도록 도와주기 위해 고안된 데이터 분석에 대한 철학적인 접근방식이다. 요즈음에는 탐구 데이터 분석에 관한 많은 아이디어가 데이터 마이닝에 통합됐다. 자율 클러스터를 구축하라 클러스터 분석(Cluster a...

탐구 데이터 분석 머신러닝 프로젝트 자율 클러스터 반자율 학습 AutoML 전이 학습 모델 주 하이퍼파라미터 옵티마이저

2021.04.02

데이터를 분류하거나 결과를 예측해야 하는가? 머신러닝(ML) 프로젝트 진행에 어려움을 겪고 있는가? 상황을 호전시킬 수 있는 다양한 기법들이 있다. 아래에서 논의하는 8가지 방법 중 일부는 ML 프로세스를 극적으로 가속화할 것이며, 프로세스를 가속화할 뿐 아니라 더 나은 모델을 구축하는 데 도움이 되는 것들도 있을 것이다. 이 모든 기법이 특정 프로젝트에 적합하지는 않을 것이다. 단, 첫 번째인 탐구 데이터 분석은 거의 모든 프로젝트에 유효하다. ML 또는 딥러닝 프로젝트를 도약시킬 수 있는 8가지 방법을 살펴본다.    탐구 데이터 분석부터 시작하라 데이터를 심층적으로 검토하지 않고 ML 훈련에 바로 뛰어드는 것은 설계 없는 건축과 같다. 많은 노력이 필요하며 큰 보람도 없을 것이다. 탐구 데이터 분석(Exploratory data analysis)은 그래픽 및 통계 방법을 결합한다. 좀더 보편적인 기법으로는 개별적인 변수에 대한 히스토그램 및 상자-수염 플롯, 변수 쌍에 대한 분산 차트, 변수들 사이의 상관관계를 쌍별 상관관계에 대한 히트맵 플롯으로 표시하는 기술통계 플롯 등이 있다. 탐구 데이터 분석에는 또한 PCA(Principal Component Analysis)와 NLDR(Nonlinear Dimensionality Reduction) 등 차원수 감소 기법도 포함될 수 있다. 시간 의존적인 데이터의 경우 시간을 기준으로 미가공 변수와 통계에 대한 선도표를 작성해야 하며, 이를 통해 폭풍과 (에헴) 유행병 등의 외부 효과로부터 발생하는 계절적 및 요일별 변동과 변칙적인 움직임을 파악할 수 있다. 탐구 데이터 분석은 단순한 통계 그래프가 아니다. 이것은 데이터를 모델에 강제로 적용하는 대신에 열림 마음가짐을 유지할 수 있도록 도와주기 위해 고안된 데이터 분석에 대한 철학적인 접근방식이다. 요즈음에는 탐구 데이터 분석에 관한 많은 아이디어가 데이터 마이닝에 통합됐다. 자율 클러스터를 구축하라 클러스터 분석(Cluster a...

2021.04.02

우리 회사는 AI·머신러닝에 준비돼 있을까?··· '10가지 체크리스트'

인공지능, 머신러닝에 대한 기업들의 기대가 크다. 여기에는 이를 활용해 수익을 창출할 수 있을 것이라는 기대도 포함돼 있다. 그러나 현실은 꼭 그런 것만도, 그렇지 않은 것만도 아니다. 오늘은 인공지능을 다룰 만한 준비가 되었는지 자가 진단할 수 있는 기준을 소개하고, 만일 아직 준비가 안 되었다면 어떻게 그 준비를 마칠 수 있을지에 대해 살펴본다. 우선, 인공지능을 통해 예측 또는 탐지하고자 하는 대상이 분명히 정해져 있는가? 예측 모델을 만들고 분석하기 위한 충분한 데이터를 수집 하였는가? 이러한 모델들을 정의하고 교육할 적절한 인재와 툴을 확보 하였는가? 또 예측의 기초가 되어 줄 통계적, 물리적 모델이 있는가? 오늘은 AI 및 MI 프로젝트 성공에 필요한 것들을 살펴보고, 머신러닝 및 딥러닝, 인공지능을 활용할 준비가 되었는지를 판단하는 몇 가지 기준에 대해 소개해본다. - 충분한 데이터는 확보했는가? - 데이터 과학자를 충분히 채용하고 있는가? - 중요 요인들을 추적하고 관찰할 수 있는가? - 데이터를 청소, 변형할 수 있는 방법을 보유하고 있는가? - 데이터에 대해 통계 분석을 마쳤는가? - 최적의 모델을 찾기 위해서 다양한 접근을 시도하고 있는가? - 딥러닝 모델 교육을 위한 컴퓨팅 역량을 확보했는가? - 수립한 ML 모델이 통계 모델을 능가하는가? - 예측 모델을 배치할 수 있는가? - 주기적으로 모델을 업데이트 할 수 있는가? 충분한 데이터는 확보했는가? 관련 데이터가 충분한지 여부는 예측 및 기능 식별의 필요 조건이라 할 수 있다. 이러한 데이터가 충분히 갖춰지지 않으면 성공은 아예 불가능하다. 얼마만큼의 데이터가 필요할까? 더 많은 요소를 고려하고 있을 수록 필요한 데이터 양도 많아진다. 그것이 평범한 통계 예측이건, 머신러닝이나 딥러닝이건 말이다. 예를 들어 다음 달 마이애미에서 네이비 색상의 반팔 블라우스가 얼마나 판매될지를 예측한다고 해보자. 그리고 이를 위해 마이애미 매장과 ...

데이터 과학자 애널리틱스 머신러닝 프로젝트 통계 모델

2017.08.31

인공지능, 머신러닝에 대한 기업들의 기대가 크다. 여기에는 이를 활용해 수익을 창출할 수 있을 것이라는 기대도 포함돼 있다. 그러나 현실은 꼭 그런 것만도, 그렇지 않은 것만도 아니다. 오늘은 인공지능을 다룰 만한 준비가 되었는지 자가 진단할 수 있는 기준을 소개하고, 만일 아직 준비가 안 되었다면 어떻게 그 준비를 마칠 수 있을지에 대해 살펴본다. 우선, 인공지능을 통해 예측 또는 탐지하고자 하는 대상이 분명히 정해져 있는가? 예측 모델을 만들고 분석하기 위한 충분한 데이터를 수집 하였는가? 이러한 모델들을 정의하고 교육할 적절한 인재와 툴을 확보 하였는가? 또 예측의 기초가 되어 줄 통계적, 물리적 모델이 있는가? 오늘은 AI 및 MI 프로젝트 성공에 필요한 것들을 살펴보고, 머신러닝 및 딥러닝, 인공지능을 활용할 준비가 되었는지를 판단하는 몇 가지 기준에 대해 소개해본다. - 충분한 데이터는 확보했는가? - 데이터 과학자를 충분히 채용하고 있는가? - 중요 요인들을 추적하고 관찰할 수 있는가? - 데이터를 청소, 변형할 수 있는 방법을 보유하고 있는가? - 데이터에 대해 통계 분석을 마쳤는가? - 최적의 모델을 찾기 위해서 다양한 접근을 시도하고 있는가? - 딥러닝 모델 교육을 위한 컴퓨팅 역량을 확보했는가? - 수립한 ML 모델이 통계 모델을 능가하는가? - 예측 모델을 배치할 수 있는가? - 주기적으로 모델을 업데이트 할 수 있는가? 충분한 데이터는 확보했는가? 관련 데이터가 충분한지 여부는 예측 및 기능 식별의 필요 조건이라 할 수 있다. 이러한 데이터가 충분히 갖춰지지 않으면 성공은 아예 불가능하다. 얼마만큼의 데이터가 필요할까? 더 많은 요소를 고려하고 있을 수록 필요한 데이터 양도 많아진다. 그것이 평범한 통계 예측이건, 머신러닝이나 딥러닝이건 말이다. 예를 들어 다음 달 마이애미에서 네이비 색상의 반팔 블라우스가 얼마나 판매될지를 예측한다고 해보자. 그리고 이를 위해 마이애미 매장과 ...

2017.08.31

구글의 텐서플로우 공개가 중요한 4가지 이유

구글이 앱의 지능 향상을 목표로 하는 머신러닝 프로젝트인 텐서플로우(TensorFlow)를 오픈 소스로 공개하자 자극적인 미래 예측 기사들이 신문 헤드라인을 장식했다. 그러나 대규모 데이터를 기반으로 점차 커져가는 오픈 소스 머신러닝 시스템 생태계의 일부인 텐서플로우 프로젝트에는 그보다 훨씬 더 중요한 의미가 있다. 텐서플로우에 주목해야 하는 4가지 이유를 살펴보자. 구글의 차세대 내부 머신러닝 시스템 구글 CEO 순다르 피차이가 블로그 게시물에도 썼듯이 텐서플로우 역시 구글이 그 동안 릴리스한 다른 여러 오픈 소스 솔루션과 동일한 이유로 만들어졌다. 즉, 구글의 머신러닝 솔루션을 사용해 대규모로 내부 문제를 해결하기 위한 목적이다. 피차이가 구글 선임 펠로우 제프 딘(빅테이블(BigTable)과 맵리듀스(MapReduce)로 유명한)과 함께 쓴 또 다른 글에는 구글의 과거 심층 학습 시스템인 디스트빌리프(DistBelief)가 어떻게 여러 가지 한계에 봉착했는지 자세히 나와 있다. 디스트빌리프는 구글 내부 인프라와 너무 긴밀하게 결합된다는 점 외에 뉴럴 네트워크(neural network)만 다룬다는 한계도 있었다. 또한 딘은 유튜브 비디오를 통해 디스트빌리프가 확장성과 프로덕션 교육용으로는 훌륭했지만 연구용으로 사용할 정도의 유연성은 없었다고 설명했다. 반면 텐서플로우는 모든 그레디언트(gradient) 기반 머신러닝 알고리즘과 함께 사용할 수 있으므로 사용 범위가 훨씬 더 넓다. 속도를 위해 C++로 작성되었으며 개발자는 기반 하드웨어에 대해 특별한 지식을 갖출 필요가 없다. 또한 여러 기기와 아키텍처에서 실행되므로 폰과 같은 SoC 기기부터 수십 개의 GPU를 사용하는 분산 시스템에 이르기까지 확장이 가능하다. 눈부신 하드웨어 발전 속도, 그리고 C++와 같은 언어와 이 언어가 실행되는 하드웨어 사이에도 이미 존재하는 풍부한 추상화를 감안하면 맞는 방향이다. 대규모로 비용 효율적인 첨단 하드웨어를 구축하고 그 하드웨어에...

구글 머신러닝 텐서플로우 머신러닝 프로젝트 오픈 소스 머신러닝 시스템 디스트빌리프 큐버네티스

2015.11.13

구글이 앱의 지능 향상을 목표로 하는 머신러닝 프로젝트인 텐서플로우(TensorFlow)를 오픈 소스로 공개하자 자극적인 미래 예측 기사들이 신문 헤드라인을 장식했다. 그러나 대규모 데이터를 기반으로 점차 커져가는 오픈 소스 머신러닝 시스템 생태계의 일부인 텐서플로우 프로젝트에는 그보다 훨씬 더 중요한 의미가 있다. 텐서플로우에 주목해야 하는 4가지 이유를 살펴보자. 구글의 차세대 내부 머신러닝 시스템 구글 CEO 순다르 피차이가 블로그 게시물에도 썼듯이 텐서플로우 역시 구글이 그 동안 릴리스한 다른 여러 오픈 소스 솔루션과 동일한 이유로 만들어졌다. 즉, 구글의 머신러닝 솔루션을 사용해 대규모로 내부 문제를 해결하기 위한 목적이다. 피차이가 구글 선임 펠로우 제프 딘(빅테이블(BigTable)과 맵리듀스(MapReduce)로 유명한)과 함께 쓴 또 다른 글에는 구글의 과거 심층 학습 시스템인 디스트빌리프(DistBelief)가 어떻게 여러 가지 한계에 봉착했는지 자세히 나와 있다. 디스트빌리프는 구글 내부 인프라와 너무 긴밀하게 결합된다는 점 외에 뉴럴 네트워크(neural network)만 다룬다는 한계도 있었다. 또한 딘은 유튜브 비디오를 통해 디스트빌리프가 확장성과 프로덕션 교육용으로는 훌륭했지만 연구용으로 사용할 정도의 유연성은 없었다고 설명했다. 반면 텐서플로우는 모든 그레디언트(gradient) 기반 머신러닝 알고리즘과 함께 사용할 수 있으므로 사용 범위가 훨씬 더 넓다. 속도를 위해 C++로 작성되었으며 개발자는 기반 하드웨어에 대해 특별한 지식을 갖출 필요가 없다. 또한 여러 기기와 아키텍처에서 실행되므로 폰과 같은 SoC 기기부터 수십 개의 GPU를 사용하는 분산 시스템에 이르기까지 확장이 가능하다. 눈부신 하드웨어 발전 속도, 그리고 C++와 같은 언어와 이 언어가 실행되는 하드웨어 사이에도 이미 존재하는 풍부한 추상화를 감안하면 맞는 방향이다. 대규모로 비용 효율적인 첨단 하드웨어를 구축하고 그 하드웨어에...

2015.11.13

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.9