Offcanvas

automl

머신러닝 프로젝트를 '레벨 업'시킬 수 있는 8가지 방법

데이터를 분류하거나 결과를 예측해야 하는가? 머신러닝(ML) 프로젝트 진행에 어려움을 겪고 있는가? 상황을 호전시킬 수 있는 다양한 기법들이 있다. 아래에서 논의하는 8가지 방법 중 일부는 ML 프로세스를 극적으로 가속화할 것이며, 프로세스를 가속화할 뿐 아니라 더 나은 모델을 구축하는 데 도움이 되는 것들도 있을 것이다. 이 모든 기법이 특정 프로젝트에 적합하지는 않을 것이다. 단, 첫 번째인 탐구 데이터 분석은 거의 모든 프로젝트에 유효하다. ML 또는 딥러닝 프로젝트를 도약시킬 수 있는 8가지 방법을 살펴본다.    탐구 데이터 분석부터 시작하라 데이터를 심층적으로 검토하지 않고 ML 훈련에 바로 뛰어드는 것은 설계 없는 건축과 같다. 많은 노력이 필요하며 큰 보람도 없을 것이다. 탐구 데이터 분석(Exploratory data analysis)은 그래픽 및 통계 방법을 결합한다. 좀더 보편적인 기법으로는 개별적인 변수에 대한 히스토그램 및 상자-수염 플롯, 변수 쌍에 대한 분산 차트, 변수들 사이의 상관관계를 쌍별 상관관계에 대한 히트맵 플롯으로 표시하는 기술통계 플롯 등이 있다. 탐구 데이터 분석에는 또한 PCA(Principal Component Analysis)와 NLDR(Nonlinear Dimensionality Reduction) 등 차원수 감소 기법도 포함될 수 있다. 시간 의존적인 데이터의 경우 시간을 기준으로 미가공 변수와 통계에 대한 선도표를 작성해야 하며, 이를 통해 폭풍과 (에헴) 유행병 등의 외부 효과로부터 발생하는 계절적 및 요일별 변동과 변칙적인 움직임을 파악할 수 있다. 탐구 데이터 분석은 단순한 통계 그래프가 아니다. 이것은 데이터를 모델에 강제로 적용하는 대신에 열림 마음가짐을 유지할 수 있도록 도와주기 위해 고안된 데이터 분석에 대한 철학적인 접근방식이다. 요즈음에는 탐구 데이터 분석에 관한 많은 아이디어가 데이터 마이닝에 통합됐다. 자율 클러스터를 구축하라 클러스터 분석(Cluster a...

탐구 데이터 분석 머신러닝 프로젝트 자율 클러스터 반자율 학습 AutoML 전이 학습 모델 주 하이퍼파라미터 옵티마이저

2021.04.02

데이터를 분류하거나 결과를 예측해야 하는가? 머신러닝(ML) 프로젝트 진행에 어려움을 겪고 있는가? 상황을 호전시킬 수 있는 다양한 기법들이 있다. 아래에서 논의하는 8가지 방법 중 일부는 ML 프로세스를 극적으로 가속화할 것이며, 프로세스를 가속화할 뿐 아니라 더 나은 모델을 구축하는 데 도움이 되는 것들도 있을 것이다. 이 모든 기법이 특정 프로젝트에 적합하지는 않을 것이다. 단, 첫 번째인 탐구 데이터 분석은 거의 모든 프로젝트에 유효하다. ML 또는 딥러닝 프로젝트를 도약시킬 수 있는 8가지 방법을 살펴본다.    탐구 데이터 분석부터 시작하라 데이터를 심층적으로 검토하지 않고 ML 훈련에 바로 뛰어드는 것은 설계 없는 건축과 같다. 많은 노력이 필요하며 큰 보람도 없을 것이다. 탐구 데이터 분석(Exploratory data analysis)은 그래픽 및 통계 방법을 결합한다. 좀더 보편적인 기법으로는 개별적인 변수에 대한 히스토그램 및 상자-수염 플롯, 변수 쌍에 대한 분산 차트, 변수들 사이의 상관관계를 쌍별 상관관계에 대한 히트맵 플롯으로 표시하는 기술통계 플롯 등이 있다. 탐구 데이터 분석에는 또한 PCA(Principal Component Analysis)와 NLDR(Nonlinear Dimensionality Reduction) 등 차원수 감소 기법도 포함될 수 있다. 시간 의존적인 데이터의 경우 시간을 기준으로 미가공 변수와 통계에 대한 선도표를 작성해야 하며, 이를 통해 폭풍과 (에헴) 유행병 등의 외부 효과로부터 발생하는 계절적 및 요일별 변동과 변칙적인 움직임을 파악할 수 있다. 탐구 데이터 분석은 단순한 통계 그래프가 아니다. 이것은 데이터를 모델에 강제로 적용하는 대신에 열림 마음가짐을 유지할 수 있도록 도와주기 위해 고안된 데이터 분석에 대한 철학적인 접근방식이다. 요즈음에는 탐구 데이터 분석에 관한 많은 아이디어가 데이터 마이닝에 통합됐다. 자율 클러스터를 구축하라 클러스터 분석(Cluster a...

2021.04.02

클라우드 머신러닝 플랫폼 선택 기준 12가지

효과적인 머신러닝과 딥 러닝 모델을 구축하려면 방대한 양의 데이터, 데이터 정제 및 특성 엔지니어링을 수행할 방법, 그리고 적절한 시간 내에 데이터를 사용해 모델을 학습할 방법이 필요하다. 이후에는 모델을 배포하고 시간 경과에 따른 모델 이탈을 모니터링하고 필요에 따라 재학습할 방법도 필요하다.   컴퓨팅 리소스 및 GPU와 같은 가속기에 투자했다면 위의 모든 작업을 온프레미스에서 할 수 있지만, 리소스가 충분하다는 말은 대부분의 시간 동안 그 리소스가 유휴 상태임을 의미하기도 한다. 필요에 따라 대량의 컴퓨팅 리소스와 가속기를 사용해서 전체 파이프라인을 클라우드에서 실행한 후 해제하는 방식이 비용 측면에서 더 효과적인 경우가 있다.     주요 클라우드 제공업체(일부 비주류 업체도)는 프로젝트 계획부터 프로덕션의 모델 유지관리에 이르기까지 머신러닝 라이프사이클 전체를 지원하기 위한 머신러닝 플랫폼을 세심하게 구축했다. 이와 같은 클라우드 중에서 자신의 요구 사항에 맞는 클라우드를 어떻게 확인해야 할까? 엔드투엔드 머신러닝 플랫폼이라면 꼭 제공해야 하는 12가지 기능을 살펴보자.   데이터와 가까울 것 정확한 모델을 구축하는 데 필요한 많은 양의 데이터가 있다 해도 그 데이터를 가져오기 위해 지구 반바퀴를 돌아야 한다면 효용이 떨어진다. 문제는 거리가 아니라 시간이다. 데이터 전송 속도의 최대 한계는 빛의 속도다. 무한한 대역폭을 가진 완벽한 네트워크라 해도 그 속도를 넘어설 수는 없다. 긴 거리는 지연을 의미한다.   데이터 집합이 매우 클 때 이상적인 것은 데이터가 있는 위치에 모델을 구축해서 대량 데이터를 전송할 필요가 없도록 하는 것이다. 제한된 범위에서 이런 서비스를 제공하는 데이터베이스는 몇 가지 있다.   차선책은 데이터가 모델 구축 소프트웨어와 동일한 고속 네트워크에 위치하는 형태로, 일반적으로 같은 데이터센터 내에 위치하는 경우가 여기에 해당한다. 데이터의 용량이 테라바이트 이상인 경우 한...

머신러닝 딥러닝 주피터랩 AutoML

2020.08.13

효과적인 머신러닝과 딥 러닝 모델을 구축하려면 방대한 양의 데이터, 데이터 정제 및 특성 엔지니어링을 수행할 방법, 그리고 적절한 시간 내에 데이터를 사용해 모델을 학습할 방법이 필요하다. 이후에는 모델을 배포하고 시간 경과에 따른 모델 이탈을 모니터링하고 필요에 따라 재학습할 방법도 필요하다.   컴퓨팅 리소스 및 GPU와 같은 가속기에 투자했다면 위의 모든 작업을 온프레미스에서 할 수 있지만, 리소스가 충분하다는 말은 대부분의 시간 동안 그 리소스가 유휴 상태임을 의미하기도 한다. 필요에 따라 대량의 컴퓨팅 리소스와 가속기를 사용해서 전체 파이프라인을 클라우드에서 실행한 후 해제하는 방식이 비용 측면에서 더 효과적인 경우가 있다.     주요 클라우드 제공업체(일부 비주류 업체도)는 프로젝트 계획부터 프로덕션의 모델 유지관리에 이르기까지 머신러닝 라이프사이클 전체를 지원하기 위한 머신러닝 플랫폼을 세심하게 구축했다. 이와 같은 클라우드 중에서 자신의 요구 사항에 맞는 클라우드를 어떻게 확인해야 할까? 엔드투엔드 머신러닝 플랫폼이라면 꼭 제공해야 하는 12가지 기능을 살펴보자.   데이터와 가까울 것 정확한 모델을 구축하는 데 필요한 많은 양의 데이터가 있다 해도 그 데이터를 가져오기 위해 지구 반바퀴를 돌아야 한다면 효용이 떨어진다. 문제는 거리가 아니라 시간이다. 데이터 전송 속도의 최대 한계는 빛의 속도다. 무한한 대역폭을 가진 완벽한 네트워크라 해도 그 속도를 넘어설 수는 없다. 긴 거리는 지연을 의미한다.   데이터 집합이 매우 클 때 이상적인 것은 데이터가 있는 위치에 모델을 구축해서 대량 데이터를 전송할 필요가 없도록 하는 것이다. 제한된 범위에서 이런 서비스를 제공하는 데이터베이스는 몇 가지 있다.   차선책은 데이터가 모델 구축 소프트웨어와 동일한 고속 네트워크에 위치하는 형태로, 일반적으로 같은 데이터센터 내에 위치하는 경우가 여기에 해당한다. 데이터의 용량이 테라바이트 이상인 경우 한...

2020.08.13

티바인, 2020 디지털 혁신 시대의 4대 키워드 제시

티맥스가 설립한 IT·클라우드 컨설팅 전문기업 티바인컨설팅은 2020년 디지털 시대의 핵심 키워드를 제시했다. 티바인컨설팅은 2020년 우리의 생활까지 변화시킬 새로운 디지털 혁신 시대에 주목해야 할 4대 키워드로 ▲AI 에브리웨어 ▲셀프서비스 모델로의 이동 ▲IT 역할의 다변화 ▲사이버 위협 대응 등을 선정했다고 밝혔다. 티바인은 올해 국내 주요 그룹사의 공통적인 신년 메시지와 목표를 ‘디지털 혁신을 통한 고객 중심 경영 및 신사업 발굴’로 분석했다. 이에 올해 기업들은 디지털 혁신을 위해 클라우드 투자 증대와 전환의 가속화, AI 적용의 광범위한 확대를 실현할 것이라고 전망했다. 기업은 점점 다양화되는 ‘인간의 경험’을 축적 및 적용해야 하고, 빠른 산업계의 변화를 감지해야 한다. 이를 위해 지속적인 디지털 혁신을 추구하고 기업 운영 전략과 대응체제를 갖춰야 하며, 고객에게 신뢰할 수 있는 체계를 제공해야 한다. 또한 기업에 가장 적합한 기술을 선택하고 적용하는 현명한 전략이 필요하다고 티바인은 설명했다. 티바인은 앞으로 이 4가지 키워드가 적용될 기술로 ▲오토머신러닝(AutoML)이 적용된 ‘AI 플랫폼’ ▲개인의 모든 활동이 블록체인 기반으로 저장되고 활용되는 ‘프라이빗 블록체인’ ▲클라우드에서 무한 확장할 수 있는 데이터베이스에서 데이터 비전문가나 협업 사용자도 쉽게 데이터를 통합 분석할 수 있는 ‘빅데이터 플랫폼’ ▲쿠버네틱스 기반의 다양한 오픈소스 사용 및 관리가 가능한 ‘클라우드 환경’ ▲물리적 세계와 사이버 세계 간의 AI를 활용하여 협업을 자동화하는 ‘콜라보레이션 환경’ 구축 등을 꼽았다. 티바인은 올해 위 4가지 키워드와 같은 변화에 적극적으로 대응할 예정이다. 디지털 혁신을 꾀하는 기업들에게 가장 적합하고 검증된 기술과 솔루션을 ‘중립적 시각’에서 제시할 계획이다. 또한 티맥스의 경쟁력 높은 비즈니스 지향 소프트웨어 기술과 제품에 기업 현장의 이슈와 요구사항을 반영하도록 지원한다. 미래 비즈니스 환경 변화를 예측해 선제적으로...

티맥스 디지털 혁신 2020년 AutoML 오토머신러닝 티바인

2020.01.30

티맥스가 설립한 IT·클라우드 컨설팅 전문기업 티바인컨설팅은 2020년 디지털 시대의 핵심 키워드를 제시했다. 티바인컨설팅은 2020년 우리의 생활까지 변화시킬 새로운 디지털 혁신 시대에 주목해야 할 4대 키워드로 ▲AI 에브리웨어 ▲셀프서비스 모델로의 이동 ▲IT 역할의 다변화 ▲사이버 위협 대응 등을 선정했다고 밝혔다. 티바인은 올해 국내 주요 그룹사의 공통적인 신년 메시지와 목표를 ‘디지털 혁신을 통한 고객 중심 경영 및 신사업 발굴’로 분석했다. 이에 올해 기업들은 디지털 혁신을 위해 클라우드 투자 증대와 전환의 가속화, AI 적용의 광범위한 확대를 실현할 것이라고 전망했다. 기업은 점점 다양화되는 ‘인간의 경험’을 축적 및 적용해야 하고, 빠른 산업계의 변화를 감지해야 한다. 이를 위해 지속적인 디지털 혁신을 추구하고 기업 운영 전략과 대응체제를 갖춰야 하며, 고객에게 신뢰할 수 있는 체계를 제공해야 한다. 또한 기업에 가장 적합한 기술을 선택하고 적용하는 현명한 전략이 필요하다고 티바인은 설명했다. 티바인은 앞으로 이 4가지 키워드가 적용될 기술로 ▲오토머신러닝(AutoML)이 적용된 ‘AI 플랫폼’ ▲개인의 모든 활동이 블록체인 기반으로 저장되고 활용되는 ‘프라이빗 블록체인’ ▲클라우드에서 무한 확장할 수 있는 데이터베이스에서 데이터 비전문가나 협업 사용자도 쉽게 데이터를 통합 분석할 수 있는 ‘빅데이터 플랫폼’ ▲쿠버네틱스 기반의 다양한 오픈소스 사용 및 관리가 가능한 ‘클라우드 환경’ ▲물리적 세계와 사이버 세계 간의 AI를 활용하여 협업을 자동화하는 ‘콜라보레이션 환경’ 구축 등을 꼽았다. 티바인은 올해 위 4가지 키워드와 같은 변화에 적극적으로 대응할 예정이다. 디지털 혁신을 꾀하는 기업들에게 가장 적합하고 검증된 기술과 솔루션을 ‘중립적 시각’에서 제시할 계획이다. 또한 티맥스의 경쟁력 높은 비즈니스 지향 소프트웨어 기술과 제품에 기업 현장의 이슈와 요구사항을 반영하도록 지원한다. 미래 비즈니스 환경 변화를 예측해 선제적으로...

2020.01.30

김진철의 How-to-Big Data | 빅데이터의 미래 (2)

사이버 물리 시스템(Cyber-Physical System)의 개념 이전 서른 다섯번째 글에서 근 미래의 빅데이터 비즈니스와 기술의 모습을 그려볼 수 있게 하는 기술의 발전에 대해서 간단하게 돌아보았다. 빅데이터 비즈니스와 기술의 미래에 중요한 영향을 미칠 현상들로 5G, 6G 무선 네트워크 기술과 1Tbps 이더넷 기술로 대표되는 고대역폭, 저지연 유무선 네트워크 기술의 발전과 확산, 인공지능 기술의 발전, IoT 및 엣지 컴퓨팅, 편재 컴퓨팅 기술의 발전으로 수집되는 데이터양의 폭증, 클라우드 컴퓨팅의 발전과 확산에 따른 빅데이터 처리를 위한 자원 관리 기술의 발전, 차세대 메모리와 버스 기술의 발전에 따른 컴퓨터 아키텍처 계층의 단순화와 이에 따른 소프트웨어 아키텍처의 변화, 그리고 양자컴퓨팅의 발전과 이로 인한 인공지능을 비롯한 새로운 소프트웨어 기술의 발전을 꼽았다. 이 여섯 가지 현상들 각각 광범위한 기술 영역을 아우르는 말로써 서로 관련 없이 각자의 필요에 따라 독립적으로 발전하는 듯하게 보인다. 이 기술들이 공통의 지향점을 가지고 나아가고 있다는 것을 이번에 여러분들에게 소개하고자 한다. 이들 기술이 나아가는 지향점을 가장 포괄적이고 근접하게 설명하는 단어로서 “사이버 물리 시스템(Cyber-Physical System)”에 대해서 소개하고, 위 여섯 가지 기술들이 어떻게 “사이버 물리 시스템(Cyber-Physical System)”이라는 개념 아래에서 일관된 지향점으로서 통합되어 나가는지, 앞으로 나타날 “사이버 물리 시스템(Cyber-Physical System)”이 어떻게 발전해갈지 같이 생각해보면서 빅데이터 활용에 대한 힌트와 교훈을 얻어보고자 한다. 먼저 “사이버 물리 시스템(Cyber-Physical System)”의 정의를 같이 살펴보자. “사이버 물리 시스템(Cyber-Physical System)”이라는 말은 2006년 즈음 미국 국립과학재단(National Science Foundation; NSF)의 프로그램 관리자(pr...

CIO 사이버-물리 시스템 CPS Cognitive Cyber-Physical System CCPS AutoML 김진철 커넥티드 자동차 5G 인공지능 데이터 과학자 빅데이터 인지 사이버-물리 시스템

2019.12.30

사이버 물리 시스템(Cyber-Physical System)의 개념 이전 서른 다섯번째 글에서 근 미래의 빅데이터 비즈니스와 기술의 모습을 그려볼 수 있게 하는 기술의 발전에 대해서 간단하게 돌아보았다. 빅데이터 비즈니스와 기술의 미래에 중요한 영향을 미칠 현상들로 5G, 6G 무선 네트워크 기술과 1Tbps 이더넷 기술로 대표되는 고대역폭, 저지연 유무선 네트워크 기술의 발전과 확산, 인공지능 기술의 발전, IoT 및 엣지 컴퓨팅, 편재 컴퓨팅 기술의 발전으로 수집되는 데이터양의 폭증, 클라우드 컴퓨팅의 발전과 확산에 따른 빅데이터 처리를 위한 자원 관리 기술의 발전, 차세대 메모리와 버스 기술의 발전에 따른 컴퓨터 아키텍처 계층의 단순화와 이에 따른 소프트웨어 아키텍처의 변화, 그리고 양자컴퓨팅의 발전과 이로 인한 인공지능을 비롯한 새로운 소프트웨어 기술의 발전을 꼽았다. 이 여섯 가지 현상들 각각 광범위한 기술 영역을 아우르는 말로써 서로 관련 없이 각자의 필요에 따라 독립적으로 발전하는 듯하게 보인다. 이 기술들이 공통의 지향점을 가지고 나아가고 있다는 것을 이번에 여러분들에게 소개하고자 한다. 이들 기술이 나아가는 지향점을 가장 포괄적이고 근접하게 설명하는 단어로서 “사이버 물리 시스템(Cyber-Physical System)”에 대해서 소개하고, 위 여섯 가지 기술들이 어떻게 “사이버 물리 시스템(Cyber-Physical System)”이라는 개념 아래에서 일관된 지향점으로서 통합되어 나가는지, 앞으로 나타날 “사이버 물리 시스템(Cyber-Physical System)”이 어떻게 발전해갈지 같이 생각해보면서 빅데이터 활용에 대한 힌트와 교훈을 얻어보고자 한다. 먼저 “사이버 물리 시스템(Cyber-Physical System)”의 정의를 같이 살펴보자. “사이버 물리 시스템(Cyber-Physical System)”이라는 말은 2006년 즈음 미국 국립과학재단(National Science Foundation; NSF)의 프로그램 관리자(pr...

2019.12.30

'머신러닝을 더 쉽게' 6가지 툴

‘머신러닝(ML)’이라는 말은 마법 같은 아우라로 가득 차 있다. 기계가 학습하도록 가르치기란 아직 일반인의 영역으로 보기 어렵다. 오늘날 이 용어는 데이터를 금으로 바꾸는 데이터 사이언티스트 같은 매우 전문적인 연금술사들의 영역이다.   단 이제 머신러닝 툴은 약간의 용기와 동기만 있다면 누구나 버튼을 눌러 기계가 중요한 것을 학습할 수 있도록 하는 수준으로 발전해가고 있다. 단번에 되는 정도는 아닐지언정 데이터를 모아 실행 가능한 통찰력으로 바꾸는 작업이 충분히 자동화되어가는 중이며, 동기를 가진 스마트한 사람들이라면 도전할만한 수준으로 진보했다.  이런 느린 르네상스는 비즈니스 세계의 많은 사람들이 이미 데이터를 꽤 능숙하게 다루게 되면서 이뤄졌다. 숫자로 가득 찬 스프레드시트는 모든 비즈니스의 의사 결정자들의 언어다. 머신러닝을 다루게 해주는 각종 새로운 툴은 기본적으로 테이블 데이터를 유용한 답변으로 바꾸는 여러 전략과 옵션의 조합이다. 이 툴의 강점은 데이터 수집, 가능한 경우 구조와 일관성 추가, 계산 시작 등의 번거로운 작업을 처리할 수 있는 능력이다. 데이터 수집 과정과 정보를 행과 열로 유지하는 단조로운 작업이 간소화된다. 이 툴은 아직 이 모든 학습을 스스로 수행할 만큼 충분히 스마트하지 못하다. 적절한 질문을 던지고 적절한 곳을 살펴야 한다. 하지만 이 툴을 통해 더욱 신속하게 답을 얻을 수 있기 때문에 더 넓은 영역을 담당하고 더 많은 곳을 조사할 수 있게 된다.  AutoML : 머신러닝의 민주화 최근 머신러닝 알고리즘 분야에는 추가적인 자동화 메타 계층이 수반된다는 의미의 새로운 유행어인 ‘AutoML’이 등장했다. 전통적인 알고리즘은 옵션과 파라미터가 많았다. 데이터 사이언티스트들은 종종 예측 가능성이 가장 높은 규칙을 찾을 때까지 이런 것들을 조정하느라 시간의 80-99%를 소요하곤 한다. AutoML은 여러 옵션을 시도하고 시험한 후 추가적인 작업를 거쳐 이 단계를 자동화한다. 머신러닝...

스플렁크 AutoML H2o 래피드마이너 BigML 데이터로봇 R 스튜디오 머신러닝 툴

2019.09.06

‘머신러닝(ML)’이라는 말은 마법 같은 아우라로 가득 차 있다. 기계가 학습하도록 가르치기란 아직 일반인의 영역으로 보기 어렵다. 오늘날 이 용어는 데이터를 금으로 바꾸는 데이터 사이언티스트 같은 매우 전문적인 연금술사들의 영역이다.   단 이제 머신러닝 툴은 약간의 용기와 동기만 있다면 누구나 버튼을 눌러 기계가 중요한 것을 학습할 수 있도록 하는 수준으로 발전해가고 있다. 단번에 되는 정도는 아닐지언정 데이터를 모아 실행 가능한 통찰력으로 바꾸는 작업이 충분히 자동화되어가는 중이며, 동기를 가진 스마트한 사람들이라면 도전할만한 수준으로 진보했다.  이런 느린 르네상스는 비즈니스 세계의 많은 사람들이 이미 데이터를 꽤 능숙하게 다루게 되면서 이뤄졌다. 숫자로 가득 찬 스프레드시트는 모든 비즈니스의 의사 결정자들의 언어다. 머신러닝을 다루게 해주는 각종 새로운 툴은 기본적으로 테이블 데이터를 유용한 답변으로 바꾸는 여러 전략과 옵션의 조합이다. 이 툴의 강점은 데이터 수집, 가능한 경우 구조와 일관성 추가, 계산 시작 등의 번거로운 작업을 처리할 수 있는 능력이다. 데이터 수집 과정과 정보를 행과 열로 유지하는 단조로운 작업이 간소화된다. 이 툴은 아직 이 모든 학습을 스스로 수행할 만큼 충분히 스마트하지 못하다. 적절한 질문을 던지고 적절한 곳을 살펴야 한다. 하지만 이 툴을 통해 더욱 신속하게 답을 얻을 수 있기 때문에 더 넓은 영역을 담당하고 더 많은 곳을 조사할 수 있게 된다.  AutoML : 머신러닝의 민주화 최근 머신러닝 알고리즘 분야에는 추가적인 자동화 메타 계층이 수반된다는 의미의 새로운 유행어인 ‘AutoML’이 등장했다. 전통적인 알고리즘은 옵션과 파라미터가 많았다. 데이터 사이언티스트들은 종종 예측 가능성이 가장 높은 규칙을 찾을 때까지 이런 것들을 조정하느라 시간의 80-99%를 소요하곤 한다. AutoML은 여러 옵션을 시도하고 시험한 후 추가적인 작업를 거쳐 이 단계를 자동화한다. 머신러닝...

2019.09.06

'데이터 과학자 없는 머신러닝' AutoML의 이해

머신러닝(전통적인 머신러닝과 딥러닝 모두) 사용을 가로막는 두 가지 가장 큰 장애물은 기술력과 컴퓨팅 자원이다. 여기서 컴퓨팅 자원 문제는 가속 하드웨어(고성능 GPU를 탑재한 컴퓨터 등)를 구매하거나 클라우드의 컴퓨팅 자원(예를 들어 GPU, TPU, FPGA가 연결된 인스턴스)를 임대하는 방식으로, 즉 돈을 들여서 해결할 수 있다. 그러나 기술력 문제를 해결하기는 어렵다. 데이터 과학자는 인건비가 상당히 비싼 경우가 많고, 그나마도 찾기 힘들다. 구글은 많은 자체 직원들에게 텐서플로우(TensorFlow) 프레임워크를 교육시켰지만, 일반 기업은 교육은 커녕 스스로 머신러닝 및 딥러닝 모델을 구축할 만큼의 기술력 있는 인력도 갖추지 못한 경우가 많다.   AutoML이란? 자동화된 머신러닝, 즉 AutoML은 머신러닝과 딥러닝 모델을 구축하는 데 있어 기술력을 갖춘 데이터 과학자란 필요조건을 제거하는 데 목적을 둔다. AutoML 시스템을 사용하면 레이블링된 학습 데이터를 입력으로 제공하고 최적화된 모델을 출력으로 받을 수 있다. 방법은 두 가지다. 하나는 소프트웨어에서 단순히 데이터에 대해 모든 종류의 모델을 학습시킨 다음 가장 결과가 좋은 모델을 선택하는 방법이다. 이를 개량하는 방법 중 하나는 다른 모델을 결합하는 하나 이상의 앙상블 모델을 만드는 것이다. 이렇게 하면 (항상 그렇지는 않지만) 더 나은 결과를 얻을 수도 있다. 두 번째 방법은 최적 모델의 초매개변수(hyperparameter)를 최적화해서 더 나은 모델을 학습시키는 것이다. 특성 엔지니어링(Feature Engineering)은 모든 모델 학습에서 유용하다. 딥러닝의 탈숙련화 방법 중 하나는 전이 학습(Transfer Learning)을 사용해서 기본적으로 잘 학습된 범용 모델을 특정 데이터에 대해 맞춤 구성하는 것이다.   초매개변수 최적화란? 모든 머신러닝 모델에는 매개변수, 즉 모델의 각 변수 또는 특성에 대한 가중치가 있다. 매개변수는 일반적으로 확률...

AutoML 전이학습 초매개변수 특성엔지니어링

2019.08.27

머신러닝(전통적인 머신러닝과 딥러닝 모두) 사용을 가로막는 두 가지 가장 큰 장애물은 기술력과 컴퓨팅 자원이다. 여기서 컴퓨팅 자원 문제는 가속 하드웨어(고성능 GPU를 탑재한 컴퓨터 등)를 구매하거나 클라우드의 컴퓨팅 자원(예를 들어 GPU, TPU, FPGA가 연결된 인스턴스)를 임대하는 방식으로, 즉 돈을 들여서 해결할 수 있다. 그러나 기술력 문제를 해결하기는 어렵다. 데이터 과학자는 인건비가 상당히 비싼 경우가 많고, 그나마도 찾기 힘들다. 구글은 많은 자체 직원들에게 텐서플로우(TensorFlow) 프레임워크를 교육시켰지만, 일반 기업은 교육은 커녕 스스로 머신러닝 및 딥러닝 모델을 구축할 만큼의 기술력 있는 인력도 갖추지 못한 경우가 많다.   AutoML이란? 자동화된 머신러닝, 즉 AutoML은 머신러닝과 딥러닝 모델을 구축하는 데 있어 기술력을 갖춘 데이터 과학자란 필요조건을 제거하는 데 목적을 둔다. AutoML 시스템을 사용하면 레이블링된 학습 데이터를 입력으로 제공하고 최적화된 모델을 출력으로 받을 수 있다. 방법은 두 가지다. 하나는 소프트웨어에서 단순히 데이터에 대해 모든 종류의 모델을 학습시킨 다음 가장 결과가 좋은 모델을 선택하는 방법이다. 이를 개량하는 방법 중 하나는 다른 모델을 결합하는 하나 이상의 앙상블 모델을 만드는 것이다. 이렇게 하면 (항상 그렇지는 않지만) 더 나은 결과를 얻을 수도 있다. 두 번째 방법은 최적 모델의 초매개변수(hyperparameter)를 최적화해서 더 나은 모델을 학습시키는 것이다. 특성 엔지니어링(Feature Engineering)은 모든 모델 학습에서 유용하다. 딥러닝의 탈숙련화 방법 중 하나는 전이 학습(Transfer Learning)을 사용해서 기본적으로 잘 학습된 범용 모델을 특정 데이터에 대해 맞춤 구성하는 것이다.   초매개변수 최적화란? 모든 머신러닝 모델에는 매개변수, 즉 모델의 각 변수 또는 특성에 대한 가중치가 있다. 매개변수는 일반적으로 확률...

2019.08.27

'생각보다 복잡' 자연어처리는 어떻게 작동하나

딥러닝의 도약으로 인공지능 번역과 기타 자연어처리(NLP) 작업이 개선됐다.  다음은 필자 친구의 페이스북에 올라온 인공지능과의 대화다.  나: 알렉사, 아침 5시 30분 요가 수업이 있다는 걸 다시 알려줘. 알렉사: 쇼핑목록에 테킬라를 추가했습니다.  기기와 대화를 나눌 때, 종종 기기는 우리가 말하는 것을 정확히 인식한다. 우리는 무료 서비스를 이용하여 온라인에서 접하는 외국어 구절을 영어로 번역하기도 하는데, 가끔은 정확하게 번역해 준다. 자연어처리는 엄청나게 발전했지만, 아직도 개선의 여지가 상당하다.  필자 친구에게 인공지능의 우발적인 테킬라 주문은 생각보다 더 적절한 것이었을 수도 있다.     자연어처리란 무엇인가? NLP라고 하는 자연어처리는 실패에 관한 이야기에도 불구하고 현재는 딥러닝을 위한 주요한 성공적인 응용 분야 중 하나다. 자연어처리의 전반적인 목표는 컴퓨터가 인간의 언어를 이해하고 이에 따라 행동할 수 있도록 하는 것이다. 우리는 그것을 다음 섹션에서 더 자세히 다룰 것이다.  역사적으로, 자연어처리는 처음에는 문법이나 어간 추출과 같은 규칙을 작성하여 규칙 기반 시스템에 의해 다루어졌다. 그 규칙들을 사람이 직접 하는 데 드는 엄청난 일의 양은 별론으로 하더라도, 제대로 작동하지 않는 경향이 있었다.  왜 잘 안되었을까? 간단한 예로 철자법의 경우를 생각해보자. 스페인어와 같은 몇몇 언어에서는 철자가 정말 쉽고 방식도 규칙적이다. 그러나 제2외국어로 영어를 배우는 사람은 영어 철자와 발음이 얼마나 불규칙할 수 있는지 안다. 초등학교 철자법칙인 "C 뒤에 올 때를 제외하고 I는 E보다 먼저 온다. 또는 네이버나 웨이처럼 에이(A)라고 발음할 때는 E가 먼저 온다”와 같이 예외로 얼룩진 규칙을 프로그래밍해야 한다고 상상해 보자. 이미 알려진 바와 같이 "E 앞에 I"는 거의 규칙이라고 할 수도 없다. 정확히 말해...

페이스북 심층 전이 학습 오토ML AutoML NLP 자연어처리 자연어 챗봇 마이크로소프트 애저 알렉사 분석 인공지능 소셜미디어 아마존 빅데이터 오토머신러닝

2019.06.03

딥러닝의 도약으로 인공지능 번역과 기타 자연어처리(NLP) 작업이 개선됐다.  다음은 필자 친구의 페이스북에 올라온 인공지능과의 대화다.  나: 알렉사, 아침 5시 30분 요가 수업이 있다는 걸 다시 알려줘. 알렉사: 쇼핑목록에 테킬라를 추가했습니다.  기기와 대화를 나눌 때, 종종 기기는 우리가 말하는 것을 정확히 인식한다. 우리는 무료 서비스를 이용하여 온라인에서 접하는 외국어 구절을 영어로 번역하기도 하는데, 가끔은 정확하게 번역해 준다. 자연어처리는 엄청나게 발전했지만, 아직도 개선의 여지가 상당하다.  필자 친구에게 인공지능의 우발적인 테킬라 주문은 생각보다 더 적절한 것이었을 수도 있다.     자연어처리란 무엇인가? NLP라고 하는 자연어처리는 실패에 관한 이야기에도 불구하고 현재는 딥러닝을 위한 주요한 성공적인 응용 분야 중 하나다. 자연어처리의 전반적인 목표는 컴퓨터가 인간의 언어를 이해하고 이에 따라 행동할 수 있도록 하는 것이다. 우리는 그것을 다음 섹션에서 더 자세히 다룰 것이다.  역사적으로, 자연어처리는 처음에는 문법이나 어간 추출과 같은 규칙을 작성하여 규칙 기반 시스템에 의해 다루어졌다. 그 규칙들을 사람이 직접 하는 데 드는 엄청난 일의 양은 별론으로 하더라도, 제대로 작동하지 않는 경향이 있었다.  왜 잘 안되었을까? 간단한 예로 철자법의 경우를 생각해보자. 스페인어와 같은 몇몇 언어에서는 철자가 정말 쉽고 방식도 규칙적이다. 그러나 제2외국어로 영어를 배우는 사람은 영어 철자와 발음이 얼마나 불규칙할 수 있는지 안다. 초등학교 철자법칙인 "C 뒤에 올 때를 제외하고 I는 E보다 먼저 온다. 또는 네이버나 웨이처럼 에이(A)라고 발음할 때는 E가 먼저 온다”와 같이 예외로 얼룩진 규칙을 프로그래밍해야 한다고 상상해 보자. 이미 알려진 바와 같이 "E 앞에 I"는 거의 규칙이라고 할 수도 없다. 정확히 말해...

2019.06.03

'누구나 할 수 있는 머신러닝' 6가지 AML 프로젝트

머신러닝은 강력하지만 그만한 대가를 치러야 한다. 기술과 도구, 하드웨어, 데이터를 갖춘다 해도 머신러닝 모델을 만들고 세밀하게 조정하는 데는 복잡함이 따른다. 그러나 머신러닝의 핵심이 과거 사람이 직접 해야 했던 일을 자동화하는 데 있다면 머신러닝 자체의 단조로운 작업을 머신러닝을 사용해서 해결하는 것도 가능하지 않을까? 짧게 답한다면 조건부로 가능하다. “AML(Autimated Machine Learning, 자동화된 머신러닝)”로 통용되는 몇 가지 기술은 모델을 준비하고 정확성을 개선하기 위해 점진적으로 다듬는 데 필요한 작업을 줄여줄 수 있다. AML은 아직 초기 단계다. 현재는 여러 가지 개별적인 조각과 상호 단절된 기술들의 모음이지만 빠른 속도로 상용화되고 있으며, 머신러닝 전문가가 아닌 일반적인 비즈니스 사용자도 이용할 수 있을 만큼 발전했다. 그 길을 이끌고 있는 6가지 AML 툴을 소개한다. Auto-sklearn과 Auto-Weka 이미 보급된 AML의 두 가지 예는 일반적인 머신러닝 기능 패키지로 폭넓게 사용되는 Scikit-learn 프로젝트를 강화하는 형태의 툴이다. Scikit-learn에는 여러 가지 “추정자(estimator)” 기능, 즉 제공된 데이터로 학습하기 위한 방법론이 제공된다. 적절한 추정자를 선택하는 일은 지루한 과정이 될 수 있는데, Auto-sklearn 프로젝트는 이러한 지루함을 일부 없애는 것을 목표로 한다. Auto-sklearn은 자체 분석을 수행해 주어진 Scikit-learn 작업을 위한 최적의 알고리즘과 하이퍼 매개변수 집합을 결정하는 보편적 추정자 기능을 제공한다. Auto-sklearn에도 여전히 일부 수작업이 필요하다. 최종 사용자는 튜닝 프로세스에서 사용할 수 있는 메모리와 시간 제한을 설정해야 한다. 그러나 이 정도만 선택하고 나머지를 머신에 맡기는 편이 모델 선택과 하이퍼 매개변수를 붙잡고 씨름하는 ...

자동화 AML AutoML H2o 프로디지

2017.09.25

머신러닝은 강력하지만 그만한 대가를 치러야 한다. 기술과 도구, 하드웨어, 데이터를 갖춘다 해도 머신러닝 모델을 만들고 세밀하게 조정하는 데는 복잡함이 따른다. 그러나 머신러닝의 핵심이 과거 사람이 직접 해야 했던 일을 자동화하는 데 있다면 머신러닝 자체의 단조로운 작업을 머신러닝을 사용해서 해결하는 것도 가능하지 않을까? 짧게 답한다면 조건부로 가능하다. “AML(Autimated Machine Learning, 자동화된 머신러닝)”로 통용되는 몇 가지 기술은 모델을 준비하고 정확성을 개선하기 위해 점진적으로 다듬는 데 필요한 작업을 줄여줄 수 있다. AML은 아직 초기 단계다. 현재는 여러 가지 개별적인 조각과 상호 단절된 기술들의 모음이지만 빠른 속도로 상용화되고 있으며, 머신러닝 전문가가 아닌 일반적인 비즈니스 사용자도 이용할 수 있을 만큼 발전했다. 그 길을 이끌고 있는 6가지 AML 툴을 소개한다. Auto-sklearn과 Auto-Weka 이미 보급된 AML의 두 가지 예는 일반적인 머신러닝 기능 패키지로 폭넓게 사용되는 Scikit-learn 프로젝트를 강화하는 형태의 툴이다. Scikit-learn에는 여러 가지 “추정자(estimator)” 기능, 즉 제공된 데이터로 학습하기 위한 방법론이 제공된다. 적절한 추정자를 선택하는 일은 지루한 과정이 될 수 있는데, Auto-sklearn 프로젝트는 이러한 지루함을 일부 없애는 것을 목표로 한다. Auto-sklearn은 자체 분석을 수행해 주어진 Scikit-learn 작업을 위한 최적의 알고리즘과 하이퍼 매개변수 집합을 결정하는 보편적 추정자 기능을 제공한다. Auto-sklearn에도 여전히 일부 수작업이 필요하다. 최종 사용자는 튜닝 프로세스에서 사용할 수 있는 메모리와 시간 제한을 설정해야 한다. 그러나 이 정도만 선택하고 나머지를 머신에 맡기는 편이 모델 선택과 하이퍼 매개변수를 붙잡고 씨름하는 ...

2017.09.25

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31