2019.09.06

'머신러닝을 더 쉽게' 6가지 툴

Peter Wayner | CIO


데이터로봇(DataRobot)
데이터로봇의 스택 내부에는 R, 파이썬, 기타 여러 플랫폼으로 작성된 최고의 오픈소스 머신 라이브러리들이 포함되어 있다. 파이프라인을 설정하기 위한 흐름도 스타일의 툴을 표시하는 웹 인터페이스만 다루면 된다. 

데이터로봇은 로컬 데이터베이스, 클라우드 데이터스토어, 다운로드 된 파일 또는 스프레드시트 등 모든 주요 데이터 소스에 연결된다. 구축한 파이프라인은 데이터를 지우고 누락된 값을 채우며 이상점을 표시하고 미래의 값을 예측하는 모델을 생성할 수 있다.

또한 데이터로봇은 특정 예측의 근거에 관해 ‘인간 친화적인 설명’을 제공하기 위해 시도할 수 있으며, 이는 AI가 작동하는 방식을 이해하는데 유용한 기능이다.

클라우드 및 구내 솔루션을 결합하여 배치할 수 있다. 클라우드에서의 실행은 공유 자원을 통해 극대화된 병렬화 및 처리량을 제공할 수 있으며 로컬 설치는 더 큰 프라이버시와 통제력을 제공한다.

H2O
H2O는 여러 머신러닝 솔루션을 탐색하는 자동화된 스택을 설명하기 위해 ‘드라이버리스 AI’(driverless AI)라는 용어를 사용하곤 한다. 여러 데이터 소스(데이터베이스, 하둡, 스파크 등)를 연계시키고 광범위한 파라미터를 통해 다양한 알고리즘에 공급한다. 이 툴을 이용해 사용자는 시간의 양을 관리하고 문제에 할당된 자원을 연산하며, 예산의 범위 안에서 다양한 파라미터의 조합을 시험할 수 있다. 도출된 결과는 대시보드나 주피터 노트를 통해 탐색 및 감사할 수 있다.

H2O의 핵심 머신러닝 알고리즘과 스파크 등의 툴과의 통합은 오픈소스이지만 소위 말하는 "드라이버리스" 옵션은 기업 고객들에게 지원과 함께 판매되는 전매 특허 기능 중 하나이다.

래피드마이너(RapidMiner)
래피드마이너 생태계의 핵심은 시각적 아이콘에서 데이터 분석을 생성하는 스튜디오다. 끌어다 놓으면 데이터를 정리한 후 일련의 통계 알고리즘을 실행하는 파이프라인이 생성된다. 일부 더욱 전통적인 데이터 사이언스 대신에 머신러닝을 사용하고 싶다면 오토 모델이 여러 분류 알고리즘 중에서 선택하고 다양한 파라미터를 조사하여 가장 적합한 것을 찾아낸다. 이 툴의 목적은 수백 개의 모델을 생성한 후 최고를 식별하는 것이다.

모델이 생성된 후 툴이 배치하고 성공률을 시험하며 모델의 의사 결정 방식을 설명할 수 있다. 다양한 데이터 필드에 대한 민감도를 시험하고 시각적인 워크플로 편집기로 조정할 수 있다.

최근 개선사항으로는 더 나은 텍스트 분석, 시각적 대시보드를 구축하기 위한 더욱 다양한 차트, 시계열 데이터를 분석하기 위한 더욱 복잡한 알고리즘이 있다.

BigML
BigML 대시보드는 머신러닝을 통해 더욱 복잡한 작업을 위한 기초를 구성할 수 있는 상관관계를 식별하는 모든 기본적인 데이터 사이언스용 툴을 제공한다. 예를 들어, 딥네츠(Deepnets)는 더욱 정교한 신경망을 시험하고 최적화하기 위한 복잡한 메커니즘을 제공한다. 모델의 품질을 전통적인 데이터 사이언스와 더욱 복잡한 머신러닝 사이에서 선택하는데 도움이 되는 표준화된 비교 프레임워크를 통해 다른 알고리즘과 비교할 수 있다.

BigML의 대시보드는 브라우저에서 작동하며 분석은 BigML 클라우드나 서버실의 설비에서 실행된다. 클라우드 버전의 가격은 조기 실험을 도모하기 위해 낮게 책정되어 있으며 무료 계층도 있다. 

비용은 대부분 데이터 세트의 크기에 대한 제한과 적용할 수 있는 연산 자원의 양으로 결정된다. 무료 티어(Tier)는 병렬로 작동하는 2개 이하의 프로세스를 사용하여 최대 16MB의 데이터를 분석한다. 저렴한 유료 계정은 월 요금이 30달러로 합리적이지만 필요 자원이 증가하면서 비용이 상승한다.

R 스튜디오(R Studio)
R은 프로그래머가 아닌 사람이 사용하기에 쉬운 언어는 아니지만 본격적인 데이터 사이언티스트들에게 매우 인기가 높기 때문에 정밀한 통계 분석을 위한 필수 툴 중 하나다. R 스튜디오는 일련의 메뉴와 마우스 클릭 옵션을 제공하기 때문에 사용자가 더 쉽게 내부 깊숙한 곳에서 작동하는 R과 상호작용할 수 있다.

스프레드시트를 처리할 수 있는 복잡한 관리자는 가장 단순한 옵션을 이용해 기본적인 분석과 일부 복잡한 분석을 실행할 수 있다. 불필요하게 어려운 부분이 있으며 일반 사용자들이 헷갈릴 수 있는 부분도 있지만 시간을 투자할 생각이 있는 사람이라면 누구나 바로 사용할 수 있다. 여전히 혼란스러운 부분이 있을 수 있지만 첨단 툴을 탐구하고 싶은 사람에게는 가치가 있을 수 있다. ciokr@idg.co.kr




2019.09.06

'머신러닝을 더 쉽게' 6가지 툴

Peter Wayner | CIO


데이터로봇(DataRobot)
데이터로봇의 스택 내부에는 R, 파이썬, 기타 여러 플랫폼으로 작성된 최고의 오픈소스 머신 라이브러리들이 포함되어 있다. 파이프라인을 설정하기 위한 흐름도 스타일의 툴을 표시하는 웹 인터페이스만 다루면 된다. 

데이터로봇은 로컬 데이터베이스, 클라우드 데이터스토어, 다운로드 된 파일 또는 스프레드시트 등 모든 주요 데이터 소스에 연결된다. 구축한 파이프라인은 데이터를 지우고 누락된 값을 채우며 이상점을 표시하고 미래의 값을 예측하는 모델을 생성할 수 있다.

또한 데이터로봇은 특정 예측의 근거에 관해 ‘인간 친화적인 설명’을 제공하기 위해 시도할 수 있으며, 이는 AI가 작동하는 방식을 이해하는데 유용한 기능이다.

클라우드 및 구내 솔루션을 결합하여 배치할 수 있다. 클라우드에서의 실행은 공유 자원을 통해 극대화된 병렬화 및 처리량을 제공할 수 있으며 로컬 설치는 더 큰 프라이버시와 통제력을 제공한다.

H2O
H2O는 여러 머신러닝 솔루션을 탐색하는 자동화된 스택을 설명하기 위해 ‘드라이버리스 AI’(driverless AI)라는 용어를 사용하곤 한다. 여러 데이터 소스(데이터베이스, 하둡, 스파크 등)를 연계시키고 광범위한 파라미터를 통해 다양한 알고리즘에 공급한다. 이 툴을 이용해 사용자는 시간의 양을 관리하고 문제에 할당된 자원을 연산하며, 예산의 범위 안에서 다양한 파라미터의 조합을 시험할 수 있다. 도출된 결과는 대시보드나 주피터 노트를 통해 탐색 및 감사할 수 있다.

H2O의 핵심 머신러닝 알고리즘과 스파크 등의 툴과의 통합은 오픈소스이지만 소위 말하는 "드라이버리스" 옵션은 기업 고객들에게 지원과 함께 판매되는 전매 특허 기능 중 하나이다.

래피드마이너(RapidMiner)
래피드마이너 생태계의 핵심은 시각적 아이콘에서 데이터 분석을 생성하는 스튜디오다. 끌어다 놓으면 데이터를 정리한 후 일련의 통계 알고리즘을 실행하는 파이프라인이 생성된다. 일부 더욱 전통적인 데이터 사이언스 대신에 머신러닝을 사용하고 싶다면 오토 모델이 여러 분류 알고리즘 중에서 선택하고 다양한 파라미터를 조사하여 가장 적합한 것을 찾아낸다. 이 툴의 목적은 수백 개의 모델을 생성한 후 최고를 식별하는 것이다.

모델이 생성된 후 툴이 배치하고 성공률을 시험하며 모델의 의사 결정 방식을 설명할 수 있다. 다양한 데이터 필드에 대한 민감도를 시험하고 시각적인 워크플로 편집기로 조정할 수 있다.

최근 개선사항으로는 더 나은 텍스트 분석, 시각적 대시보드를 구축하기 위한 더욱 다양한 차트, 시계열 데이터를 분석하기 위한 더욱 복잡한 알고리즘이 있다.

BigML
BigML 대시보드는 머신러닝을 통해 더욱 복잡한 작업을 위한 기초를 구성할 수 있는 상관관계를 식별하는 모든 기본적인 데이터 사이언스용 툴을 제공한다. 예를 들어, 딥네츠(Deepnets)는 더욱 정교한 신경망을 시험하고 최적화하기 위한 복잡한 메커니즘을 제공한다. 모델의 품질을 전통적인 데이터 사이언스와 더욱 복잡한 머신러닝 사이에서 선택하는데 도움이 되는 표준화된 비교 프레임워크를 통해 다른 알고리즘과 비교할 수 있다.

BigML의 대시보드는 브라우저에서 작동하며 분석은 BigML 클라우드나 서버실의 설비에서 실행된다. 클라우드 버전의 가격은 조기 실험을 도모하기 위해 낮게 책정되어 있으며 무료 계층도 있다. 

비용은 대부분 데이터 세트의 크기에 대한 제한과 적용할 수 있는 연산 자원의 양으로 결정된다. 무료 티어(Tier)는 병렬로 작동하는 2개 이하의 프로세스를 사용하여 최대 16MB의 데이터를 분석한다. 저렴한 유료 계정은 월 요금이 30달러로 합리적이지만 필요 자원이 증가하면서 비용이 상승한다.

R 스튜디오(R Studio)
R은 프로그래머가 아닌 사람이 사용하기에 쉬운 언어는 아니지만 본격적인 데이터 사이언티스트들에게 매우 인기가 높기 때문에 정밀한 통계 분석을 위한 필수 툴 중 하나다. R 스튜디오는 일련의 메뉴와 마우스 클릭 옵션을 제공하기 때문에 사용자가 더 쉽게 내부 깊숙한 곳에서 작동하는 R과 상호작용할 수 있다.

스프레드시트를 처리할 수 있는 복잡한 관리자는 가장 단순한 옵션을 이용해 기본적인 분석과 일부 복잡한 분석을 실행할 수 있다. 불필요하게 어려운 부분이 있으며 일반 사용자들이 헷갈릴 수 있는 부분도 있지만 시간을 투자할 생각이 있는 사람이라면 누구나 바로 사용할 수 있다. 여전히 혼란스러운 부분이 있을 수 있지만 첨단 툴을 탐구하고 싶은 사람에게는 가치가 있을 수 있다. ciokr@idg.co.kr


X