2018.04.19

머신러닝과 예측 알고리즘에 '안성맞춤' 데이터 과학 툴 10선

Scott Carey, Thomas Macaulay | Computerworld UK

기업이 과거보다 훨씬 빠르게 데이터를 다루고자 하면서 데이터 과학자들이 알고리즘을 구축하고 배포하도록 해주는 플랫폼이 점점 더 중요해지고 있다.

가트너는 데이터 과학 플랫폼을 단순히 "머신러닝 솔루션을 만드는 엔진"으로 정의한다. 이 기사에서는 가트너의 정의를 확대해 데이터 과학 업무팀이 코드를 공동 작업하고 직접 배포해 데이터 과학 솔루션을 안내할 수 있는 모든 것을 포함했다.

데이터 과학 플랫폼은 상대적으로 덜 성숙했고 아직은 묘책이 없음을 기억하는 것이 중요하다. 테셀라 애널리틱스(Tessella Analytics)의 수석 분석 전략가인 매튜 존스는 <컴퓨터월드UK(ComputerworldUK)>와의 인터뷰에서 "데이터 과학은 플러그 앤드 플레이가 아니다"고 말했다. 이어서 "플랫폼은 아웃소싱해도 괜찮다. 하지만, 존재하는 데이터와 컨텍스트를 이해하는 사람은 교육을 받아야 한다. 기술 공급 업체에게 데이터 과학을 아웃소싱하는 경우 비즈니스와 데이터를 확실히 이해해야 한다"고 밝혔다.

이를 염두에 두고 오픈소스부터 기존 솔루션 업체까지 현재 기업이 가장 많이 사용하는 데이터 과학 플랫폼을 소개한다.
 
1. H2O.ai


H2O.ai
는 기업이 비즈니스 문제에 신속하고 확장할 수 있는 예측 분석을 적용하도록 지원하는 오픈소스 시스템 학습 플랫폼이다.

이 플랫폼의 명성은 점점 더 올라가고 있으며, 이전 버전은 가트너 매직 쿼드런트에서 비저너리로 선정됐으며 2018 데이터 과학 및 머신러닝 플랫폼 매직 쿼드런트에서 리더로 꼽혔다.

가트너는 딥러닝, 머신러닝 자동화, 하이브리드 클라우드 지원, 오픈소스 통합에 대한 기술 역량과 이베이, 캐피탈원, 컴캐스트를 포함한 고객사를 위한 강력한 지원을 높이 평가했다.

코드 중심 툴체인은 뛰어난 유연성과 확장성을 제공하지만 가장 사용자 친화적인 제품은 아니다.

2. 마이크로소프트 애저 머신러닝


마이크로소프트는 데이터 과학자에게 애저 머신러닝(Azure Machine Learning) 플랫폼을 사용해 예측 분석을 실제 환경에 구축하고 배포하기 위한 클라우드 서비스를 제공한다. 이 플랫폼에는 파이썬이나 R 등 원하는 언어로 사용자 정의 코드를 지원하는 패키지가 포함되어 있으며 데이터 과학자가 시작할 때 쓸만한 많은 설명서가 제공된다.

애저 플랫폼은 데이터 과학자가 모델을 프로덕션에 웹 서비스로 신속하게 설치한 다음 애저 마켓플레이스에서 모델을 공유하도록 해준다. 고객으로는 카니발 크루즈(Carnival Cruises), JLL, 후지쯔가 있다.

3. 도미노 데이터랩


캘리포니아에 있는 신생벤처인 도미노 데이터랩(Domino Data Lab)의 플랫폼은 데이터 과학팀이 선호하는 데이터 소스를 모델링하고, 사용하기 쉬운 툴과 프로그래밍 언어를 사용하며, 도미노에서 직접 모델로 공동 작업해 API로 배포할 수 있는 '워크 벤치' 솔루션이다.

도미노 데이터랩은 모든 데이터 과학 활동의 허브 역할을 하며 클라우드 컴퓨팅을 탄력적으로 제공하고 일관성 있으며 안전한 방식으로 배포한다. 보험회사인 취리히(Zurich)와 올스테이트(Allstate)의 데이터 과학팀이 도미노의 고객이다.

4. 클라우데라 데이터 과학 워크 벤치


분석 업체인 클라우데라는 센스.io(Sense.io)를 인수한 후 1년 만인 2017년 3월에 ‘데이터 사이언스 워크벤치(Data Science Workbench)’를 출시했다. 워크벤치는 데이터 과학팀이 R, 파이썬, 스파크와 같은 널리 사용되는 프로그래밍 언어로 데이터를 안전하게 보호하고 협업 환경에서 작업할 수 있는 플랫폼을 목표로 한다.

이 아이디어는 실제 데이터 과학 이외의 다른 것에 대해 걱정해야 하는 것보다 훨씬 빠른 속도로 기업 내에서 머신러닝 및 고급 분석을 모델링하고 배포하는 것이다.

5. SAS 바이야


분석 및 BI 업체 SAS는 자사의 바이야(Viya) 플랫폼을 통해 데이터 과학과 머신러닝 기능을 제공한다.

이는 분석 업체가 고객에게 자체 분석 클러스터를 통해 안전하고 일관된 방식으로 배포할 수 있는 고급 분석 작업을 수행할 수 있는 플랫폼을 제공하는 예다.

SAS UK/아일랜드의 기술 책임자인 피터 퓨-존스는 <컴퓨터월드영국>와의 인터뷰에서 "우리는 사람들이 사용하고 싶은 것을 사용할 수 있게 하려고 노력하지만 매번 새로운 것을 다시 만들어 내지는 않는다”고 말했다.

2018.04.19

머신러닝과 예측 알고리즘에 '안성맞춤' 데이터 과학 툴 10선

Scott Carey, Thomas Macaulay | Computerworld UK

기업이 과거보다 훨씬 빠르게 데이터를 다루고자 하면서 데이터 과학자들이 알고리즘을 구축하고 배포하도록 해주는 플랫폼이 점점 더 중요해지고 있다.

가트너는 데이터 과학 플랫폼을 단순히 "머신러닝 솔루션을 만드는 엔진"으로 정의한다. 이 기사에서는 가트너의 정의를 확대해 데이터 과학 업무팀이 코드를 공동 작업하고 직접 배포해 데이터 과학 솔루션을 안내할 수 있는 모든 것을 포함했다.

데이터 과학 플랫폼은 상대적으로 덜 성숙했고 아직은 묘책이 없음을 기억하는 것이 중요하다. 테셀라 애널리틱스(Tessella Analytics)의 수석 분석 전략가인 매튜 존스는 <컴퓨터월드UK(ComputerworldUK)>와의 인터뷰에서 "데이터 과학은 플러그 앤드 플레이가 아니다"고 말했다. 이어서 "플랫폼은 아웃소싱해도 괜찮다. 하지만, 존재하는 데이터와 컨텍스트를 이해하는 사람은 교육을 받아야 한다. 기술 공급 업체에게 데이터 과학을 아웃소싱하는 경우 비즈니스와 데이터를 확실히 이해해야 한다"고 밝혔다.

이를 염두에 두고 오픈소스부터 기존 솔루션 업체까지 현재 기업이 가장 많이 사용하는 데이터 과학 플랫폼을 소개한다.
 
1. H2O.ai


H2O.ai
는 기업이 비즈니스 문제에 신속하고 확장할 수 있는 예측 분석을 적용하도록 지원하는 오픈소스 시스템 학습 플랫폼이다.

이 플랫폼의 명성은 점점 더 올라가고 있으며, 이전 버전은 가트너 매직 쿼드런트에서 비저너리로 선정됐으며 2018 데이터 과학 및 머신러닝 플랫폼 매직 쿼드런트에서 리더로 꼽혔다.

가트너는 딥러닝, 머신러닝 자동화, 하이브리드 클라우드 지원, 오픈소스 통합에 대한 기술 역량과 이베이, 캐피탈원, 컴캐스트를 포함한 고객사를 위한 강력한 지원을 높이 평가했다.

코드 중심 툴체인은 뛰어난 유연성과 확장성을 제공하지만 가장 사용자 친화적인 제품은 아니다.

2. 마이크로소프트 애저 머신러닝


마이크로소프트는 데이터 과학자에게 애저 머신러닝(Azure Machine Learning) 플랫폼을 사용해 예측 분석을 실제 환경에 구축하고 배포하기 위한 클라우드 서비스를 제공한다. 이 플랫폼에는 파이썬이나 R 등 원하는 언어로 사용자 정의 코드를 지원하는 패키지가 포함되어 있으며 데이터 과학자가 시작할 때 쓸만한 많은 설명서가 제공된다.

애저 플랫폼은 데이터 과학자가 모델을 프로덕션에 웹 서비스로 신속하게 설치한 다음 애저 마켓플레이스에서 모델을 공유하도록 해준다. 고객으로는 카니발 크루즈(Carnival Cruises), JLL, 후지쯔가 있다.

3. 도미노 데이터랩


캘리포니아에 있는 신생벤처인 도미노 데이터랩(Domino Data Lab)의 플랫폼은 데이터 과학팀이 선호하는 데이터 소스를 모델링하고, 사용하기 쉬운 툴과 프로그래밍 언어를 사용하며, 도미노에서 직접 모델로 공동 작업해 API로 배포할 수 있는 '워크 벤치' 솔루션이다.

도미노 데이터랩은 모든 데이터 과학 활동의 허브 역할을 하며 클라우드 컴퓨팅을 탄력적으로 제공하고 일관성 있으며 안전한 방식으로 배포한다. 보험회사인 취리히(Zurich)와 올스테이트(Allstate)의 데이터 과학팀이 도미노의 고객이다.

4. 클라우데라 데이터 과학 워크 벤치


분석 업체인 클라우데라는 센스.io(Sense.io)를 인수한 후 1년 만인 2017년 3월에 ‘데이터 사이언스 워크벤치(Data Science Workbench)’를 출시했다. 워크벤치는 데이터 과학팀이 R, 파이썬, 스파크와 같은 널리 사용되는 프로그래밍 언어로 데이터를 안전하게 보호하고 협업 환경에서 작업할 수 있는 플랫폼을 목표로 한다.

이 아이디어는 실제 데이터 과학 이외의 다른 것에 대해 걱정해야 하는 것보다 훨씬 빠른 속도로 기업 내에서 머신러닝 및 고급 분석을 모델링하고 배포하는 것이다.

5. SAS 바이야


분석 및 BI 업체 SAS는 자사의 바이야(Viya) 플랫폼을 통해 데이터 과학과 머신러닝 기능을 제공한다.

이는 분석 업체가 고객에게 자체 분석 클러스터를 통해 안전하고 일관된 방식으로 배포할 수 있는 고급 분석 작업을 수행할 수 있는 플랫폼을 제공하는 예다.

SAS UK/아일랜드의 기술 책임자인 피터 퓨-존스는 <컴퓨터월드영국>와의 인터뷰에서 "우리는 사람들이 사용하고 싶은 것을 사용할 수 있게 하려고 노력하지만 매번 새로운 것을 다시 만들어 내지는 않는다”고 말했다.

X