2017.11.28

머신러닝, 예측 알고리즘 모델링에 탁월한 '데이터 과학 플랫폼 9선'

Scott Carey | Computerworld UK

데이터 과학자들이 알고리즘을 구축하고 배포할 수 있게 해주는 플랫폼은 기업이 이전보다 더 빠르게 데이터를 조작하려고 하면서 더 중요해졌다.

가트너는 데이터 과학 플랫폼을 단순히 "머신러닝 솔루션을 만드는 엔진"으로 정의한다. 이 기사에서는 가트너의 정의를 확대해 데이터 과학 업무팀이 코드를 공동 작업하고 직접 배포해 데이터 과학 솔루션으로 안내할 수 있는 모든 것을 포함했다.

데이터 과학 플랫폼은 상대적으로 덜 성숙했고, 아직은 묘책이 없음을 기억하는 것이 중요하다. 테셀라 애널리틱스(Tessella Analytics)의 수석 분석 전략가인 매트 존스는 <컴퓨터월드UK>와의 인터뷰에서 "데이터 과학은 플러그 앤드 플레이가 아니다"고 말했다. 이어서 "플랫폼은 괜찮지만, 존재하는 데이터와 맥락을 이해하는 사람이 교육을 받아야 한다. 기술 공급 업체에게 데이터 과학을 아웃소싱하는 경우 비즈니스와 데이터를 확실히 이해해야 한다"고 밝혔다.

이를 염두에 두고 오픈소스부터 기존 솔루션 업체까지 오늘날 기업이 가장 많이 사용하는 데이터 과학 플랫폼을 소개한다.

1. 마이크로소프트 애저 머신러닝


마이크로소프트는 데이터 과학자에게 애저 머신러닝 플랫폼을 사용해 예측 분석을 실제 환경에 구축하고 배포하기 위한 완벽하게 관리되는 클라우드 서비스를 제공한다. 이 플랫폼에는 파이썬이나 R과 같이 원하는 언어로 사용자 정의 코드를 지원하는 패키지가 내장돼 있으며 데이터 과학자들이 업무를 시작할 때 쓸만한 많은 문서가 제공된다.

애저 플랫폼은 데이터 과학자가 모델을 프로덕션에 웹 서비스로 신속하게 설치한 다음 애저 마켓플레이스에서 모델을 공유하도록 해준다. 고객으로는 카니발 크루즈(Carnival Cruises), JLL, 후지쯔가 있다.

2. SAS 바이야


분석 및 BI 공급 업체 SAS는 바이야(Viya) 플랫폼을 통해 데이터 과학 및 머신러닝 기능을 제공한다.

이는 분석 업체가 고객에게 자체 분석 클러스터를 통해 안전하고 일관된 방식으로 배포할 수 있는 고급 분석 작업을 수행하는 플랫폼을 제공하는 예다.

SASUK/아일랜드의 기술 책임자인 피터 퓨-존스는 영국의 컴퓨터월드UK와의 인터뷰에서 "우리는 사람들이 사용하고 싶은 것을 사용할 수 있게 하려고 노력하지만 매번 새로운 것을 다시 만들어 내지는 않는다”고 말했다.

3. 도미노 데이터랩


미국 캘리포니아에 있는 신생벤처인 도미노 데이터랩(Domino Data Lab)의 플랫폼은 데이터 과학팀이 선호하는 데이터 소스를 모델링하고, 사용하기 쉬운 툴과 프로그래밍 언어를 활용하며, 도미노에서 직접 모델로 공동 작업하고 API로 배치할 수 있는 '워크벤치' 솔루션이다.

도미노 데이터랩은 모든 데이터 과학 활동의 허브 역할을 하며 클라우드 컴퓨팅을 탄력적으로 제공하며 일관되고 안전한 방식으로 배포한다. 보험 회사인 취리히(Zurich)와 올스테이트(Allstate)의 데이터 과학팀이 도미노 고객이다.
 

---------------------------------------------------------------
빅데이터 기술 인기기사
-> 빅데이터 분야 스파크 매력의 원천··· '주요 툴 7종' 가이드
-> 하둡과 아파치 스파크, 무엇이 어떻게 다른가? 5가지 궁금증
-> 칼럼 | 아파치 스파크에서 마음에 들지 않는 5가지
-> 빅데이터 윤활유 '아파치 카프카', 왜 주목받나
-> 하둡 이후 빅데이터의 미래··· 일괄 처리와 실시간 스트리밍 기술의 향방은?
-> 빅데이터 업체들, 하둡 기반 공통 플랫폼 만든다
-> '진화하는 하둡 툴을 한눈에' 빅 데이터 처리를 위한 18가지 필수 도구
-> 추천! 최고의 오픈소스 빅 데이터 툴 20선
-> 하둡 이후 빅데이터의 미래··· 일괄 처리와 실시간 스트리밍 기술의 향방은?
---------------------------------------------------------------

4. 클라우데라 데이터 과학 워크벤치


분석 업체인 클라우데라는 1년 전에 센스.io(Sense.io)를 인수한 후 2017년 3월에 ‘데이터 과학 워크벤치(Data Science Workbench)’를 내놨다. 워크벤치는 데이터 과학팀이 R, 파이썬, 스파크 등 널리 사용되는 프로그래밍 언어로 데이터를 안전하게 보호하고 협업 환경에서 작업할 수 있는 플랫폼을 목표로 한다.

이 아이디어는 실제 데이터 과학 이외의 다른 것에 대해 걱정해야 하는 것보다 훨씬 빠른 속도로 기업 내에서 머신러닝 및 고급 분석을 모델링하고 배포하는 것이다.

 

2017.11.28

머신러닝, 예측 알고리즘 모델링에 탁월한 '데이터 과학 플랫폼 9선'

Scott Carey | Computerworld UK

데이터 과학자들이 알고리즘을 구축하고 배포할 수 있게 해주는 플랫폼은 기업이 이전보다 더 빠르게 데이터를 조작하려고 하면서 더 중요해졌다.

가트너는 데이터 과학 플랫폼을 단순히 "머신러닝 솔루션을 만드는 엔진"으로 정의한다. 이 기사에서는 가트너의 정의를 확대해 데이터 과학 업무팀이 코드를 공동 작업하고 직접 배포해 데이터 과학 솔루션으로 안내할 수 있는 모든 것을 포함했다.

데이터 과학 플랫폼은 상대적으로 덜 성숙했고, 아직은 묘책이 없음을 기억하는 것이 중요하다. 테셀라 애널리틱스(Tessella Analytics)의 수석 분석 전략가인 매트 존스는 <컴퓨터월드UK>와의 인터뷰에서 "데이터 과학은 플러그 앤드 플레이가 아니다"고 말했다. 이어서 "플랫폼은 괜찮지만, 존재하는 데이터와 맥락을 이해하는 사람이 교육을 받아야 한다. 기술 공급 업체에게 데이터 과학을 아웃소싱하는 경우 비즈니스와 데이터를 확실히 이해해야 한다"고 밝혔다.

이를 염두에 두고 오픈소스부터 기존 솔루션 업체까지 오늘날 기업이 가장 많이 사용하는 데이터 과학 플랫폼을 소개한다.

1. 마이크로소프트 애저 머신러닝


마이크로소프트는 데이터 과학자에게 애저 머신러닝 플랫폼을 사용해 예측 분석을 실제 환경에 구축하고 배포하기 위한 완벽하게 관리되는 클라우드 서비스를 제공한다. 이 플랫폼에는 파이썬이나 R과 같이 원하는 언어로 사용자 정의 코드를 지원하는 패키지가 내장돼 있으며 데이터 과학자들이 업무를 시작할 때 쓸만한 많은 문서가 제공된다.

애저 플랫폼은 데이터 과학자가 모델을 프로덕션에 웹 서비스로 신속하게 설치한 다음 애저 마켓플레이스에서 모델을 공유하도록 해준다. 고객으로는 카니발 크루즈(Carnival Cruises), JLL, 후지쯔가 있다.

2. SAS 바이야


분석 및 BI 공급 업체 SAS는 바이야(Viya) 플랫폼을 통해 데이터 과학 및 머신러닝 기능을 제공한다.

이는 분석 업체가 고객에게 자체 분석 클러스터를 통해 안전하고 일관된 방식으로 배포할 수 있는 고급 분석 작업을 수행하는 플랫폼을 제공하는 예다.

SASUK/아일랜드의 기술 책임자인 피터 퓨-존스는 영국의 컴퓨터월드UK와의 인터뷰에서 "우리는 사람들이 사용하고 싶은 것을 사용할 수 있게 하려고 노력하지만 매번 새로운 것을 다시 만들어 내지는 않는다”고 말했다.

3. 도미노 데이터랩


미국 캘리포니아에 있는 신생벤처인 도미노 데이터랩(Domino Data Lab)의 플랫폼은 데이터 과학팀이 선호하는 데이터 소스를 모델링하고, 사용하기 쉬운 툴과 프로그래밍 언어를 활용하며, 도미노에서 직접 모델로 공동 작업하고 API로 배치할 수 있는 '워크벤치' 솔루션이다.

도미노 데이터랩은 모든 데이터 과학 활동의 허브 역할을 하며 클라우드 컴퓨팅을 탄력적으로 제공하며 일관되고 안전한 방식으로 배포한다. 보험 회사인 취리히(Zurich)와 올스테이트(Allstate)의 데이터 과학팀이 도미노 고객이다.
 

---------------------------------------------------------------
빅데이터 기술 인기기사
-> 빅데이터 분야 스파크 매력의 원천··· '주요 툴 7종' 가이드
-> 하둡과 아파치 스파크, 무엇이 어떻게 다른가? 5가지 궁금증
-> 칼럼 | 아파치 스파크에서 마음에 들지 않는 5가지
-> 빅데이터 윤활유 '아파치 카프카', 왜 주목받나
-> 하둡 이후 빅데이터의 미래··· 일괄 처리와 실시간 스트리밍 기술의 향방은?
-> 빅데이터 업체들, 하둡 기반 공통 플랫폼 만든다
-> '진화하는 하둡 툴을 한눈에' 빅 데이터 처리를 위한 18가지 필수 도구
-> 추천! 최고의 오픈소스 빅 데이터 툴 20선
-> 하둡 이후 빅데이터의 미래··· 일괄 처리와 실시간 스트리밍 기술의 향방은?
---------------------------------------------------------------

4. 클라우데라 데이터 과학 워크벤치


분석 업체인 클라우데라는 1년 전에 센스.io(Sense.io)를 인수한 후 2017년 3월에 ‘데이터 과학 워크벤치(Data Science Workbench)’를 내놨다. 워크벤치는 데이터 과학팀이 R, 파이썬, 스파크 등 널리 사용되는 프로그래밍 언어로 데이터를 안전하게 보호하고 협업 환경에서 작업할 수 있는 플랫폼을 목표로 한다.

이 아이디어는 실제 데이터 과학 이외의 다른 것에 대해 걱정해야 하는 것보다 훨씬 빠른 속도로 기업 내에서 머신러닝 및 고급 분석을 모델링하고 배포하는 것이다.

 

X