머신러닝, 예측 알고리즘 모델링에 탁월한 '데이터 과학 플랫폼 9선'

Computerworld UK

데이터 과학자들이 알고리즘을 구축하고 배포할 수 있게 해주는 플랫폼은 기업이 이전보다 더 빠르게 데이터를 조작하려고 하면서 더 중요해졌다.

가트너는 데이터 과학 플랫폼을 단순히 "머신러닝 솔루션을 만드는 엔진"으로 정의한다. 이 기사에서는 가트너의 정의를 확대해 데이터 과학 업무팀이 코드를 공동 작업하고 직접 배포해 데이터 과학 솔루션으로 안내할 수 있는 모든 것을 포함했다.

데이터 과학 플랫폼은 상대적으로 덜 성숙했고, 아직은 묘책이 없음을 기억하는 것이 중요하다. 테셀라 애널리틱스(Tessella Analytics)의 수석 분석 전략가인 매트 존스는 <컴퓨터월드UK>와의 인터뷰에서 "데이터 과학은 플러그 앤드 플레이가 아니다"고 말했다. 이어서 "플랫폼은 괜찮지만, 존재하는 데이터와 맥락을 이해하는 사람이 교육을 받아야 한다. 기술 공급 업체에게 데이터 과학을 아웃소싱하는 경우 비즈니스와 데이터를 확실히 이해해야 한다"고 밝혔다.

이를 염두에 두고 오픈소스부터 기존 솔루션 업체까지 오늘날 기업이 가장 많이 사용하는 데이터 과학 플랫폼을 소개한다.

1. 마이크로소프트 애저 머신러닝


마이크로소프트는 데이터 과학자에게 애저 머신러닝 플랫폼을 사용해 예측 분석을 실제 환경에 구축하고 배포하기 위한 완벽하게 관리되는 클라우드 서비스를 제공한다. 이 플랫폼에는 파이썬이나 R과 같이 원하는 언어로 사용자 정의 코드를 지원하는 패키지가 내장돼 있으며 데이터 과학자들이 업무를 시작할 때 쓸만한 많은 문서가 제공된다.

애저 플랫폼은 데이터 과학자가 모델을 프로덕션에 웹 서비스로 신속하게 설치한 다음 애저 마켓플레이스에서 모델을 공유하도록 해준다. 고객으로는 카니발 크루즈(Carnival Cruises), JLL, 후지쯔가 있다.

2. SAS 바이야


분석 및 BI 공급 업체 SAS는 바이야(Viya) 플랫폼을 통해 데이터 과학 및 머신러닝 기능을 제공한다.

이는 분석 업체가 고객에게 자체 분석 클러스터를 통해 안전하고 일관된 방식으로 배포할 수 있는 고급 분석 작업을 수행하는 플랫폼을 제공하는 예다.

SASUK/아일랜드의 기술 책임자인 피터 퓨-존스는 영국의 컴퓨터월드UK와의 인터뷰에서 "우리는 사람들이 사용하고 싶은 것을 사용할 수 있게 하려고 노력하지만 매번 새로운 것을 다시 만들어 내지는 않는다”고 말했다.

3. 도미노 데이터랩


미국 캘리포니아에 있는 신생벤처인 도미노 데이터랩(Domino Data Lab)의 플랫폼은 데이터 과학팀이 선호하는 데이터 소스를 모델링하고, 사용하기 쉬운 툴과 프로그래밍 언어를 활용하며, 도미노에서 직접 모델로 공동 작업하고 API로 배치할 수 있는 '워크벤치' 솔루션이다.

도미노 데이터랩은 모든 데이터 과학 활동의 허브 역할을 하며 클라우드 컴퓨팅을 탄력적으로 제공하며 일관되고 안전한 방식으로 배포한다. 보험 회사인 취리히(Zurich)와 올스테이트(Allstate)의 데이터 과학팀이 도미노 고객이다.
 

---------------------------------------------------------------
빅데이터 기술 인기기사
-> 빅데이터 분야 스파크 매력의 원천··· '주요 툴 7종' 가이드
-> 하둡과 아파치 스파크, 무엇이 어떻게 다른가? 5가지 궁금증
-> 칼럼 | 아파치 스파크에서 마음에 들지 않는 5가지
-> 빅데이터 윤활유 '아파치 카프카', 왜 주목받나
-> 하둡 이후 빅데이터의 미래··· 일괄 처리와 실시간 스트리밍 기술의 향방은?
-> 빅데이터 업체들, 하둡 기반 공통 플랫폼 만든다
-> '진화하는 하둡 툴을 한눈에' 빅 데이터 처리를 위한 18가지 필수 도구
-> 추천! 최고의 오픈소스 빅 데이터 툴 20선
-> 하둡 이후 빅데이터의 미래··· 일괄 처리와 실시간 스트리밍 기술의 향방은?
---------------------------------------------------------------

4. 클라우데라 데이터 과학 워크벤치


분석 업체인 클라우데라는 1년 전에 센스.io(Sense.io)를 인수한 후 2017년 3월에 ‘데이터 과학 워크벤치(Data Science Workbench)’를 내놨다. 워크벤치는 데이터 과학팀이 R, 파이썬, 스파크 등 널리 사용되는 프로그래밍 언어로 데이터를 안전하게 보호하고 협업 환경에서 작업할 수 있는 플랫폼을 목표로 한다.

이 아이디어는 실제 데이터 과학 이외의 다른 것에 대해 걱정해야 하는 것보다 훨씬 빠른 속도로 기업 내에서 머신러닝 및 고급 분석을 모델링하고 배포하는 것이다.

 


5. 다타이쿠


프랑스 신생벤처 다타이쿠(Dataiku)는 플랫폼 DSS에서 유도된 데이터 과학 및 머신러닝 프로세스를 호스팅한다. 이 플랫폼에서 파이썬, 피그(Pig), R, 하이브 등의 코드를 사용하거나 코드를 드래그 앤드 드롭하여 데이터를 모델링할 수 있다.

이 플랫폼을 사용하면 데이터 과학자, 데이터 분석가 및 엔지니어팀이 한 곳에서 비즈니스에 데이터 솔루션을 프로토타입하고 구축하고 제공할 수 있다. 고객사로는 로레알, 트레인라인(Trainline), AXA보험이 있다.

최근 출시된 다타이쿠에는 데이터 준비를 위한 포인트 앤드 클릭 기능(시각화), 교육 중 모델 성능 모니터링 기능, 새로운 코드 편집기로 파이썬 3 지원 기능이 추가됐다.

6. IBM 데이터 사이언스 익스페리언스


다양한 데이터 과학 툴을 제공하는 IBM은 자사 왓슨 기반 머신러닝 플랫폼을 출시할 준비를 하고 있다.

현재 임베디드된 학습과 함께 제공되므로 데이터 과학자는 파이썬용 주피터 노트북과 R용 R스튜디오같은 대중적인 프로그래밍 언어로 작업하기 위해 플랫폼, 공동 작업 기능, 노트북 툴에 대한 참여를 향상할 수 있다. 플랫폼은 매달 인스턴스 당 9,200달러며 스파크 클러스터 및 유연한 스토리지를 제공한다.

7. 래피드마이너


오픈소스 데이터 과학 플랫폼 래피드마이너(RapidMiner)는 BMW, 삼성, 도미노, 바클레이가 좋아하는 데이터 과학 프로젝트를 지원한다.

래피드마이너 플랫폼 툴에는 시각적 데이터 과학 워크플로우용 스튜디오, 작동 모델용 서버, 하둡 데이터를 사용하는 워크플로우에 대한 라둡(Radoop)이 포함된다.

규모가 큰 고객이나 프로젝트의 경우 데이터 행에 따라 연간 2,500달러에서 1만 달러에 이르는 엔터프라이즈 버전의 플랫폼이 있다.

8. 나임


오픈소스 및 무료 나임(Knime) 애널리틱스 플랫폼은 데이터 과학자에게 다양한 데이터 소스와 확장 가능한 환경에서 편리한 툴로 프로젝트에서 작업할 수 있는 빈 캔버스를 제공한다.

개방형 플랫폼에는 수천 개의 기본 노드 및 모듈, 광범위한 설명서 및 사전 패키지된 고급 알고리즘이 포함돼 있어 신속하게 시작할 수 있다. 데이터 과학자는 단일 인프라나 기존 인프라와 함께 단일 컴퓨터, 스트리밍이나 대용량 데이터 사이를 신속하게 바꿀 수 있으며 모든 것이 호환되고 유연성을 위해 쉽게 이식할 수 있도록 해준다.

9. 스플렁크 머신러닝 툴킷


대용량 데이터 전문 업체인 스플렁크는 지난 1년 동안 플랫폼 내에서 좀더 통합된 머신러닝으로 옮겨갔지만 이 업체는 맞춤형 모델을 위한 머신러닝 툴킷도 제공한다.

다른 워크벤치 솔루션보다 스플렁크를 사용하면 시스템 생성 데이터(스플렁크의 전문 분야)를 직접 모델링할 수 있으므로 보안 및 IoT 사용 사례에 적합하다.

툴킷은 데이터 과학자가 가장 널리 사용되는 프로그래밍 언어로 알고리즘을 모델링하고 배포할 수 있는 워크벤치다. 또한 널리 쓰이는 사례를 위해 사전 제작된 파이썬 알고리즘 라이브러리와 곧 시작할 수 있는 많은 설명서와 튜토리얼이 있다. ciokr@idg.co.kr