Offcanvas

AI / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 애플리케이션 / 오픈소스

데이터 과학자와 개발자를 위한 머신러닝 툴 17선

2017.12.05 Christina Mercer   |  Computerworld UK

현업이 업무에 인공지능 접목을 점점 더 많이 요구하는 가운데 대규모 데이터 세트에서 시스템을 학습하는 머신러닝은 여러 가지 이점을 제공하는 것으로 알려졌다. 이는 금융에서 사기 예방을 위한 예측 모델 구축을 의미할 수 있다. 예를 들어 소매기업은 고객에게 더 나은 권장 사항을 제시할 수 있다.

구글, 마이크로소프트, IBM, AWS는 모두 각각의 클라우드 플랫폼을 통해 머신러닝 API를 제공하므로 개발자는 알고리즘의 복잡성을 일부 추상화하여 서비스를 보다 쉽게 만들 수 있다. 또한 데이터 과학자들이 좀더 깊이 있는 수준에서 사용할 수 있는 오픈소스 딥러닝 프레임워크가 점점 늘어나는 추세다.

다음은 데이터 과학자와 개발자가 사용하는 데 편리한 머신러닝 툴이다.

1. 아마존 세이지메이커


많은 데이터 과학자와 개발자는 이미 상용 클라우드 컴퓨팅 플랫폼인 아마존 웹 서비스(AWS)에서 교육 모델을 실행하고 있다.

2017년 11월에 열린 AWS 리:인벤트에서 공개된 세이지메이커는 머신러닝 개발 시 일반적으로 필요했던 수작업을 상당 부분 없애준다는 점에서 주목받고 있다.

세이지메이커는 인프라를 프로비저닝하고 교육 모델을 관리 및 조정하지 않고도 비즈니스 애플리케이션에 머신러닝 알고리즘을 작성, 교육, 배포할 수 있는 플랫폼이다.

이 플랫폼은 데이터 탐색, 정제, 전처리를 위해 주피터(Jupyter) 노트북 통합 개발 환경(IDEs)을 호스팅했다.

사용자는 AWS 알고리즘을 선택하여 텐서플로 같은 유명 프레임워크를 가져오거나 속메이커(SockMaker)에서 도커 컨테이너로 자체 알고리즘을 작성하고 배포할 수 있는 분산 모델 구축, 교육, 검증 서비스를 이용할 수 있다.

교육을 위해서는 S3의 위치와 사용하려는 인스턴스를 지정하기만 하면 된다. 세이지메이커는 자동 확장 및 데이터 파이프라인이 있는 격리된 클러스터와 소프트웨어 정의 네트워크를 실행하여 교육을 시작한다.

HTTPs 엔드포인트는 트래픽을 지원하도록 확장할 수 있는 모델 호스팅에 사용되며 동시에 여러 모델을 A/B 테스트할 수 있게 해준다. 이 알고리즘은 클릭 한 번으로 EC2 인스턴스를 사용하여 곧바로 프로덕션 환경으로 배포할 수 있으며, 그 다음에 가용성 영역 전체에 자동 확장 기능을 사용하여 배포할 수도 있다.

기존의 튜닝 모델은 시행착오 방식이었지만 세이지메이커는 AWS가 말하는 '하이퍼 파라미터 최적화(HPO)'로 제공한다. 세이지메이커는 박스를 체크함으로써 교육 모델의 여러 복사본을 회전하고 머신러닝을 사용하여 각 변경 사항을 병렬로 보고 그에 따라 매개 변수를 조정한다.

2. 아마존 API 서비스
AWS는 상용 머신러닝 API도 안정적으로 구축하고 있다.

2016년에 처음 출시된 3가지 제품으로는 렉스(Lex), 폴리(Polly, 레코그니션(Rekognition)가 있는데 이들은 각각 알렉사 AI 음성 비서 기기의 기본 기술, 텍스트 음성 서비스 기술, 이미지 분석 및 얼굴 인식 기능을 맡고 있다.

그 후 2017년에 아마존은 음성을 텍스트로 변환하는 트랜스크라이브(Transcribe), 언어 간 텍스트를 번역하는 아마존 트랜슬레이트(Amazon Translate), 자연어를 이해하는 아마존 컴프리헨드(Amazon Comprehend), 일괄 및 실시간으로 동영상을 분석하는 컴퓨터 비전 서비스인 아마존 레코그니션 비디오(Amazon Rekognition Video)를 출시했다.

3. 아마존의 DSSTNE


‘데스티니’라고 발음하는 DSSTNE(Deep Scalable Sparse Tensor Network Engine)는 데이터 과학자가 GPU를 사용해 심층 신경망을 훈련하고 배치하게 해 주는 오픈소스 딥러닝 라이브러리다. 구글의 텐서플로 오픈소스화에 대한 대응이라고 볼 수 있다.

DSSTNE는 거대 온라인 쇼핑 업체인 아마존 웹사이트에서 매일 수억 명의 고객에게 제품을 추천해 주는 추천 엔진을 구동하기 위해 사내 엔지니어들이 구축했다.

아마존은 “DSSTNE를 오픈소스 소프트웨어로 공개하고 있다. 그래야만 딥러닝이 약속하는 것이 말과 언어 이해, 개체 인식을 넘어서 검색 및 추천과 같은 다른 분야로 확장될 수 있기 때문이다. 당사는 전세계의 연구자들이 협업을 통해 이를 개선할 수 있기를 희망한다. 나아가 더 많은 분야에서 혁신의 원동력이 되기를 바란다는 점이 더 중요하다”고 밝혔다.

4. 애저 머신러닝 워크벤치


마이크로소프트는 2017년 9월 ‘이그나이트(Ignite)’ 컨퍼런스 중에 마이크로소프트 애저 머신러닝 툴을 대폭 개선한 내용을 발표했다. 마이크로소프트에서 발표한 3가지 주요 머신러닝 툴 중 하나인 애저 머신러닝 워크벤치는 데이터 및 실험 관리를 위한 교차 플랫폼 클라이언트라고 한다.

이 워크벤치는 파이썬, 스칼라, 파이스파크에서의 모델링을 지원할 것이다.

5. 애저 머신러닝 모델 관리


마이크로소프트는 2017년 9월 이그나이트 컨퍼런스에서 애저 머신러닝 모델 관리 툴의 공개도 알렸다.

그 목적은 개발자가 ‘머신러닝 워커플로우와 모델’을 관리하고 배치하는 데 도움을 주는 한편 다음과 같은 모델링 기능을 제공하는 것이다.

- 모델 버전 관리
- 모델 확인
- 모델 생산 배치
- 도커(Docker) 컨테이너를 모델로 생성하고 로컬에서 테스트
- 자동화된 모델 재훈련
- 행동으로 옮길 수 있는 통찰력을 위한 모델 텔레메트리(telemetry) 캡처

6. 구글 텐서플로

구글도 자체 텐서플로 소프트웨어 라이브러리를 아파치(Apache) 라이선스를 통해 오픈소스화했다. 이를 통해 구글 포토, 구글 클라우드 스피치(Google Cloud Speech)를 비롯한 많은 자체 서비스가 구동되고 있으며, 이제는 구글 딥마인드(DeepMind) 부서에서 연구용으로 사용되고 있다.

텐서플로우는 CPU 또는 GPU에서 처리 가능한 C++ 또는 파이썬 그래프를 생산할 수 있다. 이 흐름 그래프는 시스템을 관통하는 데이터의 움직임을 묘사한다. 텐서플로의 머신러닝 코드 라이브러리를 공개함으로써 복잡한 심 신경 네트워크를보다 간단하게 구축, 교육 및 배포 할 수 있다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.