Offcanvas

데이터센터 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 신기술|미래 / 애플리케이션 / 클라우드

리뷰 | 아마존 머신러닝 '필수 기능이 튼실한 범용 서비스'

2016.03.28 Martin Heller  |  InfoWorld


사람이 관련된 예의 경우 자신이 예측하는 행동이 시간대(아침 대비 저녁 퇴근 시간)와 요일(평일 대비 주말과 휴일)에 따라 달라지는 경우 통합된 날짜 시간 마커를 기록할 수 있다. 원문 데이터가 있는 경우 목표가 유니그램(Unigram, 1 단어)보다 바이그램(Bigram, 2 단어)과 상관 관계가 깊다는 사실을 발견하거나 입력 데이터가 무작위 경우이며 일관성을 위해 소문자로 변환해야 한다.

AML에서 특징 선택은 레시피(Recipe)로 이루어진다. 데이터 소스에 대하여 설명 통계를 계산한 경우 아마존은 사용자가 해당 데이터에 대한 자신의 기계 학습 모델에서 사용하거나 무시할 수 있는 기본 레시피를 생성한다. AML이 마이크로소프트 AML처럼 자신의 특징 선택을 정의하는 매력적인 다이어그램 옵션을 제공하지는 않지만 상식적인 방식으로 필요한 것을 제공한다.

머신러닝 모델 평가
필자는 앞서 일반적으로 모델 평가를 위해 데이터의 30%를 남겨둔다고 언급했다. 기본적으로 남겨둔 데이터 소스의 모든 지점에 대하여 예측을 계산하기 위한 최적화된 계수를 이용하고 각 지점에 대하여 손실 함수를 검수하며 전반적인 예측 정확도 지표와 예측 정확도 지표를 넘어 모델의 정확도를 탐구하는데 도움이 되는 시각화를 생성하는 것을 포함하여 마지막으로 통계를 계산하는 것이 중요하다.

회귀 모델의 경우 제곱 평균 오류 외에 설명되지 않은 오류의 분포를 확인해야 한다. 바이너리 분류 모델의 경우 ROO(Receiver Operating Characteristic) 곡선 아래의 영역과 예측 막대 그래프를 살펴보아야 한다. 바이너리 분류 모델을 훈련하고 평가한 후 원하는 오류율을 달성하는 자신의 점수 한계값을 선택할 수 있다.



멀티클래스 모델의 경우 거시 평균 F1 점수가 전체적인 예측 정확도를 반영하며 오차 행렬은 모델에 클래스 분류 문제가 있는 곳을 보여준다. 다시 한 번 말하지만 AML은 인색한 형태의 평가를 위해 필요한 충분한 툴을 제공한다.

예측 해석
평가 요건에 부합하는 모델이 있는 경우 이를 통해 실시간 웹 서비스를 구성하거나 예측 배치를 생성할 수 있다. 하지만 물리적인 상수와는 달리 사람들의 행동은 시간에 따라 달라진다는 사실을 기억하자. 모델에서 제시되는 예측 정확도 지표를 주기적으로 확인하고 필요에 따라 다시 훈련해야 한다.

필자가 AML을 사용하면서 마이크로소프트 애저 머신러닝과 비교해보니 아마존은 애저보다 많은 기능이 부족하지만 필요한 것만 제공한다는 사실을 발견했다. 지원되는 3가지 모델 중 하나를 위한 머신러닝 예측을 실시하는 비즈니스 분석가라면 AML이 정확한 처방전이 될 수 있다. 고급 데이터 분석가라면 충분하지 않을 수는 있지만 더욱 복잡한 사례를 위해 선호하는 자신만의 개발 환경이 있을 것이다.  editor@itworld.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.