Offcanvas

AI / BI / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 애플리케이션

딥러닝의 한 갈래 '지도학습'이란?

2019.06.21 Martin Heller  |  InfoWorld


머신러닝을 위한 데이터 인코딩 및 정규화
머신 분류를 위해 범주 문법 데이터를 사용하려면 텍스트 레이블을 다른 형식으로 인코딩해야 한다. 보편적인 인코딩은 2가지다.

하나는 각 텍스트 레이블값과 함께 숫자를 배치하는 레이블 인코딩이며, 다른 하나는 각 텍스트 레이블값을 2진수 값(1 또는 0)을 가진 열로 바꾸는 원핫(One-hot) 인코딩이다. 대부분의 머신러닝 프레임워크는 변화를 수행하는 기능이 있다. 일반적으로 레이블 인코딩 때문에 머신러닝 알고리즘이 인코딩된 열을 지시했다고 착각할 수 있기 때문에 원핫 인코딩을 선호한다.

머신 회귀에 수치 데이터를 사용하려면 일반적으로 데이터를 정규화해야 한다. 그렇지 않으면 범위가 더 큰 숫자는 기능 벡터들 사이의 유클리드 거리를 지배하는 경향이 있을 수 있으며, 다른 필드를 희생하면서 영향이 증폭되고 가장 가파른 하강 최적화가 수렴하는 데 어려움이 있을 수 있다. 최소-최대 정규화, 평균 정규화, 표준화, 단위 길이로 확장 등 머신러닝을 위해 데이터를 정규화 및 표준화할 방법이 많다. 이 과정을 '특징 확장'이라 부르곤 한다.

머신러닝을 위한 특징 엔지니어링
특징은 관찰되는 현상의 개별적인 측정 가능한 속성 또는 특성이다. ‘특징’의 개념은 선형 회귀 등의 통계 기법에 사용되는 설명 변수의 그것과 관련되어 있다. 특징 벡터는 단일 행의 모든 특징을 수치 벡터로 결합한다.

특징을 선택할 때의 핵심은 문제를 설명하는 최소한의 독립적인 변수 세트를 선택하는 것이다. 2개의 변수가 상호 긴밀히 관련된 경우 단일 특징으로 결합하거나 하나를 포기해야 한다. 상호 관련된 변수들을 상호 선형적으로 관련되지 않은 변수의 세트로 변환하는 주성분 분석을 수행할 때가 있다.

새로운 특징을 구성하거나 특징 벡터의 차원수를 줄이기 위해 사용하는 변형 일부는 단순하다. 예를 들어, <사망 연도(Year of Death)>에서 <출생 연도(Year of Birth)>를 빼고 <사망 당시의 연령(Age at Death)>을 구성하는 것은 수명 및 사망 분석을 위한 기본적인 독립적 변수다. 특징 구성이 그렇게 확실하지 않을 수도 있다.

보편적인 머신러닝 알고리즘
선형 회귀와 로지스틱 회귀부터 심층 신경망과 앙상블(기타 모델의 조합)까지 다양한 복잡성을 가진 수십 개의 머신러닝 알고리즘이 존재한다. 하지만 가장 보편적인 알고리즘은 다음과 같다.

• 선형 회귀, 일명 LSR(Least Squares Regression)(수치 데이터용)
• 로지스틱 회귀(2진 분류용)
• 선형 판별 분석(다중 카테고리 분류용)
• 결정 트리(분류 및 회귀용)
• 나이브 베이즈(Naïve Bayes)(분류 및 회귀용)
• KNN(K-Nearest Neighbors)(분류 및 회귀용)
• LVQ(Learning Vector Quantization)(분류 및 회귀용)
• SVM(Support Vector Machines)(2진 분류용)
• 랜덤 포레스트, 일종의 “배깅(Bagging)”(Bootstrap Aggregation) 앙상블 알고리즘(분류 및 회귀용)
• AdaBoost와 XGBoost 등의 부스팅 방법은 각각의 점진적인 모델이 이전 모델의 오류를 교정하려 시도하는 일련의 모델을 생성하는 앙상블 알고리즘이다(분류 및 회귀용).
• 신경망(분류 및 회귀용)

하이퍼파라미터 튜닝
하이퍼파라미터는 머신러닝 모델 안에서 튜닝 되는 웨이트와는 다른 자유 변수이다. 하이퍼파라미터는 알고리즘마다 다르지만 각 배치의 오류를 계산한 후 적용되는 교정의 규모를 통제하기 위해 사용하는 학습 계수가 포함되는 경우가 많다.

현재 많은 생산 머신러닝 플랫폼들이 자동 하이퍼파라미터 튜닝을 제공하고 있다. 기본적으로 시스템에 변경하고 싶은 하이퍼파라미터와 최적화하고 싶은 지표를 말하면 시스템이 이 하이퍼파라미터를 허용되는 횟수만큼 정리한다. (구글 클라우드 머신러닝 엔진의 하이퍼파라미터 튜닝은 텐서플로 모델에서 적절한 지표를 추출하기 때문에 이를 지정할 필요가 없다.)

하이퍼파라미터를 정리하는 주요 검색 알고리즘은 베이스 최적화, 그리드 검색, 무작위 검색 등 3가지이다. 베이스 최적화가 가장 효율적인 경향이 있다. 사용하고 있는 플랫폼이 자동화하지 않더라도 코드에서 자신만의 하이퍼파라미터 정리를 이행할 수 있다.

요약하자면 지도학습은 레이블이 적용된 훈련 데이터를 튜닝 된 예측 모델로 바꾼다. 그 과정에서 데이터를 정제하고 정규화하며 일련의 선형적으로 상호 연관되지 않은 특징을 엔지니어링하고 여러 알고리즘을 사용해 최고의 모델을 찾아야 한다. ciokr@idg.oc.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.