Offcanvas

reinforcement learning

딥러닝의 한 갈래 '지도학습'이란?

머신러닝은 데이터로부터 자동으로 모델을 생성하는 알고리즘이 포함된 인공지능의 한 지류다. 머신러닝의 종류는 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning), 능동적 머신러닝(Active Machine Learning) 등 4가지가 있다. 강화학습과 능동적 머신러닝은 상대적으로 새롭기 때문에 이런 종류의 목록에서 생략될 때도 있다. 또한 반 지도학습(Semi-supervised Learning)도 목록에 포함해야 한다.   지도학습이란 무엇인가? 지도학습은 올바른 답변(목표 값)으로 태그된 학습 데이터부터 출발한다. 학습 과정 후 이미 태그되지 않은 유사한 데이터에 대한 답을 예측할 수 있는 조정된 웨이트를 가진 모델을 얻게 된다. 오버피팅이나 언더피팅 없이 정확도가 높은 모델을 훈련해야 한다. 정확도가 높다는 것은 손실 함수를 최적화했다는 뜻이다. 분류 문제 맥락에서 정확도는 모델이 올바른 출력을 생성하는 예의 비율이다. 오버피팅이란 모델이 관찰한 데이터와 너무 긴밀하게 연관되어 있어서 관찰하지 않은 데이터로 일반화하지 않는다는 뜻이다. 언더피팅은 모델이 데이터의 기본 트렌드를 포착할 만큼 충분히 복잡하지 않다는 뜻이다. 손실 함수는 모델의 ‘나쁨’을 반영하기 위해 선택한다. 최고의 모델을 찾기 위해 손실을 최소화한다. 수치적 (회귀) 문제의 경우 손실 함수는 MSE(Mean Square Error)인 경우가 많으며 RMSE(Root Mean Squared Error)나 RMSD(Root Mean Square Deviation)으로도 표현된다. 이는 데이터 포인트와 모델 곡선 사이의 유클리드 거리에 해당한다. 분류 (비수치적) 무제의 경우 손실 함수는 ROC 곡선 아래의 영역(AUC), 평균 정확도, 정밀도 기억, 로그 손실 등 일련의 조치 중 하나에 기초할 수 있다. (AUC와 ROC 곡선에 대한 설명은 아래를 참조한다). 오버...

통계 지도학습 비지도학습 능동적 머신러닝 Unsupervised Learning Supervised learning Active Machine Learning reinforcement learning 강화학습 신경망 데이터 정제 함수 인공지능 하이퍼파라미터

2019.06.21

머신러닝은 데이터로부터 자동으로 모델을 생성하는 알고리즘이 포함된 인공지능의 한 지류다. 머신러닝의 종류는 크게 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning), 능동적 머신러닝(Active Machine Learning) 등 4가지가 있다. 강화학습과 능동적 머신러닝은 상대적으로 새롭기 때문에 이런 종류의 목록에서 생략될 때도 있다. 또한 반 지도학습(Semi-supervised Learning)도 목록에 포함해야 한다.   지도학습이란 무엇인가? 지도학습은 올바른 답변(목표 값)으로 태그된 학습 데이터부터 출발한다. 학습 과정 후 이미 태그되지 않은 유사한 데이터에 대한 답을 예측할 수 있는 조정된 웨이트를 가진 모델을 얻게 된다. 오버피팅이나 언더피팅 없이 정확도가 높은 모델을 훈련해야 한다. 정확도가 높다는 것은 손실 함수를 최적화했다는 뜻이다. 분류 문제 맥락에서 정확도는 모델이 올바른 출력을 생성하는 예의 비율이다. 오버피팅이란 모델이 관찰한 데이터와 너무 긴밀하게 연관되어 있어서 관찰하지 않은 데이터로 일반화하지 않는다는 뜻이다. 언더피팅은 모델이 데이터의 기본 트렌드를 포착할 만큼 충분히 복잡하지 않다는 뜻이다. 손실 함수는 모델의 ‘나쁨’을 반영하기 위해 선택한다. 최고의 모델을 찾기 위해 손실을 최소화한다. 수치적 (회귀) 문제의 경우 손실 함수는 MSE(Mean Square Error)인 경우가 많으며 RMSE(Root Mean Squared Error)나 RMSD(Root Mean Square Deviation)으로도 표현된다. 이는 데이터 포인트와 모델 곡선 사이의 유클리드 거리에 해당한다. 분류 (비수치적) 무제의 경우 손실 함수는 ROC 곡선 아래의 영역(AUC), 평균 정확도, 정밀도 기억, 로그 손실 등 일련의 조치 중 하나에 기초할 수 있다. (AUC와 ROC 곡선에 대한 설명은 아래를 참조한다). 오버...

2019.06.21

'알파고를 만든' 강화 학습 이해하기

구글 딥마인드(DeepMind)의 알파고(AlphaGo)는 사람들에게 친숙한 이름이다. 알파고는 2015년 프로 2단 바둑 기사와의 시합에서 승리하면서 유명세를 탄 이후, 개선된 알파고 버전은 세계적인 프로 바둑 기사인 이세돌 9단과의 시합에서도 승리하고 2017년 5월에는 세계 랭킹 1위인 커제 바둑 기사와의 상대로도 이겼다. 2017년 후반 새로운 세대의 소프트웨어로 나온 알파제로(AlphaZero)는 기존 알파고보다 더욱 강력했으며 바둑뿐만 아니라 체스와 쇼기(일본식 장기)도 학습했다. 알파고와 알파제로는 모두 강화 학습(reinforcement learning)을 통해 학습한다. 또한 강화 학습 네트워크의 일부로 심층신경망을 사용해 결과 가능성을 예측한다. 이번 기사에서는 강화 학습이 어떻게 사용되고 어떻게 작동하는지를 전체적인 관점에서 설명하고, 이후 알파고와 알파제로를 다시 살펴보자(계산이나 마르코프 결정 프로세스(Markov Decision Process), 알고리즘의 복잡다단한 세부 사항까지 다루지는 않는다).    강화 학습이란  머신러닝에는 비지도 학습(unsupervised learning), 지도 학습(supervised learning), 강화 학습(reinforcement learning)의 세 가지 종류가 있다. 각 학습은 서로 다른 종류의 문제 해결에 유용하다. 비지도 학습은 레이블이 없는 완전한 데이터 집합에서 작동하며 데이터의 구조를 밝혀내는 데 유리하다. 클러스터링, 차원 축소, 특성 학습, 밀도 추정 등에 사용된다. 지도 학습은 레이블이 있는 완전한 데이터 집합에서 작동하며 개별 데이터에 대한 분류 모델과 연속 데이터에 대한 회귀 모델을 만드는 데 유리하다. 지도 학습으로 생산되는 머신러닝 또는 신경망 모델은 일반적으로 예측에 사용된다. 예를 들어 "이 대출자가 대출금을 갚지 않을 가능성은 얼마나 되는가" 또는 "다음 달 얼만큼의 재고를 보유해야 하는가&qu...

머신러닝 알파고 강화학습 reinforcement learning 알파제로

2019.06.12

구글 딥마인드(DeepMind)의 알파고(AlphaGo)는 사람들에게 친숙한 이름이다. 알파고는 2015년 프로 2단 바둑 기사와의 시합에서 승리하면서 유명세를 탄 이후, 개선된 알파고 버전은 세계적인 프로 바둑 기사인 이세돌 9단과의 시합에서도 승리하고 2017년 5월에는 세계 랭킹 1위인 커제 바둑 기사와의 상대로도 이겼다. 2017년 후반 새로운 세대의 소프트웨어로 나온 알파제로(AlphaZero)는 기존 알파고보다 더욱 강력했으며 바둑뿐만 아니라 체스와 쇼기(일본식 장기)도 학습했다. 알파고와 알파제로는 모두 강화 학습(reinforcement learning)을 통해 학습한다. 또한 강화 학습 네트워크의 일부로 심층신경망을 사용해 결과 가능성을 예측한다. 이번 기사에서는 강화 학습이 어떻게 사용되고 어떻게 작동하는지를 전체적인 관점에서 설명하고, 이후 알파고와 알파제로를 다시 살펴보자(계산이나 마르코프 결정 프로세스(Markov Decision Process), 알고리즘의 복잡다단한 세부 사항까지 다루지는 않는다).    강화 학습이란  머신러닝에는 비지도 학습(unsupervised learning), 지도 학습(supervised learning), 강화 학습(reinforcement learning)의 세 가지 종류가 있다. 각 학습은 서로 다른 종류의 문제 해결에 유용하다. 비지도 학습은 레이블이 없는 완전한 데이터 집합에서 작동하며 데이터의 구조를 밝혀내는 데 유리하다. 클러스터링, 차원 축소, 특성 학습, 밀도 추정 등에 사용된다. 지도 학습은 레이블이 있는 완전한 데이터 집합에서 작동하며 개별 데이터에 대한 분류 모델과 연속 데이터에 대한 회귀 모델을 만드는 데 유리하다. 지도 학습으로 생산되는 머신러닝 또는 신경망 모델은 일반적으로 예측에 사용된다. 예를 들어 "이 대출자가 대출금을 갚지 않을 가능성은 얼마나 되는가" 또는 "다음 달 얼만큼의 재고를 보유해야 하는가&qu...

2019.06.12

2016년 실험실 밖으로 나온 인공지능 툴

“자꾸 컴퓨터를 의인화하는데, 그러지 마. 그 친구들은 그런 거 싫어해.” 이 농담은 1997년 딥블루가 세계 체스 챔피언 게리 카스파로프(Garry Kasparov)를 상대로 체스 게임에서 우승했던 이야기만큼이나 오래된 것이다. 물론 그동안 인공지능 분야에서 많은 발전이 있기는 했지만, 아직도 컴퓨터의 ‘감정’에 대해 걱정해야 할 단계는 아니다. 로보이( Roboy)의 머리에 있는 프로젝터는 감정을 나타내는 데 쓰일 수 있다. 입이 내려가고 만화에서 화난 상태를 표현할 때처럼 로봇의 눈과 볼이 빨갛게 변하기도 한다. Credit: Peter Sayer / IDG News Service 컴퓨터는 소셜 미디어에 올라간 사람들의 감정 표현을 분석할 수도 있고, 또 그런 것을 로봇의 얼굴에 투영해 마치 화가 나거나 기쁜 듯한 표정을 짓게 할 수도 있지만, 그렇다고 해서 진짜로 로봇이 감정을 느낀다고 믿는 사람은 없다. 반면 지난 1년간 인공지능의 다른 분야들은 소프트웨어 및 하드웨어 측면에서 놀라울 만큼의 발전을 거두었다. 딥블루는 세계적인 체스 챔피언과 대결해 이겼지만 그렇다고 거만해지거나 뻐기지도 않았고, 졌다고 해서 화가 나 씩씩거리지도 않았다. 작년까지만 해도 바둑에서 인공지능은 인간의 상대가 되지 못한다고 생각했다. 그 생각은 지난 3월, 구글의 딥마인드가 개발한 알파고가 세계적인 바둑 고수 이세돌과의 대국에서 4:1의 승리를 거둠에 따라 완전히 깨지게 됐다. 알파고의 비밀 무기는 바로 강화학습(reinforcement learning)으로서, 목표 달성에 유리한 행위가 무엇인지를 프로그램이 스스로 깨달아 그러한 행위를 강화하는 메커니즘이다. 때문에 사람이 개입하여 어떤 선택이 옳은지를 일일이 가르칠 필요가 없다. 강화학습 덕분에 알파고는 자기 자신을 상대로 끊임없이 대국을 두어 더 나은 전략을 찾아낼 수 있었다. 강화학습 기술 역시 십수 년 전부터 있었던 것이지만, ...

구글 reinforcement learning 강화학습 파워AI 딥블루 이세돌 바둑 알파고 텐서플로우 딥마인드 로봇 체스 인공지능 엔비디아 애저 마이크로소프트 IBM 아마존 ASICs

2016.12.27

“자꾸 컴퓨터를 의인화하는데, 그러지 마. 그 친구들은 그런 거 싫어해.” 이 농담은 1997년 딥블루가 세계 체스 챔피언 게리 카스파로프(Garry Kasparov)를 상대로 체스 게임에서 우승했던 이야기만큼이나 오래된 것이다. 물론 그동안 인공지능 분야에서 많은 발전이 있기는 했지만, 아직도 컴퓨터의 ‘감정’에 대해 걱정해야 할 단계는 아니다. 로보이( Roboy)의 머리에 있는 프로젝터는 감정을 나타내는 데 쓰일 수 있다. 입이 내려가고 만화에서 화난 상태를 표현할 때처럼 로봇의 눈과 볼이 빨갛게 변하기도 한다. Credit: Peter Sayer / IDG News Service 컴퓨터는 소셜 미디어에 올라간 사람들의 감정 표현을 분석할 수도 있고, 또 그런 것을 로봇의 얼굴에 투영해 마치 화가 나거나 기쁜 듯한 표정을 짓게 할 수도 있지만, 그렇다고 해서 진짜로 로봇이 감정을 느낀다고 믿는 사람은 없다. 반면 지난 1년간 인공지능의 다른 분야들은 소프트웨어 및 하드웨어 측면에서 놀라울 만큼의 발전을 거두었다. 딥블루는 세계적인 체스 챔피언과 대결해 이겼지만 그렇다고 거만해지거나 뻐기지도 않았고, 졌다고 해서 화가 나 씩씩거리지도 않았다. 작년까지만 해도 바둑에서 인공지능은 인간의 상대가 되지 못한다고 생각했다. 그 생각은 지난 3월, 구글의 딥마인드가 개발한 알파고가 세계적인 바둑 고수 이세돌과의 대국에서 4:1의 승리를 거둠에 따라 완전히 깨지게 됐다. 알파고의 비밀 무기는 바로 강화학습(reinforcement learning)으로서, 목표 달성에 유리한 행위가 무엇인지를 프로그램이 스스로 깨달아 그러한 행위를 강화하는 메커니즘이다. 때문에 사람이 개입하여 어떤 선택이 옳은지를 일일이 가르칠 필요가 없다. 강화학습 덕분에 알파고는 자기 자신을 상대로 끊임없이 대국을 두어 더 나은 전략을 찾아낼 수 있었다. 강화학습 기술 역시 십수 년 전부터 있었던 것이지만, ...

2016.12.27

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.13