2019.09.06

'머신러닝을 더 쉽게' 6가지 툴

Peter Wayner | CIO
‘머신러닝(ML)’이라는 말은 마법 같은 아우라로 가득 차 있다. 기계가 학습하도록 가르치기란 아직 일반인의 영역으로 보기 어렵다. 오늘날 이 용어는 데이터를 금으로 바꾸는 데이터 사이언티스트 같은 매우 전문적인 연금술사들의 영역이다.
 
ⓒ Image Credit : Getty Images Bank



단 이제 머신러닝 툴은 약간의 용기와 동기만 있다면 누구나 버튼을 눌러 기계가 중요한 것을 학습할 수 있도록 하는 수준으로 발전해가고 있다. 단번에 되는 정도는 아닐지언정 데이터를 모아 실행 가능한 통찰력으로 바꾸는 작업이 충분히 자동화되어가는 중이며, 동기를 가진 스마트한 사람들이라면 도전할만한 수준으로 진보했다. 

이런 느린 르네상스는 비즈니스 세계의 많은 사람들이 이미 데이터를 꽤 능숙하게 다루게 되면서 이뤄졌다. 숫자로 가득 찬 스프레드시트는 모든 비즈니스의 의사 결정자들의 언어다. 머신러닝을 다루게 해주는 각종 새로운 툴은 기본적으로 테이블 데이터를 유용한 답변으로 바꾸는 여러 전략과 옵션의 조합이다.

이 툴의 강점은 데이터 수집, 가능한 경우 구조와 일관성 추가, 계산 시작 등의 번거로운 작업을 처리할 수 있는 능력이다. 데이터 수집 과정과 정보를 행과 열로 유지하는 단조로운 작업이 간소화된다.

이 툴은 아직 이 모든 학습을 스스로 수행할 만큼 충분히 스마트하지 못하다. 적절한 질문을 던지고 적절한 곳을 살펴야 한다. 하지만 이 툴을 통해 더욱 신속하게 답을 얻을 수 있기 때문에 더 넓은 영역을 담당하고 더 많은 곳을 조사할 수 있게 된다. 

AutoML : 머신러닝의 민주화
최근 머신러닝 알고리즘 분야에는 추가적인 자동화 메타 계층이 수반된다는 의미의 새로운 유행어인 ‘AutoML’이 등장했다. 전통적인 알고리즘은 옵션과 파라미터가 많았다. 데이터 사이언티스트들은 종종 예측 가능성이 가장 높은 규칙을 찾을 때까지 이런 것들을 조정하느라 시간의 80-99%를 소요하곤 한다.

AutoML은 여러 옵션을 시도하고 시험한 후 추가적인 작업를 거쳐 이 단계를 자동화한다. 머신러닝 알고리즘을 한 번 실행하는 대신에 N회 실행하고 조정하며 N회 다시 실행한다. 예산, 돈, 또는 인내심이 허락하는 한 가능하다. 

클라우드에서는 AutoML 툴이 충분한 머신을 생성하여 병렬로 실행한 후 완료되었을 때 풀(Pool)로 되돌려 보낼 수 있다. 따라서 이 툴은 클라우드 컴퓨팅에 적합한 특성을 지닌다. 첨두 연산 시간에 대해서만 비용을 지불하면 되기 때문이다.

일반적으로 AutoML 알고리즘은 스스로 머신러닝을 연구하기 시작하는 사람들에게 좋은 옵션이다. 자동화는 결과 시험 전 기본적인 파라미터 설정 및 옵션 선택 작업 중 일부를 처리함으로써 작업을 간소화한다. 사용자가 더욱 발전하고 결과를 이해하기 시작하면서 이런 작업 중 하나를 처리하고 스스로 값을 설정할 수 있다.

최신 시스템은 머신이 학습할 수 있는 방법을 더 쉽게 이해할 수 있게 해준다. 전통적인 프로그래밍이 규칙과 데이터를 답변으로 바꾸는 경우 머신러닝 알고리즘은 역으로 작용하여 답변과 데이터를 규칙으로 바꿀 수 있다. 이 규칙을 통해 기업 속 깊은 곳에서 무슨 일이 벌어지고 있는지 배울 수도 있다. 이런 간소화될 툴을 개발하는 사람들은 알고리즘이 발견한 규칙과 더욱 중요한 결과를 재현하는 방법을 설명하는 인터페이스도 개발하고 있다. 

머신러닝을 더 쉽게 하는 6가지 툴
이 모든 기능 덕분에 숫자, 스프레드시트, 데이터를 다루는 사람들은 프로그래밍과 데이터 사이언스에 능하지 않고도 머신러닝의 세계에 들어갈 수 있게 되었다. 아래의 6가지 옵션은 숫자의 바다에서 머신러닝 알고리즘을 이용해 답을 찾는 과정을 간소화해주는 것들이다. 

스플렁크(Splunk)
스플렁크의 오리지널 버전은 현대적인 웹 애플리케이션이 생성한 대량의 로그 파일을 조사(또는 ‘탐구’)하는 툴로 시작됐다. 그 이후로 시계열 및 기타 순차 생성 데이터의 모든 형태를 분석하는 수준으로 발전했다. 이 툴은 복잡한 시각화 루틴을 통해 결과를 대시보드로 제공한다. 

최신 버전에는 데이터 소스를 텐서플로우 같은 머신러닝 툴 및 최고의 파이썬 오픈소스 툴과 통합하는 앱이 포함되어 있다. 이것들은 이상점을 감지하고 이상을 표시하며 미래의 값을 예측하는 간단한 솔루션을 제공한다. 매우 큰 데이터세트에서 단초를 찾는데 특화되어 있다.




2019.09.06

'머신러닝을 더 쉽게' 6가지 툴

Peter Wayner | CIO
‘머신러닝(ML)’이라는 말은 마법 같은 아우라로 가득 차 있다. 기계가 학습하도록 가르치기란 아직 일반인의 영역으로 보기 어렵다. 오늘날 이 용어는 데이터를 금으로 바꾸는 데이터 사이언티스트 같은 매우 전문적인 연금술사들의 영역이다.
 
ⓒ Image Credit : Getty Images Bank



단 이제 머신러닝 툴은 약간의 용기와 동기만 있다면 누구나 버튼을 눌러 기계가 중요한 것을 학습할 수 있도록 하는 수준으로 발전해가고 있다. 단번에 되는 정도는 아닐지언정 데이터를 모아 실행 가능한 통찰력으로 바꾸는 작업이 충분히 자동화되어가는 중이며, 동기를 가진 스마트한 사람들이라면 도전할만한 수준으로 진보했다. 

이런 느린 르네상스는 비즈니스 세계의 많은 사람들이 이미 데이터를 꽤 능숙하게 다루게 되면서 이뤄졌다. 숫자로 가득 찬 스프레드시트는 모든 비즈니스의 의사 결정자들의 언어다. 머신러닝을 다루게 해주는 각종 새로운 툴은 기본적으로 테이블 데이터를 유용한 답변으로 바꾸는 여러 전략과 옵션의 조합이다.

이 툴의 강점은 데이터 수집, 가능한 경우 구조와 일관성 추가, 계산 시작 등의 번거로운 작업을 처리할 수 있는 능력이다. 데이터 수집 과정과 정보를 행과 열로 유지하는 단조로운 작업이 간소화된다.

이 툴은 아직 이 모든 학습을 스스로 수행할 만큼 충분히 스마트하지 못하다. 적절한 질문을 던지고 적절한 곳을 살펴야 한다. 하지만 이 툴을 통해 더욱 신속하게 답을 얻을 수 있기 때문에 더 넓은 영역을 담당하고 더 많은 곳을 조사할 수 있게 된다. 

AutoML : 머신러닝의 민주화
최근 머신러닝 알고리즘 분야에는 추가적인 자동화 메타 계층이 수반된다는 의미의 새로운 유행어인 ‘AutoML’이 등장했다. 전통적인 알고리즘은 옵션과 파라미터가 많았다. 데이터 사이언티스트들은 종종 예측 가능성이 가장 높은 규칙을 찾을 때까지 이런 것들을 조정하느라 시간의 80-99%를 소요하곤 한다.

AutoML은 여러 옵션을 시도하고 시험한 후 추가적인 작업를 거쳐 이 단계를 자동화한다. 머신러닝 알고리즘을 한 번 실행하는 대신에 N회 실행하고 조정하며 N회 다시 실행한다. 예산, 돈, 또는 인내심이 허락하는 한 가능하다. 

클라우드에서는 AutoML 툴이 충분한 머신을 생성하여 병렬로 실행한 후 완료되었을 때 풀(Pool)로 되돌려 보낼 수 있다. 따라서 이 툴은 클라우드 컴퓨팅에 적합한 특성을 지닌다. 첨두 연산 시간에 대해서만 비용을 지불하면 되기 때문이다.

일반적으로 AutoML 알고리즘은 스스로 머신러닝을 연구하기 시작하는 사람들에게 좋은 옵션이다. 자동화는 결과 시험 전 기본적인 파라미터 설정 및 옵션 선택 작업 중 일부를 처리함으로써 작업을 간소화한다. 사용자가 더욱 발전하고 결과를 이해하기 시작하면서 이런 작업 중 하나를 처리하고 스스로 값을 설정할 수 있다.

최신 시스템은 머신이 학습할 수 있는 방법을 더 쉽게 이해할 수 있게 해준다. 전통적인 프로그래밍이 규칙과 데이터를 답변으로 바꾸는 경우 머신러닝 알고리즘은 역으로 작용하여 답변과 데이터를 규칙으로 바꿀 수 있다. 이 규칙을 통해 기업 속 깊은 곳에서 무슨 일이 벌어지고 있는지 배울 수도 있다. 이런 간소화될 툴을 개발하는 사람들은 알고리즘이 발견한 규칙과 더욱 중요한 결과를 재현하는 방법을 설명하는 인터페이스도 개발하고 있다. 

머신러닝을 더 쉽게 하는 6가지 툴
이 모든 기능 덕분에 숫자, 스프레드시트, 데이터를 다루는 사람들은 프로그래밍과 데이터 사이언스에 능하지 않고도 머신러닝의 세계에 들어갈 수 있게 되었다. 아래의 6가지 옵션은 숫자의 바다에서 머신러닝 알고리즘을 이용해 답을 찾는 과정을 간소화해주는 것들이다. 

스플렁크(Splunk)
스플렁크의 오리지널 버전은 현대적인 웹 애플리케이션이 생성한 대량의 로그 파일을 조사(또는 ‘탐구’)하는 툴로 시작됐다. 그 이후로 시계열 및 기타 순차 생성 데이터의 모든 형태를 분석하는 수준으로 발전했다. 이 툴은 복잡한 시각화 루틴을 통해 결과를 대시보드로 제공한다. 

최신 버전에는 데이터 소스를 텐서플로우 같은 머신러닝 툴 및 최고의 파이썬 오픈소스 툴과 통합하는 앱이 포함되어 있다. 이것들은 이상점을 감지하고 이상을 표시하며 미래의 값을 예측하는 간단한 솔루션을 제공한다. 매우 큰 데이터세트에서 단초를 찾는데 특화되어 있다.


X