머신러닝 프로젝트를 망치는 '6가지 흔한 실수'

2016.11.08 Ryan Francis | Network World

머신러닝이 확산되면서 이를 둘러싼 시행착오도 늘어나고 있다. 여기 기업이 흔히 저지르는 머신러닝 실수들을 정리했다.

머신러닝은 더 이상 공상 과학 영화 속 이야기가 아니다. 시리나 알렉사 같은 음성인식부터 페이스북 자동 태그, 아마존 상품 추천에 이르기까지, 머신러닝은 우리 일상에 밀접히 닿아 있는 각종 기술의 이면에 자리하고 있다.

아울러 네트워크 효율성을 증대시키기 위해 머신러닝 알고리즘을 이용하려는 기업들도 늘고 있으며, 개중에는 위협 탐지와 광역 네트워크 최적화를 위해 머신러닝을 활용하고 있는 기업들도 있다.

그러나 여느 기술들이 그렇듯, 머신러닝 역시 잘못 이용하면 오히려 네트워크를 초토화 시킬 수도 있다. 성급하게 이 기술을 도입하기에 앞서, 머신러닝과 관련한 오해 및 실수를 미리 파악해야 할 이유다. 불상사를 피한다면 불필요한 시행착오도, C-레벨 경영자들이 머신러닝 기술에 고개를 돌리게 되는 일도 막을 수 있을 것이다.

주니퍼 네트웍스의 보안 지능 소프트웨어 엔지니어 로만 시나예브가 머신러닝과 관련한 6가지 흔한 실수를 소개했다.

중요한 변수를 간과
인간의 관점에서 보면 너무나 별 것 아닌 것까지도 컴퓨터는 변수로 넣고 계산을 한다. 때문에 최대한 다양한 변수와 잠재적 결과를 고려해 머신러닝 알고리즘을 배치해야 할 필요가 있다.

‘차량’ 이미지를 트럭과 승용차의 두 카테고리로 분류하는 모델을 예로 들어보자. 이 알고리즘에 트럭 사진은 전부 다 밤에 찍힌 사진만을 보여주고, 승용차 사진은 낮에 찍힌 사진들만을 보여준다면 어떻게 될까? 이 알고리즘 모델은 차종에 관계 없이 밤에 찍힌 차량은 전부 트럭으로 인식하게 된다.

주요 변수와 결과를 최대한 구체적으로 계산에 넣을수록 머신러닝 솔루션이 원치 않거나 예상치 못한 행동을 하는 것을 방지할 수 있다.

‘데이터 숙제’를 소홀히 하는 것
효율적인 통계 모델을 만들기 위해서는 분석 대상이 되는 데이터의 출처와 콜렉션을 이해하는 ‘숙제’와 같은 작업이 필요하다. 이러한 작업은 알고리즘 퍼포먼스에 영향을 미치는 변수와 잠재적 결과를 결정하는 데 아주 중요하다.

또 머신러닝 모델이 데이터를 엉뚱하게 분류한다면, 충분한 대표성과 전형성을 갖춘 데이터로 사전에 트레이닝 되지 않았기 때문일 수도 있음을 염두에 두어야 한다.

형식적이고 약식화된 검증
유용한 머신러닝 모델을 만드는 것에 있어 가장 중요한 것은 데이터 구조 트레이닝과 품질이다. 기업에 머신러닝을 릴리즈 하기 전, 데이터 과학자들은 모델의 효용성을 평가하기 위해 알고리즘 모델을 테스트하게 된다. 데이터는 꼼꼼하게 시각화 되어야 하며 모델 자체 트레이닝을 위한 새로운 데이터가 마련되어야 한다.

데이터 과학자들은 최소한의 데이터 세트를 이용해 최대한 빨리 테스트를 마치고 싶겠지만, 이렇게 시행된 테스팅이나 데이터 세트만으로는 알고리즘이 현실에서 마주치게 되는 정보를 품어내지 못 하기 십상이다.

알고리즘 모델을 제대로 테스트하기 위해서는 선택한 변수들에 대해 충분한 데이터 세트를 제공하는 것이 중요하다. 이 단계에서 데이터 피드가 많을 수록 알고리즘 성능이 확연히 개선되며 실전에 투입되었을 때 머신러닝 프로젝트가 제 몫을 해낼 수 있게 되기 때문이다.

잠재적 장애물 무시
프로젝트의 최종 단계가 뜻하지 않게 장애물로 작동할 수 있다. 유명한 일화가 있다. 한 기업에서 10대들의 언어 사용을 흉내 내는 소셜 미디어 봇을 출시했다. 소문을 듣고 몰려온 사용자들이 이 봇에게 의도적으로 혼란스러운 데이터를 피드했으며, 알고리즘은 이렇게 피드된 데이터를 학습된 행동의 일환으로 전용했다. 결국 이 기업은 채 24시간도 되지 않아 이 봇을 정지시켜야 했다.

물론 모든 프로젝트가 다 이처럼 대중을 상대로 진행되거나, 개방되는 것은 아니지만, 이런 참사를 막기 위해서는 알고리즘이 작동할 환경에 대해 이해하고 있어야 한다.

성급한 알고리즘 재설계
모델 테스팅 결과가 예상했던 것과 다르다면, 두 가지 선택에 직면하게 된다. 첫 번째는 학습 알고리즘 자체를 재설계하는 것이고, 두 번째는 더 많은 데이터를 모으는 것이다. 데이터가 많아질수록 모델의 수행 한계에 대한 명확히 이해할 수 있게 된다. 데이터를 수집하는 것이 어렵지 않다면 되도록 알고리즘을 재설계하는 것보다 제대로 된 결과가 나올 때까지 데이터를 피드하는 편이 더 쉬운 해결책일 수 있다.

앙상블 러닝 배제
앙상블 러닝(ensemble learning)은 최근 실제 적용 사례에서 성공적 결과를 보여준 알고리즘 중 하나로, 데이터 세트에 대해 다수의 모델을 이용해서 얻은 결과들을 조합하는 것을 말한다. 예를 들자면 로지스틱 회귀분석(logistic regression)과 같은 단순한 분류기(classifier) 다수를 이용해 단수의 분류기를 개별적으로 이용했을 때보다 모델의 예측 수행능력을 월등히 향상시키는 것이 있다.

---------------------------------------------------------------
머신러닝 인기기사
->요즘 화제 '챗봇'··· CMO가 알아야 할 7가지
->기계학습 구현을 쉽게!··· 머신러닝 프레임워크 13종
->기계 학습을 최대한 활용할 수 있는 11가지 오픈소스 도구
->유비쿼터스 AI 시대··· 머신러닝이 차세대 BI인 이유
->'인지, 신경, 딥, 머신?'··· AI 분야 기본 개념 따라잡기
->칼럼 | 성큼 도래한 유비쿼터스 AI 세상··· 마음의 준비를 'Her'하라
->기계 학습을 최대한 활용할 수 있는 11가지 오픈소스 도구
->인공지능의 무한질주···협상·테스팅에도 접목
---------------------------------------------------------------

ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

알고리즘 데이터 세트 머신러닝 테이 로만 시나예브 데이터 트레이닝 앙상블 학습

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점