AI / How To / 로봇|자동화 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스

우리 회사는 AI·머신러닝에 준비돼 있을까?··· '10가지 체크리스트'

2017.08.31 Martin Heller | CIO

인공지능, 머신러닝에 대한 기업들의 기대가 크다. 여기에는 이를 활용해 수익을 창출할 수 있을 것이라는 기대도 포함돼 있다. 그러나 현실은 꼭 그런 것만도, 그렇지 않은 것만도 아니다. 오늘은 인공지능을 다룰 만한 준비가 되었는지 자가 진단할 수 있는 기준을 소개하고, 만일 아직 준비가 안 되었다면 어떻게 그 준비를 마칠 수 있을지에 대해 살펴본다.

우선, 인공지능을 통해 예측 또는 탐지하고자 하는 대상이 분명히 정해져 있는가? 예측 모델을 만들고 분석하기 위한 충분한 데이터를 수집 하였는가? 이러한 모델들을 정의하고 교육할 적절한 인재와 툴을 확보 하였는가? 또 예측의 기초가 되어 줄 통계적, 물리적 모델이 있는가?

오늘은 AI 및 MI 프로젝트 성공에 필요한 것들을 살펴보고, 머신러닝 및 딥러닝, 인공지능을 활용할 준비가 되었는지를 판단하는 몇 가지 기준에 대해 소개해본다.

- 충분한 데이터는 확보했는가?
- 데이터 과학자를 충분히 채용하고 있는가?
- 중요 요인들을 추적하고 관찰할 수 있는가?
- 데이터를 청소, 변형할 수 있는 방법을 보유하고 있는가?
- 데이터에 대해 통계 분석을 마쳤는가?
- 최적의 모델을 찾기 위해서 다양한 접근을 시도하고 있는가?
- 딥러닝 모델 교육을 위한 컴퓨팅 역량을 확보했는가?
- 수립한 ML 모델이 통계 모델을 능가하는가?
- 예측 모델을 배치할 수 있는가?
- 주기적으로 모델을 업데이트 할 수 있는가?

충분한 데이터는 확보했는가?
관련 데이터가 충분한지 여부는 예측 및 기능 식별의 필요 조건이라 할 수 있다. 이러한 데이터가 충분히 갖춰지지 않으면 성공은 아예 불가능하다. 얼마만큼의 데이터가 필요할까? 더 많은 요소를 고려하고 있을 수록 필요한 데이터 양도 많아진다. 그것이 평범한 통계 예측이건, 머신러닝이나 딥러닝이건 말이다.

예를 들어 다음 달 마이애미에서 네이비 색상의 반팔 블라우스가 얼마나 판매될지를 예측한다고 해보자. 그리고 이를 위해 마이애미 매장과 애틀란타의 물품 창고에 얼마만큼의 재고를 비축해 두어야 백 오더를 방지하고 수요량에 맞는 재고를 유지할 수 있을지를 알고자 한다.

리테일 업체들의 판매량은 특히 계절을 많이 타기 때문에 과거 수 년 동안 축적되어 온 월별 판매 통계 데이터가 있어야만 월별, 그리고 연간 트렌드를 정확히 파악할 수 있게 된다. 물론 이는 어디까지나 표준적인 시계열 분석일 때의 이야기이고, 머신러닝을 이용하려면 통계 모델보다 더 많은 데이터를, 딥러닝은 그보다 몇 배는 더 많은 데이터를 필요로 한다.

지난 5년간 한 의류 판매 체인의 월별 블라우스 판매량을 분석하는 통계 모델이 있다고 해 보자. 이 모델은 이러한 데이터를 분석하여 다음 달 총 블라우스 판매량을 예측하고자 한다. 판매량은 아마 10만 벌 단위일 것이다(분석 결과 약 30만 벌의 판매량이 예측 되었다고 가정해 보자).

이 경우 마이애미 매장의 블라우스 판매량은 전국 판매량 대비 특정 비율(예컨대 3% 정도)이 될 것이고 이와 별개로 전체 블라우스 판매량 중 반팔 블라우스 판매량이 차지하는 비율은 약 1% 가량 될 것이라고 예측할 수 있다. 이러한 계산을 통해 다음 달 마이애미 매장에서 판매될 반팔 블라우스는 약 90벌 정도임을 예측할 수 있게 된다. 그리고 과거 판매량 통계를 통해 매년 동일한 월에 특정 제품의 판매량이 예측치와 얼마나 일치하는지를 살펴보면 예측의 정확도를 어느 정도 확신할 수 있다.

이제 날씨나 패션 트렌드와 같은 외생 변수들을 계산에 넣어 보자. 반팔 블라우스는 덥고 햇볕이 쨍한 기후에서 많이 팔릴까, 아니면 서늘하고 비가 잦은 기후에서 자주 팔릴까? 아마도 전자일 것이다. 이를 확인하려면 과거 기후 데이터를 분석 모델에 포함시키면 된다.

그러나 이러한 분석은 시계열 통계 모델만으로는 하기가 조금 벅찬 측면이 있으므로, 디시젼 포레스트(decision forest) 회귀 분석을 시도해 봐도 좋다. 또 그렇게 한 김에 다른 7가지 머신러닝 모델을 회귀 분석에 활용해 볼 수도 있을 것이다(상단 스크린샷 참조). 그리고 각 모델의 예측 결과를 지난해의 실제 데이터와 비교해 최선의 모델을 찾아낸다.

작년 동월 대비 다음달의 네이비 블루 색상 판매량이 줄어들까, 늘어날까? 이것이 궁금하다면 네이비 색상 옷의 월별 판매량 데이터를 분석한 후 연간 패션 트렌드를 예측하여 이를 머신러닝 모델에 적용할 수 있다. 경우에 따라 패션 산업 종사자나 미디어 등 해당 분야 전문가들의 조언을 반영하여 예측 분석 과정에 ‘인적 요소(만일의 경우에 대비해 예측치를 20% 가량 높게 잡는 등)’를 적절히 반영할 수도 있을 것이다.

심층 뉴럴 네트워크의 형성은 예측의 정확도를 더욱 높여준다. 숨겨진 레이어를 추가할 때마다 회귀 분석 에러가 조금씩 개선되다가, 일정 수준에 다다르면 더 이상의 레이어 추가가 정확도 개선에 별다른 기여를 하지 못하는 시점이 온다. 이는 모델 내에 더 이상 인지할만한 특징이 없거나, 더 이상 구체적인 분석을 가능케 할 정도의 데이터가 부족하기 때문이다.

데이터 과학자를 충분히 채용하고 있는가?
앞서 언급한 예측 모델은 모두 사람이 직접 만들어야 하는 것들이다. 하지만 데이터 분석은 단순히 데이터 뭉치를 입구에 쏟아 붓고 ‘분석’ 버튼을 누르는 것으로 끝나지 않는다. 사용하는 툴과 관계 없이, 머신러닝을 통해 유의미한 결과물을 얻기 위해서는 경험과 직관, 프로그램 능력과 통계학에 대한 수준 높은 지식이 요구된다.

벤더들 중에는 ‘누구나', ‘직무에 관계 없이’ 자신들의 응용 머신러닝 모델을 사용할 수 있다고 광고하는 이들이 있다. 예를 들어 퀘벡식 불어를 영어로 번역하는 등, 당장 코앞에 닥친 구체적인 하나의 문제만을 해결해야 하는 상황이라면 그것이 가능할 지도 모른다. 그러나 실생활에서는 기존의 머신러닝 모델과 데이터가 잘 들어맞지 않는 경우가 훨씬 더 많다. 아직까지 엔지니어링이나 과학보다는 개인의 ‘기술’이 더 크게 좌우하는, 모델을 교육하는 과정에 이러한 교육을 주도할 데이터 애널리스트와 데이터 과학자가 필요한 이유가 여기에 있다.

데이터 과학자를 채용할 때 가장 이해가 되지 않는 부분이 바로 지원자에게 요구하는 자질들이다. 이런 기술들은 실제로 현장에서 요구되는 기술들과도 동떨어져 있다. 채용 공고는 보통 ‘STEM Ph.D, 20년 이상 경력자 채용’ 등을 담고 있다. 하지만 몇몇 문제가 있다.

우선 데이터 과학이라는 분야 자체가 생긴 것이 20년이 채 되지 않는다. 게다가 기업들은 채용 공고에서는 20년 이상 경력을 요구해 놓고도 실제로 그 정도 경력자를 채용할 경우 비용이 너무 많이 들 것을 우려해 20대 중, 후반의, 막 대학원을 졸업한 청년을 뽑는 경우가 허다하다. 위선적인 태도인 게 분명하고 어쩌면 나이를 기준으로 한 불법적 차별 행위 일수도 있겠지만, 현실에서 일어나는 채용 실태는 이렇다.

중요 요인들을 추적하고 관찰할 수 있는가?
충분한 데이터를 확보하고, 이를 모델에 적용할 데이터 과학자 채용까지 마쳤다 해도 모든 관련 변수들에 대한 데이터를 다 확보하고 있는 것은 아닐 것이다. 쉽게 말해 열은 다 찼는데 행은 여기저기 비어 있는 상황이다. 통계적으로도 설명되지 않은 가변성이 남아 있을 수 있다.

기상 관측과 같은 독립 변수의 측정은 아주 쉽게 이루어 질 수 있으며 데이터 세트로의 통합도 수월하다. 그러나 개중에는 통합이 어렵고, 실용적이지 못하거나 측정에 많은 비용이 들어가는 변수들도 있다.

화학을 빌어 예를 들어 보자. 구리에 납을 입힐 때 붕불산 도금액의 농도와 온도를 측정해 애노드 전반의 볼티지를 기록할 수는 있지만, 도금액에 충분한 펩티드가 없으면 제대로 붙지 않는 것과 마찬가지 이치다. 도금액에 포함될 펩티드 양을 제대로 측정해 두지 않았다면 이 핵심 촉매제가 얼마만큼 포함되었는지 알 수 없기 때문에 다른 변수들을 통해 도금 품질의 분산, 편차를 설명하기 어려워진다.

데이터를 청소, 변형할 수 있는 방법을 보유하고 있는가?
데이터에는 언제나 변수가 존재한다. 측정에는 언제나 한두 가지 값이 빠져 있을 수 있고, 개별 값들이 독립적으로 다른 값들과 조화를 이루지 못하거나 일관성이 없을 수 있다. 전자적 측정은 전기적 잡음으로 인해 정확도가 떨어질 수 있다. 또한 질문에 답한 사람들이 질문을 제대로 이해하지 못했거나, 성실하게 답변하지 않았을 가능성도 존재한다.

모든 분석 프로세스에서 데이터 필터링은 가장 많은 노력이 요구되는 단계이다. 경험상 전체 분석에 걸리는 시간의 80%~90%는 바로 데이터 필터링에 소요된다. ETL(extract, transform, load) 프로세스에서 데이터를 청소해 애널리스트들이 불량 데이터를 배제하고 볼 수 있도록 하는 기업도 있지만, 모든 데이터를 선별하지 않고 데이터 웨어하우스나 데이터 레이크에 모아두는 경우도 적지 않다. 즉, 시간이 흐를수록 데이터 필터 및 변형 능력이 더욱 다듬어 질 것이라는 믿음 하에 오염된 데이터들도 함께 저장되고 있는 것이다.

필터링을 거친 정확한 데이터조차도 분석 전에 약간의 변형이 필요할 수 있다. 통계 분석 방식과 마찬가지로, 머신러닝 모델 역시 각각의 가능한 상태들에 대하여 유사한 수의 열이 존재할 때 최적의 기능을 발휘한다. 이는 랜덤 샘플링을 통해 가장 빈번하게 등장하는 상태들의 수를 축소시킴을 의미한다. 또한 통계 모형과 마찬가지로, ML 모형 역시 모든 변수가 정상화 된 상태에서 가장 최적의 기능을 발휘할 수 있다.

예를 들어 코타나 머신러닝(Cortana ML)을 통한 트럼프와 클린턴의 대선 캠페인 분석은 레이블을 생성하고, 데이터를 프로세싱하며, 부가적 기능들을 엔지니어링 하고, 데이터를 청소하는 일련의 과정을 통해 어떻게 머신러닝에 필요한 데이터 세트을 준비해야 하는가를 여실히 보여주었다. 이 분석에 대한 논의는 마이크로소프트 블로그 포스트를 통해 이뤄지고 있다.

이 분석은 SQL과 R에서 여러 데이터 변형을 거치고 있다. 이는 각 후보의 대선 캠페인과 관련된 여러 위원회, 대선 기금 등을 식별하고 이름을 바탕으로 기부자의 성별을 분석하며, 오타를 수정하고, 클래스 간 불균형을 바로잡기 위한 것이다. (데이터 세트에 따르면 전체 송금의 94% 가 소액 기부로 클린턴에게 보내진 것이었다). 이 샘플의 결과를 이중 클래스 로지스틱 회귀 분석 모델에 적용하는 방법에 대해 애져(Azure) ML 스튜디오를 위한 ‘시작하기’ 튜토리얼에 설명해 두었다.

회원 전용 콘텐츠입니다. 이 기사를 더 읽으시려면 로그인 이 필요합니다. 아직 회원이 아니신 분은 '회원가입' 을 해주십시오.

애널리틱스 데이터 과학자 머신러닝 프로젝트 통계 모델

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점

Offcanvas

우리 회사는 AI·머신러닝에 준비돼 있을까?··· '10가지 체크리스트'

Sponsored

댓글

추천 테크라이브러리

인터뷰 | “‘친환경+AI’ 앞세워 데이터센터 새바람 이끌 것”··· 엠피리온 디지털 최고전략책임자 최용석

일문일답 | “AI 기반 옵저버빌리티, IT 넘어 기업 전반에서 중요해질 것” 다이나트레이스 이효은 지사장

인터뷰 | “위기에서 기회를 보다’ 아이브릭스 채종현 대표가 전하는 ‘비즈니스 AI’ 이야기

인터뷰 | 빠른 대용량 편집기 ‘엠에디터’를 아시나요? ··· 40년 경력의 개발자 에무라 유타카 대표

일문일답 | 브로드컴 앤디 날라판 CIO·CTO·CSO가 말하는 클라우드 성공 노하우