김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (12)

2019.09.27 김진철 | CIO KR

세번째로, 데이터 과학 프로젝트의 기획안과 수행 계획은 한번에 만들어지기 어려울 수 있음을 경영진과 의사 결정자들이 이해할 필요가 있으며, 이로 인해 데이터 과학 프로젝트를 기획하고 실행 계획을 수립하는 과정 자체는 체계적으로 반복적인 프로세스를 따라 구체화되는 구조로 진행되는 것이 좋다.

한번의 데이터 과학 프로젝트로 기업의 모든 업무가 데이터를 기반으로 자동화되어 우리가 풀기 어려워하는 경영 현안에 대한 해답들이 컴퓨터로부터 척척 나오는 시스템이 구축될 수 있다면 얼마나 좋겠는가? 어쩌면 이렇게 우리의 비즈니스가 부딪히는 문제에 대한 해결책을 다양한 빅데이터를 통해 분석한 결과를 통해 조언해주는 인공지능 기술이 미래에 등장할 수 있을지도 모르겠다. 하지만, 아직 이런 인공지능 기술을 우리가 가지고 있지 않기 때문에 데이터 과학자와 데이터 과학팀이 기업 경영에 필요하다. 데이터 과학자와 데이터 과학팀이 시장과 비즈니스 환경에 대한 정보를 꾸준히 관찰, 모니터링하면서 지속적인 데이터 분석을 통해 시장과 비즈니스에 대한 통찰과 정보를 업데이트해주는 것이 필요한 것이다.

데이터 과학 프로젝트에서 가장 어려운 문제 중의 하나는 기업의 경영 이슈가 반복적으로 같은 형태의 문제로 발견되기도 하지만, 다양한 변수 때문에 자주 변하는 시장 환경 때문에 기업 경영의 현안이 적절한 시간을 두고 자주 변하게 된다는 것이다. 기업 비즈니스 모델의 특성으로 인해 근본적으로 변하지 않고 같은 분석 로직을 반복적으로 활용하여 얻을 수 있는 해결책이 있는가 하면, 시장의 변화 때문에 만들어진 데이터 분석 모델이 한시적으로 적용될 수밖에 없어 시장과 경영 지표에 대한 분석 모델을 시장 상황에 따라 정기적으로 업데이트하고 수정하는 일이 필요할 경우도 있다.

아마도 이렇게 시장 상황의 변화에 따른 주요 변수를 이용한 분석과 예측 모델의 변경을 가장 많이 경험하고 실제로 활용하는 분야는 잘 알려진 주요 투자은행과 금융상품 운용을 하는 증권회사와 같은 금융회사들일 것이다. 실제로 미국 월가의 주요 투자은행과 자산운용회사들은 주가를 비롯한 자산 가격 지표와 주요 시장 상황을 반영하는 다양한 경제 지표를 예측하고 이를 투자에 활용하기 위해서 가장 많이 데이터 분석과 예측 모델을 활용한다. 데이터 분석과 IT 기술의 수요와 활용 수준이 금융 산업에서 가장 높은 것도 우연이 아니며, 최근 금융회사들은 자연어 처리 및 감성 분석 등의 최신 인공지능 기술도 시장 상황을 분석, 예측하기 위한 빅데이터 분석에 수시로 활용하기도 한다.

데이터 과학팀은 이런 시장 상황의 변화를 데이터 분석 모델에 주기적으로 반영하여 데이터 분석 모델이 시장 상황을 정확하게 반영하여 의사 결정의 정확도를 높일 수 있도록 지속해서 수정, 관리할 필요가 있다. 아마도 데이터 과학팀이 가장 많이 수행해야 하는 업무 중의 하나는 이렇게 이미 운영되고 있는 데이터 분석 모델을 시장 상황에 따라 주기적으로 업데이트하여 그 효과를 평가하고, 이렇게 업데이트된 데이터 분석 모델을 통해 제공되는 의사 결정 지원 정보들이 얼마나 기업 경영진의 정확한 의사 결정에 효과적으로 활용되고 있는지 점검하는 것일 것이다.

이렇게 시장의 변화에 따라 변화하는 정보에 능동적으로 대응하여 기업의 의사 결정이 기민하게 이루어지기 위해서는 데이터 과학 프로젝트가 한번의 큰 프로젝트로 기획되는 것은 적절하지 않다. 시장의 변화가 기업의 비즈니스 모델에 주는 영향을 꾸준히 관찰하고 모니터링하면서 비즈니스 모델의 적절한 작동 여부를 체계적으로 평가할 수 있도록 데이터 분석 논리와 기법을 지속적이고 반복적인 방법으로 변경하고 개선하여 변화를 수용할 수 있도록 하는 것이 데이터 과학 프로젝트가 기업 경영 환경에 맞게 운영되는 방법이다.

이렇게 데이터 과학팀은 데이터 과학 프로젝트가 지속해서 변화하는 시장에서 오는 정보에 체계적이고(systematically) 반복적으로(iteratively) 적응하고 개선될 수 있도록 프로젝트를 기획하고 관리할 필요가 있다. 이렇게 시장과 비즈니스 환경의 변화를 능동적으로 수용하여 데이터 과학 프로젝트를 관리할 수 있도록 하는 프로젝트 관리 방법론도 아울러 필요하다.

네번째로, 데이터 과학 프로젝트를 수행하는 과정은 많은 경우 데이터 엔지니어나 소프트웨어 엔지니어들과 협업이 필수적인 경우가 많기 때문에 이들 소프트웨어 엔지니어들과 협업을 염두에 두고 프로젝트 계획을 수립해야 한다는 것이다.

데이터 과학 프로젝트가 어려운 것은 여러 가지 성격의 프로젝트 특성이 같이 나타난다는 것이다. 우선 경영 현안을 관찰, 진단하고 해결책을 모색하는 컨설팅 및 경영 연구, 조사 프로젝트의 성격을 가지고 있다. 기업 경영과 비즈니스의 현안을 수학적 모델과 데이터를 통해 분석하고 그 해결책을 찾기 위해서는 프로젝트를 의뢰한 기업의 운영과 비즈니스 상황을 다양한 지표와 방법을 통해 관찰하고 진단할 필요가 있다. 이런 측면에서는 데이터 과학자들이 경영 컨설턴트와 비슷한 역할을 하게 된다.

이와 함께 데이터 과학 프로젝트에서 정의된 문제를 풀기 위해서는 데이터 분석을 위한 시스템과 소프트웨어를 개발해야 한다. 데이터 분석을 위한 시스템을 개발하는 일의 상당 부분은 소프트웨어 엔지니어들이 담당하고, 데이터 과학자들은 데이터 수집, 가공, 분석과 관계된 소프트웨어 모듈의 설계와 개발을 데이터 엔지니어들과 같이 대부분 수행하겠지만, 그럼에도 불구하고 데이터 과학 프로젝트에서 상당한 부분은 소프트웨어 개발에 관련된 것이다.

마지막으로 중요한 데이터 과학 프로젝트의 또 하나의 특성은 수학적 모델링과 산업 및 비즈니스 도메인 지식에 근거한 경영 현안에 대한 가설 설정과 모델링, 문제 해결의 기초가 되는 이론, 분석 방법론 수립 과정이다. 이런 과정은 전형적인 과학, 공학의 연구 과정이다. 즉 데이터 과학 프로젝트는 이공학의 전형적인 이론, 시뮬레이션을 통한 연구 프로젝트의 특성도 가지고 있다.

이렇게 데이터 과학 프로젝트의 중요한 세가지 측면 중 가장 많은 시간이 소요되고 중요한 산출물을 만드는 부분은 데이터 분석 시스템과 분석 소프트웨어 개발일 것이다. 물론 문제를 효과적이고 정확하게 정의하고, 이를 풀 수 있는 문제로 가설을 세우고 분석할 수 있는 모델링과 이론, 분석 방법론을 수립하여 데이터 분석의 결론을 내리고 통찰을 얻는 부분이 중요성에서는 더 중요하다. 필자가 의미하는 것은 데이터 과학 프로젝트의 상당 시간이 데이터 분석의 결론과 통찰을 얻는데 중요한 데이터 수집, 가공, 처리 분석 과정을 자동화하고 분석 내용이 비즈니스 및 운영 지원 시스템과 연계되어 비즈니스 자동화 시스템으로 발전하도록 하는 데 꼭 필요한 시스템 및 소프트웨어 개발에 할애된다는 것이다.

이렇게 데이터 과학 프로젝트의 상당 시간이 소프트웨어 개발에 할애되기 때문에 프로젝트의 성패는 소프트웨어 개발 과정을 어떻게 효과적으로 관리하는가에 상당 부분 달려있다고 볼 수 있다. 데이터 과학 프로젝트가 성공하기 위해서는 소프트웨어 엔지니어들과 협업을 염두에 두고 소프트웨어 개발 과정을 데이터 과학 업무와 같이 효과적으로 관리할 수 있게 해주는 프로젝트 관리 체계가 필요하다.

다섯번째로, 데이터 과학 프로젝트를 수행하는 과정에서 자원 계획을 구체적으로 수립하기 어렵다는 것을 고려해서 클라우드를 적극적으로 활용하는 것을 염두에 두고 비용과 자원 계획을 수립해야 한다는 것이다.

최근 클라우드 컴퓨팅 기술이 안정화되고 성숙하면서 제2의 중흥기를 맞고 있는 것 같다. 보통 가트너의 하이프사이클(hype-cycle)에 따른 기술 성숙의 주기를 보면 성숙(“Slope of enlightenment”), 안정기(“Plateau of productivity”)에는 기술에 대한 기대치가 과도하게 최고조에 이르는 “과도한 기대의 정점(Peak of inflated expectation)” 시점보다는 언론과 미디어의 관심을 크게 덜 받는 경우가 많다. “과도한 기대의 정점”을 지난 클라우드 컴퓨팅이 최근 아마존 웹 서비스(AWS), 마이크로소프트의 애저(Azure), 구글 클라우드와 같은 퍼블릭(public) 클라우드 서비스를 중심으로 IT산업계 전반에서 상당히 많은 관심을 모으고 있다.

클라우드 서비스를 통해서 부활한 마이크로소프트는 아예 자사의 사업 포트폴리오를 클라우드 컴퓨팅으로 집중하고 있고, 구글도 기존의 검색 사업에서 클라우드 컴퓨팅의 비중을 점점 높여가는 상황이다. 클라우드 컴퓨팅의 원조인 아마존 웹 서비스는 최대의 호황을 맞이하고 있으며, 이제 차세대 기업 IT 인프라를 아예 클라우드로 전환하는 대한항공과 같은 회사의 사례도 나타나고 있다.

클라우드 컴퓨팅이 빅데이터를 활용한 데이터 과학 프로젝트에서는 유난히 더 중요한 이유가 있다. 과거 클라우드 컴퓨팅이 지금처럼 성숙하지 못했던 시절에는 클라우드 컴퓨팅 자원이 기업이 직접 구축한 베어메탈(bare-metal) 빅데이터 시스템에 비해 성능이 다소 떨어지고 기업 내부가 아닌 외부에 기업의 영업 비밀과 정보가 담긴 민감한 데이터를 두어야 한다는 다소 개운치 않은 이유로 여러 가지 이점에도 불구하고 클라우드 컴퓨팅을 이용해 빅데이터 데이터 과학을 한다는 것이 꺼려졌었던 것이 사실이다. 최근 클라우드 컴퓨팅의 기술적인 발전과 점점 무르익는 하이브리드 클라우드 기술과 환경이 이런 우려를 불식시키고 빅데이터와 데이터 과학을 활용하는 최고의 기업 IT 인프라로서 자리를 잡기 시작하고 있다.

클라우드 컴퓨팅 환경이 빅데이터를 활용하는 데이터 과학 프로젝트에서 중요한 이유는 세 가지로 요약할 수 있다. 우선, 빅데이터 인프라 구축에 들어가는 초기 투자를 정기적인 비용 흐름으로 전환하고, 빅데이터 비즈니스의 효과가 분명하지 않을 때는 언제든지 쉽게 철수할 수 있는 출구를 만들어주면서 투자 위험을 대폭 줄일 수 있다는 것이다.

두번째로, 빅데이터 비즈니스 모델을 탐색하는 빅데이터 비즈니스 초반에 무리한 빅데이터 인프라 투자로 인한 비용 낭비와 과잉 투자를 줄일 수 있고, 다양한 비즈니스 모델을 짧은 시간에 시험해볼 수 있는 유연한 빅데이터 인프라를 제공해줄 수 있다는 것이다.

세번째로, 기업들이 최근 급격하게 발전하고 있는 네트워크 대역폭과 소프트웨어 정의 네트워크 기술들을 활용하여 한결 유연해진 네트워크 구축을 통해 하이브리드 클라우드 기술을 활용하여 자사의 민감한 데이터를 굳이 기업 IT 인프라 외부에 있는 공용(public) 클라우드 컴퓨팅 서비스로 옮기지 않더라도 클라우드 컴퓨팅 자원을 활용한 빅데이터 분석과 가공을 얼마든지 이용할 수 있게 되었다는 것이다.

이렇게 최근 클라우드 컴퓨팅의 발전을 고려하여 빅데이터와 데이터 과학을 활용하는 비즈니스를 기획하고 실행하는 기업들은 더욱더 클라우드 컴퓨팅 기술을 적극적으로 활용해야 한다. 과거 클라우드 컴퓨팅 기술이 성숙하지 못했을 때도 빅데이터와 데이터 과학을 위한 IT 인프라로서 클라우드 컴퓨팅은 분명한 가치를 가지고 있었지만, 기술과 서비스가 성숙한 오늘날에는 더더욱 클라우드 컴퓨팅을 사용하지 않을 이유가 없다. 빅데이터 비즈니스와 데이터 과학을 이용한 경영 패러다임 전환을 모색하는 기업이라면 이러한 시도의 위험을 적극적으로 줄이기 위해서라도 퍼블릭 클라우드 서비스와 하이브리드 클라우드 컴퓨팅 기술 도입을 더욱더 긍정적으로 검토하고 활용해야 한다.

앞으로의 다섯 가지 이유로, 데이터 과학 프로젝트 관리를 위해서는 다소 특별한 방법론이 필요하다는 것을 어렴풋하게 느끼는 독자분들이 있으실 것이라 믿는다. 데이터 과학 프로젝트의 위와 같은 다섯 가지 특성으로 인해서 데이터 과학 프로젝트는

1. 반복적인 과정을 통해 데이터 과학을 통해 풀어야 하는 문제를 구체적으로 정의하고 정의된 문제를 단계적으로 풀어나가는 것을 체계적으로 지원할 수 있는 프로젝트 관리 방법론
2. 소프트웨어 엔지니어들과 협업과 의사소통을 체계적이고 효과적으로 지원할 수 있는 프로젝트 관리 방법론
3. 데이터 과학 프로젝트를 진행하면서 필요한 자원과 시스템의 변화와 클라우드 컴퓨팅을 이용한 데이터 과학 인프라 관리의 소프트웨어적 요소를 적극적으로 지원할 수 있는 프로젝트 관리 방법론
을 통해서 관리되는 것이 적합하다. 이러한 데이터 과학 프로젝트의 특성을 잘 지원할 수 있는 프로젝트 관리 방법론으로서 애자일 프로젝트 방법론을 다음 글에서 같이 살펴보도록 하자.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] 마이크 콘, “경험과 사례로 풀어낸 성공하는 애자일”, 인사이트, 2012.
[3] Mike Cohn, “Succeeding with Agile” Addision-Wesley, 2010. ([2]의 영문 원전)
[4] 마이크 콘, “사용자 스토리”, 인사이트, 2006.
[5] 조너선 라스무슨, “애자일 마스터”, 2012.
[6] 헨릭 크니버그, “스크럼과 XP”, 인사이트, 2009.
[7] 켄 슈와버, “엔터프라이즈 스크럼 - 사례에 기반한 기업 차원의 스크럼 도입과 활용 에이콘 애자일 시리즈 3”, 에이콘출판, 2010.
[8] 켄 슈와버, “Agile Project Management with Scrum(한국어판)”, 에이콘출판, 2012.

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

CIO 빅데이터 데이터 과학자 베어메탈 김진철

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점

Offcanvas

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (12)

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

Sponsored

댓글

추천 테크라이브러리

인터뷰 | “‘친환경+AI’ 앞세워 데이터센터 새바람 이끌 것”··· 엠피리온 디지털 최고전략책임자 최용석

일문일답 | “AI 기반 옵저버빌리티, IT 넘어 기업 전반에서 중요해질 것” 다이나트레이스 이효은 지사장

인터뷰 | “위기에서 기회를 보다’ 아이브릭스 채종현 대표가 전하는 ‘비즈니스 AI’ 이야기

인터뷰 | 빠른 대용량 편집기 ‘엠에디터’를 아시나요? ··· 40년 경력의 개발자 에무라 유타카 대표

일문일답 | 브로드컴 앤디 날라판 CIO·CTO·CSO가 말하는 클라우드 성공 노하우