Offcanvas

BI / CIO / How To / 빅데이터 | 애널리틱스 / 클라우드

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (12)

2019.09.27 김진철  |  CIO KR


세번째로, 데이터 과학 프로젝트의 기획안과 수행 계획은 한번에 만들어지기 어려울 수 있음을 경영진과 의사 결정자들이 이해할 필요가 있으며, 이로 인해 데이터 과학 프로젝트를 기획하고 실행 계획을 수립하는 과정 자체는 체계적으로 반복적인 프로세스를 따라 구체화되는 구조로 진행되는 것이 좋다.

한번의 데이터 과학 프로젝트로 기업의 모든 업무가 데이터를 기반으로 자동화되어 우리가 풀기 어려워하는 경영 현안에 대한 해답들이 컴퓨터로부터 척척 나오는 시스템이 구축될 수 있다면 얼마나 좋겠는가? 어쩌면 이렇게 우리의 비즈니스가 부딪히는 문제에 대한 해결책을 다양한 빅데이터를 통해  분석한 결과를 통해 조언해주는 인공지능 기술이 미래에 등장할 수 있을지도 모르겠다. 하지만, 아직 이런 인공지능 기술을 우리가 가지고 있지 않기 때문에 데이터 과학자와 데이터 과학팀이 기업 경영에 필요하다. 데이터 과학자와 데이터 과학팀이 시장과 비즈니스 환경에 대한 정보를 꾸준히 관찰, 모니터링하면서 지속적인 데이터 분석을 통해 시장과 비즈니스에 대한 통찰과 정보를 업데이트해주는 것이 필요한 것이다.

데이터 과학 프로젝트에서 가장 어려운 문제 중의 하나는 기업의 경영 이슈가 반복적으로 같은 형태의 문제로 발견되기도 하지만, 다양한 변수 때문에 자주 변하는 시장 환경 때문에 기업 경영의 현안이 적절한 시간을 두고 자주 변하게 된다는 것이다. 기업 비즈니스 모델의 특성으로 인해 근본적으로 변하지 않고 같은 분석 로직을 반복적으로 활용하여 얻을 수 있는 해결책이 있는가 하면, 시장의 변화 때문에 만들어진 데이터 분석 모델이 한시적으로 적용될 수밖에 없어 시장과 경영 지표에 대한 분석 모델을 시장 상황에 따라 정기적으로 업데이트하고 수정하는 일이 필요할 경우도 있다.

아마도 이렇게 시장 상황의 변화에 따른 주요 변수를 이용한 분석과 예측 모델의 변경을 가장 많이 경험하고 실제로 활용하는 분야는 잘 알려진 주요 투자은행과 금융상품 운용을 하는 증권회사와 같은 금융회사들일 것이다. 실제로 미국 월가의 주요 투자은행과 자산운용회사들은 주가를 비롯한 자산 가격 지표와 주요 시장 상황을 반영하는 다양한 경제 지표를 예측하고 이를 투자에 활용하기 위해서 가장 많이 데이터 분석과 예측 모델을 활용한다. 데이터 분석과 IT 기술의 수요와 활용 수준이 금융 산업에서 가장 높은 것도 우연이 아니며, 최근 금융회사들은 자연어 처리 및 감성 분석 등의 최신 인공지능 기술도 시장 상황을 분석, 예측하기 위한 빅데이터 분석에 수시로 활용하기도 한다.

데이터 과학팀은 이런 시장 상황의 변화를 데이터 분석 모델에 주기적으로 반영하여 데이터 분석 모델이 시장 상황을 정확하게 반영하여 의사 결정의 정확도를 높일 수 있도록 지속해서 수정, 관리할 필요가 있다. 아마도 데이터 과학팀이 가장 많이 수행해야 하는 업무 중의 하나는 이렇게 이미 운영되고 있는 데이터 분석 모델을 시장 상황에 따라 주기적으로 업데이트하여 그 효과를 평가하고, 이렇게 업데이트된 데이터 분석 모델을 통해 제공되는 의사 결정 지원 정보들이 얼마나 기업 경영진의 정확한 의사 결정에 효과적으로 활용되고 있는지 점검하는 것일 것이다. 

이렇게 시장의 변화에 따라 변화하는 정보에 능동적으로 대응하여 기업의 의사 결정이 기민하게 이루어지기 위해서는 데이터 과학 프로젝트가 한번의 큰 프로젝트로 기획되는 것은 적절하지 않다. 시장의 변화가 기업의 비즈니스 모델에 주는 영향을 꾸준히 관찰하고 모니터링하면서 비즈니스 모델의 적절한 작동 여부를 체계적으로 평가할 수 있도록 데이터 분석 논리와 기법을 지속적이고 반복적인 방법으로 변경하고 개선하여 변화를 수용할 수 있도록 하는 것이 데이터 과학 프로젝트가 기업 경영 환경에 맞게 운영되는 방법이다.

이렇게 데이터 과학팀은 데이터 과학 프로젝트가 지속해서 변화하는 시장에서 오는 정보에 체계적이고(systematically) 반복적으로(iteratively) 적응하고 개선될 수 있도록 프로젝트를 기획하고 관리할 필요가 있다. 이렇게 시장과 비즈니스 환경의 변화를 능동적으로 수용하여 데이터 과학 프로젝트를 관리할 수 있도록 하는 프로젝트 관리 방법론도 아울러 필요하다.

네번째로, 데이터 과학 프로젝트를 수행하는 과정은 많은 경우 데이터 엔지니어나 소프트웨어 엔지니어들과 협업이 필수적인 경우가 많기 때문에 이들 소프트웨어 엔지니어들과 협업을 염두에 두고 프로젝트 계획을 수립해야 한다는 것이다.

데이터 과학 프로젝트가 어려운 것은 여러 가지 성격의 프로젝트 특성이 같이 나타난다는 것이다. 우선 경영 현안을 관찰, 진단하고 해결책을 모색하는 컨설팅 및 경영 연구, 조사 프로젝트의 성격을 가지고 있다. 기업 경영과 비즈니스의 현안을 수학적 모델과 데이터를 통해 분석하고 그 해결책을 찾기 위해서는 프로젝트를 의뢰한 기업의 운영과 비즈니스 상황을 다양한 지표와 방법을 통해 관찰하고 진단할 필요가 있다. 이런 측면에서는 데이터 과학자들이 경영 컨설턴트와 비슷한 역할을 하게 된다.

이와 함께 데이터 과학 프로젝트에서 정의된 문제를 풀기 위해서는 데이터 분석을 위한 시스템과 소프트웨어를 개발해야 한다. 데이터 분석을 위한 시스템을 개발하는 일의 상당 부분은 소프트웨어 엔지니어들이 담당하고, 데이터 과학자들은 데이터 수집, 가공, 분석과 관계된 소프트웨어 모듈의 설계와 개발을 데이터 엔지니어들과 같이 대부분 수행하겠지만, 그럼에도 불구하고 데이터 과학 프로젝트에서 상당한 부분은 소프트웨어 개발에 관련된 것이다.

마지막으로 중요한 데이터 과학 프로젝트의 또 하나의 특성은 수학적 모델링과 산업 및 비즈니스 도메인 지식에 근거한 경영 현안에 대한 가설 설정과 모델링, 문제 해결의 기초가 되는 이론, 분석 방법론 수립 과정이다. 이런 과정은 전형적인 과학, 공학의 연구 과정이다. 즉 데이터 과학 프로젝트는 이공학의 전형적인 이론, 시뮬레이션을 통한 연구 프로젝트의 특성도 가지고 있다.

이렇게 데이터 과학 프로젝트의 중요한 세가지 측면 중 가장 많은 시간이 소요되고 중요한 산출물을 만드는 부분은 데이터 분석 시스템과 분석 소프트웨어 개발일 것이다. 물론 문제를 효과적이고 정확하게 정의하고, 이를 풀 수 있는 문제로 가설을 세우고 분석할 수 있는 모델링과 이론, 분석 방법론을 수립하여 데이터 분석의 결론을 내리고 통찰을 얻는 부분이 중요성에서는 더 중요하다. 필자가 의미하는 것은 데이터 과학 프로젝트의 상당 시간이 데이터 분석의 결론과 통찰을 얻는데 중요한 데이터 수집, 가공, 처리 분석 과정을 자동화하고 분석 내용이 비즈니스 및 운영 지원 시스템과 연계되어 비즈니스 자동화 시스템으로 발전하도록 하는 데 꼭 필요한 시스템 및 소프트웨어 개발에 할애된다는 것이다.

이렇게 데이터 과학 프로젝트의 상당 시간이 소프트웨어 개발에 할애되기 때문에 프로젝트의 성패는 소프트웨어 개발 과정을 어떻게 효과적으로 관리하는가에 상당 부분 달려있다고 볼 수 있다. 데이터 과학 프로젝트가 성공하기 위해서는 소프트웨어 엔지니어들과 협업을 염두에 두고 소프트웨어 개발 과정을 데이터 과학 업무와 같이 효과적으로 관리할 수 있게 해주는 프로젝트 관리 체계가 필요하다.

다섯번째로, 데이터 과학 프로젝트를 수행하는 과정에서 자원 계획을 구체적으로 수립하기 어렵다는 것을 고려해서 클라우드를 적극적으로 활용하는 것을 염두에 두고 비용과 자원 계획을 수립해야 한다는 것이다.

최근 클라우드 컴퓨팅 기술이 안정화되고 성숙하면서 제2의 중흥기를 맞고 있는 것 같다. 보통 가트너의 하이프사이클(hype-cycle)에 따른 기술 성숙의 주기를 보면 성숙(“Slope of enlightenment”), 안정기(“Plateau of productivity”)에는 기술에 대한 기대치가 과도하게 최고조에 이르는 “과도한 기대의 정점(Peak of inflated expectation)” 시점보다는 언론과 미디어의 관심을 크게 덜 받는 경우가 많다. “과도한 기대의 정점”을 지난 클라우드 컴퓨팅이 최근 아마존 웹 서비스(AWS), 마이크로소프트의 애저(Azure), 구글 클라우드와 같은 퍼블릭(public) 클라우드 서비스를 중심으로 IT산업계 전반에서 상당히 많은 관심을 모으고 있다.

클라우드 서비스를 통해서 부활한 마이크로소프트는 아예 자사의 사업 포트폴리오를 클라우드 컴퓨팅으로 집중하고 있고, 구글도 기존의 검색 사업에서 클라우드 컴퓨팅의 비중을 점점 높여가는 상황이다. 클라우드 컴퓨팅의 원조인 아마존 웹 서비스는 최대의 호황을 맞이하고 있으며, 이제 차세대 기업 IT 인프라를 아예 클라우드로 전환하는 대한항공과 같은 회사의 사례도 나타나고 있다.

클라우드 컴퓨팅이 빅데이터를 활용한 데이터 과학 프로젝트에서는 유난히 더 중요한 이유가 있다. 과거 클라우드 컴퓨팅이 지금처럼 성숙하지 못했던 시절에는 클라우드 컴퓨팅 자원이 기업이 직접 구축한 베어메탈(bare-metal) 빅데이터 시스템에 비해 성능이 다소 떨어지고 기업 내부가 아닌 외부에 기업의 영업 비밀과 정보가 담긴 민감한 데이터를 두어야 한다는 다소 개운치 않은 이유로 여러 가지 이점에도 불구하고 클라우드 컴퓨팅을 이용해 빅데이터 데이터 과학을 한다는 것이 꺼려졌었던 것이 사실이다. 최근 클라우드 컴퓨팅의 기술적인 발전과 점점 무르익는 하이브리드 클라우드 기술과 환경이 이런 우려를 불식시키고 빅데이터와 데이터 과학을 활용하는 최고의 기업 IT 인프라로서 자리를 잡기 시작하고 있다.

클라우드 컴퓨팅 환경이 빅데이터를 활용하는 데이터 과학 프로젝트에서 중요한 이유는 세 가지로 요약할 수 있다. 우선, 빅데이터 인프라 구축에 들어가는 초기 투자를 정기적인 비용 흐름으로 전환하고, 빅데이터 비즈니스의 효과가 분명하지 않을 때는 언제든지 쉽게 철수할 수 있는 출구를 만들어주면서 투자 위험을 대폭 줄일 수 있다는 것이다.

두번째로, 빅데이터 비즈니스 모델을 탐색하는 빅데이터 비즈니스 초반에 무리한 빅데이터 인프라 투자로 인한 비용 낭비와 과잉 투자를 줄일 수 있고, 다양한 비즈니스 모델을 짧은 시간에 시험해볼 수 있는 유연한 빅데이터 인프라를 제공해줄 수 있다는 것이다.

세번째로, 기업들이 최근 급격하게 발전하고 있는 네트워크 대역폭과 소프트웨어 정의 네트워크 기술들을 활용하여 한결 유연해진 네트워크 구축을 통해 하이브리드 클라우드 기술을 활용하여 자사의 민감한 데이터를 굳이 기업 IT 인프라 외부에 있는 공용(public) 클라우드 컴퓨팅 서비스로 옮기지 않더라도 클라우드 컴퓨팅 자원을 활용한 빅데이터 분석과 가공을 얼마든지 이용할 수 있게 되었다는 것이다.

이렇게 최근 클라우드 컴퓨팅의 발전을 고려하여 빅데이터와 데이터 과학을 활용하는 비즈니스를 기획하고 실행하는 기업들은 더욱더 클라우드 컴퓨팅 기술을 적극적으로 활용해야 한다. 과거 클라우드 컴퓨팅 기술이 성숙하지 못했을 때도 빅데이터와 데이터 과학을 위한 IT 인프라로서 클라우드 컴퓨팅은 분명한 가치를 가지고 있었지만, 기술과 서비스가 성숙한 오늘날에는 더더욱 클라우드 컴퓨팅을 사용하지 않을 이유가 없다. 빅데이터 비즈니스와 데이터 과학을 이용한 경영 패러다임 전환을 모색하는 기업이라면 이러한 시도의 위험을 적극적으로 줄이기 위해서라도 퍼블릭 클라우드 서비스와 하이브리드 클라우드 컴퓨팅 기술 도입을 더욱더 긍정적으로 검토하고 활용해야 한다.

앞으로의 다섯 가지 이유로, 데이터 과학 프로젝트 관리를 위해서는 다소 특별한 방법론이 필요하다는 것을 어렴풋하게 느끼는 독자분들이 있으실 것이라 믿는다. 데이터 과학 프로젝트의 위와 같은 다섯 가지 특성으로 인해서 데이터 과학 프로젝트는

1. 반복적인 과정을 통해 데이터 과학을 통해 풀어야 하는 문제를 구체적으로 정의하고 정의된 문제를 단계적으로 풀어나가는 것을 체계적으로 지원할 수 있는 프로젝트 관리 방법론
2. 소프트웨어 엔지니어들과 협업과 의사소통을 체계적이고 효과적으로 지원할 수 있는 프로젝트 관리 방법론
3. 데이터 과학 프로젝트를 진행하면서 필요한 자원과 시스템의 변화와 클라우드 컴퓨팅을 이용한 데이터 과학 인프라 관리의 소프트웨어적 요소를 적극적으로 지원할 수 있는 프로젝트 관리 방법론
을 통해서 관리되는 것이 적합하다. 이러한 데이터 과학 프로젝트의 특성을 잘 지원할 수 있는 프로젝트 관리 방법론으로서 애자일 프로젝트 방법론을 다음 글에서 같이 살펴보도록 하자.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] 마이크 콘, “경험과 사례로 풀어낸 성공하는 애자일”, 인사이트, 2012.
[3] Mike Cohn, “Succeeding with Agile” Addision-Wesley, 2010. ([2]의 영문 원전)
[4] 마이크 콘, “사용자 스토리”, 인사이트, 2006.
[5] 조너선 라스무슨, “애자일 마스터”, 2012.
[6] 헨릭 크니버그, “스크럼과 XP”, 인사이트, 2009.
[7] 켄 슈와버, “엔터프라이즈 스크럼 - 사례에 기반한 기업 차원의 스크럼 도입과 활용 에이콘 애자일 시리즈 3”, 에이콘출판, 2010.
[8] 켄 슈와버, “Agile Project Management with Scrum(한국어판)”, 에이콘출판, 2012.

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.