김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (12)

CIO KR

리듬을 타는 데이터 과학으로 위험 줄이기 – 애자일 데이터 과학
빅데이터 조직과 시스템에 대한 마지막 글로 데이터 과학과 애자일 프로젝트 관리와의 관계에 대해서 같이 생각해 보고자 한다. 최근 사용자 경험을 중요시하는 소프트웨어 개발이나, 스타트업과 같이 상품을 최대한 빨리 만들어 고객과 시장의 피드백을 제품에 반영하여 비즈니스를 빠른 속도로 개선하고 위험을 줄이는 린 개발 방식을 채택하는 기업들 상당수가 애자일 프로젝트 관리 기법을 적용하고 있다. 데이터 과학에서도 애자일 프로젝트 관리 기법이 효과적일 수 있음을 같이 살펴보고자 한다.

소프트웨어 개발뿐 아니라, 데이터 과학 또한 소프트웨어 소스 코드와 분석 산출물과 같은 무형의 결과물을 다루고, 소프트웨어 개발에 더해 분석 기법과 분석 내용에 대한 어렵고 까다로운 결과물을 다루기 때문에 체계적으로 산출물과 마일스톤을 관리하지 않으면 프로젝트의 성과를 기업 경영에 적절하게 활용하고 관리하기가 쉽지 않다. 이에 더해, 데이터 과학자들의 데이터 분석과 문제 해결 업무는 일정에 따른 마일스톤을 구체적으로 정하기도 어렵기도 하다. 소프트웨어도 그 무형성과 사람의 생각을 소스 코드와 IT 시스템으로 만들어내야 하는 어려움으로 프로젝트 관리가 쉽지 않은데, 데이터 과학 프로젝트의 결과물들은 소프트웨어와 함께 데이터 분석 내용과 논리, 분석 결과가 기업 경영에 주는 시사점 등의 지식 산출물까지 만들고 관리해야 하니 더 쉽지 않은 측면이 있다.
 

ⓒGetty Images Bank


소프트웨어 개발 프로젝트보다 데이터 과학 프로젝트의 관리가 더 어려운 이유 중의 하나는 아직 풀어본 적이 없는 문제를 어떤 데이터를 어떻게 다루어서 어느 정도 수준의 데이터 분석과 결과물을 내어야 하는지 데이터 과학 프로젝트의 처음부터 끝까지의 청사진을 프로젝트 착수 전이나 초반에 계획하기가 어렵기 때문이다. 

데이터 과학 프로젝트는 소프트웨어 개발보다 연구(research) 프로젝트와 유사하여 프로젝트의 결과를 예측하거나 계획하기가 더 어렵기 때문에 일정 및 자원을 정확하게 추정하고 효과적으로 관리하기가 소프트웨어 개발 프로젝트보다 더 어렵다. 더군다나 기업 경영에서 데이터 분석이 필요한 문제들은, 이미 데이터 분석의 논리와 방법론이 어느 정도 알려져 있어서 이런 방법들만 적용하고 적절한 해석만 하면 어느 정도의 결론을 낼 수 있는 문제들도 있지만, 데이터 수집부터 가공, 분석 과정까지 새로이 설계해야 하는 문제도 상당히 많은데 이런 경우에는 전체 프로젝트의 규모와 프로젝트 수행 도중의 위험 요소가 어떤 것들이 있는지 파악하기가 정말 어려운 경우가 많다.

데이터 수집, 가공, 분석 시스템을 만드는 것은 데이터 분석의 목적과 논리, 그리고 데이터 분석 방법론이 어느 정도 정해지면 소프트웨어 개발 프로젝트가 되어 소프트웨어 프로젝트 관리 방법론을 어느 정도 적용할 수 있다. 데이터 분석 시스템이 갖춰진 후 진행되는 데이터 분석 과정은 프로젝트 일정이나 자원 추정이 어려운 경우가 많은데, 이는 풀려고 하는 문제가 어느 정도 정해진 경우에도 마찬가지이다. 문제를 푸는 방법을 알고 있어서 계산만 하면 되는 경우라고 해도 많은 경우 데이터 과학에서 하게 되는 계산은 데이터의 구조를 정확하게 알고 하는 계산이 아니기 때문에 적지 않은 시행착오를 겪게 마련이다.

데이터 과학을 통해 풀려는 문제가 해결 방법이 어느 정도 알려져 있는 문제가 아니라 어떤 데이터 분석 방법론을 쓸 것인지, 어떤 접근 방식으로 문제 해결의 실마리를 하나하나 풀어갈 것인지 처음부터 디자인해야 하는 상황이면 프로젝트 일정과 자원 추정은 더 어려운 문제가 된다. 이렇게 해결 방법이 분명하지 않고 새롭게 디자인해야 하는 데이터 과학 문제가 프로젝트 일정, 자원 추정이 어려운 이유는 프로젝트를 수행하기 위해 필요한 업무가 프로젝트 초반에 모두 MECE(Mutually Exclusive, Completely Exhaustive)하게 파악되지 않기 때문이다.

보통 프로젝트 일정 및 자원 추정은 각 작업에 들어가는 시간과 인력, 자원 및 비용이 어느 정도 정확하게 추정될 수 있을 만큼 해야 할 작업(task)들을 모두 정의하고 최대한 구체적으로 나누어야 가능하다. 데이터 과학 프로젝트는 이렇게 해야 할 작업을 모두 파악하는 것이 어려울뿐 아니라, 설사 해야 할 작업을 알고 있다고 해도 문제를 풀기 위한 시행착오에 어느 정도의 시간과 자원이 들어갈지 구체적으로 추정하기 어려운 경우가 많아 구체적인 프로젝트 일정, 자원 계획을 세우기가 어렵다.

이렇다고 해서 기업의 입장에서 데이터 과학 프로젝트에 마냥 시간과 인력을 투입할 수는 없는 노릇이다. 정확하지는 않더라도 어느 정도 선에서 데이터 과학 문제를 풀 것인지 정의하고 프로젝트 수행 계획을 구체적으로 수립하기 위한 최소한의 방법은 필요하게 된다. 이런 이유로 데이터 과학 프로젝트를 통해서 내어놓는 결과물이나 산출물들은 - 경우에 따라 해결하려는 문제에 대한 정답인 경우가 전혀 없는 것은 아니지만 - 대개 그 프로젝트 수행 시점과 일정의 제약 안에서 해결할 수 있는 최선의 답인 경우가 많다.

이렇게 소프트웨어 개발 프로젝트보다도 더 모호하고 구체적인 계획을 세우기가 어려운 데이터 과학 프로젝트를 성공적으로 기획하기 위해서는 어떻게 해야 할까? 그냥 마냥 데이터만 들여다보면서 분석만 한다고 해서 성과물이 지속해서 나오리라는 보장이 없는데, 기업의 입장에서 경영진이 데이터 과학 프로젝트에 대해 납득할 수 있을 정도로 시간과 인력, 자원을 투입할 근거와 명분을 찾기 위해서는 어떻게 해야 할까?

기업이 경영 의사 결정의 위험을 줄이기 위해 하는 데이터 과학 자체가 또 다시 이런 불확실성과 위험을 안고 있다는 것은 참으로 아이러니한 일이다. 그렇지만, 분명한 것은 데이터 과학 프로젝트의 불확실성과 위험을 체계적으로 극복할 방법이 있으며, 이런 불확실성과 위험을 극복하고 데이터 과학에 투자하는 것이 기업의 입장에서 더 큰 위험을 회피하고 더 큰 수익을 가져다줄 수 있는 사업 기획 및 경영 의사 결정을 가능하게 한다는 것이다.
 

---------------------------------------------------------------
김진철 칼럼 인기기사
-> 김진철의 How-to-Big Data | 연재를 시작하며
-> 김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)
---------------------------------------------------------------

데이터 과학 프로젝트의 기획과 수행 방법에 대한 몇 가지 원칙을 같이 살펴보도록 하자. 먼저, 데이터 과학 프로젝트를 기획, 수행하는 과정은 수행과정과 내용을 단계별로 다듬는 방식으로 체계적으로 진행되어야 한다는 것이다.

앞서 스물다섯번째 글부터 서른한번째 글에 이르기까지 데이터 과학팀의 문화와 규범, 데이터 과학팀 리더의 리더십에 대한 내용을 다루면서 데이터 과학자들이 문제에 몰입할 수 있도록 집중력을 높이는 공간과 자유롭게 정보와 아이디어가 교환, 소통될 수 있는 팀의 분위기와 규범을 마련하는 것이 중요하다고 강조한 바 있다. 데이터 과학자들이 연구, 조사 및 데이터 분석과정에서 틀에 박히지 않은 데이터에 근거한 참신한 결론을 이끌어내기 위해서 자유롭고 격식에 매이지 않는 창의적인 생각을 강조하는 업무 환경과 분위기는 정말 필요한 것이지만, 이들의 창의적인 에너지를 팀과 조직의 목표와 미션에 정렬, 집중하도록 하여 최선의 성과를 이룰 수 있도록 약간의 가이드와 제한을 두는 것도 필요하다.

창의적인 성과를 극대화하기 위해 필요한 약간의 가이드와 제한 요소 중의 하나는 바로 아이디어를 만들어내고 정제하는 과정을 가능하면 체계적이고 반복적인 프로세스로 틀을 잡는 것이다. 아이디어를 위해 고민하고 풀 수 있는 문제로 정제하는 과정이 팀의 업무 흐름에 맞추어 의식하지 않더라도 자연스럽고 체계적으로 진행될 수 있도록 IT 기술의 도움을 받아 최소한으로 시스템화하는 것이다. 

여기서, 최소한으로 시스템화하는 것이 중요하다. 조직의 속성상, 프로세스가 만들어지면 이 프로세스는 점점 더 복잡해지고 양이 많아져 조직에서 일하는 사람들의 숨이 막히게 하는 경우가 많기 때문이다. 이렇게 복잡해지고 지켜야 할 프로세스가 많아져 생기는 폐해는 기존의 관료 조직에서 충분히 볼 수 있다.

데이터 과학팀에서 데이터 과학 프로젝트를 기획, 수행하는 과정에서 최소한으로 갖추어야 할 틀과 가이드로서 또 하나 고려해야 할 것은 문제 해결의 단계를 두는 것이다. 예를 들자면, 타부서나 외부에서 문제 해결에 대한 의뢰가 들어온 경우 이 문제를 분석, 정의하고 풀 수 있는 문제로 만드는 소규모 사전 프로젝트 수행 단계, 그리고 정의된 문제를 해결하기 위한 1단계 문제 해결 절차 및 분석 방법을 정의하고 이렇게 정의된 문제 해결 절차와 분석 방법을 통해 얻을 수 있는 결론과 시사점을 정리하는 1단계 프로젝트, 다시 전단계의 문제 해결 및 분석 방법으로 볼 수 없었던 데이터의 구조와 해석을 다른 관점과 방법으로 조사하거나, 전단계의 분석 방법과 과정을 심화하고 스케일을 높여 대규모 빅데이터 분석을 통해 더 정밀하게 확인하는 과정을 거치는 2단계 분석 프로젝트와 같이, 주어진 상황과 여건에서 가능하면 명확한 결론과 산출물을 낼 수 있는 단계로 쪼개고 단계별 목표를 분명하게 하는 과정이 필요하다.

특히 탐색적 데이터 분석을 수행해야 하는 경우에 특정한 목적이나 풀어야 할 문제를 분명하게 정의하지 않고 성급하게 착수할 경우 진부한 결론을 내거나 시간을 낭비할 수 있다. 데이터를 어떤 관점에서 분석하고 결론을 도출할 것인지 현재 시점에서 데이터 분석의 주된 목표와 중점 사항을 최소한으로 정하고 단계별로 결론을 매듭지어 가면서 데이터 분석의 수준과 내용을 확장하는 것이 좋은 방법이다. 단계별로 얻은 결론과 기업 경영 현안에 대한 시사점을 경영진과 의사 결정자들에게 되도록 자주 공유하고 데이터 과학 프로젝트의 현재 상황과 위치, 그리고 앞으로 분석할 내용이 현재 공유한 결론과 시사점에 비추어 어떤 의미가 있는지 경영진과 의사 결정자들에게 자주 소통하는 것이 데이터 과학 조직의 업무와 데이터 과학 프로젝트에의 경영진과 의사 결정자들의 신뢰를 높이는 방법이다.

데이터 과학자들의 생각의 자유와 창의적인 업무 분위기를 지나치게 강조하다 보면 이들의 창의적인 문제 해결 역량과 에너지를 집중시켜 당면한 문제를 해결하기 위해 필요한 추진력을 충분하게 얻기 어려울 수 있기 때문에 약간의 형식과 문제 해결의 단계별 프로세스는 정의하고 갖추도록 리더들이 신경 쓸 필요가 있다. 데이터 과학 프로젝트가 자칫 시간과 자원만 낭비하고 진부한 결론만 내는 성과 없는 프로젝트라는 인식을 조직에 주지 않도록 프로젝트를 해결할 수 있는 문제들로 구성하여 단계별로 결론을 낼 수 있는 소규모 프로젝트들로 나누고, 단계별로 분석 내용과 결론, 시사점을 정리하여 경영진과 의사 결정자들, 유관 부서에 자주 소통하는 것이 데이터 과학 프로젝트의 성공과 조직의 지지를 유도할 수 있는 좋은 방법이다.

두번째로, 데이터 과학 프로젝트는 프로젝트 기획을 위한 연구와 기획 프로젝트가 별도로 필요할 수 있다는 것이다. 즉, 데이터 과학을 통해 풀어야 할 경영 의사 결정 문제나 현안을 구체적이고 해결 가능한 문제로 정의하기 위한 사전 프로젝트가 수행되어야 할 필요가 있다.

앞서 데이터 과학 프로젝트 수행의 첫번째 요소로 프로젝트를 풀 수 있는 작은 소규모 프로젝트로 만들어 단계별로 결론과 산출물을 내고 이런 중간 결과들을 자주 경영진과 의사 결정자들에게 공유, 소통하는 방법이 좋다고 하였다. 여기서 한가지 더 같이 깊게 생각해봐야 할 점은, 데이터 과학 프로젝트를 풀 수 있는 소규모 프로젝트로 나누고 쪼개는 과정이 다루고자 하는 사안에 따라서는 별도의 프로젝트가 될 수 있을 정도로 복잡하고 어려울 수 있다는 것이다.

아마도 대부분 기업들은 비즈니스를 하면서 이미 축적한 데이터를 먼저 분석해보고 이 분석 결과를 신사업 기획이나 기존 비즈니스 최적화에 활용해보자는 식으로 데이터 과학 프로젝트를 시작하는 경우가 많을 것이다. 이런 방법이 나쁜 것은 아니지만, 이런 경우에는 이미 보유한 데이터에 데이터 과학 프로젝트를 위한 정보가 충분히 담겨 있는지 평가하는 과정을 거치는 것이 좋다고 얘기한 바 있다.

이렇게 이미 가지고 있는 데이터의 가치와 효용에 대한 평가를 포함해서, 데이터 과학 프로젝트를 어떤 방향으로, 어떤 경영 현안에 관련된 문제를 데이터를 기반으로 해결 방안을 만들 것인지 사전 조사 및 프로젝트 기획을 하는 과정을 거치는 것이 데이터 과학자들과 데이터 과학을 위한 인프라 투자를 효과적으로 활용하기 위해 필요할 것이다. 데이터 과학자들이 기업의 경영 현안에 대한 모든 자료를 꼼꼼히 검토하고 실무자들과 회의를 통해 스스로 경영 현안에 관련된 문제 중에서 기업의 의사 결정 합리화를 통해 크게 기여할 수 있는 데이터 과학 문제를 모두 찾아낼 수 있다면 좋겠지만, 이런 경우는 아마도 흔치 않을 것이다.

데이터 과학 체계를 처음 도입하면서 이를 신사업에 적용하는 기업이나 창업 시점부터 데이터 분석을 고려한 비즈니스 시스템을 갖추고 비즈니스를 시작하는 스타트업이 아니라면 대개 현재 비즈니스에서 기업 운영에서 당면한 문제 중에 데이터를 이용해 해결할 수 있는 문제가 무엇이고 이런 문제들이 투자 대비 효과가 충분히 날 수 있는 문제들인지 검토하고 평가하여 데이터 과학 프로젝트를 기획하는 과정이 필요하다. 어떤 문제부터 데이터 과학을 도입하는 것이 좋을지 검토하고 이들 데이터 과학 프로젝트를 통해서 기업 경영 의사 결정을 어떤 부분부터 데이터 기반 의사 결정으로 하나하나 바꾸어 나갈지 로드맵과 계획을 세우는 과정이 필요할 것이다.

이렇게 데이터 과학 프로젝트를 기획하는 과정은 데이터 과학팀만이 진행하기보다는 규모에 따라 경영, 전략 컨설팅 회사와 데이터 과학팀, 기업의 경영 전략 및 운영 실무 부서와의 협업을 통해 진행하는 것이 가장 바람직할 것이다. 데이터 과학자들이 경영 컨설턴트의 역할도 겸할 수 있으면 금상첨화겠지만 이런 경우는 흔치 않을 것이기 때문에 기업 현안을 진단하고 이를 데이터 과학자들과의 협업을 통해서 전사적인 데이터 과학 프로젝트로 정의하는 과정은 데이터 과학팀이 경영 컨설턴트들의 지원을 받는 것이 더 효과적일 것이라고 필자는 생각한다.

최근 일부 유명 경영 컨설팅 회사들은 데이터 과학자를 영입하여 경영 컨설팅 프로젝트에 활용하고 있다. 이들 경영 컨설팅 회사의 데이터 과학자들이 기업의 데이터 과학팀과 협업하여 경영 현안에서 데이터 과학 문제를 도출하고 데이터 과학 프로젝트를 기획해간다면 좀더 효과적으로 데이터 과학 프로젝트를 운영하고 그 결과물을 활용할 수 있을 것이다.

 


세번째로, 데이터 과학 프로젝트의 기획안과 수행 계획은 한번에 만들어지기 어려울 수 있음을 경영진과 의사 결정자들이 이해할 필요가 있으며, 이로 인해 데이터 과학 프로젝트를 기획하고 실행 계획을 수립하는 과정 자체는 체계적으로 반복적인 프로세스를 따라 구체화되는 구조로 진행되는 것이 좋다.

한번의 데이터 과학 프로젝트로 기업의 모든 업무가 데이터를 기반으로 자동화되어 우리가 풀기 어려워하는 경영 현안에 대한 해답들이 컴퓨터로부터 척척 나오는 시스템이 구축될 수 있다면 얼마나 좋겠는가? 어쩌면 이렇게 우리의 비즈니스가 부딪히는 문제에 대한 해결책을 다양한 빅데이터를 통해  분석한 결과를 통해 조언해주는 인공지능 기술이 미래에 등장할 수 있을지도 모르겠다. 하지만, 아직 이런 인공지능 기술을 우리가 가지고 있지 않기 때문에 데이터 과학자와 데이터 과학팀이 기업 경영에 필요하다. 데이터 과학자와 데이터 과학팀이 시장과 비즈니스 환경에 대한 정보를 꾸준히 관찰, 모니터링하면서 지속적인 데이터 분석을 통해 시장과 비즈니스에 대한 통찰과 정보를 업데이트해주는 것이 필요한 것이다.

데이터 과학 프로젝트에서 가장 어려운 문제 중의 하나는 기업의 경영 이슈가 반복적으로 같은 형태의 문제로 발견되기도 하지만, 다양한 변수 때문에 자주 변하는 시장 환경 때문에 기업 경영의 현안이 적절한 시간을 두고 자주 변하게 된다는 것이다. 기업 비즈니스 모델의 특성으로 인해 근본적으로 변하지 않고 같은 분석 로직을 반복적으로 활용하여 얻을 수 있는 해결책이 있는가 하면, 시장의 변화 때문에 만들어진 데이터 분석 모델이 한시적으로 적용될 수밖에 없어 시장과 경영 지표에 대한 분석 모델을 시장 상황에 따라 정기적으로 업데이트하고 수정하는 일이 필요할 경우도 있다.

아마도 이렇게 시장 상황의 변화에 따른 주요 변수를 이용한 분석과 예측 모델의 변경을 가장 많이 경험하고 실제로 활용하는 분야는 잘 알려진 주요 투자은행과 금융상품 운용을 하는 증권회사와 같은 금융회사들일 것이다. 실제로 미국 월가의 주요 투자은행과 자산운용회사들은 주가를 비롯한 자산 가격 지표와 주요 시장 상황을 반영하는 다양한 경제 지표를 예측하고 이를 투자에 활용하기 위해서 가장 많이 데이터 분석과 예측 모델을 활용한다. 데이터 분석과 IT 기술의 수요와 활용 수준이 금융 산업에서 가장 높은 것도 우연이 아니며, 최근 금융회사들은 자연어 처리 및 감성 분석 등의 최신 인공지능 기술도 시장 상황을 분석, 예측하기 위한 빅데이터 분석에 수시로 활용하기도 한다.

데이터 과학팀은 이런 시장 상황의 변화를 데이터 분석 모델에 주기적으로 반영하여 데이터 분석 모델이 시장 상황을 정확하게 반영하여 의사 결정의 정확도를 높일 수 있도록 지속해서 수정, 관리할 필요가 있다. 아마도 데이터 과학팀이 가장 많이 수행해야 하는 업무 중의 하나는 이렇게 이미 운영되고 있는 데이터 분석 모델을 시장 상황에 따라 주기적으로 업데이트하여 그 효과를 평가하고, 이렇게 업데이트된 데이터 분석 모델을 통해 제공되는 의사 결정 지원 정보들이 얼마나 기업 경영진의 정확한 의사 결정에 효과적으로 활용되고 있는지 점검하는 것일 것이다. 

이렇게 시장의 변화에 따라 변화하는 정보에 능동적으로 대응하여 기업의 의사 결정이 기민하게 이루어지기 위해서는 데이터 과학 프로젝트가 한번의 큰 프로젝트로 기획되는 것은 적절하지 않다. 시장의 변화가 기업의 비즈니스 모델에 주는 영향을 꾸준히 관찰하고 모니터링하면서 비즈니스 모델의 적절한 작동 여부를 체계적으로 평가할 수 있도록 데이터 분석 논리와 기법을 지속적이고 반복적인 방법으로 변경하고 개선하여 변화를 수용할 수 있도록 하는 것이 데이터 과학 프로젝트가 기업 경영 환경에 맞게 운영되는 방법이다.

이렇게 데이터 과학팀은 데이터 과학 프로젝트가 지속해서 변화하는 시장에서 오는 정보에 체계적이고(systematically) 반복적으로(iteratively) 적응하고 개선될 수 있도록 프로젝트를 기획하고 관리할 필요가 있다. 이렇게 시장과 비즈니스 환경의 변화를 능동적으로 수용하여 데이터 과학 프로젝트를 관리할 수 있도록 하는 프로젝트 관리 방법론도 아울러 필요하다.

네번째로, 데이터 과학 프로젝트를 수행하는 과정은 많은 경우 데이터 엔지니어나 소프트웨어 엔지니어들과 협업이 필수적인 경우가 많기 때문에 이들 소프트웨어 엔지니어들과 협업을 염두에 두고 프로젝트 계획을 수립해야 한다는 것이다.

데이터 과학 프로젝트가 어려운 것은 여러 가지 성격의 프로젝트 특성이 같이 나타난다는 것이다. 우선 경영 현안을 관찰, 진단하고 해결책을 모색하는 컨설팅 및 경영 연구, 조사 프로젝트의 성격을 가지고 있다. 기업 경영과 비즈니스의 현안을 수학적 모델과 데이터를 통해 분석하고 그 해결책을 찾기 위해서는 프로젝트를 의뢰한 기업의 운영과 비즈니스 상황을 다양한 지표와 방법을 통해 관찰하고 진단할 필요가 있다. 이런 측면에서는 데이터 과학자들이 경영 컨설턴트와 비슷한 역할을 하게 된다.

이와 함께 데이터 과학 프로젝트에서 정의된 문제를 풀기 위해서는 데이터 분석을 위한 시스템과 소프트웨어를 개발해야 한다. 데이터 분석을 위한 시스템을 개발하는 일의 상당 부분은 소프트웨어 엔지니어들이 담당하고, 데이터 과학자들은 데이터 수집, 가공, 분석과 관계된 소프트웨어 모듈의 설계와 개발을 데이터 엔지니어들과 같이 대부분 수행하겠지만, 그럼에도 불구하고 데이터 과학 프로젝트에서 상당한 부분은 소프트웨어 개발에 관련된 것이다.

마지막으로 중요한 데이터 과학 프로젝트의 또 하나의 특성은 수학적 모델링과 산업 및 비즈니스 도메인 지식에 근거한 경영 현안에 대한 가설 설정과 모델링, 문제 해결의 기초가 되는 이론, 분석 방법론 수립 과정이다. 이런 과정은 전형적인 과학, 공학의 연구 과정이다. 즉 데이터 과학 프로젝트는 이공학의 전형적인 이론, 시뮬레이션을 통한 연구 프로젝트의 특성도 가지고 있다.

이렇게 데이터 과학 프로젝트의 중요한 세가지 측면 중 가장 많은 시간이 소요되고 중요한 산출물을 만드는 부분은 데이터 분석 시스템과 분석 소프트웨어 개발일 것이다. 물론 문제를 효과적이고 정확하게 정의하고, 이를 풀 수 있는 문제로 가설을 세우고 분석할 수 있는 모델링과 이론, 분석 방법론을 수립하여 데이터 분석의 결론을 내리고 통찰을 얻는 부분이 중요성에서는 더 중요하다. 필자가 의미하는 것은 데이터 과학 프로젝트의 상당 시간이 데이터 분석의 결론과 통찰을 얻는데 중요한 데이터 수집, 가공, 처리 분석 과정을 자동화하고 분석 내용이 비즈니스 및 운영 지원 시스템과 연계되어 비즈니스 자동화 시스템으로 발전하도록 하는 데 꼭 필요한 시스템 및 소프트웨어 개발에 할애된다는 것이다.

이렇게 데이터 과학 프로젝트의 상당 시간이 소프트웨어 개발에 할애되기 때문에 프로젝트의 성패는 소프트웨어 개발 과정을 어떻게 효과적으로 관리하는가에 상당 부분 달려있다고 볼 수 있다. 데이터 과학 프로젝트가 성공하기 위해서는 소프트웨어 엔지니어들과 협업을 염두에 두고 소프트웨어 개발 과정을 데이터 과학 업무와 같이 효과적으로 관리할 수 있게 해주는 프로젝트 관리 체계가 필요하다.

다섯번째로, 데이터 과학 프로젝트를 수행하는 과정에서 자원 계획을 구체적으로 수립하기 어렵다는 것을 고려해서 클라우드를 적극적으로 활용하는 것을 염두에 두고 비용과 자원 계획을 수립해야 한다는 것이다.

최근 클라우드 컴퓨팅 기술이 안정화되고 성숙하면서 제2의 중흥기를 맞고 있는 것 같다. 보통 가트너의 하이프사이클(hype-cycle)에 따른 기술 성숙의 주기를 보면 성숙(“Slope of enlightenment”), 안정기(“Plateau of productivity”)에는 기술에 대한 기대치가 과도하게 최고조에 이르는 “과도한 기대의 정점(Peak of inflated expectation)” 시점보다는 언론과 미디어의 관심을 크게 덜 받는 경우가 많다. “과도한 기대의 정점”을 지난 클라우드 컴퓨팅이 최근 아마존 웹 서비스(AWS), 마이크로소프트의 애저(Azure), 구글 클라우드와 같은 퍼블릭(public) 클라우드 서비스를 중심으로 IT산업계 전반에서 상당히 많은 관심을 모으고 있다.

클라우드 서비스를 통해서 부활한 마이크로소프트는 아예 자사의 사업 포트폴리오를 클라우드 컴퓨팅으로 집중하고 있고, 구글도 기존의 검색 사업에서 클라우드 컴퓨팅의 비중을 점점 높여가는 상황이다. 클라우드 컴퓨팅의 원조인 아마존 웹 서비스는 최대의 호황을 맞이하고 있으며, 이제 차세대 기업 IT 인프라를 아예 클라우드로 전환하는 대한항공과 같은 회사의 사례도 나타나고 있다.

클라우드 컴퓨팅이 빅데이터를 활용한 데이터 과학 프로젝트에서는 유난히 더 중요한 이유가 있다. 과거 클라우드 컴퓨팅이 지금처럼 성숙하지 못했던 시절에는 클라우드 컴퓨팅 자원이 기업이 직접 구축한 베어메탈(bare-metal) 빅데이터 시스템에 비해 성능이 다소 떨어지고 기업 내부가 아닌 외부에 기업의 영업 비밀과 정보가 담긴 민감한 데이터를 두어야 한다는 다소 개운치 않은 이유로 여러 가지 이점에도 불구하고 클라우드 컴퓨팅을 이용해 빅데이터 데이터 과학을 한다는 것이 꺼려졌었던 것이 사실이다. 최근 클라우드 컴퓨팅의 기술적인 발전과 점점 무르익는 하이브리드 클라우드 기술과 환경이 이런 우려를 불식시키고 빅데이터와 데이터 과학을 활용하는 최고의 기업 IT 인프라로서 자리를 잡기 시작하고 있다.

클라우드 컴퓨팅 환경이 빅데이터를 활용하는 데이터 과학 프로젝트에서 중요한 이유는 세 가지로 요약할 수 있다. 우선, 빅데이터 인프라 구축에 들어가는 초기 투자를 정기적인 비용 흐름으로 전환하고, 빅데이터 비즈니스의 효과가 분명하지 않을 때는 언제든지 쉽게 철수할 수 있는 출구를 만들어주면서 투자 위험을 대폭 줄일 수 있다는 것이다.

두번째로, 빅데이터 비즈니스 모델을 탐색하는 빅데이터 비즈니스 초반에 무리한 빅데이터 인프라 투자로 인한 비용 낭비와 과잉 투자를 줄일 수 있고, 다양한 비즈니스 모델을 짧은 시간에 시험해볼 수 있는 유연한 빅데이터 인프라를 제공해줄 수 있다는 것이다.

세번째로, 기업들이 최근 급격하게 발전하고 있는 네트워크 대역폭과 소프트웨어 정의 네트워크 기술들을 활용하여 한결 유연해진 네트워크 구축을 통해 하이브리드 클라우드 기술을 활용하여 자사의 민감한 데이터를 굳이 기업 IT 인프라 외부에 있는 공용(public) 클라우드 컴퓨팅 서비스로 옮기지 않더라도 클라우드 컴퓨팅 자원을 활용한 빅데이터 분석과 가공을 얼마든지 이용할 수 있게 되었다는 것이다.

이렇게 최근 클라우드 컴퓨팅의 발전을 고려하여 빅데이터와 데이터 과학을 활용하는 비즈니스를 기획하고 실행하는 기업들은 더욱더 클라우드 컴퓨팅 기술을 적극적으로 활용해야 한다. 과거 클라우드 컴퓨팅 기술이 성숙하지 못했을 때도 빅데이터와 데이터 과학을 위한 IT 인프라로서 클라우드 컴퓨팅은 분명한 가치를 가지고 있었지만, 기술과 서비스가 성숙한 오늘날에는 더더욱 클라우드 컴퓨팅을 사용하지 않을 이유가 없다. 빅데이터 비즈니스와 데이터 과학을 이용한 경영 패러다임 전환을 모색하는 기업이라면 이러한 시도의 위험을 적극적으로 줄이기 위해서라도 퍼블릭 클라우드 서비스와 하이브리드 클라우드 컴퓨팅 기술 도입을 더욱더 긍정적으로 검토하고 활용해야 한다.

앞으로의 다섯 가지 이유로, 데이터 과학 프로젝트 관리를 위해서는 다소 특별한 방법론이 필요하다는 것을 어렴풋하게 느끼는 독자분들이 있으실 것이라 믿는다. 데이터 과학 프로젝트의 위와 같은 다섯 가지 특성으로 인해서 데이터 과학 프로젝트는

1. 반복적인 과정을 통해 데이터 과학을 통해 풀어야 하는 문제를 구체적으로 정의하고 정의된 문제를 단계적으로 풀어나가는 것을 체계적으로 지원할 수 있는 프로젝트 관리 방법론
2. 소프트웨어 엔지니어들과 협업과 의사소통을 체계적이고 효과적으로 지원할 수 있는 프로젝트 관리 방법론
3. 데이터 과학 프로젝트를 진행하면서 필요한 자원과 시스템의 변화와 클라우드 컴퓨팅을 이용한 데이터 과학 인프라 관리의 소프트웨어적 요소를 적극적으로 지원할 수 있는 프로젝트 관리 방법론
을 통해서 관리되는 것이 적합하다. 이러한 데이터 과학 프로젝트의 특성을 잘 지원할 수 있는 프로젝트 관리 방법론으로서 애자일 프로젝트 방법론을 다음 글에서 같이 살펴보도록 하자.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] 마이크 콘, “경험과 사례로 풀어낸 성공하는 애자일”, 인사이트, 2012.
[3] Mike Cohn, “Succeeding with Agile” Addision-Wesley, 2010. ([2]의 영문 원전)
[4] 마이크 콘, “사용자 스토리”, 인사이트, 2006.
[5] 조너선 라스무슨, “애자일 마스터”, 2012.
[6] 헨릭 크니버그, “스크럼과 XP”, 인사이트, 2009.
[7] 켄 슈와버, “엔터프라이즈 스크럼 - 사례에 기반한 기업 차원의 스크럼 도입과 활용 에이콘 애자일 시리즈 3”, 에이콘출판, 2010.
[8] 켄 슈와버, “Agile Project Management with Scrum(한국어판)”, 에이콘출판, 2012.

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr