2019.09.27

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (12)

김진철 | CIO KR

리듬을 타는 데이터 과학으로 위험 줄이기 – 애자일 데이터 과학
빅데이터 조직과 시스템에 대한 마지막 글로 데이터 과학과 애자일 프로젝트 관리와의 관계에 대해서 같이 생각해 보고자 한다. 최근 사용자 경험을 중요시하는 소프트웨어 개발이나, 스타트업과 같이 상품을 최대한 빨리 만들어 고객과 시장의 피드백을 제품에 반영하여 비즈니스를 빠른 속도로 개선하고 위험을 줄이는 린 개발 방식을 채택하는 기업들 상당수가 애자일 프로젝트 관리 기법을 적용하고 있다. 데이터 과학에서도 애자일 프로젝트 관리 기법이 효과적일 수 있음을 같이 살펴보고자 한다.

소프트웨어 개발뿐 아니라, 데이터 과학 또한 소프트웨어 소스 코드와 분석 산출물과 같은 무형의 결과물을 다루고, 소프트웨어 개발에 더해 분석 기법과 분석 내용에 대한 어렵고 까다로운 결과물을 다루기 때문에 체계적으로 산출물과 마일스톤을 관리하지 않으면 프로젝트의 성과를 기업 경영에 적절하게 활용하고 관리하기가 쉽지 않다. 이에 더해, 데이터 과학자들의 데이터 분석과 문제 해결 업무는 일정에 따른 마일스톤을 구체적으로 정하기도 어렵기도 하다. 소프트웨어도 그 무형성과 사람의 생각을 소스 코드와 IT 시스템으로 만들어내야 하는 어려움으로 프로젝트 관리가 쉽지 않은데, 데이터 과학 프로젝트의 결과물들은 소프트웨어와 함께 데이터 분석 내용과 논리, 분석 결과가 기업 경영에 주는 시사점 등의 지식 산출물까지 만들고 관리해야 하니 더 쉽지 않은 측면이 있다.
 

ⓒGetty Images Bank


소프트웨어 개발 프로젝트보다 데이터 과학 프로젝트의 관리가 더 어려운 이유 중의 하나는 아직 풀어본 적이 없는 문제를 어떤 데이터를 어떻게 다루어서 어느 정도 수준의 데이터 분석과 결과물을 내어야 하는지 데이터 과학 프로젝트의 처음부터 끝까지의 청사진을 프로젝트 착수 전이나 초반에 계획하기가 어렵기 때문이다. 

데이터 과학 프로젝트는 소프트웨어 개발보다 연구(research) 프로젝트와 유사하여 프로젝트의 결과를 예측하거나 계획하기가 더 어렵기 때문에 일정 및 자원을 정확하게 추정하고 효과적으로 관리하기가 소프트웨어 개발 프로젝트보다 더 어렵다. 더군다나 기업 경영에서 데이터 분석이 필요한 문제들은, 이미 데이터 분석의 논리와 방법론이 어느 정도 알려져 있어서 이런 방법들만 적용하고 적절한 해석만 하면 어느 정도의 결론을 낼 수 있는 문제들도 있지만, 데이터 수집부터 가공, 분석 과정까지 새로이 설계해야 하는 문제도 상당히 많은데 이런 경우에는 전체 프로젝트의 규모와 프로젝트 수행 도중의 위험 요소가 어떤 것들이 있는지 파악하기가 정말 어려운 경우가 많다.

데이터 수집, 가공, 분석 시스템을 만드는 것은 데이터 분석의 목적과 논리, 그리고 데이터 분석 방법론이 어느 정도 정해지면 소프트웨어 개발 프로젝트가 되어 소프트웨어 프로젝트 관리 방법론을 어느 정도 적용할 수 있다. 데이터 분석 시스템이 갖춰진 후 진행되는 데이터 분석 과정은 프로젝트 일정이나 자원 추정이 어려운 경우가 많은데, 이는 풀려고 하는 문제가 어느 정도 정해진 경우에도 마찬가지이다. 문제를 푸는 방법을 알고 있어서 계산만 하면 되는 경우라고 해도 많은 경우 데이터 과학에서 하게 되는 계산은 데이터의 구조를 정확하게 알고 하는 계산이 아니기 때문에 적지 않은 시행착오를 겪게 마련이다.

데이터 과학을 통해 풀려는 문제가 해결 방법이 어느 정도 알려져 있는 문제가 아니라 어떤 데이터 분석 방법론을 쓸 것인지, 어떤 접근 방식으로 문제 해결의 실마리를 하나하나 풀어갈 것인지 처음부터 디자인해야 하는 상황이면 프로젝트 일정과 자원 추정은 더 어려운 문제가 된다. 이렇게 해결 방법이 분명하지 않고 새롭게 디자인해야 하는 데이터 과학 문제가 프로젝트 일정, 자원 추정이 어려운 이유는 프로젝트를 수행하기 위해 필요한 업무가 프로젝트 초반에 모두 MECE(Mutually Exclusive, Completely Exhaustive)하게 파악되지 않기 때문이다.

보통 프로젝트 일정 및 자원 추정은 각 작업에 들어가는 시간과 인력, 자원 및 비용이 어느 정도 정확하게 추정될 수 있을 만큼 해야 할 작업(task)들을 모두 정의하고 최대한 구체적으로 나누어야 가능하다. 데이터 과학 프로젝트는 이렇게 해야 할 작업을 모두 파악하는 것이 어려울뿐 아니라, 설사 해야 할 작업을 알고 있다고 해도 문제를 풀기 위한 시행착오에 어느 정도의 시간과 자원이 들어갈지 구체적으로 추정하기 어려운 경우가 많아 구체적인 프로젝트 일정, 자원 계획을 세우기가 어렵다.

이렇다고 해서 기업의 입장에서 데이터 과학 프로젝트에 마냥 시간과 인력을 투입할 수는 없는 노릇이다. 정확하지는 않더라도 어느 정도 선에서 데이터 과학 문제를 풀 것인지 정의하고 프로젝트 수행 계획을 구체적으로 수립하기 위한 최소한의 방법은 필요하게 된다. 이런 이유로 데이터 과학 프로젝트를 통해서 내어놓는 결과물이나 산출물들은 - 경우에 따라 해결하려는 문제에 대한 정답인 경우가 전혀 없는 것은 아니지만 - 대개 그 프로젝트 수행 시점과 일정의 제약 안에서 해결할 수 있는 최선의 답인 경우가 많다.

이렇게 소프트웨어 개발 프로젝트보다도 더 모호하고 구체적인 계획을 세우기가 어려운 데이터 과학 프로젝트를 성공적으로 기획하기 위해서는 어떻게 해야 할까? 그냥 마냥 데이터만 들여다보면서 분석만 한다고 해서 성과물이 지속해서 나오리라는 보장이 없는데, 기업의 입장에서 경영진이 데이터 과학 프로젝트에 대해 납득할 수 있을 정도로 시간과 인력, 자원을 투입할 근거와 명분을 찾기 위해서는 어떻게 해야 할까?

기업이 경영 의사 결정의 위험을 줄이기 위해 하는 데이터 과학 자체가 또 다시 이런 불확실성과 위험을 안고 있다는 것은 참으로 아이러니한 일이다. 그렇지만, 분명한 것은 데이터 과학 프로젝트의 불확실성과 위험을 체계적으로 극복할 방법이 있으며, 이런 불확실성과 위험을 극복하고 데이터 과학에 투자하는 것이 기업의 입장에서 더 큰 위험을 회피하고 더 큰 수익을 가져다줄 수 있는 사업 기획 및 경영 의사 결정을 가능하게 한다는 것이다.
 


데이터 과학 프로젝트의 기획과 수행 방법에 대한 몇 가지 원칙을 같이 살펴보도록 하자. 먼저, 데이터 과학 프로젝트를 기획, 수행하는 과정은 수행과정과 내용을 단계별로 다듬는 방식으로 체계적으로 진행되어야 한다는 것이다.

앞서 스물다섯번째 글부터 서른한번째 글에 이르기까지 데이터 과학팀의 문화와 규범, 데이터 과학팀 리더의 리더십에 대한 내용을 다루면서 데이터 과학자들이 문제에 몰입할 수 있도록 집중력을 높이는 공간과 자유롭게 정보와 아이디어가 교환, 소통될 수 있는 팀의 분위기와 규범을 마련하는 것이 중요하다고 강조한 바 있다. 데이터 과학자들이 연구, 조사 및 데이터 분석과정에서 틀에 박히지 않은 데이터에 근거한 참신한 결론을 이끌어내기 위해서 자유롭고 격식에 매이지 않는 창의적인 생각을 강조하는 업무 환경과 분위기는 정말 필요한 것이지만, 이들의 창의적인 에너지를 팀과 조직의 목표와 미션에 정렬, 집중하도록 하여 최선의 성과를 이룰 수 있도록 약간의 가이드와 제한을 두는 것도 필요하다.

창의적인 성과를 극대화하기 위해 필요한 약간의 가이드와 제한 요소 중의 하나는 바로 아이디어를 만들어내고 정제하는 과정을 가능하면 체계적이고 반복적인 프로세스로 틀을 잡는 것이다. 아이디어를 위해 고민하고 풀 수 있는 문제로 정제하는 과정이 팀의 업무 흐름에 맞추어 의식하지 않더라도 자연스럽고 체계적으로 진행될 수 있도록 IT 기술의 도움을 받아 최소한으로 시스템화하는 것이다. 

여기서, 최소한으로 시스템화하는 것이 중요하다. 조직의 속성상, 프로세스가 만들어지면 이 프로세스는 점점 더 복잡해지고 양이 많아져 조직에서 일하는 사람들의 숨이 막히게 하는 경우가 많기 때문이다. 이렇게 복잡해지고 지켜야 할 프로세스가 많아져 생기는 폐해는 기존의 관료 조직에서 충분히 볼 수 있다.

데이터 과학팀에서 데이터 과학 프로젝트를 기획, 수행하는 과정에서 최소한으로 갖추어야 할 틀과 가이드로서 또 하나 고려해야 할 것은 문제 해결의 단계를 두는 것이다. 예를 들자면, 타부서나 외부에서 문제 해결에 대한 의뢰가 들어온 경우 이 문제를 분석, 정의하고 풀 수 있는 문제로 만드는 소규모 사전 프로젝트 수행 단계, 그리고 정의된 문제를 해결하기 위한 1단계 문제 해결 절차 및 분석 방법을 정의하고 이렇게 정의된 문제 해결 절차와 분석 방법을 통해 얻을 수 있는 결론과 시사점을 정리하는 1단계 프로젝트, 다시 전단계의 문제 해결 및 분석 방법으로 볼 수 없었던 데이터의 구조와 해석을 다른 관점과 방법으로 조사하거나, 전단계의 분석 방법과 과정을 심화하고 스케일을 높여 대규모 빅데이터 분석을 통해 더 정밀하게 확인하는 과정을 거치는 2단계 분석 프로젝트와 같이, 주어진 상황과 여건에서 가능하면 명확한 결론과 산출물을 낼 수 있는 단계로 쪼개고 단계별 목표를 분명하게 하는 과정이 필요하다.

특히 탐색적 데이터 분석을 수행해야 하는 경우에 특정한 목적이나 풀어야 할 문제를 분명하게 정의하지 않고 성급하게 착수할 경우 진부한 결론을 내거나 시간을 낭비할 수 있다. 데이터를 어떤 관점에서 분석하고 결론을 도출할 것인지 현재 시점에서 데이터 분석의 주된 목표와 중점 사항을 최소한으로 정하고 단계별로 결론을 매듭지어 가면서 데이터 분석의 수준과 내용을 확장하는 것이 좋은 방법이다. 단계별로 얻은 결론과 기업 경영 현안에 대한 시사점을 경영진과 의사 결정자들에게 되도록 자주 공유하고 데이터 과학 프로젝트의 현재 상황과 위치, 그리고 앞으로 분석할 내용이 현재 공유한 결론과 시사점에 비추어 어떤 의미가 있는지 경영진과 의사 결정자들에게 자주 소통하는 것이 데이터 과학 조직의 업무와 데이터 과학 프로젝트에의 경영진과 의사 결정자들의 신뢰를 높이는 방법이다.

데이터 과학자들의 생각의 자유와 창의적인 업무 분위기를 지나치게 강조하다 보면 이들의 창의적인 문제 해결 역량과 에너지를 집중시켜 당면한 문제를 해결하기 위해 필요한 추진력을 충분하게 얻기 어려울 수 있기 때문에 약간의 형식과 문제 해결의 단계별 프로세스는 정의하고 갖추도록 리더들이 신경 쓸 필요가 있다. 데이터 과학 프로젝트가 자칫 시간과 자원만 낭비하고 진부한 결론만 내는 성과 없는 프로젝트라는 인식을 조직에 주지 않도록 프로젝트를 해결할 수 있는 문제들로 구성하여 단계별로 결론을 낼 수 있는 소규모 프로젝트들로 나누고, 단계별로 분석 내용과 결론, 시사점을 정리하여 경영진과 의사 결정자들, 유관 부서에 자주 소통하는 것이 데이터 과학 프로젝트의 성공과 조직의 지지를 유도할 수 있는 좋은 방법이다.

두번째로, 데이터 과학 프로젝트는 프로젝트 기획을 위한 연구와 기획 프로젝트가 별도로 필요할 수 있다는 것이다. 즉, 데이터 과학을 통해 풀어야 할 경영 의사 결정 문제나 현안을 구체적이고 해결 가능한 문제로 정의하기 위한 사전 프로젝트가 수행되어야 할 필요가 있다.

앞서 데이터 과학 프로젝트 수행의 첫번째 요소로 프로젝트를 풀 수 있는 작은 소규모 프로젝트로 만들어 단계별로 결론과 산출물을 내고 이런 중간 결과들을 자주 경영진과 의사 결정자들에게 공유, 소통하는 방법이 좋다고 하였다. 여기서 한가지 더 같이 깊게 생각해봐야 할 점은, 데이터 과학 프로젝트를 풀 수 있는 소규모 프로젝트로 나누고 쪼개는 과정이 다루고자 하는 사안에 따라서는 별도의 프로젝트가 될 수 있을 정도로 복잡하고 어려울 수 있다는 것이다.

아마도 대부분 기업들은 비즈니스를 하면서 이미 축적한 데이터를 먼저 분석해보고 이 분석 결과를 신사업 기획이나 기존 비즈니스 최적화에 활용해보자는 식으로 데이터 과학 프로젝트를 시작하는 경우가 많을 것이다. 이런 방법이 나쁜 것은 아니지만, 이런 경우에는 이미 보유한 데이터에 데이터 과학 프로젝트를 위한 정보가 충분히 담겨 있는지 평가하는 과정을 거치는 것이 좋다고 얘기한 바 있다.

이렇게 이미 가지고 있는 데이터의 가치와 효용에 대한 평가를 포함해서, 데이터 과학 프로젝트를 어떤 방향으로, 어떤 경영 현안에 관련된 문제를 데이터를 기반으로 해결 방안을 만들 것인지 사전 조사 및 프로젝트 기획을 하는 과정을 거치는 것이 데이터 과학자들과 데이터 과학을 위한 인프라 투자를 효과적으로 활용하기 위해 필요할 것이다. 데이터 과학자들이 기업의 경영 현안에 대한 모든 자료를 꼼꼼히 검토하고 실무자들과 회의를 통해 스스로 경영 현안에 관련된 문제 중에서 기업의 의사 결정 합리화를 통해 크게 기여할 수 있는 데이터 과학 문제를 모두 찾아낼 수 있다면 좋겠지만, 이런 경우는 아마도 흔치 않을 것이다.

데이터 과학 체계를 처음 도입하면서 이를 신사업에 적용하는 기업이나 창업 시점부터 데이터 분석을 고려한 비즈니스 시스템을 갖추고 비즈니스를 시작하는 스타트업이 아니라면 대개 현재 비즈니스에서 기업 운영에서 당면한 문제 중에 데이터를 이용해 해결할 수 있는 문제가 무엇이고 이런 문제들이 투자 대비 효과가 충분히 날 수 있는 문제들인지 검토하고 평가하여 데이터 과학 프로젝트를 기획하는 과정이 필요하다. 어떤 문제부터 데이터 과학을 도입하는 것이 좋을지 검토하고 이들 데이터 과학 프로젝트를 통해서 기업 경영 의사 결정을 어떤 부분부터 데이터 기반 의사 결정으로 하나하나 바꾸어 나갈지 로드맵과 계획을 세우는 과정이 필요할 것이다.

이렇게 데이터 과학 프로젝트를 기획하는 과정은 데이터 과학팀만이 진행하기보다는 규모에 따라 경영, 전략 컨설팅 회사와 데이터 과학팀, 기업의 경영 전략 및 운영 실무 부서와의 협업을 통해 진행하는 것이 가장 바람직할 것이다. 데이터 과학자들이 경영 컨설턴트의 역할도 겸할 수 있으면 금상첨화겠지만 이런 경우는 흔치 않을 것이기 때문에 기업 현안을 진단하고 이를 데이터 과학자들과의 협업을 통해서 전사적인 데이터 과학 프로젝트로 정의하는 과정은 데이터 과학팀이 경영 컨설턴트들의 지원을 받는 것이 더 효과적일 것이라고 필자는 생각한다.

최근 일부 유명 경영 컨설팅 회사들은 데이터 과학자를 영입하여 경영 컨설팅 프로젝트에 활용하고 있다. 이들 경영 컨설팅 회사의 데이터 과학자들이 기업의 데이터 과학팀과 협업하여 경영 현안에서 데이터 과학 문제를 도출하고 데이터 과학 프로젝트를 기획해간다면 좀더 효과적으로 데이터 과학 프로젝트를 운영하고 그 결과물을 활용할 수 있을 것이다.

 




2019.09.27

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (12)

김진철 | CIO KR

리듬을 타는 데이터 과학으로 위험 줄이기 – 애자일 데이터 과학
빅데이터 조직과 시스템에 대한 마지막 글로 데이터 과학과 애자일 프로젝트 관리와의 관계에 대해서 같이 생각해 보고자 한다. 최근 사용자 경험을 중요시하는 소프트웨어 개발이나, 스타트업과 같이 상품을 최대한 빨리 만들어 고객과 시장의 피드백을 제품에 반영하여 비즈니스를 빠른 속도로 개선하고 위험을 줄이는 린 개발 방식을 채택하는 기업들 상당수가 애자일 프로젝트 관리 기법을 적용하고 있다. 데이터 과학에서도 애자일 프로젝트 관리 기법이 효과적일 수 있음을 같이 살펴보고자 한다.

소프트웨어 개발뿐 아니라, 데이터 과학 또한 소프트웨어 소스 코드와 분석 산출물과 같은 무형의 결과물을 다루고, 소프트웨어 개발에 더해 분석 기법과 분석 내용에 대한 어렵고 까다로운 결과물을 다루기 때문에 체계적으로 산출물과 마일스톤을 관리하지 않으면 프로젝트의 성과를 기업 경영에 적절하게 활용하고 관리하기가 쉽지 않다. 이에 더해, 데이터 과학자들의 데이터 분석과 문제 해결 업무는 일정에 따른 마일스톤을 구체적으로 정하기도 어렵기도 하다. 소프트웨어도 그 무형성과 사람의 생각을 소스 코드와 IT 시스템으로 만들어내야 하는 어려움으로 프로젝트 관리가 쉽지 않은데, 데이터 과학 프로젝트의 결과물들은 소프트웨어와 함께 데이터 분석 내용과 논리, 분석 결과가 기업 경영에 주는 시사점 등의 지식 산출물까지 만들고 관리해야 하니 더 쉽지 않은 측면이 있다.
 

ⓒGetty Images Bank


소프트웨어 개발 프로젝트보다 데이터 과학 프로젝트의 관리가 더 어려운 이유 중의 하나는 아직 풀어본 적이 없는 문제를 어떤 데이터를 어떻게 다루어서 어느 정도 수준의 데이터 분석과 결과물을 내어야 하는지 데이터 과학 프로젝트의 처음부터 끝까지의 청사진을 프로젝트 착수 전이나 초반에 계획하기가 어렵기 때문이다. 

데이터 과학 프로젝트는 소프트웨어 개발보다 연구(research) 프로젝트와 유사하여 프로젝트의 결과를 예측하거나 계획하기가 더 어렵기 때문에 일정 및 자원을 정확하게 추정하고 효과적으로 관리하기가 소프트웨어 개발 프로젝트보다 더 어렵다. 더군다나 기업 경영에서 데이터 분석이 필요한 문제들은, 이미 데이터 분석의 논리와 방법론이 어느 정도 알려져 있어서 이런 방법들만 적용하고 적절한 해석만 하면 어느 정도의 결론을 낼 수 있는 문제들도 있지만, 데이터 수집부터 가공, 분석 과정까지 새로이 설계해야 하는 문제도 상당히 많은데 이런 경우에는 전체 프로젝트의 규모와 프로젝트 수행 도중의 위험 요소가 어떤 것들이 있는지 파악하기가 정말 어려운 경우가 많다.

데이터 수집, 가공, 분석 시스템을 만드는 것은 데이터 분석의 목적과 논리, 그리고 데이터 분석 방법론이 어느 정도 정해지면 소프트웨어 개발 프로젝트가 되어 소프트웨어 프로젝트 관리 방법론을 어느 정도 적용할 수 있다. 데이터 분석 시스템이 갖춰진 후 진행되는 데이터 분석 과정은 프로젝트 일정이나 자원 추정이 어려운 경우가 많은데, 이는 풀려고 하는 문제가 어느 정도 정해진 경우에도 마찬가지이다. 문제를 푸는 방법을 알고 있어서 계산만 하면 되는 경우라고 해도 많은 경우 데이터 과학에서 하게 되는 계산은 데이터의 구조를 정확하게 알고 하는 계산이 아니기 때문에 적지 않은 시행착오를 겪게 마련이다.

데이터 과학을 통해 풀려는 문제가 해결 방법이 어느 정도 알려져 있는 문제가 아니라 어떤 데이터 분석 방법론을 쓸 것인지, 어떤 접근 방식으로 문제 해결의 실마리를 하나하나 풀어갈 것인지 처음부터 디자인해야 하는 상황이면 프로젝트 일정과 자원 추정은 더 어려운 문제가 된다. 이렇게 해결 방법이 분명하지 않고 새롭게 디자인해야 하는 데이터 과학 문제가 프로젝트 일정, 자원 추정이 어려운 이유는 프로젝트를 수행하기 위해 필요한 업무가 프로젝트 초반에 모두 MECE(Mutually Exclusive, Completely Exhaustive)하게 파악되지 않기 때문이다.

보통 프로젝트 일정 및 자원 추정은 각 작업에 들어가는 시간과 인력, 자원 및 비용이 어느 정도 정확하게 추정될 수 있을 만큼 해야 할 작업(task)들을 모두 정의하고 최대한 구체적으로 나누어야 가능하다. 데이터 과학 프로젝트는 이렇게 해야 할 작업을 모두 파악하는 것이 어려울뿐 아니라, 설사 해야 할 작업을 알고 있다고 해도 문제를 풀기 위한 시행착오에 어느 정도의 시간과 자원이 들어갈지 구체적으로 추정하기 어려운 경우가 많아 구체적인 프로젝트 일정, 자원 계획을 세우기가 어렵다.

이렇다고 해서 기업의 입장에서 데이터 과학 프로젝트에 마냥 시간과 인력을 투입할 수는 없는 노릇이다. 정확하지는 않더라도 어느 정도 선에서 데이터 과학 문제를 풀 것인지 정의하고 프로젝트 수행 계획을 구체적으로 수립하기 위한 최소한의 방법은 필요하게 된다. 이런 이유로 데이터 과학 프로젝트를 통해서 내어놓는 결과물이나 산출물들은 - 경우에 따라 해결하려는 문제에 대한 정답인 경우가 전혀 없는 것은 아니지만 - 대개 그 프로젝트 수행 시점과 일정의 제약 안에서 해결할 수 있는 최선의 답인 경우가 많다.

이렇게 소프트웨어 개발 프로젝트보다도 더 모호하고 구체적인 계획을 세우기가 어려운 데이터 과학 프로젝트를 성공적으로 기획하기 위해서는 어떻게 해야 할까? 그냥 마냥 데이터만 들여다보면서 분석만 한다고 해서 성과물이 지속해서 나오리라는 보장이 없는데, 기업의 입장에서 경영진이 데이터 과학 프로젝트에 대해 납득할 수 있을 정도로 시간과 인력, 자원을 투입할 근거와 명분을 찾기 위해서는 어떻게 해야 할까?

기업이 경영 의사 결정의 위험을 줄이기 위해 하는 데이터 과학 자체가 또 다시 이런 불확실성과 위험을 안고 있다는 것은 참으로 아이러니한 일이다. 그렇지만, 분명한 것은 데이터 과학 프로젝트의 불확실성과 위험을 체계적으로 극복할 방법이 있으며, 이런 불확실성과 위험을 극복하고 데이터 과학에 투자하는 것이 기업의 입장에서 더 큰 위험을 회피하고 더 큰 수익을 가져다줄 수 있는 사업 기획 및 경영 의사 결정을 가능하게 한다는 것이다.
 


데이터 과학 프로젝트의 기획과 수행 방법에 대한 몇 가지 원칙을 같이 살펴보도록 하자. 먼저, 데이터 과학 프로젝트를 기획, 수행하는 과정은 수행과정과 내용을 단계별로 다듬는 방식으로 체계적으로 진행되어야 한다는 것이다.

앞서 스물다섯번째 글부터 서른한번째 글에 이르기까지 데이터 과학팀의 문화와 규범, 데이터 과학팀 리더의 리더십에 대한 내용을 다루면서 데이터 과학자들이 문제에 몰입할 수 있도록 집중력을 높이는 공간과 자유롭게 정보와 아이디어가 교환, 소통될 수 있는 팀의 분위기와 규범을 마련하는 것이 중요하다고 강조한 바 있다. 데이터 과학자들이 연구, 조사 및 데이터 분석과정에서 틀에 박히지 않은 데이터에 근거한 참신한 결론을 이끌어내기 위해서 자유롭고 격식에 매이지 않는 창의적인 생각을 강조하는 업무 환경과 분위기는 정말 필요한 것이지만, 이들의 창의적인 에너지를 팀과 조직의 목표와 미션에 정렬, 집중하도록 하여 최선의 성과를 이룰 수 있도록 약간의 가이드와 제한을 두는 것도 필요하다.

창의적인 성과를 극대화하기 위해 필요한 약간의 가이드와 제한 요소 중의 하나는 바로 아이디어를 만들어내고 정제하는 과정을 가능하면 체계적이고 반복적인 프로세스로 틀을 잡는 것이다. 아이디어를 위해 고민하고 풀 수 있는 문제로 정제하는 과정이 팀의 업무 흐름에 맞추어 의식하지 않더라도 자연스럽고 체계적으로 진행될 수 있도록 IT 기술의 도움을 받아 최소한으로 시스템화하는 것이다. 

여기서, 최소한으로 시스템화하는 것이 중요하다. 조직의 속성상, 프로세스가 만들어지면 이 프로세스는 점점 더 복잡해지고 양이 많아져 조직에서 일하는 사람들의 숨이 막히게 하는 경우가 많기 때문이다. 이렇게 복잡해지고 지켜야 할 프로세스가 많아져 생기는 폐해는 기존의 관료 조직에서 충분히 볼 수 있다.

데이터 과학팀에서 데이터 과학 프로젝트를 기획, 수행하는 과정에서 최소한으로 갖추어야 할 틀과 가이드로서 또 하나 고려해야 할 것은 문제 해결의 단계를 두는 것이다. 예를 들자면, 타부서나 외부에서 문제 해결에 대한 의뢰가 들어온 경우 이 문제를 분석, 정의하고 풀 수 있는 문제로 만드는 소규모 사전 프로젝트 수행 단계, 그리고 정의된 문제를 해결하기 위한 1단계 문제 해결 절차 및 분석 방법을 정의하고 이렇게 정의된 문제 해결 절차와 분석 방법을 통해 얻을 수 있는 결론과 시사점을 정리하는 1단계 프로젝트, 다시 전단계의 문제 해결 및 분석 방법으로 볼 수 없었던 데이터의 구조와 해석을 다른 관점과 방법으로 조사하거나, 전단계의 분석 방법과 과정을 심화하고 스케일을 높여 대규모 빅데이터 분석을 통해 더 정밀하게 확인하는 과정을 거치는 2단계 분석 프로젝트와 같이, 주어진 상황과 여건에서 가능하면 명확한 결론과 산출물을 낼 수 있는 단계로 쪼개고 단계별 목표를 분명하게 하는 과정이 필요하다.

특히 탐색적 데이터 분석을 수행해야 하는 경우에 특정한 목적이나 풀어야 할 문제를 분명하게 정의하지 않고 성급하게 착수할 경우 진부한 결론을 내거나 시간을 낭비할 수 있다. 데이터를 어떤 관점에서 분석하고 결론을 도출할 것인지 현재 시점에서 데이터 분석의 주된 목표와 중점 사항을 최소한으로 정하고 단계별로 결론을 매듭지어 가면서 데이터 분석의 수준과 내용을 확장하는 것이 좋은 방법이다. 단계별로 얻은 결론과 기업 경영 현안에 대한 시사점을 경영진과 의사 결정자들에게 되도록 자주 공유하고 데이터 과학 프로젝트의 현재 상황과 위치, 그리고 앞으로 분석할 내용이 현재 공유한 결론과 시사점에 비추어 어떤 의미가 있는지 경영진과 의사 결정자들에게 자주 소통하는 것이 데이터 과학 조직의 업무와 데이터 과학 프로젝트에의 경영진과 의사 결정자들의 신뢰를 높이는 방법이다.

데이터 과학자들의 생각의 자유와 창의적인 업무 분위기를 지나치게 강조하다 보면 이들의 창의적인 문제 해결 역량과 에너지를 집중시켜 당면한 문제를 해결하기 위해 필요한 추진력을 충분하게 얻기 어려울 수 있기 때문에 약간의 형식과 문제 해결의 단계별 프로세스는 정의하고 갖추도록 리더들이 신경 쓸 필요가 있다. 데이터 과학 프로젝트가 자칫 시간과 자원만 낭비하고 진부한 결론만 내는 성과 없는 프로젝트라는 인식을 조직에 주지 않도록 프로젝트를 해결할 수 있는 문제들로 구성하여 단계별로 결론을 낼 수 있는 소규모 프로젝트들로 나누고, 단계별로 분석 내용과 결론, 시사점을 정리하여 경영진과 의사 결정자들, 유관 부서에 자주 소통하는 것이 데이터 과학 프로젝트의 성공과 조직의 지지를 유도할 수 있는 좋은 방법이다.

두번째로, 데이터 과학 프로젝트는 프로젝트 기획을 위한 연구와 기획 프로젝트가 별도로 필요할 수 있다는 것이다. 즉, 데이터 과학을 통해 풀어야 할 경영 의사 결정 문제나 현안을 구체적이고 해결 가능한 문제로 정의하기 위한 사전 프로젝트가 수행되어야 할 필요가 있다.

앞서 데이터 과학 프로젝트 수행의 첫번째 요소로 프로젝트를 풀 수 있는 작은 소규모 프로젝트로 만들어 단계별로 결론과 산출물을 내고 이런 중간 결과들을 자주 경영진과 의사 결정자들에게 공유, 소통하는 방법이 좋다고 하였다. 여기서 한가지 더 같이 깊게 생각해봐야 할 점은, 데이터 과학 프로젝트를 풀 수 있는 소규모 프로젝트로 나누고 쪼개는 과정이 다루고자 하는 사안에 따라서는 별도의 프로젝트가 될 수 있을 정도로 복잡하고 어려울 수 있다는 것이다.

아마도 대부분 기업들은 비즈니스를 하면서 이미 축적한 데이터를 먼저 분석해보고 이 분석 결과를 신사업 기획이나 기존 비즈니스 최적화에 활용해보자는 식으로 데이터 과학 프로젝트를 시작하는 경우가 많을 것이다. 이런 방법이 나쁜 것은 아니지만, 이런 경우에는 이미 보유한 데이터에 데이터 과학 프로젝트를 위한 정보가 충분히 담겨 있는지 평가하는 과정을 거치는 것이 좋다고 얘기한 바 있다.

이렇게 이미 가지고 있는 데이터의 가치와 효용에 대한 평가를 포함해서, 데이터 과학 프로젝트를 어떤 방향으로, 어떤 경영 현안에 관련된 문제를 데이터를 기반으로 해결 방안을 만들 것인지 사전 조사 및 프로젝트 기획을 하는 과정을 거치는 것이 데이터 과학자들과 데이터 과학을 위한 인프라 투자를 효과적으로 활용하기 위해 필요할 것이다. 데이터 과학자들이 기업의 경영 현안에 대한 모든 자료를 꼼꼼히 검토하고 실무자들과 회의를 통해 스스로 경영 현안에 관련된 문제 중에서 기업의 의사 결정 합리화를 통해 크게 기여할 수 있는 데이터 과학 문제를 모두 찾아낼 수 있다면 좋겠지만, 이런 경우는 아마도 흔치 않을 것이다.

데이터 과학 체계를 처음 도입하면서 이를 신사업에 적용하는 기업이나 창업 시점부터 데이터 분석을 고려한 비즈니스 시스템을 갖추고 비즈니스를 시작하는 스타트업이 아니라면 대개 현재 비즈니스에서 기업 운영에서 당면한 문제 중에 데이터를 이용해 해결할 수 있는 문제가 무엇이고 이런 문제들이 투자 대비 효과가 충분히 날 수 있는 문제들인지 검토하고 평가하여 데이터 과학 프로젝트를 기획하는 과정이 필요하다. 어떤 문제부터 데이터 과학을 도입하는 것이 좋을지 검토하고 이들 데이터 과학 프로젝트를 통해서 기업 경영 의사 결정을 어떤 부분부터 데이터 기반 의사 결정으로 하나하나 바꾸어 나갈지 로드맵과 계획을 세우는 과정이 필요할 것이다.

이렇게 데이터 과학 프로젝트를 기획하는 과정은 데이터 과학팀만이 진행하기보다는 규모에 따라 경영, 전략 컨설팅 회사와 데이터 과학팀, 기업의 경영 전략 및 운영 실무 부서와의 협업을 통해 진행하는 것이 가장 바람직할 것이다. 데이터 과학자들이 경영 컨설턴트의 역할도 겸할 수 있으면 금상첨화겠지만 이런 경우는 흔치 않을 것이기 때문에 기업 현안을 진단하고 이를 데이터 과학자들과의 협업을 통해서 전사적인 데이터 과학 프로젝트로 정의하는 과정은 데이터 과학팀이 경영 컨설턴트들의 지원을 받는 것이 더 효과적일 것이라고 필자는 생각한다.

최근 일부 유명 경영 컨설팅 회사들은 데이터 과학자를 영입하여 경영 컨설팅 프로젝트에 활용하고 있다. 이들 경영 컨설팅 회사의 데이터 과학자들이 기업의 데이터 과학팀과 협업하여 경영 현안에서 데이터 과학 문제를 도출하고 데이터 과학 프로젝트를 기획해간다면 좀더 효과적으로 데이터 과학 프로젝트를 운영하고 그 결과물을 활용할 수 있을 것이다.

 


X