2019.04.26

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (7)

김진철 | CIO KR

이미 있는 구성원을 데이터과학자로 양성할 방법은 없는가?
지난 스물여섯번째 글[9]에서 자세히 살펴본 문제인 어떻게 좋은 데이터 과학자를 찾을 수 있는가, 그리고 어떻게 좋은 데이터 과학자를 선별하여 영입할 수 있는가 하는 문제와 함께 필자에게 가장 많이 오는 문의는 이미 기업에서 일하고 있는 내부 구성원을 어떻게 데이터 과학자, 또는 데이터 분석 마인드를 가진 구성원으로 육성하고 훈련할 것인가 하는 문제다.

기업 입장에서 내부 구성원을 데이터 과학자로 훈련하거나, 데이터 과학자로 만들지는 못하더라도 데이터 분석 마인드를 가지고 데이터 기반의 의사 결정과 업무 방식에 익숙한 구성원으로 업그레이드하려 노력하는 것은 빅데이터 시대에 데이터 기반 비즈니스 및 경영 환경에 적응하려는 노력으로서 당연할지 모르겠다. 새로이 인력을 뽑아 제대로 활용하지 못하여 생기는 비용과 시간 낭비의 위험을 감수하는 것보다, 이미 어느 정도 업무 능력과 성품이 검증되어 기업에서 일하고 있는 구성원들의 업무 역량을 높이고, 기존 인력을 다시 활용하는 것이 바람직할 수도 있다.

필자도 이렇게 할 수 있다면 참 좋겠다는 생각이 든다. 기존의 기업 구성원들을 잘 훈련해 데이터 과학자로 탈바꿈시킬 수 있다면 기업으로서는 여러 가지로 좋을 것이다. 먼저, 기존 구성원들의 업무 역량을 향상하면서 조직의 역량을 동반 성장시킬 수 있다. 두번째로, 아무래도 보통 구성원들보다는 학력이나 역량에서 더 앞서고 뛰어날 수밖에 없는 데이터 과학자들과 기존 구성원들과의 갈등이나 대립을 걱정하지 않아도 된다. 세번째로, 빅데이터 비즈니스와 데이터 과학을 위해 새로이 인력을 영입하지 않아도 되니 새로이 영입된 인력들의 인건비와 복지 혜택을 위한 비용과 투자를 위한 추가의 가치 창출과 성장을 염두에 두어야 하는 경영진들도 부담을 덜 수 있다.

결론을 먼저 얘기하자면, 이 문제에 대해 필자가 많은 분에게서 문의를 받고 고민해보고, 실제 현장에서 개선을 위해 큰 노력을 해보았지만, 지금까지의 경험으로는 기존 구성원들을 교육이나 훈련을 통해 데이터 과학자로 탈바꿈시키게끔 육성하자는 생각은 전혀 현실적이지 않고 효과도 없는 방법이다. 다시 분명하게 얘기하자면, 기업의 업과 조직 문화에 따라서 다소 차이가 있기는 하지만, 이미 기업에서 일하고 있는 내부 구성원을 데이터 과학자로 육성하는 것은 불가능에 가까우며 비용과 효과 측면에서도 효과적이지 않다.
 

ⓒGetty Images Bank


왜 그럴까? 그 이유는 현재 대부분 기업이 운영되고 경영되는 방식이 데이터 과학자들을 길러낼 만한 성장 경로를 제시해줄 수 있는 환경을 만들어주지 못하기 때문이다. 다시 다른 말로 얘기하자면, 현재 대부분 기업의 업무 환경과 방식이 데이터 과학 패러다임에 기초한 방식이 아니므로 근본적으로 데이터 과학자가 양성될 수 없는 환경이기 때문이다.

사실 이 말은 전혀 이상한 말이 아니다. 이미 기업이 데이터 과학이 필요한 데이터 기반의 의사 결정 문화와 비즈니스 모델을 가지고 빅데이터 비즈니스를 잘 성장시키고 있다면 데이터 과학과 빅데이터 비즈니스를 통해 새로이 성장의 길을 모색할 필요가 있을까? 대부분 기업이 데이터 기반의 과학적 의사 결정과 빅데이터 비즈니스를 하고 있지 않아 성장의 한계를 느끼고 있기 때문에 결국 빅데이터 비즈니스와 데이터 과학에 관심이 있는 것이다. 

기업의 비즈니스 운영 방식이 데이터 기반 의사 결정과 문제 해결이라는 패러다임을 채택하고 있지 않은데 데이터 과학자 교육, 훈련 과정을 몇 개 개설해서 구성원들이 수업을 듣고 과정을 마친다고 해서 데이터 과학자가 양성될 수는 없는 것이다. 이전 스물일곱번째 글[2]에서 필자가 언급한 바와 같이 데이터 과학자로서 역량이 양성되는 것은 데이터 과학자의 경력 성장 경로에서 겪었던 업무 경험과 문제 해결 경험이 매우 중요하기 때문이다.

반대로 어떤 기업이 내부 구성원들을 효과적으로 데이터 과학자로 양성했다고 하면, 그 기업은 자신들이 의식하지 못하는 사이에 이미 데이터를 이용한 의사 결정과 과학적 문제 해결에 기초한 업무 수행 환경과 시스템을 이미 어느 정도 갖추고 실무에 적용하고 있을 가능성이 크다. 그러니까, 이미 데이터 과학자가 업무를 수행하면서 역량을 키워갈 수 있는 업무 환경과 시스템을 갖추고 있을 가능성이 크다는 것이다.

위와 같은 이유로 내부 구성원의 교육과 훈련을 통해서 데이터 과학자를 내부 육성하고 데이터 기반 의사 결정과 문제 해결 문화를 확산시키고자 하는 노력은 현재 대부분 기업에 맞지 않는 방식이다. 필자의 경험에 따르면 대부분 경우 이런 방법으로 구성원들의 데이터 과학과 데이터 기반 의사 결정의 중요성에 대한 인식을 제고하고 환기하는 정도까지는 갈 수 있지만, 데이터 기반 의사 결정과 문제 해결 마인드가 스며들어 있지 않은 기업 경영 시스템과 문화를 근본적으로 혁신하는 것은 내부 구성원 육성만으로는 불가능하다.

내부 구성원들을 데이터 과학자로 육성하는 데 성공했다면 이미 그 기업에서 데이터 과학자의 역량을 어느 정도 갖추었거나 훈련을 받았던 구성원을, 데이터 과학자라는 타이틀만 걸지 않은 상태에서, 영입해서 데리고 있었을 가능성이 크다. 또 한 가지 가능성은 기업이 의도했건 의도하지 않았건, 기업의 비즈니스 모델이나 업이 이미 데이터 과학에서 전제하고 있는 과학적 의사 결정과 문제 해결 패러다임이 곳곳에서 쓰이고 있는 비즈니스 모델이거나 업일 가능성이 크다. 예를 들면, CERN과 같이 고에너지 물리학을 연구하는 연구소이거나, 보잉이나 록히드마틴과 같은 항공우주기술 전문 기업과 같이 이미 데이터 과학자로서 소양과 역량을 갖춘 엔지니어를 대거 보유하고 관련 전문 업무를 수행하고 있는 회사일 가능성이 크다는 것이다.

따라서, 기업에서 이미 있는 내부 구성원들을 데이터 과학자로 양성하기 위한 지나친 노력은 하지 않기를 필자는 권장한다. 현재 빅데이터 기반 신사업을 수행하려는 기업이나 데이터 기반 의사 결정과 경영 문제 해결 역량을 기르고 싶어 하는 대부분 기업에 맞지 않는 방식이다. 정말 이런 회사들이야말로 새 술은 새 부대에 담아야 한다는 옛 말씀이 잘 들어맞는 상황이다.

기업 경영진이 데이터 과학자로 일할 수 있는 전문 인력을 영입하려는 노력을 등한시하면서 내부 구성원들을 데이터 과학자로 육성하기 위해 지나치게 기존 구성원들을 몰아붙이거나 부담을 줄 경우 오히려 데이터 기반 문제 해결 문화에 대해 기존 구성원들이 거부감을 갖게 되어 그런 문화가 확산되는데 걸림돌이 될 수 있다. 그리고, 전혀 효과가 없는 방법에 들이는 비용과 노력으로 오히려 기업 전반에 부담으로 다가와 역효과가 날 수 있으니 조심해야 한다.

그렇다면, 기존 구성원들은 데이터 과학을 이용한 의사 결정 방법이나 데이터 기반의 과학적 문제 해결 마인드를 가지도록 변화, 성장시킬 시도조차 아예 하지 말아야 하는가? 데이터 과학은 오직 데이터 과학자들의 전유물이 되어야 하고, 기업의 기존 구성원들은 이들 데이터 과학자들이 분석하여 풀어내는 기업 경영 현안에 대해 마치 신의 말씀을 듣고 받는 것같이 그저 묵묵히 따라야 하는가?

전혀 그렇지 않다. 필자가 얘기하고자 하는 것은 기존 구성원들을 데이터 과학자로 단기간에 길러내어 활용하려는 기업의 조급한 행태에 관해서 얘기하고자 하는 것이지, 기존 구성원들이 데이터 기반 의사 결정과 문제 해결 방식을 받아들이고 훈련시키게끔 할 방법이 전혀 없다고 얘기하는 것이 아니다. 현재까지의 필자의 경험에 바탕을 두어 데이터 과학에 대한 효용을 높이고 구성원들에게 데이터 과학 마인드와 문제 해결 문화를 확산시킬 수 있는 우리나라 현실에 맞는 효과적인 방법을 아래와 같이 제안하고자 한다.

데이터 과학자를 데이터 기반 문제 해결의 생산자로, 기존 구성원들이 데이터 기반 문제 해결의 산출물을 자동화된 의사 결정 도구를 이용하여 실제 기업 실무를 수행하는 데이터 소비자로서 역할을 할 수 있는 플랫폼을 기업 내부에 구축하고 운영함으로써 기존 구성원들의 데이터 과학 마인드를 고취하고 손쉽게 데이터 기반 문제 해결 마인드와 문화를 조직에 확산하는 방법을 제안한다.

조직에서 데이터 기반의 문제 해결, 의사 결정의 마인드를 구성원들이 가지게 하고, 결과적으로 이런 데이터 과학 문화가 기업 문화로서 확산되어 가기 위해서 꼭 조직의 모든 구성원을 데이터 과학자로 채워야 하는 것은 아니다. 모든 기업 구성원들이 데이터 과학자가 된다면 오히려 기업의 운영이 더 어렵게 될 것이다. 데이터 과학자와 같이 기업 경영을 진단하고 정밀하게 조사할 수 있는 데이터를 분석해서 경영 현안에 대한 깊이 있는 고민과 분석을 하는 사람도 필요하지만, 이러한 깊이 있는 고민과 분석의 산물을 이용해 빠르게 실행하고 기업의 실적과 이윤으로 연결하는 실행력 있는 사람도 필요한 법이다.

그러므로 기존 구성원을 모두 데이터 과학자로 훈련하거나, 또는 데이터 과학 마인드를 단기간에 갖추도록 경영진이 지나치게 조바심을 내면 오히려 구성원들이 데이터 기반 의사결정과 문제 해결 문화에 대해 경영진이 구성원 통제에 사용하는 또 다른 선전 도구로 오해해서 거부감을 느낄 가능성이 크다. 이런 거부감과 저항을 최소화하고, 데이터 과학의 효용을 빠르게 조직에 보여주기 위해서는 데이터 과학의 성과물들이 실제 업무 현장에서의 현안과 연결되어 직접 지원할 수 있는 일종의 플랫폼이 필요하다고 얘기하는 것이다.
이전에 필자의 다섯번째, 일곱번째 글[3, 4]에서 소개하였던 빅데이터 비즈니스 모델의 방법론을 이 데이터 과학 문화의 확산에 같이 한번 적용해보자. 우선, 기업과 조직에서 데이터 과학을 통해 기대하는 것은 대부분 이런 목적일 것이다.

-데이터 과학을 통해 고객 및 시장 데이터를 분석해서 새로운 사업과 틈새시장의 요구를 파악하는 것
-데이터 과학을 통해 기존 비즈니스와 상품을 개선할 방향과 방법을 찾아내는 것
-데이터 과학을 통해 현재 기업과 조직의 업무의 속도, 효율, 생산성을 향상할 방법을 찾아내는 것

빅데이터 비즈니스 플랫폼은 비즈니스 지원 시스템(Business Support System; BSS)과 운영 지원 시스템(Operation Support System; OSS)으로 구성된다고 얘기했다. 위의 세 가지 목적 중 우리가 지금 생각하는 소위 ‘데이터 과학 문화 확산 플랫폼’을 통해 달성하려고 하는 것은 세 번째의 목적에 해당하는 것이다. 지금 우리가 시도하려고 하는 것은 운영 지원 시스템(OSS)을 ‘데이터 과학 문화 확산 플랫폼’화하는 것이다.

이 ‘데이터 과학 문화 확산 플랫폼’을 만드는 데 필요한 것은 먼저 이 플랫폼의 비즈니스 모델을 돌아가게 하는 주체를 파악하는 것이다. 우리가 만들 ‘데이터 과학 문화 확산 플랫폼’의 서비스 제공자는 바로 데이터 과학자들이나 데이터 과학팀이 된다. 그리고, ‘데이터 과학 문화 확산 플랫폼’의 고객은 바로 기존의 기업 구성원과 경영진이 된다. 그렇다면, 이들 서비스 제공자와 고객 간 필요를 어떻게 이어주도록 이 플랫폼을 설계해야 할 것인가?
 


앞서 빅데이터에서 인공지능 기술의 중요성을 소개했던 일곱번째, 여덟번째 글[4, 5]에서 데이터 과학팀의 성과물들은 반드시 빅데이터 비즈니스 프로세스를 자동화하는 요소로 빅데이터 비즈니스 시스템에 통합되어야 한다고 언급한 바 있다. 데이터 과학자들은 자신들이 찾아낸 데이터 분석 과정의 논리와 그 산출물들을 데이터 엔지니어와 소프트웨어 엔지니어들과 협업하여 분석의 결과를 신속하게 일반 구성원들이 사용할 수 있는 정보로 바꾸어 주는 자동화된 데이터 처리 파이프라인으로 만들어야 한다.

소위 '데이터 과학 문화 확산 플랫폼'은 이런 데이터 분석 및 가공 자동화 모듈이 탑재되어 데이터 분석의 결과를 소비하는 일반 구성원들을 위한 정보 가공과 표현을 자동화하는 시스템으로 우선 작동하게 된다.

데이터 과학팀의 일원이 아닌 일반 구성원들을 데이터 분석 산출물들의 소비자로 보았을 때, 데이터 과학 문화의 사내 확산 문제는 이들 데이터 분석 산출물들의 소비자들인 일반 구성원들에게 어떻게 하면 쉽고 용이하게 데이터 분석 산출물들을 눈에 띄게 하고 쉽게 활용하게 하여 데이터를 기반으로 한 업무 처리의 비중이 높아지게 하는지에 대한 문제로 바뀌게 된다. 일반 구성원들을 데이터 과학자로 만들기 위해 어려운 데이터 분석 기법과 방법론들을 교육하는 것보다는, 기업들이 흔히 해오던 비즈니스 마케팅과 브랜딩, 그리고 서비스 상품을 어떻게 잘 소비하게 바꿀 것이냐 하는 문제로 사내 데이터 분석 문화 확산 문제를 바꾸게 되면 기업이 훨씬 부담 없이 데이터 과학 활용도를 높이는 문제에 접근할 수 있다.

데이터 과학 산출물들의 소비자인 일반 구성원들이 데이터 과학을 통해 자동으로 가공된 정보를 업무에 쉽게 활용하게 하려면 어떻게 해야 할까? 고려해야 할 것이 많지만 우선 가장 중요한 세 가지만 오늘 이 글에서는 살펴보도록 하자.

첫번째로, 데이터 분석 산출물을 소비할 부서나 업무 담당자를 구체적으로 정의하고, 이들 부서나 업무 담당자들의 업무의 맥락에서 데이터 분석 산출물이 손쉽게 이해되고 활용될 수 있도록 데이터 분석의 결론을 한번 더 단순화하고 명료하게 만드는 과정을 거쳐 이 결과만이 해당 부서나 업무 담당자에게 플랫폼을 통해 전달되도록 한다.

다소 일반적으로 얘기해서 좀더 구체적으로 실례를 들어 같이 생각해보자.

예를 들어 A/B 테스트를 통해서 기업의 새로운 빅데이터 비즈니스용 서비스 시스템의 사용자 경험을 개선하는 과정이라고 가정해보자. 이 빅데이터 비즈니스 서비스 시스템의 사용자 경험 개선 정도를 측정하기 위해서 다양한 측정 지표를 데이터 과학팀에서 고안하고, 이를 이용한 효과성과 비즈니스 지표 개선 상황을 추정하고 분석할 수 있는 논리를 데이터 과학팀에서 만들게 될 것이다.

A/B 테스트를 통해서 어떤 사용자 경험이 더 비즈니스에 효과적으로 작용하는지는 비즈니스에 관여하는 부서마다 관심이 있는 지표가 다를 것이다. 우선 UI/UX 개발팀에서는 A UI/UX 또는 B UI/UX 중 어느 사용자 인터페이스에서 사용자의 클릭 패턴과 이용 패턴의 흐름이 최적화되고 짧아지는지, 사용의 편의성에 대한 피드백 점수가 높아지는지 관심이 많을 것이다.

마케팅이나 사업 개발팀에서는 빅데이터 비즈니스 서비스 시스템에서 A UI/UX 또는 B UI/UX 중 어느 사용자 인터페이스에서 기업이 주력 제품으로 지원하는 특정 아이템에 대한 클릭 수가 높아지는지, 또는 자사의 비즈니스 서비스 사이트에 대한 재방문 수나 재구매율이 높아지는지, 자사의 비즈니스 서비스 사이트에 노출된 광고 중 어떤 광고를 더 많이 클릭하거나 읽게 되는지 등의 마케팅과 상품 구매 관련 지표나 데이터에 더 관심이 많을 것이다.

이렇게 부서나 담당자별로 관심이 있는 정보나 데이터가 다르기 때문에, 담당자나 부서에서 현재의 업무와 관련해 가장 관심이 있고 중요한 정보가 눈에 띄고 쉽게 열람될 수 있도록 데이터 분석의 결과를 표현되고 가시화하여 플랫폼에서 제공해야 한다. 제공되는 각 정보나 데이터는 데이터를 사용하는 소비자, 즉 데이터 분석 산출물의 고객이 되는 사내 대상 부서나 담당자들이 즉각적으로 활용할 수 있는 최종 단계의 결론이나 대표 지표, 데이터를 눈에 띄기 쉽고 바로 사용할 수 있는 형태로 가공해서 소비가 쉽게 만드는 것이 중요하다.

이렇게 데이터 분석 산출물이 빅데이터 비즈니스 데이터 가공 과정을 자동화하여 사내의 빅데이터 소비자들인 관련 부서나 담당자들이 필요한 정보로 가공되어 신속하게 전달될 수 있도록 하기 위해 데이터 분석 산출물을 소프트웨어 모듈화하여 ‘데이터 과학 문화 확산 플랫폼’으로서 빅데이터 비즈니스 지원 시스템(Business Support System; BSS)에 통합될 수 있도록 하여야 데이터 과학 산출물의 사내 활용 및 소비를 촉진할 수가 있다.

이렇게 데이터 과학 산출물의 결과로 제공되는 비즈니스 정보나 데이터를 사내의 관련 구성원들이 쉽게 소비할 수 있도록 플랫폼화해서 제공하게 된다면 데이터 과학팀의 업무 성과들이 기업의 비즈니스에 직접 활용이 되면서 그 효용과 유용성이 빠르게 입증이 될 것이다. 이렇게 데이터 과학팀의 업무 성과가 사내 구성원들에 의해 쉽게 소비될 수 있으면 사내 구성원들도 데이터 분석을 통해 얻은 정보가 자신의 업무에 중요한 역할을 하는 것을 인지하게 되고, 데이터 분석에 대한 좀더 긍정적인 인식과 적극적인 태도를 보일 수 있게 될 것이다.

이렇게 사내 구성원들이 데이터 분석과 데이터 과학 업무에 대해서 좀더 긍정적이고 적극적인 태도를 보일 수 있게 되면 데이터를 활용한 업무 처리와 의사 결정 문화가 기업 조직 내에 좀더 빠르게 확산될 수 있는 계기가 될 수 있다. 이런 상황이 되어야 경영진이 의도했던 사내 구성원들을 데이터 과학자로서 육성하려는 시도가 좀더 효과적으로 작동할 수 있으며, 사내 구성원들도 데이터 과학자라는 경력에 대해서 좀더 긍정적이고 적극적인 마인드를 가지고 경력 전환을 시도하려 할 것이다.

두번째로, 데이터 분석 산출물을 읽거나 활용할 구성원의 데이터 과학 업무에 대한 이해 수준과 전문성의 정도를 3~4단계 정도로 구분하고, 그 수준에 따라 노출되는 정보와 데이터 분석 결과의 세부 사항을 계층화하여 큐레이션하도록 하자.

데이터 분석 산출물의 최종 결과를 우선적으로 제공하려고 목표로 하는 부서나 구성원들이 쉽게 소비하고 즉각적인 활용이 가능할 수 있도록 간결하고 정제된 형태의 데이터를 눈에 띄기 쉽게 가시화하여 제공하는 것도 중요하다. 그렇지만, 업무에 따라서는 그 결론과 지표에 이르기까지 어떻게 수집된 원시 데이터가 가공되었는지, 그리고 그 결론이 도출되기까지 어떤 데이터 분석 기법이 활용되고 어떤 분석 논리를 거쳤는지 확인하고 싶을 수 있다.

특히 머신러닝이나 인공지능 기술을 사용하여 데이터를 분류하거나 판단을 자동화한 경우에는, 최근 유럽 연합의 GDPR과 같은 개인 정보 및 데이터 보호와 관련된 새로운 법규와 규정에 근거해서 정부 기관이나 고객의 요구에 따라 시스템이 의사 결정을 내리게 된 근거와 논리를 확인해보고 싶을 수 있다. 이런 경우를 대비해서 필요한 구성원과 부서에서 데이터 분석 과정과 세부 내용에 관해 확인하면서 점검할 수 있도록 하는 계층화된 데이터 분석 과정의 표현 및 가시화가 필요하다.

이런 계층화된 데이터 분석 과정의 표현과 가시화에 예전에 필자가 열아홉번째 기고에서 소개한 워크플로우 기술과 데이터 가시화 기술이 유용하게 쓰일 수 있다[6]. 워크플로우 기술은 원래 빅데이터 인프라의 여러 노드와 시스템에 흩어져 있는 여러 단계의 데이터 가공 및 처리, 분석 과정을 하나의 일관된 데이터 분석 프로세스로 통합해서 자동화하기 위한 용도로 사용하는 기술이지만, 반대로 전체 데이터 분석 과정과 상태를 시각화하고 점검, 모니터링하기 위한 용도로도 사용할 수 있다.

데이터 가시화 기술을 활용해, 가시화된 데이터를 이용하고 소비하는 구성원이나 부서가 필요에 따라 데이터를 계층화하여 검토하거나 분석할 수 있도록 데이터 가시화를 구성하고 조직하게 되면 처음부터 지나치게 많은 정보를 검토하지 않고 필요에 따라 데이터 분석 결과의 세부 사항을 검토할 수 있게 된다.

이러한 계층화된 데이터 분석 결과의 표현과 가시화 구성의 대표적인 예가 예전 필자가 열여덟번째 글에서 소개했던 CERN의 그리드맵(GridMap) 모니터링 기술이다[7]. 
그리드맵(GridMap) 모니터링 가시화 시스템에서는 전세계에 걸친 그리드 시스템 운영자들이 가장 관심 있는 정보인 LHC컴퓨팅 그리드(LHC Computing Grid) 전체의 운영 상황과 각 그리드 사이트 자원의 운영 전체 상황이 먼저 요약된 타일 가시화 형태로 표현되고, 각 그리드 사이트에 해당하는 타일을 운영자가 선택하면 해당 그리드 사이트 자원 운영 상황의 세부 정보가 담긴 웹 모니터링 시스템으로 이동하거나 세부 정보가 담긴 시스템 가용성 모니터링(System Availability Monitoring; SAM) 정보가 자세하게 표현이 되는 식으로 데이터와 정보가 구성되어 운영자들의 편리를 도모하였다.

데이터 표현과 가시화에 데이터 분석 과정의 로직을 정리한 주피터 노트북(Jupyter Notebook) 같은 온라인 산출물을 연결해놓는 것도 좋은 방법이다. 담당 구성원이나 관련 부서에서 빅데이터 비즈니스 시스템이 왜 현재 보이는 것과 같은 판단과 결론을 내렸는지 그 논리를 정밀하게 검증해보고 싶다면, 데이터 과학자가 그러한 분석 시스템을 어떠한 논리로 개발했고 그런 데이터 분석 논리가 어떤 한계가 있는지를 데이터 과학자가 직접 작성하여 만든 주피터 노트북의 분석 코드를 한줄 한줄 실행하면서 검토하면 정밀하게 검증하거나 조사해볼 수 있을 것이다.

세번째로, 데이터 분석의 결론을 눈에 띄고 알아보기 쉽게 가시화하는 방법을 개발하여 활용하도록 하자. 

데이터 가시화는 복잡한 빅데이터 분석의 수준을 높이고 노력과 시간을 줄이기 위해서도 필요하지만, 데이터 과학 문화를 확산시키고 각 구성원의 데이터 소비를 활성화하기 위해서도 매우 중요하다. 자신들의 업무에 필요한 데이터와 정보가 찾아보기 쉽고 알아보기 쉽게 제공되어야 데이터를 활용하려는 사람들의 수가 점차 늘어날 것이다.

데이터 과학 문화가 정착되지 않은 조직에서 데이터 과학과 분석은 데이터 과학자가 아닌 일반 기업 구성원들에게는 대부분 경우 또 하나의 쉽지 않고 골치 아픈 업무가 되는 경우가 많다. 이런 일반 기업 구성원들이 데이터를 활용하는 것을 거부감 없이 수월하게 받아들일 수 있도록 하려면 데이터를 열람하고 활용하는 과정을 편리하고 기분 좋은 사용자 경험으로 만들 필요가 있다. 이런 빅데이터 활용의 사용자 경험을 개선하고 효과적으로 만드는 방법의 하나로 데이터 가시화를 활용하는 것이다.

앞서 열여덟번째 글에서 설명한 바 있지만[7] 데이터 가시화는 데이터 큐레이션과 밀접하게 관련되어 있다. 단순히 데이터를 화려한 그래픽으로 표현하여 보기 좋게 만드는 것이 데이터 가시화가 아니다. 데이터 가시화를 통해 데이터와 상호 작용하는 과정은 반드시 가시화되는 데이터를 이용해 최종 사용자가 어떤 문제를 풀고, 어떤 방식과 과정으로 문제의 해결책에 효과적으로 접근할 것인지와 밀접하게 연관되어 있다. 앞서 열여덟번째 글에서 자세히 소개했던 CERN의 그리드맵(GridMap) 모니터링 가시화 시스템도 단순히 그리드 모니터링 현황 데이터를 보기 좋게 표현하는 문제가 아니라, 전체 그리드 컴퓨팅 자원의 상태를 한눈에 신속하게 파악하고 문제가 있는 그리드 컴퓨팅 사이트 자원의 문제를 쉽게 추적해서 찾을 수 있도록 하는데 데이터 가시화의 조직과 구성의 초점이 맞춰져 있다.

사내 구성원과 부서들을 고객으로 하는 데이터 과학 문화 확산 플랫폼과 빅데이터 비즈니스 플랫폼의 데이터 가시화도 해당 가시화 시스템을 업무에 활용하는 구성원들이 업무상의 어떤 문제를 어떻게 해결하고, 그 해결 과정이 어떻게 효과적으로 조직되어 생산성을 높일지에 초점을 맞추어 데이터를 표현, 큐레이션, 조직해야 한다.

데이터 과학팀에서 소프트웨어 개발팀과 긴밀하게 협업하여 이렇게 데이터 분석 및 가시화 시스템을 만들 경우 데이터 과학팀의 업무 성과가 사내에 확산되는 데에도 도움이 된다. 고객의 피드백을 받아 제품 개발의 위험을 반복적으로 감소시키는 애자일 소프트웨어 개발 방법론이 요즘 실리콘밸리 스타트업들에게서 유행하는 것과 같이, 고객의 입장에서 자신들의 데이터 분석 논리가 어떻게 활용되고 소비될 것인지를 염두에 두고 데이터 분석 논리와 가시화를 개발하게 되면 데이터 과학팀의 개발 산출물과 성과가 좀더 조직에서 인정받고 널리 쓰이는 산출물로서 자리 잡는 데에도 크게 도움이 될 것이다.

이에 더해서 데이터 과학자들이 자신들만의 어려운 전문 용어로 복잡한 데이터 분석 논리를 만들어 가는 과정에서 자칫 잘못하면 데이터 과학자들만 알 수 있는 현학적이고 복잡하며 사용하기 어려운 데이터 분석 시스템이 되어 일반 구성원들이 활용하기 어렵게 될 수 있다. 이런 문제도 데이터 가시화와 큐레이션을 통한 문제 해결 과정의 재조직을 통해서 어느 정도 다듬고 해결할 수 있다. 

위와 같이 데이터 과학 문화 확산 플랫폼을 통해서 데이터 과학과 분석에 대한 사내 구성원들과 관련 부서들의 인식을 보다 긍정적으로 전환하고 빅데이터 기반의 문제 해결 과정이 조직에 더 쉽게 확산되고 자리잡을 수 있도록 유도할 수 있다. 이런 데이터 과학 문화 확산 플랫폼을 통해서 사내 구성원들에게 빅데이터 활용과 데이터 분석의 마인드를 심어주고 데이터 기반 문제해결 문화가 조직에 조금씩 젖어 들어가게 할 수 있다. 데이터 과학과 빅데이터 기반 의사 결정 문화를 사내에 정착시키는 데 노력만큼 효과가 보이지 않는다고 고민하는 기업과 조직들은 이런 데이터 소비를 촉진하는 플랫폼을 활용하는 방법을 적극적으로 고민해보도록 하자.

 




2019.04.26

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (7)

김진철 | CIO KR

이미 있는 구성원을 데이터과학자로 양성할 방법은 없는가?
지난 스물여섯번째 글[9]에서 자세히 살펴본 문제인 어떻게 좋은 데이터 과학자를 찾을 수 있는가, 그리고 어떻게 좋은 데이터 과학자를 선별하여 영입할 수 있는가 하는 문제와 함께 필자에게 가장 많이 오는 문의는 이미 기업에서 일하고 있는 내부 구성원을 어떻게 데이터 과학자, 또는 데이터 분석 마인드를 가진 구성원으로 육성하고 훈련할 것인가 하는 문제다.

기업 입장에서 내부 구성원을 데이터 과학자로 훈련하거나, 데이터 과학자로 만들지는 못하더라도 데이터 분석 마인드를 가지고 데이터 기반의 의사 결정과 업무 방식에 익숙한 구성원으로 업그레이드하려 노력하는 것은 빅데이터 시대에 데이터 기반 비즈니스 및 경영 환경에 적응하려는 노력으로서 당연할지 모르겠다. 새로이 인력을 뽑아 제대로 활용하지 못하여 생기는 비용과 시간 낭비의 위험을 감수하는 것보다, 이미 어느 정도 업무 능력과 성품이 검증되어 기업에서 일하고 있는 구성원들의 업무 역량을 높이고, 기존 인력을 다시 활용하는 것이 바람직할 수도 있다.

필자도 이렇게 할 수 있다면 참 좋겠다는 생각이 든다. 기존의 기업 구성원들을 잘 훈련해 데이터 과학자로 탈바꿈시킬 수 있다면 기업으로서는 여러 가지로 좋을 것이다. 먼저, 기존 구성원들의 업무 역량을 향상하면서 조직의 역량을 동반 성장시킬 수 있다. 두번째로, 아무래도 보통 구성원들보다는 학력이나 역량에서 더 앞서고 뛰어날 수밖에 없는 데이터 과학자들과 기존 구성원들과의 갈등이나 대립을 걱정하지 않아도 된다. 세번째로, 빅데이터 비즈니스와 데이터 과학을 위해 새로이 인력을 영입하지 않아도 되니 새로이 영입된 인력들의 인건비와 복지 혜택을 위한 비용과 투자를 위한 추가의 가치 창출과 성장을 염두에 두어야 하는 경영진들도 부담을 덜 수 있다.

결론을 먼저 얘기하자면, 이 문제에 대해 필자가 많은 분에게서 문의를 받고 고민해보고, 실제 현장에서 개선을 위해 큰 노력을 해보았지만, 지금까지의 경험으로는 기존 구성원들을 교육이나 훈련을 통해 데이터 과학자로 탈바꿈시키게끔 육성하자는 생각은 전혀 현실적이지 않고 효과도 없는 방법이다. 다시 분명하게 얘기하자면, 기업의 업과 조직 문화에 따라서 다소 차이가 있기는 하지만, 이미 기업에서 일하고 있는 내부 구성원을 데이터 과학자로 육성하는 것은 불가능에 가까우며 비용과 효과 측면에서도 효과적이지 않다.
 

ⓒGetty Images Bank


왜 그럴까? 그 이유는 현재 대부분 기업이 운영되고 경영되는 방식이 데이터 과학자들을 길러낼 만한 성장 경로를 제시해줄 수 있는 환경을 만들어주지 못하기 때문이다. 다시 다른 말로 얘기하자면, 현재 대부분 기업의 업무 환경과 방식이 데이터 과학 패러다임에 기초한 방식이 아니므로 근본적으로 데이터 과학자가 양성될 수 없는 환경이기 때문이다.

사실 이 말은 전혀 이상한 말이 아니다. 이미 기업이 데이터 과학이 필요한 데이터 기반의 의사 결정 문화와 비즈니스 모델을 가지고 빅데이터 비즈니스를 잘 성장시키고 있다면 데이터 과학과 빅데이터 비즈니스를 통해 새로이 성장의 길을 모색할 필요가 있을까? 대부분 기업이 데이터 기반의 과학적 의사 결정과 빅데이터 비즈니스를 하고 있지 않아 성장의 한계를 느끼고 있기 때문에 결국 빅데이터 비즈니스와 데이터 과학에 관심이 있는 것이다. 

기업의 비즈니스 운영 방식이 데이터 기반 의사 결정과 문제 해결이라는 패러다임을 채택하고 있지 않은데 데이터 과학자 교육, 훈련 과정을 몇 개 개설해서 구성원들이 수업을 듣고 과정을 마친다고 해서 데이터 과학자가 양성될 수는 없는 것이다. 이전 스물일곱번째 글[2]에서 필자가 언급한 바와 같이 데이터 과학자로서 역량이 양성되는 것은 데이터 과학자의 경력 성장 경로에서 겪었던 업무 경험과 문제 해결 경험이 매우 중요하기 때문이다.

반대로 어떤 기업이 내부 구성원들을 효과적으로 데이터 과학자로 양성했다고 하면, 그 기업은 자신들이 의식하지 못하는 사이에 이미 데이터를 이용한 의사 결정과 과학적 문제 해결에 기초한 업무 수행 환경과 시스템을 이미 어느 정도 갖추고 실무에 적용하고 있을 가능성이 크다. 그러니까, 이미 데이터 과학자가 업무를 수행하면서 역량을 키워갈 수 있는 업무 환경과 시스템을 갖추고 있을 가능성이 크다는 것이다.

위와 같은 이유로 내부 구성원의 교육과 훈련을 통해서 데이터 과학자를 내부 육성하고 데이터 기반 의사 결정과 문제 해결 문화를 확산시키고자 하는 노력은 현재 대부분 기업에 맞지 않는 방식이다. 필자의 경험에 따르면 대부분 경우 이런 방법으로 구성원들의 데이터 과학과 데이터 기반 의사 결정의 중요성에 대한 인식을 제고하고 환기하는 정도까지는 갈 수 있지만, 데이터 기반 의사 결정과 문제 해결 마인드가 스며들어 있지 않은 기업 경영 시스템과 문화를 근본적으로 혁신하는 것은 내부 구성원 육성만으로는 불가능하다.

내부 구성원들을 데이터 과학자로 육성하는 데 성공했다면 이미 그 기업에서 데이터 과학자의 역량을 어느 정도 갖추었거나 훈련을 받았던 구성원을, 데이터 과학자라는 타이틀만 걸지 않은 상태에서, 영입해서 데리고 있었을 가능성이 크다. 또 한 가지 가능성은 기업이 의도했건 의도하지 않았건, 기업의 비즈니스 모델이나 업이 이미 데이터 과학에서 전제하고 있는 과학적 의사 결정과 문제 해결 패러다임이 곳곳에서 쓰이고 있는 비즈니스 모델이거나 업일 가능성이 크다. 예를 들면, CERN과 같이 고에너지 물리학을 연구하는 연구소이거나, 보잉이나 록히드마틴과 같은 항공우주기술 전문 기업과 같이 이미 데이터 과학자로서 소양과 역량을 갖춘 엔지니어를 대거 보유하고 관련 전문 업무를 수행하고 있는 회사일 가능성이 크다는 것이다.

따라서, 기업에서 이미 있는 내부 구성원들을 데이터 과학자로 양성하기 위한 지나친 노력은 하지 않기를 필자는 권장한다. 현재 빅데이터 기반 신사업을 수행하려는 기업이나 데이터 기반 의사 결정과 경영 문제 해결 역량을 기르고 싶어 하는 대부분 기업에 맞지 않는 방식이다. 정말 이런 회사들이야말로 새 술은 새 부대에 담아야 한다는 옛 말씀이 잘 들어맞는 상황이다.

기업 경영진이 데이터 과학자로 일할 수 있는 전문 인력을 영입하려는 노력을 등한시하면서 내부 구성원들을 데이터 과학자로 육성하기 위해 지나치게 기존 구성원들을 몰아붙이거나 부담을 줄 경우 오히려 데이터 기반 문제 해결 문화에 대해 기존 구성원들이 거부감을 갖게 되어 그런 문화가 확산되는데 걸림돌이 될 수 있다. 그리고, 전혀 효과가 없는 방법에 들이는 비용과 노력으로 오히려 기업 전반에 부담으로 다가와 역효과가 날 수 있으니 조심해야 한다.

그렇다면, 기존 구성원들은 데이터 과학을 이용한 의사 결정 방법이나 데이터 기반의 과학적 문제 해결 마인드를 가지도록 변화, 성장시킬 시도조차 아예 하지 말아야 하는가? 데이터 과학은 오직 데이터 과학자들의 전유물이 되어야 하고, 기업의 기존 구성원들은 이들 데이터 과학자들이 분석하여 풀어내는 기업 경영 현안에 대해 마치 신의 말씀을 듣고 받는 것같이 그저 묵묵히 따라야 하는가?

전혀 그렇지 않다. 필자가 얘기하고자 하는 것은 기존 구성원들을 데이터 과학자로 단기간에 길러내어 활용하려는 기업의 조급한 행태에 관해서 얘기하고자 하는 것이지, 기존 구성원들이 데이터 기반 의사 결정과 문제 해결 방식을 받아들이고 훈련시키게끔 할 방법이 전혀 없다고 얘기하는 것이 아니다. 현재까지의 필자의 경험에 바탕을 두어 데이터 과학에 대한 효용을 높이고 구성원들에게 데이터 과학 마인드와 문제 해결 문화를 확산시킬 수 있는 우리나라 현실에 맞는 효과적인 방법을 아래와 같이 제안하고자 한다.

데이터 과학자를 데이터 기반 문제 해결의 생산자로, 기존 구성원들이 데이터 기반 문제 해결의 산출물을 자동화된 의사 결정 도구를 이용하여 실제 기업 실무를 수행하는 데이터 소비자로서 역할을 할 수 있는 플랫폼을 기업 내부에 구축하고 운영함으로써 기존 구성원들의 데이터 과학 마인드를 고취하고 손쉽게 데이터 기반 문제 해결 마인드와 문화를 조직에 확산하는 방법을 제안한다.

조직에서 데이터 기반의 문제 해결, 의사 결정의 마인드를 구성원들이 가지게 하고, 결과적으로 이런 데이터 과학 문화가 기업 문화로서 확산되어 가기 위해서 꼭 조직의 모든 구성원을 데이터 과학자로 채워야 하는 것은 아니다. 모든 기업 구성원들이 데이터 과학자가 된다면 오히려 기업의 운영이 더 어렵게 될 것이다. 데이터 과학자와 같이 기업 경영을 진단하고 정밀하게 조사할 수 있는 데이터를 분석해서 경영 현안에 대한 깊이 있는 고민과 분석을 하는 사람도 필요하지만, 이러한 깊이 있는 고민과 분석의 산물을 이용해 빠르게 실행하고 기업의 실적과 이윤으로 연결하는 실행력 있는 사람도 필요한 법이다.

그러므로 기존 구성원을 모두 데이터 과학자로 훈련하거나, 또는 데이터 과학 마인드를 단기간에 갖추도록 경영진이 지나치게 조바심을 내면 오히려 구성원들이 데이터 기반 의사결정과 문제 해결 문화에 대해 경영진이 구성원 통제에 사용하는 또 다른 선전 도구로 오해해서 거부감을 느낄 가능성이 크다. 이런 거부감과 저항을 최소화하고, 데이터 과학의 효용을 빠르게 조직에 보여주기 위해서는 데이터 과학의 성과물들이 실제 업무 현장에서의 현안과 연결되어 직접 지원할 수 있는 일종의 플랫폼이 필요하다고 얘기하는 것이다.
이전에 필자의 다섯번째, 일곱번째 글[3, 4]에서 소개하였던 빅데이터 비즈니스 모델의 방법론을 이 데이터 과학 문화의 확산에 같이 한번 적용해보자. 우선, 기업과 조직에서 데이터 과학을 통해 기대하는 것은 대부분 이런 목적일 것이다.

-데이터 과학을 통해 고객 및 시장 데이터를 분석해서 새로운 사업과 틈새시장의 요구를 파악하는 것
-데이터 과학을 통해 기존 비즈니스와 상품을 개선할 방향과 방법을 찾아내는 것
-데이터 과학을 통해 현재 기업과 조직의 업무의 속도, 효율, 생산성을 향상할 방법을 찾아내는 것

빅데이터 비즈니스 플랫폼은 비즈니스 지원 시스템(Business Support System; BSS)과 운영 지원 시스템(Operation Support System; OSS)으로 구성된다고 얘기했다. 위의 세 가지 목적 중 우리가 지금 생각하는 소위 ‘데이터 과학 문화 확산 플랫폼’을 통해 달성하려고 하는 것은 세 번째의 목적에 해당하는 것이다. 지금 우리가 시도하려고 하는 것은 운영 지원 시스템(OSS)을 ‘데이터 과학 문화 확산 플랫폼’화하는 것이다.

이 ‘데이터 과학 문화 확산 플랫폼’을 만드는 데 필요한 것은 먼저 이 플랫폼의 비즈니스 모델을 돌아가게 하는 주체를 파악하는 것이다. 우리가 만들 ‘데이터 과학 문화 확산 플랫폼’의 서비스 제공자는 바로 데이터 과학자들이나 데이터 과학팀이 된다. 그리고, ‘데이터 과학 문화 확산 플랫폼’의 고객은 바로 기존의 기업 구성원과 경영진이 된다. 그렇다면, 이들 서비스 제공자와 고객 간 필요를 어떻게 이어주도록 이 플랫폼을 설계해야 할 것인가?
 


앞서 빅데이터에서 인공지능 기술의 중요성을 소개했던 일곱번째, 여덟번째 글[4, 5]에서 데이터 과학팀의 성과물들은 반드시 빅데이터 비즈니스 프로세스를 자동화하는 요소로 빅데이터 비즈니스 시스템에 통합되어야 한다고 언급한 바 있다. 데이터 과학자들은 자신들이 찾아낸 데이터 분석 과정의 논리와 그 산출물들을 데이터 엔지니어와 소프트웨어 엔지니어들과 협업하여 분석의 결과를 신속하게 일반 구성원들이 사용할 수 있는 정보로 바꾸어 주는 자동화된 데이터 처리 파이프라인으로 만들어야 한다.

소위 '데이터 과학 문화 확산 플랫폼'은 이런 데이터 분석 및 가공 자동화 모듈이 탑재되어 데이터 분석의 결과를 소비하는 일반 구성원들을 위한 정보 가공과 표현을 자동화하는 시스템으로 우선 작동하게 된다.

데이터 과학팀의 일원이 아닌 일반 구성원들을 데이터 분석 산출물들의 소비자로 보았을 때, 데이터 과학 문화의 사내 확산 문제는 이들 데이터 분석 산출물들의 소비자들인 일반 구성원들에게 어떻게 하면 쉽고 용이하게 데이터 분석 산출물들을 눈에 띄게 하고 쉽게 활용하게 하여 데이터를 기반으로 한 업무 처리의 비중이 높아지게 하는지에 대한 문제로 바뀌게 된다. 일반 구성원들을 데이터 과학자로 만들기 위해 어려운 데이터 분석 기법과 방법론들을 교육하는 것보다는, 기업들이 흔히 해오던 비즈니스 마케팅과 브랜딩, 그리고 서비스 상품을 어떻게 잘 소비하게 바꿀 것이냐 하는 문제로 사내 데이터 분석 문화 확산 문제를 바꾸게 되면 기업이 훨씬 부담 없이 데이터 과학 활용도를 높이는 문제에 접근할 수 있다.

데이터 과학 산출물들의 소비자인 일반 구성원들이 데이터 과학을 통해 자동으로 가공된 정보를 업무에 쉽게 활용하게 하려면 어떻게 해야 할까? 고려해야 할 것이 많지만 우선 가장 중요한 세 가지만 오늘 이 글에서는 살펴보도록 하자.

첫번째로, 데이터 분석 산출물을 소비할 부서나 업무 담당자를 구체적으로 정의하고, 이들 부서나 업무 담당자들의 업무의 맥락에서 데이터 분석 산출물이 손쉽게 이해되고 활용될 수 있도록 데이터 분석의 결론을 한번 더 단순화하고 명료하게 만드는 과정을 거쳐 이 결과만이 해당 부서나 업무 담당자에게 플랫폼을 통해 전달되도록 한다.

다소 일반적으로 얘기해서 좀더 구체적으로 실례를 들어 같이 생각해보자.

예를 들어 A/B 테스트를 통해서 기업의 새로운 빅데이터 비즈니스용 서비스 시스템의 사용자 경험을 개선하는 과정이라고 가정해보자. 이 빅데이터 비즈니스 서비스 시스템의 사용자 경험 개선 정도를 측정하기 위해서 다양한 측정 지표를 데이터 과학팀에서 고안하고, 이를 이용한 효과성과 비즈니스 지표 개선 상황을 추정하고 분석할 수 있는 논리를 데이터 과학팀에서 만들게 될 것이다.

A/B 테스트를 통해서 어떤 사용자 경험이 더 비즈니스에 효과적으로 작용하는지는 비즈니스에 관여하는 부서마다 관심이 있는 지표가 다를 것이다. 우선 UI/UX 개발팀에서는 A UI/UX 또는 B UI/UX 중 어느 사용자 인터페이스에서 사용자의 클릭 패턴과 이용 패턴의 흐름이 최적화되고 짧아지는지, 사용의 편의성에 대한 피드백 점수가 높아지는지 관심이 많을 것이다.

마케팅이나 사업 개발팀에서는 빅데이터 비즈니스 서비스 시스템에서 A UI/UX 또는 B UI/UX 중 어느 사용자 인터페이스에서 기업이 주력 제품으로 지원하는 특정 아이템에 대한 클릭 수가 높아지는지, 또는 자사의 비즈니스 서비스 사이트에 대한 재방문 수나 재구매율이 높아지는지, 자사의 비즈니스 서비스 사이트에 노출된 광고 중 어떤 광고를 더 많이 클릭하거나 읽게 되는지 등의 마케팅과 상품 구매 관련 지표나 데이터에 더 관심이 많을 것이다.

이렇게 부서나 담당자별로 관심이 있는 정보나 데이터가 다르기 때문에, 담당자나 부서에서 현재의 업무와 관련해 가장 관심이 있고 중요한 정보가 눈에 띄고 쉽게 열람될 수 있도록 데이터 분석의 결과를 표현되고 가시화하여 플랫폼에서 제공해야 한다. 제공되는 각 정보나 데이터는 데이터를 사용하는 소비자, 즉 데이터 분석 산출물의 고객이 되는 사내 대상 부서나 담당자들이 즉각적으로 활용할 수 있는 최종 단계의 결론이나 대표 지표, 데이터를 눈에 띄기 쉽고 바로 사용할 수 있는 형태로 가공해서 소비가 쉽게 만드는 것이 중요하다.

이렇게 데이터 분석 산출물이 빅데이터 비즈니스 데이터 가공 과정을 자동화하여 사내의 빅데이터 소비자들인 관련 부서나 담당자들이 필요한 정보로 가공되어 신속하게 전달될 수 있도록 하기 위해 데이터 분석 산출물을 소프트웨어 모듈화하여 ‘데이터 과학 문화 확산 플랫폼’으로서 빅데이터 비즈니스 지원 시스템(Business Support System; BSS)에 통합될 수 있도록 하여야 데이터 과학 산출물의 사내 활용 및 소비를 촉진할 수가 있다.

이렇게 데이터 과학 산출물의 결과로 제공되는 비즈니스 정보나 데이터를 사내의 관련 구성원들이 쉽게 소비할 수 있도록 플랫폼화해서 제공하게 된다면 데이터 과학팀의 업무 성과들이 기업의 비즈니스에 직접 활용이 되면서 그 효용과 유용성이 빠르게 입증이 될 것이다. 이렇게 데이터 과학팀의 업무 성과가 사내 구성원들에 의해 쉽게 소비될 수 있으면 사내 구성원들도 데이터 분석을 통해 얻은 정보가 자신의 업무에 중요한 역할을 하는 것을 인지하게 되고, 데이터 분석에 대한 좀더 긍정적인 인식과 적극적인 태도를 보일 수 있게 될 것이다.

이렇게 사내 구성원들이 데이터 분석과 데이터 과학 업무에 대해서 좀더 긍정적이고 적극적인 태도를 보일 수 있게 되면 데이터를 활용한 업무 처리와 의사 결정 문화가 기업 조직 내에 좀더 빠르게 확산될 수 있는 계기가 될 수 있다. 이런 상황이 되어야 경영진이 의도했던 사내 구성원들을 데이터 과학자로서 육성하려는 시도가 좀더 효과적으로 작동할 수 있으며, 사내 구성원들도 데이터 과학자라는 경력에 대해서 좀더 긍정적이고 적극적인 마인드를 가지고 경력 전환을 시도하려 할 것이다.

두번째로, 데이터 분석 산출물을 읽거나 활용할 구성원의 데이터 과학 업무에 대한 이해 수준과 전문성의 정도를 3~4단계 정도로 구분하고, 그 수준에 따라 노출되는 정보와 데이터 분석 결과의 세부 사항을 계층화하여 큐레이션하도록 하자.

데이터 분석 산출물의 최종 결과를 우선적으로 제공하려고 목표로 하는 부서나 구성원들이 쉽게 소비하고 즉각적인 활용이 가능할 수 있도록 간결하고 정제된 형태의 데이터를 눈에 띄기 쉽게 가시화하여 제공하는 것도 중요하다. 그렇지만, 업무에 따라서는 그 결론과 지표에 이르기까지 어떻게 수집된 원시 데이터가 가공되었는지, 그리고 그 결론이 도출되기까지 어떤 데이터 분석 기법이 활용되고 어떤 분석 논리를 거쳤는지 확인하고 싶을 수 있다.

특히 머신러닝이나 인공지능 기술을 사용하여 데이터를 분류하거나 판단을 자동화한 경우에는, 최근 유럽 연합의 GDPR과 같은 개인 정보 및 데이터 보호와 관련된 새로운 법규와 규정에 근거해서 정부 기관이나 고객의 요구에 따라 시스템이 의사 결정을 내리게 된 근거와 논리를 확인해보고 싶을 수 있다. 이런 경우를 대비해서 필요한 구성원과 부서에서 데이터 분석 과정과 세부 내용에 관해 확인하면서 점검할 수 있도록 하는 계층화된 데이터 분석 과정의 표현 및 가시화가 필요하다.

이런 계층화된 데이터 분석 과정의 표현과 가시화에 예전에 필자가 열아홉번째 기고에서 소개한 워크플로우 기술과 데이터 가시화 기술이 유용하게 쓰일 수 있다[6]. 워크플로우 기술은 원래 빅데이터 인프라의 여러 노드와 시스템에 흩어져 있는 여러 단계의 데이터 가공 및 처리, 분석 과정을 하나의 일관된 데이터 분석 프로세스로 통합해서 자동화하기 위한 용도로 사용하는 기술이지만, 반대로 전체 데이터 분석 과정과 상태를 시각화하고 점검, 모니터링하기 위한 용도로도 사용할 수 있다.

데이터 가시화 기술을 활용해, 가시화된 데이터를 이용하고 소비하는 구성원이나 부서가 필요에 따라 데이터를 계층화하여 검토하거나 분석할 수 있도록 데이터 가시화를 구성하고 조직하게 되면 처음부터 지나치게 많은 정보를 검토하지 않고 필요에 따라 데이터 분석 결과의 세부 사항을 검토할 수 있게 된다.

이러한 계층화된 데이터 분석 결과의 표현과 가시화 구성의 대표적인 예가 예전 필자가 열여덟번째 글에서 소개했던 CERN의 그리드맵(GridMap) 모니터링 기술이다[7]. 
그리드맵(GridMap) 모니터링 가시화 시스템에서는 전세계에 걸친 그리드 시스템 운영자들이 가장 관심 있는 정보인 LHC컴퓨팅 그리드(LHC Computing Grid) 전체의 운영 상황과 각 그리드 사이트 자원의 운영 전체 상황이 먼저 요약된 타일 가시화 형태로 표현되고, 각 그리드 사이트에 해당하는 타일을 운영자가 선택하면 해당 그리드 사이트 자원 운영 상황의 세부 정보가 담긴 웹 모니터링 시스템으로 이동하거나 세부 정보가 담긴 시스템 가용성 모니터링(System Availability Monitoring; SAM) 정보가 자세하게 표현이 되는 식으로 데이터와 정보가 구성되어 운영자들의 편리를 도모하였다.

데이터 표현과 가시화에 데이터 분석 과정의 로직을 정리한 주피터 노트북(Jupyter Notebook) 같은 온라인 산출물을 연결해놓는 것도 좋은 방법이다. 담당 구성원이나 관련 부서에서 빅데이터 비즈니스 시스템이 왜 현재 보이는 것과 같은 판단과 결론을 내렸는지 그 논리를 정밀하게 검증해보고 싶다면, 데이터 과학자가 그러한 분석 시스템을 어떠한 논리로 개발했고 그런 데이터 분석 논리가 어떤 한계가 있는지를 데이터 과학자가 직접 작성하여 만든 주피터 노트북의 분석 코드를 한줄 한줄 실행하면서 검토하면 정밀하게 검증하거나 조사해볼 수 있을 것이다.

세번째로, 데이터 분석의 결론을 눈에 띄고 알아보기 쉽게 가시화하는 방법을 개발하여 활용하도록 하자. 

데이터 가시화는 복잡한 빅데이터 분석의 수준을 높이고 노력과 시간을 줄이기 위해서도 필요하지만, 데이터 과학 문화를 확산시키고 각 구성원의 데이터 소비를 활성화하기 위해서도 매우 중요하다. 자신들의 업무에 필요한 데이터와 정보가 찾아보기 쉽고 알아보기 쉽게 제공되어야 데이터를 활용하려는 사람들의 수가 점차 늘어날 것이다.

데이터 과학 문화가 정착되지 않은 조직에서 데이터 과학과 분석은 데이터 과학자가 아닌 일반 기업 구성원들에게는 대부분 경우 또 하나의 쉽지 않고 골치 아픈 업무가 되는 경우가 많다. 이런 일반 기업 구성원들이 데이터를 활용하는 것을 거부감 없이 수월하게 받아들일 수 있도록 하려면 데이터를 열람하고 활용하는 과정을 편리하고 기분 좋은 사용자 경험으로 만들 필요가 있다. 이런 빅데이터 활용의 사용자 경험을 개선하고 효과적으로 만드는 방법의 하나로 데이터 가시화를 활용하는 것이다.

앞서 열여덟번째 글에서 설명한 바 있지만[7] 데이터 가시화는 데이터 큐레이션과 밀접하게 관련되어 있다. 단순히 데이터를 화려한 그래픽으로 표현하여 보기 좋게 만드는 것이 데이터 가시화가 아니다. 데이터 가시화를 통해 데이터와 상호 작용하는 과정은 반드시 가시화되는 데이터를 이용해 최종 사용자가 어떤 문제를 풀고, 어떤 방식과 과정으로 문제의 해결책에 효과적으로 접근할 것인지와 밀접하게 연관되어 있다. 앞서 열여덟번째 글에서 자세히 소개했던 CERN의 그리드맵(GridMap) 모니터링 가시화 시스템도 단순히 그리드 모니터링 현황 데이터를 보기 좋게 표현하는 문제가 아니라, 전체 그리드 컴퓨팅 자원의 상태를 한눈에 신속하게 파악하고 문제가 있는 그리드 컴퓨팅 사이트 자원의 문제를 쉽게 추적해서 찾을 수 있도록 하는데 데이터 가시화의 조직과 구성의 초점이 맞춰져 있다.

사내 구성원과 부서들을 고객으로 하는 데이터 과학 문화 확산 플랫폼과 빅데이터 비즈니스 플랫폼의 데이터 가시화도 해당 가시화 시스템을 업무에 활용하는 구성원들이 업무상의 어떤 문제를 어떻게 해결하고, 그 해결 과정이 어떻게 효과적으로 조직되어 생산성을 높일지에 초점을 맞추어 데이터를 표현, 큐레이션, 조직해야 한다.

데이터 과학팀에서 소프트웨어 개발팀과 긴밀하게 협업하여 이렇게 데이터 분석 및 가시화 시스템을 만들 경우 데이터 과학팀의 업무 성과가 사내에 확산되는 데에도 도움이 된다. 고객의 피드백을 받아 제품 개발의 위험을 반복적으로 감소시키는 애자일 소프트웨어 개발 방법론이 요즘 실리콘밸리 스타트업들에게서 유행하는 것과 같이, 고객의 입장에서 자신들의 데이터 분석 논리가 어떻게 활용되고 소비될 것인지를 염두에 두고 데이터 분석 논리와 가시화를 개발하게 되면 데이터 과학팀의 개발 산출물과 성과가 좀더 조직에서 인정받고 널리 쓰이는 산출물로서 자리 잡는 데에도 크게 도움이 될 것이다.

이에 더해서 데이터 과학자들이 자신들만의 어려운 전문 용어로 복잡한 데이터 분석 논리를 만들어 가는 과정에서 자칫 잘못하면 데이터 과학자들만 알 수 있는 현학적이고 복잡하며 사용하기 어려운 데이터 분석 시스템이 되어 일반 구성원들이 활용하기 어렵게 될 수 있다. 이런 문제도 데이터 가시화와 큐레이션을 통한 문제 해결 과정의 재조직을 통해서 어느 정도 다듬고 해결할 수 있다. 

위와 같이 데이터 과학 문화 확산 플랫폼을 통해서 데이터 과학과 분석에 대한 사내 구성원들과 관련 부서들의 인식을 보다 긍정적으로 전환하고 빅데이터 기반의 문제 해결 과정이 조직에 더 쉽게 확산되고 자리잡을 수 있도록 유도할 수 있다. 이런 데이터 과학 문화 확산 플랫폼을 통해서 사내 구성원들에게 빅데이터 활용과 데이터 분석의 마인드를 심어주고 데이터 기반 문제해결 문화가 조직에 조금씩 젖어 들어가게 할 수 있다. 데이터 과학과 빅데이터 기반 의사 결정 문화를 사내에 정착시키는 데 노력만큼 효과가 보이지 않는다고 고민하는 기업과 조직들은 이런 데이터 소비를 촉진하는 플랫폼을 활용하는 방법을 적극적으로 고민해보도록 하자.

 


X