김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (7)

CIO KR

이미 있는 구성원을 데이터과학자로 양성할 방법은 없는가?
지난 스물여섯번째 글[9]에서 자세히 살펴본 문제인 어떻게 좋은 데이터 과학자를 찾을 수 있는가, 그리고 어떻게 좋은 데이터 과학자를 선별하여 영입할 수 있는가 하는 문제와 함께 필자에게 가장 많이 오는 문의는 이미 기업에서 일하고 있는 내부 구성원을 어떻게 데이터 과학자, 또는 데이터 분석 마인드를 가진 구성원으로 육성하고 훈련할 것인가 하는 문제다.

기업 입장에서 내부 구성원을 데이터 과학자로 훈련하거나, 데이터 과학자로 만들지는 못하더라도 데이터 분석 마인드를 가지고 데이터 기반의 의사 결정과 업무 방식에 익숙한 구성원으로 업그레이드하려 노력하는 것은 빅데이터 시대에 데이터 기반 비즈니스 및 경영 환경에 적응하려는 노력으로서 당연할지 모르겠다. 새로이 인력을 뽑아 제대로 활용하지 못하여 생기는 비용과 시간 낭비의 위험을 감수하는 것보다, 이미 어느 정도 업무 능력과 성품이 검증되어 기업에서 일하고 있는 구성원들의 업무 역량을 높이고, 기존 인력을 다시 활용하는 것이 바람직할 수도 있다.

필자도 이렇게 할 수 있다면 참 좋겠다는 생각이 든다. 기존의 기업 구성원들을 잘 훈련해 데이터 과학자로 탈바꿈시킬 수 있다면 기업으로서는 여러 가지로 좋을 것이다. 먼저, 기존 구성원들의 업무 역량을 향상하면서 조직의 역량을 동반 성장시킬 수 있다. 두번째로, 아무래도 보통 구성원들보다는 학력이나 역량에서 더 앞서고 뛰어날 수밖에 없는 데이터 과학자들과 기존 구성원들과의 갈등이나 대립을 걱정하지 않아도 된다. 세번째로, 빅데이터 비즈니스와 데이터 과학을 위해 새로이 인력을 영입하지 않아도 되니 새로이 영입된 인력들의 인건비와 복지 혜택을 위한 비용과 투자를 위한 추가의 가치 창출과 성장을 염두에 두어야 하는 경영진들도 부담을 덜 수 있다.

결론을 먼저 얘기하자면, 이 문제에 대해 필자가 많은 분에게서 문의를 받고 고민해보고, 실제 현장에서 개선을 위해 큰 노력을 해보았지만, 지금까지의 경험으로는 기존 구성원들을 교육이나 훈련을 통해 데이터 과학자로 탈바꿈시키게끔 육성하자는 생각은 전혀 현실적이지 않고 효과도 없는 방법이다. 다시 분명하게 얘기하자면, 기업의 업과 조직 문화에 따라서 다소 차이가 있기는 하지만, 이미 기업에서 일하고 있는 내부 구성원을 데이터 과학자로 육성하는 것은 불가능에 가까우며 비용과 효과 측면에서도 효과적이지 않다.
 

ⓒGetty Images Bank


왜 그럴까? 그 이유는 현재 대부분 기업이 운영되고 경영되는 방식이 데이터 과학자들을 길러낼 만한 성장 경로를 제시해줄 수 있는 환경을 만들어주지 못하기 때문이다. 다시 다른 말로 얘기하자면, 현재 대부분 기업의 업무 환경과 방식이 데이터 과학 패러다임에 기초한 방식이 아니므로 근본적으로 데이터 과학자가 양성될 수 없는 환경이기 때문이다.

사실 이 말은 전혀 이상한 말이 아니다. 이미 기업이 데이터 과학이 필요한 데이터 기반의 의사 결정 문화와 비즈니스 모델을 가지고 빅데이터 비즈니스를 잘 성장시키고 있다면 데이터 과학과 빅데이터 비즈니스를 통해 새로이 성장의 길을 모색할 필요가 있을까? 대부분 기업이 데이터 기반의 과학적 의사 결정과 빅데이터 비즈니스를 하고 있지 않아 성장의 한계를 느끼고 있기 때문에 결국 빅데이터 비즈니스와 데이터 과학에 관심이 있는 것이다. 

기업의 비즈니스 운영 방식이 데이터 기반 의사 결정과 문제 해결이라는 패러다임을 채택하고 있지 않은데 데이터 과학자 교육, 훈련 과정을 몇 개 개설해서 구성원들이 수업을 듣고 과정을 마친다고 해서 데이터 과학자가 양성될 수는 없는 것이다. 이전 스물일곱번째 글[2]에서 필자가 언급한 바와 같이 데이터 과학자로서 역량이 양성되는 것은 데이터 과학자의 경력 성장 경로에서 겪었던 업무 경험과 문제 해결 경험이 매우 중요하기 때문이다.

반대로 어떤 기업이 내부 구성원들을 효과적으로 데이터 과학자로 양성했다고 하면, 그 기업은 자신들이 의식하지 못하는 사이에 이미 데이터를 이용한 의사 결정과 과학적 문제 해결에 기초한 업무 수행 환경과 시스템을 이미 어느 정도 갖추고 실무에 적용하고 있을 가능성이 크다. 그러니까, 이미 데이터 과학자가 업무를 수행하면서 역량을 키워갈 수 있는 업무 환경과 시스템을 갖추고 있을 가능성이 크다는 것이다.

위와 같은 이유로 내부 구성원의 교육과 훈련을 통해서 데이터 과학자를 내부 육성하고 데이터 기반 의사 결정과 문제 해결 문화를 확산시키고자 하는 노력은 현재 대부분 기업에 맞지 않는 방식이다. 필자의 경험에 따르면 대부분 경우 이런 방법으로 구성원들의 데이터 과학과 데이터 기반 의사 결정의 중요성에 대한 인식을 제고하고 환기하는 정도까지는 갈 수 있지만, 데이터 기반 의사 결정과 문제 해결 마인드가 스며들어 있지 않은 기업 경영 시스템과 문화를 근본적으로 혁신하는 것은 내부 구성원 육성만으로는 불가능하다.

내부 구성원들을 데이터 과학자로 육성하는 데 성공했다면 이미 그 기업에서 데이터 과학자의 역량을 어느 정도 갖추었거나 훈련을 받았던 구성원을, 데이터 과학자라는 타이틀만 걸지 않은 상태에서, 영입해서 데리고 있었을 가능성이 크다. 또 한 가지 가능성은 기업이 의도했건 의도하지 않았건, 기업의 비즈니스 모델이나 업이 이미 데이터 과학에서 전제하고 있는 과학적 의사 결정과 문제 해결 패러다임이 곳곳에서 쓰이고 있는 비즈니스 모델이거나 업일 가능성이 크다. 예를 들면, CERN과 같이 고에너지 물리학을 연구하는 연구소이거나, 보잉이나 록히드마틴과 같은 항공우주기술 전문 기업과 같이 이미 데이터 과학자로서 소양과 역량을 갖춘 엔지니어를 대거 보유하고 관련 전문 업무를 수행하고 있는 회사일 가능성이 크다는 것이다.

따라서, 기업에서 이미 있는 내부 구성원들을 데이터 과학자로 양성하기 위한 지나친 노력은 하지 않기를 필자는 권장한다. 현재 빅데이터 기반 신사업을 수행하려는 기업이나 데이터 기반 의사 결정과 경영 문제 해결 역량을 기르고 싶어 하는 대부분 기업에 맞지 않는 방식이다. 정말 이런 회사들이야말로 새 술은 새 부대에 담아야 한다는 옛 말씀이 잘 들어맞는 상황이다.

기업 경영진이 데이터 과학자로 일할 수 있는 전문 인력을 영입하려는 노력을 등한시하면서 내부 구성원들을 데이터 과학자로 육성하기 위해 지나치게 기존 구성원들을 몰아붙이거나 부담을 줄 경우 오히려 데이터 기반 문제 해결 문화에 대해 기존 구성원들이 거부감을 갖게 되어 그런 문화가 확산되는데 걸림돌이 될 수 있다. 그리고, 전혀 효과가 없는 방법에 들이는 비용과 노력으로 오히려 기업 전반에 부담으로 다가와 역효과가 날 수 있으니 조심해야 한다.

그렇다면, 기존 구성원들은 데이터 과학을 이용한 의사 결정 방법이나 데이터 기반의 과학적 문제 해결 마인드를 가지도록 변화, 성장시킬 시도조차 아예 하지 말아야 하는가? 데이터 과학은 오직 데이터 과학자들의 전유물이 되어야 하고, 기업의 기존 구성원들은 이들 데이터 과학자들이 분석하여 풀어내는 기업 경영 현안에 대해 마치 신의 말씀을 듣고 받는 것같이 그저 묵묵히 따라야 하는가?

전혀 그렇지 않다. 필자가 얘기하고자 하는 것은 기존 구성원들을 데이터 과학자로 단기간에 길러내어 활용하려는 기업의 조급한 행태에 관해서 얘기하고자 하는 것이지, 기존 구성원들이 데이터 기반 의사 결정과 문제 해결 방식을 받아들이고 훈련시키게끔 할 방법이 전혀 없다고 얘기하는 것이 아니다. 현재까지의 필자의 경험에 바탕을 두어 데이터 과학에 대한 효용을 높이고 구성원들에게 데이터 과학 마인드와 문제 해결 문화를 확산시킬 수 있는 우리나라 현실에 맞는 효과적인 방법을 아래와 같이 제안하고자 한다.

데이터 과학자를 데이터 기반 문제 해결의 생산자로, 기존 구성원들이 데이터 기반 문제 해결의 산출물을 자동화된 의사 결정 도구를 이용하여 실제 기업 실무를 수행하는 데이터 소비자로서 역할을 할 수 있는 플랫폼을 기업 내부에 구축하고 운영함으로써 기존 구성원들의 데이터 과학 마인드를 고취하고 손쉽게 데이터 기반 문제 해결 마인드와 문화를 조직에 확산하는 방법을 제안한다.

조직에서 데이터 기반의 문제 해결, 의사 결정의 마인드를 구성원들이 가지게 하고, 결과적으로 이런 데이터 과학 문화가 기업 문화로서 확산되어 가기 위해서 꼭 조직의 모든 구성원을 데이터 과학자로 채워야 하는 것은 아니다. 모든 기업 구성원들이 데이터 과학자가 된다면 오히려 기업의 운영이 더 어렵게 될 것이다. 데이터 과학자와 같이 기업 경영을 진단하고 정밀하게 조사할 수 있는 데이터를 분석해서 경영 현안에 대한 깊이 있는 고민과 분석을 하는 사람도 필요하지만, 이러한 깊이 있는 고민과 분석의 산물을 이용해 빠르게 실행하고 기업의 실적과 이윤으로 연결하는 실행력 있는 사람도 필요한 법이다.

그러므로 기존 구성원을 모두 데이터 과학자로 훈련하거나, 또는 데이터 과학 마인드를 단기간에 갖추도록 경영진이 지나치게 조바심을 내면 오히려 구성원들이 데이터 기반 의사결정과 문제 해결 문화에 대해 경영진이 구성원 통제에 사용하는 또 다른 선전 도구로 오해해서 거부감을 느낄 가능성이 크다. 이런 거부감과 저항을 최소화하고, 데이터 과학의 효용을 빠르게 조직에 보여주기 위해서는 데이터 과학의 성과물들이 실제 업무 현장에서의 현안과 연결되어 직접 지원할 수 있는 일종의 플랫폼이 필요하다고 얘기하는 것이다.
이전에 필자의 다섯번째, 일곱번째 글[3, 4]에서 소개하였던 빅데이터 비즈니스 모델의 방법론을 이 데이터 과학 문화의 확산에 같이 한번 적용해보자. 우선, 기업과 조직에서 데이터 과학을 통해 기대하는 것은 대부분 이런 목적일 것이다.

-데이터 과학을 통해 고객 및 시장 데이터를 분석해서 새로운 사업과 틈새시장의 요구를 파악하는 것
-데이터 과학을 통해 기존 비즈니스와 상품을 개선할 방향과 방법을 찾아내는 것
-데이터 과학을 통해 현재 기업과 조직의 업무의 속도, 효율, 생산성을 향상할 방법을 찾아내는 것

빅데이터 비즈니스 플랫폼은 비즈니스 지원 시스템(Business Support System; BSS)과 운영 지원 시스템(Operation Support System; OSS)으로 구성된다고 얘기했다. 위의 세 가지 목적 중 우리가 지금 생각하는 소위 ‘데이터 과학 문화 확산 플랫폼’을 통해 달성하려고 하는 것은 세 번째의 목적에 해당하는 것이다. 지금 우리가 시도하려고 하는 것은 운영 지원 시스템(OSS)을 ‘데이터 과학 문화 확산 플랫폼’화하는 것이다.

이 ‘데이터 과학 문화 확산 플랫폼’을 만드는 데 필요한 것은 먼저 이 플랫폼의 비즈니스 모델을 돌아가게 하는 주체를 파악하는 것이다. 우리가 만들 ‘데이터 과학 문화 확산 플랫폼’의 서비스 제공자는 바로 데이터 과학자들이나 데이터 과학팀이 된다. 그리고, ‘데이터 과학 문화 확산 플랫폼’의 고객은 바로 기존의 기업 구성원과 경영진이 된다. 그렇다면, 이들 서비스 제공자와 고객 간 필요를 어떻게 이어주도록 이 플랫폼을 설계해야 할 것인가?
 

---------------------------------------------------------------
김진철 칼럼 인기기사
-> 김진철의 How-to-Big Data | 연재를 시작하며
-> 김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)
---------------------------------------------------------------

앞서 빅데이터에서 인공지능 기술의 중요성을 소개했던 일곱번째, 여덟번째 글[4, 5]에서 데이터 과학팀의 성과물들은 반드시 빅데이터 비즈니스 프로세스를 자동화하는 요소로 빅데이터 비즈니스 시스템에 통합되어야 한다고 언급한 바 있다. 데이터 과학자들은 자신들이 찾아낸 데이터 분석 과정의 논리와 그 산출물들을 데이터 엔지니어와 소프트웨어 엔지니어들과 협업하여 분석의 결과를 신속하게 일반 구성원들이 사용할 수 있는 정보로 바꾸어 주는 자동화된 데이터 처리 파이프라인으로 만들어야 한다.

소위 '데이터 과학 문화 확산 플랫폼'은 이런 데이터 분석 및 가공 자동화 모듈이 탑재되어 데이터 분석의 결과를 소비하는 일반 구성원들을 위한 정보 가공과 표현을 자동화하는 시스템으로 우선 작동하게 된다.

데이터 과학팀의 일원이 아닌 일반 구성원들을 데이터 분석 산출물들의 소비자로 보았을 때, 데이터 과학 문화의 사내 확산 문제는 이들 데이터 분석 산출물들의 소비자들인 일반 구성원들에게 어떻게 하면 쉽고 용이하게 데이터 분석 산출물들을 눈에 띄게 하고 쉽게 활용하게 하여 데이터를 기반으로 한 업무 처리의 비중이 높아지게 하는지에 대한 문제로 바뀌게 된다. 일반 구성원들을 데이터 과학자로 만들기 위해 어려운 데이터 분석 기법과 방법론들을 교육하는 것보다는, 기업들이 흔히 해오던 비즈니스 마케팅과 브랜딩, 그리고 서비스 상품을 어떻게 잘 소비하게 바꿀 것이냐 하는 문제로 사내 데이터 분석 문화 확산 문제를 바꾸게 되면 기업이 훨씬 부담 없이 데이터 과학 활용도를 높이는 문제에 접근할 수 있다.

데이터 과학 산출물들의 소비자인 일반 구성원들이 데이터 과학을 통해 자동으로 가공된 정보를 업무에 쉽게 활용하게 하려면 어떻게 해야 할까? 고려해야 할 것이 많지만 우선 가장 중요한 세 가지만 오늘 이 글에서는 살펴보도록 하자.

첫번째로, 데이터 분석 산출물을 소비할 부서나 업무 담당자를 구체적으로 정의하고, 이들 부서나 업무 담당자들의 업무의 맥락에서 데이터 분석 산출물이 손쉽게 이해되고 활용될 수 있도록 데이터 분석의 결론을 한번 더 단순화하고 명료하게 만드는 과정을 거쳐 이 결과만이 해당 부서나 업무 담당자에게 플랫폼을 통해 전달되도록 한다.

다소 일반적으로 얘기해서 좀더 구체적으로 실례를 들어 같이 생각해보자.

예를 들어 A/B 테스트를 통해서 기업의 새로운 빅데이터 비즈니스용 서비스 시스템의 사용자 경험을 개선하는 과정이라고 가정해보자. 이 빅데이터 비즈니스 서비스 시스템의 사용자 경험 개선 정도를 측정하기 위해서 다양한 측정 지표를 데이터 과학팀에서 고안하고, 이를 이용한 효과성과 비즈니스 지표 개선 상황을 추정하고 분석할 수 있는 논리를 데이터 과학팀에서 만들게 될 것이다.

A/B 테스트를 통해서 어떤 사용자 경험이 더 비즈니스에 효과적으로 작용하는지는 비즈니스에 관여하는 부서마다 관심이 있는 지표가 다를 것이다. 우선 UI/UX 개발팀에서는 A UI/UX 또는 B UI/UX 중 어느 사용자 인터페이스에서 사용자의 클릭 패턴과 이용 패턴의 흐름이 최적화되고 짧아지는지, 사용의 편의성에 대한 피드백 점수가 높아지는지 관심이 많을 것이다.

마케팅이나 사업 개발팀에서는 빅데이터 비즈니스 서비스 시스템에서 A UI/UX 또는 B UI/UX 중 어느 사용자 인터페이스에서 기업이 주력 제품으로 지원하는 특정 아이템에 대한 클릭 수가 높아지는지, 또는 자사의 비즈니스 서비스 사이트에 대한 재방문 수나 재구매율이 높아지는지, 자사의 비즈니스 서비스 사이트에 노출된 광고 중 어떤 광고를 더 많이 클릭하거나 읽게 되는지 등의 마케팅과 상품 구매 관련 지표나 데이터에 더 관심이 많을 것이다.

이렇게 부서나 담당자별로 관심이 있는 정보나 데이터가 다르기 때문에, 담당자나 부서에서 현재의 업무와 관련해 가장 관심이 있고 중요한 정보가 눈에 띄고 쉽게 열람될 수 있도록 데이터 분석의 결과를 표현되고 가시화하여 플랫폼에서 제공해야 한다. 제공되는 각 정보나 데이터는 데이터를 사용하는 소비자, 즉 데이터 분석 산출물의 고객이 되는 사내 대상 부서나 담당자들이 즉각적으로 활용할 수 있는 최종 단계의 결론이나 대표 지표, 데이터를 눈에 띄기 쉽고 바로 사용할 수 있는 형태로 가공해서 소비가 쉽게 만드는 것이 중요하다.

이렇게 데이터 분석 산출물이 빅데이터 비즈니스 데이터 가공 과정을 자동화하여 사내의 빅데이터 소비자들인 관련 부서나 담당자들이 필요한 정보로 가공되어 신속하게 전달될 수 있도록 하기 위해 데이터 분석 산출물을 소프트웨어 모듈화하여 ‘데이터 과학 문화 확산 플랫폼’으로서 빅데이터 비즈니스 지원 시스템(Business Support System; BSS)에 통합될 수 있도록 하여야 데이터 과학 산출물의 사내 활용 및 소비를 촉진할 수가 있다.

이렇게 데이터 과학 산출물의 결과로 제공되는 비즈니스 정보나 데이터를 사내의 관련 구성원들이 쉽게 소비할 수 있도록 플랫폼화해서 제공하게 된다면 데이터 과학팀의 업무 성과들이 기업의 비즈니스에 직접 활용이 되면서 그 효용과 유용성이 빠르게 입증이 될 것이다. 이렇게 데이터 과학팀의 업무 성과가 사내 구성원들에 의해 쉽게 소비될 수 있으면 사내 구성원들도 데이터 분석을 통해 얻은 정보가 자신의 업무에 중요한 역할을 하는 것을 인지하게 되고, 데이터 분석에 대한 좀더 긍정적인 인식과 적극적인 태도를 보일 수 있게 될 것이다.

이렇게 사내 구성원들이 데이터 분석과 데이터 과학 업무에 대해서 좀더 긍정적이고 적극적인 태도를 보일 수 있게 되면 데이터를 활용한 업무 처리와 의사 결정 문화가 기업 조직 내에 좀더 빠르게 확산될 수 있는 계기가 될 수 있다. 이런 상황이 되어야 경영진이 의도했던 사내 구성원들을 데이터 과학자로서 육성하려는 시도가 좀더 효과적으로 작동할 수 있으며, 사내 구성원들도 데이터 과학자라는 경력에 대해서 좀더 긍정적이고 적극적인 마인드를 가지고 경력 전환을 시도하려 할 것이다.

두번째로, 데이터 분석 산출물을 읽거나 활용할 구성원의 데이터 과학 업무에 대한 이해 수준과 전문성의 정도를 3~4단계 정도로 구분하고, 그 수준에 따라 노출되는 정보와 데이터 분석 결과의 세부 사항을 계층화하여 큐레이션하도록 하자.

데이터 분석 산출물의 최종 결과를 우선적으로 제공하려고 목표로 하는 부서나 구성원들이 쉽게 소비하고 즉각적인 활용이 가능할 수 있도록 간결하고 정제된 형태의 데이터를 눈에 띄기 쉽게 가시화하여 제공하는 것도 중요하다. 그렇지만, 업무에 따라서는 그 결론과 지표에 이르기까지 어떻게 수집된 원시 데이터가 가공되었는지, 그리고 그 결론이 도출되기까지 어떤 데이터 분석 기법이 활용되고 어떤 분석 논리를 거쳤는지 확인하고 싶을 수 있다.

특히 머신러닝이나 인공지능 기술을 사용하여 데이터를 분류하거나 판단을 자동화한 경우에는, 최근 유럽 연합의 GDPR과 같은 개인 정보 및 데이터 보호와 관련된 새로운 법규와 규정에 근거해서 정부 기관이나 고객의 요구에 따라 시스템이 의사 결정을 내리게 된 근거와 논리를 확인해보고 싶을 수 있다. 이런 경우를 대비해서 필요한 구성원과 부서에서 데이터 분석 과정과 세부 내용에 관해 확인하면서 점검할 수 있도록 하는 계층화된 데이터 분석 과정의 표현 및 가시화가 필요하다.

이런 계층화된 데이터 분석 과정의 표현과 가시화에 예전에 필자가 열아홉번째 기고에서 소개한 워크플로우 기술과 데이터 가시화 기술이 유용하게 쓰일 수 있다[6]. 워크플로우 기술은 원래 빅데이터 인프라의 여러 노드와 시스템에 흩어져 있는 여러 단계의 데이터 가공 및 처리, 분석 과정을 하나의 일관된 데이터 분석 프로세스로 통합해서 자동화하기 위한 용도로 사용하는 기술이지만, 반대로 전체 데이터 분석 과정과 상태를 시각화하고 점검, 모니터링하기 위한 용도로도 사용할 수 있다.

데이터 가시화 기술을 활용해, 가시화된 데이터를 이용하고 소비하는 구성원이나 부서가 필요에 따라 데이터를 계층화하여 검토하거나 분석할 수 있도록 데이터 가시화를 구성하고 조직하게 되면 처음부터 지나치게 많은 정보를 검토하지 않고 필요에 따라 데이터 분석 결과의 세부 사항을 검토할 수 있게 된다.

이러한 계층화된 데이터 분석 결과의 표현과 가시화 구성의 대표적인 예가 예전 필자가 열여덟번째 글에서 소개했던 CERN의 그리드맵(GridMap) 모니터링 기술이다[7]. 
그리드맵(GridMap) 모니터링 가시화 시스템에서는 전세계에 걸친 그리드 시스템 운영자들이 가장 관심 있는 정보인 LHC컴퓨팅 그리드(LHC Computing Grid) 전체의 운영 상황과 각 그리드 사이트 자원의 운영 전체 상황이 먼저 요약된 타일 가시화 형태로 표현되고, 각 그리드 사이트에 해당하는 타일을 운영자가 선택하면 해당 그리드 사이트 자원 운영 상황의 세부 정보가 담긴 웹 모니터링 시스템으로 이동하거나 세부 정보가 담긴 시스템 가용성 모니터링(System Availability Monitoring; SAM) 정보가 자세하게 표현이 되는 식으로 데이터와 정보가 구성되어 운영자들의 편리를 도모하였다.

데이터 표현과 가시화에 데이터 분석 과정의 로직을 정리한 주피터 노트북(Jupyter Notebook) 같은 온라인 산출물을 연결해놓는 것도 좋은 방법이다. 담당 구성원이나 관련 부서에서 빅데이터 비즈니스 시스템이 왜 현재 보이는 것과 같은 판단과 결론을 내렸는지 그 논리를 정밀하게 검증해보고 싶다면, 데이터 과학자가 그러한 분석 시스템을 어떠한 논리로 개발했고 그런 데이터 분석 논리가 어떤 한계가 있는지를 데이터 과학자가 직접 작성하여 만든 주피터 노트북의 분석 코드를 한줄 한줄 실행하면서 검토하면 정밀하게 검증하거나 조사해볼 수 있을 것이다.

세번째로, 데이터 분석의 결론을 눈에 띄고 알아보기 쉽게 가시화하는 방법을 개발하여 활용하도록 하자. 

데이터 가시화는 복잡한 빅데이터 분석의 수준을 높이고 노력과 시간을 줄이기 위해서도 필요하지만, 데이터 과학 문화를 확산시키고 각 구성원의 데이터 소비를 활성화하기 위해서도 매우 중요하다. 자신들의 업무에 필요한 데이터와 정보가 찾아보기 쉽고 알아보기 쉽게 제공되어야 데이터를 활용하려는 사람들의 수가 점차 늘어날 것이다.

데이터 과학 문화가 정착되지 않은 조직에서 데이터 과학과 분석은 데이터 과학자가 아닌 일반 기업 구성원들에게는 대부분 경우 또 하나의 쉽지 않고 골치 아픈 업무가 되는 경우가 많다. 이런 일반 기업 구성원들이 데이터를 활용하는 것을 거부감 없이 수월하게 받아들일 수 있도록 하려면 데이터를 열람하고 활용하는 과정을 편리하고 기분 좋은 사용자 경험으로 만들 필요가 있다. 이런 빅데이터 활용의 사용자 경험을 개선하고 효과적으로 만드는 방법의 하나로 데이터 가시화를 활용하는 것이다.

앞서 열여덟번째 글에서 설명한 바 있지만[7] 데이터 가시화는 데이터 큐레이션과 밀접하게 관련되어 있다. 단순히 데이터를 화려한 그래픽으로 표현하여 보기 좋게 만드는 것이 데이터 가시화가 아니다. 데이터 가시화를 통해 데이터와 상호 작용하는 과정은 반드시 가시화되는 데이터를 이용해 최종 사용자가 어떤 문제를 풀고, 어떤 방식과 과정으로 문제의 해결책에 효과적으로 접근할 것인지와 밀접하게 연관되어 있다. 앞서 열여덟번째 글에서 자세히 소개했던 CERN의 그리드맵(GridMap) 모니터링 가시화 시스템도 단순히 그리드 모니터링 현황 데이터를 보기 좋게 표현하는 문제가 아니라, 전체 그리드 컴퓨팅 자원의 상태를 한눈에 신속하게 파악하고 문제가 있는 그리드 컴퓨팅 사이트 자원의 문제를 쉽게 추적해서 찾을 수 있도록 하는데 데이터 가시화의 조직과 구성의 초점이 맞춰져 있다.

사내 구성원과 부서들을 고객으로 하는 데이터 과학 문화 확산 플랫폼과 빅데이터 비즈니스 플랫폼의 데이터 가시화도 해당 가시화 시스템을 업무에 활용하는 구성원들이 업무상의 어떤 문제를 어떻게 해결하고, 그 해결 과정이 어떻게 효과적으로 조직되어 생산성을 높일지에 초점을 맞추어 데이터를 표현, 큐레이션, 조직해야 한다.

데이터 과학팀에서 소프트웨어 개발팀과 긴밀하게 협업하여 이렇게 데이터 분석 및 가시화 시스템을 만들 경우 데이터 과학팀의 업무 성과가 사내에 확산되는 데에도 도움이 된다. 고객의 피드백을 받아 제품 개발의 위험을 반복적으로 감소시키는 애자일 소프트웨어 개발 방법론이 요즘 실리콘밸리 스타트업들에게서 유행하는 것과 같이, 고객의 입장에서 자신들의 데이터 분석 논리가 어떻게 활용되고 소비될 것인지를 염두에 두고 데이터 분석 논리와 가시화를 개발하게 되면 데이터 과학팀의 개발 산출물과 성과가 좀더 조직에서 인정받고 널리 쓰이는 산출물로서 자리 잡는 데에도 크게 도움이 될 것이다.

이에 더해서 데이터 과학자들이 자신들만의 어려운 전문 용어로 복잡한 데이터 분석 논리를 만들어 가는 과정에서 자칫 잘못하면 데이터 과학자들만 알 수 있는 현학적이고 복잡하며 사용하기 어려운 데이터 분석 시스템이 되어 일반 구성원들이 활용하기 어렵게 될 수 있다. 이런 문제도 데이터 가시화와 큐레이션을 통한 문제 해결 과정의 재조직을 통해서 어느 정도 다듬고 해결할 수 있다. 

위와 같이 데이터 과학 문화 확산 플랫폼을 통해서 데이터 과학과 분석에 대한 사내 구성원들과 관련 부서들의 인식을 보다 긍정적으로 전환하고 빅데이터 기반의 문제 해결 과정이 조직에 더 쉽게 확산되고 자리잡을 수 있도록 유도할 수 있다. 이런 데이터 과학 문화 확산 플랫폼을 통해서 사내 구성원들에게 빅데이터 활용과 데이터 분석의 마인드를 심어주고 데이터 기반 문제해결 문화가 조직에 조금씩 젖어 들어가게 할 수 있다. 데이터 과학과 빅데이터 기반 의사 결정 문화를 사내에 정착시키는 데 노력만큼 효과가 보이지 않는다고 고민하는 기업과 조직들은 이런 데이터 소비를 촉진하는 플랫폼을 활용하는 방법을 적극적으로 고민해보도록 하자.

 


데이터과학자 양성을 위한 경영 프로젝트 운영의 단계적 방법
앞에서 필자가 소개한 빅데이터 소비를 위한 플랫폼을 활용하여 데이터 기반 업무 문화를 사내에 확산시키는 아이디어는 사내에 빅데이터 기반 문제 해결과 업무 처리의 마인드와 문화를 확산시키는 데에는 확실히 도움이 되지만, 사내의 구성원들을 데이터 과학자로 양성할 수 있는, 빅데이터 기반 문제 해결 능력을 갖춘 인재 양성의 보다 근본적인 문제를 해결해주지는 못한다.

필자가 사내 구성원들을 데이터 과학자로 양성하는 생각에 다소 부정적으로 얘기하기는 했지만, 전혀 불가능하다고 생각하는 것은 아니다. 다만, 필자가 리더분들께 권하는 것은 사내 구성원들을 모두 데이터 과학 마인드를 가진 구성원들로 탈바꿈시키기 위해 시도한다거나, 3년 이내에 사내 데이터 과학자 OOO명 양성과 같은 현실적이지 않은 목표를 위해 기업이 자원과 시간을 낭비하는 일이 없어야 한다는 것이다.

데이터 과학자로서 전문성과 소양이 쌓이고 무르익기 위해서는 어느 정도 시간과 경험이 필요하다는 것을 인정하고, 현실적인 계획과 실천 방안을 통해 데이터 과학 기반의 의사 결정 역량을 조직 내에 갖추어 가는 것이 무엇보다 중요하다. 이런 관점에서 데이터 과학자로서 경력을 전환하거나 키워가기를 원하는 사내의 우수 인재들을 데이터 과학자로 양성할 수 있는 보다 현실적인 대안을 제안해보고자 한다.

우선, 데이터 과학자로 성공적으로 경력 전환할 가능성이 큰 구성원들을 선별하는 것이다. 데이터 과학자로서 일하는 데 필요한 역량과 마인드셋에 대해서는 이전 스물네번째 글[8]과 스물여섯번째 글[9]에서 자세히 다루었으니 참고하길 바란다. 이렇게 데이터 과학자로서 갖추어야 하는 역량과 마인드셋은 사내 구성원이라고 하더라도 크게 다를 수 없다. 우선 데이터 과학자로서 경력 전환이 가능한 전공 분야 및 실무 경험, 그리고 마인드를 어느 정도 갖춘 구성원인지 과거 업무 이력과 내용을 보고 선별하는 과정이 있어야 할 것이다.

이런 측면에서 아무래도 자연과학이나 공학을 전공한 구성원이 데이터 과학자로 경력 전환이 상대적으로 용이할 것이다. 적어도 자연과학이나 공학 분야의 석사 학위 이상의 학위를 가지고 있으면서 독자적인 연구를 수행하여 그 결과를 발표한 경험이 있는 구성원이 경력 전환이 상대적으로 수월할 것이다.

이렇게 데이터 과학자로 경력 전환 가능성이 큰 구성원들을 선발한 다음에는 이들에게 데이터 과학자로서 필요한 역량을 성장시켜주어야 할 것이다. 가장 먼저 해야 할 일은 데이터 과학자로서 갖추어야 할 전문 지식을 어느 정도 갖추게 하는 것이다.

데이터 과학자로서 갖추어야 할 전문 지식의 양과 범위가 넓기 때문에 역시 조직의 리더들은 조급하게 생각하지 말고 이들 구성원이 우선 당면한 문제를 해결하는데 필요한 지식을 먼저 배우고 흡수하는데 부족함이 없는 환경을 만들어줄 것을 필자는 권한다. 이런 데이터 과학자로서 역량 성장의 환경으로써 활용할 수 있는 제일 좋은 것은 요즘 유행하는 코세라(Coursera), 유다시티(Udacity) 등의 MOOC나 주문형 온라인 학습 서비스이다. 이들을 통해 구성원 자신들이 배우고 싶고 당장 필요한 수업들을 수강할 수 있도록 시간과 비용을 지원해주는 것이 가장 좋은 방법이라고 생각한다.

특히 코세라(Coursera)와 유다시티(Udacity) 등의 MOOC 서비스의 강의들은 해외 유수의 명문 대학 전문가들의 강의가 많기 때문에 유학 보내 훈련하는 것에 준하는 수준 높은 교육을 구성원들이 받을 수 있게 할 수 있다. 무엇보다도, 구성원들이 유학을 가 기업과 조직의 현안과 동떨어져 이들 전문 지식을 학습하고 배우는 것이 아니라 기업과 조직의 현안을 고민하면서 이들 지식을 배우기 때문에 기업과 조직의 필요에 맞는 맥락을 놓치지 않고 학습할 수 있다. 이런 측면에서 오히려 기업과 조직의 입장에서는 데이터 과학자를 훈련하기에 더 효과적일 수 있다.

이렇게 데이터 과학자 후보인 구성원들이 MOOC나 온라인 학습 서비스에서 전문 지식을 쌓는 것과 동시에, 데이터 기반의 문제 해결 마인드와 역량을 체득할 수 있도록 데이터 과학 프로젝트에 실제로 참여하도록 하는 것이 중요하다. 구성원들의 데이터 과학 역량 성장의 초기에는 이들이 도메인 전문가로서 데이터 과학 프로젝트에 참여해 기여하면서 데이터 과학자들과 자연스럽게 어울리고 데이터 과학 프로젝트를 어떻게 수행하는지, 데이터 과학으로 문제를 푼다는 것이 어떤 것인지 보고 배울 수 있도록 하는 것이다.

데이터 과학자 후보로서 선발된 구성원들이 가능하면 많은 수의 데이터 과학 프로젝트에 도메인 전문가로서 참여하면서 데이터 과학자로서 어떤 전문 지식을 배우고 익혀야 할지, 이들 전문 지식이 실제 데이터 과학 프로젝트에서 어떻게 응용되고 활용되는지, 그리고 데이터 과학이 실제 기업 경영에 어떤 효과와 영향을 미치는지 직접 눈으로 보고 귀로 들으며 확인하고 스스로 동기부여할 수 있도록 한다. 

이렇게 해서 구성원의 데이터 과학자로서 역량이 어느 정도 성장하게 되면 데이터 과학팀 리더의 검토와 승인을 얻어 해당 구성원을 데이터 과학팀으로 발령을 내고 일하도록 하는 것이다. 그다음에는 이전 스물일곱번째 글[2]에서 소개한 것과 같이 데이터 과학자의 경력 성장 경로를 따라 조직 내에서 성장하도록 하면 될 것이다.

글로써 간단하게 내부 구성원을 데이터 과학자로 육성하는 방법을 소개하기는 했지만, 조직의 상황과 구성원 개개인의 배경지식과 역량에 따라 데이터 과학자로 성장하는 과정은 다양한 스펙트럼으로 나타날 것이고, 그 과정도 쉽지 않을 것이다. 기업과 조직의 리더와 데이터 과학자로 성장하길 원하는 구성원 모두 인내심을 가지고 꾸준히 시도하고 노력해야 하는 과정이다.

이렇게 조직의 구성원들을 데이터 과학자로 양성할 수 있도록 코칭하고 가이드를 주는 것도 데이터 과학자의 또 다른 역할이 될 수 있다. 데이터 과학자를 새로 영입할 때 사내 구성원들을 데이터 과학자로 양성하기 위한 코치의 역할도 겸할 수 있는 데이터 과학 멘토로서 품성을 같이 보는 것도 중요하다. 대개 과학자, 공학자로서 경력을 쌓으면서 성장해온 데이터 과학자들은 후속 세대를 위한 코칭과 프로젝트를 통한 도제식 훈련에 경험이 많은 사람들이다. 전문 데이터 과학자의 이런 장점도 잘 활용하는 것이 좋다.

이렇게 기존 구성원들을 좋은 데이터 과학자로 잘 양성하기 위해서라도 과학자로서 품성을 잘 갖춘 역량 있는 데이터 과학자를 기업과 조직에서 잘 영입하는 것이 중요하다. 아무래도 일반 구성원보다는 연봉이 높을 수밖에 없는 데이터 과학자를 영입하는 것을 지나친 부담으로만 생각해서 기존 구성원들에게 데이터 분석 강의 몇 번 듣게 하고 업무 전환시키면 알아서 데이터 과학자 업무를 울며 겨자 먹기 식으로라도 하겠지라고 안이하게 생각하는 경영진이나 IT 의사결정자들은 없기를 바란다. 그렇게 쉽게 데이터 과학자가 만들어질 수 있었다면 현재의 데이터 과학자 부족 현상이 이렇게 오래 지속되지는 않았을 것이다.

이번 글의 마지막으로, 이렇게 내부 구성원을 데이터 과학자로 잘 육성하기 위해서라도 데이터 과학자들이 적절하게 일할 수 있는 업무 환경과 문화를 잘 갖추는 것이 정말 중요하다는 얘기를 다시 한번 강조하고 싶다. 다음번 글에서 좀더 자세히 다루기는 하겠지만, 이렇게 데이터 과학자들을 위한 업무 환경과 문화를 잘 갖추기 위해서는 데이터 과학 조직 리더의 역할이 정말 중요하다. 특히, 우리나라 대부분 기업과 같이 상명하달식 스피드 위주의 기업 문화를 가진 기업이라면, 필자는 데이터 과학 조직의 리더는 반드시 외부에서 영입하기를 권한다. 데이터 과학 조직의 리더의 요건과 데이터 과학 조직의 리더가 해야 하는 것, 하지 말아야 할 것에 대한 구체적인 얘기는 다음 글에서 좀더 자세히 다루고자 한다.

기업의 어떤 업무든 마찬가지겠지만, 데이터 과학 조직도 좋은 리더가 필요하다는 것은 아무리 강조해도 지나치지 않다. 빅데이터를 잘 활용하는 기업들의 상당수가 컴퓨터 과학 및 공학, 수학, 물리학과 같은 이공학을 석, 박사 학위까지 전공한 사람들이거나 그 정도는 아니더라도 이공학에 대해 필요한 지식을 적극적으로 쌓거나 쌓으려고 노력하는 사람들임을 기억할 필요가 있다.

이런 리더들의 대표적인 예로 기업 비즈니스에서 빅데이터 시대를 연 구글의 세르게이 브린과 래리 페이지는 스탠퍼드 컴퓨터 과학 박사 학위를 가지고 있고, 구글 검색 엔진의 핵심 기술이 된 페이지랭크 알고리즘을 창조했던 경력을 가지고 있다. 최근 인공지능 기술의 대표적인 예로 많이 회자되는 콘텐츠 추천 기술로 유명한 넷플릭스가 오늘날과 같은 글로벌 회사로 성장할 수 있었던 배경에는 역시 스탠퍼드 대학 컴퓨터 과학 석사 학위를 가진 리드 헤이스팅스가 있다.

필자가 이런 얘기를 하는 것은 데이터 과학팀을 꾸리고 운영하기 위해 기업과 조직의 CEO가 반드시 이공학 분야 석, 박사 학위를 받아야 한다는 얘기가 아니다. 데이터 과학의 정신과 문화를 조직에 이식하여 그 혜택과 이점을 잘 살리기 위해서는 데이터를 이용한 의사 결정의 배경이 되는 과학적 문제 해결 마인드, 그리고 이런 과학적 문제 해결 마인드를 기업의 업무로 실제로 구현하고 실천해 나가야 할 데이터 과학자들이 어떤 방식으로 일하는지 깊이 이해하고 이를 위한 환경과 의사 결정을 일관되게 해나갈 수 있어야 한다는 것을 강조하는 것이다.

왜 데이터 과학팀을 꾸리려는 기업과 조직의 CEO와 경영진이 이렇게 데이터 과학의 정신과 문화, 데이터 과학자들에 대해서 이해해야 하는지는 데이터 과학자들 상당수가 수학, 물리학, 컴퓨터 과학과 같은 이공학을 전공한 과학자들이기 때문이다. 전 아마존의 수석 데이터 과학자로 잘 알려진 안드레아 와이겐드와 같은 사람은 물리학 박사이다. 물리학적 문제 해결 방식이 이미 몸에 배어 있는 안드레아 와이겐드 같은 사람들이 데이터 과학자로 성공적인 경력을 쌓은 것에 대한 의미를 다시 한번 되새겨볼 필요가 있다.

위와 같이 내부 구성원들을 데이터 과학자로 육성하고 길러내기 위해서라도 좋은 리더급 데이터 과학자를 영입하는 것이 점점 더 중요해지고 있다. 그렇지만, 기존 조직과 조화를 이루면서도 데이터 과학팀의 정체성을 지켜 조직에 가치를 더할 수 있는 과학자로서 올바른 품성과 데이터 과학자로서 탁월한 실력을 바탕으로 데이터 과학자들과 소프트웨어 엔지니어들을 이끌 수 있는 데이터 과학 리더를 찾는 것은 점점 더 어려워지고 있는 것 같다.

특히 앞서 언급한 바 있지만 우리나라의 경우 데이터 과학 소양을 가진 이미 있는 전문가들과 소프트웨어 엔지니어들마저 외국으로 많이 떠나는 추세여서 점점 더 데이터 과학 리더를 찾는 것이 어려워지고 있다. 어떻게 하면 우리나라에서 데이터 과학 리더를 육성할 수 있을지, 데이터 과학 분야의 리더를 꿈꾸고 있는 IT 분야 전문가, 이공학 분야 전문가들이 어떻게 하면 리더급 데이터 과학자로서 자신을 준비하고 단련시킬 수 있을지 다음 글에서 좀더 자세히 다루고자 한다. 데이터 과학팀의 리더로서 조직을 어떻게 이끌고 팀을 빌딩해야 할지도 중요한 원칙을 중심으로 같이 고민해보려고 한다.

내부 구성원들을 데이터 과학자로 양성하기 위해서도 좋은 데이터 과학자들을 영입할 필요가 있다는 사실이 다소 아이러니하게 느껴질지 모르겠다. 디지털 트랜스포메이션 확산과 함께 데이터 과학을 활용한 경영 기법이 기업의 ‘뉴노멀(New Normal)’로 자리 잡아 가는 요즘 상황에서 최대한 빠른 시간에 데이터 과학의 효과를 조직이 보기 위해서라도, 내부 구성원을 데이터 과학자로 양성하기 위해서라도, 좋은 데이터 과학자 영입은 필수가 되고 있다. 데이터 과학자 영입을 최소화하거나 대체하기 위한 수단으로서 내부 구성원 중심의 데이터 과학자 양성을 고려하지 말고, 기업 성장의 장기적인 관점에서 데이터 과학 문화를 빨리 정착시키려는 방법으로서 데이터 과학자 영입과 양성을 고려하는 시각의 전환이 절실하게 필요한 때다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] 김진철, “김진철의 How-to-Big Data - 빅데이터 조직과 시스템 (6)”, CIO Korea, 2019년 3월 25일. (http://www.ciokorea.com/column/119444
[3] 김진철, “김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)”, CIO Korea, 2017년 4월 20일. (http://www.ciokorea.com/column/33949
[4] 김진철, “김진철의 How-to-Big Data | 빅데이터와 인공지능 (1)”, CIO Korea, 2017년 7월 26일. (http://www.ciokorea.com/column/35006
[5] 김진철, “김진철의 How-to-Big Data | 빅데이터와 인공지능 (2)”, CIO Korea, 2017년 8월 28일. (http://www.ciokorea.com/column/35336
[6] 김진철, “김진철의 How-to-Big Data - 빅데이터 주요 기술의 조건 (5)”, CIO Korea, 2018년 7월 23일. (http://www.ciokorea.com/column/38993
[7] 김진철, “김진철의 How-to-Big Data - 빅데이터 주요 기술의 조건 (4)”, CIO Korea, 2018년 6월 27일. (http://www.ciokorea.com/column/38711)
[8] 김진철, “김진철의 How-to-Big Data - 빅데이터 조직과 시스템 (3)”, CIO Korea, 2018년 12월 28일. (http://www.ciokorea.com/column/113913)
[9] 김진철, “김진철의 How-to-Big Data - 빅데이터 조직과 시스템 (5)”, CIO Korea, 2019년 2월 26일. (http://www.ciokorea.com/column/117543)

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다.
ciokr@idg.co.kr