김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (3)

CIO KR
LHC 실험을 수행하는 물리학자들과 연구자들의 특성
지금까지 LHC 실험을 위한 만든 LHC 가속기와 네 개의 검출기, 그리고 데이터 가공 및 분석을 위한 LHC 데이터 처리 시스템과 WLCG 그리드 컴퓨팅 기술을 소개하면서 빅데이터 기술의 모든 요소를 갖추고 있는 LHC 프로젝트의 면면을 살펴보았다. LHC 빅데이터 인프라의 모든 것이 중요하고, 어느 하나라도 제대로 동작하지 않으면 LHC에서 생산되는 수백 페타바이트의 빅데이터를 제대로 처리하기는 불가능하다고 얘기했다. LHC 빅데이터 인프라의 모든 것이 다 중요하지만, 무엇보다도 중요한 것은 이런 LHC 빅데이터 인프라를 만들어낸 사람들, 그리고 이런 LHC 빅데이터 인프라를 이용해 우주와 물질을 지배하는 근본 법칙과 통찰을 만들어내는 사람들, 즉 LHC 연구자들이다.

LHC 연구자들이 그들의 창의성과 역량을 헌신적으로 발휘하지 않았더라면 LHC 실험 장치와 빅데이터 인프라는 존재하지 못했을 것이고, LHC 실험장치에서 생산된 데이터를 이용해 힉스 입자가 존재하는지 여부도 확인하지 못했을 것이다. LHC 프로젝트의 꽃은 다른 어떤 요소보다도 바로 LHC 실험을 위해 일하는 과학자들일 것이다. 오늘은 LHC 실험을 위해 일하는 과학자들의 특성을 같이 살펴보면서, 빅데이터를 활용하는 데이터과학자들이 어떤 사람들이고 어떤 특성을 가진 사람들인지, 이들을 어떻게 일할 수 있도록 해야 빅데이터 비즈니스를 수행하는 조직이 성과를 낼 수 있을 것인지 같이 고민해보도록 하자.

LHC 과학자들은 다양한 분야의 전문가들로 구성되어 있지만, 가장 많은 비중을 차지하고 있는 사람들은 LHC 실험장치를 이용해 실험 입자 물리학을 연구하려는 물리학자들이다. 이들 LHC 물리학자들이 쉽게 말하자면 데이터과학자들이라고 볼 수 있다. 사람마다 편차가 많고, LHC 장치의 복잡성 때문에 물리학자들이 모든 영역의 기술개발을 하지는 못하지만, 그래도 LHC 실험 장치의 디자인부터 개발, 데이터 분석까지 대부분 영역에서 영향력을 발휘하고 실제로 연구를 수행하는 사람들은 LHC 실험 물리학자들이다.

LHC 물리학자들은 그 자신이 입자 물리학과 입자 물리 현상학의 전문가, 즉 도메인 전문가이기도 하지만, 자신이 관심을 가지고 연구하는 문제를 풀기 위해 필요한 기술과 공학분야에도 정통한 사람들이 많다. 기본적으로 과학기술 계산(scientific computing)과 데이터 분석을 위한 소프트웨어 개발 및 프로그래밍 소양은 갖추고 있고, 그리드 컴퓨팅, 웹 기술 기반 분산 시스템 개발 등의 IT 기술에도 상당한 실력을 갖추고 있는 경우가 많다. 검출기 시스템을 개발하는 LHC 물리학자들은 분산 컴퓨팅 시스템과 데이터의 고속 처리를 위한 FPGA 기술 등 IT 분야에서도 보통 상당한 전문성이 필요한 일들을 직접 해내는 경우가 많다.

컴퓨터 과학 및 공학 분야에서 한 분야의 전문가가 되기 쉽지 않은 일인데, LHC 실험 물리학자들은 어떻게 해서 이렇게 다양한 기술과 역량을 갖추고 일하게 되는 것일까? LHC 물리학자들이 이렇게 다양한 기술을 직접 익히면서까지 입자 물리학 연구에 매진하게 하는 그 동력은 과연 무엇일까? 이런 질문에 대한 답을 조금이라도 찾을 수 있다면 빅데이터 비즈니스를 수행하는 기업들이 데이터과학자들을 어떻게 일할 수 있도록 해야 비즈니스 성과를 낼 수 있는지에 대한 단서를 조금이라도 찾을 수 있을 것이다. 우선 데이터과학자로서 LHC 물리학자들의 일반적인 특성이 어떤지 같이 한번 살펴보도록 하자.

첫번째로, 다소 좀 진부한 얘기일 수도 있겠지만, LHC 물리학자들은 아직 밝혀지지 않은 지식에 대한 호기심과 탐구열, 그리고 해결되지 않은 과학적 난제를 풀려는 강한 의지를 가진 사람들이다. 무엇보다도 이런 특성이 LHC 실험 및 연구에 헌신하게 하는 동력이라고 볼 수 있다.

아래에 좀더 자세히 설명하겠지만, 물론 이러한 호기심과 탐구열, 문제 해결에 대한 의지만이 이들 LHC 물리학자들의 순수한 동기만은 아니다. 많은 사람의 참여와 막대한 사회적 자원을 들여야 연구할 수 있는 입자 물리학 분야는 과학의 여러 분야 중에서도 유난히 정치적인 분야이기도 하다. 입자물리학의 이런 특성 때문에 과학의 여러 분야중에서도 유난히 정치사회학적인 역동성이 많이 나타나서 많은 사회과학자의 연구 대상이기도 하다. 이런 현실을 감안하더라도, LHC 실험을 포함한 실험 입자 물리학 분야에서 일하는 대부분 물리학자는 지구상의 어떤 사람들보다도 호기심과 새로운 지식에 대한 열망과 탐구열, 과학적 문제 해결에 대한 의지가 강한 사람들이라고 단언할 수 있다.

LHC 실험 장치의 모든 것들은 바로 힉스 입자 발견을 비롯한 입자 물리학 현상을 검증하고 표준 모형과 다양한 입자 물리학 이론들이 예견하는 가설들을 검증하기 위해 디자인되고 만들어졌다. 그렇게 엄청난 양의 예산과 자원이 들어간 복잡한 장치가 인류의 우주의 근본 법칙에 대한 호기심, 알고 싶은 욕망을 위해 지어졌다는 것이 믿어지는가? 과거 LHC와 같이 경쟁할 것으로 예상되었던 미국의 초전도 수퍼 가속기(Superconducting Super Collider; SSC)가 미 의회의 결정으로 건설이 중단된 것도 한 과학분야의 지식 탐구를 위해 국민이 낸 세금을 그렇게 많이 쓰는 것에 대해 미국민의 공감이 부족했기 때문이다. 하지만, 물리학자들의 자연 현상에 대한 호기심과 문제 해결에 대한 열정이 결국 LHC라는 전무후무한 기계를 만들어내게 하였다.

두번째로, LHC 실험 물리학자들은 과학자이기도 하지만, 가속기의 여러 구성요소 중 자신이 전공하고 맡은 부분에 대해 전문가인 공학자이기도 하다. 이 얘기는 LHC 실험 물리학자들은 자신의 본 전문 분야인 입자 물리학에 대한 도메인 지식도 전문적으로 갖추고 있지만, 자신이 풀고자 하는 입자 물리학 문제를 풀기에 필요한 전문 기술과 설계 역량을 갖춘 공학자이기도 하다는 뜻이다.

LHC 실험 물리학자들이 쓰는 논문중 상당수가 공학 저널에 게재된다. 미국전기전자공학회에서 발간하는 핵과학 저널(IEEE Transactions on Nuclear Science)과 병렬, 분산 시스템 회보(IEEE Transactions on Parallel and Distributed Systems)와 같은 대표적인 공학 저널에 상당수 실릴 뿐만 아니라, LHC 관련해서 열리는 컨퍼런스 논문집이 공학 분야 저널의 특별호(Special Issue)로 발간되는 경우도 많다.

많은 LHC 실험 물리학자들은 수많은 노벨상 수상자를 배출하고, 역사적으로 유명한 대부분 과학자가 연구했던 분야가 실험 입자물리학인 것에 대해 큰 자부심을 가지고 일하고 있다. 그렇지만 이들 LHC 물리학자들은 자신이 실험 입자 물리학자라고 해서 다른 과학, 공학 분야의 지식을 배우고 자신의 연구에 활용하는데 주저함이 없다. 도메인 전문가로서의 LHC 실험 물리학자들은 자신이 직면한 물리학적 문제를 동료 연구자들과 같이 풀기 위해 필요한 공학과 기술을 배우는 데 적극적이다. 자신만의 영역을 특정한 분야로 한정하고 안주한다기보다는 매우 문제 해결 지향적으로 일한다고 볼 수 있다.

세번째로, LHC 물리학자들은 과학적 사고방식과 문제 해결에 대한 전문적인 훈련을 받은 사람들이다. 다시 얘기하면, 이들은 과학적인 사고방식으로 사물과 세계를 보는 것이 몸에 밴 사람들이라는 것이고, 과학적 지식을 추구하는데 필요한 문제 해결 방법과 전문 지식을 체계적으로 훈련 받은 사람들이다.

LHC 물리학자들은 실험 물리학자로서 자신의 경력을 키우기 위해 다양한 훈련을 받게 된다. 무엇보다도 실험하면서 실험 데이터를 기반으로 데이터 너머에서 일어나는 현상의 본질에 대해 체계적이고 깊이 있게 생각하고, 이런 추론을 기반으로 사물과 대상을 지배하는 법칙에 대해 생각하는 귀납적인 사고방식에 대해 체계적인 훈련을 받게 된다. 이에 더해서, 이론 물리학자들과 수학자들이 실험 사실들을 추상화해서 정식화한 물리학 방정식과 수학적 공식들을 이용해 자신의 실험 결과를 설명하는 이론을 만들거나 해석하고, 그 의미에 대한 결론을 도출하고 새로운 결과를 예측하는 연역적 사고 방법도 체계적으로 훈련하게 된다.

또한 데이터 분석을 위한 수학, 통계학에도 체계적인 훈련을 받게 되며, 이들 수학, 통계학적 지식을 이용한 데이터 처리 및 분석을 위해 컴퓨터 기술과 과학에 대해서도 꽤 깊은 소양을 가지게 된다. 이런 과정을 통해 LHC 물리학자들은 단순히 입자 물리학 분야의 지식만을 축적한 전문가들만이 아니라, 귀납적, 연역적 사고방식으로 문제를 해결하는데 익숙한, 과학적 문제 해결 역량을 전문적으로 갖춘 문제 해결 전문가이기도 한 것이다.

이렇게 귀납적, 연역적 사고방식과 데이터 기반의 문제 해결 능력을 갖춘 물리학자들 상당수가 최근 데이터 과학자로 전업해서 활동하고 있다. 사실, 데이터 과학자에게 요구되는 역량의 상당 부분이 실험 물리학자들이 이미 자신의 연구 분야에서 경력을 쌓으면서 받게 되는 훈련을 통해 얻게 되는 역량들이다. 이런 의미에서, LHC 실험 물리학자들이 경력을 쌓아가면서 쌓게 되는 소양이 데이터 과학자로서 어떤 역량을 갖추어야 하는지에 대한 힌트를 주기도 한다.

이런 특성을 가진 LHC 실험 물리학자들은 그렇다면 왜 LHC 빅데이터 분석을 추구하는지에 대해 같이 생각해보자. LHC 실험 물리학자들이 자신의 연구 분야에 몰두하게 하는 근본적인 동기가 무엇인지 같이 생각해보면 데이터 과학자 조직을 이끄는 리더들이 자신의 데이터 과학자들을 어떻게 동기 부여를 해야 할지 힌트를 얻을 수 있을 것이다.

첫번째로, 역시 다소 진부한 얘기겠지만, LHC 실험 물리학자들이 우주와 물질을 지배하는 원리를 발견하고 직접 확인하고 싶어 하는 앎에 대한 욕구이다. 무엇보다도 연구하는 대상인 입자물리학적 현상에 대한 지식과 통찰, 이해에 대한 욕구가 LHC 실험 물리학자들의 호기심을 자극하는 가장 큰 동기라고 할 수 있다. LHC 물리학자들의 호기심과 지적인 욕구에 대해서는 앞에서 어느 정도 살펴보았으니 여기서는 간단하게 언급하기로 한다.

두번째로, 경쟁이 치열한 입자물리학계에서 실험 입자 물리학자로서 경력을 지켜 가기 위해서는 포스트 닥터 과정까지 좋은 연구 실적을 내야만 한다. 이렇게 실험 입자 물리학자로서 경력을 지켜가면서 자신의 연구를 지속할 수 있는 좋은 직장을 구하고, 연구비를 지속해서 지원받기 위해서 치열하게 연구하며, LHC와 같은 국제 공동 연구에서 좋은 기여를 통해 동료와 선배 물리학자들 눈에 들기 위해 노력하는 현실적인 이유를 무시할 수 없다.

전통적으로 많은 노벨상을 배출한 입자물리학계는 다양한 물리학 세부 분야중에서도 그만큼 가장 뛰어난 천재, 수재들만이 몰려드는 분야이기도 하다. 이렇게 경쟁이 치열한 분야에서 안정적으로 연구를 지속할 수 있는 직장을 잡고 연구비를 지속해서 지원받기 위해서는 치열한 노력이 필요하다.

요즘은 예전보다는 한풀 꺾인 분위기이기는 하지만, 그래도 여전히 많은 물리학 전공의 과학자들이 LHC와 같이 커뮤니티가 잘 구성된 국제 공동 연구 프로젝트에서 고에너지 입자 물리학을 전공하려고 한다. 이렇게 LHC와 같이 국제 공동 연구로 잘 자리 잡은 프로젝트에서 일할 수 있어야 자신의 직장과 연구비가 안전하게 보장되기 때문에 LHC 실험에 공식적으로 참여하고 CERN 회원국 정부로부터 공식적인 지원을 받는 연구팀의 일원으로 직장을 잡기 위해서는 치열하게 노력하고 동료, 선배 연구자들에게 자신과 자신의 연구 가치를 인정받기 위해 노력해야 한다.

전 세계적으로 LHC 실험에 참여하는 연구팀이 많다고 하더라도, 매년 배출되는 신진 물리학자들을 모두 받아주기에는 LHC 실험을 위한 정부의 연구비와 연구팀의 자리가 매우 제한적이다. 아무리 최첨단 기술을 개발하고 활용하는 LHC 실험이고, LHC 실험을 통해 개발된 기술들이 상용화 가치가 높은 기술들이 많다고 하더라도 그 기술들 모두가 언제 어떻게 상용화될 수 있을지는 알지 못하기 때문에 각국 정부가 무한정 많은 재원을 투입하도록 사회적인 합의를 이루기에는 어려운 점이 많다.

이렇게 LHC 실험의 규모와 복잡성에 비해 자원과 재원이 제한적인 현실에서 자신의 경력을 지켜가면서 연구비를 지속해서 지원받을 수 있으려면 연구에 치열하게 몰두하여 좋은 연구성과를 낼 수밖에 없다.

이렇게 치열하게 노력을 하더라도 연구를 지속해서 할 수 있는 세계 유수의 고에너지 물리학 전문 연구소에 자리를 잡기 위해서는 운도 많이 따라야 하며, 좋은 직장에 자리를 잡을 만큼의 좋은 연구 성과를 얻는 것도 개인의 노력과는 무관한, 그야말로 신의 도움이라고밖에 표현할 길이 없는 우연의 영향을 받는 경우가 많다. 그렇다고는 해도 기본적으로 이런 운이 따라주기 위해서라도 자기 자신을 지속해서 단련하고 꾸준히 양질의 연구성과를 내면서 준비되어 있어야 이런 운도 낚아챌 수 있는 것이 입자물리학계의 현실이라, 기본적으로 입자물리학자들은 열심히 연구에 몰입할 수밖에 없다.

세번째로, LHC 물리학자들이 본인의 경력을 지키기 위한 현실적인 이슈와 함께, LHC 실험이 매우 많은 동료, 선배 연구자들과 협업이 필요한 거대 과학 실험이라는 것이 많은 노력과 시간을 들여 연구와 데이터 분석에 몰두하는 이유이다.

거대 과학 실험은 한번의 데이터를 얻기 위해서도 고가의 실험 장비를 많은 사람이 협업해야 하며, 이런 이유로 실험을 준비하고 실행하는데 많은 비용과 시간이 필요하다. 실험을 계획하고 준비하는 과정에서 사소한 실수가 있거나 준비가 부족하면 애써 얻은 실험 데이터가 무용지물이 되거나 의미가 없는 데이터를 얻게 되는 경우도 많다. 개인적으로 혼자 열심히 노력한다고 해서 그 결과물을 노력에 비례한 만큼 빨리, 많이 얻을 수 있는 것이 아니라 선배, 동료 연구자들과 의사소통을 긴밀히 하면서 실험 커뮤니티에서의 자신의 역할과 주변 공동 연구자들과 팀워크를 적절하게 지켜야만 의미 있는 실험 데이터를 얻을 수 있다.

이렇게 많은 연구자와 공동으로 실험을 진행하는 경우 실험 그 자체보다 선배, 동료 연구자들과 커뮤니케이션과 협업을 위한 일에 더 많이 시간과 노력을 들여야 하는 경우가 많다. 이런 과정이 자신이 원래 관심 있게 추구하는 문제와 관련이 없어 보일지라도 인내심을 가지고 꾸준하게 밀고 나가야만 좋은 연구성과를 얻을 수 있는 실험 데이터를 얻을 수 있다. 이런 이유로 기본적으로 자신의 연구를 위해 최선을 다하기도 해야 하지만, 선배, 동료 연구자들과 협업을 위한 일도 완수해가면서 자신의 연구를 지속하기 위해서는 정말 열심히, 성실하고 꾸준하게 일해야만 경쟁이 치열한 LHC 실험 커뮤니티에서 의미 있는 연구 성과를 낼 수 있다.

LHC 실험 데이터 분석에서 연구자 자신이 뭔가 의미 있는 실험 결과를 발견했다고 하더라도 본인이 바로 연구 결과를 발표할 수 없는 경우가 많다. 대개 커뮤니티의 공동 연구자들과 연구팀들에 의해서 그 결과에 대한 평가와 검증이 이루어지게 되며, 이렇게 실험 결과에 대한 평가와 검증을 하는 과정도 많은 시간과 노력이 필요한 경우가 많다. 이런 이유로 효과적인 커뮤니케이션 기술과 대인관계가 실험 입자물리학 분야에서 매우 중요하며, 이렇게 본인의 노력만으로 해결이 어려운 일들이 연구 과정에서 많이 일어나기 때문에 기본적으로 많은 노력으로 준비되어 있지 않으면 실험 입자 물리학자로서 경력을 지켜나가기가 쉽지가 않은 것이다.

앞에서 살펴보았듯이, LHC 실험에서의 데이터과학자에 해당하는 LHC 물리학자들은 독립적인 과학자로서 많은 노력을 기울여야 하지만, LHC 실험 커뮤니티 내에서 각자가 맡은 역할에도 충실해야 본인의 경력도 키워 나갈 수 있고, LHC 실험도 문제없이 진행될 수 있다. 다른 과학 분야에 비해 LHC 실험과 같은 거대 과학의 경우 그 실험의 복잡성 때문에 유난히 팀워크와 커뮤니케이션 역량이 강조되는 경우가 많다. 
 
그림 1. 데이터과학자로서 LHC 물리학자들은 과학적 문제 해결 방식과 문제 해결을 위한 다양한 공학적 방법론과 소프트웨어 기술들을 전문적으로 훈련 받고 역량을 쌓아온 사람들이다.
(그림 출처:
(위 왼쪽) https://www.royalholloway.ac.uk/physics/research/postgraduateopportunities/particlephysics/index.aspx
(위 오른쪽) https://www.ua.edu/news/2013/09/particle-physics-post-higgs/
(아래 왼쪽) http://www.damtp.cam.ac.uk/research/hep/about/
(아래중간) https://public.web.cern.ch/public/features-archive/1204-1206.html
(아래 오른쪽) http://cms.web.cern.ch/news/cms-releases-first-batch-high-level-lhc-open-data )


지금까지 살펴본 LHC 물리학자들의 특성과 자질들, 그리고 그들만의 동기 부여 방식과 독창적이고 고유한 연구 성과만을 인정하는 입자물리학계의 전통과 분위기로 인해 LHC 물리학자들은 데이터과학자로서 갖추어야 할 역량과 성품, 자질을 자연스럽게 갖추게 된다. 이렇게 자연스럽게 데이터과학자로서 갖추어야 할 역량과 성품, 자질을 갖추게 되는 LHC 물리학자들이 최근 IT 업계의 데이터과학자나 소프트웨어 엔지니어로 진출하는 경우도 많아졌다. 필자도 LHC 물리학을 연구하다가 데이터과학자 및 소프트웨어 엔지니어로 경력을 전환한 경우이고, LHC 실험에서 같이 일하던 필자의 동료들도 유럽과 북미의 주요 IT기업과 빅데이터 관련 기업으로 이직하는 경우를 자주 보았다.
 

---------------------------------------------------------------
김진철 칼럼 인기기사
-> 김진철의 How-to-Big Data | 연재를 시작하며
-> 김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)
---------------------------------------------------------------

데이터과학자로서 LHC 물리학자들은 데이터과학자들이 어떤 역량을 쌓고 어떻게 일해야 하는지에 대해 좋은 역할 모델이 되고 있다. 데이터과학자로서 경력을 설계하고 싶은 IT전문가들은 LHC 물리학자들과 같은 거대 과학을 연구하는 실험 과학자들이 어떤 역량을 쌓고 훈련을 받는지 살펴보면 자신의 경력을 어떻게 키워갈 수 있을지 아이디어를 얻을 수 있을 것이다. 

 


데이터과학자들을 어떻게 조직에 기여하게 할 것인가? – 데이터과학팀의 운영 원리
빅데이터 비즈니스 조직에서 가장 중요한 요소는 아마도 사람일 것이다. 빅데이터를 잘 이해하고 조직의 비즈니스 목적에 맞게 잘 활용하여 그 가치를 이끌어낼 수 있는 데이터과학자, 데이터 엔지니어, 빅데이터 비즈니스 설계자, 빅데이터를 이용해 데이터 기반 플랫폼 비즈니스 시스템을 자동화하고 개발하는 소프트웨어 엔지니어들이 제 역할을 하지 못한다면 빅데이터 비즈니스가 제대로 굴러가지 못할 것이다.

사실은 필자는 이번 데이터과학자에 대한 글을 준비하면서 데이터과학자의 특성에 대해 간단하고 짧은 글로 정리하려고 하였다. 그렇지만 필자가 지금까지 겪었던 데이터과학 조직에 관한 경험과 문제점들을 글을 쓰면서 다시 생각하고 정리하다 보니, 이번 한번으로는 글이 마무리되지 않을 것 같아 몇 번의 글로 나누어서 좀더 깊이 있게 다루기로 하였다. 

위와 같은 이유와 함께, 최근 필자에게 빅데이터 비즈니스 및 조직에 대해 직, 간접적으로 조언을 요청하셨던 많은 분들께서 빅데이터 조직 운영과 인력 관리에 대해 많은 고충 사항을 토로해 오셔서, 이분들의 고충사항에 대한 해결책도 같이 간단하게 담아 정리하면 독자분들께도 더 도움이 되리라 생각했다. 그래서, 계획에 없었지만 빅데이터 조직 및 인력의 운영에 관한 글을 몇 편 더 연재하려고 한다. 부디 빅데이터 비즈니스를 준비하고 고민하시는 많은 비즈니스 리더분들께 도움이 되기를 바란다.

먼저 빅데이터 비즈니스 조직의 운영 원리의 핵심을 얘기하지 않을 수 없다. 빅데이터 비즈니스 조직 운영 원리의 핵심은

1.    경영진의 직관보다 데이터를 기반으로 한 과학적(귀납적, 연역적), 합리적 의사결정으로의 전환
2.    명령과 체계에 따른 탑다운식 조직 운영보다 정보의 흐름에 따른 수평적이고 역동적인 조직 운영
3.    과학적 비즈니스 의사결정과 실행 과정의 자동화, 효율화를 위한 IT 기술의 적극적 활용

이라고 할 수 있다. 이런 빅데이터 비즈니스 조직 운영 원리를 실제 조직 운영으로 구현하기 위해 필요한 것이 바로 과학적 문제 해결 능력과 IT 기술 역량을 같이 갖춘 데이터과학자와 빅데이터 소프트웨어 엔지니어들인 것이다.

위와 같은 빅데이터 비즈니스 조직 운영 원리를 조직에 체화하기 위해 필요한 데이터과학자가 갖추어야 할 역량과 성품은 앞서 살펴본 LHC 물리학자들의 역량, 특성과 크게 다르지 않다. 우선 앞에서 살펴본 호기심과 탐구심, 새로운 지식에 대한 열정, 문제 해결을 위해 갖춘 전문 공학 지식과 기술, 과학적, 합리적 문제 해결 역량을 어느 정도 수준 이상으로 갖춘 데이터 과학자들이 조직에 새로이 영입되었을 때 어떻게 역량을 발휘하도록 하는 것이 바람직한지 같이 생각해보자.

첫번째로, 문제 지향적, 목적 지향적으로 일하는 데이터과학자의 특성을 지원할 수 있도록 조직 설계, 운영을 해야 한다는 것이다.

데이터과학자는 데이터 기반의 과학적 문제 해결 능력을 기업의 비즈니스 문제에 적용하는 전문가이다. 데이터과학자들은 결국 과학자들이 문제 해결을 하는 방식으로 비즈니스 문제에 접근하고 해결해 나가야 한다. 비즈니스 문제 해결에 이들 데이터과학자들의 창의성과 문제 해결 역량을 최대한으로 끌어낼 수 있도록 조직이 설계되고 운영되어야 하는데, 이를 위해 앞에서 살펴본 데이터과학자들의 특성을 고려하여 조직이 설계되고 운영되어야 한다.

먼저 앞서 살펴보았듯이 데이터과학자로 일할 수 있는 인재들은 기본적으로 호기심과 탐구에 대한 열정이 강한 편이다. 그리고, 문제 해결에 대한 강한 욕구가 있고, 자신의 과학적 문제 해결 역량과 IT 기술의 전문성을 활용해 기업과 조직의 문제 해결을 해냈을 때 자신이 조직에 기여했다고 느끼고 자부심을 갖는 사람들이다. 

문제 해결 지향적이고 목적 지향적으로 움직이는 데이터과학자들은 자신이 이미 익숙하고 전문적으로 잘 사용하는 기술만으로 문제가 해결되지 않을 경우, 자신이 맞닥뜨린 문제 해결을 위해 새로운 기술이 필요한 경우, 기존의 기술에 안주하지 않고 새로운 기술을 배워 활용하는 데에 주저함이 없다. 앞에서 살펴본 LHC 물리학자들이 자신이 대학원에서 전공할 때 배웠던 도구만 사용해서 문제를 해결하길 고집했더라면 LHC 가속기 건설 20년 동안에 엄청나게 빠르게 발전했던 다양한 IT 및 첨단 기술을 활용해서 LHC 실험의 요구 사항에 맞는 가속기와 검출기를 건설하고 만들어내지 못했을 것이다. 

이들 데이터과학자들이 최근 데이터과학을 위해 많이 언급되는 Python, R, Hadoop, Spark, TensorFlow 등의 도구를 배운다면 많은 사람이 쓰고 언론에서 언급하니까 배운다기보다는 자신의 문제 해결에 적합하고 도움이 되며, 많은 사람이 쓴다면 그만큼 배울 때 도움을 줄 사람이 많고, 좋은 도구이기 때문에 많은 사람이 쓸 것이라는 생각으로 배우길 시도하는 것이지, 유망한 기술이라고 해서 무작정 배우지는 않는 것이다. 다시 얘기하면 데이터과학자들이 데이터과학을 위한 새로운 기술을 활용하는 것은 자신의 문제 해결을 위해 도움이 되기 때문이지, 특정한 기술이 모든 문제를 해결해줄 것이라는 생각으로 트렌드에서 뜨는 기술이기 때문에 맹목적으로 기술을 활용하지는 않는다는 얘기다.

기업이 데이터과학을 위한 빅데이터 기술을 도입할 때에도, 데이터과학팀의 필요와 요구사항에 맞추어 도입하는 것이 좋다. 이따금 벤더와 IT컨설팅 회사의 권고에 따라 컨설팅을 받은 대로 빅데이터 시스템을 구축하고 데이터과학자가 이후에 영입되어서 이미 구축된 시스템으로 데이터 분석을 하라는 식으로 진행되는 경우를 가끔 보았는데, 이런 경우는 데이터과학자의 역량이 제대로 발휘되기 어려울 수 있다. 기업이 당면한 문제를 제대로 분석해서 데이터과학의 필요성과 데이터과학으로 어떻게 비즈니스 설계와 문제를 해결할지 데이터과학자들의 분석이 끝난 후에, 데이터과학자들의 자체적인 판단과 필요에 의해 데이터과학을 위한 빅데이터 시스템과 기술을 도입할 수 있도록 기업과 조직이 배려할 필요가 있다. 

이들 데이터과학자들이 팀을 이루어 일하는 경우도 철저하게 문제 지향적, 목적 지향적인 경우가 많다. 적절하게 훈련을 받은 데이터과학자들은 혼자만의 힘으로 당면한 문제를 풀 수 없는 경우, 여러 동료 데이터과학자들과 힘을 합쳐 같이 문제에 대해서 의논하고 협력해서 문제를 풀어내려고 할 것이다. 이렇게 문제 지향적, 목적 지향적으로 자발적으로 동기부여되어 일하는 데이터과학자들이 모이게 되면 자신들이 해결하고자 하는 문제를 해결하기 위해 자기조직적으로 팀이 구성되거나 협력이 일어나게 마련인데, 빅데이터를 활용하는 기업은 데이터과학자들의 이런 특성을 이해하고 뒷받침해줄 수 있도록 조직을 설계하고 운영해야 한다.

데이터과학자를 위한 전문적인 팀이나 조직이 없는 기업이 빅데이터 비즈니스를 시작하기 위해 데이터과학자나 데이터과학자로서 활용하기 위해 전문가를 영입했을 때 의사결정 과정에 데이터와 수집된 정보를 근거로 해서 점검하고 분석하는 과정에서 아마도 부서의 리더들이나 의사결정자들이 당혹스럽게 느끼는 경우가 많을 것이다. 이런 경우는 필자도 많이 경험했고, 많이 봐오기도 했다. 이런 일이 일어나는 이유는, 데이터과학자가 자신의 역할을 다하기 위해 수집된 데이터를 기반으로 의사 결정 과정을 점검, 분석하고 새로운 대안을 제시하는 과정이 기존 기업 문화에 익숙하고 그런 기업 문화 안에서 성장, 승진해서 올라온 기업의 리더나 의사결정자들이 보기에 자신의 권위에 도전하거나 꼬치꼬치 따지는 것으로 비칠 수 있기 때문이다.

아무래도 데이터과학자들은 기본적인 배경이 과학, 공학이다 보니 대인 관계를 다루는 기술 측면에서 보통 사람들과는 다소 다를 수 있다. 그렇지만, 필자와 같이 거대 과학, 엔지니어링 프로젝트를 통해 역량이 길러진 데이터과학자들은 기본적인 성품과 대인 관계, 커뮤니케이션 기술을 갖추고 있는 경우가 많다. 거대 과학 프로젝트나 엔지니어링 프로젝트도 일반 기업 못지않게 동료와의 원만한 관계와 커뮤니케이션 기술을 중요하게 생각하고 실제로도 이런 대인 관계 역량과 커뮤니케이션 역량이 프로젝트 성공에 많은 영향을 미치기 때문에, 이런 환경에서 훈련을 받은 데이터과학자들은 당연히 자연스럽게 대인관계 기술과 커뮤니케이션 기술을 갖출 수밖에 없다.

우리나라 주요 기업들이 빅데이터 기반 의사 결정 프로세스를 도입하거나, 빅데이터 기반의 신사업을 추진하기 위해 데이터과학자들을 영입하는 경우 생기는 많은 문제는 일단 기존의 조직 문화가 데이터 기반 문제 해결을 지원하기에 맞지 않는 부분이 많기 때문이다. 기존 조직 문화가 잘못되었다는 것이 아니다. 현재 각 기업이 가진 조직 문화는 현재의 성공적인 비즈니스를 일구어내는데 효과적으로 동작했기 때문에 형성이 된 것일 것이다. 다만, 빅데이터 기반 의사결정과 신사업을 추진하기 위해 맞지 않는 부분이 있다는 것이고, 빅데이터 기반 의사결정과 신사업을 정말로 심각하게 여기고 추진할 생각이라면 조직 문화를 빅데이터 비즈니스에 맞게 개선하는 과정이 필요하다는 것이다.

두번째로, 데이터과학자들의 자기조직적인 팀구성과 문제해결 노력이 기존 구성원들과의 마찰이나 충돌로 이어지지 않도록 경영진과 조직 차원에서의 중재와 지원이 필요하다.

필자가 직접 경험한 것이나, 주변의 조직에서 일어나는 일을 가만히 관찰하고 간접적으로 경험한 바로는 빅데이터가 주목을 받으면서 많은 기업과 조직에서 데이터과학자들을 채용하고 빅데이터 기반 의사 결정을 도입하려고 시도하는 과정에서 일어나는 문제들중 상당수가 불필요한 오해와 알력으로부터 생기는 것을 알 수 있었다.

우선 경영진의 주도로 데이터과학자들이 영입되고 데이터과학팀이 결성되기 시작하게 되면 임원의 관심으로 생겨난 조직과 그의 지원을 받는 조직에 대해 전사의 관심이 집중되게 된다. 이런 조직에 영입된 구성원들에 대해 또한 전사의 관심이 집중된다. 이런 전사의 집중된 관심은 긍정적인 것도 있지만 부정적인 것도 있다. 

이렇게 데이터과학자들과 데이터과학팀이 결성되고, 이들은 데이터과학의 목적에 충실하게 자기조직적으로, 문제 지향적으로 업무를 수행하게 되는데, 이런 이들의 업무 태도가 기존의 조직 구성원들에게는 상당히 공격적으로 비칠 수 있는 것 같다. 특히, 데이터과학팀 결성 초반에는 전사의 비즈니스에 도움이 되는 통찰과 지식을 생산해내기 위해 필요한 데이터와 정보를 되도록 많이 수집할 수 있도록 체계를 정비하고 만들기 마련인데, 이 과정에서 기존 조직 구성원들의 많은 저항을 받을 수 있다. 이런 저항이 데이터과학팀의 단기적인 성과와 효용을 떨어뜨릴 수 있고, 업무에 많은 방해가 될 수 있다.

이런 저항은 데이터과학자들의 자기조직적인 업무 수행을 경영진의 불필요한 간섭이나 세력 과시로 보고 저항하는 구성원 때문일 수도 있고, 문제 해결, 목적 지향적으로 일하면서 조직과 업무 경계를 넘나드는 데이터 수집을 하려는 데이터과학자들의 적극적인 업무 수행 태도를 자신의 회사 내의 입지와 역할, 영향력에 위협으로 받아들이는 구성원들과 조직의 저항 때문일 수도 있다.

기존의 구성원들과 조직 내부에서 느끼는 이런 위협의 상당 부분은 불필요한 오해인 경우가 많으며, 오히려 데이터과학자들의 문제 해결, 목적 지향적인 데이터 수집과 분석 활동이 조직의 정보 흐름과 의사소통을 좀더 투명하고 체계적으로 만들 수 있고, 기존 구성원들의 업무에 도움이 될 수 있음을 경영진과 데이터과학팀을 비롯한 데이터과학 지원 조직이 지속해서 설득하고 소통할 필요가 있다.

데이터과학 자체는 과학이 그렇듯이 가치중립적인 활동일 수 있지만, 조직의 맥락에서 데이터과학자들의 활동은 조직 내부에서 정치적으로 해석되어 불필요한 오해와 알력을 낳을 수 있음을 데이터과학자들과 데이터과학팀을 주도하는 리더, 그리고 데이터과학팀을 후원하는 경영진이 이해할 필요가 있다. 기존 조직의 협조를 얻고 오해를 만들지 않기 위해 데이터과학팀 활동 초반에는 조직 내 다른 부서와의 소통과 커뮤니케이션을 투명하고 원만하게 하는 데에 많은 노력을 기울일 필요가 있다. 이렇게 기존 조직과 쌓인 신뢰와 원만한 관계는 일반 기업에서 데이터과학을 통한 데이터 기반 의사 결정이 뿌리내리기 위해 필요한 중요한 첫 단계이므로 특별히 많은 노력을 기울이는 것이 중요하다.

데이터과학팀 구성원들이 조직 내에서 자신의 효용과 역량을 입증해 보이기 위해 다소 조급한 마음에 서둘러서 데이터 수집 및 분석 업무 체계를 구축하려고 하다가 기존 구성원들의 반발을 살 수 있다. 데이터 수집 및 분석 업무 체계를 초반에 잘 구축하는 것만큼이나 데이터과학팀의 활동과 그 결과물이 기존 구성원들의 업무 생산성 향상과 개선에 도움이 됨을 꾸준히 설득하고, 다른 경영진과 구성원들에게 중간중간 성과물을 공개하고 피드백을 받으면서 데이터 수집 및 분석 업무 체계 구축 과정에 기존 구성원들을 참여시키도록 해야 한다. 자동화된 데이터 수집 및 분석 업무 체계만큼이나 기존 구성원들과의 원만한 관계도 데이터과학팀의 중요한 인프라라는 것을 염두에 두고 업무에 임할 필요가 있다.

세번째로, 데이터과학자들이 내적인 동기에 의해 자발적으로 문제 해결에 집중할 수 있는 환경을 만들어줄 필요가 있고, 동료들과의 경쟁을 일으켜 속도를 내는 방식의 경영보다는 동료들과의 자발적인 협력과 시너지를 통해 나오는 성과들이 경영 의사 결정에 활용되어 비즈니스가 가속될 수 있도록 협력과 공유의 패러다임에 기반한 데이터과학팀 조직 운영이 되어야 한다는 것이다.

신생 기업이 아닌 기존 사업 영역이 있는 기업이나 조직이 데이터과학팀을 새로이 구성할 때 초반에 정말 조심해야 할 것 중 하나가 팀의 분위기를 조성하는 문제이다. 특히, 경영진 중 일부의 리더들이 조직 내에서 자신의 역량과 영향력을 확대하려는 시도로 빅데이터 기반 사업과 데이터 기반 의사 결정을 앞세워 의욕을 가지고 추진하는 경우 조급한 마음에 빠른 시간에 성과를 내려다 데이터과학 조직이 제 기능을 하지 못하고 해체되는 불운을 맞지 않도록 조심해야 할 필요가 있다.

소프트웨어 개발팀과 마찬가지로 데이터과학팀 또한 대표적인 지식 노동 전문 조직이다. 단순 지식 노동 수준이 아니라 전문적인 역할과 성과를 기대받는 특수 조직으로 볼 수 있다. 데이터과학팀에서 일하는 데이터과학자들의 동기 부여는 단순한 금전적인 보상이나 승진만으로는 어렵다는 사실을 염두에 둘 필요가 있다. 앞서 살펴본 LHC 실험 물리학자들도 자신의 경력을 위한 좋은 직장과 연구비, 연봉 등의 현실적인 이유로 인해서 연구에 몰두하기도 하지만 이런 것들이 그들의 역량을 온전하게 발휘하게 하지는 않는다는 것을 강조한 바 있다.

데이터과학에 적합한 인재들의 가장 큰 동기 부여는 자신이 조직과 공동체에 도움이 되는 지식과 통찰을 만들어 내었다는 자부심, 자신의 노력과 그로 인한 결과가 조직과 공동체의 진보에 도움이 되었고, 이런 일을 자신과 자신의 팀이 해내었다는 확신이다. 이런 과정들이 쌓이면서 자신의 경력이 성장하고 발전하고 있으며, 이러한 성장과 발전으로 좀더 도전적이고 큰 문제를 만나 해결할 기회를 얻을 수 있고, 이런 성장 과정의 결과로서 금전적인 보상과 승진이 따를 것이라는 기대와 믿음에서 자신의 역량을 최대로 발휘하게 되는 것이다.

데이터과학팀 구성원들 간의 경쟁을 지나치게 조장하게 되면 팀 전체의 통합과 협력이 깨지게 되어 데이터과학팀 차원의 자기조직적이고 유연한 문제 해결 역량이 크게 손상 받게 된다. 데이터과학에서 다루게 될 비즈니스 문제들은 데이터과학자 혼자서는 해결할 수 있는 문제가 거의 없음을 생각해야 하며, 데이터과학팀의 구성원들이 자기조직적인 협력을 원활하게 수행하도록 하기 위해서는 개개인의 도토리 키재기식 역량 비교와 경쟁보다는 서로의 부족한 부분을 보완하고 이를 통해 더 큰 문제를 해결하고 시너지를 이룰 수 있다는 확신을 심어주는 것이 더 중요하다.

데이터과학팀을 이끌거나 후원하는 리더가 데이터과학자들의 자기조직적인 문제 해결 노력에 큰 걸림돌이 되지는 않는지 항상 반성하고 조심할 필요가 있다. 특히 데이터과학 전문가가 데이터과학팀 리더로서 외부에서 영입이 되지 않고 내부의 리더나 임원이 데이터과학팀의 리더를 맡게 되었을 때는 여러 가지 유의해야 할 사항이 많다. 데이터과학팀을 이끌기 위해 필요한 리더십의 요건과 덕목에 대해서는 이어지는 연재에서 좀더 자세하게 살펴보도록 한다.

위와 같은 특성을 지닌 데이터과학자들, 빅데이터 전문가들을 조직이 새로이 맞았을 때 우선 조직 운영 시 염두에 두어야 할 점들을 원칙 중심으로 간단히 살펴보았다. 사실, 빅데이터 조직을 꾸리고 운영하기 위해 생각해봐야 할 문제는 위와 같은 문제만이 아니다. 이번 글을 쓰면서 생각을 정리하다 보니 필자가 정리하고 전달하고 싶은 내용이 많기도 했고, 최근 지인들의 부탁을 생각해보니 빅데이터 활용의 기술적인 문제들보다 조직과 팀 운영에 대해 고민하시는 리더분들이 많은 것 같아 기고 계획을 다소 수정해서 데이터과학팀과 조직 운영에 대해 필자가 지금까지 고민하고 생각했던 내용을 좀더 깊이 있게 다룰 필요성을 느꼈다. 앞서 잠깐 언급했듯이, 앞으로 세, 네 편의 글에 나누어 다음과 같은 문제를 같이 깊게 생각해보았으면 한다.

1.    좋은 데이터과학자를 어떻게 찾을 수 있을까? 또는 어떻게 해야 좋은 데이터과학자를 채용할 수 있을까?
2.    좋은 데이터과학팀을 만드는 방법 – 데이터과학팀의 문화와 규범
3.    좋은 데이터과학팀을 만드는 방법 – 데이터과학팀에 필요한 리더십
4.    어떻게 하면 좋은 데이터과학자를 양성할 수 있는가?
5.    일반 기업이 데이터 기반 의사 결정 문화를 어떻게 뿌리내리도록 할 수 있을까?
6.    데이터과학자들이 역량을 온전하게 발휘하고 조직에 도움이 되도록 하기 위해서는 어떻게 조직을 설계하고 운영해야 할까?

데이터과학팀과 빅데이터 비즈니스 조직의 설계와 운영에 관한 필자의 확장된 기고가 데이터 기반 의사결정을 조직에 뿌리내리고 이를 통해 조직의 성장에 기여하길 원하는 많은 리더분들의 고민에 도움이 되길 바라면서 2018년 한 해의 기고를 마치려고 한다.

본 “김진철의 How-to-Big Data”를 관심 있게 읽고 많은 격려를 해주신 독자 여러분들께 진심으로 감사의 말씀을 드립니다. 독자 여러분들의 2019년의 풍성한 성과와 조직 내에서의 승승장구를 기원 드리며, 새해 복 많이 받으시길 기원합니다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr