Offcanvas

AI / BI / CIO / How To / HR / SNS / 리더십|조직관리 / 머신러닝|딥러닝 / 비즈니스|경제 / 빅데이터 | 애널리틱스 / 이직|채용

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (6)

2019.03.25 김진철  |  CIO KR


좋은 데이터과학자를 어디에서 찾을 수 있는가? – 데이터 과학자를 찾기 용이한 분야
위에서 필자는 데이터 과학자로서 필요한 소양과 기술을 자연스럽게 쌓게 되는 자연과학과 공학 분야들이 있다고 언급하였다. 이제 이들 자연과학과 공학 분야에서 좋은 데이터 과학자 후보자들을  찾는 방법에 대해서 같이 생각해보자. 데이터 과학자라는 타이틀을 걸고 일하고 있는 경력이 어느 정도 쌓인 데이터 과학자를 영입하는 것이 제일 좋겠지만, 현재 데이터 과학자로 일하는 전문가들이 수요에 비해서 많이 부족하기 때문에 위와 같이 빅데이터 문제를 해결해 일하는 과학 분야에서 경력을 쌓고 일하다가 산업계와 IT 분야로 경력 전환을 시도하는 과학자들을 데이터 과학자로 영입하는 방법에 대해서 같이 생각해보려고 한다. 

데이터 과학자로 경력 전환을 했을 때 성공적인 경력을 쌓을 수 있는 역량을 갖춘 과학자와 공학자들이 IT 분야 외에도 많이 일하고 있다. 최근 데이터 과학자로 전환하는 과학자가 많은 분야로 필자가 일했던 실험 고에너지 물리학, 그리고 천문학 및 천체 물리학을 들 수 있다. 앞에서도 설명했듯이, 이들 실험 고에너지 물리학, 천문학 및 천체 물리학의 경우 30년 전부터 빅데이터 문제를 해결하기 위해 다양한 IT 기술을 개발하고 연구에 적용하고 있던 분야이다. 실제로 미국에서는 최근 고에너지 물리학과 천문학, 천체 물리학 전공자들이 데이터 과학자로 성공적인 경력 전환을 한 사례가 늘어나는 추세다.

이들 고에너지 물리학과 천문학, 천체 물리학 전공자들은 우선 배경이 물리학이다 보니, 물리학에서 쓰이는 다양한 수학에 익숙하며, 실험 설계와 데이터 분석 및 해석에 중요한 역할을 하는 통계학도 상당한 지식을 가지고 있다. 더군다나 물리학이 오늘날 산업 기술의 뿌리가 된 학문이다 보니 산업 분야에서 쓰이는 다양한 산업 수학들이 물리학에서 쓰이는 수학에 근간을 두고 있고, 산업 수학을 컴퓨터로 풀어내기 위한 다양한 수치 계산 방법들도 초기에는 물리학자들이 물리학 연구를 하려다가 고안해낸 것들이 많다.

현대 물리학자들은 연구를 위해 계산을 많이 해야 하다 보니, 기본적으로 컴퓨터 및 IT기술과 친숙할 수밖에 없다. 특히, 현대 물리학은 물리학적 방정식을 수치로 풀어내는 수치 해석과 컴퓨터 시뮬레이션을 이용한 연구 없이는 실험 데이터 해석이 쉽지 않을 정도로 컴퓨터를 많이 사용한다. 손과 물리학자의 두뇌로 물리학적 방정식을 푸는 전통적인 물리학적 문제 해결 방법으로는 도저히 발견해낼 수 없는 결정론적 미분방정식의 ‘혼돈(chaos)’ 현상과 ‘이상 끌개(strange attractor)’와 같이 컴퓨터를 통해서만 발견할 수 있는 현상도 있다.

고에너지 물리학과 천문학, 천체 물리학에서는 연구하려는 대상을 연구하기 위해 필요한 데이터를 고민하고, 이를 수집하기 위한 실험 장치와 과정, 프로세서를 설계하는 것이 언제나 가장 먼저 하는 일이다. 이들은 데이터를 수집하는 과정을 자동화하고 실험을 통해 알고자 하는 것이 무엇인지 문제를 정의해서 실험 장치와 데이터 수집, 처리 과정을 설계하는 것이 익숙하여, 데이터 과학을 위한 데이터 처리 파이프라인을 설계하는 것도 자연스러운 일이다. 

뿐만 아니라 물리학 연구를 위한 수학, 통계학에도 강한 배경지식을 가지고 있으며 연역을 주로 사용하는 수학자들과는 달리 데이터로부터 일반적인 자연의 법칙을 상상하고 추론해내는 귀납적인 연구 방법론과 사고방식도 익숙하다. 물리학자들은 수학으로 표현된 물리학적 법칙이 품고 있는 의미와, 이 물리학 법칙이 새로운 자연 현상에 대해 예측하는 바를 알아내기 위해 물리학적 방정식으로 표현된 모델로부터 연역적으로 사고하여 현상을 예측한다. 연역적 사고를 활용하는 것과 함께 수집된 데이터가 연역적 사고로부터 예측된 현상에 대한 가설을 지지하는지, 아니면 또 다른 흥미로운 현상을 암시하는지 생각하는 귀납적 사고방식도 많이 활용하여 실험 데이터 분석을 한다.

물리학 실험을 위한 실험 장치들은 실험을 수행하는 물리학자가 아니고서는 실험 장치의 각 구성요소가 어떤 역할과 기능을 하는지 이해하기 어렵다. 이런 이유로 자신이 원하는 실험을 하기 위한 실험 장치에 필요한 데이터 수집, 처리, 가공, 분석 소프트웨어는 실험을 수행하는 물리학자 자신 외에 다른 사람이 대신 개발해주기는 쉽지 않은 일이다. 물리학 실험을 위한 실험 장치들 대부분이 기존에 없던 새로운 실험을 위한 장치들로, 일부 일반적으로 많이 쓰이는 범용 장비 외에 실험 장치를 온전한 기능을 위해 통합하기 위해서는 물리학자들 자신이 직접 시스템을 개발하고 운영할 수밖에 없다.

위와 같이 고에너지 물리학, 천문학, 천체 물리학적 실험과 관찰을 위해서 만드는 실험 장치와 데이터 수집, 처리, 가공, 분석 소프트웨어와 컴퓨터 시스템을 만드는 과정은 데이터 과학자들이 데이터 과학 시스템을 만드는 과정과 많이 닮았다. 이런 이유로, 이들 고에너지 물리학자와 천문학자, 천체물리학자들은 데이터 과학자라는 타이틀을 가지고 직접 기업 경영 현장에서 일하는 데이터 과학자가 아니라고 하더라도, 기업의 비즈니스 모델과 업을 어느 정도 이해하게 되면 데이터 과학자로서 일할 수 있는 역량을 충분히 갖추고 있는 것이다.

오늘날 첨단 비즈니스들은 사실 과학, 기술의 전문적인 지식과 경험이 있어야 그 업과 비즈니스 모델을 이해할 수 있는 것들이 많다. 그런 의미에서 다양한 학문과 공학적인 배경지식이 있어야 실험 장치를 만들 수 있고 실험을 수행할 수 있는 고에너지 물리학, 천문학, 천체 물리학과 같은 거대 과학 연구를 전문적으로 수행하는 과학자들이 첨단 비즈니스의 작동 원리와 업을 이해하고 데이터를 다루어 기업의 비즈니스에 도움이 되는 일을 하는 것이 그렇게 어려운 일은 아니다. 

좋은 데이터 과학자를 찾을 수 있는 또 다른 분야로 엔지니어링 과학과 항공우주과학 분야를 들 수 있다. 원자력, 수력 발전, 스마트 팩토리와 관련되는 공장 자동화와 대규모 플랜트 엔지니어링, 핵융합과 같은 대규모 실험 장치를 이용한 엔지니어링 과학, 항공우주과학과 같은 분야는 건설과 개발의 대상이 되는 플랜트나 거대 실험 장치, 그리고 항공기나 우주발사체 등의 기체들을 만드는 것 자체가 큰 위험을 수반하는 일이다. 이 때문에 전통적으로 많은 종류의 다양한 수치 모델을 통해 다양한 수치 해석과 예측 분석을 수행하고, 플랜트나 실험 장치, 항공기와 발사체 등의 상태를 점검하기 위한 다양한 센서와 데이터 수집 장치를 이용해서 데이터를 분석하는 데 익숙하다.

무엇보다도 엔지니어링 과학과 항공우주과학 분야에서 일하는 과학자와 공학자들이 데이터 과학자로서 적합한 이유는 이들 분야가 혼자의 힘으로는 절대로 목표를 달성할 수 없는, 절대적으로 협업이 요구되는 분야이기 때문이다. 엔지니어링 과학과 항공우주과학 분야는 모두 대규모의 예산과 자원, 인력이 동원되고 꽤 긴 시간을 통해 계획을 세우고 설계하여 건설, 개발해야 하는 분야이기 때문에 철저한 위험 관리에 큰 노력을 기울이는 분야이기도 하다. 이렇게 대규모의 협업이 요구되는 분야에서 자신의 역할을 다하고, 복잡한 시스템의 전체를 이해하면서 세부 요소에서 일어나는 문제를 해결하는 훈련을 받은 과학자와 공학자들은 데이터 과학자로서 품성과 기술을 역시 충분하게 갖추고 있다고 볼 수 있다.

엔지니어링 과학과 항공우주과학 분야의 과학자들과 공학자들이 데이터 과학자로서 적합한 또 하나의 이유는 시뮬레이션과 모델링에 강하다는 것이다. 전통적으로 대규모 엔지니어링 과학과 항공우주과학 분야에서 만드는 플랜트, 거대 실험 장치, 그리고 항공기와 우주발사체는 쉽게 만들 수 없고 실패할 경우 막대한 예산과 자원의 손실이 일어나기 때문에 이들을 만들기 전에 일어날 수 있는 문제점과 위험을 사전에 예측하고 해결 방안을 찾기 위한 시뮬레이션과 모델링, 예측 분석에 매우 익숙한 분야이다.

데이터 과학자들이 기업 경영에 줄 수 있는 가치는 기업 경영의 위험 관리를 경영자의 직관과 과거 데이터의 단순한 외삽을 통해 하는 방식에서 벗어나게 하는 것이다. 이들 데이터 과학자들은 비즈니스 위험 관리의 대상이 되는 시장의 현상, 비즈니스 모델의 이슈들을 체계적으로 시뮬레이션할 수 있는 모델을 만들고, 이를 기반으로 다양한 시나리오에 대한 예측 분석을 통해 보다 정교하고 체계적인 방법으로 기업 경영의 위험을 관리하게끔 기업 경영의 패러다임을 바꿀 수 있다. 시뮬레이션과 모델링, 예측 분석을 통한 문제 해결에 익숙한 엔지니어링 과학과 항공우주과학 분야의 과학자와 공학자들이 바로 이런 측면에서 데이터 과학자로서 적합하다.

엔지니어링 과학과 항공우주과학 분야의 과학자들과 공학자들이 데이터 과학자로서 적합한 또 다른 이유 중 하나는, 이들 분야에서 개발, 운영하는 플랜트, 거대 실험 장치, 그리고 항공기와 우주발사체 등이 바로 대표적인 빅데이터 원(source)이라는 점이다. IT업계 종사자들이 IT 기술의 관점에서만 빅데이터를 접했기 때문에 잘 모르는 경향이 있는데, 사실 빅데이터라는 말이 IT 미디어상에 등장하기 꽤 오래전부터 이들 분야에서는 빅데이터를 다루어 왔다. 특히, 플랜트와 거대 실험 장치, 항공기와 우주발사체 등의 상태를 점검하고 문제점을 파악하기 위해 많은 수의 센서와 데이터 수집 장치를 장치 곳곳에 설치하여 다양한 종류의 데이터를 수집하고 분석에 활용한다. 

마지막으로 데이터 과학자로서 적합한 배경지식과 경험을 가지고 있으면서 경력 전환이 상대적으로 용이한 전문가들로 과학 기술 계산(scientific computing) 소프트웨어를 연구하거나 개발하는 소프트웨어 엔지니어들을 들 수 있다. 특히 eScience라 불리는 분야를 연구개발 했거나 관련된 소프트웨어를 개발한 경력을 가진 이공학 전공자들은 데이터 과학자로서 소양을 어느 정도 갖추고 있다고 볼 수 있다.

과학 기술 계산 소프트웨어의 대표적인 소프트웨어가 바로 데이터 분석에 많이 쓰이는 MATLAB과 같은 소프트웨어이다. 우리나라에 많이 알려진 과학 기술 계산(scientific computing) 소프트웨어로는 MATLAB, Mathematica, IDL, Origin 등과, 기업에서 통계 분석에 많이 활용하는 SAS, IBM SPSS/코그너스 등의 분석 환경들이 있다.

과학 기술 계산 분야는 원래 수퍼컴퓨터와 같은 고성능 컴퓨팅에서 과학기술 및 엔지니어링 계산을 빠르고 쉽게 할 수 있는 기술을 연구하고, 과학기술 및 엔지니어링을 위한 수치계산, 데이터 가시화, 워크플로우 및 미들웨어, 사용자 인터페이스 등을 연구하는 분야이다. 과학 기술 계산 소프트웨어를 개발하는 소프트웨어 엔지니어들의 일부는 과학 기술 계산 및 데이터 분석 소프트웨어와 수치 계산용 소프트웨어를 활용해 연구개발을 하던 과학자와 엔지니어들이다.

과학 기술 계산 소프트웨어를 개발하는 소프트웨어 엔지니어들은 기본적으로 과학 기술 계산을 활용하는 자연과학 및 공학, 엔지니어링 분야의 데이터 수집, 가공, 처리, 분석 과정과 요구사항에 대해서 잘 이해하고 있는 사람들이다. 컴퓨터 과학이나 공학을 전공한 소프트웨어 엔지니어가 아닌 과학자나 엔지니어 출신의 소프트웨어 엔지니어들은 이들 데이터 분석 소프트웨어를 활용하는 수치 계산과 데이터 분석에도 익숙한 경우가 많아 데이터 분석도 어려움 없이 소화할 수 있는 경우가 많다.

특히 2007년도부터 많은 관심을 받기 시작한 eScience 분야를 연구했던 경력이 있는 소프트웨어 엔지니어나 과학자, 공학자들은 데이터 과학이라는 말이 나타날 즈음부터 이미 데이터 과학을 잘하기 위한 각종 기술과 소프트웨어를 개발하려 노력했던 사람들이다. 특히 eScience 발전 초반에 연구자들이 해결하려던 문제는 빅데이터를 활용하는 데이터 집중 과학 분야에 필요한 데이터 수집, 가공, 처리, 관리, 분석을 위한 분산 컴퓨팅 시스템과 소프트웨어를 개발하는 문제였다.

결국 eScience를 연구한 연구자들과 소프트웨어 엔지니어들은 오늘날 우리가 데이터 과학, 빅데이터 시스템이라고 부르는 기술들을 연구했다. 이 분야에서 일했던 연구자와 소프트웨어 엔지니어들이 오늘날 데이터 과학 및 빅데이터 분야에서 쉽게 적응하고 성과를 낼 수 있는 이유이다.

과학 기술 계산 분야의 소프트웨어 엔지니어, 과학자 및 공학자, 특히 eScience 전문가들이 앞에서 소개한 고에너지 물리학, 천문학, 천체물리학, 엔지니어링 과학, 항공우주과학 분야 전문가들과 다른 차별점은 바로 소프트웨어 개발과 엔지니어링에 더 전문성을 가진 사람들이라는 것이다. 데이터 과학을 위한 데이터 처리와 분석의 전 생애주기(lifecycle)와 프로세스를 이해하고 있으면서도, 이런 데이터 과학을 효과적으로 수행하기 위해 필요한 IT 시스템과 소프트웨어를 전문적으로 개발할 수 있는 소프트웨어 개발과 엔지니어링 역량이 좀더 체계적으로 갖추어져 있는 전문가들이다. 이런 이유로 데이터 분석과 해석에서도 역량을 발휘할 수 있지만, 데이터 과학을 위한 IT 시스템을 개발하는 업무에서 더 효과적으로 역량을 발휘할 수 있다.

지금까지 이력서상에서 데이터 과학자라는 말을 직접적으로 쓰고 있지 않더라도 데이터 과학자로서 역할을 훌륭하게 해낼 수 있는 분야의 전문가들이 어떤 사람들이 있는지 같이 간단하게 살펴보았다. 이들은 데이터 과학자로서 소양을 어느 정도 갖추고 있기 때문에, 데이터 과학이 적용되는 비즈니스의 업의 특성과 배경지식만 어느 정도 소화할 수 있다면 데이터 과학자로서 활동할 수 있는 사람들이다. 만약 이들이 데이터 과학자로 경력을 전환하고 싶은 충분한 동기부여만 되어 있다면 기업에서 데이터 과학자로서 채용을 고려해볼 수 있다.

데이터 과학자로서 위의 분야에서 일하는 과학자, 공학자들보다 최근 인공지능 기술 연구자나 데이터 마이닝 전문가, 또는 컴퓨터 과학, 공학자들을 영입하려는 회사가 꽤 많고, 주요 대학에서 개설되는 빅데이터 과정도 컴퓨터 과학 및 공학 과정의 연장으로 개설되는 경우가 많은데 필자 개인적으로는 이런 방법이 실제 기업의 입장에서는 크게 효과를 보기 어려울 것으로 생각한다.

컴퓨터 과학과 머신러닝, 딥러닝 등의 인공지능 기술 전문가, 데이터 마이닝 전문가들은 빅데이터 처리와 분석에 사용되는 알고리즘과 주요 분석 도구에 대해서는 전문적으로 잘 알고 연구하지만 대개 이들 알고리즘과 분석 도구가 현실적으로 어떤 문제에서 잘 쓰일 수 있는지, 그리고 이렇게 응용된 알고리즘과 분석 도구를 통해 얻은 결과가 어떤 의미와 맥락을 가지는지에 대해 깊게 생각하거나 연구하지는 않기 때문이다.

데이터 과학자로서 소양을 갖추게 되는 것은 위의 인공지능과 머신러닝 기술, 데이터 마이닝 기술을 통해 얻은 데이터의 구조와 의미를 적용되는 분야의 맥락에 맞게 해석하고 적용하는 과정에서 생기기 때문이다. 데이터 과학에 쓰일 수 있는 데이터 분석 알고리즘, 인공지능 기술, 데이터 마이닝 기술에 대한 전문적인 이해와 지식은 분명히 데이터 과학 업무에 도움이 되는 것은 사실이지만 그것이 전부는 아니라는 것을 염두에 둘 필요가 있다. 위에서 필자가 언급한 자연과학과 엔지니어링 과학, 공학 분야의 과학자, 공학자들을 잠재적 데이터 과학자로서 검토하는 것이 데이터 과학자의 수가 절대적으로 부족한 우리나라 현실에서는 매우 중요하다.

전문가용 소셜 네트워크 서비스인 링크드인의 2019년 전망에 따르면 과학기술 분야 최고의 인재들이 많이 배출되는 미국의 경우에도 데이터 과학자의 수요가 가장 많을 것으로 보인다. 연간 4,000개 이상의 데이터 과학자 자리가 기업에서 새로이 요구되어 56% 이상 증가할 것으로 전망되었다[2]. 구직 사이트 ‘인디드(Indeed)’의 경우에도 2018년 작년 한 해 동안 데이터 과학자의 수요가 29% 증가한 것으로 집계되었다[2]. 지난 2017년 미국의 버닝글래스 테크놀로지, IBM, 비즈니스 고등 교육 포럼(Business Higher-Education Forum; BHEF)이 공개한 보고서에서 예측된 것과 같은 2020년까지 데이터 과학자의 수요가 29%이상 치솟을 것이라는 예측에 거의 부합하는 데이터이다[9].

영국의 경우에도 2019년에 데이터 과학자를 포함한 데이터 분석 및 관련 인력을 채용하겠다는 회사가 전체 회사의 80%에 달하고 있다[10]. 자사의 인력들이 데이터 및 디지털 마인드가 약해 역량을 보완해야 한다고 생각하는 경영진이 많은 것으로 조사되었다[10]. 

미국과 영국의 경우도 이런데, 우리나라의 경우는 데이터 과학자의 수요가 공급보다 턱없이 많을 것으로 보인다. 그나마 많은 좋은 인재들이 성공적인 경력을 쌓기 위해 미국 등의 선진국으로 떠나는 상황에서 데이터 과학자라는 말을 직접 사용하는 전문가를 찾는 것은 훨씬 더 어려울 수밖에 없다.

이렇게 데이터 과학자의 공급은 모자란 반면, 위에서 언급한 고에너지 물리학, 천문학, 천체물리학, 엔지니어링 과학과 항공우주과학 등 분야의 과학자, 공학자들은 해마다 꾸준히 배출되고 있다. 이들이 우리나라에서 전공을 살려 일할 수 있는 정부출연연구소나 기업의 숫자는 제한된 경우가 많다. 데이터 과학자로서 성장시켜 훌륭하게 일할 수 있는 이들 잠재적 데이터 과학자들이 자신들의 역량을 발휘할 기회를 주지 않는다면 우리나라로서는 큰 손해가 될 것이다.

특히 최근 미국의 경우에도, 고에너지 물리학이나 천문학, 천체 물리학, 우주 과학을 전공한 과학자들이 자신의 전공에 맞는 직장을 찾지 못하거나 전공과는 다른 일을 통해 경력 전환을 시도하면서 데이터 과학 분야에도 많이 진출하고 있다[3-8]. 2010년대 중반부터 미국 여러 대학에서 데이터 과학, 빅데이터에 관련된 과목을 가르치고 데이터 과학자를 양성하기 위한 정규 교육 과정이 대학원을 중심으로 많이 생기기도 했지만, 이들 기초 과학에 대한 일자리나 연구자의 수요가 예전보다는 많이 줄었기 때문에 모든 고에너지 물리학, 천문학, 천체 물리학 전공자들이 자신의 전공과 관련된 일자리를 찾는 것이 힘들어져 경력 전환을 많이 시도하기 때문이다.

우리나라는 미국의 상황보다 더 좋지 않은 상황이다. 대학에서 기초 과학과 관련된 학과와 교육 과정은 거의 고정적으로 개설되어 있어서 매년 꾸준히 인력이 배출되고 있지만, 이들이 일할 수 있는 정부출연연구소나 관련 기업의 일자리는 미국과 유럽 선진국보다 턱없이 모자라기 때문이다. 그렇지 않아도 이들 이공학 전공자들이 더 나은 연구 환경과 일자리를 찾기 위해 미국과 유럽 선진국의 연구소와 기업으로 나가는 상황이며, 이런 상황이 계속되다 보니 잠재적인 데이터 과학자 후보들도 외국으로 빠져나가 우리나라에서 적절한 역량을 갖춘 데이터 과학자를 찾기가 더욱 어려워지고 있다.

데이터 과학자를 너무 멀리서 찾지 말고, 데이터 과학자로서 기본 소양을 어느 정도 갖추고 있는 이공학 전문가들을 찾아서 이들의 경력 전환을 유도해보자. 현재 우리나라의 현실에서 데이터 과학자를 쉽게 찾고 조직과 회사에 기여할 수 있게 하는 더 효과적인 방법이 될 것이라고 필자는 굳게 믿는다. 이들을 어떻게 믿고 데이터 과학자로 채용하느냐고 묻는다면 앞서 잠시 소개해드렸듯이 필자의 사례를 주저없이 소개해드릴 수 있다. 필자가 물리학자로서 데이터 과학자로 활동하고 있는 것은 필자에게도 큰 행운이었다고 자신 있게 말할 수 있다.

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.