김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (5)

CIO KR

데이터 과학자는 사람이 아니라 한 팀인가? – 데이터 과학자 역량 범위의 논란
2016년쯤에 필자가 빅데이터에 관해 읽었던 한 매체의 글에서 데이터 과학자는 한 사람이 아니라 팀을 의미한다는 요지의 주장을 펴는 글을 읽은 적이 있다. 그 글에서 그렇게 주장하는 근거는, 데이터 과학자가 갖추어야 한다고 알려졌던 역량들이 현실적으로 IT시장에서 한 사람이 갖출 수 있는 기술과 역량으로 보기에는 지나치게 스펙트럼이 넓고 많다는 것이었다. 

필자가 그 글을 읽으면서, 새롭게 각광받는 IT업계의 직업군으로 떠오르고 있던 데이터 과학자에 대해, 데이터 과학에 대한 경험이 없는 IT전문가와 많은 전문 영역과 기술로 분화되어 전문성이 파편화되어 있는 IT업계에서 데이터 과학자를 보았을 때, 저렇게 다양한 분야의 기술과 역량을 갖추고 일하는 사람이 과연 있을 수 있는가라는 생각을 했을 수도 있겠다는 생각이 들었다. IT업계는 소프트웨어든 하드웨어든 새로운 기술이 부각되면 이 기술에 대한 전문성으로 컨설팅과 서비스, 제품을 제공하면서 업계에서 자리 잡는 것이 일반화되었기에 다양한 영역의 기술과 역량을 가지고 문제 해결에 집중하는 데이터 과학자의 역할과 역량에 대해서 다소 생소한 느낌이 들었을 수도 있겠다는 생각이 든다.
 

ⓒCredit: GettyImages


지금까지 IT전문가들은 하나의 기술, 하나의 제품을 깊이 있게 이해하고 이러한 깊이 있는 이해를 바탕으로 해당 기술을 구현한 제품이나 서비스가 고객의 비즈니스 문제 해결이나 운영을 어떻게 돕거나 개선할 수 있는지 컨설팅을 제공하고, 이러한 컨설팅 결과에 따라 제품이나 기술, 솔루션을 고객 비즈니스에 제공, 통합하는 것이 주된 일이었다. 이 때문에 하나의 기술이나 제품에 대한 전문성만으로도 IT전문가로서 활동할 수 있었다. 이런 관점에서 보면 데이터 과학자들이 갖추어야 할 것으로 기대되는 다양한 분야의 역량들을 과연 한 사람이 갖추는 것이 가능하냐라는 생각이 들 수도 있다.

데이터 과학자가 갖추어야 하는 역량의 영역이 넓고 종류가 많은 것은 사실이며, 실제로 그렇게 역량을 갖춘 데이터 과학자들이 활동하고 있다. 필자도 의도했던 것은 아니지만, CERN의 LHC 실험에 참여하여 연구개발을 하면서 관련된 다양한 역량들을 쌓을 수 있게 되었고, 그러한 역량들을 어느 하나만 사용하는 것이 아니라, 문제 해결에 모두 동원하여 사용하고 있다. 

아무래도 갖추어야 하는 기술과 역량에 대한 영역이 넓다 보니 모든 영역에서 전문가 수준의 깊이에 도달하는 것은 어려울 수 있다. 좀더 구체적으로 얘기하기 위해 IT 기술에 한정해서 얘기하다 보면, 데이터 과학자로서 업무를 하면서 당면한 문제를 해결하기 위해 다양한 IT 기술들을 활용하다 보면 한 기술, 한 기술에 대한 깊이가 모두 똑같이 깊을 수는 없다.

데이터 과학자들이 맞닥뜨리는 문제는 이전에 없던 문제인 경우가 많기 때문에 당연히 이에 대한 솔루션이나 특화된 기술이 없는 경우도 많다. 이렇게 새로운 문제를 해결하기 위해 기존의 IT 기술들을 활용하여 새로운 솔루션이나 기술들을 조합하여 활용하고 문제 해결에 맞게 통합하다 보면 자연스럽게 사용된 IT 기술들을 피상적으로 이해하고 사용하기보다는 좀더 깊이 있게 이해해야 할 필요를 느끼게 된다. 이렇게 데이터 과학자로서 문제에 맞닥뜨려 해결하는 이력과 경력이 쌓이다 보면 자연스럽게 다양한 IT 기술에 대한 깊이와 역량이 쌓이게 된다.

그래서, 데이터 과학자는 한 사람이 아니라 팀이라는 주장은 일부 맞는 주장이기도 하지만, 반드시 옳다고 볼 수 없다. 데이터 과학을 통해 풀어내야 하는 문제가 한 데이터 과학자가 혼자의 힘으로 풀어낼 수 없는 문제인 경우가 많기 때문에 팀으로 일해야 하는 것은 맞지만, 데이터 과학자는 우선 다양한 영역의 기술과 역량을 어느 정도 이상의 수준으로 갖추어야 그 역할을 다할 수 있다. 이런 이유로 데이터 과학자로서 다양한 영역의 기술과 역량을 쌓은 전문가를 찾기가 어렵기 때문에 데이터 과학자의 몸값이 점점 더 높아지고 있는 것이 아닌가 한다.

지난 스물 세번째 칼럼에서 데이터 과학자의 특성에 대해서 살펴보면서 데이터 과학자가 갖추어야 할 역량에 대해서도 간단히 언급한 바가 있는데, 오늘 다시 한번 자세히 살펴보도록 하자.

우선 데이터 과학자로서 갖추어야 할 가장 기본적인 역량은 바로 과학적, 비판적 사고 능력이다. 이전 스물 네번째 칼럼에서 데이터 과학자들은 연역적, 귀납적 사고방식을 모두 활용하여 과학적으로 생각하고 문제에 대한 해결책과 결론을 도출하는 사람들이라고 말한 바 있다.

이런 과학적, 비판적 사고 능력은 하루아침에 길러지지 않는다. 다양한 문제를 접하고 해결하는 과정에서 과학적, 비판적 사고방식을 이용해 문제를 해결한 시간에 비례하여 그 역량의 성숙도가 높아진다. 이런 이유로 단순히 데이터 분석 도구에 익숙하다고 해서 이런 과학적, 비판적 사고 능력이 길러지는 것은 아니기 때문에 데이터 과학자를 찾기가 쉽지 않은 것이다.

두 번째로 데이터 과학자에게 가장 중요한 역량은 현재 주어진 상황을 개선할 수 있는 새로운 문제를 찾아내고, 이 문제를 현재의 기술과 자신이 가진 기술과 지식으로 풀어낼 수 있는 문제로 재정의할 수 있는 역량이다.

이는 많은 과학자가 과학자로서 가장 많이 훈련받는 역량 중의 하나이다. 사실, 많은 비즈니스 문제를 포함해서, 주어진 문제를 어떻게 정의하느냐에 따라 문제 해결의 실마리가 쉽게 나타날 수도 있고, 해결하기 아주 어려운 문제가 되기도 한다. 문제를 잘 찾아내고 이를 풀 수 있는 문제로 다시 정의할 수 있으면 문제의 절반은 이미 해결된 것과 같다. 주어진 대상에 대해서 문제를 찾아내어 정의하는 부분은 오직 과학자들만 할 수 있는 창의적인 영역이다. 데이터 과학에서도 데이터 과학자가 속한 비즈니스에서 비즈니스를 개선하고 성장시키기 위한 문제들은 그 누구도 푼 적 없는 새로운 문제일 가능성이 높다. 이런 문제들을 해결 가능한 문제로 재정의해서 풀어내는 일은 창의력이 요구되는 고도의 전문화된 작업으로 데이터 과학자들이 조직과 기업에 필요한 이유가 된다.

세 번째로, 문제 해결에 도움이 되는 정보를 얻기 위해 데이터를 선별하고 데이터 수집 및 정보 가공 프로세스를 설계할 수 있는 능력이다. 

이전 연재에서도 거듭 강조했듯이, 빅데이터 비즈니스에서 가장 중요한 것은 비즈니스를 위한 정보를 어떤 방식으로 얻어 데이터로 변환하고, 이 데이터를 가치 있는 정보로 변환하느냐 하는 것이다. 데이터 과학자는 조직과 기업에서 요구하는 빅데이터 비즈니스 모델에 따라 비즈니스에 필요한 정보를 어떻게 데이터로 수집할 수 있을지 창의적으로 설계하고, 이런 데이터 수집 및 가공 프로세스가 자동화된 정보 시스템으로 구축될 수 있는 구체적인 프로세스로 만들어 낼 수 있어야 한다.

이런 데이터 수집 및 가공 프로세스를 정의하고 구체적인 시스템으로 설계해내기 위해서는 데이터 수집과 관련된 센서, 데이터 소스(source) 및 데이터 수집 장비와 기술에 대한 전문 지식, 데이터 가공 및 처리를 위한 하드웨어, 소프트웨어를 포함한 IT 기술의 특성과 기술적 세부 사항과 한계에 대해서 잘 이해하고 있어야 한다. IT 기술과 데이터 소스에 대한 지식을 충분히 갖추어야 설계할 수 있기 때문에 어느 정도 수준 이상의 전문성이 필요하다.

네 번째로, 현재 데이터 과학자의 역량과 관련해서 가장 많이 언급되고 있는 역량인, 데이터를 가공, 분석하고 자신이 원하는 결론을 내기 위해 필요한 IT 기술 역량이다. 이런 데이터 가공 및 분석에 관련된 IT 기술들이 바로 많이 알려진 하둡, 스파크와 같은 빅데이터 기술, HBase, 하이브(Hive), 카산드라(Cassandra), 몽고DB(MongoDB), 임팔라(Impala) 등으로 알려진 NoSQL DB와 데이터웨어하우스 기술, 그리고, R, 파이썬 등으로 대표되는 데이터 분석 환경이다.

전에도 간단히 언급했듯이, 데이터 과학자가 이런 모든 기술을 처음부터 다 익혀 기술로서 가지고 있을 필요는 없다. 대개 문제 해결 과정에서 필요에 의해 쓰다 보니 전문적인 수준에 이르는 경우가 많다. 대개의 데이터 과학자들은 자신이 즐겨 쓰는 한, 두 가지의 소프트웨어 기술과 도구가 있게 마련이며, 이런 즐겨 쓰는 소프트웨어 기술과 도구를 통해 문제 해결을 반복적으로 하다 보면 새로운 기술이나 도구가 필요했을 때 습득하는 시간과 노력이 크게 많이 들지 않을 정도의 소양이 쌓이기 마련이다.

이런 데이터 가공과 분석에 필요한 소프트웨어 기술 및 도구를 잘 활용하기 위해서는 기술과 도구에 대한 깊은 이해도 필요하지만, 분석하고자 하는 문제를 컴퓨터를 이용해 다루고 자동화할 수 있는 구체적인 논리로 바꾸어 줄 수 있는 수리 과학, 통계학, 컴퓨터과학에 대한 기본적인 소양과 지식이 어느 수준 이상으로 필요하다. 이런 수리 과학, 통계학, 컴퓨터과학에 대한 기본적인 소양과 지식은 문제 해결을 위한 IT 기술을 익히고 소화하여 활용하기 위한 기본적인 배경지식으로서 모든 데이터 과학자가 기본적으로 갖추어야 할 역량이다.

다섯 번째로, 데이터 과학을 통해 문제를 해결할 대상이 되는 비즈니스 조직과 운영, 비즈니스가 일어나는 산업 전반에 대한 지식과 이해가 필요하다. 이를 위해서 경영학, 경제학이나 회계 및 기업 재무, 법무 등 비즈니스 조직에 관한 모든 지식이 필요하거나 한 것은 아니지만, 어느 정도의 경영학, 회계 및 기업 재무에 대한 지식은 데이터 과학자 자신이 일하는 조직의 비즈니스 모델과 그 작동 방식을 이해하고 데이터 과학적 문제 해결 방법론을 적용하기 위해 도움이 되는 경우가 많다.

비즈니스 조직과 운영 전반에 관련된 경영학, 경제학, 회계 및 기업 재무에 관련된 지식은 데이터 과학자 자신들이 풀고자 하는 문제가 기업 경영에 어떤 연관이 있는지, 어떻게 적용될 수 있는지, 현재 다루고자 하는 비즈니스 모델을 어떻게 개선할 수 있는지 이해하고 조직의 비즈니스 모델과 데이터 과학 활동을 정렬하여 그 효과를 극대화하기 위해 꼭 필요한 역량이라고 볼 수 있다.

비즈니스 조직과 운영 전반에 대한 지식과 이해는 데이터 과학 팀 내부에서 경영, 경제학, 회계, 재무 관련 전문가가 같이 합류하여 일하면서 보완되는 경우가 많다. 데이터 과학팀에서 이런 경영, 경제, 회계 및 재무 전문가를 영입하여 비즈니스 도메인에 대한 역량과 지식이 보완될 수 있기는 해도, 이들이 얘기하는 문제와 요구 사항을 이해하고 같이 데이터 과학을 이용한 해결책을 만들어 내기 위한 커뮤니케이션을 위해서는 최소한의 이해와 지식을 데이터 과학자가 갖추는 것이 바람직하다.

여섯 번째로, 어쩌면 가장 기본적인 역량이 될 수 있겠지만, 데이터 수집, 가공, 분석을 위한 논리와 생각을 소프트웨어로 만들어낼 수 있는 소프트웨어 개발 역량이다. 아무리 좋은 IT 기술을 활용한다고 하더라도, 이들 빅데이터 및 데이터 과학 관련 IT 도구들은 기본적으로 프로그래밍과 소프트웨어 개발 역량이 필요하다. 데이터 과학자는 기본적으로 소프트웨어 엔지니어의 역량을 갖추고 있어야 한다.

개발하려는 소프트웨어의 도메인에 따라서 소프트웨어 엔지니어의 역량과 기술이 매우 다를 수 있어서, 데이터 과학을 위해서 모든 종류의 소프트웨어 개발 및 엔지니어링 역량을 다 갖추어야 한다고 얘기하는 것은 아니다. 다만, 수치 계산 및 해석, 통계학적 분석을 위한 계산 및 데이터 조작, 복잡한 데이터 분석 로직을 설계하고 구현하기 위한 데이터 분석 알고리즘과 관련된 수학적 배경지식을 이해하고 이를 프로그래밍 언어로 재활용 가능한 소프트웨어 모듈로서 구현해낼 수 있는 정도의 역량을 말한다.

데이터 과학 활동의 산출물들은 결국 모두 데이터 가공, 분석 플랫폼에서 실행될 수 있는 프로그래밍 언어로써 기술될 수밖에 없다. 자신이 생각한 데이터 가공, 분석 논리를 적절한 프로그램 언어로 표현하고 소프트웨어로 구현해내기 위해서는 소프트웨어 엔지니어 마인드는 필수적으로 갖출 수밖에 없다.

설사 빅데이터 비즈니스 시스템에서 실제로 돌아가는 소프트웨어 모듈은 데이터 엔지니어나 전문 소프트웨어 엔지니어가 분담하여 전문적으로 개발한다고 해도, 이들 데이터 엔지니어와 소프트웨어 엔지니어들이 데이터 과학자들이 생각하고 분석한 것들을 적절하게 표현해서 소프트웨어로 완성하기 위해서는 데이터 과학자 자신들이 소프트웨어 마인드를 가지고 커뮤니케이션할 수밖에 없다. 어떤 경우에도 데이터 과학자들이 소프트웨어 마인드를 가지고 일하는 것은 반드시 필요하며, 제일 좋은 것은 데이터 과학자들이 데이터 엔지니어, 소프트웨어 엔지니어의 역할을 겸하는 것이 좋다.

일곱 번째로, 빅데이터 비즈니스에서 나타나는 잘 정의되지 않은 문제를 풀어낼 수 있는 문제로 만들고, 이를 해결하기 위한 협업을 할 수 있는 원활하고 창의적인 커뮤니케이션 능력이 필요하다.

빅데이터 비즈니스에서 데이터 과학자들이 맞닥뜨리게 될 문제들은 이전의 문헌에서 직접 언급되지 않은 새로운 종류의 문제일 가능성이 높다. 그럴 수밖에 없는 것이 이미 누군가가 해결한 문제라면 이미 사업화가 되어 누군가가 서비스하고 있을 것이기 때문이다. 아무도 생각하지 못한 새로운 비즈니스 모델이어야 시장에서의 경쟁력이 있고, 이렇게 아무도 생각하지 못한 새로운 비즈니스 모델을 비즈니스로써 구현하는 경우 구현하면서 맞닥뜨리는 문제들은 누구도 똑같이 풀어내지 못한 새로운 문제들일 수밖에 없다.

이런 새로운 문제들을 빅데이터 비즈니스 맥락에 맞게 풀어낼 수 있는 구체적인 문제로 정의하고, 이 문제들을 풀기 위한 정보를 구체적인 데이터 형식과 가공 과정, 분석 과정으로 정의하고 만들어 내기 위해서는 여러 데이터 과학자들의 지혜와 역량을 모아 협업을 해야 한다. 이런 협업 과정에서 자신의 아이디어와 데이터 분석의 핵심, 그리고 빅데이터 비즈니스 시스템에서 효과적으로 작동하는 소프트웨어 모듈로서 구현해내는 과정을 적절하게 표현하고 동료 데이터 과학자, 데이터 엔지니어, 소프트웨어 엔지니어들에게 정확하게 전달하기 위해서는 높은 수준의 커뮤니케이션 기술과 대인 관계 기술이 필요할 수밖에 없다.

이런 커뮤니케이션 기술이라는 것은 단순히 말과 글을 잘 쓰는 것만 포함된 것이 아니다. 자신과 같이 일하는 동료와 전문가들의 특성과 배경, 각자의 개성에 맞게 이해할 수 있는 방식으로 표현되어야 한다는 것을 의미한다. 이렇게 데이터 과학자들이 커뮤니케이션하기 위해서는 각각의 개성을 지닌 동료들을 잘 이해하고, 각 동료의 특성에 맞게 존중하여 대할 수 있는 인내심과 대인 관계 기술도 같이 필요하다.

앞에서 간단히 같이 정리해본 데이터 과학자의 역량은 기업의 일반 구성원들이 보기에는 상당히 폭이 넓고 전문적인 높은 수준의 역량을 갖추어야 하는 것으로 보인다. 이렇다 보니 한때 데이터 과학자란 한 사람을 의미하는 것이 아니라 하나의 팀을 의미하는 것이라고 주장하는 분들도 있었고, 데이터 과학자의 역량 범위에 대한 논란도 기술 관련 미디어에서 있었던 것으로 기억한다.

최근에는 데이터 과학자가 갖추어야 할 역량이 다양하고 폭이 넓다는 것을 인정하는 분위기이다. 다만, 아무리 뛰어나고 다양한 역량을 갖춘 데이터 과학자라고 하더라도, 데이터 과학 업무의 양과 복잡도를 고려했을 때 비즈니스의 속도에 맞추어 적절한 결과를 낼 수 있으려면 혼자서 모든 일을 할 수는 없기 때문에 데이터 엔지니어, 비즈니스 전문가, 소프트웨어 엔지니어들과 팀을 이루어 협업하는 것이 정착되어 가고 있다[2-4].

앞에서 정리한 데이터 과학자로서 필요한 역량들은 그 폭과 전문성이 일반인들이 받아들이기에는 수준이 높기 때문에 데이터 과학자란 한 사람이 아니라 팀을 의미한다고 생각하는 것도 무리는 아니다. 위에서 언급한 역량과 자질들은 데이터 과학자가 온전하게 자신의 일을 다하기 위해서 필요한 것들이다. 즉, 위의 역량과 자질들을 갖춘 데이터 과학자들이 있고, 필자만 해도 그렇다. 다만 모든 종류의 역량과 자질을 고르게 높은 수준으로 갖추게 되기가 쉽지 않은 것이고, 각 데이터 과학자의 성장 경로 및 업무 이력에 따라 분야별로 더 잘하거나 부족한 부분이 있을 수는 있다.
 

---------------------------------------------------------------
김진철 칼럼 인기기사
-> 김진철의 How-to-Big Data | 연재를 시작하며
-> 김진철의 How-to-Big Data | 빅데이터 활용의 근본적인 질문 - 해결하려는 문제가 무엇인가?
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (1)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (2)
-> 김진철의 How-to-Big Data | 빅데이터 수집에 관한 생각 (3)
---------------------------------------------------------------

어떻게 저렇게 많은 분야의 기술과 역량을 갖춘 사람이 있을까, 데이터 과학자들은 다 천재인가라는 생각을 하는 분도 있을 수 있다. 이렇게 이해하면 받아들이기 쉬울 것 같다. 물론 데이터 과학 분야에서 요구되는 기술과 자질에 유난히 재능이 있어 뛰어난 데이터 과학자들도 있겠지만, 데이터 과학자들 대부분이 수리과학과 이공학 분야를 중심으로 과학적 사고방식과 문제해결 마인드를 훈련받아온 전문가들이다. 위의 과학적 문제해결의 이력을 쌓아오는 과정에서 생긴 자연스러운 훈련의 결과이고, 다양한 기술, 역량과 자질들은 과학적 문제해결이라는 목적 아래 체계적으로 조직되고 성장해온 것이다.

 


데이터 과학자의 리더십은 어떻게 성장하는가? – 데이터 과학자의 성장 경로와 역량에 따른 리더십의 범위
앞에서 살펴본 데이터 과학자들이 갖추어야 하는 기술, 역량, 자질의 범위와 수준에 따라 데이터 과학자의 성장 단계를 필자는 아래와 같이 나누어 보고 싶다. 아래 성장 단계에 따라 데이터 과학자의 리더십의 범위와 영향력이 달라질 것이고, 이런 리더십의 범위와 영향력에 따른 데이터 과학팀에서의 역할과 조직에서의 위치를 같이 생각해보면 조직 안에서 데이터 과학자로 성장한다는 것이 어떤 것인지 생각해보기 쉬울 것 같다. 아래 각 역량 및 전문성 수준의 단계와 이에 따른 명칭은 필자가 편의에 따라 임의로 붙인 것으로, 업계에서 통용되는 말과는 차이가 날 수 있으니 참고만 하길 바란다.

우선 “데이터 과학자”라는 말과 가장 많이 혼용해 쓰이는 “데이터 분석가(data analyst)”가 있다. “데이터 분석가”는 데이터 분석을 위한 분석 도구와 데이터 분석 방법론의 전문가이며, 잘 알려지고 확립된 데이터 분석 방법론과 분석 도구를 활용해 시스템에서 주어진 데이터가 던져주는 정보를 확인하고 그 분석 결과를 보고할 수 있는 역량을 가진 사람들이다. 아래에서 더 자세히 설명하겠지만, “데이터 과학자”와 “데이터 분석가”는 엄격하게 구분되어야 한다.

분석 도구와 데이터 분석 방법론에 대한 어느 정도의 전문 지식을 가지고 상황에 맞게 활용, 그 의미를 제한적으로 해석할 수 있다는 점에서 전문가로 볼 수 있고 데이터 과학자들이 하는 업무 일부를 하고 있지만 같은 수준이라고 볼 수는 없다. 대개 이미 만들어진 분석 도구나 시스템, 분석 방법론을 제한된 방법으로 응용하며, 데이터의 숨은 의미를 찾기보다는 데이터가 주는 정보를 시스템이 설계된 대로 확인하거나 활용하여 업무에 적용하는 수준이라고 볼 수 있다.

“데이터 분석가” 수준을 벗어나 좀더 비즈니스와 데이터에 대한 통찰이 깊어지고, IT 기술, 특히 프로그래밍과 소프트웨어 개발 역량과 수리 과학, 통계적 사고 능력이 어느 정도 성숙하게 되면 이제 “데이터 과학자”로 불릴 수 있게 되는 단계에 이르게 된다. “데이터 과학자”와 “데이터 분석가”의 수준을 구분하는 가장 큰 차이는 바로 비즈니스 문제를 수리 과학, 통계적 사고를 통해 모델링 가능한 새로운 문제로 정의하고, 이를 체계적으로 알고리즘으로 만들 수 있도록 풀어내어 프로그래밍과 소프트웨어 개발 역량으로 새로운 문제해결 시스템을 만들어 기존의 정해진 로직을 따라 결론을 내는 문제해결 방식을 벗어나는 것이다.

“데이터 분석가”는 데이터 분석 프로토콜을 따라 주어진 데이터가 의미하는 바에 대한 결론과 해석을 도출한다. “데이터 과학자”는 비즈니스 문제를 새롭게 정의하거나 찾아내고, 비즈니스 문제에 대한 해답을 체계적으로 고민하고 찾아낼 수 있도록 수학적 또는 통계적 모델을 만들며, 이런 모델을 이용해 데이터의 숨은 의미를 찾아내고 이해할 수 있는 논리를 만든다. 

“데이터 과학자”는 또한 이렇게 만든 비즈니스 문제 해결의 논리를 이용해 문제를 분석하고 해결하기 위해 필요한 데이터를 어떻게 얻고 수집할 것인지 고민하여, 데이터가 의미하는 바를 분석, 해석하기에 충분한 데이터 형식, 수집, 가공, 분석 프로세스와 방법을 설계한다. 이렇게 설계된 프로세스와 방법을 이용해 데이터의 구조와 숨은 의미를 해석하여 새로운 비즈니스 문제 해결을 위한 단서를 추적하고 결론을 만들어 가게 되며, 이 과정이 반복되면 비즈니스에 깊이 있고 유용한 통찰에 이르게 된다.

“데이터 분석가”와 “데이터 과학자”의 차이가 위 설명으로 충분하게 이해가 되는가? 필자가 다소 복잡하게 설명했지만, 결론적으로 얘기하면 “데이터 분석가”와 “데이터 과학자”의 차이는

- 첫번째로 비즈니스 문제를 새롭게 정의하고 이 문제를 풀 수 있는 모델로 바꿀 수 있는 능력
- 두번째로 풀 수 있는 모델로 바꾼 비즈니스 문제를 IT와 소프트웨어 개발 역량을 이용해 체계적이고 자동화된 방식으로 분석하고 해결할 수 있는 능력
- 세번째로 IT와 소프트웨어 개발 역량을 이용해 비즈니스 문제를 풀기 위한 데이터 수집 및 가공, 분석 단계와 프로세스를 설계하고 이를 구현해낼 수 있는 능력
- 마지막으로 데이터 과학자 자신이 새롭게 정의한 비즈니스 문제 해결의 논리를 따라 데이터 분석 결과를 해석하고 이를 비즈니스 문제 해결과 가치로 연결할 수 있는 과학적 사고방식과 통찰력
이라고 할 수 있다.

“데이터 과학자”와 “데이터 엔지니어(data engineer)”도 구분되어야 한다. “데이터 엔지니어”는 데이터를 가공하는 과정을 소프트웨어로 자동화된 방식으로 구현하여 원하는 데이터를 만드는 시스템을 개발하는 사람으로, 비즈니스 문제를 찾아내고 정의하거나, 가공된 데이터를 이용해 분석하고, 분석의 결과를 해석하여 비즈니스 맥락에 맞는 결론을 끌어내는 일을 하지는 않는다.

최근 “데이터 과학자”로 채용했다고 하는 분들을 잘 살펴보고 하는 일들을 보면 많은 분들이 “데이터 분석가”이거나 “데이터 엔지니어”인 경우가 많다. 물론 “데이터 과학자”가 하는 일의 일부가 “데이터 분석가”와 “데이터 엔지니어”와 겹치기는 하지만, “데이터 과학자”가 하는 가장 중요한 일과 역할을 “데이터 분석가”와 “데이터 엔지니어”가 할 수는 없다.

필자가 만났던 유명 금융 회사의 한 팀장께서는 위와 같은 현실을 알고 계셨고, “데이터 분석가”와 “데이터 엔지니어”들을 금융 도메인에 맞게 훈련을 시켜서 “데이터 과학자”로 성장시키겠다는 말씀을 하시기도 했다. 이런 방법은 기업의 필요에 맞고 업의 특성에 맞는 “데이터 과학자”를 키워내는 좋은 방법일 수는 있지만, 기업에서 “데이터 과학자”를 활용한 성과를 보기까지 시간이 걸리는 것이 단점이다. 이렇게 업의 필요에 맞게 “데이터 분석가”와 “데이터 엔지니어”를 “데이터 과학자”로 성장시킬 수 있는 분야는 산업과 도메인의 특성에 따라 제한적이기 때문에 모든 분야에서 이렇게 할 수는 없다.

“데이터 과학자”의 경력이 쌓이고 업무 수준이 높아지면 “선임 데이터 과학자(senior data scientist)”의 역할을 맡게 될 것이다. “선임 데이터 과학자(senior data scientist)”와 보통 “데이터 과학자” 간의 차이점은 다수의 데이터 과학자와 팀을 이루어 일할 수 있는 리더십을 발휘해야 한다는 것과, 데이터 분석을 위해 활용하고 다루어야 하는 IT 기술의 범위, 그리고, 해당 분야 도메인에 대한 통찰의 깊이의 차이이다.

아무리 “데이터 과학자”가 필요한 역량의 범위가 넓고 다재다능하다고 하더라도 일의 규모가 절대적으로 크고, 풀어야 하는 비즈니스 문제를 위한 데이터의 양과 종류가 많다면 혼자서 문제를 해결할 수 없다. 업과 도메인에 따라 활용하는 데이터의 특성과 종류를 이해하고 익히는데 시간이 오래 걸릴 수도 있다. 이런 이유로 데이터 과학팀도 분업과 팀플레이가 필요하게 되고, “데이터 과학자”로서의 전문 지식, 기술 역량의 수준과 함께 해당 도메인의 경험과 통찰의 깊이에 따라 팀을 주도할 수 있는 리더십도 필요하게 된다.

“선임 데이터 과학자(senior data scientist)”부터는 데이터 과학적 문제 해결 능력 측면에서나 IT 기술 활용 수준뿐만 아니라 데이터 과학이 적용되는 비즈니스나 도메인에 대한 경험과 통찰 측면에서도 팀원들의 존경을 얻고 리더십을 발휘해야 하는 위치에 서게 된다. “선임 데이터 과학자(senior data scientist)”가 가장 중요하게 갖추어야 할 역량 중의 하나는 해결해야 할 비즈니스 문제가 어느 정도로 복잡하고 어려운 문제인지 파악하고, 이를 해결하기 위해 필요한 “데이터 과학자”와 “데이터 분석가”, “데이터 엔지니어”와 소프트웨어 엔지니어의 수가 어느 정도인지 파악하여 문제를 해결하기 위한 적절한 규모의 팀을 꾸릴 수 있는 능력이다. 즉, 데이터 과학 분야의 프로젝트 매니저와 리더의 역할과 역량을 기대받게 된다.

“선임 데이터 과학자(senior data scientist)”는 위와 같이 리더십을 발휘해야 하기 때문에, 데이터 과학팀에서 데이터 수집, 가공, 분석에 활용되는 모든 종류의 IT 기술에 대한 깊은 지식은 없더라도 어떤 종류의 기술이 있고 어떤 상황에 활용해야 하는지 파악할 수 있는 정도의 소양을 갖추고 팀원들과 함께 데이터 수집, 가공, 분석 과정과 시스템을 기본적으로 설계할 수 있어야 한다. 데이터 수집, 가공, 분석의 큰 그림과 함께 이를 팀원들과 함께 소프트웨어 집중적인(software-intensive) IT 시스템으로 구현해낼 수 있는 데이터 집중적인(data-intensive) IT 프로젝트 매니저의 역할을 해낼 수 있어야 한다.

분야 및 비즈니스 모델의 복잡성에 따라 많이 달라지기는 하지만, 보통 “선임 데이터 과학자(senior data scientist)”는 “데이터 과학자”, “데이터 분석가”, “데이터 엔지니어” 및 소프트웨어 엔지니어로 구성된 3~7명의 팀을 주도할 수 있는 수준의 역량을 갖추어야 한다고 보면 이해하기 쉬울 것 같다.

“수석 데이터 과학자(principal data scientist)”는 “선임 데이터 과학자(senior data scientist)”의 역량에 더해 해당 비즈니스 및 도메인에 대한 보다 더 깊이 있는 통찰과 함께 비즈니스 환경과 시장의 트렌드에 따르는 비즈니스 및 도메인의 변화를 시의적절하게 데이터 과학 문제에 반영해서 전략적으로 풀어낼 수 있는 수준의 역량을 갖추어야 한다. 데이터 과학자의 역량뿐만 아니라, 비즈니스 도메인에 대한 전문성도 같이 키워나가야 하는 시기이다.

“수석 데이터 과학자(principal data scientist)”의 경우 데이터 수집, 가공, 분석, 저장 및 관리에 이르는 데이터 프로세스와 생애주기(lifecycle)상의 전 분야에 걸친 IT기술에 대한 전문성은 정점에 올라 있어야 한다. 자신의 팀이나 프로젝트 구성원들의 데이터 과학 미션을 성공적으로 수행하기 위해 데이터 과학 프로세스 전반에 대한 큰 그림을 확고히 가지고 빅데이터 IT 인프라 전문가 및 부서, 비즈니스 운영 부서, 빅데이터 기술 기반의 비즈니스 및 운영 지원 시스템을 개발하는 소프트웨어 엔지니어팀과의 협업을 원활하게 조율하고 리더로서 데이터 과학팀을 이끌 수 있어야 한다.

데이터 과학 문제를 풀기 위해 담당한 데이터 프로세스와 생애주기를 완전하게 파악하고 있어야 하며, 이와 함께 본인이 일하고 있는 비즈니스 조직의 비즈니스 지원 시스템(BSS), 운영 지원 시스템 전반에 대해서도 파악하고 있어야 한다. 본인이 담당하여 해결한 데이터 과학 문제를 비즈니스 지원 시스템(BSS), 운영 지원 시스템(OSS)에 자동화된 소프트웨어 구성 요소로서 어떤 식으로 반영하여야 할지, 어떤 부서와 어떤 협업을 이루어 갈지에 관한 문제에서도 주도적으로 해결을 이끌어갈 수 있어야 한다.

당면한 데이터 과학 문제를 풀기 위해 어떤 데이터를 사내에서 활용할 수 있고 활용할 수 없는지, 만약 필요한 정보를 가진 데이터가 조직 내에 없다면 어떤 식으로 수집하고 확보할 수 있을지, 이를 위해 현재 조직의 비즈니스 모델에 어떤 개선이 추가로 더 필요할지에 대해서 비즈니스 전략 및 운영 담당 부서들과 협력도 주도할 수 있어야 한다.

“수석 데이터 과학자(principal data scientist)”는 데이터 과학 전문성 측면에서는 조직에서 최고의 전문성과 실력을 인정받으면서, 다수의 “선임 데이터 과학자(senior data scientist)”와 “데이터 과학자”들을 이끄는 리더십도 발휘해야 하는 위치이다. 이와 함께, 데이터 과학 문제를 해결하기 위해 협조가 필요한 조직 내 다수의 IT 기술 부서와 비즈니스 전략, 운영 수행 부서와의 협력도 원활하게 조율할 수 있는 커뮤니케이션과 대인 관계 기술에서도 성숙한 역량을 발휘해야 한다.

“수석 데이터 과학자(principal data scientist)”는 “데이터 과학자”, “데이터 분석가”, “데이터 엔지니어” 및 소프트웨어 엔지니어로 구성된 15~30명 정도의 팀을 주도할 수 있는 수준의 역량을 갖추어야 한다고 보면 이해하기 쉬울 것 같다. 하지만, “수석 데이터 과학자(principal data scientist)”가 맡게 될 데이터 과학 문제는 전사적인 협조를 같이 받아야 하므로, 간접적으로 리더십을 행사하는 구성원 숫자도 포함하면 높은 수준의 리더십이 요구되어야 할 위치다.

“데이터 과학 담당 이사(executive data science officer)”는 말 그대로 빅데이터 비즈니스 조직에서 비즈니스 문제 해결을 위한 데이터 과학 문제를 찾아내고, 비즈니스에 적용하기 위한 데이터 과학 관련 전략 및 운영 계획을 수립하여 데이터 과학 프로젝트 수행을 총괄하는 임원이다. 어떤 조직에서는 “데이터 담당 임원(executive data officer)”과 같이 “데이터 과학(data science)”이라는 말을 쓰지 않고 “데이터(data)”라는 말만 넣는데, 이전 스물 다섯 번째 칼럼에서도 언급했듯이 데이터 과학에서 중요한 것은 “데이터”가 아니라 “과학”이므로 “데이터 과학 담당 이사(executive data science officer)”로 표기해야 맞다고 필자는 생각한다.

“데이터 과학 담당 이사(executive data science officer)”는 데이터 과학과 빅데이터 인프라 및 IT 기술 전반에 대한 전문성뿐만 아니라, 자신이 다루어 온 도메인에 대한 전문성과 통찰을 바탕으로 비즈니스 조직의 데이터 과학 및 빅데이터 비즈니스 시스템 구축, 발전 전략과 실행 방안을 수립하고 실행, 관리하는 임원이다. “데이터 과학 담당 이사(executive data science officer)”는 다음의 문제들에 대해서 주요 의사 결정과 전략 수립, 실행을 총괄할 수 있어야 한다.

- 비즈니스 조직의 빅데이터 인프라 및 데이터 과학 시스템의 현황을 고려했을 때 조직과 비즈니스의 성장을 위해서는 어떤 비즈니스 문제들을 풀어야 하고 어떤 빅데이터 시스템을 개선하고 새롭게 디자인하여 구축할 것인가?
- 조직이 새롭게 맞닥뜨리게 된 비즈니스 문제를 해결하기 위해 어떤 데이터를 수집해야 하나?
- 비즈니스 문제 해결을 위한 데이터 수집을 위해 기존 비즈니스 모델에 어떤 종류의 수정을 가해야 하는가? 아니면 어떤 종류의 새로운 비즈니스 모델을 디자인하여 새로운 사업을 시작해야 하는가?
- 수집된 데이터를 어떻게 가공하고 분석할 것인가? 가공된 데이터와 데이터 분석을 이용해 개선되거나 새롭게 디자인된 비즈니스 모델을 어떻게 기민하고 신속하게 지원할 것인가?

“데이터 과학 담당 이사(executive data science officer)”가 위와 같은 문제에 대해서 전사적인 규모의 의사 결정을 할 수 있으려면, 데이터 과학 전반에 대한 넓고 깊은 소양과 함께 데이터 수집, 가공, 저장 및 관리, 분석에 이르는 주요 IT 기술에 대한 해박한 지식과 이해, 통찰은 기본적으로 갖추고 있어야 한다. 같이 일하는 데이터 과학자들과 데이터 과학 업무에 대한 원활한 커뮤니케이션과 함께, 데이터 과학 업무에 직접 관여하지 않지만 데이터 과학 업무를 위해 필요한 다양한 데이터와 협력을 제공하는 관련 부서들에게 데이터 과학 업무 및 빅데이터 시스템 구축과 운영을 위해 필요한 요구 사항과 협력 사항을 구체적이면서 이해하기 쉽게 전달하고 협조를 구하며 협업을 조율하는 관리 역량과 섬세한 대인 관계 기술도 필요하다.

“데이터 과학 담당 이사(executive data science officer)”는 기업의 주요 경영진에게 데이터 과학 업무를 통해 얻은 경영 의사 결정에 필요한 통찰과 결론들을 의사 결정 수준에 필요한 언어로 명료하게 정리해서 전달할 수 있어야 한다. 이를 위해서는 데이터 분석 파이프라인 전반에 대해 이해하고 있어야 하고, 데이터 분석 파이프라인에서 얻을 수 있는 정보와 이 정보를 이용한 해석의 한계에 대해서도 명확하게 인식하고 있어야 한다. 데이터 분석의 결과가 비즈니스 의사 결정에 어떤 시사점을 가지고 중요한 의미가 있는지 핵심을 이해하는 통찰을 가지고 있어야 한다.

“데이터 과학 담당 이사(executive data science officer)”는 데이터 과학 업무의 성과물들이 기업 및 비즈니스 조직 경영에 반영되어 비즈니스의 위험 요소를 관리하고 적절한 의사 결정으로 이어져 실행될 수 있도록 경영진에게 영향력을 행사할 수 있어야 한다. 데이터 과학 업무의 성과물들이 비즈니스 의사 결정 과정에서 외면되거나 왜곡되지 않도록 주요 경영진과의 관계도 적절하게 관리할 수 있어야 한다.

“데이터 과학 담당 이사(executive data science officer)”에 이어, 데이터 과학자로서 빅데이터 비즈니스 조직에서 성장 경로상에서 최종 단계라고 할 수 있는 “데이터 과학 담당 최고 책임자(chief data science officer)”는 말 그대로 빅데이터 비즈니스 조직의 데이터 과학과 빅데이터 시스템에 대한 의사 결정과 실행을 총괄하는 리더이다. 

빅데이터를 이용한 서비스를 제공하는 기업의 경우에는 “데이터 과학 담당 최고 책임자(chief data science officer)”의 역할을 기업의 최고 기술 책임자(Chief Technology Officer; CTO)가 겸임할 수도 있다. 기존에 확립된 비즈니스 모델이 있고, 이 비즈니스 모델을 더 지능적이고 기민하게 지원하기 위해 데이터 과학을 활용하려는 조직이나 기업은 “데이터 과학 담당 최고 책임자(chief data science officer)”가 또 하나의 역할로서 CTO나 최고 정보 책임자(Chief Information Officer; CIO)와 협력하여 일할 수도 있다.

구글과 같은 빅데이터 기반의 서비스를 제공하는 회사와 같이 기업 경영에 빅데이터와 데이터 과학의 비중이 높아서 특별하게 관리하고 의사 결정을 내려야 하는 경우에는 CTO와 “데이터 과학 담당 최고 책임자(chief data science officer)”가 별개의 이사회 구성원으로서 역할을 수행할 수 있겠지만, 대개의 경우 CTO가 “데이터 과학 담당 최고 책임자(chief data science officer)”의 역할을 겸하게 될 것이다. 이 경우 기존 CTO 역할과 책임의 범위는 데이터 과학 및 빅데이터 인프라와 시스템, 이들에 대한 주요 경영 의사 결정까지 포함하도록 확대될 것이다.

“데이터 과학 담당 최고 책임자(chief data science officer)”가 또 하나의 역할로서 CTO나 CIO와 협력하여 일하는 경우에는 빅데이터 인프라 및 시스템의 디자인과 구축의 경우에는 CIO가 의사 결정, 실행하게 될 것이고, 이들 빅데이터 인프라 및 시스템의 디자인과 구축에 필요한 데이터 과학 요구 사항 분석과 주요 디자인 의사 결정에 “데이터 과학 담당 최고 책임자(chief data science officer)”가 공동으로 협력하게 될 것이다.

CTO의 경우 빅데이터를 이용한 서비스나 상품 개발을 위해 필요한 기술 전략의 수립과 실행에 책임을 지게 될 것이고, 이런 기술 전략의 수립과 실행에 필요한 데이터 분석과 시장 예측, 서비스나 상품의 디자인에 필요한 고객의 세그멘테이션과 성향 분석, 서비스나 상품의 시장 진입 성공 여부를 판단하고 주요 의사 결정을 할 수 있도록 돕는 지표들에 대한 데이터를 수집하고 모니터링하는 등의 데이터 과학 관련 의사 결정과 전략 수립, 실행을 “데이터 과학 담당 최고 책임자(chief data science officer)”가 총괄해서 수행하게 될 것이다.

위와 같이 데이터 과학자의 성장 경로에 대해서 같이 살펴보면서, 역량의 성장에 따른 데이터 과학자의 리더십과 조직 내 영향력의 변화도 같이 생각해보았다.

마지막으로, 데이터 과학자와 비슷한 업무를 한다고 여겨져 “데이터 과학자”와 비슷한 의미로 쓰이는 말들이 있어 그 차이점을 같이 확인하고자 한다.

먼저 “데이터 과학자”와 가장 많이 혼용되거나 비슷하게 쓰이는 말이 “데이터 분석가”와 “데이터 마이너(data miner)”인데, “데이터 분석가”와 “데이터 과학자”의 차이점은 앞에서 자세히 설명하였다. “데이터 과학자”와 “데이터 마이너”, 또는 “데이터 마이닝 전문가(data mining expert)”의 차이는 도메인에서 유효한 해석을 할 수 있는지 없는지 차이이다.

“데이터 마이너”, “데이터 마이닝 전문가(data mining expert)”는 데이터 마이닝 기술을 이용해 데이터에서 패턴과 구조를 찾아내는 컴퓨터 과학자나 컴퓨터 전문가들을 말한다. 데이터 마이닝 주요 기술과 방법론에 대한 전문가들이며, 데이터 마이닝 소프트웨어나 솔루션 개발을 수행할 수 있는 전문가들이지만, 찾아낸 데이터의 패턴과 구조가 도메인, 또는 비즈니스 조직의 비즈니스나 업의 맥락에서 어떤 의미나 시사점을 가지는지 해석하거나 통찰로서 발전시키지 않는다.

“데이터 과학자”들은 데이터 마이닝 기술들을 데이터 가공과 분석에 활용하며, 이런 데이터 마이닝 기술들을 통해 얻은 데이터의 패턴과 구조를 해석하고 통찰과 시사점으로 정리하는 작업까지 진행한다. 데이터 마이닝 기술들을 상당수가 데이터 분석에도 활용되지만, 데이터 가공 및 처리 자동화에도 이용된다.

“BI 전문가(business intelligence expert)”와 “데이터 과학자” 또한 구분되어 사용되어야 할 말이다. “BI 전문가”는 비즈니스 인텔리전스 기술과 시스템을 다루어 기업 의사 결정을 돕는 데이터 수집, 가공, 저장, 관리, 분석을 돕는 전문가이다. 앞의 “데이터 마이닝 전문가”와 마찬가지로 “데이터 분석가”와 소프트웨어 엔지니어의 역할을 일부 겸하는 역할이지만, 데이터 분석 결과의 해석과 이를 비즈니스 운영과 개선에 적용하는 역할을 하지는 않기 때문에 역시 “데이터 과학자”와 차이가 있다.

비즈니스 인텔리전스(Business Intelligence; BI)란 기업에서 데이터를 수집, 정리, 분석하고 활용하여 효율적으로 의사결정할 방법을 연구하는 정보 기술의 한 분야로, IT 비즈니스 업계에서는 주로 기업 데이터의 수집, 정리, 분석을 위한 소프트웨어 도구나 시스템을 의미하는 말로 많이 사용되어 왔다. 

비즈니스 인텔리전스 기술의 대표적인 기술이 바로 관계형 데이터베이스 형태의 데이터를 한곳에 모아 활용할 수 있게 해주는 데이터웨어하우스, 데이터웨어하우스를 위한 데이터의 정제 및 수집, 변환을 자동화하는 ETL(Extract, Transformation, Loading), 비즈니스 데이터 분석에 많이 활용된 OLAP(Online Analytical Processing), 그리고 최근 빅데이터 가시화 도구로 유명해진 태블로(Tableau)와 같은 다양한 비즈니스 데이터 가시화 및 리포트 도구, 정보 포탈 기술이다.

비즈니스 인텔리전스 기술들이 비즈니스 데이터 수집, 가공, 분석과 연관이 많았기 때문에 한때 빅데이터가 비즈니스 인텔리전스의 연장선상에서 많이 언급되었다. 우리나라 빅데이터 산업의 원년이 된 2011년에 빅데이터 붐이 일어난 배경에는 “BI 전문가(Business intelligence expert)”들이 확장성 있는 비즈니스 인텔리전스 기술 관점에서 데이터 수집, 가공, 분석 도구로서 빅데이터 기술을 소개하면서 IT업계에 빅데이터라는 말이 빠르게 확산되었다.

“BI 전문가(business intelligence expert)”들이 우리나라 빅데이터 산업에 새로운 비즈니스 인텔리전스 기술들을 빅데이터라는 말을 앞세워 소개하면서 일반 IT업계 종사자들이 빅데이터라는 말을 다소 쉽고 빠르게 받아들일 수 있게 되었지만, 빅데이터를 지나치게 데이터 분석과 비즈니스 의사 결정을 위한 기술로서만 협소하게 받아들이도록 해 빅데이터 활용에 대한 많은 오해를 불러일으키기도 했다.

비즈니스 인텔리전스는 빅데이터의 데이터 가공, 분석과 비즈니스 의사 결정과 많은 부분 겹치는 것도 사실이고, 빅데이터 트렌드가 기업에서 어떻게 활용될 것이냐 하는 문제에서 많은 시사점을 준 것도 사실이다. 그렇지만, 비즈니스 인텔리전스 관점에서의 빅데이터가 부각된 덕분에, 일반 기업들이 빅데이터에서 얻을 수 있는 효용이 데이터 분석보다는 데이터 수집, 가공 및 처리과정의 자동화에서 오는 기민함과 빅데이터를 처리할 수 있는 차별화된 빅데이터 비즈니스 시스템에서 오는 기술 장벽에서 오는 것을 IT업계 종사자들이 한동안 깨닫지 못하게 하였다. 이 때문에 지나치게 하둡이나 스파크와 같은 특정 기술과 소프트웨어 기업의 솔루션 중심의 빅데이터 트렌드를 만들어 우리나라 빅데이터 산업의 성장이 다소 정체되게 하는 원인이 되기도 했다.

지금까지 조직에서의 리더십과 역량의 성장에 따른 데이터 과학자의 조직 내에서의 성장 경로 및 역할에 대해서 살펴보았다. 데이터 과학자와 비슷한 의미로 많이 쓰였던 말들인 “데이터 분석가”, “데이터 마이너” 또는 “데이터 마이닝 전문가(data mining expert)”, “BI 전문가(business intelligence expert)”가 “데이터 과학자”와 어떤 차이가 있는지도 살펴보았다.

빅데이터를 다룰 줄 아는 역량과 데이터 과학의 역량이 조직 내에 잘 스며들기 위해서는 “데이터 과학자”의 역할이 어떤지 이해하고, 어떤 역량을 가진 인재를 영입해야 할 것인지 잘 이해하여 영입해야 할 것이다. 이들 “데이터 과학자”들이 조직에서 일하면서 자신의 역량과 경력이 성장할 수 있도록 적절한 성장 경로와 성장 환경을 만들어 주어야 조직에서 헌신적으로 일하면서 조직의 발전에 기여하고 스스로 성장하는 기쁨도 맛볼 수 있을 것이다.

일반 기업이 빅데이터 비즈니스 조직으로 변화하기 위해 필요한 가장 기본적이고 중요한 것은 빅데이터 인프라와 IT 시스템을 덮어놓고 들이는 일이 아니라, 빅데이터 비즈니스를 실질적으로 수행할 빅데이터 전문 인력과 데이터 과학자들을 적절하게 선발하여 영입하고, 이들이 조직에 기여할 수 있도록 적절한 업무 환경을 만들어주는 것임을 기억하자. 이들이 빅데이터 비즈니스와 함께 자신들의 경력과 역량이 성장하면서 조직에의 기여가 더 커질 수 있도록 놀이터를 만들어주자. 기존 구성원들이 새로 영입된 빅데이터 전문가, 데이터 과학자들을 경쟁자로 생각하지 않고, 빅데이터 비즈니스라는 지붕 아래 기존의 기업 구성원들과 빅데이터 전문가, 데이터 과학자들이 같이 성장할 기회와 환경을 기업 경영진이 만들어줄 때 빅데이터가 주는 보다 더 큰 파이를 구성원들이 같이 나눌 수 있게 될 것이다.

[참고문헌]
[1] 김진철, “LHC에서 배우는 빅데이터와 machine learning 활용 방안”, 2016년 9월 28일, A CIO Conversation for Technology Leadership – Breakfast Roundtable 발표 자료
[2] 로런 브라우젤(Lauren Brousell), “데이터 과학자 육성•채용 '5가지 조언”, CIO Korea, 2012년 12월 3일자. (http://www.ciokorea.com/news/14901)
[3] 이지현, “[현장] 데이터과학자들이 자주 겪는 고민 3가지는?”, Bloter.net, 2016년 10월 18일자. (https://www.bloter.net/archives/265786)
[4] 김옥기, “데이터 과학, 어떻게 기업을 바꾸었나?”, 이지스퍼블리싱, 2014년.

*김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망에 대한 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기에 대한 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구하였다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행하였다. ciokr@idg.co.kr