2021.05.31

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)

김진철 | CIO KR
이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.
 
ⓒGetty Images

22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재) 
빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다.

CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다.

LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트 관리의 많은 초점이 맞춰져 있다.

LHC 가속기와 입자 검출기와 같은 거대 실험 시설의 경우 실험 시설을 구성하는 어느 한 부품이나 장치라도 제대로 동작하지 않으면 목적한 결과를 달성하기 어렵기 때문에 실험 목적을 달성하기 위한 기술적 요구사항을 만족시킬 수 있게끔 장치를 완성하기 위해서는 이를 위한 예산과 인력이 꾸준하게 투입되어야 한다. 이런 이유로 프로젝트 자원 관리가 중요한 문제가 되어 각 실험을 대표하는 대변인(Spokesperson) 직속으로 “국제공동협력 이사회(Collaboration Board)”와 동등한 지위의 “자원 검토 이사회(Resources Review Board)”를 조직상에서 명시하여 운영한 것이다.

일반 기업에서 빅데이터 비즈니스를 기획하고 실행하는 과정이 CERN의 LHC 실험에 비할 정도는 못된다 하더라도, 기업 입장에서는 부담스러운 수준의 예산과 인력이 투입되게 마련이다. 이런 예산과 인력 투입이 꾸준히 이루어질 수 있도록 “프로젝트 관리 사무국(Project Management Office; PMO)”과 같은 빅데이터 비즈니스 프로젝트 거버넌스 조직을 통한 프로젝트 자원 통제도 적절하게 수행해야 한다.

23회: 빅데이터 조직과 시스템 (2) (2018년 11월 27일 게재)
데이터 과학자들이 효과적으로 협업하기 위한 방법은 어떤 것이 있을지 같이 생각해보았다. 이를 위해 CERN과 같은 과학연구소가 왜 Indico와 같은 오픈소스 컨퍼런스 관리 소프트웨어를 만들었는지 같이 생각해보았다.

CERN에서는 매년 1,700여건의 컨퍼런스와 3,200여건의 워크숍, 원격 회의를 포함한 회의는 약 485,000여건이 열린다. 이렇게 많은 회의를 효과적으로 조직, 운영하고, 이 회의에서 효과적인 커뮤니케이션을 위해 작성, 배포된 기술 문서와 자료들을 효과적으로 공유, 관리하기 위해 Indico라는 오픈소스 소프트웨어를 만들게 되었다고 소개하였다. CERN은 Indico를 이용해서 전 세계에 걸쳐 일하고 있는 LHC 실험 공동 연구자들이 컨퍼런스와 회의 조직에 많은 시간과 비용을 들이지 않고도 쉽게 서로 전문적인 의견과 연구 성과를 공유하고 의논할 수 있도록 원격 회의 인프라를 구축하였다.

CERN의 컨퍼런스 관리 소프트웨어인 Indico와 함께 전 세계의 연구자들이 CERN으로 오지 않고도 원격 회의를 할 수 있도록 해주는 VRVS와 EVO 서비스를 소개하였다. 이들 원격 화상 회의 기술들은 코로나 바이러스로 부각된 Cisco의 WebEx, Google의 Meet, Zoom, GotoMeeting과 같은 최근 원격 화상 회의 서비스가 사업화 되기 훨씬 전인 1995년부터 LHC 실험 연구자들에게 쓰이기 시작하여 최근까지 LHC 실험이 성공적으로 힉스 입자를 발견하는데 크게 공헌하였다.

데이터 과학자들과 데이터 엔지니어, 경영진과 주요 실무자들이 데이터를 이용해 손쉽게 비즈니스의 방향과 전략을 토론하고, 만남과 교류를 촉진하여 비즈니스 문제 해결을 위한 창의적인 아이디어를 극대화할 수 있는 공간으로서 “거점형 공간”을 소개하였다. “거점형 공간”을 마련할 만한 여력이 되지 않는 기업과 조직들이 창의적인 아이디어를 극대화할 수 있는 손쉬운 대안으로서 주기적인 컨퍼런스를 활용할 것을 필자가 제안하였다.

24회: 빅데이터 조직과 시스템 (3) (2018년 12월 28일 게재)
빅데이터 비즈니스에서 비즈니스의 방향을 설정하고 비즈니스 운영을 효과적으로 만드는데 중요한 역할을 수행하는 데이터 과학자로서 어떤 자질과 성품을 갖추어야 하는지 CERN의 LHC 실험에 참여하는 과학자들을 데이터 과학자로서 살펴보면서 같이 생각해보았다.

LHC 실험에서 데이터 과학자의 역할을 하는 물리학자들은 기본적으로 자신이 연구하는 분야인 고에너지 입자 물리학 분야에서 새로운 지식과 통찰을 추구하는 열정과 호기심을 가진 사람들이다. 이런 열정과 호기심을 추구하기 위해 LHC와 같은 거대한 실험 장치를 지을 정도로 동료 과학자들과 서로 협력하고 실험에 예산을 지원할 정부를 설득하여 정부와 일반 대중을 고객으로 하는 과학 연구 비즈니스를 만들어 낸다.

LHC 실험에 참여하는 이들 물리학자들은 LHC 실험 데이터를 얻고 분석하기 위해 필요한 모든 지식을 배우고 갖춘다. 이런 지식에는 자신의 전문 분야인 고에너지 입자 물리학에 대한 지식이 기본적으로 전제되지만, 자신의 분야와 직접적으로 관련이 없는 SCADA와 같은 대규모 플랜트 제어 기술, C++, Java 언어를 이용한 다양한 분산 컴퓨팅 미들웨어 기술, LHC 빅데이터를 저장, 관리하기 위한 분산 파일 시스템, 빅데이터 처리, 분석을 위한 그리드 컴퓨팅 미들웨어 기술, 데이터 분석 작업을 탄력적으로 실행, 관리하기 위한 OpenStack을 이용한 클라우드 컴퓨팅 기술에 이르기까지 빅데이터 IT의 모든 영역을 포함한다.

LHC 실험 장치를 운영하여 데이터를 얻어 의미 있는 과학적 발견과 연구 성과를 내기 위한 끊임없는 개인적 노력과 함께, 동료, 선배 연구자들과 팀 플레이가 절대적으로 중요하기 때문에 효과적인 커뮤니케이션과 대인 관계 역량이 매우 중요하다. LHC 실험을 위한 국제공동협력 연구를 진행하면서 이런 팀 플레이어로서의 마음가짐과 커뮤니케이션, 대인 관계 역량이 자연스럽게 길러진다.

이런 LHC 물리학자들의 역량과 자질이 사실 데이터 과학자에게도 동일하게 요구되는 것들이다. 이런 데이터 과학자들을 기업과 조직에서 효과적으로 활용해서 비즈니스에 도움이 되도록 하기 위해서는 이들을 적절하게 활용할 수 있는 조직 운영 방안이 필요하다. 이런 조직 운영 방안의 핵심은 경영진의 직관보다 데이터를 기반으로 하는 과학적(귀납적, 연역적), 합리적 의사 결정을 추구하고, 명령과 체계에 따른 탑 다운(top-down)식 조직 운영 보다 정보의 흐름에 따른 수평적이고 역동적인 조직 운영, 과학적 비즈니스 의사 결정과 실행 과정을 자동화하고 효율적으로 만들기 위한 IT 기술을 적극적으로 뒷받침해주는 것이다.

이렇게 데이터 과학자 조직을 운영하기 위해서는 문제, 목적 지향적으로 일하는 데이터 과학자들의 특성을 존중하는 조직 문화, 데이터 과학자들의 자기조직적 팀 구성, 문제 해결 노력이 기존 구성원들과 마찰, 충돌로 이어지지 않도록 하는 경영진과 조직 차원의 중재, 지원, 내적인 동기에 의해 자발적으로 문제 해결에 집중할 수 있도록 하는 환경을 조성하고 자발적인 협력과 시너지를 통해 성과를 낼 수 있도록 협력, 공유의 패러다임을 기초로 하여 데이터 과학 팀 운영이 이루어져야 한다.

25회: 빅데이터 조직과 시스템 (4) (2019년 1월 28일 게재)
LHC 실험의 과학자들이 지키는 과학자로서 직업 윤리를 살펴보면서 좋은 데이터 과학팀을 만들기 위한 팀 규범과 문화적 요소에 대해 같이 생각해보았다. 데이터 과학팀이 좋은 성과를 낼 수 있는 조직 문화를 만들기 위해 지켜야할 규범들의 필요성과 이유를 LHC 과학자들의 사례를 보면서 생각해보았다.

데이터 과학팀이 좋은 성과를 낼 수 있기 위해서는 각 구성원이 기여한 바에 대한 공정한 평가가 최대한 이루어질 수 있도록 팀이 운영되어야 함을 강조하였다. 표절과 데이터 조작, 성과 가로채기가 과학계에서 중대 범죄로 여겨지는 것과 같이, 각 구성원의 기여에 대한 공정한 평가를 위해서 데이터 과학팀에서도 근절되어야 할 행위임을 얘기하였다.

표절과 데이터 조작, 성과 가로채기는 데이터 과학팀의 성과가 조직에서 올바르게 활용되기 위해서 뿐만 아니라, 데이터 과학팀의 성과에 대한 조직의 신뢰를 위해서도 근절되어야 한다고 언급하였다. 데이터 과학팀의 업무 결과물에 언제나 논리적인 오류와 사실에 근거한 전문적인 추론과 분석이 드러나지 않고 믿을 수 없는 내용과 결과가 가득하다면 결코 그 결과를 믿고 활용할 수 없을 것이다.

26회: 빅데이터 조직과 시스템 (5) (2019년 2월 26일 게재)
당시 많은 논란이 있었던 데이터 과학자는 실재할 수 없고, 데이터 과학자는 사실 데이터 분석가, 데이터 엔지니어, 소프트웨어 엔지니어로 구성된 팀을 말한다는 주장에 대해서 필자의 생각을 밝혔다. 조직의 비즈니스 문제를 해결하기 위해 데이터를 적극적으로 수집하고 데이터에 근거한 판단과 합리적 문제 해결을 지향하는 데이터 과학자들이 갖추어야 된다고 여겨지는 역량의 폭과 종류가 워낙 넓고 많다 보니 정말 한 사람이 모든 자질을 다 갖출 수 있는지에 대한 의구심에서 위와 같은 논란이 벌어진 것 같다고 언급하였다.

위와 같은 논란과 오해는 데이터 과학자를 IT 기술 측면에서만 보아 생긴 오해이며 실제로 데이터 과학자들은 모든 영역에서 전문가 수준의 깊이를 보유할 수는 없더라도 IT 기술을 포함한 다양한 기술과 과학적 사고 방식, 커뮤니케이션과 대인 관계 역량을 갖출 수밖에 없다. 이렇게 다양한 역량과 기술을 갖출 수밖에 없는 이유는 데이터 과학자가 하는 일의 특성과 역할 때문이다.

데이터 과학자가 이런 다양한 역량과 기술을 갖추는 것만으로 데이터 과학자로서 역할을 다할 수 있는 것이 아니라, 이런 다양한 역량과 기술을 비즈니스 문제 해결에 적합하도록 결합, 체계화하고 자신만의 문제 해결 체계와 시너지를 만들어 내는 것이 더 중요하다. 이런 과정은 마치 다양한 원소와 물질이 화학 반응을 일으켜 독특한 특성을 가진 화합물이 되는 것과 비슷하기 때문에 이런 다양한 역량과 기술을 기본적으로 갖추고 있어야 데이터 과학자로서 역할을 다할 수 있다.

데이터 과학자가 가진 기술과 역량이 일반인이 보기에는 다양하고 폭이 넓어 보이더라도, 데이터 과학자의 경험과 경력 이력에 따라 각각의 역량과 기술의 스펙트럼은 다양하고 수준과 깊이도 다르다.  데이터 과학자가 갖추어야 할 역량과 기술의 폭이 넓고 많아 비현실적이기 때문에 잘 알려진 소프트웨어 엔지니어와 데이터 분석가, 비즈니스 전문가로 이루어진 데이터 과학팀을 조직하기 보다는, 데이터 과학자마다 서로 다른 경력 이력과 역량, 기술 스펙트럼의 다양성과 깊이 때문에 서로를 보완하고 시너지를 내기 위해 데이터 과학팀이 필요하다고 보는 것이 더 바람직하다.

데이터 과학자의 성장 경로를 예시로서 제안하였다. 데이터 과학자가 주니어 데이터 과학자, 전문 데이터 과학자, 시니어 데이터 과학자, 수석 데이터 과학자 및 최고 데이터 과학 임원으로 성장하는 과정에서 단계별로 갖추어야 할 역량과 책임의 범위, 역할의 변화에 대해서 살펴보았다. 여기에 예시로 든 성장 경로는 기업과 조직의 당면한 문제와 문화에 따라서 조금씩 달라질 수는 있으나 큰 틀에서는 비슷한 경로를 따르게 된다.

27회: 빅데이터 조직과 시스템 (6) (2019년 3월 25일 게재)
데이터 과학자는 어떻게 키워지고 성장하는지 살펴보았다. 데이터 과학자의 상당수가 컴퓨터 과학을 전공하기 보다는 수학, 물리학, 천문학과 같은 빅데이터를 잘 다루는 기초 과학 분야와 산업 공학, 항공 공학과 같은 거대 시스템을 다루는 공학 분야에서 경력을 쌓은 사람들이 많으며, 그 이유도 알아보았다. 

하둡(Hadoop)과 스파크(Spark)등의 빅데이터 기술을 깊게 연구하고 쓸 줄 안다고 해서 데이터 과학자로서 성장하는 것이 아니라, 이런 IT 기술을 당면한 문제를 해결하기 위해 사용하는 도구로서 기본적으로 다루고, 이런 도구들을 기본적인 소양으로 갖춘 과학적, 합리적 문제 해결 역량과 결합하여 당면한 문제 해결을 위해 적극적으로 활용하고 응용하는 과정에서 데이터 과학자로서 소양이 길러진다.

이런 이유로 좋은 데이터 과학자를 찾기 위해서는 주요 대학의 컴퓨터 과학 전공 대학원이나 연구실만 찾을 것이 아니라, 데이터 과학자로서 소양을 자연스럽게 쌓게 되는 기초 과학과 공학 분야에서 경력을 쌓은 전문가들을 대상으로 하는 것이 좋다고 제안하였다. 이런 분야로서 전통적으로 빅데이터와 데이터 집중(data-intensive)적인 문제를 많이 해결해 온 계산 과학, 수학, 물리학, 천문학과 같은 기초 과학 분야와 엔지니어링 과학과 항공우주공학 분야를 소개하였으며, 이들 분야 전문가들 중에서 데이터 과학자로서 경력을 전환하기 원하는 전문가들을 대상으로 데이터 과학자를 영입하는 것도 좋은 방법이다.

이와 함께 데이터 엔지니어 및 데이터 과학 소프트웨어 개발에 적합한 역량을 가진 전문가들로 과학 기술 계산 분야와 이사이언스(eScience) 분야 전문가들을 추천하였다. 이들은 컴퓨터와 대규모 시뮬레이션을 이용한 문제 해결에 능숙한 전문가들이지만, 앞서 언급한 수학, 물리학, 천문학과 같은 기초 과학, 엔지니어링 과학과 항공우주공학 분야 전문가들에 비해 좀더 소프트웨어 기술 측면의 전문성이 강하여 데이터 과학자로서 역할과 함께 데이터 엔지니어로서 역할도 잘 소화할 수 있다.

데이터 과학자 자리에 지원한 후보자가 좋은 데이터 과학자인지 판단할 수 있는 방법으로 지원자의 경력 성장 경로를 보는 방법, 자신의 일과 삶에 긍정적인 태도와 호기심이 있는지 여부, IT 기술에 대한 관심과 열정이 있는지 확인할 것을 제안하였다.

28회: 빅데이터 조직과 시스템 (7) (2019년 4월 26일 게재)
데이터 과학자를 꼭 외부에서 영입하지 않고 내부 구성원 중에서 자질 있는 구성원을 데이터 과학자로 육성할 수 있는 방법은 없는지 같이 생각해보았다. 불행하게도 데이터 과학자로서 훈련, 성장하는 과정을 일반 기업에서 겪기는 어렵기 때문에 기본적으로 데이터 과학자로 성장하기 좋은 환경을 갖춘 일부 빅데이터 비즈니스 기업과 엔지니어링 기업, 항공우주공학 기업을 제외하고는 내부 구성원을 데이터 과학자로 육성하기는 쉽지 않다. 오히려 내부 구성원들을 데이터 과학자로 육성시키기 위해서라도 좋은 데이터 과학자를 영입해서 내부 구성원들을 데이터 과학자로 훈련시킬 수 있도록 하는 것이 중요하다. 

모든 구성원들을 데이터 과학자로 만들려고 할 것이 아니라, 일반 구성원들이 데이터 과학 업무의 성과물을 잘 활용해서 데이터 기반의 의사 결정과 합리적 업무 수행을 할 수 있도록 데이터 과학 문화를 확산시키는 것도 중요하다. 이를 위해서 필자는 “데이터 과학 문화 확산 플랫폼”의 아이디어를 제안하였다. 이 “데이터 과학 문화 확산 플랫폼”은 데이터 과학자가 아닌 일반 구성원들을 데이터 분석 산출물 콘텐츠를 소비하는 소비자, 또는 고객으로 보고 데이터 과학자들과 데이터 엔지니어, 소프트웨어 엔지니어들이 만드는 플랫폼이다. 이런 “데이터 과학 문화 확산 플랫폼”을 어떤 방식으로 만들지, 어떤 식으로 활용해야 할지에 대해서 소개하였다.

기업과 조직의 비즈니스 문제 해결과 함께 내부 구성원을 데이터 과학자로 양성하기 위한 좋은 방법으로서 잠재적 데이터 과학자 후보자인 내부 구성원들을 데이터 과학자들과 한 팀으로 데이터 과학 프로젝트에 참여시키는 방법에 대해 설명하였다. 이렇게 내부 구성원들을 데이터 과학 프로젝트에 참여시켜 데이터 과학자로 양성하려 시도할 때 유의해야 할 점도 같이 생각해보았다. 이런 데이터 과학 프로젝트가 성공하기 위해 기업과 조직의 리더와 경영진이 데이터 과학 마인드를 가질 필요가 있다는 점도 강조하였다.

29회: 빅데이터 조직과 시스템 (8) (2019년 5월 24일 게재)
데이터 과학팀 리더들이 흔히 저지르는 실수와 리더십을 발휘할 때 필요한 덕목과 리더십 역량들에 대해 살펴보았다. 데이터 과학자가 아닌 내부 구성원이 데이터 과학팀 리더로서 선임되었을 때 흔히 일어나는 데이터 과학 전문가들과 알력과 권력 다툼 문제를 극복하지 못하면 데이터 과학팀이 기업의 투자에 부응하는 성과를 내기 힘들다.

데이터 과학팀 리더 스스로가 팀에 걸림돌이 되지 않도록 조심해야 한다. 이렇게 리더 스스로가 팀에 걸림돌이 되지 않기 위해서는 데이터 과학팀 구성원 각각의 장점과 역량이 모두 독특하며, 이를 이용해 팀에 기여하는 영화 “어벤저스(Avengers)” 영웅들과 같은 팀이라는 사실을 인지하고 팀원 각각의 다양성을 존중하는 것이 필요하다. 이와 함께, 리더 자신이 일부 구성원들의 뛰어남에 압도되지 않고 자신보다 나은 능력을 가진 팀원들과 같이 일하고 이끌 수 있어야 한다.

데이터 과학팀 리더가 구성원 각각의 기여와 성과를 알아보고 인정할 수 있어야 하며, 팀의 성과를 모두 자산의 성과로 돌리고 독차지하는 경우 데이터 과학팀의 팀워크와 팀으로서 역량에 큰 해가 된다. 팀 구성원 각각이 자기 분야의 전문가들인 데이터 과학자들을 대할 때, 이들의 의견과 생각을 경청하지 않고 자신의 생각과 고집을 팀원들에게 몰아붙이거나 리더 자신의 권력과 권한을 남용하여 생각과 의견의 다양성을 억누르는 경우도 데이터 과학팀의 성과와 성장에 큰 해가 된다.

데이터 과학 전문가가 아닌 사람이 데이터 과학팀의 리더로 선임되었을 때에는 디지털 전환(Digital Transformation)으로 상징되는 시장과 기업 환경에서 경력의 변화에 필요한 새로운 리더십을 배우고 학습할 수 있는 좋은 기회로 활용하여 데이터 과학자들과 업무를 통해 성장하는 리더가 되도록 스스로를 다듬는 것이 더 좋다.

30회: 빅데이터 조직과 시스템 (9) (2019년 6월 25일 게재)
데이터 과학팀 리더가 팀 차원의 역량을 극대화하기 위해 필요한 덕목으로서 투명한 소통, 팀의 “케미(die Chemie(독일어), chemistry)”를 만드는 능력, 그리고 팀의 집중력을 유지하는 능력을 들었다.

데이터 과학팀을 이끄는 리더로서 갖추어야 할 덕목으로서 투명한 소통이 중요한 이유는 데이터 과학자 각각의 역량뿐만 아니라 이들이 협업하면서 나타나는 시너지를 팀과 조직의 자산으로 삼고, 이들의 시너지를 통해 팀의 역량이 데이터 과학자들의 역량의 합을 넘어서는 역량으로 발전하기 위함이다. 이와 함께 팀 구성원들이 서로간 건전한 토론과 협업을 통해 문제 해결 역량과 아이디어를 발전시키기 위함이다.

데이터 과학팀에서 투명한 소통이 중요한 또 하나의 이유는 데이터 과학팀의 업무에서 가장 어려운 부분인 잘 정의되지 않은 비즈니스 문제를 풀 수 있는 문제로 새롭게 정의하고, 이에 대한 해결책을 찾아 나가기 위해 서로의 생각과 아이디어를 정확하고 신속하게 이해할 수 있어야 하기 때문이다. 이와 함께, 아이디어와 같은 무형의 자산을 데이터 과학 산출물과 같은 유형의 자산으로 만들고 정제하기 위해서도 투명한 소통이 중요하다.

위의 투명한 소통 문제와 연결이 되는 맥락으로 데이터 과학팀의 “케미(die Chemie(독일어), chemistry)”를 만드는 것이 중요하다. 이렇게 팀만의 독특한 케미를 만들어 내기 위해서는 리더의 업무 조율 역량이 투명한 소통 능력과 함께 절대적으로 중요하다. 데이터 과학팀의 케미는 데이터 과학자 개개인의 역량의 합을 넘어 나타나는 팀만의 독특한 색깔과 역량으로, 리더의 용병술과 팀원에 대한 이해, 팀원들 사이의 갈등을 잘 극복할 수 있도록 도우면서 관계를 부드럽고 조화롭게 이끌 수 있는 대인 관계 능력의 절정으로 태어난다. 이런 팀의 케미를 만들 수 있는 리더의 능력이야 말로 데이터 과학자의 전문성을 뛰어넘는 리더만의 차별화된 능력이다.

데이터 과학팀 리더의 중요한 역량의 하나로서 팀의 집중력을 유지시키는 능력에 대해서 자세히 설명하였다. 천성적으로 지적인 호기심이 일반 구성원들에 비해 높은 데이터 과학자들이 팀 공통의 문제에 집중하여 팀의 성장과 발전에 헌신할 수 있도록 팀원들을 이끌 수 있는 능력은 팀의 성과를 만들고 성장시키기 위해 꼭 필요한 리더의 역할이다. 데이터 과학자들의 호기심과 자율성에 대한 욕구를 존중하면서 팀의 집중력을 유지하는 방법으로 팀 공통의 문제에 대해 주기적으로 팀원들의 주의를 환기시키고, 데이터 과학자들이 호기심을 쫓다가 길을 잃지 않도록 팀원들의 업무 진척 상황에 대해 마이크로콘트롤 방식이 아닌 관심과 참여로 뒷받침해주는 리더십이 필요하다.

31회: 빅데이터 조직과 시스템 (10) (2019년 7월 23일 게재)
데이터 과학팀 리더가 팀원 개개인의 역량을 극대화하기 위해 필요한 팀원들이 집중할 수 있는 환경 만들어 주기, 목표 제시의 방법으로서 팀원들에게 문제를 매력적인 문제로 제시하기를 설명하였다.

데이터 과학 분야가 아닌 일반 구성원들도 업무에 집중하는 것은 꼭 필요하지만, 데이터 과학자들의 경우 집중할 수 있는 업무 환경을 만들어 주는 것이 정말 중요하다고 강조하였다. 데이터 과학자들이 하는 업무는 단순한 반복 작업이나 서류 작성이 아니라, 복잡한 비즈니스 문제를 해결하기 위한 고도의 지적인 작업인 데다가, 머리속의 아이디어를 유형의 산출물과 데이터 분석 성과로 만드는 과정에는 고도의 집중력이 요구되기 때문이다.

이렇게 데이터 과학자들이 업무에 집중할 수 있는 환경을 만드는 것은 단순히 업무 공간을 조용하고 방해받지 않도록 만들어주는 것 만을 의미하는 것이 아니다. 개인적으로 힘든 일로 마음을 빼앗겨 업무에 집중하지 못하거나, 팀원 사이의 갈등이나 따돌림으로 업무에 집중하지 못하는 경우가 생기지 않도록, 리더가 팀원들의 사생활에서의 문제나 팀원 사이의 관계도 맘의 여유를 가지고 관심을 가질 필요가 있다. 팀원들이 팀내에서 안전하다고 느끼고 자신의 역할과 위치에 대한 안정감을 가질 때 최고의 역량을 발휘할 수 있고, 이런 심리적인 안정감이 팀의 성공에 중요함은 최근 구글의 리더십 연구에서도 잘 드러난 바 있다.

데이터 과학자들이 카리스마 있는 리더의 명령에 복종하여 일사불란하게 움직이는 것을 기대하기 보다는, 각자가 자신의 역량을 최고로 발휘하여 몰입할 수 있는 동기부여의 방법으로 팀이 당면한 문제를 매력적인 문제로서 제시하고 이 문제를 해결할 수 있는 최고의 전문가로서 자신감을 북돋아 주는 것이 “어벤저스(Avengers)”와 같은 특성을 가지는 데이터 과학팀에서는 더 나은 리더십이다.

자신의 능력과 아이디어로 자신만의 고유의 기여를 남기고 싶어하는 데이터 과학자들에게는 매력적인 문제로 동기부여하는 것이 더 효과적이다. 금전적인 보상으로만 동기부여 하는 것은 데이터 과학자들의 역량을 극대화하는데 항상 효과적이지는 않다. 자신이 팀의 문제를 해결하면서 얻을 수 있는 성장과 이로 인해 팀과 조직, 그리고 산업계에 끼칠 수 있는 영향력과 같은 내적인 동기를 더 중요하게 생각하는 경우가 많고, 이런 특성이 팀과 조직의 성공에 정렬되어 극대화되도록 리더가 데이터 과학자들을 동기부여하는 것이 좋다.

32회: 빅데이터 조직과 시스템 (11) (2019년 8월 26일 게재)
데이터 과학팀의 운영 원리로서 “역할 중심 조직(role-centric organization)”에 대해서 살펴보았다. 기존의 기업 조직은 대부분 위계를 통해 개개인의 능력과 역할의 중요성이 평가받는 “위계 중심 조직(hierarchical organization)”이다. 소위 “어벤저스(Avengers)”의 영웅들과 같은 뛰어난 능력을 가진 개개인이 서로를 도우면서 당면한 문제를 같이 풀어가는 전문가 그룹과 같은 조직은 역할 중심 조직이 더 적합하며, 최근 실리콘밸리 스타트업을 중심으로 이런 역할 중심 조직 모델이 확산되고 있다.

위계 중심 조직과 역할 중심 조직의 차이에 대해서 같이 살펴보았으며, 데이터 과학자들의 특성과 업무 능력을 고려하면 데이터 과학팀은 역할 중심 조직으로서 운영되는 것이 바람직하다. 이렇게 수평적인 역할 중심 조직을 효과적으로 운영하고 팀의 역량을 극대화할 수 있는 조직 운영 원리로서 “홀라크라시(Holacracy)”를 살펴보았다.

홀라크라시가 기존 위계 조직의 운영 방법과 어떤 차이를 가지는지, 홀라크라시의 독특한 기능적 위계 특성인 “홀라키(Holachy)”와 “서클(Circle)”, “슈퍼 서클(super-circle)”, “전체 회사 서클(General Company Circle; GCC)”, “앵커 서클(Anchor Circle)”과 같은 조직 구성 개념, “대표 링크”, “리드 링크”, “진행자(facilitator)”, “서기(secretary)”와 같은 홀라크라시만의 독특한 역할 개념도 같이 살펴보았다. 홀라크라시가 작동하게 하는 “전술 회의(Tactical Meeting)”와 조직 체계를 구축하고 진화시키는 “거버넌스 회의(Governance Meeting)”의 개념에 대해서도 같이 살펴보았다.

수평적인 역할 중심 조직을 운영하는 원리로서 홀라크라시를 현재 기업 조직에 운영할 때 생길 수 있는 문제점과 실제 사례, 그리고 우리 나라 대부분의 기업에서 홀라크라시를 도입하기는 아직 쉽지 않은 점도 같이 생각해보았다. 홀라크라시 실험이 우리에게 주는 교훈으로 현재 위계 중심 조직에서 생기는 권력과 정보의 불균형으로 나타나는 조직 문제를 역할 중심 조직의 수평성, 전문성, 투명한 소통으로 보완할 필요가 있다는 것이 분명하다는 것은 우리가 데이터 과학팀과 디지털 전환(Digital Transformation)의 성공을 위해 다시 생각해볼 문제이다.

33회: 빅데이터 조직과 시스템 (12) (2019년 9월 27일 게재)
데이터 과학팀을 효과적으로 운영할 수 있는 조직 운영 도구의 하나로서 애자일 방법론을 데이터 과학의 관점에서 살펴보았다.

애자일 방법론은 전통적인 소프트웨어 개발 방법론이었던 “폭포수 개발 방법론(Waterfall method)”의 문제점과 “소프트웨어 위기(Software Crisis)”를 극복하기 위해 제안된 소프트웨어 개발 주기의 반복적(iterative), 점진적(incremental) 향상의 개념을 체계화한 것이다. 최근 빠른 상품 개발과 고객 피드백을 통해서 시행 착오를 줄이고 상품과 서비스의 조기 성공을 꾀하는 실리콘밸리 스타트업을 중심으로 확산되어 주요 소프트웨어 및 플랫폼 기업을 중심으로 자리잡아가고 있다.

애자일 방법론이 데이터 과학 프로젝트 수행에도 적합한 방법론이며, 왜 그런지 설명하였다. “스크럼(Scrum)”으로 대표되는 애자일 방법론이 가진 반복적이며 점진적인 개선을 통한 위험 분산이 잘 정의되지 않은 비즈니스 문제를 조사하고 해결책을 찾아가는 데이터 과학 프로젝트의 특성에도 적합하다.

다만 서비스 플랫폼이나 상품 개발을 위한 소프트웨어 개발 프로젝트와 데이터 과학 프로젝트의 차이점은 분명히 있다. 데이터 과학 프로젝트의 특성을 고려해서 어떻게 “고쳐 쓸(tailoring)” 것인지 몇 가지 생각할 점을 제시하였다. 데이터 과학자들의 자율성과 역량을 극대화할 수 있도록 시스템화를 최소한으로 유연하게 할 필요가 있으나, 문제 해결의 단계를 두고 체계적이고 반복적인 과정으로 문제 해결 과정을 시스템화 하는 것은 데이터 과학 프로젝트의 위험 분산과 체계적인 문제 해결을 위해 꼭 필요하다. 데이터 과학 프로젝트의 경우, 풀려는 문제를 정의하고 데이터 과학 프로젝트를 기획하는 단계가 별도의 릴리즈로서 계획, 실행될 필요가 있다. 

데이터 과학 프로젝트의 기획과 수행 계획이 한 번에 만들어지기 어려움을 경영진들과 의사 결정자들이 이해할 필요가 있으며, 이런 이유로 애자일 방법론의 반복적이고 점진적인 프로젝트 운영 방식이 데이터 과학 프로젝트에도 적합하다. 시장의 상황이 시시각각 변하고, 똑같은 상황이 나타날 가능성이 높지 않다는 것도 애자일 방법론을 통해 데이터 과학 모델과 데이터 분석 내용을 지속적이고 반복적으로 보완하는 과정이 꼭 필요하다는 것을 잘 뒷받침해준다. 

데이터 과학 프로젝트가 데이터 과학자들만으로 수행되는 것이 아니라 소프트웨어 엔지니어와 데이터 엔지니어, 업무 전문가와 비즈니스 컨설턴트와 같은 다양한 전문가들과 협업이 필요한 프로젝트이기 때문에 애자일 방법론이 데이터 과학 프로젝트에 적합하다. 특히, 데이터 과학 프로젝트에 꼭 필요한 소프트웨어 엔지니어와 데이터 엔지니어와의 협업과 아이디어 교환, 정기적인 성과물 점검을 위해서도 애자일 방법론이 데이터 과학 프로젝트 관리에도 적합한 도구가 된다.

최근 많이 도입되고 있는 클라우드 컴퓨팅 서비스와 인프라를 이용해 데이터 과학 프로젝트를 수행하는 경우에도 클라우드 컴퓨팅 서비스를 이용하면서 생기는 비용과 자원을 정기적으로 점검할 수 있다는 측면에서 애자일 방법론이 적합하다. 이 점은 22회 글에서 빅데이터 프로젝트 관리를 위해 자원 관리를 염두에 둔 조직 구조 설계가 중요하다는 것을 설명한 것과 같은 맥락이다.

34회: 빅데이터 조직과 시스템 (13) (2019년 10월 2일 게재)
33회 글에서 데이터 과학 프로젝트 관리에 애자일 방법론이 적합하다는 것을 설명했던 것을 좀더 심화하여, 대표적인 애자일 방법론인 “스크럼(Scrum)” 개발 방법론을 데이터 과학 프로젝트에 어떻게 적용할 것인지 같이 생각해보았다.

먼저, “스크럼(Scrum)” 개발 방법론이 무엇이고, 어떤 방식으로 프로젝트 관리를 수행하는지 개념과 주요 용어를 같이 살펴보았다. “릴리즈(release)”, “스프린트(sprint)”와 같은 개발 주기 단위와 “릴리즈 플래닝(release planning)”, “스프린트 플래닝(sprint planning)”, “스프린트 리뷰(sprint review)”, “스프린트 회고(sprint retrospectives)” 프로젝트 수행 단계, “상품 백로그(product backlog)”, “스프린트 백로그(sprint backlog)”, “번다운/번업 차트(burndown/burnup chart)”와 같은 주요 산출물의 개념, “사용자 스토리(user story)”, “스크럼 포커(Scrum poker)”, “칸반 보드(Kanban board)”, “짝 프로그래밍(pair programming)”, “일일 스크럼 회의(daily scrum meeting)”과 같은 스크럼 프로젝트 관리의 주요 도구들의 개념과 내용도 같이 살펴보았다. 스크럼(Scrum) 방법론과 “테스트 주도 개발(test-driven development; TDD)”과의 관계도 같이 살펴보았다.

스크럼(Scrum) 개발 방법론은 반복적이고 꾸준한 데이터 과학 산출물과 분석 결과를 만들 수 있도록 하여 데이터 과학팀이 조직의 신뢰를 얻고 꾸준한 성과를 만들고 관리할 수 있도록 하는데 도움이 된다. 뿐만 아니라, 소프트웨어 엔지니어들과 협업, 의사소통을 체계적이고 효과적으로 지원할 수 있는 프로젝트 관리 방법론이다. 데이터 과학 프로젝트의 특성상 데이터 분석에 필요한 인프라와 시스템의 변화, 성장을 클라우드 컴퓨팅을 이용해 효과적으로 포용하고, 클라우드 컴퓨팅을 사용하면서 생기는 프로젝트 자원 변화 위험을 스크럼(Scrum) 방법론을 통해 효과적으로 통제, 관리할 수 있다.


* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. ciokr@idg.co.kr



2021.05.31

김진철의 How-to-Big DataㅣHow-to-Big Data 핵심 정리(Key Takeaways) (2)

김진철 | CIO KR
이번 글은 지난 글에 이어 2017년 1월부터 지금까지 필자가 소개했던 빅데이터 활용 교훈의 핵심들을 다시 정리해보려고 한다. 지난 쉰 두 번째 글에서는 빅데이터 비즈니스와 관련된 기술의 종류와 활용법에 대해 살펴본 1회부터 21회까지의 기고 내용을 정리한 글이었다. 이번 글은 필자가 독자들로부터 가장 많은 문의를 받았던 빅데이터 비즈니스 조직의 조직과 운영 방법에 관한 내용을 다루었던 22회부터 34회까지 글의 핵심 내용을 정리해보려고 한다.
 
ⓒGetty Images

22회: 빅데이터 조직과 시스템 (1) (2018년 10월 26일 게재) 
빅데이터 비즈니스 프로젝트는 아무리 작은 규모라고 해도 일반 기업이 부담하기에는 꽤 많은 자원과 인력이 투입된다. 성공적인 빅데이터 비즈니스를 위해서는 단순히 빅데이터 시스템을 도입하기 위한 조직이 아니라, 빅데이터 시스템을 인프라로 갖춘 후에도 이를 유지, 보수, 운영하면서 데이터 과학 활동을 꾸준하게 할 수 있는 조직 체계가 갖춰져야 한다.

CERN의 LHC 실험에서는 막대한 규모의 빅데이터를 처리, 분석할 수 있는 LHC 컴퓨팅 그리드를 건설하기 위해 각 검출기 실험의 “국제공동협력 이사회(Collaboration Board)”와 동급으로 “자원 검토 이사회(Resources Review Board)”를 상설 기구로 두었다. 이 “자원 검토 이사회(Resources Review Board)”는 매 분기별로 실험에 참여하는 각 국 정부의 실험 참여 분담금과 연구팀의 예산, 인력 상황을 검토하고 프로젝트 진행상황을 면밀하게 점검하였다.

LHC 가속기와 네 개의 입자 검출기 건설에만 20여년이 걸리고, 건설 후에도 40여년 가까이 운영되어야 하기 때문에, LHC 프로젝트는 많은 위험 요소를 가지고 있다. 근본적으로 LHC 실험이 우주를 구성하는 물질의 근본적인 원리를 탐구하고 밝히려는 과학적 발견과 성과에 초점이 맞춰져 있어 기본적으로 물리학과 가속기, 검출기 건설, 유지, 보수를 위한 공학적, 기술적 측면에 프로젝트 관리의 많은 초점이 맞춰져 있다.

LHC 가속기와 입자 검출기와 같은 거대 실험 시설의 경우 실험 시설을 구성하는 어느 한 부품이나 장치라도 제대로 동작하지 않으면 목적한 결과를 달성하기 어렵기 때문에 실험 목적을 달성하기 위한 기술적 요구사항을 만족시킬 수 있게끔 장치를 완성하기 위해서는 이를 위한 예산과 인력이 꾸준하게 투입되어야 한다. 이런 이유로 프로젝트 자원 관리가 중요한 문제가 되어 각 실험을 대표하는 대변인(Spokesperson) 직속으로 “국제공동협력 이사회(Collaboration Board)”와 동등한 지위의 “자원 검토 이사회(Resources Review Board)”를 조직상에서 명시하여 운영한 것이다.

일반 기업에서 빅데이터 비즈니스를 기획하고 실행하는 과정이 CERN의 LHC 실험에 비할 정도는 못된다 하더라도, 기업 입장에서는 부담스러운 수준의 예산과 인력이 투입되게 마련이다. 이런 예산과 인력 투입이 꾸준히 이루어질 수 있도록 “프로젝트 관리 사무국(Project Management Office; PMO)”과 같은 빅데이터 비즈니스 프로젝트 거버넌스 조직을 통한 프로젝트 자원 통제도 적절하게 수행해야 한다.

23회: 빅데이터 조직과 시스템 (2) (2018년 11월 27일 게재)
데이터 과학자들이 효과적으로 협업하기 위한 방법은 어떤 것이 있을지 같이 생각해보았다. 이를 위해 CERN과 같은 과학연구소가 왜 Indico와 같은 오픈소스 컨퍼런스 관리 소프트웨어를 만들었는지 같이 생각해보았다.

CERN에서는 매년 1,700여건의 컨퍼런스와 3,200여건의 워크숍, 원격 회의를 포함한 회의는 약 485,000여건이 열린다. 이렇게 많은 회의를 효과적으로 조직, 운영하고, 이 회의에서 효과적인 커뮤니케이션을 위해 작성, 배포된 기술 문서와 자료들을 효과적으로 공유, 관리하기 위해 Indico라는 오픈소스 소프트웨어를 만들게 되었다고 소개하였다. CERN은 Indico를 이용해서 전 세계에 걸쳐 일하고 있는 LHC 실험 공동 연구자들이 컨퍼런스와 회의 조직에 많은 시간과 비용을 들이지 않고도 쉽게 서로 전문적인 의견과 연구 성과를 공유하고 의논할 수 있도록 원격 회의 인프라를 구축하였다.

CERN의 컨퍼런스 관리 소프트웨어인 Indico와 함께 전 세계의 연구자들이 CERN으로 오지 않고도 원격 회의를 할 수 있도록 해주는 VRVS와 EVO 서비스를 소개하였다. 이들 원격 화상 회의 기술들은 코로나 바이러스로 부각된 Cisco의 WebEx, Google의 Meet, Zoom, GotoMeeting과 같은 최근 원격 화상 회의 서비스가 사업화 되기 훨씬 전인 1995년부터 LHC 실험 연구자들에게 쓰이기 시작하여 최근까지 LHC 실험이 성공적으로 힉스 입자를 발견하는데 크게 공헌하였다.

데이터 과학자들과 데이터 엔지니어, 경영진과 주요 실무자들이 데이터를 이용해 손쉽게 비즈니스의 방향과 전략을 토론하고, 만남과 교류를 촉진하여 비즈니스 문제 해결을 위한 창의적인 아이디어를 극대화할 수 있는 공간으로서 “거점형 공간”을 소개하였다. “거점형 공간”을 마련할 만한 여력이 되지 않는 기업과 조직들이 창의적인 아이디어를 극대화할 수 있는 손쉬운 대안으로서 주기적인 컨퍼런스를 활용할 것을 필자가 제안하였다.

24회: 빅데이터 조직과 시스템 (3) (2018년 12월 28일 게재)
빅데이터 비즈니스에서 비즈니스의 방향을 설정하고 비즈니스 운영을 효과적으로 만드는데 중요한 역할을 수행하는 데이터 과학자로서 어떤 자질과 성품을 갖추어야 하는지 CERN의 LHC 실험에 참여하는 과학자들을 데이터 과학자로서 살펴보면서 같이 생각해보았다.

LHC 실험에서 데이터 과학자의 역할을 하는 물리학자들은 기본적으로 자신이 연구하는 분야인 고에너지 입자 물리학 분야에서 새로운 지식과 통찰을 추구하는 열정과 호기심을 가진 사람들이다. 이런 열정과 호기심을 추구하기 위해 LHC와 같은 거대한 실험 장치를 지을 정도로 동료 과학자들과 서로 협력하고 실험에 예산을 지원할 정부를 설득하여 정부와 일반 대중을 고객으로 하는 과학 연구 비즈니스를 만들어 낸다.

LHC 실험에 참여하는 이들 물리학자들은 LHC 실험 데이터를 얻고 분석하기 위해 필요한 모든 지식을 배우고 갖춘다. 이런 지식에는 자신의 전문 분야인 고에너지 입자 물리학에 대한 지식이 기본적으로 전제되지만, 자신의 분야와 직접적으로 관련이 없는 SCADA와 같은 대규모 플랜트 제어 기술, C++, Java 언어를 이용한 다양한 분산 컴퓨팅 미들웨어 기술, LHC 빅데이터를 저장, 관리하기 위한 분산 파일 시스템, 빅데이터 처리, 분석을 위한 그리드 컴퓨팅 미들웨어 기술, 데이터 분석 작업을 탄력적으로 실행, 관리하기 위한 OpenStack을 이용한 클라우드 컴퓨팅 기술에 이르기까지 빅데이터 IT의 모든 영역을 포함한다.

LHC 실험 장치를 운영하여 데이터를 얻어 의미 있는 과학적 발견과 연구 성과를 내기 위한 끊임없는 개인적 노력과 함께, 동료, 선배 연구자들과 팀 플레이가 절대적으로 중요하기 때문에 효과적인 커뮤니케이션과 대인 관계 역량이 매우 중요하다. LHC 실험을 위한 국제공동협력 연구를 진행하면서 이런 팀 플레이어로서의 마음가짐과 커뮤니케이션, 대인 관계 역량이 자연스럽게 길러진다.

이런 LHC 물리학자들의 역량과 자질이 사실 데이터 과학자에게도 동일하게 요구되는 것들이다. 이런 데이터 과학자들을 기업과 조직에서 효과적으로 활용해서 비즈니스에 도움이 되도록 하기 위해서는 이들을 적절하게 활용할 수 있는 조직 운영 방안이 필요하다. 이런 조직 운영 방안의 핵심은 경영진의 직관보다 데이터를 기반으로 하는 과학적(귀납적, 연역적), 합리적 의사 결정을 추구하고, 명령과 체계에 따른 탑 다운(top-down)식 조직 운영 보다 정보의 흐름에 따른 수평적이고 역동적인 조직 운영, 과학적 비즈니스 의사 결정과 실행 과정을 자동화하고 효율적으로 만들기 위한 IT 기술을 적극적으로 뒷받침해주는 것이다.

이렇게 데이터 과학자 조직을 운영하기 위해서는 문제, 목적 지향적으로 일하는 데이터 과학자들의 특성을 존중하는 조직 문화, 데이터 과학자들의 자기조직적 팀 구성, 문제 해결 노력이 기존 구성원들과 마찰, 충돌로 이어지지 않도록 하는 경영진과 조직 차원의 중재, 지원, 내적인 동기에 의해 자발적으로 문제 해결에 집중할 수 있도록 하는 환경을 조성하고 자발적인 협력과 시너지를 통해 성과를 낼 수 있도록 협력, 공유의 패러다임을 기초로 하여 데이터 과학 팀 운영이 이루어져야 한다.

25회: 빅데이터 조직과 시스템 (4) (2019년 1월 28일 게재)
LHC 실험의 과학자들이 지키는 과학자로서 직업 윤리를 살펴보면서 좋은 데이터 과학팀을 만들기 위한 팀 규범과 문화적 요소에 대해 같이 생각해보았다. 데이터 과학팀이 좋은 성과를 낼 수 있는 조직 문화를 만들기 위해 지켜야할 규범들의 필요성과 이유를 LHC 과학자들의 사례를 보면서 생각해보았다.

데이터 과학팀이 좋은 성과를 낼 수 있기 위해서는 각 구성원이 기여한 바에 대한 공정한 평가가 최대한 이루어질 수 있도록 팀이 운영되어야 함을 강조하였다. 표절과 데이터 조작, 성과 가로채기가 과학계에서 중대 범죄로 여겨지는 것과 같이, 각 구성원의 기여에 대한 공정한 평가를 위해서 데이터 과학팀에서도 근절되어야 할 행위임을 얘기하였다.

표절과 데이터 조작, 성과 가로채기는 데이터 과학팀의 성과가 조직에서 올바르게 활용되기 위해서 뿐만 아니라, 데이터 과학팀의 성과에 대한 조직의 신뢰를 위해서도 근절되어야 한다고 언급하였다. 데이터 과학팀의 업무 결과물에 언제나 논리적인 오류와 사실에 근거한 전문적인 추론과 분석이 드러나지 않고 믿을 수 없는 내용과 결과가 가득하다면 결코 그 결과를 믿고 활용할 수 없을 것이다.

26회: 빅데이터 조직과 시스템 (5) (2019년 2월 26일 게재)
당시 많은 논란이 있었던 데이터 과학자는 실재할 수 없고, 데이터 과학자는 사실 데이터 분석가, 데이터 엔지니어, 소프트웨어 엔지니어로 구성된 팀을 말한다는 주장에 대해서 필자의 생각을 밝혔다. 조직의 비즈니스 문제를 해결하기 위해 데이터를 적극적으로 수집하고 데이터에 근거한 판단과 합리적 문제 해결을 지향하는 데이터 과학자들이 갖추어야 된다고 여겨지는 역량의 폭과 종류가 워낙 넓고 많다 보니 정말 한 사람이 모든 자질을 다 갖출 수 있는지에 대한 의구심에서 위와 같은 논란이 벌어진 것 같다고 언급하였다.

위와 같은 논란과 오해는 데이터 과학자를 IT 기술 측면에서만 보아 생긴 오해이며 실제로 데이터 과학자들은 모든 영역에서 전문가 수준의 깊이를 보유할 수는 없더라도 IT 기술을 포함한 다양한 기술과 과학적 사고 방식, 커뮤니케이션과 대인 관계 역량을 갖출 수밖에 없다. 이렇게 다양한 역량과 기술을 갖출 수밖에 없는 이유는 데이터 과학자가 하는 일의 특성과 역할 때문이다.

데이터 과학자가 이런 다양한 역량과 기술을 갖추는 것만으로 데이터 과학자로서 역할을 다할 수 있는 것이 아니라, 이런 다양한 역량과 기술을 비즈니스 문제 해결에 적합하도록 결합, 체계화하고 자신만의 문제 해결 체계와 시너지를 만들어 내는 것이 더 중요하다. 이런 과정은 마치 다양한 원소와 물질이 화학 반응을 일으켜 독특한 특성을 가진 화합물이 되는 것과 비슷하기 때문에 이런 다양한 역량과 기술을 기본적으로 갖추고 있어야 데이터 과학자로서 역할을 다할 수 있다.

데이터 과학자가 가진 기술과 역량이 일반인이 보기에는 다양하고 폭이 넓어 보이더라도, 데이터 과학자의 경험과 경력 이력에 따라 각각의 역량과 기술의 스펙트럼은 다양하고 수준과 깊이도 다르다.  데이터 과학자가 갖추어야 할 역량과 기술의 폭이 넓고 많아 비현실적이기 때문에 잘 알려진 소프트웨어 엔지니어와 데이터 분석가, 비즈니스 전문가로 이루어진 데이터 과학팀을 조직하기 보다는, 데이터 과학자마다 서로 다른 경력 이력과 역량, 기술 스펙트럼의 다양성과 깊이 때문에 서로를 보완하고 시너지를 내기 위해 데이터 과학팀이 필요하다고 보는 것이 더 바람직하다.

데이터 과학자의 성장 경로를 예시로서 제안하였다. 데이터 과학자가 주니어 데이터 과학자, 전문 데이터 과학자, 시니어 데이터 과학자, 수석 데이터 과학자 및 최고 데이터 과학 임원으로 성장하는 과정에서 단계별로 갖추어야 할 역량과 책임의 범위, 역할의 변화에 대해서 살펴보았다. 여기에 예시로 든 성장 경로는 기업과 조직의 당면한 문제와 문화에 따라서 조금씩 달라질 수는 있으나 큰 틀에서는 비슷한 경로를 따르게 된다.

27회: 빅데이터 조직과 시스템 (6) (2019년 3월 25일 게재)
데이터 과학자는 어떻게 키워지고 성장하는지 살펴보았다. 데이터 과학자의 상당수가 컴퓨터 과학을 전공하기 보다는 수학, 물리학, 천문학과 같은 빅데이터를 잘 다루는 기초 과학 분야와 산업 공학, 항공 공학과 같은 거대 시스템을 다루는 공학 분야에서 경력을 쌓은 사람들이 많으며, 그 이유도 알아보았다. 

하둡(Hadoop)과 스파크(Spark)등의 빅데이터 기술을 깊게 연구하고 쓸 줄 안다고 해서 데이터 과학자로서 성장하는 것이 아니라, 이런 IT 기술을 당면한 문제를 해결하기 위해 사용하는 도구로서 기본적으로 다루고, 이런 도구들을 기본적인 소양으로 갖춘 과학적, 합리적 문제 해결 역량과 결합하여 당면한 문제 해결을 위해 적극적으로 활용하고 응용하는 과정에서 데이터 과학자로서 소양이 길러진다.

이런 이유로 좋은 데이터 과학자를 찾기 위해서는 주요 대학의 컴퓨터 과학 전공 대학원이나 연구실만 찾을 것이 아니라, 데이터 과학자로서 소양을 자연스럽게 쌓게 되는 기초 과학과 공학 분야에서 경력을 쌓은 전문가들을 대상으로 하는 것이 좋다고 제안하였다. 이런 분야로서 전통적으로 빅데이터와 데이터 집중(data-intensive)적인 문제를 많이 해결해 온 계산 과학, 수학, 물리학, 천문학과 같은 기초 과학 분야와 엔지니어링 과학과 항공우주공학 분야를 소개하였으며, 이들 분야 전문가들 중에서 데이터 과학자로서 경력을 전환하기 원하는 전문가들을 대상으로 데이터 과학자를 영입하는 것도 좋은 방법이다.

이와 함께 데이터 엔지니어 및 데이터 과학 소프트웨어 개발에 적합한 역량을 가진 전문가들로 과학 기술 계산 분야와 이사이언스(eScience) 분야 전문가들을 추천하였다. 이들은 컴퓨터와 대규모 시뮬레이션을 이용한 문제 해결에 능숙한 전문가들이지만, 앞서 언급한 수학, 물리학, 천문학과 같은 기초 과학, 엔지니어링 과학과 항공우주공학 분야 전문가들에 비해 좀더 소프트웨어 기술 측면의 전문성이 강하여 데이터 과학자로서 역할과 함께 데이터 엔지니어로서 역할도 잘 소화할 수 있다.

데이터 과학자 자리에 지원한 후보자가 좋은 데이터 과학자인지 판단할 수 있는 방법으로 지원자의 경력 성장 경로를 보는 방법, 자신의 일과 삶에 긍정적인 태도와 호기심이 있는지 여부, IT 기술에 대한 관심과 열정이 있는지 확인할 것을 제안하였다.

28회: 빅데이터 조직과 시스템 (7) (2019년 4월 26일 게재)
데이터 과학자를 꼭 외부에서 영입하지 않고 내부 구성원 중에서 자질 있는 구성원을 데이터 과학자로 육성할 수 있는 방법은 없는지 같이 생각해보았다. 불행하게도 데이터 과학자로서 훈련, 성장하는 과정을 일반 기업에서 겪기는 어렵기 때문에 기본적으로 데이터 과학자로 성장하기 좋은 환경을 갖춘 일부 빅데이터 비즈니스 기업과 엔지니어링 기업, 항공우주공학 기업을 제외하고는 내부 구성원을 데이터 과학자로 육성하기는 쉽지 않다. 오히려 내부 구성원들을 데이터 과학자로 육성시키기 위해서라도 좋은 데이터 과학자를 영입해서 내부 구성원들을 데이터 과학자로 훈련시킬 수 있도록 하는 것이 중요하다. 

모든 구성원들을 데이터 과학자로 만들려고 할 것이 아니라, 일반 구성원들이 데이터 과학 업무의 성과물을 잘 활용해서 데이터 기반의 의사 결정과 합리적 업무 수행을 할 수 있도록 데이터 과학 문화를 확산시키는 것도 중요하다. 이를 위해서 필자는 “데이터 과학 문화 확산 플랫폼”의 아이디어를 제안하였다. 이 “데이터 과학 문화 확산 플랫폼”은 데이터 과학자가 아닌 일반 구성원들을 데이터 분석 산출물 콘텐츠를 소비하는 소비자, 또는 고객으로 보고 데이터 과학자들과 데이터 엔지니어, 소프트웨어 엔지니어들이 만드는 플랫폼이다. 이런 “데이터 과학 문화 확산 플랫폼”을 어떤 방식으로 만들지, 어떤 식으로 활용해야 할지에 대해서 소개하였다.

기업과 조직의 비즈니스 문제 해결과 함께 내부 구성원을 데이터 과학자로 양성하기 위한 좋은 방법으로서 잠재적 데이터 과학자 후보자인 내부 구성원들을 데이터 과학자들과 한 팀으로 데이터 과학 프로젝트에 참여시키는 방법에 대해 설명하였다. 이렇게 내부 구성원들을 데이터 과학 프로젝트에 참여시켜 데이터 과학자로 양성하려 시도할 때 유의해야 할 점도 같이 생각해보았다. 이런 데이터 과학 프로젝트가 성공하기 위해 기업과 조직의 리더와 경영진이 데이터 과학 마인드를 가질 필요가 있다는 점도 강조하였다.

29회: 빅데이터 조직과 시스템 (8) (2019년 5월 24일 게재)
데이터 과학팀 리더들이 흔히 저지르는 실수와 리더십을 발휘할 때 필요한 덕목과 리더십 역량들에 대해 살펴보았다. 데이터 과학자가 아닌 내부 구성원이 데이터 과학팀 리더로서 선임되었을 때 흔히 일어나는 데이터 과학 전문가들과 알력과 권력 다툼 문제를 극복하지 못하면 데이터 과학팀이 기업의 투자에 부응하는 성과를 내기 힘들다.

데이터 과학팀 리더 스스로가 팀에 걸림돌이 되지 않도록 조심해야 한다. 이렇게 리더 스스로가 팀에 걸림돌이 되지 않기 위해서는 데이터 과학팀 구성원 각각의 장점과 역량이 모두 독특하며, 이를 이용해 팀에 기여하는 영화 “어벤저스(Avengers)” 영웅들과 같은 팀이라는 사실을 인지하고 팀원 각각의 다양성을 존중하는 것이 필요하다. 이와 함께, 리더 자신이 일부 구성원들의 뛰어남에 압도되지 않고 자신보다 나은 능력을 가진 팀원들과 같이 일하고 이끌 수 있어야 한다.

데이터 과학팀 리더가 구성원 각각의 기여와 성과를 알아보고 인정할 수 있어야 하며, 팀의 성과를 모두 자산의 성과로 돌리고 독차지하는 경우 데이터 과학팀의 팀워크와 팀으로서 역량에 큰 해가 된다. 팀 구성원 각각이 자기 분야의 전문가들인 데이터 과학자들을 대할 때, 이들의 의견과 생각을 경청하지 않고 자신의 생각과 고집을 팀원들에게 몰아붙이거나 리더 자신의 권력과 권한을 남용하여 생각과 의견의 다양성을 억누르는 경우도 데이터 과학팀의 성과와 성장에 큰 해가 된다.

데이터 과학 전문가가 아닌 사람이 데이터 과학팀의 리더로 선임되었을 때에는 디지털 전환(Digital Transformation)으로 상징되는 시장과 기업 환경에서 경력의 변화에 필요한 새로운 리더십을 배우고 학습할 수 있는 좋은 기회로 활용하여 데이터 과학자들과 업무를 통해 성장하는 리더가 되도록 스스로를 다듬는 것이 더 좋다.

30회: 빅데이터 조직과 시스템 (9) (2019년 6월 25일 게재)
데이터 과학팀 리더가 팀 차원의 역량을 극대화하기 위해 필요한 덕목으로서 투명한 소통, 팀의 “케미(die Chemie(독일어), chemistry)”를 만드는 능력, 그리고 팀의 집중력을 유지하는 능력을 들었다.

데이터 과학팀을 이끄는 리더로서 갖추어야 할 덕목으로서 투명한 소통이 중요한 이유는 데이터 과학자 각각의 역량뿐만 아니라 이들이 협업하면서 나타나는 시너지를 팀과 조직의 자산으로 삼고, 이들의 시너지를 통해 팀의 역량이 데이터 과학자들의 역량의 합을 넘어서는 역량으로 발전하기 위함이다. 이와 함께 팀 구성원들이 서로간 건전한 토론과 협업을 통해 문제 해결 역량과 아이디어를 발전시키기 위함이다.

데이터 과학팀에서 투명한 소통이 중요한 또 하나의 이유는 데이터 과학팀의 업무에서 가장 어려운 부분인 잘 정의되지 않은 비즈니스 문제를 풀 수 있는 문제로 새롭게 정의하고, 이에 대한 해결책을 찾아 나가기 위해 서로의 생각과 아이디어를 정확하고 신속하게 이해할 수 있어야 하기 때문이다. 이와 함께, 아이디어와 같은 무형의 자산을 데이터 과학 산출물과 같은 유형의 자산으로 만들고 정제하기 위해서도 투명한 소통이 중요하다.

위의 투명한 소통 문제와 연결이 되는 맥락으로 데이터 과학팀의 “케미(die Chemie(독일어), chemistry)”를 만드는 것이 중요하다. 이렇게 팀만의 독특한 케미를 만들어 내기 위해서는 리더의 업무 조율 역량이 투명한 소통 능력과 함께 절대적으로 중요하다. 데이터 과학팀의 케미는 데이터 과학자 개개인의 역량의 합을 넘어 나타나는 팀만의 독특한 색깔과 역량으로, 리더의 용병술과 팀원에 대한 이해, 팀원들 사이의 갈등을 잘 극복할 수 있도록 도우면서 관계를 부드럽고 조화롭게 이끌 수 있는 대인 관계 능력의 절정으로 태어난다. 이런 팀의 케미를 만들 수 있는 리더의 능력이야 말로 데이터 과학자의 전문성을 뛰어넘는 리더만의 차별화된 능력이다.

데이터 과학팀 리더의 중요한 역량의 하나로서 팀의 집중력을 유지시키는 능력에 대해서 자세히 설명하였다. 천성적으로 지적인 호기심이 일반 구성원들에 비해 높은 데이터 과학자들이 팀 공통의 문제에 집중하여 팀의 성장과 발전에 헌신할 수 있도록 팀원들을 이끌 수 있는 능력은 팀의 성과를 만들고 성장시키기 위해 꼭 필요한 리더의 역할이다. 데이터 과학자들의 호기심과 자율성에 대한 욕구를 존중하면서 팀의 집중력을 유지하는 방법으로 팀 공통의 문제에 대해 주기적으로 팀원들의 주의를 환기시키고, 데이터 과학자들이 호기심을 쫓다가 길을 잃지 않도록 팀원들의 업무 진척 상황에 대해 마이크로콘트롤 방식이 아닌 관심과 참여로 뒷받침해주는 리더십이 필요하다.

31회: 빅데이터 조직과 시스템 (10) (2019년 7월 23일 게재)
데이터 과학팀 리더가 팀원 개개인의 역량을 극대화하기 위해 필요한 팀원들이 집중할 수 있는 환경 만들어 주기, 목표 제시의 방법으로서 팀원들에게 문제를 매력적인 문제로 제시하기를 설명하였다.

데이터 과학 분야가 아닌 일반 구성원들도 업무에 집중하는 것은 꼭 필요하지만, 데이터 과학자들의 경우 집중할 수 있는 업무 환경을 만들어 주는 것이 정말 중요하다고 강조하였다. 데이터 과학자들이 하는 업무는 단순한 반복 작업이나 서류 작성이 아니라, 복잡한 비즈니스 문제를 해결하기 위한 고도의 지적인 작업인 데다가, 머리속의 아이디어를 유형의 산출물과 데이터 분석 성과로 만드는 과정에는 고도의 집중력이 요구되기 때문이다.

이렇게 데이터 과학자들이 업무에 집중할 수 있는 환경을 만드는 것은 단순히 업무 공간을 조용하고 방해받지 않도록 만들어주는 것 만을 의미하는 것이 아니다. 개인적으로 힘든 일로 마음을 빼앗겨 업무에 집중하지 못하거나, 팀원 사이의 갈등이나 따돌림으로 업무에 집중하지 못하는 경우가 생기지 않도록, 리더가 팀원들의 사생활에서의 문제나 팀원 사이의 관계도 맘의 여유를 가지고 관심을 가질 필요가 있다. 팀원들이 팀내에서 안전하다고 느끼고 자신의 역할과 위치에 대한 안정감을 가질 때 최고의 역량을 발휘할 수 있고, 이런 심리적인 안정감이 팀의 성공에 중요함은 최근 구글의 리더십 연구에서도 잘 드러난 바 있다.

데이터 과학자들이 카리스마 있는 리더의 명령에 복종하여 일사불란하게 움직이는 것을 기대하기 보다는, 각자가 자신의 역량을 최고로 발휘하여 몰입할 수 있는 동기부여의 방법으로 팀이 당면한 문제를 매력적인 문제로서 제시하고 이 문제를 해결할 수 있는 최고의 전문가로서 자신감을 북돋아 주는 것이 “어벤저스(Avengers)”와 같은 특성을 가지는 데이터 과학팀에서는 더 나은 리더십이다.

자신의 능력과 아이디어로 자신만의 고유의 기여를 남기고 싶어하는 데이터 과학자들에게는 매력적인 문제로 동기부여하는 것이 더 효과적이다. 금전적인 보상으로만 동기부여 하는 것은 데이터 과학자들의 역량을 극대화하는데 항상 효과적이지는 않다. 자신이 팀의 문제를 해결하면서 얻을 수 있는 성장과 이로 인해 팀과 조직, 그리고 산업계에 끼칠 수 있는 영향력과 같은 내적인 동기를 더 중요하게 생각하는 경우가 많고, 이런 특성이 팀과 조직의 성공에 정렬되어 극대화되도록 리더가 데이터 과학자들을 동기부여하는 것이 좋다.

32회: 빅데이터 조직과 시스템 (11) (2019년 8월 26일 게재)
데이터 과학팀의 운영 원리로서 “역할 중심 조직(role-centric organization)”에 대해서 살펴보았다. 기존의 기업 조직은 대부분 위계를 통해 개개인의 능력과 역할의 중요성이 평가받는 “위계 중심 조직(hierarchical organization)”이다. 소위 “어벤저스(Avengers)”의 영웅들과 같은 뛰어난 능력을 가진 개개인이 서로를 도우면서 당면한 문제를 같이 풀어가는 전문가 그룹과 같은 조직은 역할 중심 조직이 더 적합하며, 최근 실리콘밸리 스타트업을 중심으로 이런 역할 중심 조직 모델이 확산되고 있다.

위계 중심 조직과 역할 중심 조직의 차이에 대해서 같이 살펴보았으며, 데이터 과학자들의 특성과 업무 능력을 고려하면 데이터 과학팀은 역할 중심 조직으로서 운영되는 것이 바람직하다. 이렇게 수평적인 역할 중심 조직을 효과적으로 운영하고 팀의 역량을 극대화할 수 있는 조직 운영 원리로서 “홀라크라시(Holacracy)”를 살펴보았다.

홀라크라시가 기존 위계 조직의 운영 방법과 어떤 차이를 가지는지, 홀라크라시의 독특한 기능적 위계 특성인 “홀라키(Holachy)”와 “서클(Circle)”, “슈퍼 서클(super-circle)”, “전체 회사 서클(General Company Circle; GCC)”, “앵커 서클(Anchor Circle)”과 같은 조직 구성 개념, “대표 링크”, “리드 링크”, “진행자(facilitator)”, “서기(secretary)”와 같은 홀라크라시만의 독특한 역할 개념도 같이 살펴보았다. 홀라크라시가 작동하게 하는 “전술 회의(Tactical Meeting)”와 조직 체계를 구축하고 진화시키는 “거버넌스 회의(Governance Meeting)”의 개념에 대해서도 같이 살펴보았다.

수평적인 역할 중심 조직을 운영하는 원리로서 홀라크라시를 현재 기업 조직에 운영할 때 생길 수 있는 문제점과 실제 사례, 그리고 우리 나라 대부분의 기업에서 홀라크라시를 도입하기는 아직 쉽지 않은 점도 같이 생각해보았다. 홀라크라시 실험이 우리에게 주는 교훈으로 현재 위계 중심 조직에서 생기는 권력과 정보의 불균형으로 나타나는 조직 문제를 역할 중심 조직의 수평성, 전문성, 투명한 소통으로 보완할 필요가 있다는 것이 분명하다는 것은 우리가 데이터 과학팀과 디지털 전환(Digital Transformation)의 성공을 위해 다시 생각해볼 문제이다.

33회: 빅데이터 조직과 시스템 (12) (2019년 9월 27일 게재)
데이터 과학팀을 효과적으로 운영할 수 있는 조직 운영 도구의 하나로서 애자일 방법론을 데이터 과학의 관점에서 살펴보았다.

애자일 방법론은 전통적인 소프트웨어 개발 방법론이었던 “폭포수 개발 방법론(Waterfall method)”의 문제점과 “소프트웨어 위기(Software Crisis)”를 극복하기 위해 제안된 소프트웨어 개발 주기의 반복적(iterative), 점진적(incremental) 향상의 개념을 체계화한 것이다. 최근 빠른 상품 개발과 고객 피드백을 통해서 시행 착오를 줄이고 상품과 서비스의 조기 성공을 꾀하는 실리콘밸리 스타트업을 중심으로 확산되어 주요 소프트웨어 및 플랫폼 기업을 중심으로 자리잡아가고 있다.

애자일 방법론이 데이터 과학 프로젝트 수행에도 적합한 방법론이며, 왜 그런지 설명하였다. “스크럼(Scrum)”으로 대표되는 애자일 방법론이 가진 반복적이며 점진적인 개선을 통한 위험 분산이 잘 정의되지 않은 비즈니스 문제를 조사하고 해결책을 찾아가는 데이터 과학 프로젝트의 특성에도 적합하다.

다만 서비스 플랫폼이나 상품 개발을 위한 소프트웨어 개발 프로젝트와 데이터 과학 프로젝트의 차이점은 분명히 있다. 데이터 과학 프로젝트의 특성을 고려해서 어떻게 “고쳐 쓸(tailoring)” 것인지 몇 가지 생각할 점을 제시하였다. 데이터 과학자들의 자율성과 역량을 극대화할 수 있도록 시스템화를 최소한으로 유연하게 할 필요가 있으나, 문제 해결의 단계를 두고 체계적이고 반복적인 과정으로 문제 해결 과정을 시스템화 하는 것은 데이터 과학 프로젝트의 위험 분산과 체계적인 문제 해결을 위해 꼭 필요하다. 데이터 과학 프로젝트의 경우, 풀려는 문제를 정의하고 데이터 과학 프로젝트를 기획하는 단계가 별도의 릴리즈로서 계획, 실행될 필요가 있다. 

데이터 과학 프로젝트의 기획과 수행 계획이 한 번에 만들어지기 어려움을 경영진들과 의사 결정자들이 이해할 필요가 있으며, 이런 이유로 애자일 방법론의 반복적이고 점진적인 프로젝트 운영 방식이 데이터 과학 프로젝트에도 적합하다. 시장의 상황이 시시각각 변하고, 똑같은 상황이 나타날 가능성이 높지 않다는 것도 애자일 방법론을 통해 데이터 과학 모델과 데이터 분석 내용을 지속적이고 반복적으로 보완하는 과정이 꼭 필요하다는 것을 잘 뒷받침해준다. 

데이터 과학 프로젝트가 데이터 과학자들만으로 수행되는 것이 아니라 소프트웨어 엔지니어와 데이터 엔지니어, 업무 전문가와 비즈니스 컨설턴트와 같은 다양한 전문가들과 협업이 필요한 프로젝트이기 때문에 애자일 방법론이 데이터 과학 프로젝트에 적합하다. 특히, 데이터 과학 프로젝트에 꼭 필요한 소프트웨어 엔지니어와 데이터 엔지니어와의 협업과 아이디어 교환, 정기적인 성과물 점검을 위해서도 애자일 방법론이 데이터 과학 프로젝트 관리에도 적합한 도구가 된다.

최근 많이 도입되고 있는 클라우드 컴퓨팅 서비스와 인프라를 이용해 데이터 과학 프로젝트를 수행하는 경우에도 클라우드 컴퓨팅 서비스를 이용하면서 생기는 비용과 자원을 정기적으로 점검할 수 있다는 측면에서 애자일 방법론이 적합하다. 이 점은 22회 글에서 빅데이터 프로젝트 관리를 위해 자원 관리를 염두에 둔 조직 구조 설계가 중요하다는 것을 설명한 것과 같은 맥락이다.

34회: 빅데이터 조직과 시스템 (13) (2019년 10월 2일 게재)
33회 글에서 데이터 과학 프로젝트 관리에 애자일 방법론이 적합하다는 것을 설명했던 것을 좀더 심화하여, 대표적인 애자일 방법론인 “스크럼(Scrum)” 개발 방법론을 데이터 과학 프로젝트에 어떻게 적용할 것인지 같이 생각해보았다.

먼저, “스크럼(Scrum)” 개발 방법론이 무엇이고, 어떤 방식으로 프로젝트 관리를 수행하는지 개념과 주요 용어를 같이 살펴보았다. “릴리즈(release)”, “스프린트(sprint)”와 같은 개발 주기 단위와 “릴리즈 플래닝(release planning)”, “스프린트 플래닝(sprint planning)”, “스프린트 리뷰(sprint review)”, “스프린트 회고(sprint retrospectives)” 프로젝트 수행 단계, “상품 백로그(product backlog)”, “스프린트 백로그(sprint backlog)”, “번다운/번업 차트(burndown/burnup chart)”와 같은 주요 산출물의 개념, “사용자 스토리(user story)”, “스크럼 포커(Scrum poker)”, “칸반 보드(Kanban board)”, “짝 프로그래밍(pair programming)”, “일일 스크럼 회의(daily scrum meeting)”과 같은 스크럼 프로젝트 관리의 주요 도구들의 개념과 내용도 같이 살펴보았다. 스크럼(Scrum) 방법론과 “테스트 주도 개발(test-driven development; TDD)”과의 관계도 같이 살펴보았다.

스크럼(Scrum) 개발 방법론은 반복적이고 꾸준한 데이터 과학 산출물과 분석 결과를 만들 수 있도록 하여 데이터 과학팀이 조직의 신뢰를 얻고 꾸준한 성과를 만들고 관리할 수 있도록 하는데 도움이 된다. 뿐만 아니라, 소프트웨어 엔지니어들과 협업, 의사소통을 체계적이고 효과적으로 지원할 수 있는 프로젝트 관리 방법론이다. 데이터 과학 프로젝트의 특성상 데이터 분석에 필요한 인프라와 시스템의 변화, 성장을 클라우드 컴퓨팅을 이용해 효과적으로 포용하고, 클라우드 컴퓨팅을 사용하면서 생기는 프로젝트 자원 변화 위험을 스크럼(Scrum) 방법론을 통해 효과적으로 통제, 관리할 수 있다.


* 김진철 박사는 1997년 한국과학기술원에서 물리학 학사, 1999년 포항공과대학교에서 인공신경망 연구로 석사 학위를, 2005년 레이저-플라즈마 가속기 연구로 박사 학위를 받았다. 2005년부터 유럽입자물리학연구소(CERN)의 LHC 데이터 그리드 구축, 개발에 참여, LHC 빅데이터 인프라를 위한 미들웨어 및 데이터 분석 기술을 연구했다. 이후 한국과학기술정보연구원(KISTI), 포항공과대학교, 삼성SDS를 거쳐 2013년부터 SK텔레콤에서 클라우드 컴퓨팅과 인공지능 기술을 연구하고 있다. 빅데이터와 인공지능 기술의 기업 활용 방안에 대해 최근 다수의 초청 강연 및 컨설팅을 수행했다. ciokr@idg.co.kr

X