Offcanvas

CIO / How To / 리더십|조직관리 / 분쟁|갈등 / 빅데이터 | 애널리틱스 / 인문학|교양

김진철의 How-to-Big Data | 빅데이터 조직과 시스템 (4)

2019.01.28 김진철  |  CIO KR
지금까지 필자의 기고문은 각 회 전반부는 CERN과 LHC 실험의 현황과 실제 사례를 소개하고, 글의 후반부에 이 사례가 빅데이터 비즈니스에 주는 시사점을 논의하는 방식이었다. 필자가 약속한 빅데이터 조직과 시스템, 데이터 과학자 인력 채용과 운용에 관련된 추가 기고에서는 형식을 조금 바꾸어서 필자가 고객들과 지인들로부터 받은 가장 많은 질문과 고충사항에 대한 의견을 정리하는 식으로 글의 형식을 잠시 바꾸고자 한다.
 
ⓒCredit: GettyImages


글의 형식을 이렇게 바꾸는 이유는 일단 CERN과 LHC 실험의 빅데이터 조직과 시스템, 인력 운용에 대한 필자의 경험과 찾을 수 있는 문헌이 다소 제한되어 문의 사항에 대한 적절한 사례를 바로바로 찾기 어려운 점도 있고, 고객들과 지인분들의 고충사항에 대한 궁금증을 먼저 해소해드리는 것이 글의 취지에 더 적절할 것 같다는 생각도 있기 때문이다. 추가 기고에서 빅데이터 비즈니스 조직과 운영, 그리고 데이터과학자로서 커리어 계발에 대한 궁금증이 조금이나마 먼저 해소되길 바란다.

빅데이터 비즈니스 조직과 운영, 데이터과학자 커리어에 대한 추가 기고가 이어진 후에는 이 How-to-Big Data 시리즈를 마무리하는 의미로 몇 회에 걸쳐서 지금까지 살펴본 빅데이터 비즈니스의 교훈을 앞으로의 기업 비즈니스 개발에 적용하는 문제를 같이 생각해보고, 지금까지 살펴본 빅데이터 비즈니스의 전반적인 요소가 최근 기업 IT 트렌드와 어떤 연관이 있고 앞으로 어떻게 발전해 나갈 것인지 같이 예측해 보려고 한다. 부디 미래의 기업 IT 인프라를 어떻게 발전시켜야 할지 고민하는 CIO 및 IT 전문가들에게 조금이나마 도움이 되길 바란다.

좋은 데이터과학팀을 만들기 위해서는 어떻게 해야 하는가? - 데이터과학팀의 문화적 규범
지난 스물 네번째 글에서는 데이터과학자로서 LHC 물리학자들의 일반적인 특성에 대해서 알아보았다. 물론, LHC 실험을 수행하는 물리학자도 모두 사람이고, 물리학자마다 개성이 다르고 차이가 크지만, 그 개인적인 차이에도 불구하고 보편적으로 나타나는 일반적인 특징이다. 그런 특성들이 실제 연구 현장에서 어떻게 나타나는지는 사람에 따라 크게 차이가 있을 수 있다.

이번 글에서는 LHC 실험 공동체의 문화적 규범에 대해서 같이 살펴보려고 한다. LHC 실험은 다양한 국적과 민족의 과학자들이 모여 같은 목표를 위해 실험과 연구를 수행하는 LHC 프로젝트가 이런 국적과 민족의 다양성을 초월하여 우주를 이루는 물질을 지배하는 근본 법칙의 발견 및 검증이라는 공동의 목표를 위해 협력하고 그 성과를 창출하기 위해 지켜야 하는 규범에 대해서 같이 살펴보면서 데이터과학팀의 문화적인 규범을 어떻게 만들어가야 할지 같이 고민해보자.

다른 과학 분야와 마찬가지로 LHC 커뮤니티 또한 연구자 본인만의 독창적이고 고유한 업적에 대해 높이 평가하며, 표절과 데이터 조작, 동료 연구자들의 업적을 가로채는 행위는 중대한 범죄로 생각한다. 데이터과학팀이 빅데이터 분석을 통해 비즈니스에 도움이 되는 새로운 지식과 통찰을 밝혀내기 위해서 꼭 필요한 아이디어와 생각의 자유로운 흐름이 데이터과학팀에 나타나기 위해서는 역시 데이터과학자 각각이 본인만의 독창적인 기여를 할 수 있도록 표절과 데이터 조작, 성과 가로채기가 일어나지 않게 엄격하게 관리해야 한다.

과학을 포함한 학문 대부분 분야에서 표절과 데이터 조작은 중대한 범죄로 인식된다. 실제로 이런 표절과 데이터 조작은 과학 연구의 근본을 깨는 심각한 범죄 행위로 과학계에서 인식되고 있다. 이런 과학계의 전통과 규범을 따라 일하는 LHC 물리학자들은 자신만의 독창적이고 고유한 연구 성과를 내기 위해 피나는 노력과 많은 시간을 연구에 몰입하여 노력한다.

사실 과학계에서 표절과 데이터 조작, 성과 가로채기가 전혀 일어나지 않는 것은 아니다. 연구팀과 조직의 권력 위계에 따른 연구 성과 무임승차나 암묵적인 표절, 성과 가로채기나 연구자의 성과에 대한 조급한 마음, 또는 공명심과 명예욕으로 데이터 조작 등의 사례가 실제로 일어나기도 한다. 하지만, 일단 이런 표절과 성과 가로채기, 무임승차의 사례가 발견되면 연루된 연구자들은 해당 전문 연구 분야에서 거의 매장될 정도로 혹독하고 가혹한 징계나 인사 조처를 받게 마련이다. 왜 이렇게 표절과 성과 가로채기와 같은 일들을 과학계에서 유독 엄격하게 관리하는 것일까? 표절, 데이터 조작, 성과 가로채기 각각에 대해 이들 부정이 일어났을 때 어떤 부작용이 있는지 살펴보면서 왜 이들을 엄격하게 관리해야 하는지 알아보도록 하자.

먼저 표절은 연구자들의 자발적이고 헌신적인 연구와 몰입을 방해하기 때문에 엄격하게 금지되어야 한다. 지난 스물 네번째 글에서 LHC 연구자들이 자신들의 데이터 분석과 연구에 몰입하는 이유는 지적인 호기심과 우주의 근본을 이해하고 싶어 하는 고상한 동기도 있지만, 과학자 커뮤니티에서 자신의 입지를 다지고 과학자로서 좋은 직장을 얻고 생활을 안정시키고 싶어 하는 현실적인 이유도 있다고 얘기한 바 있다.

표절이 만연하고 허용되게 되면 자신만의 고유하고 독창적인 연구 성과를 내기보다는 학계에서 발표되는 연구 성과를 가만히 지켜보다가 그럴듯해 보이는 연구 성과물을 보게 되면 그 내용만 가져다가 자신의 이름으로 발표해버리는 경우가 많아지게 될 것이다. 이렇게 되면 적당히 연구성과만 내면서 과학자라는 타이틀만 유지하며 자리만 지키려는 사람들이 많아져 과학자 본연의 임무인 새로운 자연 현상의 발견과 연구를 통한 지식과 통찰을 추구하는 일이 제대로 이루어지지 않게 될 것이다. 자연에 대한 새로운 통찰을 줄 수 있는 새로운 관점과 지식을 제공하는 연구보다는 그럴듯하고 비슷한 연구들만 넘쳐나게 되어 정말로 쓸모 있는 지식과 통찰을 주는 연구 성과물을 찾기가 어렵게 되고, 과학이 인류 사회 발전에 주는 효용도 크게 감소하게 되어 사회가 더 이상 과학의 발전에 투자하지 않게 될 것이다.

표절이 만연하게 되면, 과학자의 역할을 진심으로 수행하면서 중요하고 도전적인 연구를 하려는 과학자들이 다른 연구자들의 연구만 가져다가 연구 성과만 부풀리는 과학자들에 비해 연구성과 평가 측면에서 불이익을 받을 가능성이 커지게 되기 때문에, 과학자의 역할을 제대로 수행할 수 있는 역량 있는 연구자들이 제대로 후원을 받을 수 없게 되어 사회로서는 큰 손실을 안게 된다. 아직 인류가 모르는 새로운 지식과 통찰을 시행착오나 열띤 논쟁과 치열한 분석이 없이 쉽게 얻을 수는 없기 때문이다. 

이런 과학자 커뮤니티에서 연구 과정에서 나타나는 시행착오, 열띤 논쟁, 치열한 분석과 합의의 과정을 지나기 위해서는 시간이 필요하다. 이렇게 새로운 지식과 통찰이 과학자들과 사회에 유용한 지식으로서 인정받기 위해 꼭 필요한 숙성의 시간을 거친 진정한 지식과 통찰이 우대받을 수 있는 문화를 과학자들이 유지해 나갈 수 있으려면 표절은 엄격하게 관리되고 징계 되어야 한다. 과학자의 본분을 다하는 연구자들이 그들의 노력과 헌신을 인정받고 과학자로서 안정된 활동을 보장받기 위해서 과학 커뮤니티의 직업윤리로서 표절을 금지하는 것은 위와 같이 과학 커뮤니티의 존속과 본분을 지키기 위해 정말 중요한 일이다.

위의 표절에 이어 데이터 조작이 엄격하게 금지되어야 하는 이유는 과학 연구 결과의 신뢰성을 지키기 위해서이다. 과학적 방법론으로 추구한 지식이 믿을 만한 지식으로 사회에서 쓰이고 자리 잡기 위해서는 과학적 방법론으로 얻은 지식이 정말 믿을 만하고 쓸만한 것이어야 할 것이다. 데이터는 과학적 방법론으로 추구한 지식이 정말 믿을 만하고 쓸만한 지식인지 논증하고 뒷받침하기 위한 근거로 활용될 뿐만 아니라, 엄밀한 과학적 지식 추구 방법론을 통해 사고를 정밀하고 엄격하게 하여 새로운 지식에 이르는 논리와 사고 과정을 체계적이고 신뢰할 만한 것으로 만들기 위해서도 필요하다.

 데이터를 얻는 과정에 문제가 있어 데이터가 원래 목적한 바를 증명하거나 뒷받침하기에 문제가 있었다거나, 데이터의 양과 품질에 문제가 있어 연구 결과로 얻은 지식과 통찰에 이르게 된 논리와 사고 과정의 신뢰성이 의심을 받을 수밖에 없다면 연구 결과 얻은 지식과 통찰을 믿을 수 없게 되기 때문에 믿고 사용할 수 없게 될 것이다.

실험과 시뮬레이션, 또는 데이터 수집 방법을 통해 얻은 데이터 자체의 신뢰성을 높이는 것도 어려워 이런 데이터를 근거로 새로운 지식과 통찰을 뒷받침하기도 쉽지 않은데, 만약 과학자들이 자신의 주장을 뒷받침하기 용이하도록 데이터를 수시로 조작하고 이런 데이터 조작이 과학계에 만연하게 되면 어떤 연구 결과를 믿고 믿을 수 없는지 판단하는 것이 어려워지게 된다. 이렇게 되면 동료 과학자들이 얻은 결론과 실험 결과를 토대로 새로운 과학적 지식과 통찰을 쌓아나가는 과학자들이 어떤 결론과 실험 결과를 믿고 믿지 말아야 할지 판단하고 검증하는데 더 많은 시간과 노력이 필요하게 되기 때문에 과학 지식의 발전 속도도 느려질 뿐만 아니라, 과학자들이 연구해 낸 과학적 지식의 효용성과 신뢰성도 의심할 수밖에 없는 상황에 이르게 된다.

위와 같은 이유로 과학계에서는 데이터 조작과 이를 이용한 연구 부정을 더욱 더 엄격하게 관리하는 것이다. 우리나라에서는 이미 널리 알려진 황우석 전 서울대 교수의 사이언스 논문 부정 사건도 바로 이런 데이터 조작에 의한 연구 부정이었다. 황우석 교수 줄기세포 연구 부정뿐만이 아니라 일본의 오보가타 하루코라는 젊은 연구자의 STAP 세포 연구 부정 사건도 최근 잘 알려진 데이터 조작 연구 부정에 관련된 사건이다.

일본 이화학연구소(RIKEN)에서 일하던 오보가타 하루코 연구 주임은 2014년 “자극야기 다능성 획득 세포(Stimulus-Triggered Acquisition of Pluripotency; STAP)”라는 새로운 만능세포를 만들었다고 주장했다. 그러나, 논문 결과가 재연되지 않고 논문에 근거로 실린 데이터의 문제점이 드러나게 되면서 결국 연구 결과가 발표된 네이처지의 논문이 철회되고 오보가타 하루코는 일본 이화학연구소(RIKEN)를 떠나야 했다. 이 STAP세포 연구 부정 사건도 과학계에서 데이터의 신뢰성이 얼마나 중요하게 여겨지는지를 보여주는 사건이라고 할 수 있다[2-6].

최근 과학계의 경쟁이 치열해지고 의미 있는 실험 데이터를 얻기 위해 들여야 하는 노력과 비용, 시간이 증가하면서 성과 압박과 사회적인 인정을 빨리 얻고자 하는 공명심으로 인해 데이터와 논문을 조작하고 이로 인해 연구자들이 자신의 직장을 떠나고 과학계에서 매장당하는 사례가 상대적으로 자주 나타나고 있다. 이런 데이터 조작에 대해 과학계에서 엄격하게 대처하지 않는다면 우리는 과학자들이 연구한 결과를 믿고 활용하기가 어려울 것이다. 과학자들이 얻은 지식의 공공성과 그 사회적인 여파를 고려할 때 과학 커뮤니티에서 데이터 조작에 의한 연구 부정을 엄격하게 관리하는 자체적인 정화 체계가 작동하고 있는 것은 참 다행스러운 일이 아닐 수 없다.

데이터 조작의 사례는 아니지만, 과학 연구에서 믿을 수 있는 데이터를 확보하는 문제의 중요성을 잘 보여주는 사례를 하나 간단하게 소개하려고 한다. 스웨덴 린쾨핑 대학(Linköping University)의 의공학과(Department of Biomedical Engineering) 교수인 안데르스 에크룬트(Anders Eklund)와 한스 크누트슨(Hans Knutsson), 영국 워릭 대학(University of Warwick) 통계학과의 토마스 니콜스(Thomas E. Nichols) 교수는 기능자기공명영상 기기(Functional Magnetic Resonance Imaging; fMRI)를 이용한 뇌기능 연구에 쓰인 클러스터링 분석 방법의 오류로 인해서 당시까지 약 15년 동안 수행된 fMRI를 이용한 뇌기능 연구 관련 논문 약 40,000편의 결과를 재검토해야 할 수 있다는 가능성을 제기하였다[7].

안데르스 에크룬트(Anders Eklund)와 한스 크누트슨(Hans Knutsson), 토마스 니콜스(Thomas E. Nichols) 교수의 fMRI 데이터 분석 오류 문제 제기는 뇌과학계에 큰 혼란을 불러왔다. 우리 사람의 두뇌를 연구하는데 두뇌를 절제하거나 변형하지 않고 비파괴적인 방법으로 사람이 정상적인 활동을 하는 상태에서 두뇌의 기능을 조사하고 관찰할 방법으로 fMRI가 거의 유일하기 때문이다. 만약 이런 fMRI 영상 분석 알고리즘의 오류 가능성이 사실이라면 fMRI 영상을 사용한 연구 결과와 이 fMRI 영상을 이용한 연구 결과를 활용해 수행된 응용 연구, 특히 인공 지능 및 뇌의학 분야의 많은 연구가 낸 결론들이 모두 잘못될 것일 수도 있었다. 

위 세 연구자의 fMRI 데이터 분석 오류 가능성을 주장한 논문은 뇌과학계의 많은 논란을 불러일으켰으며[8-13], 대중 매체와 언론에서 대서 특필되었다[14-18]. 특히 fMRI를 이용한 연구 결과들은 뇌와 관련된 질병을 진단하는 데에도 많이 활용되어 사람의 생명과 의료 사고에도 직결될 수 있는 연구였기 때문에 사회적으로도 큰 파장을 불러일으켰다[14-18].

위 세 과학자가 제기한 fMRI 영상 분석 방법의 오류 가능성이 사실이라면 fMRI가 사용된 약 15년간의 영상 뇌과학 연구 결과 상당수를 처음부터 다시 검토하여 확인해야 할 수도 있었다. 이 얘기는 최악의 경우 뇌과학에서 쌓은 지난 15년간의 연구 결과 대부분이 잘못된 것일 수도 있다는 것이며, fMRI를 이용한 영상 뇌과학이 15~20년 전으로 퇴보한다는 것을 의미하기 때문이다.

이렇게 단순한 fMRI 영상 분석 방법의 오류 가능성으로 인해 생긴 연구 결과의 오류 및 신뢰성 문제도 과학계와 사회에 미치는 영향이 이렇게 크고 심각할 수 있는데, 만약 과학자들이 임의로 데이터를 조작해서 연구 결과를 내는 관행이 과학계에 만연한다면 어떤 결과를 믿고 후속 연구를 진행해야 할지 알 수 없어 과학자 간에 큰 혼란이 생기게 될 것이다. 과학자들은 데이터와 연구 결과를 검증하는데 많은 시간과 노력을 들여야 하기 때문에 과학의 발전이 더뎌지고 과학이 퇴보하게 될 것이다.

위와 같은 이유로 데이터 조작은 과학의 발전을 방해하고 과학 자체를 퇴보시킬 뿐만 아니라, 과학 연구를 위한 비용과 시간을 증가시켜 효율을 떨어뜨리는 원인이기 때문에 과학계에서 범죄로 인식하고 엄격하게 금하고 있다. 다행히도 데이터 조작에 의한 연구 결과는 같은 분야에서 일하는 동료 연구자들의 재연 실험이나 검증으로 대개 사실인지 아닌지 잘 밝혀진다. 과학자들의 연구윤리 의식과 전문가로서의 사명감으로 과학계 내에서 자체적으로 잘 작동하는 데이터 조작 범죄에 대한 정화 메커니즘이 있다는 것은 참 다행스러운 일이다.
 


표절, 데이터 조작과 함께 과학자 커뮤니티에서 엄격하게 관리하고 과학자들에게 요구하는 또 하나의 연구윤리는 성과 가로채기를 금하는 것이다. 성과 가로채기는 과학자들의 연구 의욕과 생산성을 떨어뜨린다는 점에서 부정적이며, 최근 과학계에 경쟁이 치열해지면서 상대적으로 많이 나타나고 있다.

성과 가로채기의 경우 연구 결과의 신뢰성에 미치는 영향은 앞에서 언급한 표절이나 데이터 조작보다는 적다고 볼 수 있다. 그렇지만, 과학자들의 연구 의욕과 생산성, 연구개발조직에 투자한 비용, 시간 대비 생산성과 투자회수비용을 떨어뜨려 역시 연구개발을 수행하는 조직과 과학자 자신의 평판과 신뢰성에 영향을 주기 때문에 과학계에서 신경 써서 관리하는 주요 연구부정 중의 하나다.

성과 가로채기가 과학자들에게 미치는 영향은 앞서 얘기한 표절과 맥락이 비슷하다고 볼 수 있다. 표절과 성과 가로채기가 다른 점은 표절은 이미 있는 연구 결과를 도용해서 자신의 연구 결과로 발표하는 것이지만, 성과 가로채기는 아직 공식적으로 발표되지 않은 연구 성과를 가져다가 자신의 연구 결과로 발표하는 것이 다르다. 이런 문제 때문에 성과 가로채기는 표절보다 눈에 잘 띄지도 않으면서 상대적으로 많이 일어나는 것으로 알려져 있다.

성과 가로채기가 과학계에서 범죄가 되는 이유 첫번째는 앞서 설명한 표절의 경우처럼 성과 가로채기가 만연할 경우 과학 연구의 생산성과 진보의 속도가 크게 떨어지고 이는 연구개발에 투자한 조직의 비용과 비즈니스 기회 손실로 나타나기 때문이다.

 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.