2017.11.01

'300년 제약기업’ GSK가 애널리틱스 선도업체가 된 비결

Clint Boulton | CIO
글락소스미스클라인(GlaxoSmithKline, GSK)의 꿈은 빅데이터만큼 크고 거창하다. 제약 업계의 거물인 이 기업은 수십 년간 쌓아 온 임상 시험 데이터를 활용해 더 빠르게 신약을 내놓고 있다. 이러한 빅데이터 활용 사례가 성공한다면 GSK는 디지털화라는 시대 흐름을 따라가지 못하고 있다는 지적을 받고 있는 제약 업계에서 비교 우위를 차지하게 될 것이다.



GSK의 최고 데이터 책임자(CDO) 마크 램지의 목표이자 과제도 바로 이것이다. 그는 GSK가 데이터 활용에 있어 가뜩이나 느린 제약 업계에서도 뒤처진 편이라고 진단한다. 2015년 GSK가 램지를 영입한 것도 이러한 상황에서 벗어나기 위해서였다.

램지는 “금융업계나 통신업계, 유통업계와 달리 제약 업체들은 데이터를 전략적 자산으로 활용하지 못한다. 따라서 우리의 제1 목표는 더 효율적이고 효과적으로 임상 시험을 진행해 신약 개발 기간을 단축하는 것이다”라고 말했다. 그는 삼성에서 모바일 CDO로, 그리고 IBM에서 18년간 근무하며 여러 데이터 애널리틱스 관련 업무를 수행했다.

그렇지만 무한한 잠재력을 지닌 풍부한 데이터를 사일로 속에 그저 방치하고 있는 것은 제약 업계만이 아니다. 많은 기업이 데이터를 이용해 기업 운영 효율을 높일 수 있는 적합한 인물을 찾고 있다. 가트너는 2019년 말 기준 대기업의 90% 이상이 CDO를 선임할 것으로 전망한다. 가트너 애널리스트 더그 래니는 "2020년이면 업계의 선도 업체 중 절반 이상에서 CDO가 CIO만큼의 전략적 영향력과 권위를 갖게 될 것이다”라고 말했다.

CDO는 자신의 우선 순위와 기업의 우선 순위를 조율해 리더로서 역할을 정립해야 한다. 램지가 궁극적으로 바라는 것도 바로 이것이다. 그렇다면 그는 GSK의 데이터 전략을 정비하기 위해 어떤 노력을 기울이고 있을까.

데이터의 기반을 닦다
짧게는 수십 년, 길게는 수백 년에 이르는 제약 업체는 임상 시험을 통해 방대한 데이터를 수집한다. 그러나 이들 대부분이 데이터 저장소에 이들을 넣어 둔 채 두 번 꺼내보지 않는다. 임상 시험이 진행될수록 그저 정보만 잔뜩 쌓여가는 것이다. 300년 역사를 가진 GSK 역시 2,100개가 넘는 사일로에 페타바이트 규모의 데이터를 갖고 있다. 이 중 상당수가 데이터 마이닝을 통해 유의미한 통찰력을 제공할 수 있을 것으로 램지는 기대하고 있다.

램지는 처음 GSK에 합류했을 때 GSK의 데이터 프로필을 살펴본 후 데이터 애널리틱스가 기업 전반에 걸쳐 전체적으로 활용되지 못하고 있음을 깨달았다. 신약 출시를 위한 일회성 임상 시험에서만 조금씩 사용됐다. 그는 여러 임상 시험에 걸쳐 데이터를 공유할 충분한 기회가 있다고 봤지만, 이는 GSK 빅데이터 인포메이션 플랫폼(GSK Big Data Information Platform)과 같은 포괄적 데이터 플랫폼 없이는 불가능했다.

현재 이 플랫폼의 기반은 클라우데라 하둡 데이터 레이크가 맡고 있다. 스트림셋(StreamSets)의 자동 봇 테크놀로지가 수천 개 운영체제에서 생성된 데이터를 확보하면, 트리팍타(Trifacta) 소프트웨어가 너저분하고 정리되지 않은 데이터셋을 깔끔하게 정리해 현업 사용자가 분석할 수 있는 상태로 바꾼다.

이후에는 타머(Tamr)의 머신러닝 소프트웨어를 활용해 이러한 데이터를 제약 업계에 종사하는 종양 연구자들 및 앳스케일 소프트웨어로 이전해 데이터를 시각화한다. 현업 사용자는 줌데이터(Zoomdata) 시각화 소프트웨어를 통해 데이터를 확인할 수 있다. 구글의 텐서플로우, 팁코(Tibco) 스포트파이어(Spotfire), 그리고 아나콘다(Anaconda) 등도 사용된다. 램지는 "다양한 기술을 통합해 데이터를 공유하고, 이를 통해 임상 시험이 더 편리해 졌다”라고 말했다.

이러한 프로젝트의 하나로, GSK는 12페타바이트 가량의 정형 데이터와 8페타바이트 가량의 비정형 데이터를 플랫폼으로 이전하는 데 성공했다. 이미 11개월 전에 이 작업을 마쳤는데, 제약업계는 물론이고 타 업종의 기업과 비교해도 매우 빠른 속도다. 램지는 “GSK는 300년이 넘은 기업이지만, 지금은 스타트업의 마음가짐으로 일하고 있다”라고 말했다.


데이터 발굴 시간 단축
GSK 빅데이터 인포메이션 플랫폼은 이미 그 값을 톡톡히 하고 있다. 임상 시험에 필요한 데이터를 발굴하는 시간을 획기적으로 줄였기 때문이다. 예전에는 혈액형과 호흡기 질환 의약품의 효능 간의 상관 관계를 파악하기 위한 임상 시험 결과를 데이터 마이닝하는 데 거의 1년 가까이 걸렸다. 그러나 이제는 30분이면 끝난다. 램지는 “이 플랫폼은 연구원의 생산성에 막대한 영향을 미쳤다”라고 말했다.

GSK는 최근 UK 바이오뱅크(UK Biobank)와의 협업 계약을 체결하고, GSK의 플랫폼을 이용해 50만 명 이상의 환자의 엑솜(Exome) 시퀀싱을 진행했다. 이를 통해 연구원이 여러 질병의 특성과 DNA 간의 상관 관계를 분석할 수 있게 됐다. 램지는 “이는 R&D 프로세스와 관련된 것인 만큼 막대한 가치를 창출하고 있다. 궁극적으로 기존에 5~7년 가까이 걸리는 신약 개발 과정을 2년 이내로 줄일 수 있을 것으로 기대하고 있다”라고 말했다.

램지는 데이터 애널리틱스 프로세스를 정립하고자 하는 기업에 다음 3가지를 조언했다.

데이터 환경을 전체론적으로 파악하라: 먼저 데이터가 어디에 있는지, 어떤 데이터인지, 어떻게 사용할 것인지를 파악해야 한다. 램지는 처음 GSK에 출근했을 때 IT 부서가 데이터에 대해 전혀 모르고 있다는 사실을 알게 됐다. 이후 그는 IT 팀에게 제일 먼저 크롤러 테크놀로지를 통해 R&D 프로세스 전반에 걸쳐 모든 데이터 소스를 찾으라고 지시했다. 이처럼 데이터 환경 전반을 파악하면 구체적인 태스크를 수행할 수 있는 데이터 애널리틱스 팀을 구성할 수 있다. 그 이후에야 데이터를 도입, 처리, 분석할 플랫폼에 대해서도 생각해 볼 수 있게 된다.

애널리틱스 기술을 데이터에 우선 적용하라: 비즈니스 문제 해결에 지나치게 몰입하면 데이터를 분석을 위한 최적의 상태로 렌더링하는 것을 소홀히 할 수 있다. 이를 막기 위해 램지는 데이터 큐레이션에 최대한 많은 신경을 쓰도록 담당자를 격려하고, 주어진 머신러닝 툴을 활용해 데이터에 대한 이해도를 높였다. 그는 “이 과정에서 데이터 그 자체에도 반드시 빅데이터를 적용해야 한다. 데이터 큐레이션을 통해 현업 실무자가 이용 가능한 상태로 데이터를 만들어 놓지 않으면 유의미한 가치를 만들 수 없다”라고 말했다.

현업을 내 편으로 만들어라: 램지는 무엇보다 C 레벨 리더의 지원과 동의가 필수적이라고 말했다. 이들이야말로 GSK의 연구개발 부문 총괄 책임자에게 직접 보고하는 위치에 있기 때문이다. 그는 “아무리 플랫폼이 훌륭해도 이것만으로는 전체의 50%밖에 못한다. 따라서 비전을 공유하고, 스스로 의사 결정 내리는 방식을 바꾸고자 하는 열망이 있는 사람들을 내 편으로 만들어야 한다”고 말했다. ciokr@idg.co.kr 
2017.11.01

'300년 제약기업’ GSK가 애널리틱스 선도업체가 된 비결

Clint Boulton | CIO
글락소스미스클라인(GlaxoSmithKline, GSK)의 꿈은 빅데이터만큼 크고 거창하다. 제약 업계의 거물인 이 기업은 수십 년간 쌓아 온 임상 시험 데이터를 활용해 더 빠르게 신약을 내놓고 있다. 이러한 빅데이터 활용 사례가 성공한다면 GSK는 디지털화라는 시대 흐름을 따라가지 못하고 있다는 지적을 받고 있는 제약 업계에서 비교 우위를 차지하게 될 것이다.



GSK의 최고 데이터 책임자(CDO) 마크 램지의 목표이자 과제도 바로 이것이다. 그는 GSK가 데이터 활용에 있어 가뜩이나 느린 제약 업계에서도 뒤처진 편이라고 진단한다. 2015년 GSK가 램지를 영입한 것도 이러한 상황에서 벗어나기 위해서였다.

램지는 “금융업계나 통신업계, 유통업계와 달리 제약 업체들은 데이터를 전략적 자산으로 활용하지 못한다. 따라서 우리의 제1 목표는 더 효율적이고 효과적으로 임상 시험을 진행해 신약 개발 기간을 단축하는 것이다”라고 말했다. 그는 삼성에서 모바일 CDO로, 그리고 IBM에서 18년간 근무하며 여러 데이터 애널리틱스 관련 업무를 수행했다.

그렇지만 무한한 잠재력을 지닌 풍부한 데이터를 사일로 속에 그저 방치하고 있는 것은 제약 업계만이 아니다. 많은 기업이 데이터를 이용해 기업 운영 효율을 높일 수 있는 적합한 인물을 찾고 있다. 가트너는 2019년 말 기준 대기업의 90% 이상이 CDO를 선임할 것으로 전망한다. 가트너 애널리스트 더그 래니는 "2020년이면 업계의 선도 업체 중 절반 이상에서 CDO가 CIO만큼의 전략적 영향력과 권위를 갖게 될 것이다”라고 말했다.

CDO는 자신의 우선 순위와 기업의 우선 순위를 조율해 리더로서 역할을 정립해야 한다. 램지가 궁극적으로 바라는 것도 바로 이것이다. 그렇다면 그는 GSK의 데이터 전략을 정비하기 위해 어떤 노력을 기울이고 있을까.

데이터의 기반을 닦다
짧게는 수십 년, 길게는 수백 년에 이르는 제약 업체는 임상 시험을 통해 방대한 데이터를 수집한다. 그러나 이들 대부분이 데이터 저장소에 이들을 넣어 둔 채 두 번 꺼내보지 않는다. 임상 시험이 진행될수록 그저 정보만 잔뜩 쌓여가는 것이다. 300년 역사를 가진 GSK 역시 2,100개가 넘는 사일로에 페타바이트 규모의 데이터를 갖고 있다. 이 중 상당수가 데이터 마이닝을 통해 유의미한 통찰력을 제공할 수 있을 것으로 램지는 기대하고 있다.

램지는 처음 GSK에 합류했을 때 GSK의 데이터 프로필을 살펴본 후 데이터 애널리틱스가 기업 전반에 걸쳐 전체적으로 활용되지 못하고 있음을 깨달았다. 신약 출시를 위한 일회성 임상 시험에서만 조금씩 사용됐다. 그는 여러 임상 시험에 걸쳐 데이터를 공유할 충분한 기회가 있다고 봤지만, 이는 GSK 빅데이터 인포메이션 플랫폼(GSK Big Data Information Platform)과 같은 포괄적 데이터 플랫폼 없이는 불가능했다.

현재 이 플랫폼의 기반은 클라우데라 하둡 데이터 레이크가 맡고 있다. 스트림셋(StreamSets)의 자동 봇 테크놀로지가 수천 개 운영체제에서 생성된 데이터를 확보하면, 트리팍타(Trifacta) 소프트웨어가 너저분하고 정리되지 않은 데이터셋을 깔끔하게 정리해 현업 사용자가 분석할 수 있는 상태로 바꾼다.

이후에는 타머(Tamr)의 머신러닝 소프트웨어를 활용해 이러한 데이터를 제약 업계에 종사하는 종양 연구자들 및 앳스케일 소프트웨어로 이전해 데이터를 시각화한다. 현업 사용자는 줌데이터(Zoomdata) 시각화 소프트웨어를 통해 데이터를 확인할 수 있다. 구글의 텐서플로우, 팁코(Tibco) 스포트파이어(Spotfire), 그리고 아나콘다(Anaconda) 등도 사용된다. 램지는 "다양한 기술을 통합해 데이터를 공유하고, 이를 통해 임상 시험이 더 편리해 졌다”라고 말했다.

이러한 프로젝트의 하나로, GSK는 12페타바이트 가량의 정형 데이터와 8페타바이트 가량의 비정형 데이터를 플랫폼으로 이전하는 데 성공했다. 이미 11개월 전에 이 작업을 마쳤는데, 제약업계는 물론이고 타 업종의 기업과 비교해도 매우 빠른 속도다. 램지는 “GSK는 300년이 넘은 기업이지만, 지금은 스타트업의 마음가짐으로 일하고 있다”라고 말했다.


데이터 발굴 시간 단축
GSK 빅데이터 인포메이션 플랫폼은 이미 그 값을 톡톡히 하고 있다. 임상 시험에 필요한 데이터를 발굴하는 시간을 획기적으로 줄였기 때문이다. 예전에는 혈액형과 호흡기 질환 의약품의 효능 간의 상관 관계를 파악하기 위한 임상 시험 결과를 데이터 마이닝하는 데 거의 1년 가까이 걸렸다. 그러나 이제는 30분이면 끝난다. 램지는 “이 플랫폼은 연구원의 생산성에 막대한 영향을 미쳤다”라고 말했다.

GSK는 최근 UK 바이오뱅크(UK Biobank)와의 협업 계약을 체결하고, GSK의 플랫폼을 이용해 50만 명 이상의 환자의 엑솜(Exome) 시퀀싱을 진행했다. 이를 통해 연구원이 여러 질병의 특성과 DNA 간의 상관 관계를 분석할 수 있게 됐다. 램지는 “이는 R&D 프로세스와 관련된 것인 만큼 막대한 가치를 창출하고 있다. 궁극적으로 기존에 5~7년 가까이 걸리는 신약 개발 과정을 2년 이내로 줄일 수 있을 것으로 기대하고 있다”라고 말했다.

램지는 데이터 애널리틱스 프로세스를 정립하고자 하는 기업에 다음 3가지를 조언했다.

데이터 환경을 전체론적으로 파악하라: 먼저 데이터가 어디에 있는지, 어떤 데이터인지, 어떻게 사용할 것인지를 파악해야 한다. 램지는 처음 GSK에 출근했을 때 IT 부서가 데이터에 대해 전혀 모르고 있다는 사실을 알게 됐다. 이후 그는 IT 팀에게 제일 먼저 크롤러 테크놀로지를 통해 R&D 프로세스 전반에 걸쳐 모든 데이터 소스를 찾으라고 지시했다. 이처럼 데이터 환경 전반을 파악하면 구체적인 태스크를 수행할 수 있는 데이터 애널리틱스 팀을 구성할 수 있다. 그 이후에야 데이터를 도입, 처리, 분석할 플랫폼에 대해서도 생각해 볼 수 있게 된다.

애널리틱스 기술을 데이터에 우선 적용하라: 비즈니스 문제 해결에 지나치게 몰입하면 데이터를 분석을 위한 최적의 상태로 렌더링하는 것을 소홀히 할 수 있다. 이를 막기 위해 램지는 데이터 큐레이션에 최대한 많은 신경을 쓰도록 담당자를 격려하고, 주어진 머신러닝 툴을 활용해 데이터에 대한 이해도를 높였다. 그는 “이 과정에서 데이터 그 자체에도 반드시 빅데이터를 적용해야 한다. 데이터 큐레이션을 통해 현업 실무자가 이용 가능한 상태로 데이터를 만들어 놓지 않으면 유의미한 가치를 만들 수 없다”라고 말했다.

현업을 내 편으로 만들어라: 램지는 무엇보다 C 레벨 리더의 지원과 동의가 필수적이라고 말했다. 이들이야말로 GSK의 연구개발 부문 총괄 책임자에게 직접 보고하는 위치에 있기 때문이다. 그는 “아무리 플랫폼이 훌륭해도 이것만으로는 전체의 50%밖에 못한다. 따라서 비전을 공유하고, 스스로 의사 결정 내리는 방식을 바꾸고자 하는 열망이 있는 사람들을 내 편으로 만들어야 한다”고 말했다. ciokr@idg.co.kr 
X