Offcanvas

CIO / 빅데이터 | 애널리틱스 / 클라우드

"10년 걸렸던 제품 출시 절반으로" 美 제약회사의 데이터 변혁 여정

2022.11.09 Paula Rooney  |  CIO
美 제약회사 ‘리제네론(Regeneron)’의 CIO 밥 맥코완은 디지털 및 데이터 트랜스포메이션이 (이 회사의) 과학자들에게 가설을 실험하고 테스트하는 데 필요한 데이터를 제공하면서 혁신의 장을 마련하고 있다고 말했다. 

디지털 시대의 제약 회사에게 의학적 기적(medical miracle)을 달성해야 한다는 압박은 수석 과학자 못지않게 CIO의 어깨에도 달려 있다. 밥 맥코완은 2018년 리제네론 제약(Regeneron Pharmaceuticals)의 CIO로 승진하기 앞서, 지난 2014년 미화 815억 달러 규모의 기업의 과학, 상업 및 제조 비즈니스를 위한 데이터센터 인프라를 운영한 바 있다. 따라서 그는 적절한 팀과 기술적인 구성 요소를 갖추는 것 외에도 데이터가 미래의 성공을 위한 열쇠라는 점을 알고 있었다. 
 
ⓒRegeneron Pharmaceuticals

“리제네론에서 하는 모든 일은 데이터 중심적(data-driven)이다. 하지만 기존에는 데이터센터 중심적이었고, 기술에 많은 제약이 있었다. 기업을 유지하는 데는 효과적이었지만 필요한 규모와 역량을 제공하진 못했다”라고 맥코완은 말했다. 

그는 기업이 필요한 것을 달성하려면 대대적인 변화를 겪어야 했고, 아울러 최대 1,000개 데이터 소스의 데이터를 ‘분석 가능한 형식’으로 주입할 수 있는 개선된 데이터 파이프라인을 구축해야 했다고 밝혔다. 

이를 위해서는 클라우드 전환이 필수적이었다. 맥코완은 “(리제네론의) 과학자들을 지원하고, 규모를 확장하며, 미래에도 성장할 수 있는 유일한 방법은 컴퓨팅 성능과 스토리지 측면뿐만 아니라 다른 환경, 다른 국가에 배포할 수 있는 클라우드를 받아들이는 것이었다. 클라우드에 있지 않으면 뒤처지게 될 것이라고 봤다”라고 전했다. 

클라우드를 통한 과학자 역량 강화
맥코완은 2018년 말부터 리제네론을 AWS로 마이그레이션하기 시작했다. 2020년까지 IT팀은 전체 회사 데이터의 약 60%를 클라우드로 옮겼다. 이는 지난 2021년 160억 달러의 매출을 기록했고, 1만 명 이상의 직원을 두고 있으며, 30건의 임상 시험을 포함해 9개의 FDA 및 EMA 승인 약물을 보유하고 있는 글로벌 기업에게 쉬운 작업은 아니었다. 이후 리제네론의 멀티클라우드 인프라는 비즈니스 애플리케이션용 마이크로소프트 애저(Azure)와 구글 클라우드 플랫폼(GCP)을 포함하도록 확장돼 과학자들에게 다양한 실험 옵션을 제공하고 있다. 

“구글은 AWS에서 사용할 수 있는 매우 흥미로운 알고리즘과 도구 몇 가지를 만들었다. 그리고 [리제네론의 과학자들이] 구글 클라우드에서만 시도할 수 있는 것도 있다. 따라서 빅 3 클라우드를 모두 사용하고 있다. 물론 핵심은 AWS에 있다”라고 그는 설명했다. 

실험 및 테스트의 복잡성에 따라 이 회사는 분석을 위해 여러 표준 SaaS 도구를 사용하지만 여러 데이터 서비스, 데이터 관리 도구 및 머신러닝 도구를 추가적으로 제공하는 클라우드 기반 ‘메타바이오 데이터 디스커버리 플랫폼(MetaBio Data Discovery Platform)’은 애널리틱스 운영의 핵심이라고 맥코완은 언급했다. 

‘2022년 CIO 100 어워드’를 수상한 메타바이오(MetaBio)는 데이터세트에 단일 소스를 통합된 형식으로 제공하여 연구진이 데이터를 준비하거나 찾는 방법을 걱정할 필요 없이 다양한 정보를 신속하게 추출할 수 있도록 한다. 

“과학자들은 과학 실험을 분석할 이론적 방법을 확인할 수 있는 백서를 가지고 (IT에) 온다. 과학자들과 협력해 실제로 컴퓨터 모델을 구축하고 실행한다. 이는 시각적 입자 이미지부터 단백질 접힘까지 무엇이든 될 수 있다”라며, “아울러 표준 연산 요건에 더 가깝고 적절한 형식으로 데이터를 제공할 수 있도록 지원한다. 그다음 SaaS 기반 연산 도구에서 데이터를 사용하지만 데이터는 여전히 조직 내에 있으며 클라우드 기반 솔루션의 제어 범위 내에 있다”라고 그는 설명했다. 

물론 리제네론의 많은 데이터는 기밀이다. 이러한 이유로 많은 데이터 도구와 심지어는 데이터 레이크까지 AWS를 사용해 사내에서 구축됐다. 

초기 발견 분석 환경을 단순화, 확장, 가속하고자 구축된 연구 컴퓨팅 플랫폼 ‘리제네론 데바 플랫폼(Regeneron Deva Platform)’을 개발한 공로로 ‘2020 CIO 100 어워드’를 수상하기도 했던 맥코완은 “AWS에 우리의 자체 데이터 레이크하우스를 보유하고 있다. 몇 가지 조정을 통해 과학자가 이전에는 불가능했던 방식으로 데이터를 연결할 수 있도록 하고 있다. 데이터 레이크와 관련한 비전은 유전자 센터부터 제조, 임상 안전성 및 초기 연구까지 모든 그룹을 연결하는 것이다. 30년의 데이터를 가지고 있어 하기 힘든 작업이었다”라고 말했다. 

데이터 플랫폼은 데이터 레이크, 확장 가능한 클라우드, 데이터 프로세싱, AI 서비스를 통해 연결되고, 아울러 상황에 맞는 데이터에 지속적인 액세스를 제공한다. 리제네론의 데이터 레이크는 약 200테라바이트의 데이터를 관리한다고 그는 덧붙였다. 

데이터를 통한 혁신 촉진
맥코완은 과학자의 발견을 지원하는 외부 도구, 특히 클라우드 네이티브 도구의 사용을 제한하지 않도록 주의한다고 밝혔다. 인프라 수준에서 이제니론 과학자들은 AWS EMR과 클라우데라(Cloudera)를 쓴다. 데이터 파이프라인 수준에서는 아피지(Apigee), 에어로우(Airlow), 나이파이(NiFi) 및 카프카(Kafka)를 사용한다. 데이터 웨어하우스 수준에서는 레드시프트(Redshift)를 활용한다. 스택을 올라갈수록 데이터IQ(DataIQ) 등의 다양한 데이터 애널리틱스가 사용된다. 언어 관점에서는 파이썬과 주피터 노트북을 쓴다. 

그에 따르면 핵심은 과학자들에게 가설을 탐색하고 이론을 시험할 수 있는 모든 도구를 제공하는 것이다. “리제네론은 과학과 혁신에 의해 움직이며, 하는 일에 엄격한 경계를 두지 않으려고 한다. 혁신을 억제하기 때문”이라고 맥코완은 전했다. 

이어 그는 리제네론의 과학자들이 인공지능(AI) 및 머신러닝(ML) 도구를 마음대로 사용할 순 있지만 데이터가 여전히 핵심이며, 10년 된 데이터에서 (다음의) 큰 돌파구를 보여줄 수 있는 건 클라우드와 애널리틱스의 힘이라고 말했다. 

맥코완은 “멋진 AI&ML 프로젝트를 많이 봤지만 실패했기 때문에 결과를 볼 수 없었다”라면서, “실패하는 이유는 사람들이 데이터가 어디에서 오는지 충분히 생각하지 않기 때문이다. 이것이 (리제네론에서) 데이터 인프라를 구축한 이유다. 따라서 데이터가 데이터 레이크에 도착하고, AI&ML을 적용하기 시작할 때쯤이면 고품질 데이터를 사용하고 있다는 점을 알게 된다”라고 전했다.  

수석 기술자이기도 한 맥코완의 임무는 모든 것을 디지털화하고, 과학자들이 데이터와 메타데이터가 어떻게 생성되든 상관없이 이를 최대한 활용할 수 있도록 지원하는 것이다. “이는 항상 다양한 기술을 사용하고 의사결정 속도를 높일 수 있는 데이터와 인사이트로 돌아간다. 과학자들에게 AI 및 ML 모델을 사용하는 엔진을 통해 수학적으로 실험을 실행할 수 있도록 하면 디스커버리 속도는 빨라지지만 이는 결코 웨트 랩(wet lab; 실제 상황에서 실험을 진행하는 공간)을 대체할 수는 없을 것”이라고 언급했다. 

향상된 IT와 과학의 결합은 리제네론에서 상당한 혁신을 주도할 것이라고 맥코완은 말했다. 그리고 여기서 메타바이오 데이터 플랫폼은 이전에 가능했던 것보다 훨씬 더 빠른 획기적인 발견을 촉진하는 데 핵심적인 역할을 할 것이라고 그는 덧붙였다. 

“모든 것을 디지털화해 과학자들이 이전에는 할 수 없었던 연결고리를 만드는 데 도움이 되는 기술과 도구를 적용할 수 있다. 순수한 데이터 관점에서 본다면 IT가 할 수 있는 일은 [과학자들이] 데이터를 더 좋게 그리고 더 빠르게 연결하고 인사이트를 도출해 이전에는 제품 출시에 10년이 걸렸던 것을 5년 또는 4년 만에 해낼 방법을 찾는 것”이라고 말했다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.