과대 광고로 인해 무너진 AI 신화?··· IBM 왓슨 헬스 신뢰도 ‘흔들’

Computerworld

지난 1년 동안 왓슨 헬스, 특히 ‘종양학을 위한 왓슨’(WfO ; Watson for Oncology)이 의사 사용자들에게 정확하지 못하거나 기대치를 밑도는 조언만을 생성한다는 비판을 받고 있다. (WfO는 대량의 환자 의료 정보와 공개된 의료 연구를 분석하여 의사에게 암 치료 옵션을 제공하는 IBM의 상업용 인지 컴퓨팅 클라우드 플랫폼이다.)

가트너의 의료 전략 사업 조사 부사장 로라 크래프트는 IBM의 인지 컴퓨팅 사업부가 지난 3분기 그리 좋지 못한 실적을 기록했다며 “주로 의료 구성 요소에 의한 것이었다"라고 전했다. 그는 이어 최근의 관리진 교체가 내부적인 문제를 시사한다고 분석했다.



문제 보고서와 IBM의 방어
7월, 의료 미디어 스탯(Stat)은 "IBM 내부 문서"를 입수했다고 주장하며, 이 문서는 IBM이 AI기술을 홍보하고 있었지만 왓슨 슈퍼컴퓨터가 잘못된 암 치료 조언을 제공하고 해당 기업의 의료 전문가 및 고객들이 "안전하지 못하고 잘못된 치료 추천에 대한 여러 예"를 확인했다는 내용이 담겨 있었다고 밝혔다.

스탯은 2016년 IBM 왓슨 헬스의 부CHO(Chief Health Officer)의 프레젠테이션에서 얻은 여러 장의 슬라이드를 인용했다. 슬라이드들은 대부분 MSKCC(Memorial Sloan Kettering Cancer Center)에서 진행된 왓슨에 대한 IBM 엔지니어 및 직원의 교육에 대한 문제를 비판하고 있었다.

이와는 별도로 월스트리트저널의 한 기사에서는 왓슨 헬스가 의료 분야에의 AI 적용을 진척시키지 못했다고 진단했다.

그러나 지난 8월, IBM의 인지 솔루션 및 연구 수석 부사장 존 켈리는 이에 반박했다. "그 기사에서 보도한 것처럼 IBM은 의료에 큰 기대를 걸었던 것이 사실이다. 그 이유는 2가지였다. 1) 가장 중요한 것은 우리가 AI가 의료 문제를 해결하고 의료 산업을 지원하는데 큰 차이를 만들 수 있다는 것을 알고 있으며 2) AI 도입이 증가하면서 이 부문에 엄청난 비즈니스 기회가 있다고 생각하기 때문이다"라고 그가 밝혔다.

켈리는 이어 "환자에게 아무런 이익이 없었다고 말하는 것은 전 세계적으로 여러 기관들의 자체적인 공개 발표를 무시하는 것이다. 이것들 자체로 변호가 된다고 생각한다"라고 전했다.

켈리는 WfO, WfCTM(Watson for Clinical Trial Matching), WfG(Watson for Genomics)가 어떻게 의사들의 시간과 노력을 아껴주거나 임상 시험 참여자를 늘리거나 AI 엔진에 제공되는 연구 데이터의 양을 증가시켰는지에 대한 의사 추천서를 제공한 5개의 의료 시설과 재향군인회(Department of Veterans Affairs)를 언급했다.

이 밖에 IBM의 WfO가 암 치료에 대한 잘못된 조언을 제공했는지에 대한 질문에 IBM의 대외 관계 부사장 에드 바비니는 단호히 부정했다.

바비니는 또 최근 공개된 3/4분기 매출 보고서에서도 인지 제공물의 매출이 지난해보다 6% 감소한 것으로 나타났지만 왓슨 헬스는 성장했다고 말했다. 그는 IBM이 "경쟁을 이유로" 왓슨 헬스에 대한 구체적인 수치를 공개하지 않는다고 덧붙였다.

바비니는 왓슨 헬스, 특히 WfO 개발이 쉽지 않은 일이었다고 인정하면서도, 여전히 중요한 존재라고 강조했다.

그는 "이 때문에 IBM이 3년 전부터 시작한 것이다. 종양학을 3년 안에 통달할 수 있다고 생각하는가? 현실을 바라보라. 230개 이상의 병원이 우리의 종양학 도구 중 하나를 사용하고 있다. 지난 1년 반 동안 11회의 (소프트웨어) 업데이트가 진행되었고 올 해 3/4분기 말 현재 도달한 환자의 수가 10만 명을 넘어서 2배로 증가했다"라고 말했다.

이번 달 초 지난 3년 동안 왓슨 헬스의 수장을 역임했던 데보라 다이산조가 물러나고 켈리가 인계 받았다. IBM 대변인에 따르면 다이산조는 여전히 IBM의 인지 솔루션 전략팀에서 근무하고 있다.

IBM은 의료를 위한 증거에 기초한 의약품 지원에 AI를 활용하는 기술 기업들 중에서도 가장 공격적이었다. 하지만 최근 문제로 인해 일부 대형병원 고객들을 잃었었다는 보도가 있었다.

가트너의 크래프트는 WfO사업부가 미디어로부터 혹평을 받고 있다고 전하며, 그 이유가 IBM의 마케팅 부서가 불가능한 것을 약속했기 때문인 것으로 본다고 분석했다. 왓슨 헬스가 더 많은 데이터를 확보하여 더 나은 증거 기반 의료적 치료 옵션을 제공할 수 있도록 인큐베이터 단계에 훨씬 오래 머물러 있었어야 했다는 것이다.

그러나 IBM의 "기본 방침"은 해당 보도를 부정하고 선별된 개발 파트너 및 고객 추천을 공개하는 것이었다고 크래프트가 말했다.

그는 "IBM의 비전을 보면 진정한 개인화된 의료를 추구하는 것이었다. 목표로 치료와 약물을 목표로 삼고 환자들이 가장 잘 반응하는 것과 연계시킬 수 있는 상태에 도달하는 것이 포부였다. 의료 연구 관점에서 더 개선되고 일관성이 있으며 실질적인 데이터를 얻게 되는 10-15년 후에는 그렇게 될 것이다. 지금은 왓슨에게 아무런 이점이 없다고 생각한다"라고 말했다.

크래프트는 이어 그 결과, IBM은 의료 제공자들에게 홍보했던 기능을 제공하지 못했다며, “고객들은 실망했고 무결성을 중심으로 비판이 형성됐다"라고 말했다.

기술이 아니라 시간이 문제이다
즉 크래프트에 따르면 왓슨의 AI 기술이 문제이기보다는 시간 또는 양질의 데이터가 부족했을 뿐이다. 개인화된 의료 엔진이 되려는 목표를 감안할 때 그렇다.

IDC의 가치 기반 의료 IT 혁신 전략 연구 책임자 신시아 버가드는 IBM이 왓슨으로 처음부터 의료처럼 복잡한 것을 목표로 삼으면서 "발등을 찍은 격"이라고 표현했다. 그는 "WfH(Watson for Health)의 문제점 중 하나는 마케팅에 매우 공격적이었다는 것이다. 이것은 IBM의 특성 중 하나이다. 종양학과 유전체학 등 어려운 것들만 선택하면서 문제가 커졌다"라고 말했다.

버가드에 따르면 IBM은 왓슨을 종양학자들이 환자 데이터를 입력하면 치료법을 추천하는 소프트웨어 제품으로 제공하고자 했다. 그는 "이러한 이상은 실현되지 못했다"라며, IBM은 병원 고객들과 왓슨이 제대로 작동하도록 협력해야 했다고 지적했다.

"제대로 상업화하고자 했다면 IBM은 데이터에 손을 대지 말았어야 했다. 고객들을 위한 모델을 구축할 때 분석가가 없었어야 했다. 고객들이 작업했어야 하는 부분이다"라고 버가드가 말했다.

버가드가 지적하는 또 다른 문제는 IBM이 개발 파트너 MSKCC의 데이터를 이용해 왓슨을 훈련시켰다는 점이다. 이 병원 시스템의 데이터를 사용하도록 훈련 받았기 때문에 쿼리(Query) 결과가 해당 기관의 암 치료로 편향되는 경향이 있었다. 즉 마요 클리닉(Mayo Clinic)이나 기타 시설 등 다른 병원의 데이터만큼 포괄적이지 않다.


치료가 꽤 포괄적인 단순한 암에는 효과가 있을 수 있다. 그러나 복잡한 암의 경우 여러 시설에서 다양한 방법으로 치료되고 있다. 또 소규모 병원은 대형 지역 병원과 같은 치료 옵션에 접근하지 못할 수도 있다고 그는 설명했다.

버가드는 IBM이 약속한 결과를 달성하지 못하게 되면서 모멘텀을 잃었다고 진단했다. 그는 “숨겨둔 비장의 무기가 없을 것이라는 회의론이 대두됐다”라고 말했다.

초기의 문제
2012년, WfO의 초기 시범 프로젝트 중 하나가 텍사스대학교(University of Texas)의 M.D. 앤더슨 암 센터에서 이뤘졌다. 해당 병원은 "전 세계적으로" 결과를 개선하기 위해 IBM의 왓슨 슈퍼컴퓨터를 사용해 암 환자와 임상 시험을 비교함으로써 임상 의사 결정을 신속히 처리하고자 했다. 그러나 최종적으로 6,200만 달러가 투입된 해당 암 센터의 왓슨 기반 OEA(Oncology Expert Advisor)는 성공하지 못했고 동 대학의 외부 감사 이후 중단되었다.

OEA 시스템 개발의 초기 범위는 MDS 백혈병을 위한 것이었지만 2013년 2월에 확대되어 5가지의 추가적인 백혈병 유형이 포함되었고 2014년 12월에는 폐암도 포함된 바 있다.

그러나 감사 결과, WfO시스템이 M.D. 앤더스 암 센터의 EPIC EMR(Electronic Medical Record) 시스템과 통합될 수 없기 때문에 백혈병 및 폐암을 위한 OEA의 내부 시범 프로젝트가 이전의 의료 기록 시스템(클리닉스테이션)을 통해 수행되었던 것으로 드러났다.

해당 암 센터와 IBM 왓슨은 2015년 개발을 중단했다. 그리고 IBM은 2016년 9월 1일부로 OEA 시범 시스템과 OEA 데모 시스템에 대한 지원을 종료했다. 이 시스템은 임상용으로 사용되지 않고 있으며 M.D. 앤더슨 외에는 시범 프로젝트가 진행되고 않은 것으로 나타났다.

또 텍사스대학교의 감사에 따르면 해당 프로젝트가 중단될 당시의 IBM의 계약서에는 시스템이 "인간 검사 또는 임상 용도 준비가 되어 있지 않으며 환자 치료 사용을 금지하고" 시스템 시험 및 평가를 위한 경우에만 예외로 하는 것으로 명시되어 있었다.

컴퓨터월드가 프로젝트 실패 이유에 대해 질문하자 M.D. 앤더슨 암 센터는 이메일을 통해 이렇게 밝혔다.

"다양한 접근방식을 시험했지만 환자에게 도움이 되는 [인지 컴퓨팅을] 이용한 최종 접근방식이 결정되지 않았다. MD 앤더슨은 디지털 솔루션이 어떻게 이 연구가 환자들을 위해 개선된 암 치료로 전환될 수 있는지를 지속적으로 연구할 것이다."

컴퓨터월드는 또한 MSKCC(Memorial Sloan Kettering Cancer Center)와 마요클리닉에도 문의했다. 모두 주요 왓슨 헬스 개발 파트너이며 왓슨 훈련에 대한 성공 스토리 그리고 임상 시험 활용으로 인용됐던 기관이다.

2014년부터 왓슨은 마요 클리닉에서 수 천 개의 의료 연구를 조사하고 더 많은 환자들이 유명한 임상 시험과 정확하고 일관되게 매치될 수 있도록 했다. (IBM은 마요 클리닉의 유방암 임상 시험 등록률이 크게 증가했다고 발표한 바 있다.)

왓슨의 효과성에 대한 마요 클릭의 의견 요청에 대한 답변을 받지 못했다. 마요 클리닉의 대변인은 왓슨 프로젝트를 담당했던 의사에게 연락하기 위해 여러 번 시도했지만 성공하지 못했다고 말했다.

MSKCC의 대변인은 IBM에 관한 질문에 대해 IBM이 고객들로부터 WfO에 대한 피드백을 직접 받고 있으며 해당 병원은 자체 데이터로 왓슨을 훈련하고 있고 "여기에서 사용하지 않는다"라고 밝혔다.

IBM이 이전에 자랑했던 또 다른 병원은 임상 시험 매칭의 효율성과 정확도를 높이기 위해 IBM 왓슨의 타당성 조사에 참여한 HOG(Highlands Oncology Group)였다. 아칸소 북동부에 위치한 HOG에서는 15명의 의사와 310명의 직원들이 3개 현장에서 근무하고 있다. 해당 시설의 시범 프로젝트는 16주 동안 계속되었고 폐암 및 유방암 환자들의 2,620회 내원으로부터 얻은 데이터를 사용했다.

초기 사전 검사 시험에서 HOG 임상 시험 코디네이터는 3회의 유방암 검사에 대해 90명의 환자를 처리하는데 1시간 50분이 소요됐다. 반대로 왓슨의 임상 시험 매칭 플랫폼을 사용하자 24분만에 끝났다. "86분 또는 78%의 시간 절약은 엄청나다"라고 HOG가 밝혔던 바 있다.

컴퓨터월드는 HOG에 왓슨 시험에 대해 문의했으며 시범 프로젝트 중 문제가 없었는지 구체적으로 질문했다. HOG의 의료 책임자는 해당 병원이 IBM과 기밀 합의를 체결했기 때문에 아무런 정보를 제공할 수 없다고 말했다.

IBM의 잇단 인수, 다음 차례는?
2015년 IBM은 의료 데이터 분석 기업 익스플로리스(Explorys)와 환자 소통 기업 파이텔(Phytel)을 인수했으며 금액은 공개하지 않았다. 2016년, IBM은 트루반 헬스 애널리틱스(THA ; Truvan Health Analytics)를 26억 달러에 인수했다. 이 3건의 인수를 완료하면서 IBM은 왓슨 헬스 클라우드에 "이 3개의 기업으로부터 획득한 약 3억 명의 환자의 의료 관련 데이터는 전 세계에서 가장 크고 다양하다"라고 자랑했다.

버가드는 "인수 전에도 모두 성공적인 기업들이었으며 고객 기반이 탄탄하고 충성스러웠고 모두가 잘 해 나가고 있었다. IBM은 '이 기업들을 인수해서 AI에 적용하면 시장이 폭풍이 일 것이다.'고 생각했던 것 같다. 그러나 상황은 그렇지가 않았다"라고 말했다.

이 인수 건들 중 최소한 트루반(Truvan)만큼은 최근 IBM의 켈리가 보험 제공자 데이터를 현재 하이브리드 클라우드를 통해 제공될 IBM 왓슨 헬스 플랫폼으로 이전하는데 핵심인 것으로 언급되고 있다.

10월 말, IBM은 일단 보험료 납입자 시스템에서 얻은 데이터를 이동함으로써 왓슨을 위한 자사의 새로운 하이브리드 클라우드 모델을 배치할 계획이라고 발표했다. 트루반이 핵심이 될 것이라는 설명이다.

IBM의 켈리는 "[트루반은] 납입자 영역에서 매우 중요하다. 우리는 납입자 청구를 처리하고 납입자 기록이 있다. 그래서 한 주 또는 한 병원에서 특정 절차에 대한 비용은 AI를 적용하여 비용을 크게 낮출 수 있는 매우 풍부한 데이터 세트이다"라고 말했다.

켈리는 납입자 데이터를 하이브리드 클라우드로 이동하면 익스플로리스를 통해 인수한 EMR이 그 다음이라고 전했다. ciokr@idg.co.kr