Offcanvas

AI / 디지털 트랜스포메이션 / 리더십|조직관리 / 머신러닝|딥러닝 / 빅데이터 | 애널리틱스 / 신기술|미래

경영진에게 머신러닝 수명 주기를 설명하는 방법

2023.03.15 Isaac Sacolick  |  InfoWorld
데이터 과학팀이 성공하기 위해서는 비즈니스 리더가 ML옵스, 모델옵스(Modelops), 머신러닝 수명 주기의 중요성을 이해하고 있어야 한다. 복잡한 기술 용어를 보다 쉽게 설명하는 방법을 알아보자.
 
ⓒ Getty Images Bank 

데이터 과학자나 머신러닝(ML) 모델를 다루는 사람이라면, 데이터에 레이블을 지정하는 툴, 모델을 교육하는 기술 환경을 잘 알고 ML옵스(MLops) 및 모델옵스(modelops)에 대한 개념도 파악하고 있을 것이다. 또한 실제 서비스에 ML 모델을 도입할 경우 ML 모니터링 기술로 데이터 드리프트(data drift) 및 기타 모델 위험을 잘 인지하고 있는 가능성이 높다. 

데이터과학 팀은 이러한 필수 ML 실행 방식과 플랫폼을 사용하여 모델 개발, 인프라 구성, ML 모델을 다양한 환경에 구축하고 모델을 규모에 맞게 유지 관리한다. 여기에 실제 서비스 환경에서 모델의 수를 늘리고 예측 품질을 개선하며 ML 모델 유지보수 비용을 절감하고자 외부 팀도 ML 수명 주기 관리 툴이 필요할 때가 많다. 

불행히도 사업부의 이해 관계자와 예산 관련 결정권이 있는 사람에게 이러한 방식과 툴을 설명하는 것은 어렵다. 너무 복잡한 기술 용어가 많기 때문이다. 경영진은 머신러닝과 인공지능 투자와 관련된 수익률과 사업의 영향력을 알고 싶어 하면서도 기술 및 운영적 문제에 관여하지 않으려는 측면이 있다.

그런 면에서 데이터 과학자, 개발자 및 기술 리더들은 전문 용어를 정의하고 단순화해야 한다. 그래야 의사결정권자가 ML의 중요성을 더 이해할 수 있다. 

머신 러닝 수명주기란 무엇인가? 
개발자 또는 데이터 과학자라면 비즈니스 가치를 제공하고 새로운 아이디어를 만드는 엔지니어링 프로세스를 가지고 있다. 이 프로세스에는 문제 설명 정의, 모델 개발 및 테스트, 프로덕션 환경에서의 모델 구축 및 모니터링, 유지보수 및 개선 지원 등이 포함된다. 이를 수명주기 프로세스라고 부른다. 해당 프로세스에서 배포는 비즈니스 가치를 실현하는 아주 첫 번째 단계일 뿐이다. 머신러닝은 한 번의 작업으로 끝나는 것이 아니라 배포한 모델을 계속 지원하는 후작업이 필요하다.

비즈니스 리더들은 수명주기라는 용어를 이해하지 못할 수도 있다. 많은 기업이 여전히 소프트웨어 개발 및 데이터 과학 작업을 일회성 투자로 인식하고 있다. 그러다 보니 많은 기업이 기술 부채 및 데이터 품질 문제로 어려움을 겪는다. 모델 개발, 교육, 배포 및 모니터링 등 기술적 용어로 가득한 수명주기 관련 설명을 들으면, 비즈니스 경영진은 당황할 수 있다. 

이런 상황에서 개발 관리 솔루션 업체 소스 랩스(Sauce Labs)의 기술 전략 부사장인 마커스 머렐은 “리더들에게 실제 세계와 유사한 것을 제공하라”라고 조언한다. 그는 “머신러닝은 마치 농사와 같다. 오늘날 우리가 재배하는 작물은 이전 세대가 수확물에 대한 패턴을 파악하고, 특정 조합을 실험하고, 다른 농부들과 정보를 공유하는 등 여러 통로로 쌓은 지식을 이용해 더 나은 변형을 만들어낸 이상적인 결과다. 머신 러닝은 알고리즘이 훈련되는 것과 지속적인 관찰이 필요하다. 여기에 계단을 올라가듯 결론을 하나씩 얻고, 여러 지식을 합치는 과정이다”라고 표현했다.

ML옵스란 무엇인가?
개발자와 데이터 과학자 대부분은 ML옵스를 일조으이 데브옵스의 머신러닝 버전이라고 생각한다. 인프라, 구축 및 기타 엔지니어링 프로세스를 자동화하면 협업이 늘고 수동 업무가 줄어 비즈니스 목표에 더 많은 에너지를 집중할 수 있다고 믿는 것이다.  

그러나 이런 개념으로 비즈니스 경영진은 ML옵스를 더 이해하지 못할 수 있다. 그들에게는 더 간단한 정의가 필요하다. 특히 기업에서 툴에 대한 예산을 구축하고 모범 사례를 만들려고 할 때 간단한 정의를 제시해야 한다. 

아포리아(Aporia)의 CTO이자 공동 설립자인 알론 겁킨은 “ML옵스 다시 말해 머신러닝 운영은 데이터 과학, IT 및 비즈니스 간의 협업과 커뮤니케이션의 실행 방식이다. 이를 통해 머신러닝 프로젝트의 수명주기 관리에 더 도움을 받을 수 있다. ML옵스는 머신러닝 모델이 효과적으로 구축되고 유지관리 되도록 조직 내의 다양한 팀과 부서를 하나로 모으는 것이다”라고 말했다.

탈렌드(Talend)의 기술 제품 마케팅 매니저인 씨보트 구델은 보다 데이터 중심적인 비즈니스 리더들을 위해 몇 가지 세부사항을 추가할 것을 제안한다. 그는 “ML옵스는 애자일 문화를 팀에 제공할 수 있다. 팀의 생산성뿐만 아니라 모델의 재사용과 신뢰성을 높이며 지속적인 데이터 검증을 지원하며 테스트, ML 배포를 도와준다”라고 설명했다. 

데이터 드리프트란 무엇인가?
머릿속에서 단번에 그려지는 단어를 사용하면 설득이 쉬어질 때가 많다. ‘드리프트(drift)’라는 단어를 들었을 때 경영진은 바람 때문에 항로를 이탈하는 배를 떠올릴 것이다. 하지만 이를 데이터, 통계 분포 및 모델 정확도와 연관지어 생각하기 어려울 수 있다. 다음 비유를 활용하면 어느정도 설득을 하는데 도움이 될 수 있다. 

먼저 피들러 AI(Fiddler AI)의 최고 AI 책임자이자 과학자인 크리슈나람 켄싸파디는 “데이터 드리프트는 프로덕션에 있는 모델에 있는 데이터가 과거 학습할 때 활용한 데이터와 같지 않을 때 발생한다. 가령 갑자기 팬데믹으로 쇼핑 행동 데이터가 변화할 때 생길 수 있다. 드리프트가 어떻게 발생하든 모델의 정확성을 유지하고 비즈니스에 미치는 부정적 영향을 줄이려면 이러한 변화를 신속하게 파악하는 것이 중요하다”라고 밝혔다.

겁킨은 “어떤 제품은 시간이 지나 고객들의 취향이 변하면서 인기가 떨어지곤 한다. 데이터 드리프트도 그와 유사한 현상”이라고 설명했다. 

존 스노우 랩스(John Snow Labs)의 CTO인 데이비드 탈비는 보다 일반적인 비유를 공유했다. 그는 “모델 드리프트는 운영되는 프로덕션 환경의 변화로 인해 정확도가 저하될 때 발생한다. 신차의 가치가 차를 운행하는 첫날부터 하락하는 것처럼 모델도 시간이 지나면 가치가 떨어진다. 모델을 훈련시킨 연구 환경은 예측 가능하지만 실제 프로덕션 환경은 다르다. 모델이 얼마나 잘 작동하는지에 관계없이 모델 주변의 변화에 따라 항상 유지보수가 필요하다”라고 말했다.

데이터과학 업계 리더들이 강조하는 부분은 데이터는 항상 똑같은 상태로 유지되지 않기 때문에 정확성을 위해 모델을 검토하고 최근 데이터를 기반으로 다시 훈련시켜야 한다는 점이다. 

ML 모니터링이란 무엇인가?
제조업체는 제품이 포장되어 소매업체와 고객에게 배송되기 전에 품질을 어떻게 측정할까? 제조업체는 여러 툴을 사용하여 문제점을 식별한다. 예를 들어, 조립 공장 결과물이 정상 범주 품질에서 벗어나지는 않았는지 확인하는 식이다. ML 모델을 예측을 생산하는 소규모 제조 공장이라고 할 때, 데이터 과학 팀은 성능 및 품질 문제를 확인하기 위해 ML 모니터링 툴이 있어야 한다. 네오포제이(Neo4j)의 데이터 과학 솔루션 설계자인 케이티 로버츠는 “ML 모니터링은 모델 성능에 부정적인 영향을 미치고 예측 수준이 떨어지는 문제를 감지하기 위해 필요한 일련의 기술이다”고 말했다. 

ML 모델 모니터링 관련해서 테라데이터의 최고 제품 책임자인 힐러리 애쉬톤은 “기업이 AI/ML 이니셔티브에 대한 투자를 가속화함에 따라 AI 모델은 수십 개에서 수천 개로 엄청나게 증가할 것이다. 정확성을 보장하기 위해 각 제품을 안전하게 저장하고 지속적으로 모니터링해야 한다”라고 조언했다.

모델옵스란 무엇인가?
ML옵스는 여러 팀이 관여하며 모델 개발, 구축 및 유지보수하는 데 협력하는 과정에서 이뤄진다. 그러나 어떤 모델에 투자할 것인지, 어떤 모델에 유지보수가 필요한지, 인공지능과 머신러닝의 비용과 이점에 대한 투명성을 어디서 만들 것인지 리더들은 어떻게 결정해야 할까?

이런 문제는 거버넌스 영역과 함께 생각해야 하는데, 바로 모델옵스의 실행 방식이나 플랫폼이 약간의 해결책을 줄 수 있다. 비즈니스 리더들은 모델옵스를 원하지만 실제 조금이라도 수행하기 전까지는 필요성과 결과를 완전히 이해하지 못한다. 이는 모델옵스 플랫폼에 투자하려는 기업들에게 문제가 된다. 엠퍼시스(Mphasis)의 CEO인 니틴 라케시는 모델옵스를 “모델옵스에 집중함으로써 조직은 머신러닝 모델을 배치 및 유지 관리하여 가치를 극대화하고 다양한 버전에 대한 거버넌스를 보장할 수 있다”라고 설명했다. 

애쉬톤은 한 가지 예시를 포함하라고 제안했다. 그녀는 “모델옵스를 사용하면 데이터 과학자가 데이터 품질 위험을 식별 및 해결하고, 모델 성능 저하 시점을 자동으로 감지하고, 모델 재교육의 일정을 설정할 수 있다”라고 말했다.

ML 및 AI 기능, 알고리즘 및 기술 용어들은 어렵고 복잡하지만 앞으로 더 많이 비지니스 리더의 대화에 스며들 것이다. 데이터 전문가와 기술 전문가가 시간을 내어 비즈니스 리더들이 이해하는 언어로 용어를 설명할 때, 경영진에게 보다 협력적 지원을 받고 새로운 투자를 받을 가능성이 더 높다.
ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.