2019.08.27

블로그 | 머신러닝 운영은 클라우드옵스에 적합하지 않다

David Linthicum | InfoWorld
월요일 아침, 그리고 길고 긴 주말의 시스템 장애가 끝나고 클라우드 운영팀은 지난 주말에 일어난 일에 대해 토론했다. 머신러닝으로 동작하는 최첨단이자 새로운 인벤토리 관리 시스템과 관련된 여러 시스템이 주말 동안 문제를 일으켰다.
 
ⓒ GettyImagesBank

사후 결론은 다음과 같다.

-    운영 데이터베이스에서 원시 데이터를 교육용 데이터베이스로 옮기는 배치 프로세스가 제대로 동작하지 않았으며, 자동 복구 프로세스도 마찬가지였다. 운영팀원 한 사람이 주말 동안 이 프로세스를 재기동하려고 애썼지만, 원인을 밝히지 못했다. 하지만 4건의 부분 업데이트가 이루어져 교육용 데이터베이스는 여전히 불안정한 상태이다.

-    이로 인해 머신러닝 시스템의 지식 모델을 나쁜 데이터로 훈련을 시켰고, 지식 기반의 새 정보를 제거하고 모델을 재구축해야 한다.

-    또한 가격이나 세금 데이터 같은 여러 외부 데이터 피드도 교육용 데이터베이스에 동시에 업데이트됐다. 비록 이들 프로세스는 제대로 동작했지만, 운영 데이터가 좋지 않은 상태였다는 것을 고려하면, 이들 역시 지식 데이터베이스에서 다시 삭제해야 한다.

-    시스템은 이틀 동안 사용할 수 없었고, 업무 생산성, 고객 반응, 홍보 문제 등을 고려하면 이 회사는 400만 달러의 손실을 보았다. 

2025년이 아니라 바로 오늘날의 이야기다. 기업은 ‘저렴하고 괜찮은’ 클라우드 기반 머신러닝 시스템을 점점 더 많이 사용하고 있으며, 이미 알려진 대로 머신러닝을 이용하는 시스템은 운영이 복잡하다. 운영팀은 난이도와 복잡성의 수준을 제대로 예측하지 못하며, 자신들이 제대로 훈련을 받지 못했고, 인력도 부족하고 자금도 부족하다는 사실을 알게 된다. 

클라우드 운영팀이 클라우드 기반 데이터베이스와 클라우드 기반 스토리지, 클라우드 기반 컴퓨트를 쉽게 이전해 처리할 수 있다고 가정했다. 클라우드 기반 시스템이 전통적인 시스템과 비슷하다는 점에서 이런 가정은 대부분 맞아떨어진다. 

하지만 머신러닝의 기반 시스템은 운영팀 대부분이 지금까지 보지 못한 것이다. 이들 시스템은 특정 목적에 전문화되어 있으며, 데이터베이스나 지식 엔진 같은 특수 시스템은 특정한 방식으로 모니터링하고 관리해야만 한다. 현재의 운영팀이 실패하는 부분이 바로 이 지점이다.

이런 문제를 바로 잡는 것은 알기는 쉽지만 대부분 기업이 선뜻 취하기 어렵다. 머신러닝 클라우드옵스에 더 많은 자금을 투여하거나 머신러닝 클라우드옵스를 포기해야 하기 때문이다. 머신러닝 시스템은 기술적으로 기계톱과 같다. 잘 사용하면 매우 효과적이다. 하지만 잘못 사용하면 매우 위험해진다. 운영팀은 장애를 탐지하지 못하고 시스템은 잘못된 지식을 기반으로 자동으로 결과물을 내놓는다면, 심각한 피해를 본 후에야 장애를 발견하는 대형 사고로 끝날 수 있다. 보상보다 위험이 더 큰 것이다. editor@itworld.co.kr



2019.08.27

블로그 | 머신러닝 운영은 클라우드옵스에 적합하지 않다

David Linthicum | InfoWorld
월요일 아침, 그리고 길고 긴 주말의 시스템 장애가 끝나고 클라우드 운영팀은 지난 주말에 일어난 일에 대해 토론했다. 머신러닝으로 동작하는 최첨단이자 새로운 인벤토리 관리 시스템과 관련된 여러 시스템이 주말 동안 문제를 일으켰다.
 
ⓒ GettyImagesBank

사후 결론은 다음과 같다.

-    운영 데이터베이스에서 원시 데이터를 교육용 데이터베이스로 옮기는 배치 프로세스가 제대로 동작하지 않았으며, 자동 복구 프로세스도 마찬가지였다. 운영팀원 한 사람이 주말 동안 이 프로세스를 재기동하려고 애썼지만, 원인을 밝히지 못했다. 하지만 4건의 부분 업데이트가 이루어져 교육용 데이터베이스는 여전히 불안정한 상태이다.

-    이로 인해 머신러닝 시스템의 지식 모델을 나쁜 데이터로 훈련을 시켰고, 지식 기반의 새 정보를 제거하고 모델을 재구축해야 한다.

-    또한 가격이나 세금 데이터 같은 여러 외부 데이터 피드도 교육용 데이터베이스에 동시에 업데이트됐다. 비록 이들 프로세스는 제대로 동작했지만, 운영 데이터가 좋지 않은 상태였다는 것을 고려하면, 이들 역시 지식 데이터베이스에서 다시 삭제해야 한다.

-    시스템은 이틀 동안 사용할 수 없었고, 업무 생산성, 고객 반응, 홍보 문제 등을 고려하면 이 회사는 400만 달러의 손실을 보았다. 

2025년이 아니라 바로 오늘날의 이야기다. 기업은 ‘저렴하고 괜찮은’ 클라우드 기반 머신러닝 시스템을 점점 더 많이 사용하고 있으며, 이미 알려진 대로 머신러닝을 이용하는 시스템은 운영이 복잡하다. 운영팀은 난이도와 복잡성의 수준을 제대로 예측하지 못하며, 자신들이 제대로 훈련을 받지 못했고, 인력도 부족하고 자금도 부족하다는 사실을 알게 된다. 

클라우드 운영팀이 클라우드 기반 데이터베이스와 클라우드 기반 스토리지, 클라우드 기반 컴퓨트를 쉽게 이전해 처리할 수 있다고 가정했다. 클라우드 기반 시스템이 전통적인 시스템과 비슷하다는 점에서 이런 가정은 대부분 맞아떨어진다. 

하지만 머신러닝의 기반 시스템은 운영팀 대부분이 지금까지 보지 못한 것이다. 이들 시스템은 특정 목적에 전문화되어 있으며, 데이터베이스나 지식 엔진 같은 특수 시스템은 특정한 방식으로 모니터링하고 관리해야만 한다. 현재의 운영팀이 실패하는 부분이 바로 이 지점이다.

이런 문제를 바로 잡는 것은 알기는 쉽지만 대부분 기업이 선뜻 취하기 어렵다. 머신러닝 클라우드옵스에 더 많은 자금을 투여하거나 머신러닝 클라우드옵스를 포기해야 하기 때문이다. 머신러닝 시스템은 기술적으로 기계톱과 같다. 잘 사용하면 매우 효과적이다. 하지만 잘못 사용하면 매우 위험해진다. 운영팀은 장애를 탐지하지 못하고 시스템은 잘못된 지식을 기반으로 자동으로 결과물을 내놓는다면, 심각한 피해를 본 후에야 장애를 발견하는 대형 사고로 끝날 수 있다. 보상보다 위험이 더 큰 것이다. editor@itworld.co.kr

X