Offcanvas

AI / 로봇|자동화 / 머신러닝|딥러닝

‘AI옵스’로 가는 길 순탄치 않다··· 극복해야 할 장애물 6가지

2021.12.29 Maria Korolov  |  CIO
‘AI옵스(AIOps)’는 기업들이 IT 운영을 지능적으로 관리할 수 있도록 지원한다고 말하지만 그 여정이 항상 순탄하지는 않다. 

IT 운영팀은 할 일이 많다. 서로 독립적으로 작동하는 서버, 네트워크, 클라우드 인프라, 사용자 경험, 애플리케이션 성능, 사이버 보안 등을 관리해야 하기 때문이다. 직원들은 수많은 알림에 대응하고 여러 도메인과 관련된 문제를 해결하느라 고군분투한다.

‘AI옵스(AIOps)’는 IT 운영팀이 직면한 문제를 해결하기 위해 IT 운영에 인공지능을 적용한 기술 및 전략이다. 이는 오탐을 줄이고, 머신러닝을 사용해 문제가 발생하기 전에 이를 발견하며, 문제 해결을 자동화하고, IT 환경을 전체적으로 파악할 수 있도록 지원한다.  

ZK 리서치 & 마서지(ZK Research and Masergy)가 지난 10월 실시한 설문조사 결과에 따르면 이미 AI옵스를 사용하고 있는 기업들이 65%에 달하는 것으로 나타났다. 또한 94%는 AI옵스가 네트워크 관리 및 클라우드 애플리케이션 성능 관리에 중요하다고 답했다. 84%는 AI옵스를 완전히 자동화된 네트워크 환경으로 가는 경로라고 밝혔으며, 86%는 향후 5년 이내에 완전히 자동화된 네트워크를 구축할 수 있을 것이라고 예상했다.
 
ⓒGetty Images

AI옵스는 여전히 새로운 개념이긴 하지만 이미 그 가치를 입증하고 있다. 올여름 발표된 EMA(Enterprise Management Associates)의 보고서에 의하면 62%의 기업들이 AI 옵스 투자에서 ‘매우 높은’ 또는 ‘높은’ ROI를 확보했다고 말했다(나머지는 손익분기점을 넘었거나 시기상조라고 답했다).

하지만 AI옵스로 가는 길이 항상 순탄한 것은 아니다. EMA 설문조사의 전체 응답자 중 절반 이상은 AI옵스가 구축하기 어렵다고 밝혔다. 가장 일반적인 장애물은 비용, 데이터 품질, IT 내부 갈등, AI에 관한 불신, 인력 부족, 통합 문제 등이었다.

도입 전에 명확한 전략을 수립하지 않는다
글로벌 경영 컨설팅 회사 ‘에이릿(AArete)’의 기술 사업부 총괄 존 캐리는 “일반적으로 시간이 부족하고 리소스도 제한적이다”라고 지적했다. 그는 “실험에서 시작되는 AI 프로젝트가 너무 많다. 전략이 필요하다. AI옵스는 철저하게 계획돼야 한다”라고 덧붙였다.

ACP(Axiom Consulting Partners)의 파트너 돈차 캐롤은 해결하려는 문제를 명확하게 정의하지 않고 기술 솔루션을 출시하는 것은 IT의 오래된 문제라고 언급했다. 그는 “기업들이 해결하려는 문제의 본질과 비즈니스에 미칠 영향을 상세히 파악해야 한다. 그렇지 않으면 설정한 목표를 달성하지 못하는 솔루션을 구현하는 데 많은 비용을 투자할 수 있다”라고 조언했다.

실제로 EMA 보고서에 따르면 기업들은 AI옵스 투자에 전반적으로 긍정적인 가운데 무려 80%가 새로운 플랫폼을 찾고 있었다. 그중 절반은 내년에 (새로운 플랫폼으로) 전환할 계획이라고 답했다. 그리고 이런 과감한 전환의 이유로 유연성, 확장성, 고급 AI 및 ML, 애널리틱스를 꼽았다. 

이는 기업에서 선택한 솔루션이 장기적으로 비즈니스를 지원할 수 있도록, 큰 그림을 그려야 한다는 점을 잊는 경우가 많다는 사실을 시사한다고 캐롤은 언급했다. 그는 “포괄적인 전략을 개발한 다음 사용 사례별로 구현하는 것이 중요하다”라고 권고했다.

불량하거나 불완전한 데이터
EMA 보고서에 의하면 성공적인 AI옵스 구축에 있어 데이터 문제는 비용 다음으로 큰 장애물이다. AI와 ML은 학습 데이터에 따라 좌우된다. 하지만 기업의 레거시 운영 시스템은 성능 데이터를 일관된 방식으로 수집하지 않을 수 있다. 또 중요한 측면이 누락되거나 모순된 정보를 보고할 수 있다.

가트너의 수석 연구 책임자 그레고리 머레이는 “오늘날의 시장은 1세대 단계다. 현재는 가지고 있는 데이터만 분석하고 있다. 그 데이터만 보유하고 있기 때문이다”라고 말했다.

그는 “업계에서 AI옵스 기술을 구축함에 따라 실제로 수집해야 하는 데이터가 무엇인지 자세하게 알게 될 것이다”라면서, “목적에 맞는 데이터세트를 생성하면 정밀도와 정확도가 개선될 것”이라고 언급했다.

한편 데이터를 사용할 수 있더라도 이것이 적절한 학습 데이터세트를 만드는 포맷은 아닐 수 있다. 맥킨지(McKinsey & Co.)의 파트너 조지 마차도는 예를 들면 기업들은 특정 변경사항에 영향을 받는 서버 및 애플리케이션에서 해당 변경사항이 문제를 일으킬지 알고 싶어 하는데, 이러한 분석에서 작성된 변경사항 스크립트는 중요한 요소다.

이어서 그는 “이것이 제대로 작성되지 않았다면 해당 텍스트에서 자연어 처리를 실행해도 유의미한 인사이트를 얻지 못할 것”이라면서, “또한 AI가 오픈 티켓의 스크립트에서 패턴을 찾아낼 수 없을 것”이라고 덧붙였다.

더 중요한 것은 불완전한 데이터세트가 많다는 점이다. “이를테면 기업들은 이벤트를 관련 애플리케이션, 네트워크, 서버와 연결하려고 하지만 완벽한 변경 관리 데이터베이스를 갖춘 클라이언트가 없다”라며, “이러한 문제를 해결하기 위해서는 상당한 노력이 필요하다”라고 말했다.

부족한 커버리지
한 부분에서 발생한 문제가 다른 곳에 연쇄적인 영향을 미칠 수 있다는 점에서, AI옵스를 제대로 활용하려면 기업들은 가능한 한 많은 시스템을 그 아래에 둬야 한다. 실제로 네트워크 문제는 사이버 보안 문제가 될 수 있고, 느린 데이터베이스 서버에 의해 사용자 경험 문제가 발생할 수도 있다.

마차도는 “많은 기업이 디지털로 마이그레이션하면서 애플리케이션 상호 의존성이 커졌다. 애플리케이션의 성능이 저하되면 다른 시스템에서 문제가 발생할 가능성이 있다”라고 전했다.

하지만 이를 달성하려면 많은 장애물을 넘어야 한다. 그중 하나가 이러한 시스템의 비용이다. 또 다른 문제는 관련된 모든 데이터 소스를 통합하는 것이다. 그리고 조직적인 측면도 해결해야 한다고 마차도는 언급했다. “궁극적으로 조직의 파편화가 도구의 파편화로 이어진다”라고 그는 덧붙였다. 

파편화는 단순히 IT 사일로만은 아니다. AI옵스는 다른 비즈니스 부문의 지원을 필요로 한다. 예를 들면 제품을 출시하거나, 새로운 마케팅 캠페인을 하거나, 할인 행사를 진행하는 경우 데이터센터 호출 또는 웹 사이트 트래픽이 급증하여 시스템이 다운될 수 있다. 그는 “애플리케이션 성능과 서버 성능뿐만 아니라 비즈니스 측면에서 이뤄지는 이벤트도 고려해야 한다”라고 말했다.

포레스터 리서치의 애널리스트 윌 맥컨 화이트는 “사이버 보안 등 IT와 관련된 것뿐만 아니라 마케팅 등 IT 외부와의 연결도 중요하다”라고 강조했다. 그는 “실시간 사용자 모니터링 데이터를 수집하는 AI옵스 시스템은 IT 자동화를 지원할 뿐만 아니라 공유 비즈니스 서비스도 될 수 있다”라고 덧붙였다.  

이중 지불 
조직 내부의 갈등을 유발할 수 있는 또 다른 문제는 각 팀 또는 부서가 자체적으로 선호하는 도구를 포기하지 않는 것이다. 맥컨 화이트는 “서로 다른 모니터링 솔루션을 없애는 것은 많은 조직에서 정치적인 악몽이 될 수 있다”라고 언급했다. 
 
이로 인해 기존 시스템을 유지하고 그 위에 AI옵스 플랫폼을 추가하면서 타협해버리는 경우가 많다. 그는 “하지만 이렇게 하면 비용이 증가할 뿐만 아니라 기능도 중복되고 통합 문제도 커질 수 있다”라며, “조직들은 이를 위해 상당한 비용을 지불하면서도 필요한 가치를 얻지 못하고 있다”라고 지적했다. 

이 딜레마를 해결하기 위해 도메인별 시스템에 내장된 AI옵스로 전환하는 기업들도 있다. 예를 들면 애플리케이션 성능 모니터링 시스템은 점점 더 AI와 ML을 사용하여 문제를 발견하고 있다. 대형 클라우드 업체들은 지능형 모니터링 및 자동화 솔루션을 추가하고 있으며, 데이터베이스 업체 및 사이버 보안 플랫폼 업체도 마찬가지다.

이는 AI옵스 기능을 얻는 비교적 쉬운 방법이지만 운영에 관한 멀티도메인, 멀티클라우드 뷰를 포기해야 하는 단점도 있다. 옴디어(Omdia)의 AI 플랫폼, 애널리틱스, 데이터 관리 부문의 수석 애널리스트 브래들리 심민은 내장 기능을 사용하는 것이 (일반적으로 16개월 이상 소요되는) 전체 AI옵스 플랫폼을 구축하거나 배포하는 것보다 훨씬 더 빠르다고 말했다. 

그는 “클라우드, 애플리케이션 센서 API, 물리적 장치의 센서 등 여러 다양한 소스에서 나오는 모든 신호 및 정보를 수집하고 통합해야 한다. 이는 기업들이 수십 년째 직면하고 있는 과제다”라고 전했다.

큰 그림 놓치기
도메인별 플랫폼을 사용하면 네이티브 자동화와 AI 도구를 원활하게 제공할 수 있다. 아울러 (사일로는 유지되지만) 통합 문제를 피할 수도 있다. 하지만 AI옵스의 완전한 이점을 누릴 순 없다. 

심민은 “지연 속도가 늘어나는 문제에 관해 근본 원인 분석(RCA)을 수행한다고 해보자. 이때 네트워크 시스템, 애플리케이션 서버 등과 통신하여 모든 도메인을 확인할 수 있어야 한다. 아무도 (지연 속도에 무슨 일이 일어났는지 파악하기 위해) 네트워크 로그를 확인하고자 주피터 노트북을 검토하고 싶어 하지 않는다”라고 말했다. 

클라우드 제공업체가 전체 범위의 AI옵스 기능을 제공할 수 있을 것이며, 이는 단일 클라우드에 올인하는 기업에게 유용할 수 있다. 그는 “이렇게 되면 AI옵스의 완전한 이점을 누릴 수 있을 것”이라며, “하지만 지금 당장 얻을 수 있는 건 아니다”라고 밝혔다. 

대부분의 기업이 멀티클라우드를 사용하기 때문이라고 심민은 언급했다. 실제로 EMA 보고서에 따르면 단일 크로스-도메인 AI옵스 플랫폼을 선호하는 경향이 뚜렷했다. AI옵스 이니셔티브가 ‘매우 성공적’이라고 답한 기업들의 80%는 단일 플랫폼을 사용하고 있었다. 단일 AI옵스 플랫폼을 사용하지 않는 기업의 57%는 ‘큰 성공을 거두지 못했다’라고 밝혔다. 한편 46%가 단일 AI 옵스 플랫폼을 사용하는 반면에 나머지는 도입을 계획 중이거나 1개 이상의 플랫폼을 쓰고 있었다.

문화적 변화
마지막으로, 많은 기업의 직원들이 AI 시스템을 신뢰하지 않거나 변화를 꺼리는 것으로 조사됐다. EMA 보고서에 의하면 AI옵스가 ‘매우 성공적이었다’라고 지목한 기업에서도 22%가 ‘AI에 대한 두려움 또는 불신’을 AI옵스 이니셔티브의 가장 큰 도전과제로 꼽았으며, 이는 ‘인력 부족’과 함께 공동 4위를 차지했다.

글로벌 디지털 트랜스포메이션 컨설팅 회사 젠팩스(Genpact)의 CDO 산자이 스리바스타바는 “‘여기에 정답이 있다. 하지만 왜 이러한 결론을 냈는지는 묻지 마라’라고 말하는 블랙박스 접근방식에 근본적인 불신이 존재한다. 설명 가능한 AI를 통해 이를 해결하려 하고 있지만 효과가 있는 것도 있고 없는 것도 있다”라고 전했다.

한편 AI옵스를 관리하기 위해서는 기존의 IT 관리와는 다른 스킬이 필요하다고 그는 언급했다. 스리바스타바는 “AI 중심적 스킬은 더 많은 데이터 엔지니어링과 AI 알고리즘을 모델링할 수 있는 역량을 필요로 한다”라고 덧붙였다. 

이 밖에 그레이는 “AI옵스 플랫폼이 트래픽 경로 변경, 리소스 재할당, 새 인스턴스 스핀업 등의 운영 결정을 자동으로 내릴 수 있는 수준까지 빠르게 발전하고 있다”라며, “하지만 신중하게 구성하지 않으면 문제가 발생하기 십상이다”라고 지적했다. 그는 “최악의 시나리오이지만 시스템 종료와 같은 결정을 내릴 수도 있다”라고 덧붙였다. 

일반적으로는 값비싼 실수를 저지를 수도 있다. 그레이는 “가령 AI옵스가 개입해 계속해서 서버를 추가할 수 있다. 이로 인해 클라우드 컴퓨팅 비용이 갑자기 시간당 2만 달러에서 시간당 10만 달러로 증가할 수 있다”라고 말했다. ciokr@idg.co.kr
 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.