Offcanvas

AI / 머신러닝|딥러닝 / 비즈니스|경제

데이터독부터 스플렁크까지··· 추천 'AI옵스' 플랫폼 톱 10

2021.07.23 Peter Wayner  |  CIO
한 때 ‘인공지능(AI)’는 SF소설에서나 나오던 개념이었다. 수십 년의 연구와 상용화를 거쳐 이제 인공지능은 기업 곳곳에서 활용되는 하나의 기본 도구가 됐다. 

AI의 현실화가 가장 두드러진 분야는 데브옵스다. 인공지능의 잠재력을 탐색할 수 있는 완벽한 테스트 공간을 제공하기 때문이다. 운영팀은 이제 ‘AI옵스(AIops)’라는 약자 하에서 제공되는 도구와 플랫폼을 가지게 됐고, 이는 사람의 업무를 대체하고 효율성을 향상시킨다. 이러한 도구 및 플랫폼은 모두 IT 인프라 유지관리에 인공지능 알고리즘을 적용한다고 말한다.

AI옵스는 인공지능의 역량을 제대로 활용할 수 있는 분야다. 서버와 네트워크는 페타바이트 단위의 엄청난 데이터를 생성한다. 프로세스는 언제 시작하고 멈추는지, 언제 급증하고 감소하는지 밀리초 단위로 파악된다. RAM 및 CPU 수요는 정확히 파악되고, 클라우드에서 하드웨어를 임대하는 가격 또한 마찬가지다. 모든 것은 보통 6~7자리의 유효 숫자까지 계산된다. 

물론 자율주행차를 만드는 일은 각종 물리적인 장애물로 가득 찬 세상에서 고군분투해야 한다는 것을 의미할 수 있지만 IT 인프라의 경우 이미 모든 것이 디지털화돼 분석할 준비가 돼 있다. 
 
ⓒGetty Images

가장 간단한 AI옵스 작업을 하나 꼽자면 클라우드 인스턴스에서 소프트웨어 배포 속도를 가속하는 것이다. 부하를 추적하고, 수요를 예측하며, (사용자가 증가할 때) 새로운 인스턴스를 생성하는 등 데브옵스 팀의 모든 작업은 스마트한 자동화를 통해 보강될 수 있다. 

AI옵스 도구는 기계 부하에 관한 미래 지향적 추측을 생성한 다음, 이 추측에서 벗어나는 편차가 있는지 확인한다. 이상 징후는 이메일 발송, 슬랙 게시글 등을 통해 경고될 수 있고, 만약 편차가 크다면(문제가 심각하다면) 호출 경고가 발송된다. 즉 AI옵스 도구는 경고를 관리하고, 정말 심각한 문제일 경우에만 (회의를 하고 있거나 숙면을 취하고 있는) 관리자를 호출하도록 하는 데 초점을 맞춘다. 

비정상적인 수준이나 활동을 감시하기 위한 이 방법은 간혹 (더 어려운 작업인) 보안 강화를 위해 배치되기도 하는데, 이때 일부 AI옵스 도구는 보안 관리자와 데브옵스 팀 모두의 권한으로 귀속된다. 

또한 정교한 AI옵스 도구는 ‘근본 원인 분석’을 제공한다. 이는 최신 엔터프라이즈 애플리케이션의 다양한 시스템에 문제가 어떻게 파급될 수 있는지 추적하는 플로우차트를 생성한다. 과부하에 걸린 데이터베이스가 API 게이트웨이 속도를 늦추고 웹 서비스를 마비시켰다고 가정해보자. 여기서 자동화된 워크플로우 카탈로그는 문제 발생 과정을 추적하고 문서화해 팀이 실제 문제를 신속하게 파악할 수 있도록 지원한다. 

이 글에서 살펴볼 많은 도구는 오랜 역사를 가진 모니터링 시스템을 기반으로 구축됐다. 이 도구들은 복잡한 엔터프라이즈 인프라에서 이벤트를 추적하는 도구로써 시작됐고, 이제는 인공지능으로 확장됐다. AI 연구소에서 시작돼 외부로 확장된 도구도 몇몇 있다. 

어떤 경우이든 이들 플랫폼을 평가하려는 사용자는 데이터를 수집하는 커넥터의 범위를 파악하고 싶을 것이다. 일부 AI옵스 플랫폼은 다른 플랫폼보다 인프라에 더 원활하게 통합된다. 모두가 원시 데이터를 수집하는 기본적인 경로를 제공하지만 일부 커넥터는 다른 커넥터보다 우수하다. 

AI옵스 플랫폼 채택을 고려 중이라면 각 AI옵스 제품이 기업의 데이터베이스 및 서비스와 원활하게 통합되는지 검토해야 한다. 엔터프라이즈 IT 인프라 운영을 단순화하는 ‘AI옵스’ 도구 10가지를 살펴본다. 

앱다이나믹스(AppDynamics)
시스코 산하 사업부인 ‘앱다이나믹스’는 성능 모니터링을 전문으로 한다(시스코가 이 회사를 지난 2017년 미화 37억 달러에 인수했다). 앱다이나믹스는 플랫폼에 머신러닝을 추가해 과거 기준에서 벗어나는 지표를 감시한다. 

해당 시스템은 플로우 차트를 생성하고 이벤트가 어떻게 시스템 장애까지 이어졌는지 학습해 근본 원인을 파악하는 데 도움을 준다. 또한 일반적인 장애 해결을 자동화할 수 있는 링크를 제공하며, 이러한 지표를 비즈니스 결과(예: 매출 등)와 상호 연계할 수 있도록 지원한다. 

빅팬더(BigPanda) 
빅팬더’는 비정상적 행동을 감지하고, 문제를 해결하기 위해 팀들을 조율하는 데 중점을 둔다. (회사명과 동일한) 빅팬더 플랫폼은 주요 클라우드 제공업체와 통합되며, 근본 원인 분석 및 이벤트 감지 기능을 제공한다. 

빅팬더의 ‘레벨-0 자동화(Level-0 Automation)’는 문제 발생 이후 나오는 워크로드를 처리한다. 빅팬더는 티켓을 생성하고, 경고를 보내며, 심각한 문제의 경우 가상의 ‘워 룸(war rooms)’을 만들어 워크플로우를 단순화한다. 

데이터독(DataDog)
최근 ‘데이터독’은 성능 관리 도구에 워치독(Watchdog) 모듈을 추가했다. 이를 통해 데브옵스 팀은 성능 장애가 발생하기 시작하면 자동으로 경고를 받을 수 있다. 

이 도구는 계절 및 시간에 따라 조정된 과거 기록을 기반으로 성능 예측을 한다. 레이턴시, RAM 소비량, 네트워크 대역폭 등의 지표가 변경되고 기준에서 벗어나면 경고가 발동될 수 있다. 이는 데이터독의 보안 탐지 시스템과 통합돼 있으며, 가상머신(VM), 클라우드 인스턴스 및 서버리스 기능과 연동할 수도 있다. 

다이나트레이스(Dynatrace)
다이나트레이스’는 클라우드 기반 VM, 컨테이너, 기타 서버리스 솔루션을 추적하기 위한 종합적인 기능을 갖춘 모니터링 도구다. 로그 파일, 이벤트 보고서, 여타 트리거를 수집하여 이른바 ‘정확한 AI 기반 답변’을 전달한다. 

이 도구의 핵심 요소는 데이비스(Davis)라고 하는 ‘결정론적 AI(Deterministic AI)’다. 이는 플로우 차트와 트리를 생성해 이상 징후 또는 장애의 근본 원인을 정확하게 파악할 수 있도록 한다. 또한 (적절하게 구성됐다면) 자동으로 실행돼 근본 원인을 수정할 수 있는 변경 사항을 트리거할 수 있다. 

깃허브 코파일럿(Github Copilot)
대부분의 AI옵스 도구는 이미 실행 중인 소프트웨어를 지원하도록 설계됐다. 이와 달리 ‘깃허브 코파일럿’은 코드를 처음 작성할 때부터 도움을 준다. 이 도구는 개발자가 입력하는 내용(코드)을 보고 코드를 완성하는 방법을 제안한다. 엄청난 양의 오픈소스 코드를 학습했기 때문에 코파일럿의 제안은 어느 정도 쓸 만하다. 

단 새로운 코드의 최종 작성자가 누구인지, 이 AI를 신뢰할 수 있는지, 수백만 명의 오픈소스 프로그래머가 기여에 대해 인정을 받을 수 있는지 등의 다소 철학적인 의문은 여전히 존재한다. 대답은 ‘아마도’일 것이다. 더 큰 문제는 ‘코파일럿이 개발자의 코드를 얼마나 잘 이해하는가? 그리고 자동 완성 기능보다 진짜 더 나은가?’다. 대답은 ‘아마도 상황에 따라 다를 것’이다. 

IBM 왓슨 클라우드 팩 포 AI옵스(Watson Cloud Pak for AIops)
IBM은 AI 왓슨을 클라우드와 통합해 ‘왓슨 클라우드 팩 포 AI옵스’를 만들었다. 이 도구는 클라우드 모니터링 소프트웨어에서 수집된 데이터에 자동화된 근본 원인 분석을 제공한다. 이벤트가 (설정할 수 있는) 심각도 수준에 도달하면 툴체인에서 기본 경고 또는 자동화된 응답을 트리거할 수 있다. 

로직모니터(LogicMonitor)
로직모니터’는 자사의 AI를 ‘LM 인텔리전스(LM Intelligence)’라고 부른다. 이는 과거 데이터에서 조정된 동적 임계값을 기반으로 하는 경고 시스템과 근본 원인 감지기를 번들로 제공한다. 조기 경고 시스템은 과거 데이터를 확장하여 레이턴시, 대역폭 및 기타 지표에 관한 임계값을 계산하는 예측 모듈을 사용한다.  

로직모니터는 ‘경고로 인한 피로(alert fatigue)’를 줄이는 데 초점을 맞춰 진짜 심각한 행동에 집중할 수 있도록 지원한다. 데이터 수집기는 컴퓨팅 리소스(쿠버네티스, 컨테이너 등), 네트워크 트래픽 및 스토리지 시스템(데이터베이스, 버킷 등)을 감시한다. 

무그소프트(Moogsoft)
무그소프트는 뉴 렐릭, 데이터독, AWS 클라우드워치, 앱다이나믹스 등 주요 성능 모니터링 도구와 통합되는 전문 AI 엔진이다. 기업에서 오픈소스 또는 인하우스 솔루션 등을 사용해도 무그소프트는 ‘무엇이든 어디서나 언제든지’ 통합할 수 있다고 주장한다. 

이 제품은 이벤트 중복을 제거하는 파이프라인을 통해 데이터를 이동시키고, 이를 다른 출처의 맥락 데이터로 보강한 다음, 데이터 상관관계를 분석해 경고를 발동한다. 클러스터링 알고리즘과 과거 기록은 노이즈를 줄이고 문제 보고서를 생성하는 데 도움을 준다. 

뉴 렐릭 원(New Relic One)
‘뉴 렐릭’은 성능 모니터링 도구인 ‘원’에 AI 엔진을 추가했고, 스플렁크, 그래파나, AWS 클라우드워치 등 다른 도구에서 유입되는 모든 이벤트를 추적한다. 이 도구는 잠재적 심각도를 가진 여러 이벤트를 유연한 수준의 민감도로 구성할 수 있다. 

예를 들면 우선순위가 낮은 오류가 15분 동안 여러 차례 발생한 경우에 경고를 생성하도록 설정할 수 있다. 또 서버 충돌과 같은 우선순위가 높은 이벤트는 즉시 호출 경고를 생성하도록 할 수 있다. 문제 로그는 모든 이벤트를 추적하고 AI가 경고를 생성하기 전까지 취한 논리적 단계를 제시하는 상관관계 보고서(Correlation Decision report)도 제공한다. 

스플렁크(Splunk)
스플렁크’는 로그 파일을 수집하는 한편 성능 추적, 이상 징후 식별, 문제 진단 등을 지원하는 종합적인 보고 도구를 구축하기 위한 도구로 시작됐다. 이 제품은 심층 인덱싱 도구와 정보 그래픽을 통합해 이벤트를 카탈로그화한다. 스플렁크의 인공지능 및 머신러닝 알고리즘은 문제를 예측하고 원인을 파악할 수 있다. 

이러한 알고리즘은 스플렁크에 통합된 모든 서비스를 추적해 근본 원인을 찾아낸다. 머신러닝 기능이 플랫폼과 긴밀하게 통합돼 있어서 성능 추적에 능숙한 서비스 엔지니어는 별도의 교육 없이 머신러닝을 활용할 수 있다. 이를테면 메인 대시보드를 통해 과거 성능 및 차이를 추적할 수 있다. ciokr@idg.co.kr


 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.