2021.01.26

'AI 옵스에서 AI의 역할은?'··· 전문 벤더 6곳이 답하다

Isaac Sacolick | InfoWorld
ML(머신러닝), 자동화, AI(인공 지능) 역량을 홍보하는 기술 플랫폼은 쉽게 찾을 수 있다. 데브옵스가 주류로 부상하면서 비슷한 이름의 프로세스와 기술, IT 문화가 줄지어 등장했다. 예를 들어 클라우드옵스, 데이터옵스, 시스옵스, 그리고 AI옵스가 있다.
 
IT 운영에 머신러닝을 적용해서 비즈니스 및 IT 가치를 얻는다는 개념에 회의적인 사람도 있을 것이다. 회의적인 태도도 좋지만 대비는 해야 한다. 필자는 여기에 상당한 기회가 있으며 AI옵스는 2021년에 급부상할 데브옵스 역량 가운데 하나라고 확실히 말할 수 있다.
 
IT 환경은 지난 10년 동안 더 복잡해졌다. 자동 확장되는 퍼블릭 및 프라이빗 클라우드, IoT(사물인터넷)를 지원하는 엣지 컴퓨팅 인프라, 초대형 데이터베이스를 사용한 머신러닝 실험, 새로운 통합, 빈번한 애플리케이션 배포, 필수적인 레거시 시스템, 도처에 사용되는 마이크로서비스 등이 뒤섞여 있다. 또한 보안 사고, 상호 이질적인 최종 사용자 컴퓨팅 구성, 변덕스러운 애플리케이션 사용 패턴 등 IT의 통제 범위를 벗어나는 변수도 많다.
 
사고에 대응하고 애플리케이션 문제를 해결하고 근본 원인 분석을 수행하고 복잡한 사용자 문제를 진단하고 운영 위험을 감정하고 보안 약점을 파악하거나 컴퓨팅 비용을 예측하는 일을 담당하는 사람에겐 일하기 어려운 환경이다.
 
이 부분에서 AI옵스가 도움이 될 수 있다. 필자는 지난 기사에서 IT와 SRE가 애플리케이션 모니터링을 개선하고 사고를 해결하는 데 있어 AI옵스가 어떻게 도움이 되는지에 관해 썼다. 그러나 다양한 솔루션이 어떻게 데이터 정제, 분석, 머신러닝과 자동화를 구현해 IT를 간소화하고 비즈니스 효과를 제공하는지에 대해 더 알아보고 싶은 부분이 있었다.
 
6개 AI옵스 솔루션 제공업체가 필자의 궁금증에 답했다. 이들의 답을 통해 AI옵스가 비즈니스와 IT를 위해 어떤 문제를 해결하는지, 이들의 솔루션에 어떤 유형의 머신러닝 알고리즘이 사용되는지, 그리고 제품이 어떻게 자동화를 지원하는지에 대한 큰 그림을 볼 수 있다.
 

데보, 실시간 옵스와 보안 가시성 제공

데보(Devo)의 IT 운영 및 검색 부문 책임자 파코 후에르타는 AI옵스는 IT 부서가 최종 사용자 문제보다 한 발 앞서가는 데 도움이 된다면서 “데보의 AI는 대규모 하이브리드 환경 전반에 대한 자동적이고 전체 맥락을 포괄하는 통찰력을 제공하므로 최종 사용자가 영향을 받기 전에 운영자가 문제의 정확한 원인을 찾아낼 수 있다”고 말했다.
 
IT 부서는 지속적인 압박에 직면해 있다. 데보는 노이즈를 걷어내고 문제의 근본 원인을 신속하게 찾고 위험을 평가하는 데 도움이 된다. 데보 내에는 시계열 이상 감지, 모델을 개발하고 배포하기 위한 ML 워크벤치 등 다양한 오픈소스 및 사유 ML 알고리즘이 사용된다. 데보의 모델은 스트림 기반이므로 지속적으로 학습하고 빠르게 적응한다.
 

마이크로 포커스, IT 운영 문제 식별과 해결에 초점

마이크로 포커스(Micro Focus)의 AI 옵스 제품 마케팅 관리자인 마이클 프로코피오는 전체 스택 AI옵스가 IT 부서에서 방대한 데이터 집합을 조사해 문제를 찾고 수정하는 데 도움이 된다면서 “현재 IT 환경에서 생산되는 데이터의 양은 사람이 처리할 수 있는 수준을 넘어선다. 머신러닝은 수백 개의 경보 또는 수백만 개의 로그 파일을 사람이 손쉽게 처리할 수 있는 소수의 의심스러운 항목으로 추려낼 수 있다. 데이터 감소는 문제를 더 신속히 찾을 수 있게 해주며 자동화는 더 빠른 문제 해결을 위한 핵심이다. 이 두 가지를 연결해서 사람의 개입이 거의 불필요한 탐색-해결 솔루션을 제공할 수 있을 때 전체 스택 AI옵스라고 한다”고 말했다.

마이크로 포커스의 AI옵스 솔루션에는 오퍼레이션 브리지(Operations Bridge)가 포함된다. 오퍼레이션 브리지는 200개 이상의 써드 파티 툴과 기술에서 시스템 패치 수준과 규정 준수 데이터를 포함한 모든 이벤트와 메트릭, 로그를 수집한다. 그런 다음 서비스 맵, 토폴로지, 종속성 데이터를 상호연계해 정확한 비즈니스 서비스 모델을 구축한다.
 
이 플랫폼은 군집, 회귀, 추론 통계, 맞춤형 로직, 계절성 알고리즘을 포함한 비지도(unsupervised) ML을 활용한다. 또한 운영자 피드백을 통해 시스템 정확성을 개선하고 향후 조치를 안내한다.
 

무그소프트, IT 운영의 인지 역량 강화

무그소프트(Moogsoft) CTO 윌 카펠리는 데브옵스가 주축이 된 빠른 변화에 보조를 맞추기 위해서는 IT 운영에 AI가 필요하다고 강조하며 “현대 IT 시스템의 동작은 복잡하며, CI/CD(지속적 통합/지속적 개발)를 통한 빈번한 배포에 따라 구성요소와 연결 토폴로지도 지속적으로 바뀐다. 현대 IT 시스템이 생성하는 로그, 이벤트 기록, 메트릭과 같은 자기설명적(self-descriptive) 데이터를 활용해 문제와 중단을 예측하고, AI 기술이 해석한 신호에 나타난 문제에 대처하기 위해서는 AI가 필요하다”고 말했다.
 
무그소프트의 AI는 여러 기능을 순차적으로 수행한다. 먼저 로그 파일 및 기타 운영체제로부터 집계된, 노이즈가 포함된 데이터 내에서 고정보(high-information) 데이터 집합을 선택한다. 그 다음 이와 같은 고정보 데이터 집합에서 상호 연관 패턴을 찾고 어떤 상관 관계가 인과관계인지를 판단한다. 마지막으로 로봇화된 대응 실행을 보조한다.

Moogsoft states that AIops can have a direct impact on revenue and brand reputation. When an intelligent response is robotic, it shortens the MTTR (mean time to recovery) of incidents that impact customers and employees.
무그소프트 측은 AI옵스가 수익 및 브랜드 평판에 직접적인 영향을 미칠 수 있다고 주장한다. 로봇의 지능적 대응이 실현되면 고객과 직원에게 영향을 미치는 사고의 MTTR(평균 복구 시간)이 단축된다.
 

옵스램프, IT 서비스 수준 목표 달성 지원

옵스램프(OpsRamp)의 이벤트 관리 및 자동화 부문 수석 제품 관리자인 닐 피어슨은 AI옵스의 자동화가 IT 부서의 업무 역량 향상에 도움이 되며, 이는 비즈니스 측면에서 이익이라고 말했다. 피어슨은 “AI옵스는 ML, 딥러닝, 로봇 공정 자동화(RPA)를 포함한 다양한 AI 기술을 적용해 복잡하고 많은 수작업이 필요한 반복적인 작업을 자동화하는 것이다. 일반적으로 이를 위해 다양한 소스에서 가져온 다양한 형식의 대량 데이터를 흡수한다. 옵스램프는 이상 현상 탐지, 초기 발견부터 해결에 이르기까지 반복적인 경보와 사고를 예측하고 방지하는 데 초점을 둔다. 핵심은 사람들의 업무 역량을 측정 가능할 만큼 향상시키고 기업의 비즈니스 개선을 돕는 것”이라고 말했다.
 
옵스램프는 메트릭, 로그, 네트워크 패킷, 트레이스와 같은 여러 소스에서 많은 양의 데이터 집합을 흡수해 문제의 근본 원인을 찾는다. 모래사장에서 바늘 찾기와 같은 과정이다. 딥러닝과 자연어 처리 알고리즘을 사용해서 노이즈를 제거하고, 문제 해결 방안을 권고하고 재발을 방지함으로써 운영을 지원한다. IT 부서는 옵스램프를 통해 수동 개입을 줄이는 자동 대응 정책을 설계하고 비즈니스 영향을 기준으로 문제에 우선 순위를 부여할 수 있다.
 

리졸브, 민첩한 자율 IT 운영 촉진

리졸브(Resolve) CEO 비제이 커칼은 AI와 자동화를 사용해서 문제와 해결 사이의 간극을 잇는 “자가 치료 IT”가 현실이 될 수 있다고 믿는다. 커칼은 “AI옵스 툴은 현존하거나 잠재적인 성능 문제를 신속하게 파악하고 이상 현상을 탐지하고 문제의 근본 원인을 찾고 미래의 문제를 예측해서 비즈니스가 영향을 받기 전에 선제적인 해결 방안을 마련하도록 한다. AI에서 얻는 통찰력과 자동화를 결합하면 조직은 이러한 기술의 가치와 잠재력을 최대화하고 발견, 분석, 탐지, 예측, 자동화를 매끄럽게 연결해 말로만 듣던 자가 치료 IT에 더욱 근접할 수 있다”고 말했다.
 
리졸브는 또한 애플리케이션과 인프라를 자동으로 검색하고 세부적인 토폴리지 맵을 생성하고 핵심 비즈니스 애플리케이션과 기반 인프라 사이의 종속성을 파악할 수 있다. 이러한 관계를 이해하면 복잡하고 여러 영역에 걸친 환경을 일목요연하게 볼 수 있는 하나의 창을 통해 문제 해결이 더 쉬워지고 전체적인 IT 관리가 용이해진다. 이 데이터를 CMDB(Configuration Management Database, 구성 관리 데이터베이스)에 실시간에 가깝게 푸시해서 정확한 인벤토리 정보를 확보하고 견고한 ITSM 기반을 구축할 수 있다.
 
리졸브 인사이트(Resolve Insights)는 이상 탐지, 이벤트 패턴 식별, 예측 알고리즘을 포함한 많은 ML 알고리즘을 활용한다. 목표는 핵심 앱과 인프라의 성능을 개선하고 업타임을 최대화하고 최적화 작업에 활용할 통찰력을 제공함으로써 전체적인 고객 및 직원 경험을 향상시키는 데 있다.
 

스플렁크, IT 부서의 복잡한 운영 환경 관리 지원

스플렁크(Splunk)의 최고 기술 자문인 앤디 맨은 데브옵스 리더이자 혁신과 IT 운영에 관한 책의 저자로도 유명하다. 맨은 IT 부서는 모놀리식 애플리케이션을 지원하도록 설계된 레거시 운영 모델에서 데이터를 기반으로 한, 자동화를 포용하고 서비스 제공 방법에 중점을 둔 운영 모델로 발전해야 한다고 조언했다.
 
맨은 “현대적 접근 방법으로 인해 전 세계적인 24/7 전자 마켓플레이스에서 기술 도입과 접촉의 속도가 높아지면서 현대 시스템의 복잡성은 사람이 효과적으로 관리하기에는 너무 높아졌고, 레거시 모놀리식에 맞게 설계된 ‘전통적인’ IT 운영 기법은 이 흐름에 보조를 맞추지 못한다. 고급 알고리즘 처리와 머신러닝, 인공 지능, 대응 자동화, 워크플로우 오케스트레이션, 즉, 서비스 제공 팀이 새로운 수준의 복잡성에 대처할 수 있는 AI옵스를 적용한 데이터에 기반한 접근 방법을 사용해야 한다. 스플렁크는 AI옵스로 이와 같은 과제에 대처하면서 IT옵스, 관찰 가능성, 보안에 대한 데이터 기반의 접근 방법을 제공해 비즈니스와 고객이 요구하는 성능, 가용성, 기능, 안정성, 영향을 보장한다”고 말했다.
 
스플렁크는 머신러닝에 대해 “화이트 박스” 접근 방법을 사용하는데, 이 접근 방법은 이상 현상 탐지와 분류, 군집화, 교차 검증, 특성 추출, 전처리, 회귀, 시계열 분석에 필요한 30가지의 알고리즘을 사전에 입력한다. 또한 사이킷-런(scikit-learn), 판다스(pandas), 스탯츠모델즈(statsmodels), 넘파이(NumPy), 사이파이(SciPy) 라이브러리의 300가지 이상의 오픈소스 파이썬 알고리즘을 포함한다.
 

AI옵스는 모든 IT 팀에 큰 도움이 될 수 있다

맨을 보면 웹 애플리케이션의 고가용성과 성능을 유지하려고 IT 운영 팀과 협력했던 예전 시절이 떠오른다. 고객과 직원이 문제를 보고하면 시스템 및 애플리케이션 모니터를 배치했다. 반복되는 사고 유형이 있으면 해결을 위한 플레이북과 표준 운영 절차를 만들었다. 가능한 경우 웹 서버를 재시작하고 데이터베이스 테이블스페이스를 정리하고 주 스토리지 시스템에서 오래된 파일을 찾아 보관하는 스크립트를 작성했다.

그러나 지금의 규모와 복잡성, 서비스 기대치 하에서 IT는 이 과정의 속도를 높여야 한다. AI옵스 솔루션의 용도가 바로 여기에 있다. AI옵스 플랫폼은 운영 데이터를 중앙화, 정리하고 머신러닝을 활용해 다양한 문제를 찾고 해결을 자동화하는 틀을 제공한다. 최종 목표는 더 나은 경험을 제공하고 힘든 작업을 줄이고 IT 부서에 시간을 벌어주고 비즈니스를 위한 프로젝트와 혁신을 추구할 수 있도록 하는 것이다. editor@itworld.co.kr 



2021.01.26

'AI 옵스에서 AI의 역할은?'··· 전문 벤더 6곳이 답하다

Isaac Sacolick | InfoWorld
ML(머신러닝), 자동화, AI(인공 지능) 역량을 홍보하는 기술 플랫폼은 쉽게 찾을 수 있다. 데브옵스가 주류로 부상하면서 비슷한 이름의 프로세스와 기술, IT 문화가 줄지어 등장했다. 예를 들어 클라우드옵스, 데이터옵스, 시스옵스, 그리고 AI옵스가 있다.
 
IT 운영에 머신러닝을 적용해서 비즈니스 및 IT 가치를 얻는다는 개념에 회의적인 사람도 있을 것이다. 회의적인 태도도 좋지만 대비는 해야 한다. 필자는 여기에 상당한 기회가 있으며 AI옵스는 2021년에 급부상할 데브옵스 역량 가운데 하나라고 확실히 말할 수 있다.
 
IT 환경은 지난 10년 동안 더 복잡해졌다. 자동 확장되는 퍼블릭 및 프라이빗 클라우드, IoT(사물인터넷)를 지원하는 엣지 컴퓨팅 인프라, 초대형 데이터베이스를 사용한 머신러닝 실험, 새로운 통합, 빈번한 애플리케이션 배포, 필수적인 레거시 시스템, 도처에 사용되는 마이크로서비스 등이 뒤섞여 있다. 또한 보안 사고, 상호 이질적인 최종 사용자 컴퓨팅 구성, 변덕스러운 애플리케이션 사용 패턴 등 IT의 통제 범위를 벗어나는 변수도 많다.
 
사고에 대응하고 애플리케이션 문제를 해결하고 근본 원인 분석을 수행하고 복잡한 사용자 문제를 진단하고 운영 위험을 감정하고 보안 약점을 파악하거나 컴퓨팅 비용을 예측하는 일을 담당하는 사람에겐 일하기 어려운 환경이다.
 
이 부분에서 AI옵스가 도움이 될 수 있다. 필자는 지난 기사에서 IT와 SRE가 애플리케이션 모니터링을 개선하고 사고를 해결하는 데 있어 AI옵스가 어떻게 도움이 되는지에 관해 썼다. 그러나 다양한 솔루션이 어떻게 데이터 정제, 분석, 머신러닝과 자동화를 구현해 IT를 간소화하고 비즈니스 효과를 제공하는지에 대해 더 알아보고 싶은 부분이 있었다.
 
6개 AI옵스 솔루션 제공업체가 필자의 궁금증에 답했다. 이들의 답을 통해 AI옵스가 비즈니스와 IT를 위해 어떤 문제를 해결하는지, 이들의 솔루션에 어떤 유형의 머신러닝 알고리즘이 사용되는지, 그리고 제품이 어떻게 자동화를 지원하는지에 대한 큰 그림을 볼 수 있다.
 

데보, 실시간 옵스와 보안 가시성 제공

데보(Devo)의 IT 운영 및 검색 부문 책임자 파코 후에르타는 AI옵스는 IT 부서가 최종 사용자 문제보다 한 발 앞서가는 데 도움이 된다면서 “데보의 AI는 대규모 하이브리드 환경 전반에 대한 자동적이고 전체 맥락을 포괄하는 통찰력을 제공하므로 최종 사용자가 영향을 받기 전에 운영자가 문제의 정확한 원인을 찾아낼 수 있다”고 말했다.
 
IT 부서는 지속적인 압박에 직면해 있다. 데보는 노이즈를 걷어내고 문제의 근본 원인을 신속하게 찾고 위험을 평가하는 데 도움이 된다. 데보 내에는 시계열 이상 감지, 모델을 개발하고 배포하기 위한 ML 워크벤치 등 다양한 오픈소스 및 사유 ML 알고리즘이 사용된다. 데보의 모델은 스트림 기반이므로 지속적으로 학습하고 빠르게 적응한다.
 

마이크로 포커스, IT 운영 문제 식별과 해결에 초점

마이크로 포커스(Micro Focus)의 AI 옵스 제품 마케팅 관리자인 마이클 프로코피오는 전체 스택 AI옵스가 IT 부서에서 방대한 데이터 집합을 조사해 문제를 찾고 수정하는 데 도움이 된다면서 “현재 IT 환경에서 생산되는 데이터의 양은 사람이 처리할 수 있는 수준을 넘어선다. 머신러닝은 수백 개의 경보 또는 수백만 개의 로그 파일을 사람이 손쉽게 처리할 수 있는 소수의 의심스러운 항목으로 추려낼 수 있다. 데이터 감소는 문제를 더 신속히 찾을 수 있게 해주며 자동화는 더 빠른 문제 해결을 위한 핵심이다. 이 두 가지를 연결해서 사람의 개입이 거의 불필요한 탐색-해결 솔루션을 제공할 수 있을 때 전체 스택 AI옵스라고 한다”고 말했다.

마이크로 포커스의 AI옵스 솔루션에는 오퍼레이션 브리지(Operations Bridge)가 포함된다. 오퍼레이션 브리지는 200개 이상의 써드 파티 툴과 기술에서 시스템 패치 수준과 규정 준수 데이터를 포함한 모든 이벤트와 메트릭, 로그를 수집한다. 그런 다음 서비스 맵, 토폴로지, 종속성 데이터를 상호연계해 정확한 비즈니스 서비스 모델을 구축한다.
 
이 플랫폼은 군집, 회귀, 추론 통계, 맞춤형 로직, 계절성 알고리즘을 포함한 비지도(unsupervised) ML을 활용한다. 또한 운영자 피드백을 통해 시스템 정확성을 개선하고 향후 조치를 안내한다.
 

무그소프트, IT 운영의 인지 역량 강화

무그소프트(Moogsoft) CTO 윌 카펠리는 데브옵스가 주축이 된 빠른 변화에 보조를 맞추기 위해서는 IT 운영에 AI가 필요하다고 강조하며 “현대 IT 시스템의 동작은 복잡하며, CI/CD(지속적 통합/지속적 개발)를 통한 빈번한 배포에 따라 구성요소와 연결 토폴로지도 지속적으로 바뀐다. 현대 IT 시스템이 생성하는 로그, 이벤트 기록, 메트릭과 같은 자기설명적(self-descriptive) 데이터를 활용해 문제와 중단을 예측하고, AI 기술이 해석한 신호에 나타난 문제에 대처하기 위해서는 AI가 필요하다”고 말했다.
 
무그소프트의 AI는 여러 기능을 순차적으로 수행한다. 먼저 로그 파일 및 기타 운영체제로부터 집계된, 노이즈가 포함된 데이터 내에서 고정보(high-information) 데이터 집합을 선택한다. 그 다음 이와 같은 고정보 데이터 집합에서 상호 연관 패턴을 찾고 어떤 상관 관계가 인과관계인지를 판단한다. 마지막으로 로봇화된 대응 실행을 보조한다.

Moogsoft states that AIops can have a direct impact on revenue and brand reputation. When an intelligent response is robotic, it shortens the MTTR (mean time to recovery) of incidents that impact customers and employees.
무그소프트 측은 AI옵스가 수익 및 브랜드 평판에 직접적인 영향을 미칠 수 있다고 주장한다. 로봇의 지능적 대응이 실현되면 고객과 직원에게 영향을 미치는 사고의 MTTR(평균 복구 시간)이 단축된다.
 

옵스램프, IT 서비스 수준 목표 달성 지원

옵스램프(OpsRamp)의 이벤트 관리 및 자동화 부문 수석 제품 관리자인 닐 피어슨은 AI옵스의 자동화가 IT 부서의 업무 역량 향상에 도움이 되며, 이는 비즈니스 측면에서 이익이라고 말했다. 피어슨은 “AI옵스는 ML, 딥러닝, 로봇 공정 자동화(RPA)를 포함한 다양한 AI 기술을 적용해 복잡하고 많은 수작업이 필요한 반복적인 작업을 자동화하는 것이다. 일반적으로 이를 위해 다양한 소스에서 가져온 다양한 형식의 대량 데이터를 흡수한다. 옵스램프는 이상 현상 탐지, 초기 발견부터 해결에 이르기까지 반복적인 경보와 사고를 예측하고 방지하는 데 초점을 둔다. 핵심은 사람들의 업무 역량을 측정 가능할 만큼 향상시키고 기업의 비즈니스 개선을 돕는 것”이라고 말했다.
 
옵스램프는 메트릭, 로그, 네트워크 패킷, 트레이스와 같은 여러 소스에서 많은 양의 데이터 집합을 흡수해 문제의 근본 원인을 찾는다. 모래사장에서 바늘 찾기와 같은 과정이다. 딥러닝과 자연어 처리 알고리즘을 사용해서 노이즈를 제거하고, 문제 해결 방안을 권고하고 재발을 방지함으로써 운영을 지원한다. IT 부서는 옵스램프를 통해 수동 개입을 줄이는 자동 대응 정책을 설계하고 비즈니스 영향을 기준으로 문제에 우선 순위를 부여할 수 있다.
 

리졸브, 민첩한 자율 IT 운영 촉진

리졸브(Resolve) CEO 비제이 커칼은 AI와 자동화를 사용해서 문제와 해결 사이의 간극을 잇는 “자가 치료 IT”가 현실이 될 수 있다고 믿는다. 커칼은 “AI옵스 툴은 현존하거나 잠재적인 성능 문제를 신속하게 파악하고 이상 현상을 탐지하고 문제의 근본 원인을 찾고 미래의 문제를 예측해서 비즈니스가 영향을 받기 전에 선제적인 해결 방안을 마련하도록 한다. AI에서 얻는 통찰력과 자동화를 결합하면 조직은 이러한 기술의 가치와 잠재력을 최대화하고 발견, 분석, 탐지, 예측, 자동화를 매끄럽게 연결해 말로만 듣던 자가 치료 IT에 더욱 근접할 수 있다”고 말했다.
 
리졸브는 또한 애플리케이션과 인프라를 자동으로 검색하고 세부적인 토폴리지 맵을 생성하고 핵심 비즈니스 애플리케이션과 기반 인프라 사이의 종속성을 파악할 수 있다. 이러한 관계를 이해하면 복잡하고 여러 영역에 걸친 환경을 일목요연하게 볼 수 있는 하나의 창을 통해 문제 해결이 더 쉬워지고 전체적인 IT 관리가 용이해진다. 이 데이터를 CMDB(Configuration Management Database, 구성 관리 데이터베이스)에 실시간에 가깝게 푸시해서 정확한 인벤토리 정보를 확보하고 견고한 ITSM 기반을 구축할 수 있다.
 
리졸브 인사이트(Resolve Insights)는 이상 탐지, 이벤트 패턴 식별, 예측 알고리즘을 포함한 많은 ML 알고리즘을 활용한다. 목표는 핵심 앱과 인프라의 성능을 개선하고 업타임을 최대화하고 최적화 작업에 활용할 통찰력을 제공함으로써 전체적인 고객 및 직원 경험을 향상시키는 데 있다.
 

스플렁크, IT 부서의 복잡한 운영 환경 관리 지원

스플렁크(Splunk)의 최고 기술 자문인 앤디 맨은 데브옵스 리더이자 혁신과 IT 운영에 관한 책의 저자로도 유명하다. 맨은 IT 부서는 모놀리식 애플리케이션을 지원하도록 설계된 레거시 운영 모델에서 데이터를 기반으로 한, 자동화를 포용하고 서비스 제공 방법에 중점을 둔 운영 모델로 발전해야 한다고 조언했다.
 
맨은 “현대적 접근 방법으로 인해 전 세계적인 24/7 전자 마켓플레이스에서 기술 도입과 접촉의 속도가 높아지면서 현대 시스템의 복잡성은 사람이 효과적으로 관리하기에는 너무 높아졌고, 레거시 모놀리식에 맞게 설계된 ‘전통적인’ IT 운영 기법은 이 흐름에 보조를 맞추지 못한다. 고급 알고리즘 처리와 머신러닝, 인공 지능, 대응 자동화, 워크플로우 오케스트레이션, 즉, 서비스 제공 팀이 새로운 수준의 복잡성에 대처할 수 있는 AI옵스를 적용한 데이터에 기반한 접근 방법을 사용해야 한다. 스플렁크는 AI옵스로 이와 같은 과제에 대처하면서 IT옵스, 관찰 가능성, 보안에 대한 데이터 기반의 접근 방법을 제공해 비즈니스와 고객이 요구하는 성능, 가용성, 기능, 안정성, 영향을 보장한다”고 말했다.
 
스플렁크는 머신러닝에 대해 “화이트 박스” 접근 방법을 사용하는데, 이 접근 방법은 이상 현상 탐지와 분류, 군집화, 교차 검증, 특성 추출, 전처리, 회귀, 시계열 분석에 필요한 30가지의 알고리즘을 사전에 입력한다. 또한 사이킷-런(scikit-learn), 판다스(pandas), 스탯츠모델즈(statsmodels), 넘파이(NumPy), 사이파이(SciPy) 라이브러리의 300가지 이상의 오픈소스 파이썬 알고리즘을 포함한다.
 

AI옵스는 모든 IT 팀에 큰 도움이 될 수 있다

맨을 보면 웹 애플리케이션의 고가용성과 성능을 유지하려고 IT 운영 팀과 협력했던 예전 시절이 떠오른다. 고객과 직원이 문제를 보고하면 시스템 및 애플리케이션 모니터를 배치했다. 반복되는 사고 유형이 있으면 해결을 위한 플레이북과 표준 운영 절차를 만들었다. 가능한 경우 웹 서버를 재시작하고 데이터베이스 테이블스페이스를 정리하고 주 스토리지 시스템에서 오래된 파일을 찾아 보관하는 스크립트를 작성했다.

그러나 지금의 규모와 복잡성, 서비스 기대치 하에서 IT는 이 과정의 속도를 높여야 한다. AI옵스 솔루션의 용도가 바로 여기에 있다. AI옵스 플랫폼은 운영 데이터를 중앙화, 정리하고 머신러닝을 활용해 다양한 문제를 찾고 해결을 자동화하는 틀을 제공한다. 최종 목표는 더 나은 경험을 제공하고 힘든 작업을 줄이고 IT 부서에 시간을 벌어주고 비즈니스를 위한 프로젝트와 혁신을 추구할 수 있도록 하는 것이다. editor@itworld.co.kr 

X