2018.07.03

"서버 4만대, 데이터 430TB 관리"··· 보다폰의 초대형 모니터링 시스템

Scott Carey | Computerworld UK
보다폰(Vodafone)이 스플렁크(Splunk) 솔루션을 이용해 자사의 전 세계 IT 인프라 모니터링과 이벤트 관리를 중앙화하고 있다. 이를 통해 핵심 업무용 애플리케이션의 가용성을 높이고 장애 예방에 머신러닝 기술을 더 적극 활용한다는 구상이다.



최근 런던에서 열린 스플렁크 라이브(Splunk Live) 행사에서 보다폰의 테크놀로지 쉐어드 서비스(Technology Shared Services, TSS) 부문 엔지니어링과 운영 담당 수석 매니저 루크 브래들리는 "모든 시장에서 경쟁사와 차별화할 수 있는 메커니즘으로 IT가 점점 더 중요해지고 있다. 통신업체도 마찬가지다. 통신업체가 가장 잘 제공할 수 있는 서비스를 통해 차별화해야 한다. 그래서 우리는 디지털 트랜스포메이션에 박차를 가하고 있다. 애널리틱스와 데이터를 업무의 중심에 놓는 것이 핵심인데, 이를 위해서는 새로 필요한 것이 많다"라고 말했다.

TSS 그룹은 보다폰의 내부 부서 중 하나로, 전 세계에 IT 서비스를 제공하고 있다. 서비스 데스크, 인프라 스트럭처 관리, 애플리케이션 운영 등이 대표적이다. 현재 26개국에서 8,500명이 이 부서에 속해 있다.

지난 4년간 보다폰은 인프라스트럭처와 APM(application performance management) 모니터링 시스템을 스플렁크 툴로 표준화해 왔다. 이 작업에는 단일 ITSM(IT service management) 플랫폼에서 모든 이벤트를 관리하는 것도 포함된다. 브래들리는 "이 모든 작업 외에도 단일 운영 애널리틱스 플랫폼을 구축해 왔다. 사용자 그룹이나 지역, 활용 목적과 관계 없이 운영 데이터를 저장하는 단일 스토어를 만들고 있다"라고 말했다.

현재 보다폰은 이렇게 새로 설계한 모니터링 프로그램을 통해 서버 4만 대, 애플리케이션 3500개를 관리하고 있다. 데이터 용량은 430TB에 달한다.

모니터링 업무를 대하는 방식 자체도 바뀌었다. 브래들리는 "우리는 그동안 모니터링 업무를 상향식으로 처리했다. 그래서 다른 기업이 그런 것처럼, 우리 운영팀도 실제 중요한 문제를 찾는 데 애를 먹었다. 그러나 이제 우리는 모든 시장에서 동일하게 기업 서비스를 하향식으로 보고 있다. 즉, 우리가 활동하는 모든 나라에서 기업 서비스의 개념을 표준화하는 것이다. 따라서 지금은 고객이 독일의 뒤셀도르프의 휴대폰 매장을 방문하는 것과 아일랜드 더블린 매장에 가는 것이 논리적으로 다르지 않다"라고 말했다.


ITSI와 머신러닝
보다폰의 단일 ITSM 플랫폼은 스플렁크의 ITSI(IT Service Intelligence)를 이용해 모니터링한다. 따라서 운영팀은 프로젝트 전반에 걸쳐 완전한 시야를 확보했다. 보다폰의 애널리틱스와 빅데이터 솔루션용 제품 오너 스테판 소버누에 따르면, 이 IT 서비스 관리 플랫폼은 세계 최대 규모 시스템 중 하나다. 일일 사용자가 1만 3000명에 달하고 매일 2,000개의 티켓을 쏟아낸다.

스테판 소버누 " 전 세계 규모로 이 정도의 티켓을 감당해야 하는 플랫폼에서는 절대 장애가 일어나서는 안된다. 최소 99.99% 이상의 업타임을 보장해야 하고 이를 위한 완벽한 모니터링 솔루션이 필요하다. 이 솔루션을 통해 장애를 예측하고, 플랫폼의 성능을 극대화하도록 보장해야 한다. 이번 프로젝트를 통해 우리는 더 가용성 높은 플랫폼이라는 목표를 달성했고, 운영팀은 우리의 모든 서비스에 대한 더 정확한 비전을 갖게 됐다. 특히 ITSI 내에 예측 솔루션을 도입해 예방적 관리가 가능해졌고, 장애도 줄일 수 있었다"라고 말했다.

현재 보다폰은 ITSI를 다른 핵심 서비스에도 확대 적용할 것을 검토하고 있다. 또한, 단일 모니터링 시스템을 확보했으므로, 예측 경보나 이슈 해결 등의 작업을 더 고도화하는 데 머신러닝을 활용하는 방안도 찾고 있다. 소버누는 "현재 스플렁크의 머신러닝 툴킷을 이용해 데이터 애널리틱스 커뮤니티를 만들고 있다. 이를 통해 예방적 관리를 더 많은 툴과 애플리케이션에 적용할 수 있을 것으로 기대하고 있다"라고 말했다. ciokr@idg.co.kr 



2018.07.03

"서버 4만대, 데이터 430TB 관리"··· 보다폰의 초대형 모니터링 시스템

Scott Carey | Computerworld UK
보다폰(Vodafone)이 스플렁크(Splunk) 솔루션을 이용해 자사의 전 세계 IT 인프라 모니터링과 이벤트 관리를 중앙화하고 있다. 이를 통해 핵심 업무용 애플리케이션의 가용성을 높이고 장애 예방에 머신러닝 기술을 더 적극 활용한다는 구상이다.



최근 런던에서 열린 스플렁크 라이브(Splunk Live) 행사에서 보다폰의 테크놀로지 쉐어드 서비스(Technology Shared Services, TSS) 부문 엔지니어링과 운영 담당 수석 매니저 루크 브래들리는 "모든 시장에서 경쟁사와 차별화할 수 있는 메커니즘으로 IT가 점점 더 중요해지고 있다. 통신업체도 마찬가지다. 통신업체가 가장 잘 제공할 수 있는 서비스를 통해 차별화해야 한다. 그래서 우리는 디지털 트랜스포메이션에 박차를 가하고 있다. 애널리틱스와 데이터를 업무의 중심에 놓는 것이 핵심인데, 이를 위해서는 새로 필요한 것이 많다"라고 말했다.

TSS 그룹은 보다폰의 내부 부서 중 하나로, 전 세계에 IT 서비스를 제공하고 있다. 서비스 데스크, 인프라 스트럭처 관리, 애플리케이션 운영 등이 대표적이다. 현재 26개국에서 8,500명이 이 부서에 속해 있다.

지난 4년간 보다폰은 인프라스트럭처와 APM(application performance management) 모니터링 시스템을 스플렁크 툴로 표준화해 왔다. 이 작업에는 단일 ITSM(IT service management) 플랫폼에서 모든 이벤트를 관리하는 것도 포함된다. 브래들리는 "이 모든 작업 외에도 단일 운영 애널리틱스 플랫폼을 구축해 왔다. 사용자 그룹이나 지역, 활용 목적과 관계 없이 운영 데이터를 저장하는 단일 스토어를 만들고 있다"라고 말했다.

현재 보다폰은 이렇게 새로 설계한 모니터링 프로그램을 통해 서버 4만 대, 애플리케이션 3500개를 관리하고 있다. 데이터 용량은 430TB에 달한다.

모니터링 업무를 대하는 방식 자체도 바뀌었다. 브래들리는 "우리는 그동안 모니터링 업무를 상향식으로 처리했다. 그래서 다른 기업이 그런 것처럼, 우리 운영팀도 실제 중요한 문제를 찾는 데 애를 먹었다. 그러나 이제 우리는 모든 시장에서 동일하게 기업 서비스를 하향식으로 보고 있다. 즉, 우리가 활동하는 모든 나라에서 기업 서비스의 개념을 표준화하는 것이다. 따라서 지금은 고객이 독일의 뒤셀도르프의 휴대폰 매장을 방문하는 것과 아일랜드 더블린 매장에 가는 것이 논리적으로 다르지 않다"라고 말했다.


ITSI와 머신러닝
보다폰의 단일 ITSM 플랫폼은 스플렁크의 ITSI(IT Service Intelligence)를 이용해 모니터링한다. 따라서 운영팀은 프로젝트 전반에 걸쳐 완전한 시야를 확보했다. 보다폰의 애널리틱스와 빅데이터 솔루션용 제품 오너 스테판 소버누에 따르면, 이 IT 서비스 관리 플랫폼은 세계 최대 규모 시스템 중 하나다. 일일 사용자가 1만 3000명에 달하고 매일 2,000개의 티켓을 쏟아낸다.

스테판 소버누 " 전 세계 규모로 이 정도의 티켓을 감당해야 하는 플랫폼에서는 절대 장애가 일어나서는 안된다. 최소 99.99% 이상의 업타임을 보장해야 하고 이를 위한 완벽한 모니터링 솔루션이 필요하다. 이 솔루션을 통해 장애를 예측하고, 플랫폼의 성능을 극대화하도록 보장해야 한다. 이번 프로젝트를 통해 우리는 더 가용성 높은 플랫폼이라는 목표를 달성했고, 운영팀은 우리의 모든 서비스에 대한 더 정확한 비전을 갖게 됐다. 특히 ITSI 내에 예측 솔루션을 도입해 예방적 관리가 가능해졌고, 장애도 줄일 수 있었다"라고 말했다.

현재 보다폰은 ITSI를 다른 핵심 서비스에도 확대 적용할 것을 검토하고 있다. 또한, 단일 모니터링 시스템을 확보했으므로, 예측 경보나 이슈 해결 등의 작업을 더 고도화하는 데 머신러닝을 활용하는 방안도 찾고 있다. 소버누는 "현재 스플렁크의 머신러닝 툴킷을 이용해 데이터 애널리틱스 커뮤니티를 만들고 있다. 이를 통해 예방적 관리를 더 많은 툴과 애플리케이션에 적용할 수 있을 것으로 기대하고 있다"라고 말했다. ciokr@idg.co.kr 

X