2019.12.11

시스코는 내부 모니터링 시스템을 어떻게 개선했나

Peter Sayer | CIO
시스코 시스템즈(Cisco Systems)는 고객이 자신의 네트워크와 IT 시스템을 모니터링할 수 있는 다양한 방법을 제공한다. 그렇다면 시스코 자체는 어떨까? 시스코의 내부 IT팀이 전 세계에 걸친 7만 5,000명 직원이 사용하는 인프라를 어떻게 모니터링하는지 살펴보자.



시스코 IT팀에서 비즈니스 협업과 소프트웨어 플랫폼을 총괄하는 래드히카 챠갈라무디에 따르면, 시스코는 자체 모니터링 시스템에서 상용 제품 위에 구축된 모니터링 시스템으로 전환하는 방식으로 모니터링을 개선하고 있다. 시스코의 IT 인프라는 다른 기업들과 마찬가지로 핵심 온-프레미스 시스템에서 시작해 클라우드와 SaaS 시스템을 아우르는 방향으로 성장해 왔다. 챠갈라무디는 “우리는 복합 하이브리드 시스템이다. 또한 과거보다 훨씬 더 역동적이 됐다”라고 말했다.

이러한 복합성은 문제가 발생할 때 해결하기 어려울 수 있음을 의미한다. 그는 “해결까지의 평균 시간을 줄이는 법을 파악해야 했다”라고 말했다. 또 하나의 난제는 시스코의 팀과 사업 분야가 각자 나름대로 문제를 해결하려고 했다는 점이었다. 그는 “우리는 단순화를 원했다. 이를 위해 종합적 아키텍처, 즉 시스코의 내부 소프트웨어 생태계가 작용하는 방식에 대한 청사진을 만들었다"라고 말했다.

처음부터 시작하기
챠갈라무디는 이번 트랜스포메이션이 성공하려면, 핵심은 기술에 치중하는 것이 아니라, 우선 필수 기술에 대한 청사진을 그려야 한다고 생각했다. 툴이나 플랫폼에 집착하지 않으려 노력했다. 이는 시스코의 IT 모니터링 시스템에 있어서 모니터링 기능의 기반에 치중하고, 전체 애플리케이션에 걸쳐 일관된 데이터 모델을 갖추는 것을 의미했다.

그는 “온-프레미스와 클라우드에서, 또는 SaaS 모드에서 실행하든 관계없이 작동해야 했다. 모니터링 기반과 데이터 아키텍처가 서로 잘 맞지 않으면 이벤트를 연결하거나 인텔리전스를 추가하는 것이 훨씬 어려워질 상황이었다”라고 말했다. 어떻게 운영을 현대화할 것인지, 어떤 기능이 필수적인지 결정하면, 현재 소프트웨어 환경의 기능에서 중복과 허점을 발견할 수 있다. 그리고 폐기할 것, 재사용할 것, 교체할 것이 무엇인지 알게 된다.

변화를 호소
챠갈라무디는 두 집단, 즉 상사와 자신의 팀을 상대로 모니터링 시스템의 변화가 필요하다고 설득해야 했다. 상사와의 논의는 대부분 재무 측면이었다. 최첨단 시스템을 통해 지원 비용을 직접 절감하는 것뿐 아니라 가동 중지 시간을 줄이는 것도 중요했다.

그는 “결국 가동 중지 평균 시간을 줄이는 문제로 회귀한다. 핵심 사업 애플리케이션에서든, 심지어 연간 매출의 상당 부분을 차지하는 시스코닷컴에서든, 품질, 성능, 확장 문제가 있을 때 이를 파악하고 해결하는 능력이 핵심이다. 비용이나 매출이 영향을 받기 때문이다”라고 말했다. 또한 모니터링 시스템을 교체하면 규모를 조정하고 확장하는 능력 또한 개선된다. 이 2가지 문제 때문에 자체 시스템을 탈피한다는 생각이 상사의 공감을 얻었을 수 있었다.

그러나 IT팀 구성원을 설득하는 것은 별개의 문제였다. 구형 시스템으로 일하는데 익숙해졌을 뿐 아니라, 일부 구성원은 이의 구축에 기여하기도 했다. 그는 “시스코는 자체적인 것을 구현하는 데 많은 시간을 소비했다. 우리가 솔루션을 직접 개발한 이유는 시장에 그런 솔루션이 없었기 때문이었다”라고 말했다.

그뿐이 아니었다. 소프트웨어 정의 인프라(SDI)가 보편화하면서 시스코는 소프트웨어에 능통한 사람을 더 많이 고용했다. 그는 “소프트웨어 엔지니어라면 뭔가 멋진 것을 개발하고 싶은 것이 당연하다”라고 말했다.

시장은 계속 진화했다. 그는 “이들 시스템과 애플리케이션을 유지 관리하는 일은 우리에게 핵심이 아니었다. 이제 우리가 도입할만한 플랫폼과 솔루션이 시장에 존재한다. 이들은 한층 비용 효율적일 것이다”라고 지적했다.

그러자면, 이들 프로그래머에게 개발을 하는 것이 아니라, 지금 있는 것을 고도화시키도록 설득해야 했다. 그는 “이미 시중에 있는 것을 굳이 개발할 필요가 없다. 이는 시간을 적절히 활용하는 것이 아니다. 이미 시중에 있는 것을 바탕으로 구축할 것이 있다면, 그러니까 보강해야 할 것이 있다면, 이는 가치 제안이 되는 셈이다”라고 말했다.

챠갈라무디에 따르면, 시스코는 6~7곳의 판매 업체의 모니터링 시스템을 평가해 그 기능과 제품 로드맵이 시스코의 요구에 합치하는지 판단했다. 시스코가 모니터링해야 하는 데이터베이스, 컴퓨트, 스토리지, 컨테이너, 클라우드, 협업에 이들을 사용할 수 있을까? 플랫폼을 자동화할 때, 그리고 예컨대 서비스나우(ServiceNow) 등 시스코가 사용하는 다른 툴과 연동시킬 때 필요한 API가 제공되는가? 그리고 전 세계에 산재한 데이터센터에서 운영팀이 이를 확장할 수 있고, 로컬라이징이 가능한가?

그는 “모든 문제를 한꺼번에 해결할 수 있는 제품은 없다. 그러나 우리는 평가 프로세스를 통해 사이언스로직(ScienceLogic)의 플랫폼이 커스텀 애플리케이션 개발 또는 플랫폼 통합에 의해 확장될 수 있음을 확인했다"라고 말했다.
 
점진적 배포
새 플랫폼은 지역별, 사업 분야별로 배포했다. 그는 “기본적인 업-다운 모니터링으로 시작했고, 이후 안정되면서 기능을 추가했다. 처음에는 모니터링 전용 인프라 쪽에 문제가 있었고, 전 세계를 아우르는 정보 가시성도 문제였다. 일부 인프라는 개별적 로그인이 필요했다. 이런 식이라면 운영팀이 사용하기 어려웠다. 결국 불필요한 경고를 걸러내기 위한 튜닝을 해야 했다"라고 말했다. 챠갈라무디는 사이언스로직과 일부 외부 플랫폼을 통합하는 것의 어려움을 과소평가했음을 인정했다. 예상외로 까다로웠던 다른 분야는 소프트웨어 환경 안에 기능이 중복되는 2개의 툴이 존재할 때 어떤 툴을 사용할 것인지 결정하는 것이었다.

이후 업무 규모에서, 그리고 모니터링 시스템이 다루는 분야의 수가 계속 늘어났다. 그리고 협업 인프라 및 클라우드 음성 영상 통화 단말 장치에 대해 동일 플랫폼을 계속 사용할 것인지, 아니라면 다른 서드-파티 솔루션을 통합할 것인지 등을 하나씩 검토해나갔다. 그는 “이는 계속되는 문제였다. 아키텍처를 지속해서 평가하고, 장기적 관점에서 적절하게 투자를 결정해야 했다”라고 말했다. ciokr@idg.co.kr



2019.12.11

시스코는 내부 모니터링 시스템을 어떻게 개선했나

Peter Sayer | CIO
시스코 시스템즈(Cisco Systems)는 고객이 자신의 네트워크와 IT 시스템을 모니터링할 수 있는 다양한 방법을 제공한다. 그렇다면 시스코 자체는 어떨까? 시스코의 내부 IT팀이 전 세계에 걸친 7만 5,000명 직원이 사용하는 인프라를 어떻게 모니터링하는지 살펴보자.



시스코 IT팀에서 비즈니스 협업과 소프트웨어 플랫폼을 총괄하는 래드히카 챠갈라무디에 따르면, 시스코는 자체 모니터링 시스템에서 상용 제품 위에 구축된 모니터링 시스템으로 전환하는 방식으로 모니터링을 개선하고 있다. 시스코의 IT 인프라는 다른 기업들과 마찬가지로 핵심 온-프레미스 시스템에서 시작해 클라우드와 SaaS 시스템을 아우르는 방향으로 성장해 왔다. 챠갈라무디는 “우리는 복합 하이브리드 시스템이다. 또한 과거보다 훨씬 더 역동적이 됐다”라고 말했다.

이러한 복합성은 문제가 발생할 때 해결하기 어려울 수 있음을 의미한다. 그는 “해결까지의 평균 시간을 줄이는 법을 파악해야 했다”라고 말했다. 또 하나의 난제는 시스코의 팀과 사업 분야가 각자 나름대로 문제를 해결하려고 했다는 점이었다. 그는 “우리는 단순화를 원했다. 이를 위해 종합적 아키텍처, 즉 시스코의 내부 소프트웨어 생태계가 작용하는 방식에 대한 청사진을 만들었다"라고 말했다.

처음부터 시작하기
챠갈라무디는 이번 트랜스포메이션이 성공하려면, 핵심은 기술에 치중하는 것이 아니라, 우선 필수 기술에 대한 청사진을 그려야 한다고 생각했다. 툴이나 플랫폼에 집착하지 않으려 노력했다. 이는 시스코의 IT 모니터링 시스템에 있어서 모니터링 기능의 기반에 치중하고, 전체 애플리케이션에 걸쳐 일관된 데이터 모델을 갖추는 것을 의미했다.

그는 “온-프레미스와 클라우드에서, 또는 SaaS 모드에서 실행하든 관계없이 작동해야 했다. 모니터링 기반과 데이터 아키텍처가 서로 잘 맞지 않으면 이벤트를 연결하거나 인텔리전스를 추가하는 것이 훨씬 어려워질 상황이었다”라고 말했다. 어떻게 운영을 현대화할 것인지, 어떤 기능이 필수적인지 결정하면, 현재 소프트웨어 환경의 기능에서 중복과 허점을 발견할 수 있다. 그리고 폐기할 것, 재사용할 것, 교체할 것이 무엇인지 알게 된다.

변화를 호소
챠갈라무디는 두 집단, 즉 상사와 자신의 팀을 상대로 모니터링 시스템의 변화가 필요하다고 설득해야 했다. 상사와의 논의는 대부분 재무 측면이었다. 최첨단 시스템을 통해 지원 비용을 직접 절감하는 것뿐 아니라 가동 중지 시간을 줄이는 것도 중요했다.

그는 “결국 가동 중지 평균 시간을 줄이는 문제로 회귀한다. 핵심 사업 애플리케이션에서든, 심지어 연간 매출의 상당 부분을 차지하는 시스코닷컴에서든, 품질, 성능, 확장 문제가 있을 때 이를 파악하고 해결하는 능력이 핵심이다. 비용이나 매출이 영향을 받기 때문이다”라고 말했다. 또한 모니터링 시스템을 교체하면 규모를 조정하고 확장하는 능력 또한 개선된다. 이 2가지 문제 때문에 자체 시스템을 탈피한다는 생각이 상사의 공감을 얻었을 수 있었다.

그러나 IT팀 구성원을 설득하는 것은 별개의 문제였다. 구형 시스템으로 일하는데 익숙해졌을 뿐 아니라, 일부 구성원은 이의 구축에 기여하기도 했다. 그는 “시스코는 자체적인 것을 구현하는 데 많은 시간을 소비했다. 우리가 솔루션을 직접 개발한 이유는 시장에 그런 솔루션이 없었기 때문이었다”라고 말했다.

그뿐이 아니었다. 소프트웨어 정의 인프라(SDI)가 보편화하면서 시스코는 소프트웨어에 능통한 사람을 더 많이 고용했다. 그는 “소프트웨어 엔지니어라면 뭔가 멋진 것을 개발하고 싶은 것이 당연하다”라고 말했다.

시장은 계속 진화했다. 그는 “이들 시스템과 애플리케이션을 유지 관리하는 일은 우리에게 핵심이 아니었다. 이제 우리가 도입할만한 플랫폼과 솔루션이 시장에 존재한다. 이들은 한층 비용 효율적일 것이다”라고 지적했다.

그러자면, 이들 프로그래머에게 개발을 하는 것이 아니라, 지금 있는 것을 고도화시키도록 설득해야 했다. 그는 “이미 시중에 있는 것을 굳이 개발할 필요가 없다. 이는 시간을 적절히 활용하는 것이 아니다. 이미 시중에 있는 것을 바탕으로 구축할 것이 있다면, 그러니까 보강해야 할 것이 있다면, 이는 가치 제안이 되는 셈이다”라고 말했다.

챠갈라무디에 따르면, 시스코는 6~7곳의 판매 업체의 모니터링 시스템을 평가해 그 기능과 제품 로드맵이 시스코의 요구에 합치하는지 판단했다. 시스코가 모니터링해야 하는 데이터베이스, 컴퓨트, 스토리지, 컨테이너, 클라우드, 협업에 이들을 사용할 수 있을까? 플랫폼을 자동화할 때, 그리고 예컨대 서비스나우(ServiceNow) 등 시스코가 사용하는 다른 툴과 연동시킬 때 필요한 API가 제공되는가? 그리고 전 세계에 산재한 데이터센터에서 운영팀이 이를 확장할 수 있고, 로컬라이징이 가능한가?

그는 “모든 문제를 한꺼번에 해결할 수 있는 제품은 없다. 그러나 우리는 평가 프로세스를 통해 사이언스로직(ScienceLogic)의 플랫폼이 커스텀 애플리케이션 개발 또는 플랫폼 통합에 의해 확장될 수 있음을 확인했다"라고 말했다.
 
점진적 배포
새 플랫폼은 지역별, 사업 분야별로 배포했다. 그는 “기본적인 업-다운 모니터링으로 시작했고, 이후 안정되면서 기능을 추가했다. 처음에는 모니터링 전용 인프라 쪽에 문제가 있었고, 전 세계를 아우르는 정보 가시성도 문제였다. 일부 인프라는 개별적 로그인이 필요했다. 이런 식이라면 운영팀이 사용하기 어려웠다. 결국 불필요한 경고를 걸러내기 위한 튜닝을 해야 했다"라고 말했다. 챠갈라무디는 사이언스로직과 일부 외부 플랫폼을 통합하는 것의 어려움을 과소평가했음을 인정했다. 예상외로 까다로웠던 다른 분야는 소프트웨어 환경 안에 기능이 중복되는 2개의 툴이 존재할 때 어떤 툴을 사용할 것인지 결정하는 것이었다.

이후 업무 규모에서, 그리고 모니터링 시스템이 다루는 분야의 수가 계속 늘어났다. 그리고 협업 인프라 및 클라우드 음성 영상 통화 단말 장치에 대해 동일 플랫폼을 계속 사용할 것인지, 아니라면 다른 서드-파티 솔루션을 통합할 것인지 등을 하나씩 검토해나갔다. 그는 “이는 계속되는 문제였다. 아키텍처를 지속해서 평가하고, 장기적 관점에서 적절하게 투자를 결정해야 했다”라고 말했다. ciokr@idg.co.kr

X