인터미디어의 전화 서비스도 동일한 데이터센터에 호스팅하고 있었다. 이메일과 마찬가지로 전화망도 마비가 되면서 헬프데스크 직원들이 업무를 처리할 수 없었다. 상황이 훨씬 악화된 것이다. 인터미디어는 몇 시간이 지나서야 트위터에 글을 올려 서비스 중단 사고를 알리고, 이를 해결하기 위해 노력하고 있다고 설명했다. 이 회사는 고객들에게 고객 포털에서 서비스 상태를 확인하라고 당부했다. 그러나 고객 포털 또한 동일한 데이터에 호스팅돼 있었기 때문에 고객들이 접속할 수 없었다.
'위기라는 기회를 낭비하지 말라(Don't ever let a good crisis go to waste)'라는 격언이 있다. 이 격언처럼 IT리더들은 이런 공공연한 문제에서 교훈을 터득할 수 있다. 다음은 리더들이 중시해야 할 4가지 교훈이다.
1. 정기적으로 사고에 대해 테스트하고, 계획을 수립한다
사고를 피할 수는 없다. 시스템과 서비스에 대해 더 확실한 태도를 유지해야 한다고 말하는 사람들이 있다. 그러나 정작 확신할 부분은 따로 있다. 어떻게든 문제가 발생하고 시스템이 마비될 수 있다는 것이다. 이는 시간 문제다. 따라서 서비스 마비에 따른 문제와 취해야 할 조치를 이해하는 것이 중요하다.
재해 대비 계획의 상당수는 제공하는 서비스의 종류에 따라 달라진다. 즉 내부 직원 10만 명을 대상으로 이메일 서비스를 유지 관리해야 하는 CIO와 외부 고객 5만 명을 대상으로 서비스를 제공하는 기술 팀의 재해 대비 계획에는 차이가 있을 수밖에 없다는 의미다. 서비스 마비가 기업의 각 기능에 어떤 영향을 미칠지 이해해야 한다.
또 경감 비용, 백업 비용, 비상 시스템 비용을 파악해야 한다. 아마존 웹 서비스(AWS)와 윈도우 애저 같은 클라우드 컴퓨팅 서비스를 이용해 마비 상황을 다소간 완화시키는 방법을 조사한다. 이런 클라우드 서비스는 필요 시 수요에 따라 서비스를 확장한 후, 상황이 완화되면 이를 다시 원상태로 돌릴 수 있다는 장점이 있다.
마지막으로 서비스 마비 상황을 가상한 테스트 일정을 수립해 시행한다. 관여된 모든 사람에게 서비스 마비 상황을 통지하고, 각자 책임져야 할 업무를 설명해주면서 실제와 같은 연습을 한다. 이는 실제 서비스 마비 상황에서 초래되는 압박감 없이 모든 관계자를 참여시킬 수 있는 기회다. 이렇게 하면 실제 서비스 마비 상황에 잘 대처할 수 있는 계획을 수립할 수 있다.