2013.10.02

"소 잃었으면 외양간 손봐야" 서비스 중단 사태의 교훈

Jonathan Hassell | CIO
미국 주식 거래 시장인 나스닥(Nasdaq)에 최근 문제가 발생했다. 8월22일에는 전산망이 3시간 넘게 마비되면서 거래가 중단됐다. 나스닥의 사후 분석 발표에 따르면, 소프트웨어 버그와 오류 감지 시 작동해야 했지만 그러지 못한 백업 시스템이 원인이었다고 한다. 그러나 로이터는 사고 원인을 분석한 전문가의 말을 인용해 NYSE 유로넥스트 Arca Exchange와의 연결문제로 사고가 촉발됐다고 보도했다.

여기에 그치지 않았다. 9월4일(수)에도 6분간 전산망이 마비됐다. 앞서 더 큰 전산망 마비를 불러일으켰던 동일한 시스템이 관여돼 있기는 했지만, 나스닥은 백엔드 서버의 하드웨어 메모리 문제로 전산망이 마비됐다고 해명했다.

세계 최대 마이크로소프트 익스체인지(Microsoft Exchange) 호스팅 서비스 공급업체 중 하나인 인터미디어(Intermedia)의 직원들은 노동절(Labor Day) 휴일을 보내고 상쾌한 한 주를 시작하고 싶어했지만 그러지 못했다. 노동절 연휴 다음 날인 9월3일 5시간 동안 서비스가 중단돼 이메일 메시지를 이용할 수 없는 상태가 됐기 때문이다. (참고로 필자의 회사도 인터미디어의 이메일 호스팅 서비스를 이용하고 있다.) 게다가 더 심각한 문제가 있었다.

인터미디어의 전화 서비스도 동일한 데이터센터에 호스팅하고 있었다. 이메일과 마찬가지로 전화망도 마비가 되면서 헬프데스크 직원들이 업무를 처리할 수 없었다. 상황이 훨씬 악화된 것이다. 인터미디어는 몇 시간이 지나서야 트위터에 글을 올려 서비스 중단 사고를 알리고, 이를 해결하기 위해 노력하고 있다고 설명했다. 이 회사는 고객들에게 고객 포털에서 서비스 상태를 확인하라고 당부했다. 그러나 고객 포털 또한 동일한 데이터에 호스팅돼 있었기 때문에 고객들이 접속할 수 없었다.

'위기라는 기회를 낭비하지 말라(Don't ever let a good crisis go to waste)'라는 격언이 있다. 이 격언처럼 IT리더들은 이런 공공연한 문제에서 교훈을 터득할 수 있다. 다음은 리더들이 중시해야 할 4가지 교훈이다.

1. 정기적으로 사고에 대해 테스트하고, 계획을 수립한다
사고를 피할 수는 없다. 시스템과 서비스에 대해 더 확실한 태도를 유지해야 한다고 말하는 사람들이 있다. 그러나 정작 확신할 부분은 따로 있다. 어떻게든 문제가 발생하고 시스템이 마비될 수 있다는 것이다. 이는 시간 문제다. 따라서 서비스 마비에 따른 문제와 취해야 할 조치를 이해하는 것이 중요하다.

재해 대비 계획의 상당수는 제공하는 서비스의 종류에 따라 달라진다. 즉 내부 직원 10만 명을 대상으로 이메일 서비스를 유지 관리해야 하는 CIO와 외부 고객 5만 명을 대상으로 서비스를 제공하는 기술 팀의 재해 대비 계획에는 차이가 있을 수밖에 없다는 의미다. 서비스 마비가 기업의 각 기능에 어떤 영향을 미칠지 이해해야 한다.

또 경감 비용, 백업 비용, 비상 시스템 비용을 파악해야 한다. 아마존 웹 서비스(AWS)와 윈도우 애저 같은 클라우드 컴퓨팅 서비스를 이용해 마비 상황을 다소간 완화시키는 방법을 조사한다. 이런 클라우드 서비스는 필요 시 수요에 따라 서비스를 확장한 후, 상황이 완화되면 이를 다시 원상태로 돌릴 수 있다는 장점이 있다.

마지막으로 서비스 마비 상황을 가상한 테스트 일정을 수립해 시행한다. 관여된 모든 사람에게 서비스 마비 상황을 통지하고, 각자 책임져야 할 업무를 설명해주면서 실제와 같은 연습을 한다. 이는 실제 서비스 마비 상황에서 초래되는 압박감 없이 모든 관계자를 참여시킬 수 있는 기회다. 이렇게 하면 실제 서비스 마비 상황에 잘 대처할 수 있는 계획을 수립할 수 있다.




2013.10.02

"소 잃었으면 외양간 손봐야" 서비스 중단 사태의 교훈

Jonathan Hassell | CIO
미국 주식 거래 시장인 나스닥(Nasdaq)에 최근 문제가 발생했다. 8월22일에는 전산망이 3시간 넘게 마비되면서 거래가 중단됐다. 나스닥의 사후 분석 발표에 따르면, 소프트웨어 버그와 오류 감지 시 작동해야 했지만 그러지 못한 백업 시스템이 원인이었다고 한다. 그러나 로이터는 사고 원인을 분석한 전문가의 말을 인용해 NYSE 유로넥스트 Arca Exchange와의 연결문제로 사고가 촉발됐다고 보도했다.

여기에 그치지 않았다. 9월4일(수)에도 6분간 전산망이 마비됐다. 앞서 더 큰 전산망 마비를 불러일으켰던 동일한 시스템이 관여돼 있기는 했지만, 나스닥은 백엔드 서버의 하드웨어 메모리 문제로 전산망이 마비됐다고 해명했다.

세계 최대 마이크로소프트 익스체인지(Microsoft Exchange) 호스팅 서비스 공급업체 중 하나인 인터미디어(Intermedia)의 직원들은 노동절(Labor Day) 휴일을 보내고 상쾌한 한 주를 시작하고 싶어했지만 그러지 못했다. 노동절 연휴 다음 날인 9월3일 5시간 동안 서비스가 중단돼 이메일 메시지를 이용할 수 없는 상태가 됐기 때문이다. (참고로 필자의 회사도 인터미디어의 이메일 호스팅 서비스를 이용하고 있다.) 게다가 더 심각한 문제가 있었다.

인터미디어의 전화 서비스도 동일한 데이터센터에 호스팅하고 있었다. 이메일과 마찬가지로 전화망도 마비가 되면서 헬프데스크 직원들이 업무를 처리할 수 없었다. 상황이 훨씬 악화된 것이다. 인터미디어는 몇 시간이 지나서야 트위터에 글을 올려 서비스 중단 사고를 알리고, 이를 해결하기 위해 노력하고 있다고 설명했다. 이 회사는 고객들에게 고객 포털에서 서비스 상태를 확인하라고 당부했다. 그러나 고객 포털 또한 동일한 데이터에 호스팅돼 있었기 때문에 고객들이 접속할 수 없었다.

'위기라는 기회를 낭비하지 말라(Don't ever let a good crisis go to waste)'라는 격언이 있다. 이 격언처럼 IT리더들은 이런 공공연한 문제에서 교훈을 터득할 수 있다. 다음은 리더들이 중시해야 할 4가지 교훈이다.

1. 정기적으로 사고에 대해 테스트하고, 계획을 수립한다
사고를 피할 수는 없다. 시스템과 서비스에 대해 더 확실한 태도를 유지해야 한다고 말하는 사람들이 있다. 그러나 정작 확신할 부분은 따로 있다. 어떻게든 문제가 발생하고 시스템이 마비될 수 있다는 것이다. 이는 시간 문제다. 따라서 서비스 마비에 따른 문제와 취해야 할 조치를 이해하는 것이 중요하다.

재해 대비 계획의 상당수는 제공하는 서비스의 종류에 따라 달라진다. 즉 내부 직원 10만 명을 대상으로 이메일 서비스를 유지 관리해야 하는 CIO와 외부 고객 5만 명을 대상으로 서비스를 제공하는 기술 팀의 재해 대비 계획에는 차이가 있을 수밖에 없다는 의미다. 서비스 마비가 기업의 각 기능에 어떤 영향을 미칠지 이해해야 한다.

또 경감 비용, 백업 비용, 비상 시스템 비용을 파악해야 한다. 아마존 웹 서비스(AWS)와 윈도우 애저 같은 클라우드 컴퓨팅 서비스를 이용해 마비 상황을 다소간 완화시키는 방법을 조사한다. 이런 클라우드 서비스는 필요 시 수요에 따라 서비스를 확장한 후, 상황이 완화되면 이를 다시 원상태로 돌릴 수 있다는 장점이 있다.

마지막으로 서비스 마비 상황을 가상한 테스트 일정을 수립해 시행한다. 관여된 모든 사람에게 서비스 마비 상황을 통지하고, 각자 책임져야 할 업무를 설명해주면서 실제와 같은 연습을 한다. 이는 실제 서비스 마비 상황에서 초래되는 압박감 없이 모든 관계자를 참여시킬 수 있는 기회다. 이렇게 하면 실제 서비스 마비 상황에 잘 대처할 수 있는 계획을 수립할 수 있다.


X