이달 초에 발생한 아마존 클라우드 서비스 사태로 기업의 재해복구 계획 취약점이 확연히 드러났다. 그레고리 마클러는 기업이 정전으로부터 자사를 보호하기 위해 무엇을 고려해야 할 지를 정리했다.
지난 8월7일 일요일 아일랜드 더블린에 있는 아마존의 클라우드 데이터센터에 정전 사고가 발생했다. 이 정전은 더블린 데이터센터 근처의 변압기를 강타한 번개 때문에 발생했다. 이 사고는 모든 데이터센터에 정전을 일으켰던 것은 모든 전기 공급을 중단시킨 폭발과 화재를 초래했다. 아마존은 유럽 지역에 데이터센터를 하나 가지고 있는데 바로 거기서 사고가 발생한 것이다.
이 사고에 대해 첫 번째로 든 생각은 재해복구와 아마존 서비스와 관계다. 아마존은 지난 4월에도 정전이 발생했다. 당시 미국 동부에서 발생한 서비스가 정전으로 네트워크 구성에 변화를 일으켰다. 이 정전 사고로 다른 의문들이 생겼다. 왜 아마존은 디젤 같은 대체 전력 시설을 만들지 않는 걸까? 정전으로 인한 화재는 전기 공급의 상당한 부분을 날려 버렸으며 그 결과 좀더 심각한 재해가 초기 변압기 폭발로 발생했다.
어떻게 이런 것이 가능할 수 있을까? 유럽의 다른 지역에 위치한 서비스에 대한 중단은 어떤가? 다행히 유럽의 다른 지역에 위치한 서비스는 중단되지 않았다. 필자는 당시에 유럽의 데이터센터 건물이 터무니없는 비싸다고 생각했다. 그 점은 아마존이 유럽 데이터센터를 보유하지 않는 이유기도 하다.
정전 이후, 아마존은 상당한 기간 동안 모든 서버를 재가동했다고 언급했다. 마이크로소프트 역시 동일한 데이터센터 서비스를 제공하지만, 이 회사는 아마존처럼 취약하지 않다는 사실도 밝혔다. 필자는 그 이유가 궁금했다. 데이터 복제는 최우선순위에 놓여야 한다. 특히 아마존이 데이터센터 전체에 대한 재해복구 능력이 부족할 때는 더더욱 그렇다.
8월 8일, 아마존은 소프트웨어 에러가 유럽 데이터센터 내 데이터의 복구를 지연시키고 있다고 밝혔다. 이는 비즈니스 연속성 테스트가 부족했다는 점을 지적하는 것이나 마찬가지다. 이 테스팅은 필수적인 것이다. 왜냐하면, 이같은 사태가 거의 발생하지 않기 때문이다. 아마존은 복잡한 구성 때문에 다양한 시나리오를 테스트하는 것이 어렵다고 지적했다. 애플리케이션 수를 최소화해서 구성하고 테스팅해 구축하는 것만이 현실적으로 재해복구를 위해서 더 낫다는 것이다.
그러나 실제로는 애플리케이션 변경이 너무 많아 테스트하기 어렵다. 필자가 이전에 쓴 재해 복구 기사를 보면, 제품은 자동차 엔진 구성과 자동차 모델과 닮은 표준 구성을 가져야 한다고 언급했음을 알 수 있을 것이다.
아마존이 운영 스트레스에서 기인한 클라우드 서비스 취약점을 더 많이 가진 것처럼 보인다. 웹 애플리케이션을 아마존의 클라우드로 아웃소싱하는 중견기업들은 어떻게 보호할 수 있나? 아마존이 이익이 생기는 분야의 클라우드 애플리케이션을 지원하는 것은 분명 맞다. 필자는 기업들이 매우 자세히, 각각의 애플리케이션에 SLA를 만들어야 한다고 제안하고 싶다. 이 SLA에는 서비스가 목적을 충족시키지 않을 때 글로벌 업타임, 성능, 패널티 등의 내용을 담아야 한다.
필자의 최근 기사에서 서비스 공급업체에 던진 현재 애플리케이션 아키텍처를 점검할 질문들을 다시 한번 보기 바란다. 이 질문들은 클라우드 업체가 관리할 모든 애플리케이션에도 똑같이 적용될 수 있다. 업타임 요구와 성능 현황을 담은 이 정보는 SLA로 구성될 수 있다.
해당 서비스를 잘 제공하기 위해 SLA가 패널티를 물게 할 때까지 아마존과 다른 주요 클라우드 업체들은 재해복구 계획을 지원하지 않을 수 있다. 우리는 SLA가 글로벌 거래 성장을 이끌 것으로 정의한다. 왜냐면 SLA는 비즈니스가 글로벌하게 잘 굴러가는지를 보증해 주기 때문이다. 이 비즈니스 거래는 두 분야 사이의 신뢰를 끌어낼 것이다. 그리고 신뢰로 계약을 맺는다는 사실을 잘 알고 있지 않은가?
*Gregory Machler는 IT와 제품 솔루션에 대한 독립 IT아키텍트이자 마케팅 컨설턴트다. 그는 마케팅과 엔지니어링에 관심을 가지고 있다. ciokr@idg.co.kr