Offcanvas

CIO / 데이터센터 / 보안 / 클라우드

재앙적 IT 장애의 진짜 교훈··· "다층적 시스템 복원력 갖춰라"

2017.11.20 Andrew Martin  |  CIO Australia
호주의 금융, 정부, 여행, 무선통신 업계에서 거의 매주 서비스 장애 사고가 발생하고 있다. 주로 하드웨어 오류와 소프트웨어 업그레이드, 인적 오류, 랜섬웨어 공격 때문인데 결국 중대한 서비스 장애를 나타나고 있다. 클라우드의 확산과 함께 이런 장애도 계속될 수밖에 없으므로 일정 수준의 복원력을 갖추는 것이 중요하다는 지적이다.



서비스 중단은 기업 평판에 악영향을 끼칠 뿐만 아니라 매출과 생산성 손실로도 이어진다. 한 가지 분명한 것은 오늘날처럼 매우 치열한 경쟁 환경에서 이를 감내할 여유가 있는 기업이 없다는 점이다. 지금이야말로 CIO가 업무 연속성과 재해 복구(DR) 계획이 제대로 준비됐는지 냉철히 살펴보아야 할 적기이다.

당연하게도, 복원력을 제대로 갖춘 DR 플랫폼에 투자하는 것이 장애 이후 상황을 해결하는 것보다 비용이 훨씬 적게 든다. 많은 CIO가 클라우드에 겹겹이 안전 장치를 확보하는 것이 큰 이득이라는 것을 깨닫고 있다. 즉, 주 사이트와 서로 날씨가 다를 정도로 지리적으로 충분히 떨어져 있는 곳에 제2의(또는 그 이상의) 복구 데이터센터를 구축하는 것이다. 그래야만 주 사이트에 무슨 일이 생겨도 서비스 중단의 영향을 방지하거나 줄일 수 있다.

서비스 중단 시간의 비용
IT 기능에 대한 의존도가 점점 커지고 있고 그 중 많은 부분이 클라우드에서 지원되고 있으므로, 일부 기업은 서비스 장애 발생 시 매우 취약하다. 웹사이트 전체가 상당 기간 오프라인 상태에 빠질 수 있으며 그 기간 동안 사업에 타격을 받게 된다.

특히 일부 업무용 프로그램은 이러한 다중 안전 장치를 갖추기가 어렵다. 특정 환경에서만 사용하도록 설계됐고 이동성은 고려되지 않았기 때문이다. 이 문제를 해결하고 제대로 된 재해 안전망을 갖추기 위해 많은 CIO가 하이브리드 클라우드 구축 방식을 검토하고 있다. 즉, 관리서비스 제공업체 또는 자체 데이터센터를 활용하는 것이다.

서비스 중단 시간은 기업에 금전적인 면이나 평판 면에서 모두 큰 피해를 줄 수 있다. 실제로 가트너는 서비스 중단 시간 1분 당 기업이 입는 손해를 평균 5,600달러로 추산했다. 시간 당 30만 달러가 넘는다.

다양성으로 다층 복원력 효과 강화
DR 계획을 갖추는 것만으로는 부족하다. 업무 연속성에 관한 한 겹겹으로 안전 장치를 마련한 다층 복원력(resiliency-in-layers)을 갖춰야 한다. 이를 위해서는 각 장치가 모두 고유의 특성을 유지할 수 있도록 거래 업체와 장소, 기술을 점검해야 한다.

다양성을 갖추면 다층 복원력 효과가 증강된다. 하나의 행위, 활동, 버그 또는 치명적인 사건을 구별해 업무 환경의 나머지 부분에 영향을 미치지 않게 해 주기 때문이다. 또한, 그 계획을 정기적으로 테스트해야 한다. 그래야만 문제가 발생했을 때 계획 안에 자동화 기능을 추가해 서비스 중단 시간을 줄일 수 있다.

성공적인 DR 인프라는 고도로 자동화돼야 하고 지속적으로 데이터를 복제해야 한다. 그래야만 응용 프로그램을 서비스 중단 몇 초 전으로 신속하게 “되돌릴” 수 있기 때문이다.

또한 기업 별로 정의한 복구 지점 목표(RPO)를 충족해야 한다. 즉, 데이터 손실이나 응용프로그램 가용성 손실이 없거나 최소화되어야 한다. 불과 몇 초라도 중단되면 수만 달러의 손실을 초래할 수 있다. 응용프로그램 중단으로 거래가 불가능해짐에 따른 매출 손실일 수도 있고 준수 실패로 인한 벌금이 발생할 수도 있다.


하이브리드 클라우드의 장점 'IT 복원력'
CIO마다 기업별 요구사항을 고려해야 한다. 준법 관련 과제인 경우가 있고 데이터 소재 문제인 경우도 있다. 이 때문에 DR 계획의 구축, 관리 방식과 복구 영역은 마치 지문처럼 기업마다 고유한 것이기도 하다. IT는 클라우드 기반 인프라 쪽으로 움직이고 있는 것이 분명하다. 따라서 흔한 정전과 인적 오류는 물론 자연적인 원인 이상의 각종 재해에도 불구하고 이를 견디고 헤쳐나갈 수 있는 능력을 갖춰야 한다.

하이브리드 클라우드 내의 요소마다 관련된 장단점이 있지만 기술 서비스 중단에 대처할 가장 좋은 방법은 무엇일까? 기업이 IT 복원력을 달성하는 데 도움이 될 3가지 핵심 내용은 다음과 같다.

1. 관리서비스 제공업체(MSP) 또는 클라우드서비스 제공업체(CSP)를 활용하라. 그러면 운영비용 중심으로 재정 모델이 전환되고 이미 구축된 인프라를 활용할 수 있다. 또한, 서비스 제공업체에 고용돼 규정된 서비스 수준 계약(SLA)에 따라 서비스를 제공하는 전문가도 활용할 수 있다.

2. 퍼블릭 클라우드 인프라를 활용하라. 최근에는 기업이 자체적으로 하거나 혹은 MSP/CSP 협력업체를 통해 퍼블릭 클라우드를 제2 또는 제3의 사이트로 “시험 구동”하는 추세이다. 단, 관련 대상 및 SLA 요건을 이해하고 여기에 자신의 데이터와 응용프로그램 우선 순위를 일치시키는 것은 기업의 몫이다.

3. 모든 퍼블릭 클라우드 서비스 중단 사례에서 알 수 있듯이 퍼블릭 클라우드라고 해서 100% 안전한 것은 아니다. 퍼블릭 클라우드를 다층 복원력의 일부로 본다면 하이브리드 기반 계획은 제3의 또는 그 이상의 사이트를 확보하고 더 다양한 지역에 사이트를 확보할 수 있는 비용 효율적인 방법이 될 수 있다.

기업은 확장 가능하고 간단한 복구 및 DR 테스트 절차를 갖춘 플랫폼과 도구를 활용해야 한다. 데이터 복구 속도가 빠르면 빠를 수록 회사에 미치는 영향이 줄어들고 비용과 시간을 크게 절약할 수 있다.

*Andrew Martin은 절토(Zerto)의 아태 담당 부사장이다. ciokr@idg.co.kr 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.