2018.01.25

정의부터 계획·실행까지··· 한번에 이해하는 재해 복구

Keith Shaw | Network World
재해는 다양한 형태와 규모로 발생한다. 허리케인, 지진, 토네이도 등 비극적인 자연 재해뿐만 아니라 사이버 공격, 장비 고장, 테러리즘 등의 사건도 재해로 분류할 수 있다.



기업은 상당한 수익 또는 비즈니스 손실 없이 업무에 필수적인 기능을 신속하게 재개하기 위해 취할 조치와 준수할 프로세스를 세부적으로 명시한 재해 복구 계획을 수립해 이런 상황에 대비할 수 있다.

재해 복구란 무엇인가?
IT 부문에서 재해 복구는 필수 비즈니스 기능을 지원하는 데 필요한 IT 시스템에 집중한다. '비즈니스 연속성(business continuity)'이라는 용어도 비슷하게 사용되지만 두 용어의 의미는 다르다. 재해 복구는 재해에도 불구하고 비즈니스의 모든 측면을 운영하는데 집중하는 비즈니스 연속성을 포함한다. 오늘날 IT 시스템은 비즈니스의 성공에 매우 중요하기 때문에 재해 복구는 비즈니스 연속성 프로세스에서 중요한 부분을 차지한다.

재해의 비용
재해 상황에 준비하지 않은 기업은 막대한 경제적 손실을 볼 수 있다. IT DRP(Disaster Recovery Preparedness) 위원회의 2015년 보고서에 따르면, 다운타임(Downtime) 1시간이면 소기업에 최대 8,000달러, 중기업에 최대 7만 4,000달러, 대기업에 최대 70만 달 손실이 발생한다.

재해 복구 서비스 업체 제타(Zetta)의 조사 결과를 보면, 기업 중 절반 이상(54%)이 지난 5년 동안 8시간 이상 지속된 다운타임을 경험했다. 응답자의 2/3는 다운타임 1일당 2만 달러 이상의 손실을 보았다고 답했다.



위험 평가
기업이 이미 재해 복구 계획이 있다고 하더라도 이를 업데이트해야 한다. 아직 재해 복구 계획이 없고 이를 만들어야 한다면 위험 평가 없이 뛰어들지 않도록 주의한다. 위험 평가란 IT 인프라의 취약성과 잘못될 가능성이 있는 곳을 확인하기 위해 일단 IT 인프라를 점검하는 것을 의미한다.

또한, 무엇이 잘못될지 안다고 해서 최악의 시나리오 계획을 수립할 필요는 없다. DRJ(Disaster Recovery Journal)의 톰 롭케와 스티븐 골드만은 비즈니스 연속성 계획에서 최악의 시나리오를 가정하면 다른 중요한 위협으로부터 주의를 빼앗을 수 있어 위험하다고 경고했다.

"자연스레 최악의 시나리오가 무엇인지 가정하거나 정의하면, 설사 그것이 무의식적인 수준이라 하더라도 치명적인 결함이 될 수 있다. 예를 들어 우리가 유행병, 지진, 사이버 공격 등 특정 시나리오를 가정할 때 자동으로 구체적이고 무의식적으로 정의된 사고에 대한 대응/복구 측면에서 사고와 계획을 시작하게 된다. 이때 최악의 상황을 가정하면 계획에 대한 관점이 좁아지고 위험과 노출이 오히려 커질 수 있다. 왜냐하면 실제 가능성이 크지 않은 구체적인 1~2개의 영역에만 과도하게 집중하게 되기 때문이다" (톰 롭케, 스티븐 골드만)

따라서 롭케와 골드만은 이해당사자와의 소통과 동시에 위기 관리, 비즈니스에 필수적인 기능 복원, 전체 복구에 집중하라고 조언했다.

재해 복구 계획의 주요 내용
구글(Google)에서 '재해 복구 계획 템플릿'을 검색하면 결과가 수십 개가 나타난다. 이런 것들로 시작하고 각자의 상황에 맞춰 수정하면 된다. 일단 계획에 들어갈 필수 내용은 다음고 같다.

- 진술, 개요, 계획의 주된 목표
- 주요 직원 및 재해 복구팀 구성원을 위한 연락처 정보
- 재해 복구 직후 비상 대응 조치에 대한 설명
- IT 네트워크와 복구 사이트 전체에 관한 다이어그램(직원이 목표를 달성하기 위해 복구 사이트에 도달하는 방법에 대한 지침도 포함)
- 가장 필수적인 IT 자산 확인 및 최대 고장 정지 시간 결정(이를 위해 RPO(Recovery Point Objective) 및 RTO(Recovery Time Objective)라는 용어를 알아야 한다. RPO는 재해 후 정상 운영을 재개하기 위해 기업이 백업 저장 공간에서 복구해야 하는 파일의 최대 '시간'을 나타낸다. RPO를 5시간으로 선택하면 시스템은 최소 5시간마다 백업해야 한다. RTO는 재해 후 기업이 백업 저장 공간에서 파일을 복구하고 정상 운영을 재개하는 시간의 최대치를 나타낸다. RTO가 3시간이라면 다운 상태가 그 이상 유지돼서는 안 된다)
- 복구 시 사용할 소프트웨어, 라이선스 키, 시스템 목록
- 복구 기술 시스템 소프트웨어에 관한 업체 기술 문서
- 보험 범위 요약.
- 금융 및 법률 문제뿐만 아니라 미디어 지원 활동에 대한 제안사항


재해 복구팀 구성하기
기업의 필수 IT 인프라를 담당하는 IT팀 구성원이 계획을 조율해야 한다. 그 외에도 CEO와 대표 고위 간부, 이사, 부서장, 인사 및 홍보 관계자 등이 재해 복구 계획의 내용을 숙지해야 한다. 회사 밖에서는 재해 복구 노력(소프트웨어 및 데이터 백업)과 관련된 업체 및 담당자가 알아야 한다. 시설 소유자, 자산 관리자, 사법 담당자, 긴급 대응자도 알고 계획에 포함해야 한다(그리고 이름 또는 휴대전화 변경 시 자주 업데이트해야 한다).

계획을 작성하고 경영진이 승인하면 계획을 시험하고 필요 시 업데이트한다. 재해 복구 기능에 대한 다음 검토 기간을 정하고 (크고 작은) 이벤트가 발생했을 때 즉각 업데이트해야 한다. 계획만 세워 두고 재해가 발생하지 않기를 바라서는 안 된다.

재해가 발생했다면 무엇을 해야 할까
재해가 발생하면 사고 대응을 시작해야 한다. (재해 복구 계획팀과 다른 경우) 사고 대응팀이 재해 복구 계획의 사본을 가지고 있어야 한다. 사고 대응에는 상황 평가(재해의 영향을 받은 하드웨어, 소프트웨어, 시스템 확인), 시스템 복구, 후속 조치(효과가 있었던 것과 없었던 것, 개선 가능 사안)가 수반된다.

새로운 바람 : 클라우드 또는 서비스형 복구
클라우드로 이행한 다른 많은 기업 IT시스템과 마찬가지로 재해 복구도 클라우드로 이행했다. 클라우드는 낮은 비용과 쉬운 배치, 정기적인 계획 능력 등의 장점이 있다. 하지만 더 복잡한 시스템으로 인해 대역폭 필요가 증가하거나 기업의 네트워크 성능이 저하될 수 있다.

시장조사업체 가트너(Gartner)의 2016년 보고서를 보면, 250개 이상의 업체가 DRaaS를 제공한다. 이들을 일일이 검토할 수는 없으므로, 그 시작은 에어로컴(AeroCom)의 설립자 겸 사장이자 IDG 네트워크 기고가인 마이크 스미스의 분석 보고서가 적당할 것이다. 포레스터 리서치(Forrester Research)도 DRaaS 시장에 대한 보고서에서 10개 기업을 분석했다. 단 이 보고서 가격은 2500달러다. ciokr@idg.co.kr



2018.01.25

정의부터 계획·실행까지··· 한번에 이해하는 재해 복구

Keith Shaw | Network World
재해는 다양한 형태와 규모로 발생한다. 허리케인, 지진, 토네이도 등 비극적인 자연 재해뿐만 아니라 사이버 공격, 장비 고장, 테러리즘 등의 사건도 재해로 분류할 수 있다.



기업은 상당한 수익 또는 비즈니스 손실 없이 업무에 필수적인 기능을 신속하게 재개하기 위해 취할 조치와 준수할 프로세스를 세부적으로 명시한 재해 복구 계획을 수립해 이런 상황에 대비할 수 있다.

재해 복구란 무엇인가?
IT 부문에서 재해 복구는 필수 비즈니스 기능을 지원하는 데 필요한 IT 시스템에 집중한다. '비즈니스 연속성(business continuity)'이라는 용어도 비슷하게 사용되지만 두 용어의 의미는 다르다. 재해 복구는 재해에도 불구하고 비즈니스의 모든 측면을 운영하는데 집중하는 비즈니스 연속성을 포함한다. 오늘날 IT 시스템은 비즈니스의 성공에 매우 중요하기 때문에 재해 복구는 비즈니스 연속성 프로세스에서 중요한 부분을 차지한다.

재해의 비용
재해 상황에 준비하지 않은 기업은 막대한 경제적 손실을 볼 수 있다. IT DRP(Disaster Recovery Preparedness) 위원회의 2015년 보고서에 따르면, 다운타임(Downtime) 1시간이면 소기업에 최대 8,000달러, 중기업에 최대 7만 4,000달러, 대기업에 최대 70만 달 손실이 발생한다.

재해 복구 서비스 업체 제타(Zetta)의 조사 결과를 보면, 기업 중 절반 이상(54%)이 지난 5년 동안 8시간 이상 지속된 다운타임을 경험했다. 응답자의 2/3는 다운타임 1일당 2만 달러 이상의 손실을 보았다고 답했다.



위험 평가
기업이 이미 재해 복구 계획이 있다고 하더라도 이를 업데이트해야 한다. 아직 재해 복구 계획이 없고 이를 만들어야 한다면 위험 평가 없이 뛰어들지 않도록 주의한다. 위험 평가란 IT 인프라의 취약성과 잘못될 가능성이 있는 곳을 확인하기 위해 일단 IT 인프라를 점검하는 것을 의미한다.

또한, 무엇이 잘못될지 안다고 해서 최악의 시나리오 계획을 수립할 필요는 없다. DRJ(Disaster Recovery Journal)의 톰 롭케와 스티븐 골드만은 비즈니스 연속성 계획에서 최악의 시나리오를 가정하면 다른 중요한 위협으로부터 주의를 빼앗을 수 있어 위험하다고 경고했다.

"자연스레 최악의 시나리오가 무엇인지 가정하거나 정의하면, 설사 그것이 무의식적인 수준이라 하더라도 치명적인 결함이 될 수 있다. 예를 들어 우리가 유행병, 지진, 사이버 공격 등 특정 시나리오를 가정할 때 자동으로 구체적이고 무의식적으로 정의된 사고에 대한 대응/복구 측면에서 사고와 계획을 시작하게 된다. 이때 최악의 상황을 가정하면 계획에 대한 관점이 좁아지고 위험과 노출이 오히려 커질 수 있다. 왜냐하면 실제 가능성이 크지 않은 구체적인 1~2개의 영역에만 과도하게 집중하게 되기 때문이다" (톰 롭케, 스티븐 골드만)

따라서 롭케와 골드만은 이해당사자와의 소통과 동시에 위기 관리, 비즈니스에 필수적인 기능 복원, 전체 복구에 집중하라고 조언했다.

재해 복구 계획의 주요 내용
구글(Google)에서 '재해 복구 계획 템플릿'을 검색하면 결과가 수십 개가 나타난다. 이런 것들로 시작하고 각자의 상황에 맞춰 수정하면 된다. 일단 계획에 들어갈 필수 내용은 다음고 같다.

- 진술, 개요, 계획의 주된 목표
- 주요 직원 및 재해 복구팀 구성원을 위한 연락처 정보
- 재해 복구 직후 비상 대응 조치에 대한 설명
- IT 네트워크와 복구 사이트 전체에 관한 다이어그램(직원이 목표를 달성하기 위해 복구 사이트에 도달하는 방법에 대한 지침도 포함)
- 가장 필수적인 IT 자산 확인 및 최대 고장 정지 시간 결정(이를 위해 RPO(Recovery Point Objective) 및 RTO(Recovery Time Objective)라는 용어를 알아야 한다. RPO는 재해 후 정상 운영을 재개하기 위해 기업이 백업 저장 공간에서 복구해야 하는 파일의 최대 '시간'을 나타낸다. RPO를 5시간으로 선택하면 시스템은 최소 5시간마다 백업해야 한다. RTO는 재해 후 기업이 백업 저장 공간에서 파일을 복구하고 정상 운영을 재개하는 시간의 최대치를 나타낸다. RTO가 3시간이라면 다운 상태가 그 이상 유지돼서는 안 된다)
- 복구 시 사용할 소프트웨어, 라이선스 키, 시스템 목록
- 복구 기술 시스템 소프트웨어에 관한 업체 기술 문서
- 보험 범위 요약.
- 금융 및 법률 문제뿐만 아니라 미디어 지원 활동에 대한 제안사항


재해 복구팀 구성하기
기업의 필수 IT 인프라를 담당하는 IT팀 구성원이 계획을 조율해야 한다. 그 외에도 CEO와 대표 고위 간부, 이사, 부서장, 인사 및 홍보 관계자 등이 재해 복구 계획의 내용을 숙지해야 한다. 회사 밖에서는 재해 복구 노력(소프트웨어 및 데이터 백업)과 관련된 업체 및 담당자가 알아야 한다. 시설 소유자, 자산 관리자, 사법 담당자, 긴급 대응자도 알고 계획에 포함해야 한다(그리고 이름 또는 휴대전화 변경 시 자주 업데이트해야 한다).

계획을 작성하고 경영진이 승인하면 계획을 시험하고 필요 시 업데이트한다. 재해 복구 기능에 대한 다음 검토 기간을 정하고 (크고 작은) 이벤트가 발생했을 때 즉각 업데이트해야 한다. 계획만 세워 두고 재해가 발생하지 않기를 바라서는 안 된다.

재해가 발생했다면 무엇을 해야 할까
재해가 발생하면 사고 대응을 시작해야 한다. (재해 복구 계획팀과 다른 경우) 사고 대응팀이 재해 복구 계획의 사본을 가지고 있어야 한다. 사고 대응에는 상황 평가(재해의 영향을 받은 하드웨어, 소프트웨어, 시스템 확인), 시스템 복구, 후속 조치(효과가 있었던 것과 없었던 것, 개선 가능 사안)가 수반된다.

새로운 바람 : 클라우드 또는 서비스형 복구
클라우드로 이행한 다른 많은 기업 IT시스템과 마찬가지로 재해 복구도 클라우드로 이행했다. 클라우드는 낮은 비용과 쉬운 배치, 정기적인 계획 능력 등의 장점이 있다. 하지만 더 복잡한 시스템으로 인해 대역폭 필요가 증가하거나 기업의 네트워크 성능이 저하될 수 있다.

시장조사업체 가트너(Gartner)의 2016년 보고서를 보면, 250개 이상의 업체가 DRaaS를 제공한다. 이들을 일일이 검토할 수는 없으므로, 그 시작은 에어로컴(AeroCom)의 설립자 겸 사장이자 IDG 네트워크 기고가인 마이크 스미스의 분석 보고서가 적당할 것이다. 포레스터 리서치(Forrester Research)도 DRaaS 시장에 대한 보고서에서 10개 기업을 분석했다. 단 이 보고서 가격은 2500달러다. ciokr@idg.co.kr

X