Offcanvas

데이터센터 / 비즈니스|경제 / 빅데이터 | 애널리틱스

벤더 기고ㅣ“피할 수 없다면 대비하라” 100% 복구에 도전하는 2023 데이터센터 재해복구 전략

2022.12.28 효성인포메이션시스템  |  CIO KR
지난 2000년 9월 한 금융사 건물에서 스프링클러가 가동되면서 전산실 가동이 중단되고 지점 단말기, 홈페이지, 사내망 등 모든 전산 시스템이 멈췄다. 2010년 겨울에는 공조기 오작동으로 한 데이터센터의 난방 파이프가 동파되고 누수가 일어났다. 서버는 침수되고 2주간 서비스가 중단됐다.

생각만 해도 아찔하고 식은땀이 흐르는, 그야말로 ‘재난’이다. 데이터 인프라 재해는 기업의 자산 손실과 매출 감소를 넘어, 서비스 사용자 또는 사회 전반까지 불편과 혼란을 가져온다. 실제로 데이터센터에 발생하는 재난 재해는 이보다 훨씬 종류가 많고 빈도도 잦다. 100% 안전한 데이터센터는 존재하지 않으며 위험을 예방하고 복구하려는 노력이 중요하다.
 
ⓒGetty Images Bank

그러나 재해 대비 이중화, 재해복구 인프라 등이 보편적으로 구축돼 있음에도 IT 시스템 장애나 재해로 최소 수 시간에서 수 일 이상 서비스가 중단된 사례가 적지 않다. 정작 필요시 재해복구 기술이 제대로 가동하지 않아 서비스 전환에 오랜 시간이 걸리거나 데이터 복구 품질이 기대 수준에 미치지 못해서다.

완벽한 IT 시스템이라고 해도 재해에 따른 서비스 중단 위험은 항상 존재한다. 이에 모든 기업은 핵심 인프라와 비즈니스에 악영향을 미치는 재해를 예측하고 준비해 복구하는 일련의 절차와 규칙, 즉 ‘재해복구 계획’을 각 기업 환경에 적절한 유형으로 마련하려고 애쓰고 있다.

RTO의 완성 조건 ‘RPO’
재해가 발생했을 때 가장 기준이 되는 것은 복구 목표 시간(RTO)이다. 시스템이 얼마나 빨리 복구돼야 하는지, 인프라와 서비스가 정상화될 때까지 걸리는 시간을 말한다. 그리고 RTO에 영향을 미치는 중요한 요인이 있다. 바로 복구 목표 시점(RPO)이다. RPO는 기업이 재해 발생 후 정상 운영을 재개하기 위해 백업 스토리지에서 복구해야 하는 파일의 최대 백업 주기를 의미한다. RPO는 최소 백업 빈도를 결정하는데, 10시간짜리 RPO는 최소 10시간마다 한 번씩 백업해야 한다. 따라서 RPO가 길어지면 길어질수록 데이터 복구 시간이 그에 비례해 늘어나게 된다. 따라서 많은 기업이 ‘RPO 제로’를 목표로 시스템을 구축하려고 노력하고 있다.

업무 중요도로 구분한 재해복구 솔루션 적용 가이드라인을 예로 들어 보자. 일반적으로 생산, 판매, 영업, 대고객 활동에 직접 영향을 미치는 기업의 기간 업무 시스템은 플래티넘과 골드급을 기준으로 보호하는데, 보통 RTO 3시간, 또는 24시간 이내가 기준이 된다.

핵심 업무 데이터의 RTO 3시간/24시간을 맞추려면 RPO는 어느 정도여야 할까? 당연히 RPO 역시 3시간/24시간을 넘어서는 안 된다. RPO가 1시간인 데이터의 경우, 1시간 이전의 데이터까지만 복구하면 문제가 없다는 의미일까? 물론 그렇지 않다. 시스템이 정상적으로 재가동하려면 항상 데이터는 가장 최신 버전까지 복구돼야 한다.
 
업무중요도별 재해복구 솔루션 적용 가이드라인(예시) ⓒ효성인포메이션시스템

RPO 1시간의 의미는, 마지막 백업 후 1시간 이후의 데이터를 공백으로 남겨두는 것이 아니라, 다른 수단으로 복구할 수 있다는 의미다. 대표적인 보조 복구 수단으로는 데이터베이스의 아카이브 로그나 수기 서류 등이 있다. 아카이브 로그나 문서로 백업 이후 1시간 분량의 손실 데이터를 복구하는 시간이 포함되므로 최종 RTO는 그만큼 늘어나게 된다.

따라서 기업의 최고 핵심 업무에 적용되는 RTO 3시간은 재해 선언과 시스템 복구만으로도 부족하다. 여기에 데이터 복구와 보조 복구, 시스템 재가동과 작동 점검까지 포함하면 3시간은 불가능에 가까운 목표가 돼 버린다. 이 ‘불가능한 미션’을 완수하려면 데이터 복구 시간을 없애거나 최소한으로 줄여야 하며, RPO는 제로에 수렴해야 한다. RPO=0이라는 세부 목표에 필수 불가결한 요건이 바로 실시간 동기화를 통한 이중화다.

RPO=0를 달성하는 데이터 동기화 방법
RPO 제로에 가장 이상적인 데이터 복제 방식은 동기식이다. 원 서버와 별도로 2개의 분리된 스토리지에 데이터를 두고 원본과 복제본을 만든다. 동기식의 특징은 원본과 복제본이 동일한 내용임을 보장하기 위해 서버에서 I/O 쓰기 요청이 있으면 완료 이후 서버에 완료 메시지를 보내는 것이 하나의 과정이라는 점이다. 그러나 원본과 복제본에 쓰기가 완료될 때까지 서버 애플리케이션이 대기해야 하므로 물리적 거리에 따라 응답 지연이 발생할 수도 있다. 따라서 대부분 원본과 복제본 간 거리를 100Km 이내의 가까운 거리에 배치한다.

동기식을 개선한 것이 액티브-액티브 미러링(Active-Active Mirroring)이다. 원본과 복제본을 구분하지 않고 2개의 스토리지 모두 동시 읽기/쓰기를 지원한다. 양방향으로 복제돼 두 개의 스토리지 볼륨을 하나로 인식하므로 주 스토리지 2개 중 어느 하나에 장애가 발생하더라도 다른 하나로 지속적인 서비스를 지원한다. 액티브-액티브 미러링은 RPO=0라는 미션을 충족하며, 스토리지 단일 장비 장애가 발생해도 RTO=0의 무장애 환경을 구성할 수 있다. 이에 가장 이상적인 재해복구 모델인 액티브-액티브 데이터센터 구축의 기본 기술로 활용된다.

주 스토리지 저장과 별개로 백그라운드에서 데이터를 원격지에 복제하는 비동기식 복제 방식도 있다. 애플리케이션 I/O 요청 시 복제 스토리지가 응답할 때까지 기다릴 필요가 없으므로 거리 문제가 해소된다. 다만 솔루션에 따라 인터벌 배치 복제방식을 사용할 경우 수초에서 10분 이상의 RPO와 데이터 손실 가능성이 있다. 비동기식 복제 방식 중 실시간 전송 방식도 있다. 주 스토리지에서 복제 스토리지로변동 데이터를 보내는 것까지는 배치 방식과 동일하나 변동 데이터를 시간 간격 없이 생성 즉시 보내므로 실시간 전송 방식이라고 한다.

동기식과 비동기식 그리고 하이브리드 복제
동기식 복제 방식은 특히 정전, 침수, 화재 등으로 데이터센터 자체에 문제가 생긴 경우 근거리에 동기식으로 복제 구성한 복제 스토리지에서 데이터를 복구해 시스템 재가동을 도울 수 있다. 그러나 지진, 전쟁 등 넓은 지역에 영향을 미치는 재해에는 주 스토리지와 복제 스토리지 모두 똑같이 재해를 입을 수 있다. 우리나라처럼 수도권에 데이터센터가 집중된 경우 유사시 모든 스토리지가 영향을 입게 된다. 따라서 부산이나 제주도 등 물리적으로 먼 곳에 데이터와 시스템을 이중화할 필요가 있다. 만일 거리가 500Km를 초과하면 동기식이 아닌 비동기 복제 방식을 사용할 수밖에 없다.
 
동기복제와 비동기복제의 단점을 극복한 하이브리드 복제, 3 데이터센터 ⓒ효성인포메이션시스템

이 경우 동기식과 비동기식을 혼합하는 하이브리드 복제 방식이 유용하다. 동시에 3곳의 데이터센터에서 데이터를 동기화하는 이른바 3 데이터센터 복제 방식이다. 3 데이터센터는 근거리는 동기식으로 이중화하고, 원거리에는 비동기식으로 운영하는 제3의 데이터센터를 두어 데이터를 세 벌로 동기화한다. 이 경우 근거리의 동기식 복제로 가장 빈번한 재해인 정전, 침수, 화재가 발생해도 데이터를 복구할 수 있고, 전쟁이나 지진 등 만에 하나 일어날 수 있는 광범위한 재해에서도 원거리 비동기식 데이터센터에서 데이터를 온전하게 동기화한다는 것이 가장 큰 장점이다.

근거리에는 동기식으로 운영되는 데이터센터 2곳이 있으므로 한 곳이 다운될 경우에도 시스템 전환을 선언하고, 온전하게 보전된 근거리 백업 데이터센터에서 원거리의 제3 데이터센터로 차등분을 복제하면 RPO=0를 실현할 뿐만 아니라, 제3 데이터센터를 주 센터로 전환하는 복구가 가능하다.

3 데이터센터 구성 중에는 액티브-스탠바이로 불리는 동기식과 비동기식을 결합한 방식이 오래 전부터 사용돼 왔다. 최근에는 액티브-액티브 미러링과 비동기식을 혼합한(Active-Active Mirroring + Async) 구성이 증가하고 있다.

3 데이터센터 복제 방식을 적용한 재해 시나리오
3 데이터센터 구성의 핵심은 세 벌의 동기화 복제본 중 어느 하나에 장애가 발생해도 나머지 두 벌끼리 변동분만 복제해 빠르게 동기화를 보장한다는 것이다. 3 데이터센터 중 액티브-액티브 미러링과 비동기 방식을 예로 들어보자.

평소에는 주 스토리지 2개가 액티브-액티브 미러링으로 이중화되고, 주 스토리지 1과 원거리 복제 스토리지가 동기화를 수행한다. 주 스토리지 2와 복제 스토리지는 복제 회선을 스탠바이(Standby) 모드로 유지한다. 주 스토리지 1에 장애가 발생하면 서비스는 주 스토리지 2가 이어받는다. 복제 스토리지로의 동기화 복제도 주 스토리지 2가 담당해 복제 스토리지에 계속 변동분을 반영한다.

만일 이런 기술을 적용하지 않는다면 주 스토리지 1에 장애가 생길 경우 주 스토리지 2와 복제 스토리지 간 복제 관계가 없으므로 변동분이 아니라 완전 초기 복제를 수행하느라 RTO 달성에 실패할 수밖에 없다. 그러나 3 데이터센터 구성에서는 단일 스토리지 장비에 장애가 발생해도 나머지 스토리지 2대를 통해 데이터 동기화가 무중단 운영되므로 재해를 더욱 단단히 대비할 수 있다.

데이터뿐 아니라 인프라까지 포함해야 RTO=0
기업은 재해복구 시스템 운영 방식을 결정하기 전에 시스템 복구 시간, 복구 범위, 비즈니스 영향, 업무 중요도 등을 종합적으로 고려할 필요가 있다. RTO는 데이터 복구만을 계산하는 수치가 아니다. 모든 서비스가 재해 이전의 정상 수준으로 돌아가려면 데이터뿐만 아니라 애플리케이션, 서버, 네트워크 등 기타 다른 환경 역시복구돼야 한다. RTO가 3시간, 24시간으로 정해진 핵심 업무 데이터를 복구해야 한다면 그 시간 안에 모든 제반 인프라가 함께 복구돼 있어야 한다는 뜻이다.

따라서 데이터 복구 대책을 세운 이후에는 시스템 복구에도 대비해야 한다. 기업의 핵심 업무에는 비용과 난이도가 높지만, 데이터를 실시간 이중화로 복제해 재해가 발생해도 즉시 대체나 전환이 가능한 미러 사이트 또는 핫 사이트급의 복구 정책을 적용해야 한다.

필요 인프라가 모두 주 데이터센터와 동일하고, 데이터 동기화는 RPO=0을 목표로 한다는 것은 미러 사이트와 핫 사이트의 공통점이다. 하지만 미러 사이트는 액티브-액티브 데이터 미러링 기술, 서버/네트워크 사이트 간 부하 분산이나 자동 페일 오버를 지원해 서비스의 중단을 최소화하는 더욱 이상적인 구조다.

미션 크리티컬 환경에 적합한 히타치 VSP 스토리지 제품군
스토리지는 매우 엄격한 조건을 만족하고 신중한 검토를 거쳐 선택되는 제품이다. 또 재해복구 인프라를 염두에 둔 데이터센터라면 어떤 미션 크리티컬한 환경에서 도 안정적으로 운영하는, 고가용성을 보장하는 스토리지를 선택해야 한다. 효성인포메이션시스템의 히타치 VSP(Hitachi VSP)는 100% 데이터 가용성을 보장할 뿐만 아니라 고성능 NVMe 기반으로 경제성과 효율성을 중시하는 미드레인지급 VSP-E시리즈부터 업계 최상위 기준을 충족하는 시장 1위 제품 VSP 5000 시리즈까지 다양한 요구와 환경에 따라 선택의 폭을 넓혔다.
 
미션크리티컬 환경을 위한 스토리지 라인업 ⓒ효성인포메이션시스템

재해복구 인프라 구축에 특화됐다는 것도 장점이다. 등급이 같은 제품끼리만 복제 기능을 허용한 타사와 달리 효성인포메이션시스템의 히타치 VSP 시리즈는 미드레인지부터 하이엔드까지 전 기종 간 복제 구성을 허용해 비용 효율을 달성한다. 또 20년 이상 재해복구 경험을 쌓으면서 업계 최초 실시간 비동기 구현, 업계 최다 액티브-액티브 스토리지 미러링 구축 등 공공/금융/제조/통신 등 90여 건 이상의 국내 최다 구축 사례를 보유하고 있다.

엔터프라이즈 데이터 보호를 위한 스토리지 이중화 기술
데이터 보호에 특화된 스토리지 이중화 솔루션을 선택할 때 살펴볼 기술 기준이 있다. 엔터프라이즈 수준의 IT 인프라 환경에 최적화된 데이터 복제 솔루션이 필요하기 때문이다. 특히 미션 크리티컬한 애플리케이션이라면 확장성과 데이터 무결성을 중심으로 솔루션 기술을 선택해야 한다.

동기 방식의 트루 카피: 트루카피는 동기 방식의 원격 복제와 재해복구를 지원하고, 데이터센터 가용성을 극대화하는 이중화 재해복구 솔루션이다. 동기 방식이므로 원본과 복제본이 항상 동일하게 일치하는 특성이 있다.

데이터 손실 없는 실시간 비동기 방식의 유니버셜 리플리케이션: 데이터센터 간 거리가 수백 Km 이상인 장거리 재해복구 방식에 대표적으로 사용되는 솔루션이다. 히타치 VSP는 업계 유일의 저널 기반 실시간 비동기 방식 솔루션으로, 평상시에는 실시간으로 데이터를 복제하고 과부하나 장애가 발생할 때는 별도 할당된 저널 디스크로 데이터를 저장 전송하는 알고리즘으로 동작한다. 따라서 복제가 끊길 가능성을 최소화하고, 네트워크 대역폭을 효율적으로 사용한다는 장점이 있다. 또한 타임 스탬프와 시퀀스 넘버를 통해 데이터 정합성을 완벽하게 보장한다.

복제 과정에서 이어지는 재해로 복제가 끊어지면 트랜잭션이 아니라 블록 단위로 마구 복제하는 방식을 쓰는 경우가 많다. 2차 장애가 오면 더이상 복제하지 못하고 데이터가 완전히 복구되지 못하는 단점이 치명적이다. 그러나 히타치 VSP는 저널 기법을 이용해 따로 저널 데이터로 보관했다가 2차 장애가 멈추고 회선이 복구되면 다시 전송해서 시간 단위로 복구한다. 저널은 최대한 데이터가 유실되지 않도록 보완하는 추가적 복구 기술이다.

컨트롤러 기반의 액티브-액티브 미러링 방식의 글로벌 액티브 디바이스 솔루션: 글로벌 액티브 디바이스(GAD) 이중화 솔루션은 액티브-액티브 이중화 기술이 적용돼 서로 다른 2대의 스토리지를 하나의 스토리지 볼륨처럼 관리하는 컨트롤러 기반의 강력한 가상 스토리지 머신 솔루션이다. 2대의 스토리지를 완벽한 액티브-액티브 방식으로 구성하기 때문에 각각의 스토리지에서 I/O를 읽는 처리 방식이므로 읽기 기반의 환경에서는 오히려 성능 향상을 기대할 수 있다. 이러한 이중화 솔루션 기술이 환경에 따라 자유자재로 사용될 때 데이터센터의 다양한 복제 요건을 수행하는 재해복구 인프라 환경을 구축할 수 있다.

히타치 VSP 제품군은 3 데이터센터 구성으로 데이터 삼중화를 제공하고 멀티 타깃 등 다양한 복제 구성을 지원한다. 특히 3 데이터센터는 보통 하이엔드 제품군에만 적용되는 구성이지만, 히타치 제품군은 미드레인지에서부터 하이엔드까지 전 기종에서 3 데이터센터 구성을 지원하므로 기업 입장에서 더욱 효율적이고 다양한 선택지가 가능하다.

잃어도 되는 데이터는 없다
데이터를 잃어도 아무렇지 않은 기업이 있을까? 대내외 장애 재발 방지 규정은 점점 더 엄격해지고 있다. 장애 발생 시 서비스 사용자의 불편과 이탈, 사회적 혼란, 규제 준수 의무 등 복잡한 환경에서 데이터센터 재해와 데이터 손실은 이제 엄청난 파장을 가져오는 위험이다.

이렇게 환경과 요구 조건이 복잡해질수록 모든 재해복구 포트폴리오를 바탕으로 오랜 경험과 구축 사례를 보유한 전문 업체의 검증된 기술을 적재적소에 활용하는 것이 중요하다. 국내 최초 실시간 비동기 재해복구시스템과 3 데이터센터 실시간 재해복구시스템, 세계 최장 거리의 재해복구센터를 구축한 바 있으며, 국내 최다 스토리지 재해복구 시스템 경험 등 오랜 노하우를 보유해 많은 신뢰를 얻고 있는 효성인포메이션시스템과 그 해답을 찾길 바란다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.