Offcanvas

데이터센터 / 디지털 트랜스포메이션 / 빅데이터 | 애널리틱스 / 애플리케이션

"기본 개념부터 제품까지"··· 데이터 중복제거의 이해

2018.08.17 W. Curtis Preston  |  Network World
최근 20년 간 백업 기술에서 가장 중요한 발전을 꼽으라면 단연 ‘중복 제거(Deduplication 또는 Dedupe)’다. 다른 기술 없이도 수 많은 백업 데이터를 테이프에서 디스크로 옮길 수 있다. 이런 장점 때문에 점점 인기가 높아지고 있다. 도입할 백업 기술을 검토하고 있다면 여러 다양한 중복 제거 기술을 제대로 알아둘 필요가 있다.



데이터 중복 제거란
중복 제거란 하나의 데이터세트에서 중복 블록을 찾아 없애는 것이다. 압축과 유사하다. 그러나 압축은 하나의 파일에서 중복된 파일을 찾는 반면, 중복 제거는 여러 디렉터리, 여러 데이터 유형, 심지어 다른 장소의 여러 서버의 파일에서 중복 데이터 블록을 찾는다.

예를 들면, 중복 제거 시스템은 스프레드시트에서 고유 블록을 식별한 후 백업한다. 이 블록을 업데이트해 백업할 때 변경된 세그먼트만 찾아 백업한다. 동료에게 이메일을 보낸다고 하자. 보낸 편지함과 받은 편지함, 심지어 로컬 저장한 경우 노트북 컴퓨터의 하드 드라이브에서 같은 블록을 찾을 수 있다. 이와 같은 동일 세그먼트의 추가 사본은 백업할 필요가 없다. 위치만 식별한다.

중복 제거의 원리
가장 일반적인 중복 제거 방법은 중복을 제거할 데이터를 이른바 ‘청크(Chunk)’로 쪼개는 방법이다. 청크는 인접한 하나 이상의 데이터 블록이다. 청크를 나누는 위치와 방법은 특허가 있을 만큼 다양하다. 그러나 어느 제품이든 일반적으로 여러 청크를 생성한 후 해당 중복 제거 시스템이 식별한 기존 청크와 비교한다는 점은 같다.

이때 비교하는 방법은 각 청크에 이른바 해시(hash)를 생성한다. SHA-1, SHA-2, SHA-256 같은 결정적 암호화 해싱 알고리즘을 적용해 비교한다. 예를 들어 SHA-1 해시 연산 도구에 ‘The quick brown fox jumps over the lazy dog’라고 입력하면 ‘2FD4E1C67A2D28FCED849EE1BB76E7391B93EB12’라는 해시 값이 생성된다.

두 청크의 해시가 일치하면 같은 것으로 간주한다. 아주 사소한 변경 사항도 청크 해시를 변경시키기 때문이다. SHA-1 해시는 160비트다. 8MB 청크에 대해 160비트 해시를 생성하면, 같은 청크를 백업할 때마다 약 8MB가 저장된다. 중복 제거로 공간을 절약할 수 있는 것도 바로 이 때문이다.

대상(Target) 중복 제거
현재 시장에서 가장 많이 팔리고 있는 중복 제거 기술이 대상(Target) 중복 제거다. 대상 중복 제거 디스크 어플라이언스 제품은 백업을 네트워크 공유로 보내거나, 제품이 VTL(Virtual Tape Library)인 경우 가상 테이프 드라이브로 보낸다. 청크 생성 및 비교가 모두 대상에서 이뤄지며 소스(원본)에서 이뤄지는 작업은 없다. 백업 소프트웨어 변경 없이 중복을 제거할 수 있는 것이 장점이다.

이런 점진적인 방식은 많은 기업이 주요 백업 대상을 테이프에서 디스크로 교체하는 데 큰 도움이 됐다. 기업 대부분은 오프사이트 목적에서 테이프에 백업을 복사한다. 예산이 풍부한 대기업은 이런 대상 중복 제거 어플라이언스의 복제 기능을 이용해 백업 오프사이트를 복제하기도 한다. 좋은 중복 제거 시스템은 파일 크기를 99%, 증분 백업 크기를 90% 줄여 모든 백업을 복제할 수 있도록 도와준다(물론 이런 정도의 복제를 처리할 대역폭이 없는 기업도 있다).


소스 중복 제거
소스 중복 제거는 백업 클라이언트(소스)에서 이뤄진다. 소스, 즉 클라이언트에서의 중복 제거다. 클라이언트에서 청크 작업을 한 후 해시 값을 백업 서버로 보내 조회 작업을 처리한다. 백업 서버가 특정 청크를 고유한 청크로 식별하면, 청크를 백업 서버로 보내 디스크에 기록한다. 반면 중복 청크로 식별하면 청크를 전송하지 않는다. 이런 방식으로 대역폭과 스토리지 공간을 줄인다.

소스 중복 제거의 단점 한 가지는 해시 생성 프로세스에 많은 리소스가 필요하다는 점이다. 실제로 많은 CPU 성능이 소모된다. 그러나 백업 전송에 필요한 CPU를 크게 줄여 이런 단점을 상쇄할 수 있다. 백업에서 중복인 청크의 비율이 90% 이상이기 때문에 가능하다.

대역폭을 절약해 대상 중복 제거를 적용할 수 없는 환경에서 소스 중복 제거를 할 수 있다. 예를 들어 인터넷을 대역폭으로 사용해 노트북 컴퓨터나 모바일 장치를 백업할 수 있다. 대상 중복 제거 시스템으로 이런 장치를 백업하면 백업하는 각 장치에 로컬 어플라이언스가 필요하다. 원격 백업에 소스 중복 제거를 선호하는 이유가 여기에 있다.

그러나 몇 가지 이유로 현장에서 소스 중복 제거 시스템은 대상 중복 제거 시스템만큼 많이 사용되지 않는다. 그 중 하나는 대상 중복 제거 시스템이 대부분의 소스 중복 제거 시스템보다 먼저 출시돼 제품이 안정적이기 때문이다. 그러나 더 큰 이유는 대상 중복 제거 시스템은 점진적으로 도입할 수 있는 장점이 있기 때문이다(같은 백업 소프트웨어를 사용하고, 대상만 변경하는 방식). 반면 소스 중복 제거 시스템은 백업 시스템을 전면 교체해야 한다. 또한, 소스 중복 제거 시스템마다 차이가 있는데, 일부 시스템은 도입 과정이 순탄하지 않았던 점도 한 요인이다.

중복 제거의 장단점
대상 중복 제거 기술의 장점은 대부분의 백업 소프트웨어와 함께 사용할 수 있다는 점이다. 어플라이언스가 지원하는 소프트웨어는 모두 사용할 수 있다. 단점은 백업 장소에 어플라이언스가 필요하다는 것이다. 가상 어플라이언스라도 구현돼 있어야 한다. 소스 중복 제거 기술의 장점은 반대이다. 어디에서나 백업할 수 있다는 것이 장점이다. 단, 이런 유연성 덕분에 백업은 필요 사항을 충족하지만 복구 속도는 그렇지 못할 수 있다. 따라서 백업 시스템을 고민하는 기업이라면 이런 점을 두루 고려해야 한다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.