2015.07.20

벤더 기고 | 클라우드로 NAS 대체하려면?··· '8가지 조건'

Randy Chou | Network World

클라우드 스토리지가 비정형 데이터를 담을 만큼 유용해지기 위해서는 기업 스토리지들과 동등한 수준의 유연성과 퍼포먼스, 생산성을 보장할 수 있어야 했다.



클라우드 스토리지의 경제성과 확장성, 관리 유연성은, 아무리 큰 규모의 데이터센터도 따라잡을 수 없는 수준까지 올라갔다.

AWS, 구글, 애저 등의 하이퍼스케일 클라우드 스토리지 공급자들은 지난 한 해에만 서비스 비용을 65% 인하했고, 앞으로도 무어의 법칙을 능가하는 가격 하락이 진행될 것임을 예고했다.

신뢰도에 있어서도 발전은 놀라운 수준으로 이뤄지고 있다. AWS의 경우 11개의 9에 해당하는 신뢰도를 보장하는데, 이는 아마존 S3에 1만 개의 객체을 저장할 경우 매 1,000만년 당 한 개 꼴로 손실이 발생하는 수준의 신뢰도다. 아마존 S3는 또 객체를 복수 설비의 복수 기기에 저장하는 이중 데이터 손실 방지책 역시 적용하고 있다.

아쉬운 점이라면, 최근까지 클라우드 스토리지는 실사용 데이터들보다는, 활용되지 않는 데이터를 저장하는 상황에만 주로 이용돼 왔다는 부분이다. 그 용량과 비용에 있어선 분명한 메리트가 있었지만, 제공하는 퍼포먼스는 로컬 스토리지에 미치지 못했기 때문이다.

비정형 데이터의 저장소로써 클라우드 스토리지가 유용성을 갖추려면, 기업 스토리지들과 동등한 수준의 유연성과 퍼포먼스, 생산성을 보장할 수 있어야 했다. 가격 경쟁력은 분명 매력적인 장점이지만, 이외의 기능성을 정당화할 수준에 이르지 못했다.

클라우드가 활성 데이터와 비활성 데이터 모두를 다루기 위해서는 이미 기업 내부에 탄탄히 자리잡은 로컬 필터들과 동등한, 혹은 그것을 능가하는 역량을 증명해야 한다. 이를 위한 세부적인 요구 조건 8가지는 다음과 같다:

- 로컬 캐시 저장: 사용자들에게 LAN과의 차이가 느껴지지 않는 접속 시장을 보장하기 위해서는, 비활성 데이터의 경우 클라우드에 저장되어 있더라도 활성 데이터는 로컬 영역에 캐시 저장되어 있어야 한다.

사실 대부분의 데이터는 사용자들이 자주 접근하는 것들이 아니다. 따라서 클라우드 환경이 부족할 것도 없다. 하지만 일부의 활성 데이터의 경우에는 사용자와 가까운 곳에 위치해 있어야 한다. 파일 사용에 기반한 기계 학습, ‘고정 폴더(pinned folder)’. 또는 이 둘의 하이브리드 방식을 활용하면 필요한 파일들이 로컬 영역에 캐시 저장되고 나머지 사용 빈도가 적은 파일들은 클라우드로 이전되도록 할 수 있다.

- 글로벌 중복제거: 글로벌 중복 제거는 오직 하나의 고유한 데이터 블록만이 클라우드에 저장되고 로컬 영역에 캐시 저장되는 것을 보장하는 과정이다. 다수의 파일에 거쳐 블록들의 공통성이 존재하는 상황에서 글로벌 중복제거는 클라우드에 저장된 데이터의 양을 줄여주고, 또 변경 내용만을 저장, 전송함으로써 클라우드와 로컬 캐시 간에 전송되는 데이터의 양 역시 줄여준다.

일례로 일렉트로닉 아츠(Electronic Arts)의 경우 그들의 데이터를 클라우드 스토리지에 중앙화하며 총 스토리지 용량을 1.5PB 수준에서 45TB로 막대하게 줄이는데 성공했다. 50GB 규모의 게임 빌드를 타 사무실로 전송하는 활동 역시 기존에는 10시간 가량이 걸렸지만, 빌드의 변경 내용만을 전송하는 방식으로 바뀌며 수 분 만에 완료할 수 있게 됐다.
 

- NAS 수준의 민감성: 파일 디렉토리 브라우징 역시 NAS 수준의 반응성을 보장할 수 있어야 한다. 이를 위해선 활성 데이터가 로컬 영역에 캐시 저장되어야 하며, (캐시 파일 뿐 아니라) 모든 파일들의 메타데이터 역시 모든 지점에서 SSD에 캐시 저장돼야 한다.

전체 파일의 5% 미만이 로컬 영역에 캐시 저장된 상황에서도 사용자가 전체 파일 시스템 내 모든 파일들에 대한 완전한 설명을 열람할 수 있기 위해선 SSD의 존재가 필수적으로 요구된다.

사용자가 네트워크 드라이브 내 파일과 폴더들을 오가는 상황에서, 시스템은 사용자에게 모든 파일들이 그곳에 존재한다는 ‘느낌’을 줄 수 있어야 한다. 파일 메타데이터 가운데는 파일명과 함께 표시되는 것들이 있고, 또 파일 잠금의 경우 그것의 로컬 캐시 저장 여부와 무관하게 어떤 경우에나 동시적으로 이뤄져야 하기에, 메타데이터에 대한 접근은 언제나 가능한 빠르게 이뤄져야 한다.

모든 파일 메타데이터가 캐시에 저장되지 않은 경우 사용자는 자신의 컴퓨터 혹은 네트워크 자체가 느려졌다는 인상을 받게 된다. 폴더 탐색은 사용자들이 이용하는 가장 기본적인 기능이기 때문이다.

- ‘무거운’ 애플리케이션 지원: 애플리케이션을 사용할 때 여러 공간에서 사용하더라도 마치 한 공간에서 사용하는 것처럼 가볍고 빠르게 실행되길 원하기 마련이다.

하지만 CAD, PLM, BIM과 같은 많은 기술적 애플리케이션들은 매우 무거운 편으로, 로컬 NAS 환경에서도 열고, 저장하거나 파일을 동기화하는 데 30초 가량 걸리며 클라우드에서는 20분 넘게 걸린다. 이것이 대역폭 문제인줄 아는 사람도 많지만 사실 이는 애플리케이션이 너무 무겁기 때문에 발생하는 문제다.

일례로 CAD 애플리케이션의 경우 파일 하나를 열기 전에만 약 1만 6,000개의 순차 동작이 선행되어야 한다. 만일 인증 카피(authoritative copy)가 동일 LAN상에 있을 경우 파일 락(file lock)이 0.5 ms밖에 안 되므로 파일을 여는 시간은 8초밖에 걸리지 않는다(1만 6,000x0.5ms).

그러나 WAN 상에서 이처럼 무거운 애플리케이션들은 엄청난 지연을 유발한다. 시라큐스(Syracuse)에 중앙화 되어 있는 파일을 샌디에고에서 열었다면 파일 락은 샌디에고에서 시라큐스까지의 트립 래턴시(trop latency) 근사치인 86ms이므로 파일을 열기까지 1만 6,000x86ms, 즉 약 22분이 소요된다. 실제 데이터 전송이 이루어지는 시간은 그 22분 중 찰나에 불과하다.




2015.07.20

벤더 기고 | 클라우드로 NAS 대체하려면?··· '8가지 조건'

Randy Chou | Network World

클라우드 스토리지가 비정형 데이터를 담을 만큼 유용해지기 위해서는 기업 스토리지들과 동등한 수준의 유연성과 퍼포먼스, 생산성을 보장할 수 있어야 했다.



클라우드 스토리지의 경제성과 확장성, 관리 유연성은, 아무리 큰 규모의 데이터센터도 따라잡을 수 없는 수준까지 올라갔다.

AWS, 구글, 애저 등의 하이퍼스케일 클라우드 스토리지 공급자들은 지난 한 해에만 서비스 비용을 65% 인하했고, 앞으로도 무어의 법칙을 능가하는 가격 하락이 진행될 것임을 예고했다.

신뢰도에 있어서도 발전은 놀라운 수준으로 이뤄지고 있다. AWS의 경우 11개의 9에 해당하는 신뢰도를 보장하는데, 이는 아마존 S3에 1만 개의 객체을 저장할 경우 매 1,000만년 당 한 개 꼴로 손실이 발생하는 수준의 신뢰도다. 아마존 S3는 또 객체를 복수 설비의 복수 기기에 저장하는 이중 데이터 손실 방지책 역시 적용하고 있다.

아쉬운 점이라면, 최근까지 클라우드 스토리지는 실사용 데이터들보다는, 활용되지 않는 데이터를 저장하는 상황에만 주로 이용돼 왔다는 부분이다. 그 용량과 비용에 있어선 분명한 메리트가 있었지만, 제공하는 퍼포먼스는 로컬 스토리지에 미치지 못했기 때문이다.

비정형 데이터의 저장소로써 클라우드 스토리지가 유용성을 갖추려면, 기업 스토리지들과 동등한 수준의 유연성과 퍼포먼스, 생산성을 보장할 수 있어야 했다. 가격 경쟁력은 분명 매력적인 장점이지만, 이외의 기능성을 정당화할 수준에 이르지 못했다.

클라우드가 활성 데이터와 비활성 데이터 모두를 다루기 위해서는 이미 기업 내부에 탄탄히 자리잡은 로컬 필터들과 동등한, 혹은 그것을 능가하는 역량을 증명해야 한다. 이를 위한 세부적인 요구 조건 8가지는 다음과 같다:

- 로컬 캐시 저장: 사용자들에게 LAN과의 차이가 느껴지지 않는 접속 시장을 보장하기 위해서는, 비활성 데이터의 경우 클라우드에 저장되어 있더라도 활성 데이터는 로컬 영역에 캐시 저장되어 있어야 한다.

사실 대부분의 데이터는 사용자들이 자주 접근하는 것들이 아니다. 따라서 클라우드 환경이 부족할 것도 없다. 하지만 일부의 활성 데이터의 경우에는 사용자와 가까운 곳에 위치해 있어야 한다. 파일 사용에 기반한 기계 학습, ‘고정 폴더(pinned folder)’. 또는 이 둘의 하이브리드 방식을 활용하면 필요한 파일들이 로컬 영역에 캐시 저장되고 나머지 사용 빈도가 적은 파일들은 클라우드로 이전되도록 할 수 있다.

- 글로벌 중복제거: 글로벌 중복 제거는 오직 하나의 고유한 데이터 블록만이 클라우드에 저장되고 로컬 영역에 캐시 저장되는 것을 보장하는 과정이다. 다수의 파일에 거쳐 블록들의 공통성이 존재하는 상황에서 글로벌 중복제거는 클라우드에 저장된 데이터의 양을 줄여주고, 또 변경 내용만을 저장, 전송함으로써 클라우드와 로컬 캐시 간에 전송되는 데이터의 양 역시 줄여준다.

일례로 일렉트로닉 아츠(Electronic Arts)의 경우 그들의 데이터를 클라우드 스토리지에 중앙화하며 총 스토리지 용량을 1.5PB 수준에서 45TB로 막대하게 줄이는데 성공했다. 50GB 규모의 게임 빌드를 타 사무실로 전송하는 활동 역시 기존에는 10시간 가량이 걸렸지만, 빌드의 변경 내용만을 전송하는 방식으로 바뀌며 수 분 만에 완료할 수 있게 됐다.
 

- NAS 수준의 민감성: 파일 디렉토리 브라우징 역시 NAS 수준의 반응성을 보장할 수 있어야 한다. 이를 위해선 활성 데이터가 로컬 영역에 캐시 저장되어야 하며, (캐시 파일 뿐 아니라) 모든 파일들의 메타데이터 역시 모든 지점에서 SSD에 캐시 저장돼야 한다.

전체 파일의 5% 미만이 로컬 영역에 캐시 저장된 상황에서도 사용자가 전체 파일 시스템 내 모든 파일들에 대한 완전한 설명을 열람할 수 있기 위해선 SSD의 존재가 필수적으로 요구된다.

사용자가 네트워크 드라이브 내 파일과 폴더들을 오가는 상황에서, 시스템은 사용자에게 모든 파일들이 그곳에 존재한다는 ‘느낌’을 줄 수 있어야 한다. 파일 메타데이터 가운데는 파일명과 함께 표시되는 것들이 있고, 또 파일 잠금의 경우 그것의 로컬 캐시 저장 여부와 무관하게 어떤 경우에나 동시적으로 이뤄져야 하기에, 메타데이터에 대한 접근은 언제나 가능한 빠르게 이뤄져야 한다.

모든 파일 메타데이터가 캐시에 저장되지 않은 경우 사용자는 자신의 컴퓨터 혹은 네트워크 자체가 느려졌다는 인상을 받게 된다. 폴더 탐색은 사용자들이 이용하는 가장 기본적인 기능이기 때문이다.

- ‘무거운’ 애플리케이션 지원: 애플리케이션을 사용할 때 여러 공간에서 사용하더라도 마치 한 공간에서 사용하는 것처럼 가볍고 빠르게 실행되길 원하기 마련이다.

하지만 CAD, PLM, BIM과 같은 많은 기술적 애플리케이션들은 매우 무거운 편으로, 로컬 NAS 환경에서도 열고, 저장하거나 파일을 동기화하는 데 30초 가량 걸리며 클라우드에서는 20분 넘게 걸린다. 이것이 대역폭 문제인줄 아는 사람도 많지만 사실 이는 애플리케이션이 너무 무겁기 때문에 발생하는 문제다.

일례로 CAD 애플리케이션의 경우 파일 하나를 열기 전에만 약 1만 6,000개의 순차 동작이 선행되어야 한다. 만일 인증 카피(authoritative copy)가 동일 LAN상에 있을 경우 파일 락(file lock)이 0.5 ms밖에 안 되므로 파일을 여는 시간은 8초밖에 걸리지 않는다(1만 6,000x0.5ms).

그러나 WAN 상에서 이처럼 무거운 애플리케이션들은 엄청난 지연을 유발한다. 시라큐스(Syracuse)에 중앙화 되어 있는 파일을 샌디에고에서 열었다면 파일 락은 샌디에고에서 시라큐스까지의 트립 래턴시(trop latency) 근사치인 86ms이므로 파일을 열기까지 1만 6,000x86ms, 즉 약 22분이 소요된다. 실제 데이터 전송이 이루어지는 시간은 그 22분 중 찰나에 불과하다.


X