2019.05.15

칼럼 | 클라우드 사업자가 말하는 가용성과 실제 서비스 중단 시간

Zeus Kerravala | Network World
오늘날 클라우드의 가동시간은 매우 중요하지만, 업체가 제공하는 데이터는 혼란스럽다. 3대 클라우드 서비스를 비교 분석해 본다.

많은 기업에 클라우드는 그저 중요한 정도가 아니라 이른바 ‘미션 크리티컬한’ 존재이다. 점점 더 많은 IT 책임자와 사업 책임자가 퍼블릭 클라우드를 자사 디지털 트랜스포메이션 전략의 핵심 구성요소로 여기고 있으며, 퍼블릭 클라우드를 하이브리드 클라우드의 일부로 또는 온전히 퍼블릭 클라우드로 사용한다.

클라우드의 서비스 중단 사태는 이제 기업의 핵심 서비스가 중단되는 것을 의미하며, 이 때문에 클라우드의 안정성에 대한 기준 역시 높아졌다. 따라서 클라우드 구매자에게는 클라우드 서비스 업체의 안정성을 나타내는 수치를 정확하게 파악하는 것이 중요하다. 문제는 클라우드 서비스 업체가 일관성 있는 방식으로 관련 정보를 공개하지 않는다는 것. 실제로 일부 수치는 의미있는 결정을 하기 어려울 정도로 혼란스럽다.
 
ⓒGettyImagesBank
 

실제 서비스 중단 시간과 표시된 중단 시간

마이크로소프트 애저와 구글 클라우드 플랫폼(GCP)은 모두 전형적인 날짜와 시간 정보를 제공하지만, 영향을 받은 서비스와 지역의 개략적인 데이터만 제공한다. 문제는 이런 정보로는 전반적인 안정성을 알기 어렵다는 것. 예를 들어, 만약 애저 클라우드에 세 개 리전의 다섯 가지 서비스에 영향을 미친 1시간의 서비스 중단이 있었다면, 웹 사이트는 그저 1시간의 서비스 중단이라고 표시한다. 사실 총 15시간의 서비스 중단이라고 봐야 한다.

애저와 GCP, AWS 중에서는 애저가 상세한 정보를 가장 적게 제공한다. GCP는 서비스 수준의 상세 정보를 제공해 더 낫지만, 지역 정보는 잘 알려주지 않는 경향이 있다. 때로는 어떤 서비스를 사용할 수 없는지 명확하게 하지만, 그렇지 않을 때도 있다.

AWS가 가장 세밀한 보고서를 제공하는데, 모든 지역 모든 서비스를 보여준다. 만약 장애가 발생해 세 가지 서비스에 영향을 미친다면, 세 가지 서비스 모두 이용 불가로 표시된다. 중단 시간이 1시간이라면, AWS는 전체를 계산해 3시간으로 표시한다.

서비스 중단 이력 데이터의 양도 클라우드 서비스 업체마다 다르다. 한때는 세 업체 모두 1년간의 서비스 중단 인력을 보여줬는데, 애저는 언제부터인가 90일간의 데이터만 보여준다. GCP와 AWS는 여전히 1년 데이터를 보여준다.
 

업체별 서비스 중단 시간 비교

그렇다면, 셋 중 어느 업체의 서비스 중단 시간이 가장 긴가? 여기에 대한 답을 얻기 위해 필자는 각 업체의 웹 사이트에서 직접 서비스 중단 시간 정보를 지속적으로 수집한 서드파티 업체를 이용했다. 또한 필자도 따로 정보를 검토해 정확성을 확인했다. 각 업체가 보고한 수치를 기반으로 2018년 5월 3일부터 따져보면, AWS가 338시간으로 가장 적었고, GCP가 361시간으로 뒤를 이었다. 마이크로소프트 애저는 무려 1,934시간을 기록했다.
 
ⓒ Zeus Kerravala

이 수치에서 유의해야 할 점이 있다. 각 업체가 자사 웹 사이트에 보고한 데이터를 모은 것으로, 때때로 지역 정보나 서비스 상세 정보가 부족하기 때문에 아주 정확한 수치는 아니다. 만약 하나의 서비스가 한 시간 동안 중단되었다면, 1시간으로 보고된다. 하지만 다섯 개 리전에 걸친 장애였다면, 5시간으로 표시해야 맞다. 하지만 여기서는 이를 1시간으로 계산했는데, 각 업체가 직접 보고한 데이터이기 때문이다.

이런 맥락에서 보면, 수치는 지역 정보를 공개하지 않는 마이크로소프트에 가장 유리하고, 가장 자세한 정보를 공개하는 AWS에 가장 불리하다. AWS는 가장 많은 지역에서 가장 많은 수의 서비스를 제공한다는 점에서 장애 가능성도 그만큼 크다.

데이터를 일반화하는 방법도 생각해 봤지만, 서비스 중단 시간을 서비스별로 지역별로 나누는 데 엄청난 시간이 필요해 다음을 기약해야만 했다. 하지만 각 서비스 업체가 보고한 데이터도 비교 성능을 확인하는 좋은 지표이다.

또 하나, 이 수치는 어디까지나 IaaS의 중단 시간만을 계산한 것이다. 만약 구글 스트리트뷰나 빙 지도는 장애가 나도 기업들이 개의치 않는다. 따라서 이들 수치는 포함하지 않았다.
 

SLA와 안정성의 연관성

오늘날 클라우드 서비스의 중요성을 고려하면, 모든 클라우드 서비스 업체가 12개월의 총 서비스 중단 시간을 자사 웹 사이트에 게시해 고객의 일대일로 비교할 수 있어야 한다. 물론 기업이 클라우드 서비스 업체를 결정하는 유일한 요소는 아니지만, 중요한 요소 중 하나임은 분명하다.

또한 클라우드 서비스 구매자라면, SLA와 서비스 중단 시간 간의 크나큰 차이를 알아야 한다. 클라우드 서비스 업체는 고객이 원하는 것을 모두, 심지어 100% SLA도 약속할 수 있지만, 이는 서비스를 이용할 수 없을 때 보상하기 위한 수단일 뿐이다. 필자가 만나본 IT 책임자 대부분은 클라우드 서비스 중단으로 받는 보상금은 실제로 입은 피해의 극히 일부에 불과하다고 지적했다.
 

쉬운 결정과 후회할만한 결과

클라우드 서비스 업체를 선택할 때 중요한 것은 편한 대로 쉽게 결정을 내려서는 안된다는 것이다. 많은 기업이 애저 클라우드를 고려하는데, 마이크로소프트가 기업 계약의 일환으로 애저 크레딧을 주기 때문이다. 필자는 이런 식으로 클라우드 서비스를 선택한 기업 몇 곳을 인터뷰했는데, 가용성에 실망해 다른 클라우드 서비스 업체로 옮겼다고 밝혔다.

마이크로소프트 애저를 사용하지 말하는 의미가 아니다. 필요한 서비스가 해당 지역에서 그동안 어떻게 서비스되었는지 정확하게 아는 것이 중요하다. 업체가 제공하는 정보는 전체를 말해주지 않는다. 따라서 어떤 서비스를 구매하는지 확실히 하기 위한 실사를 진행하는 것이 필요하다.  editor@itworld.co.kr



2019.05.15

칼럼 | 클라우드 사업자가 말하는 가용성과 실제 서비스 중단 시간

Zeus Kerravala | Network World
오늘날 클라우드의 가동시간은 매우 중요하지만, 업체가 제공하는 데이터는 혼란스럽다. 3대 클라우드 서비스를 비교 분석해 본다.

많은 기업에 클라우드는 그저 중요한 정도가 아니라 이른바 ‘미션 크리티컬한’ 존재이다. 점점 더 많은 IT 책임자와 사업 책임자가 퍼블릭 클라우드를 자사 디지털 트랜스포메이션 전략의 핵심 구성요소로 여기고 있으며, 퍼블릭 클라우드를 하이브리드 클라우드의 일부로 또는 온전히 퍼블릭 클라우드로 사용한다.

클라우드의 서비스 중단 사태는 이제 기업의 핵심 서비스가 중단되는 것을 의미하며, 이 때문에 클라우드의 안정성에 대한 기준 역시 높아졌다. 따라서 클라우드 구매자에게는 클라우드 서비스 업체의 안정성을 나타내는 수치를 정확하게 파악하는 것이 중요하다. 문제는 클라우드 서비스 업체가 일관성 있는 방식으로 관련 정보를 공개하지 않는다는 것. 실제로 일부 수치는 의미있는 결정을 하기 어려울 정도로 혼란스럽다.
 
ⓒGettyImagesBank
 

실제 서비스 중단 시간과 표시된 중단 시간

마이크로소프트 애저와 구글 클라우드 플랫폼(GCP)은 모두 전형적인 날짜와 시간 정보를 제공하지만, 영향을 받은 서비스와 지역의 개략적인 데이터만 제공한다. 문제는 이런 정보로는 전반적인 안정성을 알기 어렵다는 것. 예를 들어, 만약 애저 클라우드에 세 개 리전의 다섯 가지 서비스에 영향을 미친 1시간의 서비스 중단이 있었다면, 웹 사이트는 그저 1시간의 서비스 중단이라고 표시한다. 사실 총 15시간의 서비스 중단이라고 봐야 한다.

애저와 GCP, AWS 중에서는 애저가 상세한 정보를 가장 적게 제공한다. GCP는 서비스 수준의 상세 정보를 제공해 더 낫지만, 지역 정보는 잘 알려주지 않는 경향이 있다. 때로는 어떤 서비스를 사용할 수 없는지 명확하게 하지만, 그렇지 않을 때도 있다.

AWS가 가장 세밀한 보고서를 제공하는데, 모든 지역 모든 서비스를 보여준다. 만약 장애가 발생해 세 가지 서비스에 영향을 미친다면, 세 가지 서비스 모두 이용 불가로 표시된다. 중단 시간이 1시간이라면, AWS는 전체를 계산해 3시간으로 표시한다.

서비스 중단 이력 데이터의 양도 클라우드 서비스 업체마다 다르다. 한때는 세 업체 모두 1년간의 서비스 중단 인력을 보여줬는데, 애저는 언제부터인가 90일간의 데이터만 보여준다. GCP와 AWS는 여전히 1년 데이터를 보여준다.
 

업체별 서비스 중단 시간 비교

그렇다면, 셋 중 어느 업체의 서비스 중단 시간이 가장 긴가? 여기에 대한 답을 얻기 위해 필자는 각 업체의 웹 사이트에서 직접 서비스 중단 시간 정보를 지속적으로 수집한 서드파티 업체를 이용했다. 또한 필자도 따로 정보를 검토해 정확성을 확인했다. 각 업체가 보고한 수치를 기반으로 2018년 5월 3일부터 따져보면, AWS가 338시간으로 가장 적었고, GCP가 361시간으로 뒤를 이었다. 마이크로소프트 애저는 무려 1,934시간을 기록했다.
 
ⓒ Zeus Kerravala

이 수치에서 유의해야 할 점이 있다. 각 업체가 자사 웹 사이트에 보고한 데이터를 모은 것으로, 때때로 지역 정보나 서비스 상세 정보가 부족하기 때문에 아주 정확한 수치는 아니다. 만약 하나의 서비스가 한 시간 동안 중단되었다면, 1시간으로 보고된다. 하지만 다섯 개 리전에 걸친 장애였다면, 5시간으로 표시해야 맞다. 하지만 여기서는 이를 1시간으로 계산했는데, 각 업체가 직접 보고한 데이터이기 때문이다.

이런 맥락에서 보면, 수치는 지역 정보를 공개하지 않는 마이크로소프트에 가장 유리하고, 가장 자세한 정보를 공개하는 AWS에 가장 불리하다. AWS는 가장 많은 지역에서 가장 많은 수의 서비스를 제공한다는 점에서 장애 가능성도 그만큼 크다.

데이터를 일반화하는 방법도 생각해 봤지만, 서비스 중단 시간을 서비스별로 지역별로 나누는 데 엄청난 시간이 필요해 다음을 기약해야만 했다. 하지만 각 서비스 업체가 보고한 데이터도 비교 성능을 확인하는 좋은 지표이다.

또 하나, 이 수치는 어디까지나 IaaS의 중단 시간만을 계산한 것이다. 만약 구글 스트리트뷰나 빙 지도는 장애가 나도 기업들이 개의치 않는다. 따라서 이들 수치는 포함하지 않았다.
 

SLA와 안정성의 연관성

오늘날 클라우드 서비스의 중요성을 고려하면, 모든 클라우드 서비스 업체가 12개월의 총 서비스 중단 시간을 자사 웹 사이트에 게시해 고객의 일대일로 비교할 수 있어야 한다. 물론 기업이 클라우드 서비스 업체를 결정하는 유일한 요소는 아니지만, 중요한 요소 중 하나임은 분명하다.

또한 클라우드 서비스 구매자라면, SLA와 서비스 중단 시간 간의 크나큰 차이를 알아야 한다. 클라우드 서비스 업체는 고객이 원하는 것을 모두, 심지어 100% SLA도 약속할 수 있지만, 이는 서비스를 이용할 수 없을 때 보상하기 위한 수단일 뿐이다. 필자가 만나본 IT 책임자 대부분은 클라우드 서비스 중단으로 받는 보상금은 실제로 입은 피해의 극히 일부에 불과하다고 지적했다.
 

쉬운 결정과 후회할만한 결과

클라우드 서비스 업체를 선택할 때 중요한 것은 편한 대로 쉽게 결정을 내려서는 안된다는 것이다. 많은 기업이 애저 클라우드를 고려하는데, 마이크로소프트가 기업 계약의 일환으로 애저 크레딧을 주기 때문이다. 필자는 이런 식으로 클라우드 서비스를 선택한 기업 몇 곳을 인터뷰했는데, 가용성에 실망해 다른 클라우드 서비스 업체로 옮겼다고 밝혔다.

마이크로소프트 애저를 사용하지 말하는 의미가 아니다. 필요한 서비스가 해당 지역에서 그동안 어떻게 서비스되었는지 정확하게 아는 것이 중요하다. 업체가 제공하는 정보는 전체를 말해주지 않는다. 따라서 어떤 서비스를 구매하는지 확실히 하기 위한 실사를 진행하는 것이 필요하다.  editor@itworld.co.kr

X