2011.04.27

클라우드 리스크 관리 ‘6가지 가이드라인’

Stephanie Overby | CIO

CIO들이 IaaS(Infrastructure-as-a-Service) 모델에 대해 가장 크게 걱정하는 부분 중 하나는 여러 기업들이 공유하는 환경으로 이전했을 때 자산이나 관리에 대한 통제권을 잃지 않을까 하는 점이다.
 

애널리스트나 IaaS 조기 도입 기업들은 이런 생각이 사실보다는 두려움에 기인하고 있다고 주장한다. 그러나 최근 아마존의 퍼블릭 데이터 센터가 문제를 일으키면서 퍼블릭 클라우드의 신뢰성에 의문이 대두되고 있다.

이틀 동안의 정전 사태가 클라우드 컴퓨팅의 장기 성장 가능성을 크게 해치지는 않을 것으로 보인다. 그러나 IT 부문의 책임자들이 잠시 시간을 두고 이 문제를 살피도록 할 만한 충분한 이유를 제공하고 있다. 새로운 클라우드 인프라스트럭처를 도입하기 앞서, IaaS 실패에 따른 위험을 줄이기 위해서는 다음의 7가지 단계를 따를 필요가 있다.

1. 실패에 대한 계획
클라우드에 문제가 생겼을 때를 미리 감안해 시나리오를 세부적으로 개발하고, 복구를 위한 리허설을 해봐야 한다. 아웃소싱 분석 기업인 HfS 리서치를 설립한 필 퍼슈트는 "클라우드 환경으로 이전하기 전, 확실한 위험 경감 대책을 마련해야 한다"라고 충고했다.

API 관리 서비스 제공기업인 마셔리의 엔지니어링 및 운영 부문 히더 맥켈비 VP도 이런 의견에 공감했다. 그녀는 "많은 사람들이 '일단 운영을 한 상태에서 시스템 대체 작동을 위한 설계를 하면 된다'고 생각한다. 하지만 그렇게 할 수 없다”라고 말했다.

이어 “또 특정 클라우드를 다른 클라우드 환경에서, 또는 특정 데이터 센터를 다른 데이터 센터에서 대체 작동할 수 있다고 가정하는 사람들도 있다. 그러나 문제 발생 형태가 다를 수 있다. 따라서 시스템의 모든 고장 수준에 맞춰 설계를 하고 구축을 해야 한다"라고 강조했다.

2. 내부 전문가 확보 
클라우드소싱(cloudsourcing)의 장점 중 하나는 '서비스로서의(as-a-service)' 기반이나 플랫폼 등을 지원하는 기술에 대해 내부적으로 지식 자원을 확보할 필요가 없다는 점이다. 그러나 클라우드에 문제가 발생해 이에 대처하거나 이를 준비할 필요가 있을 때는 내부 인력의 노하우가 도움이 된다. 퍼슈트는 이와 관련, "CIO들은 클라우드를 지탱해줄 내부 지식을 늘리는 게 좋다"라고 말했다.

내부적인 역량이 부족하다면 공급업체에 도움을 요청하거나, 컨설턴트들을 고용해 긴급복구와 비즈니스 영속 계획을 수립하는 것을 고려해 봐야 한다. 퍼슈트는 "장기간 가동 중단 사태가 발생하는 잠재적인 위험을 없애야 한다. 이를 위해 약간의 금액을 투자함으로써 제3자로 하여금 위험을 관리하게 하는 것이 결과적으로 이득일 수 있다"라고 덧붙였다.

3. 계획을 점검, 또 점검 
B2B 광고망 제공업체로 아마존 웹 서비스의 고객이기도 한 비조(Bizo)의 도널드 플러드 엔지니어링 부문 VP는 "클라우드는 완벽하게 단계화된(staged) 환경에서 고장을 시험해보기에 탁월한 장소다"라고 말했다.

"예를 들어 구동 중인 서비스를 죽이고 고장 발생시 시스템 운영방법을 평가하는 방식으로 생산과정을 반영하고 시스템을 테스트 하는 단계화 된 환경을 아주 쉽게 만들 수 있다"라는 설명이다.

4. 내부적인 백업 방안 수립
노스 버지니아에 위치한 데이터 센터에 문제가 발생했을 때, 아마존이 그 이유를 파악하고 바로 잡기까지 대략 2일이 걸렸다. 그러나 아마존 EC2(Elastic Cloud Compute)의 고객인 미국 테니스 협회(U.S Tennis Association)의 래리 보나판트 CIO는 자신들의 애플리케이션이 느려진걸 알아채자마자 중요한 시스템들을 내부 서버로 이전을 했다. 보나판트 CIO는 이와 관련해 IT를 책임지고 있는 사람들은 내부적으로 우발사태에 대처할 수 있는 역량을 확보하고 유지해야 한다고 충고했다.

5. 소싱 전략 재평가
IT 리더들은 멀티 소싱 전략을 활용하고 있다. 그러나 이 모델은 클라우드 연속성에 문제를 초래할 수도 있다. 퍼슈트는 "가동 중단에 따른 도미노 파급효과를 관리하고 해소하는 것은 아주 복잡하다"라고 설명했다. 예를 들어 클라우드 컴퓨팅 기반에 더 많은 서비스를 구축할 수록 겉으로는 연관이 없어 보이는 가동 중단 사태가 도미노 현상을 일으키며 많은 서비스나 전체 애플리케이션 환경을 무너뜨릴 수 있다고 그는 지적했다.

특정 서비스 통합 업체로 하여금 멀티소싱 환경을 책임지도록 해 문제 발생 시에 해결을 일원화할 수 있다. 그러나 이런 방식에는 단점이 있을 수도 있다. 퍼슈트는 "이들은 고객의 IT 프로세스에 규격화된 지식을 개발할 가능성이 높다. 이는 건전하고 경쟁적인 환경 유지를 위해 미래에 환경을 이전할 때 이를 아주 어렵게 만들 수도 있다. 따라서 기업 내부의 IT 인력들이 클라우드에 대해 더 많은 지식을 확보하도록 해야 한다. 그렇지 않다면 스스로의 IT 환경에 대한 통제력을 잃어버릴 위험이 있다"라고 설명했다.

6. 싼게 비지떡
중복 투자는 클라우드가 붕괴하는 시나리오 상에서 빛을 발한다. 이번 아마존 사태에 영향을 받은 기업들 중 상당수는 클라우드에서 병렬 시스템을 운영할 수 있도록 충분한 투자를 하지 않은 기업들이다.

반면 아마존 웹 서비스의 주요 고객인 넷플릭스(Netflix)는 별다른 피해를 입지 않았다. 클라우드 컴퓨팅 모델을 수립할 때 아마존의 4개 데이터센터 중 한 곳에 문제가 생길 경우를 가정했기 때문이다.

이와 관련, 넷플릭스의 홍보 책임자는 뉴욕 타임즈와의 인터뷰에서 "넷플릭스는 아마존 웹 서비스의 중복 클라우드 아키텍처 서비스의 장점을 십분 활용하고 있다"라고 말하기도 했다.

클라우드 관리 벤더인 라이트스케일의 공동 설립자이자 CTO인 쏘스텐 본 아이켄에 따르면, 중요한 데이터라면 여러 데이터 센터에 복제를 해둬야 하고, 전 지역에 걸쳐 항상 백업을 하거나 복제 상태를 유지해야 한다. 또 지역별로 서버를 분산해야 하고, 특정 데이터 센터가 붕괴하더라도 지역을 바꿀 수 있는 역량을 확보해야 한다. 

그는 "물론 이를 위해서는 비용이 든다. 따라서 서비스 별로 이런 비용에 대한 투자가 적합한지 판단을 내려야 한다"라고 덧붙였다.

7. 공급업체에 책임 부과
클라우드 벤더와 계약을 맺을 때는 가동 중단과 서비스 수준을 연계하는 약정을 포함해야 한다. 퍼슈트는 이와 관련, "클라우드 제공업체에 하도급을 준다면, 이러한 가동중단에 책임을 지도록 확실히 해야 한다"라고 강조했다. ciokr@idg.co.kr




2011.04.27

클라우드 리스크 관리 ‘6가지 가이드라인’

Stephanie Overby | CIO

CIO들이 IaaS(Infrastructure-as-a-Service) 모델에 대해 가장 크게 걱정하는 부분 중 하나는 여러 기업들이 공유하는 환경으로 이전했을 때 자산이나 관리에 대한 통제권을 잃지 않을까 하는 점이다.
 

애널리스트나 IaaS 조기 도입 기업들은 이런 생각이 사실보다는 두려움에 기인하고 있다고 주장한다. 그러나 최근 아마존의 퍼블릭 데이터 센터가 문제를 일으키면서 퍼블릭 클라우드의 신뢰성에 의문이 대두되고 있다.

이틀 동안의 정전 사태가 클라우드 컴퓨팅의 장기 성장 가능성을 크게 해치지는 않을 것으로 보인다. 그러나 IT 부문의 책임자들이 잠시 시간을 두고 이 문제를 살피도록 할 만한 충분한 이유를 제공하고 있다. 새로운 클라우드 인프라스트럭처를 도입하기 앞서, IaaS 실패에 따른 위험을 줄이기 위해서는 다음의 7가지 단계를 따를 필요가 있다.

1. 실패에 대한 계획
클라우드에 문제가 생겼을 때를 미리 감안해 시나리오를 세부적으로 개발하고, 복구를 위한 리허설을 해봐야 한다. 아웃소싱 분석 기업인 HfS 리서치를 설립한 필 퍼슈트는 "클라우드 환경으로 이전하기 전, 확실한 위험 경감 대책을 마련해야 한다"라고 충고했다.

API 관리 서비스 제공기업인 마셔리의 엔지니어링 및 운영 부문 히더 맥켈비 VP도 이런 의견에 공감했다. 그녀는 "많은 사람들이 '일단 운영을 한 상태에서 시스템 대체 작동을 위한 설계를 하면 된다'고 생각한다. 하지만 그렇게 할 수 없다”라고 말했다.

이어 “또 특정 클라우드를 다른 클라우드 환경에서, 또는 특정 데이터 센터를 다른 데이터 센터에서 대체 작동할 수 있다고 가정하는 사람들도 있다. 그러나 문제 발생 형태가 다를 수 있다. 따라서 시스템의 모든 고장 수준에 맞춰 설계를 하고 구축을 해야 한다"라고 강조했다.

2. 내부 전문가 확보 
클라우드소싱(cloudsourcing)의 장점 중 하나는 '서비스로서의(as-a-service)' 기반이나 플랫폼 등을 지원하는 기술에 대해 내부적으로 지식 자원을 확보할 필요가 없다는 점이다. 그러나 클라우드에 문제가 발생해 이에 대처하거나 이를 준비할 필요가 있을 때는 내부 인력의 노하우가 도움이 된다. 퍼슈트는 이와 관련, "CIO들은 클라우드를 지탱해줄 내부 지식을 늘리는 게 좋다"라고 말했다.

내부적인 역량이 부족하다면 공급업체에 도움을 요청하거나, 컨설턴트들을 고용해 긴급복구와 비즈니스 영속 계획을 수립하는 것을 고려해 봐야 한다. 퍼슈트는 "장기간 가동 중단 사태가 발생하는 잠재적인 위험을 없애야 한다. 이를 위해 약간의 금액을 투자함으로써 제3자로 하여금 위험을 관리하게 하는 것이 결과적으로 이득일 수 있다"라고 덧붙였다.

3. 계획을 점검, 또 점검 
B2B 광고망 제공업체로 아마존 웹 서비스의 고객이기도 한 비조(Bizo)의 도널드 플러드 엔지니어링 부문 VP는 "클라우드는 완벽하게 단계화된(staged) 환경에서 고장을 시험해보기에 탁월한 장소다"라고 말했다.

"예를 들어 구동 중인 서비스를 죽이고 고장 발생시 시스템 운영방법을 평가하는 방식으로 생산과정을 반영하고 시스템을 테스트 하는 단계화 된 환경을 아주 쉽게 만들 수 있다"라는 설명이다.

4. 내부적인 백업 방안 수립
노스 버지니아에 위치한 데이터 센터에 문제가 발생했을 때, 아마존이 그 이유를 파악하고 바로 잡기까지 대략 2일이 걸렸다. 그러나 아마존 EC2(Elastic Cloud Compute)의 고객인 미국 테니스 협회(U.S Tennis Association)의 래리 보나판트 CIO는 자신들의 애플리케이션이 느려진걸 알아채자마자 중요한 시스템들을 내부 서버로 이전을 했다. 보나판트 CIO는 이와 관련해 IT를 책임지고 있는 사람들은 내부적으로 우발사태에 대처할 수 있는 역량을 확보하고 유지해야 한다고 충고했다.

5. 소싱 전략 재평가
IT 리더들은 멀티 소싱 전략을 활용하고 있다. 그러나 이 모델은 클라우드 연속성에 문제를 초래할 수도 있다. 퍼슈트는 "가동 중단에 따른 도미노 파급효과를 관리하고 해소하는 것은 아주 복잡하다"라고 설명했다. 예를 들어 클라우드 컴퓨팅 기반에 더 많은 서비스를 구축할 수록 겉으로는 연관이 없어 보이는 가동 중단 사태가 도미노 현상을 일으키며 많은 서비스나 전체 애플리케이션 환경을 무너뜨릴 수 있다고 그는 지적했다.

특정 서비스 통합 업체로 하여금 멀티소싱 환경을 책임지도록 해 문제 발생 시에 해결을 일원화할 수 있다. 그러나 이런 방식에는 단점이 있을 수도 있다. 퍼슈트는 "이들은 고객의 IT 프로세스에 규격화된 지식을 개발할 가능성이 높다. 이는 건전하고 경쟁적인 환경 유지를 위해 미래에 환경을 이전할 때 이를 아주 어렵게 만들 수도 있다. 따라서 기업 내부의 IT 인력들이 클라우드에 대해 더 많은 지식을 확보하도록 해야 한다. 그렇지 않다면 스스로의 IT 환경에 대한 통제력을 잃어버릴 위험이 있다"라고 설명했다.

6. 싼게 비지떡
중복 투자는 클라우드가 붕괴하는 시나리오 상에서 빛을 발한다. 이번 아마존 사태에 영향을 받은 기업들 중 상당수는 클라우드에서 병렬 시스템을 운영할 수 있도록 충분한 투자를 하지 않은 기업들이다.

반면 아마존 웹 서비스의 주요 고객인 넷플릭스(Netflix)는 별다른 피해를 입지 않았다. 클라우드 컴퓨팅 모델을 수립할 때 아마존의 4개 데이터센터 중 한 곳에 문제가 생길 경우를 가정했기 때문이다.

이와 관련, 넷플릭스의 홍보 책임자는 뉴욕 타임즈와의 인터뷰에서 "넷플릭스는 아마존 웹 서비스의 중복 클라우드 아키텍처 서비스의 장점을 십분 활용하고 있다"라고 말하기도 했다.

클라우드 관리 벤더인 라이트스케일의 공동 설립자이자 CTO인 쏘스텐 본 아이켄에 따르면, 중요한 데이터라면 여러 데이터 센터에 복제를 해둬야 하고, 전 지역에 걸쳐 항상 백업을 하거나 복제 상태를 유지해야 한다. 또 지역별로 서버를 분산해야 하고, 특정 데이터 센터가 붕괴하더라도 지역을 바꿀 수 있는 역량을 확보해야 한다. 

그는 "물론 이를 위해서는 비용이 든다. 따라서 서비스 별로 이런 비용에 대한 투자가 적합한지 판단을 내려야 한다"라고 덧붙였다.

7. 공급업체에 책임 부과
클라우드 벤더와 계약을 맺을 때는 가동 중단과 서비스 수준을 연계하는 약정을 포함해야 한다. 퍼슈트는 이와 관련, "클라우드 제공업체에 하도급을 준다면, 이러한 가동중단에 책임을 지도록 확실히 해야 한다"라고 강조했다. ciokr@idg.co.kr


X