Offcanvas

가상화 / 데이터센터 / 클라우드

글로벌 칼럼 | 가상화가 최악의 적이 될 때

2012.09.07 Paul Venezia   |  InfoWorld
혼돈을 통제하기 위해 노력한다 해도 언젠가는 거대한 파도가 몰아치며 모든 것을 산산조각 낸다. 보통은 여러 가지 요소가 결합될 때 붕괴가 발생하지만 가끔은 관리자가 간과한 하나의 약한 고리가 부서지며 연쇄적 문제를 유발하고, 결국 전체 네트워크를 작동 불능 상태로 만들기도 한다.
 
이러한 상황은 대처하기가 결코 쉽지 않은데다, 이미 문제를 수정하느라 바쁜 관리자에게 최초 장애의 여파로 잇달아 오류를 일으키는 다른 시스템들이 무차별적 경고를 쏟아내는 상황까지 겹치게 된다. 마치 머리 위로 집이 무너져 내리는 와중에 집을 새로 짓는 것과 같다.
 
인터넷 접속 문제와 같이 문제의 성격에 따라 마땅한 해결 도구가 없는 경우도 있다. 필자는 네트워크가 다운된 상태에서 아이폰이 등장하기 이전 시절의 휴대폰이 유일한 인터넷 연결 소스였던 상황을 겪은 적이 있다.
 
그러나 데이터 센터에서는 휴대전화망 신호가 잡히지 않았고 무선 접속도 불가능했다. 결국 누군가가 밖으로 나가 해결책을 구글에서 검색한 다음 콘솔 포트에 노트북을 연결한 채 내부에서 대기하던 직원에게 여러 사람을 거쳐 내용을 전달해야 했다.
 
극악한 종속성
필자가 목격한 상황 중에는 관리자들이 NIC 불량으로 인해 손상된 디스크를 복구하기 위해 장애가 발생한 가상 서버를 PXE 응급 이미지로 부팅하려고 시도했지만, 얼마 후 PXE 서비스는 이 서비스가 지금 수정하려고 하는 서버에 의해 제공된다는 사실을 깨달은 경우도 있다.
 
이들은 예비 스토리지 어레이에 위치한 ISO 공유에서 부팅 이미지를 찾으려 했지만, 아무도 해당 어레이에 정적 IP를 구성해 두지 않았고, DHCP 임대도 방금 만료되었다는 사실을 발견했다. 장애를 일으킨 VM이 바로 DHCP 서버 역할도 했기 때문이다. 그야말로 빼도 박도 못하는 상황이었다.
 
이와 같은 위기 상황에서 어떤 관리자는 이 문제만 지금 해결할 수 있다면 앞으로는 제대로 일을 하겠다고 다짐한다. 적절한 백업의 부재, 백업 계획의 부재, 하드웨어 지원 서비스의 부재는 이러한 문제를 훨씬 더 어렵게 만들지만, 만사가 평온할 때는 그것을 깨닫기가 무척 어렵다. 100달러짜리 교체 부품이 없어서 전체 네트워크가 작동 불능 상태에서 벗어나지 못하고 있다면 전략과 예산을 재고해야 한다.
 
오늘날 우리는 여러 가지 기술 덕분에 일상적인 IT 업무를 과거보다 훨씬 더 수월하게 처리하고 있다. 가상화 없이 기업 인프라스트럭처를 구축했던 시대는 지났다. 지금 우리는 극소수의 물리적 호스트에서 엄청나게 많은 가상 서버를 돌린다는 사실에 들떠 있다.
 
인프라스트럭처 여기저기에 마음껏 가상 시스템을 뿌리고, 단 한 대의 프로덕션 서버도 중지시키지 않고 기반 물리 호스트를 새롭게 단장할 수 있다. 이건 기적적인 일이다. 그러나 이렇게 고도로 농축된 환경에서 하나의 톱니가 부러지는 순간 그 기적은 끝난다. 가상화를 아예 도입하지 않았을 경우에 비해 훨씬 더 많은 시스템이 장애를 일으키게 된다.
 
우발적인 대혼란
예를 들어 과거에는 스토리지 어레이 하나가 어떤 이유로든 작동을 멈출 경우 그 영향은 해당 어레이를 사용하는 소수의 서버로 국한됐다. 애플리케이션 하나가 중단될 수 있지만 인프라스트럭처의 나머지 부분은 문제 없이 가동됐다.
 
요즘은 갖가지 보호 장치를 해둔다 해도 엉뚱한 LUN이 삭제되거나 스토리지 어레이에 장애가 발생하기라도 하면 족히 수백 대의 서버가 먹통이 될 수 있다. 복제본과 스냅샷이 있더라도 이 서버를 온라인으로 되돌리려면 상당한 시간이 필요하며, 그 사이 인프라스트럭처의 상당 부분이 가동 중지될 가능성이 높다. 원래 시스템 관리자가 하는 일이 한 번의 실수, 오타 또는 부주의한 클릭이 커다란 문제를 일으킬 수 있다는 점은 모두가 잘 알고 있지만, 인프라스트럭처의 대부분을 지탱하는 시스템을 다룰 경우 이러한 부주의한 클릭은 훨씬 더 큰 위험을 내포하게 된다.
 
여러 개의 도메인 컨트롤러, DHCP와 DNS 서버와 사고 대응 계획을 도입한 경우도 있지만, 이들 모두가 동일한 기반을 공유하므로 같은 문제의 영향을 모두 함께 받는 경우 아무 소용이 없다. 이 서비스들이 중지된 상태로 시간이 흐르기 시작하면 문제는 점점 더 악화된다. 데스크톱 시스템, 전화기와 기타 기기들의 DHCP 임대가 손실되기 때문이다. 재해 규모는 계속 커진다. 예약된 작업들이 이런저런 이유로 실패한 채 쌓여가거나 데이터 손상 문제를 일으킨다.
 
모든 달걀을 한 바구니에 담는 추세가 지속되는 상황에서 우리는 이로 인한 잠재적인 문제를 파악하고 적절히 위험을 완화해야 한다. 지금은 전체 데이터 센터를 소프트웨어로 구축할 수 있다. 여기에는 라우터에서 방화벽, 로드 밸런서와 네트워크 자체에 이르기까지 모든 것이 포함된다. 이러한 모든 구성 요소를 서로 긴밀히 연계해 관리, 업그레이드, 확장, 생산을 훨씬 더 빠르고 쉽고 비용 효율적으로 수행할 수 있다. 가능한 모든 요소를 가상화하는 확고한 이유가 바로 이것이다.
 
그 기반이 안정적인 한 우리는 보상을 만끽한다. 그러나 기반이 무너지면 복구하는 데 예전보다 훨씬 더 많은 노력이 필요하다.  editor@itworld.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.