Offcanvas

데이터센터 / 보안 / 통신|네트워크

기고 | 델타·사우스웨스트 항공의 IT 중단 사고가 전하는 교훈

2016.09.19 Jonathan Hassell  |  Computerworld


고가용성을 위해 대비할 때 지리적 중복성 또한 고려해야 한다. 델타 고장 정지 사태에서 도출할 수 있는 결론은 해당 항공사의 주요 인프라 전체가 애틀란타의 델타 본사 건물 어딘가에서 운영 중인 하드웨어 또는 소프트웨어 중 일부에 의존하고 있었다는 점이다.

델타의 승객 서비스 시스템 또는 운영 소프트웨어를 다른 곳에서 관리했다 하더라도 뉴스 보도에서 언급했듯이 서버 클로젯(Closet) 또는 해당 건물의 데이터센터에 위치한 일부 하드웨어에서 운용 중인 일부 애플리케이션이 실제로 해당 항공사의 단일 고장점이었다.

가용성 측면에서 기본적인 교훈은 원격적에서 중복 사본이나 버전을 확보함으로써 전기 문제나 날씨 장애 등의 국지적인 문제가 백업 노드의 운영에 영향을 끼치지 않아야 한다는 점이다.

핵심: 재난 계획의 경우 1차 시스템에서 떨어진 곳에 백업 시스템을 확보해야 한다.

시스템 대체 작동 프로토콜은 점검이 필수적이다. 자칫하면 꼭 필요한 상황에 동작하지 않는 상황을 맞이할 수 있다. 사우스웨스트와 델타 고장 정지 사건 모두 이 부분이 공통적이었다. 백업과 대체 시스템이 필요할 때 동작하지 않았다.

뉴욕타임스(The New York Times)는 이렇게 보도했다. "사우스웨스트의 경우 백업 시스템이 마련되어 있었지만 해당 항공사는 라우터에 고장이 발생했을 때 시스템이 제대로 작동하지 않았다고 밝혔다. 그리고 델타 측은 월요일 자체 주요 작업 중 일부가 백업 시스템으로 전환되지 않은 이유를 조사 중이라고 밝혔다."

재난 복구 및 고가용성에 대한 모드 투자는 필요할 때 효과를 발휘해야 한다. 그것이 존재 이유다.

핵심: 시스템 대체 작동을 엄격하고 일관되게 테스트해야 한다. 대부분의 테스트는 피크 타임을 피해 실시하되 느리지만 정상적인 시간에 스트레스 테스트도 진행해야 한다. 이때 상황 파악을 위해 발생하는 부하와 여파를 기록해둬야 한다.

클라우드라면 도움이 되었을까?
클라우드 옹호론자들이 이번 고장 정지 사건 후에 어김없이 목소리를 높였다. 그들은 "온프레미스 설치로 유지했을 때 어떤 일이 일어나는지 보았는가?”라며 “아마존 웹 서비스나 마이크로소프트 애저(Microsoft Azure)를 사용했더라면 이런 일이 없었을 것이다"라고 입을 모아 말했다. 하지만 정말로 그럴까?

그렇기도 하고 아니기도 하다. 클라우드는 다계층 개념이다. 누군가 클라우드를 이야기할 때 다른 곳에서 운용하는 가상머신에 대해 이야기하는가? 내고장성을 갖추고 플랫폼이 모든 것을 처리하기 때문에 기성의 가용성을 갖춘 완전한 관리형 웹 애플리케이션에 관해 이야기하는가? 기본적으로 다른 곳에서 관리하는 프라이빗 클라우드인 클라우드 데이터센터로의 시스템 대체 작동에 관해 이야기하는가? 누군가는 시나리오에 따라 "클라우드"가 어떤 의미인지 구체적으로 정의해야 한다.

이번 사고 측에서 좀더 자세히 살펴보도록 하자. 세이버(Sabre) 예약 시스템을 AWS로 포팅(Porting)할 수 있는가? 없었을 것이다. 비행 계획서 제출 소프트웨어를 애저에서 웹 앱으로 운용할 수 있는가? 아마도 가능했을 것이다. 항공사 전체를 구글 클라우드(Google Cloud)에서 운영할 수 있을까? 분명 불가능했을 것이다다. 하지만 필자가 앞서 언급한 "게이팅 지점" 등의 주요 부위를 클라우드로 이행할 수 있을까? 그럴 수 있을 것 같다.

항공사는 매우 복잡하게 운영된다. 이 업종보다 부품과 장비에 더 많이 의존하는 사업도 없을 것이다. 이 때문에 특정 공항에서 발생하는 몇몇 뇌우로 인한 사소한 중단도 고객에 엄청난 결과를 안겨줄 수 있다.

필자가 항공사 CTO보다 더 많은 것을 알고 있다거나 어떤 항공사가 클라우드 기술에 투자하고 있는지 강조하려는 게 아니다. 필자는 항공사 IT 투자에 대한 특수한 또는 내부자 지식이 없으며 항공사 고객도 없다.

오늘 이야기의 핵심은 우리가 이런 고장 정지의 원인과 영향을 통해 배울 수 있다는 점이다. 그리고 이 두 사례에서 두 항공사 모두 대체 시스템을 클라우드에 배치해 긴급상황에 대비했다면 상황이 그처럼 악화되지 않았을 가능성이 크다. 물론, 원활하고 완벽한 솔루션이 아니었을 수 있다. 하지만 수 천 명의 고객들이 발이 묶이고 휴가를 망치며 고객 손실 청구 비용을 보상해야 하는 손실은 발생하지 않았을 것이다.

* Jonathan Hassell은 컨설팅 기업 82벤처스의 경영자다. ciokr@idg.co.kr. 

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.