Offcanvas

CIO / CSO / 보안 / 통신|네트워크

CEO도 물러났다··· 통신사 ‘옵터스’의 서비스 장애가 전하는 교훈

2023.11.28 Rosalyn Page   |  CIO
이미 경영진까지 교체된 사건이다. 호주 통신사인 옵터스의 서비스 중단은 IT 리더에게 복원력과 재해 복구에 대한 중요한 교훈을 제공한다. 뿐만 아니라 계획을 재평가하고, 대화를 촉발하고, 리스크를 완화하고 후유증을 피하기 위해 투자해야 함을 시사한다.

11월 초 이 호주 통신사의 대규모 서비스 장애로 1,000만 명의 사용자와 40만 곳의 기업이 최대 12시간 동안 전화나 인터넷을 사용할 수 없었다. 이 사건으로 인해 켈리 바이엘 로스마린 CEO가 사임했다. 

지난주 열린 호주 상원 청문회에서 이 통신사의 네트워크 담당 상무이사인 람보 카나가라트남은 옵터스가 “특정 규모의 서비스 중단에 대비한 계획을 갖고 있지 않았다”라고 말했다. 로스마린 전 CEO는 장애가 발생하기 전 경쟁사인 보다폰의 SIM 카드를 여분으로 가지고 다녔으며, 장애 이후에는 경쟁업체인 텔스트라의 SIM 카드를 추가로 가지고 다녔다고 인정했다.

장애 기간 동안 옵터스는 심장마비 환자의 동료로부터 걸려온 전화를 포함하여 228건의 긴급 전화를 연결하지 못했다.

네트워크 장애는 정교한 시스템에서도 일이 잘못될 수 있다는 사실을 상기시켜 주며, CIO가 신중한 조치를 마련해야 한다는 교훈을 제공한다.

옵터스 장애 사태는 극적이고 광범위했지만, 이러한 사고는 다양한 조직에서 다양한 수준으로 발생한다. 업타임 연구소의 연례 장애 보고서 2023에 따르면, 이러한 장애로 인한 비용이 증가하고 있는 것으로 나타났다.

CIO에게 이러한 사고의 처리는 단순히 IT 시스템을 관리하는 것 이상의 의미를 갖는다. 선견지명, 전략적 우선순위 지정, 효과적인 재해 복구 계획 수립 등이 모두 필요하다. 다음은 이 최근의 유명한 IT 서비스 장애에서 얻은 몇 가지 주요 교훈이다.
 
Image Credit : Getty Images Bank

업데이트를 테스트하는 프로토콜 채택
옵터스의 초기 보고서는 ‘일상적인 소프트웨어 업그레이드’로 인한 ‘국제 피어링 네트워크의 라우팅 정보 변경’이 서비스 중단과 관련됐다고 기술했다. 그러나 이후 모회사인 싱텔은 소프트웨어 업그레이드가 아니라 옵터스 라우터의 안전 시스템에 문제가 있었다고 주장했다.

의회 증언에서 바이엘 로스마린은 “회사의 라우터 안전장치에 장애가 발생하여 각 라우터가 독립적으로 중단된 것이 근본 원인”이라며, 이 사건은 “싱텔 국제 피어링 네트워크의 업그레이드에 의해 촉발된 것”이라고 밝혔다.

이번 서비스 장애는 업데이트, 특히 조직 또는 네트워크 전체에 업데이트를 배포하기 전에 내부 시스템에서 테스트하는 것이 좋다는 중요한 점을 강조한다. 통신 애널리스트 폴 버드는 “이런 현상을 ‘팻 핑거(주문 실수)’라고 부른다”라고 설명했다.

버드는 “오류가 발생하면 네트워크가 이를 인식하고 걸러냄으로써 전체 시스템에 연쇄적으로 영향을 미치지 않도록 해야 한다. 전체 네트워크가 다운되면 기술자가 시스템에 접속하는 것만으로도 문제가 발생할 것이다. 그렇다면 질문이 이어진다: ‘이중화를 어떻게 마련해야 하는가?’라는 질문이다”라고 말했다.

옵터스의 경우 수리를 위해 호주 전역 14개 지점에서 100대 이상의 기기를 재설정해야 했다. ABC 뉴스의 보도에 따르면, 150명의 엔지니어와 기술자로 구성된 핵심 그룹이 장애 문제를 해결하기 위해 노력했으며, 250명의 다른 직원과 5개 해외 기업도 지원 작업에 참여했다.

취약점 매핑 및 해결
IT 리서치 및 자문 회사인 어댑트의 데이터 및 애널리틱스 책임자인 가비 프레드킨은 회사 인프라를 매핑하고, 서비스 중단 시에도 독립적으로 운영될 수 있도록 서비스를 세분화하고, 약점을 식별하고, 이러한 취약점을 스트레스 테스트하여 시스템의 취약성을 파악하는 것이 중요하다고 설명했다. 

그러면서도 프레드킨은 “말처럼 쉬운 일은 아니다”라고 인정했다.

하지만 가장 취약한 지점이 전체 네트워크의 견고성을 좌우하는 법이다. 특히 중요한 인프라와 관련된 단일 장애 지점이 발생하면 시스템 전체에 심각한 장애를 초래할 수 있다. 최소한 CIO는 시스템에서 이러한 단일 장애 지점이 어디에 존재하는지 파악하여 이중화를 확보해야 한다. 또 우선순위와 예산에 관한 의사 결정을 내리는 데 필요한 컨텍스트를 제공해야 한다.

에넥스 테스트 랩의 전무 이사인 매트 테트는 “전체 네트워크에 이중화 경로를 구축하는 것은 비용이 너무 많이 들기 때문에 불가능할 수 있다. 하지만 당신의 조직이나 다른 업체에 중대한 장애가 발생하면 비용 대비 리스크를 감안했어야 한다고 후회할 수 있다”라고 말했다.

그는 “예산을 검토하고 향후 고통을 줄이기 위해 네트워크에 더 많은 이중화를 배치할 것이지 고려할 가치가 있다”라고 말했다.

불가피한 장애에 대비한 계획
옵터스처럼 방대한 네트워크를 감독하지 않더라도 IT 리더와 경영진은 자체 또는 서비스 공급업체의 장애에 대한 계획을 마련해야 한다. 테트는 “비즈니스 연속성 계획을 검토하고 가능한 경우 [평소대로 행동]을 계속할 수 있는 백업이 있는지 확인하는 것이 중요하다”라고 말했다.

이러한 비즈니스 연속성 계획에는 종이 기반 시스템으로 전환하는 프로세스, 인터넷 대신 셀룰러 서비스로 전환하는 프로세스, 경영진과 주요 직원에게 통신의 연속성을 보장하는 듀얼 SIM 스마트폰 확보 등 조직과 관련된 모든 것이 포함될 수 있다.

그는 “스마트폰의 비행기 모드와 같이 오프라인에서 계속 작동할 수 있는 방법을 모색해둘 만하다”라고 말했다.

재해 복구 논의 개시
미디어 헤드라인을 장식하는 이러한 사고를 계기로 CIO는 재해 복구 계획을 위한 대화를 시작할 수 있다. “어떤 일이 발생할 때까지 기다리지 마라. 취약점이 어디에 있는지 살펴보는 지속적이고 체계적인 접근 방식이 필요하다”라고 프레드킨은 강조했다. 

그는 이어 스트리밍 미디어 대기업인 넷플릭스가 복잡한 시스템의 복원력을 개선하기 위한 전략의 핵심 요소로 프로덕션 환경에서 무작위 장애를 일으키는 카오스 몽키를 언급했다. 

그는 “시스템에 혼란을 야기함으로써 약점에 노출되고, 상황이 어떻게 전개될지 확인하고, 발생할 수 있는 상황에 대한 훈련을 계획하고 실행할 수 있다”라고 말했다.

재해 복구에 대한 대화에는 CFO와 CEO가 참여하여 오프라인 상태 및 고객 신뢰 상실의 리스크와 이러한 리스크를 완화하는 데 드는 비용을 구체화해야 한다. 프레드킨은 “회사에 따라 영향의 수준이 다른 회사와 크게 다를 수 있다. 이를 고려해야 한다”라고 말했다.

타사 리스크 이해
업타임에 따르면 클라우드, 코로케이션, 통신, 호스팅 회사를 포함한 관리형 디지털 인프라 서비스가 전체 서비스 중단에서 차지하는 비중이 점점 더 커지고 있다. 따라서 IT 리더는 타사 공급업체로 인한 리스크를 관리하는 방법을 알아야 한다. 특히 아웃소싱이 일반화된 기술 환경에서는 더욱 그렇다고 버드는 지적했다.

소프트웨어 또는 하드웨어 업데이트의 경우 업데이트의 시기 및 특성과 함께 중요한 공급업체 목록을 확보하는 것이 중요하다. 또 CIO는 일부 고객에게만 업데이트를 배포하고 다른 고객에게는 배포하지 않을 수 있는지, 또 기업의 인프라 중 일부에만 배포하고 다른 인프라에는 배포하지 않는 것이 가능한지 살펴봐야 한다고 프레드킨은 말했다.

그는 “프로덕션 환경 전체에 영향을 미치지 않도록 테스트를 수행할 수 있는 방법을 찾아야 한다”라고 강조했다.

프레드킨은 이어 “하드웨어와 소프트웨어를 제공하는 사람들과 좋은 관계를 유지하는 것은 매우 중요하다. 업데이트와 같은 사항이 언제 출시되는지 미리 알고, 해당 업데이트가 조직에 푸시되는 시기를 어느 정도 제어할 수 있다면 매우 유용할 수 있다”라고 말했다.

IT 현대화의 추진 계기
안타까운 일이지만, 헤드라인을 장식하는 장애는 종종 IT 리더가 IT 현대화에 대한 자신의 주장을 펼칠 수 있는 기회를 제공한다고 프레드킨은 평가했다. 

시스템 중단 사고에는 구형 기술 문제와 관련된 경우가 많다. 이러한 사고는 리더십과 이사회 차원에서 시스템을 업데이트하도록 추진하는데 도움이 될 수 있다고 그는 전했다. 

CIO가 현대화를 추진할 때는 비즈니스가 그 여정을 따라갈 수 있도록 이해 관계자의 동의를 얻어야 한다는 주문이다. 특히 복잡하고 임무 중심적인 기능은 완료하는 데 2~3년이 걸릴 수 있으므로 작업의 순서를 정하고 우선순위를 정하는 방법도 필요하다. 

프레드킨은 “무엇이 중요한지, 무엇이 시급한지를 살펴본다. 시스템에서 가장 큰 격차는 무엇인가? 장기적인 리프레시 측면에서 보면 특정 순서대로 수행해야 하는 작업도 있기 때문에 우선순위가 달라진다”라고 말했다.

그는 “특히 고전적인 워터폴 접근법으로 중요한 인프라를 재설계한다면, 중요하게 생각해야 할 요소다”라고 덧붙였다.

더 큰 그림 고려
시스템에서 발생하든 네트워크로 인해 발생하든, 장애는 광범위하게 영향을 미칠 수 있다. 따라서 IT 리더는 조직의 벽을 넘어서는 사고를 고려해야 한다고 버드는 강조했다.

그는 “맞춤형 재해 및 복원력 계획에는 특히 잠재적인 네트워크 스트레스와 보안 위협에 대응하기 위한 업계 표준에 대한 내용이 담겨 있어야 한다”라며, 업계에 따라 이러한 노력이 조직 내부를 벗어나야 할 수 있다고 말했다.

그는 “업계 구성원이 서로를 도울 수 있는 방법을 마련해야 할 수 있다. 전국적인 해결책과 업계 전반의 해결책을 모색하고 혁신적으로 생각해야 할 수도 있다”라고 말했다.

커뮤니케이션 플레이북 개발
마지막으로, 조직은 장애 또는 중단이 발생했을 때를 대비한 종합적인 소통 플레이북을 필요로 한다.

에넥스 테스트 랩의 테트는 “장애나 문제에 대해 명확하고 간결한 소통을 하는 것이 중요하다”라며, 이러한 소통은 CEO는 물론, 고객과 미디어까지도 감안해야 한다고 전했다.

그는 “조직이 먼저 고려해야 할 것은 고객과 명확하게 소통하는 방법이다. 두 번째는 네트워크 장애로 인해 고객과 소통할 수 없는 경우 미디어를 통해 소통할 수 있는 전략을 마련하는 것이다”라고 말했다.

또한 다운타임에 대한 기대치를 관리하고 평소와 같은 일상을 복구하는 데 도움이 되는 시간 프레임도 포함되어야 한다. 테트는 “몇 시간이든 며칠이든, 투명하게 공개해야 한다”라고 말했다. ciokr@idg.co.kr
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.