CEO도 물러났다··· 통신사 ‘옵터스’의 서비스 장애가 전하는 교훈

2023.11.28 Rosalyn Page | CIO

이미 경영진까지 교체된 사건이다. 호주 통신사인 옵터스의 서비스 중단은 IT 리더에게 복원력과 재해 복구에 대한 중요한 교훈을 제공한다. 뿐만 아니라 계획을 재평가하고, 대화를 촉발하고, 리스크를 완화하고 후유증을 피하기 위해 투자해야 함을 시사한다.

11월 초 이 호주 통신사의 대규모 서비스 장애로 1,000만 명의 사용자와 40만 곳의 기업이 최대 12시간 동안 전화나 인터넷을 사용할 수 없었다. 이 사건으로 인해 켈리 바이엘 로스마린 CEO가 사임했다.

지난주 열린 호주 상원 청문회에서 이 통신사의 네트워크 담당 상무이사인 람보 카나가라트남은 옵터스가 “특정 규모의 서비스 중단에 대비한 계획을 갖고 있지 않았다”라고 말했다. 로스마린 전 CEO는 장애가 발생하기 전 경쟁사인 보다폰의 SIM 카드를 여분으로 가지고 다녔으며, 장애 이후에는 경쟁업체인 텔스트라의 SIM 카드를 추가로 가지고 다녔다고 인정했다.

장애 기간 동안 옵터스는 심장마비 환자의 동료로부터 걸려온 전화를 포함하여 228건의 긴급 전화를 연결하지 못했다.

네트워크 장애는 정교한 시스템에서도 일이 잘못될 수 있다는 사실을 상기시켜 주며, CIO가 신중한 조치를 마련해야 한다는 교훈을 제공한다.

옵터스 장애 사태는 극적이고 광범위했지만, 이러한 사고는 다양한 조직에서 다양한 수준으로 발생한다. 업타임 연구소의 연례 장애 보고서 2023에 따르면, 이러한 장애로 인한 비용이 증가하고 있는 것으로 나타났다.

CIO에게 이러한 사고의 처리는 단순히 IT 시스템을 관리하는 것 이상의 의미를 갖는다. 선견지명, 전략적 우선순위 지정, 효과적인 재해 복구 계획 수립 등이 모두 필요하다. 다음은 이 최근의 유명한 IT 서비스 장애에서 얻은 몇 가지 주요 교훈이다.

업데이트를 테스트하는 프로토콜 채택
옵터스의 초기 보고서는 ‘일상적인 소프트웨어 업그레이드’로 인한 ‘국제 피어링 네트워크의 라우팅 정보 변경’이 서비스 중단과 관련됐다고 기술했다. 그러나 이후 모회사인 싱텔은 소프트웨어 업그레이드가 아니라 옵터스 라우터의 안전 시스템에 문제가 있었다고 주장했다.

의회 증언에서 바이엘 로스마린은 “회사의 라우터 안전장치에 장애가 발생하여 각 라우터가 독립적으로 중단된 것이 근본 원인”이라며, 이 사건은 “싱텔 국제 피어링 네트워크의 업그레이드에 의해 촉발된 것”이라고 밝혔다.

이번 서비스 장애는 업데이트, 특히 조직 또는 네트워크 전체에 업데이트를 배포하기 전에 내부 시스템에서 테스트하는 것이 좋다는 중요한 점을 강조한다. 통신 애널리스트 폴 버드는 “이런 현상을 ‘팻 핑거(주문 실수)’라고 부른다”라고 설명했다.

버드는 “오류가 발생하면 네트워크가 이를 인식하고 걸러냄으로써 전체 시스템에 연쇄적으로 영향을 미치지 않도록 해야 한다. 전체 네트워크가 다운되면 기술자가 시스템에 접속하는 것만으로도 문제가 발생할 것이다. 그렇다면 질문이 이어진다: ‘이중화를 어떻게 마련해야 하는가?’라는 질문이다”라고 말했다.

옵터스의 경우 수리를 위해 호주 전역 14개 지점에서 100대 이상의 기기를 재설정해야 했다. ABC 뉴스의 보도에 따르면, 150명의 엔지니어와 기술자로 구성된 핵심 그룹이 장애 문제를 해결하기 위해 노력했으며, 250명의 다른 직원과 5개 해외 기업도 지원 작업에 참여했다.

취약점 매핑 및 해결
IT 리서치 및 자문 회사인 어댑트의 데이터 및 애널리틱스 책임자인 가비 프레드킨은 회사 인프라를 매핑하고, 서비스 중단 시에도 독립적으로 운영될 수 있도록 서비스를 세분화하고, 약점을 식별하고, 이러한 취약점을 스트레스 테스트하여 시스템의 취약성을 파악하는 것이 중요하다고 설명했다.

그러면서도 프레드킨은 “말처럼 쉬운 일은 아니다”라고 인정했다.

하지만 가장 취약한 지점이 전체 네트워크의 견고성을 좌우하는 법이다. 특히 중요한 인프라와 관련된 단일 장애 지점이 발생하면 시스템 전체에 심각한 장애를 초래할 수 있다. 최소한 CIO는 시스템에서 이러한 단일 장애 지점이 어디에 존재하는지 파악하여 이중화를 확보해야 한다. 또 우선순위와 예산에 관한 의사 결정을 내리는 데 필요한 컨텍스트를 제공해야 한다.

에넥스 테스트 랩의 전무 이사인 매트 테트는 “전체 네트워크에 이중화 경로를 구축하는 것은 비용이 너무 많이 들기 때문에 불가능할 수 있다. 하지만 당신의 조직이나 다른 업체에 중대한 장애가 발생하면 비용 대비 리스크를 감안했어야 한다고 후회할 수 있다”라고 말했다.

그는 “예산을 검토하고 향후 고통을 줄이기 위해 네트워크에 더 많은 이중화를 배치할 것이지 고려할 가치가 있다”라고 말했다.

불가피한 장애에 대비한 계획
옵터스처럼 방대한 네트워크를 감독하지 않더라도 IT 리더와 경영진은 자체 또는 서비스 공급업체의 장애에 대한 계획을 마련해야 한다. 테트는 “비즈니스 연속성 계획을 검토하고 가능한 경우 [평소대로 행동]을 계속할 수 있는 백업이 있는지 확인하는 것이 중요하다”라고 말했다.

이러한 비즈니스 연속성 계획에는 종이 기반 시스템으로 전환하는 프로세스, 인터넷 대신 셀룰러 서비스로 전환하는 프로세스, 경영진과 주요 직원에게 통신의 연속성을 보장하는 듀얼 SIM 스마트폰 확보 등 조직과 관련된 모든 것이 포함될 수 있다.

그는 “스마트폰의 비행기 모드와 같이 오프라인에서 계속 작동할 수 있는 방법을 모색해둘 만하다”라고 말했다.

재해 복구 논의 개시
미디어 헤드라인을 장식하는 이러한 사고를 계기로 CIO는 재해 복구 계획을 위한 대화를 시작할 수 있다. “어떤 일이 발생할 때까지 기다리지 마라. 취약점이 어디에 있는지 살펴보는 지속적이고 체계적인 접근 방식이 필요하다”라고 프레드킨은 강조했다.

그는 이어 스트리밍 미디어 대기업인 넷플릭스가 복잡한 시스템의 복원력을 개선하기 위한 전략의 핵심 요소로 프로덕션 환경에서 무작위 장애를 일으키는 카오스 몽키를 언급했다.

그는 “시스템에 혼란을 야기함으로써 약점에 노출되고, 상황이 어떻게 전개될지 확인하고, 발생할 수 있는 상황에 대한 훈련을 계획하고 실행할 수 있다”라고 말했다.

재해 복구에 대한 대화에는 CFO와 CEO가 참여하여 오프라인 상태 및 고객 신뢰 상실의 리스크와 이러한 리스크를 완화하는 데 드는 비용을 구체화해야 한다. 프레드킨은 “회사에 따라 영향의 수준이 다른 회사와 크게 다를 수 있다. 이를 고려해야 한다”라고 말했다.

타사 리스크 이해
업타임에 따르면 클라우드, 코로케이션, 통신, 호스팅 회사를 포함한 관리형 디지털 인프라 서비스가 전체 서비스 중단에서 차지하는 비중이 점점 더 커지고 있다. 따라서 IT 리더는 타사 공급업체로 인한 리스크를 관리하는 방법을 알아야 한다. 특히 아웃소싱이 일반화된 기술 환경에서는 더욱 그렇다고 버드는 지적했다.

소프트웨어 또는 하드웨어 업데이트의 경우 업데이트의 시기 및 특성과 함께 중요한 공급업체 목록을 확보하는 것이 중요하다. 또 CIO는 일부 고객에게만 업데이트를 배포하고 다른 고객에게는 배포하지 않을 수 있는지, 또 기업의 인프라 중 일부에만 배포하고 다른 인프라에는 배포하지 않는 것이 가능한지 살펴봐야 한다고 프레드킨은 말했다.

그는 “프로덕션 환경 전체에 영향을 미치지 않도록 테스트를 수행할 수 있는 방법을 찾아야 한다”라고 강조했다.

프레드킨은 이어 “하드웨어와 소프트웨어를 제공하는 사람들과 좋은 관계를 유지하는 것은 매우 중요하다. 업데이트와 같은 사항이 언제 출시되는지 미리 알고, 해당 업데이트가 조직에 푸시되는 시기를 어느 정도 제어할 수 있다면 매우 유용할 수 있다”라고 말했다.

IT 현대화의 추진 계기
안타까운 일이지만, 헤드라인을 장식하는 장애는 종종 IT 리더가 IT 현대화에 대한 자신의 주장을 펼칠 수 있는 기회를 제공한다고 프레드킨은 평가했다.

시스템 중단 사고에는 구형 기술 문제와 관련된 경우가 많다. 이러한 사고는 리더십과 이사회 차원에서 시스템을 업데이트하도록 추진하는데 도움이 될 수 있다고 그는 전했다.

CIO가 현대화를 추진할 때는 비즈니스가 그 여정을 따라갈 수 있도록 이해 관계자의 동의를 얻어야 한다는 주문이다. 특히 복잡하고 임무 중심적인 기능은 완료하는 데 2~3년이 걸릴 수 있으므로 작업의 순서를 정하고 우선순위를 정하는 방법도 필요하다.

프레드킨은 “무엇이 중요한지, 무엇이 시급한지를 살펴본다. 시스템에서 가장 큰 격차는 무엇인가? 장기적인 리프레시 측면에서 보면 특정 순서대로 수행해야 하는 작업도 있기 때문에 우선순위가 달라진다”라고 말했다.

그는 “특히 고전적인 워터폴 접근법으로 중요한 인프라를 재설계한다면, 중요하게 생각해야 할 요소다”라고 덧붙였다.

더 큰 그림 고려
시스템에서 발생하든 네트워크로 인해 발생하든, 장애는 광범위하게 영향을 미칠 수 있다. 따라서 IT 리더는 조직의 벽을 넘어서는 사고를 고려해야 한다고 버드는 강조했다.

그는 “맞춤형 재해 및 복원력 계획에는 특히 잠재적인 네트워크 스트레스와 보안 위협에 대응하기 위한 업계 표준에 대한 내용이 담겨 있어야 한다”라며, 업계에 따라 이러한 노력이 조직 내부를 벗어나야 할 수 있다고 말했다.

그는 “업계 구성원이 서로를 도울 수 있는 방법을 마련해야 할 수 있다. 전국적인 해결책과 업계 전반의 해결책을 모색하고 혁신적으로 생각해야 할 수도 있다”라고 말했다.

커뮤니케이션 플레이북 개발
마지막으로, 조직은 장애 또는 중단이 발생했을 때를 대비한 종합적인 소통 플레이북을 필요로 한다.

에넥스 테스트 랩의 테트는 “장애나 문제에 대해 명확하고 간결한 소통을 하는 것이 중요하다”라며, 이러한 소통은 CEO는 물론, 고객과 미디어까지도 감안해야 한다고 전했다.

그는 “조직이 먼저 고려해야 할 것은 고객과 명확하게 소통하는 방법이다. 두 번째는 네트워크 장애로 인해 고객과 소통할 수 없는 경우 미디어를 통해 소통할 수 있는 전략을 마련하는 것이다”라고 말했다.

또한 다운타임에 대한 기대치를 관리하고 평소와 같은 일상을 복구하는 데 도움이 되는 시간 프레임도 포함되어야 한다. 테트는 “몇 시간이든 며칠이든, 투명하게 공개해야 한다”라고 말했다. ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

옵터스 이중화 재해복구 DR 복구 계획 복원 장애 중단 인프라 현대화 사고

“유료 VPN, 분명한 가치 있다” VPN 선택 가이드

VPN (가상 사설 네트워크, Virtual Private Network)은 인터넷 사용자에게 개인 정보 보호와 보안을 제공하는 중요한 도구로 널리 인정받고 있다. VPN은 공공 와이파이 환경에서도 데이터를 안전하게 전송할 수 있고, 개인 정보를 보호하는 데 도움을 준다. VPN 서비스의 수요가 증가하는 것도 같은 이유에서다. 동시에 유료와 무료 중 어떤 VPN을 선택해야 할지 많은 관심을 가지고 살펴보는 사용자가 많다. 가장 먼저 사용자의 관심을 끄는 것은 별도의 예산 부담이 없는 무료 VPN이지만, 그만큼의 한계도 있다. 무료 VPN, 정말 괜찮을까? 무료 VPN 서비스는 편리하고 경제적 부담도 없지만 고려할 점이 아예 없는 것은 아니다. 보안 우려 대부분의 무료 VPN 서비스는 유료 서비스에 비해 보안 수준이 낮을 수 있다. 일부 무료 VPN은 사용자 데이터를 수집해 광고주나 서드파티 업체에 판매하는 경우도 있다. 이러한 상황에서 개인 정보가 유출될 우려가 있다. 속도와 대역폭 제한 무료 VPN 서비스는 종종 속도와 대역폭에 제한을 생긴다. 따라서 사용자는 느린 인터넷 속도를 경험할 수 있으며, 높은 대역폭이 필요한 작업을 수행하는 데 제약을 받을 수 있다. 서비스 제한 무료 VPN 서비스는 종종 서버 위치가 적거나 특정 서비스 또는 웹사이트에 액세스하지 못하는 경우가 생긴다. 또한 사용자 수가 늘어나 서버 부하가 증가하면 서비스의 안정성이 저하될 수 있다. 광고 및 추적 일부 무료 VPN은 광고를 삽입하거나 사용자의 온라인 활동을 추적하여 광고주에게 판매할 수 있다. 이 경우 사용자가 광고를 보아야 하거나 개인 정보를 노출해야 할 수도 있다. 제한된 기능 무료 VPN은 유료 버전에 비해 기능이 제한될 수 있다. 예를 들어, 특정 프로토콜이나 고급 보안 기능을 지원하지 않는 경우가 그렇다. 유료 VPN의 필요성 최근 유행하는 로맨스 스캠은 인터넷 사기의 일종으로, 온라인 데이트나 소셜 미디어를 통해 가짜 프로필을 만들어 상대를 속이는 행위다. 이러한 상황에서 VPN은 사용자가 안전한 연결을 유지하고 사기 행위를 방지하는 데 도움이 된다. VPN을 통해 사용자는 상대방의 신원을 확인하고 의심스러운 활동을 감지할 수 있다. 그 외에도 유료 VPN만의 강점을 적극 이용해야 하는 이유는 다음 3가지로 요약할 수 있다. 보안 강화 해외 여행객이 증가함에 따라 공공 와이파이를 사용하는 경우가 늘어나고 있다. 그러나 공공 와이파이는 보안이 취약해 개인 정보를 노출할 위험이 있다. 따라서 VPN을 사용하여 데이터를 암호화하고 개인 정보를 보호하는 것이 중요하다. 서프샤크 VPN은 사용자의 개인 정보를 안전하게 유지하고 해킹을 방지하는 데 유용하다. 개인 정보 보호 인터넷 사용자의 검색 기록과 콘텐츠 소비 패턴은 플랫폼에 의해 추적될 수 있다. VPN을 사용하면 사용자의 IP 주소와 로그를 숨길 수 있으며, 개인 정보를 보호할 수 있다. 또한 VPN은 사용자의 위치를 숨기고 인터넷 활동을 익명으로 유지하는 데 도움이 된다. 지역 제한 해제 해외 여행 중에도 한국에서 송금이 필요한 경우가 생길 수 있다. 그러나 IP가 해외 주소이므로 은행 앱에 접근하는 것이 제한될 수 있다. VPN을 사용하면 지역 제한을 해제해 해외에서도 한국 인터넷 서비스를 이용할 수 있다. 따라서 해외에서도 안전하고 편리하게 인터넷을 이용할 수 있다. 빠르고 안전한 유료 VPN, 서프샤크 VPN 뛰어난 보안 서프샤크 VPN은 강력한 암호화 기술을 사용하여 사용자의 인터넷 연결을 안전하게 보호한다. 이는 사용자의 개인 정보와 데이터를 보호하고 외부 공격으로부터 사용자를 보호하는 데 도움이 된다. 다양한 서버 위치 서프샤크 VPN은 전 세계 곳곳에 여러 서버가 위치하고 있어, 사용자가 지역 제한된 콘텐츠에 액세스할 수 있다. 해외에서도 로컬 콘텐츠에 손쉽게 접근할 수 있음은 물론이다. 속도와 대역폭 서프샤크 VPN은 빠른 속도와 무제한 대역폭을 제공하여 사용자가 원활한 인터넷 경험을 누릴 수 있도록 지원한다. 온라인 게임, 스트리밍, 다운로드 등 대역폭이 필요한 활동에 이상적이다. 다양한 플랫폼 지원 서프샤크 VPN은 다양한 플랫폼 및 디바이스에서 사용할 수 있다. 윈도우, 맥OS, iOS, 안드로이드 등 다양한 운영체제 및 디바이스에서 호환되어 사용자가 어디서나 안전한 인터넷을 즐길 수 있다. 디바이스 무제한 연결 서프샤크 VPN은 무제한 연결을 제공하여 사용자가 필요할 때 언제든지 디바이스의 갯수에 상관없이 VPN을 사용할 수 있다.

평점 - 댓글 -개

평점

Offcanvas

CEO도 물러났다··· 통신사 ‘옵터스’의 서비스 장애가 전하는 교훈

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기

Sponsored

댓글

추천 테크라이브러리

인터뷰 | “‘친환경+AI’ 앞세워 데이터센터 새바람 이끌 것”··· 엠피리온 디지털 최고전략책임자 최용석

일문일답 | “AI 기반 옵저버빌리티, IT 넘어 기업 전반에서 중요해질 것” 다이나트레이스 이효은 지사장

인터뷰 | “위기에서 기회를 보다’ 아이브릭스 채종현 대표가 전하는 ‘비즈니스 AI’ 이야기

인터뷰 | 빠른 대용량 편집기 ‘엠에디터’를 아시나요? ··· 40년 경력의 개발자 에무라 유타카 대표

일문일답 | 브로드컴 앤디 날라판 CIO·CTO·CSO가 말하는 클라우드 성공 노하우