마이크로소프트 365 고객이 전 세계 마이크로소프트 애저 클라우드 리전의 네트워킹 인프라 문제로 인해 서비스 연결 문제, 성능 저하 문제를 겪었다. 회사 측은 “현재 여러 마이크로소프트 365 서비스 및 기능의 액세스 문제와 성능 저하를 ...
2024.07.31
마이크로소프트 365 고객이 전 세계 마이크로소프트 애저 클라우드 리전의 네트워킹 인프라 문제로 인해 서비스 연결 문제, 성능 저하 문제를 겪었다. 회사 측은 “현재 여러 마이크로소프트 365 서비스 및 기능의 액세스 문제와 성능 저하를 ...
2024.07.31
볼 위빌(Boll Weevil), 캐번디시 바나나(Cavendish bananas), 그리고 최근의 윈도우/크라우드스트라이크 사태의 공통점은 무엇일까? 모두 너무 많은 사람들이 단일 문화를 신뢰했기 때문에 발생한 경제적 재앙이다. 농담...
2024.07.22
2023년 발생한 주요 서비스 장애 사례를 보면, 마이크로소프트, AWS 같은 쟁쟁한 업체의 아무리 정교한 환경에서도 성능 저하와 네트워크 중단이 나타나고 서비스 중지로 이어질 수 있다. 시스코 산하의 인터넷 및 클라우드 트래픽을 추적...
2024.02.08
2023년 발생한 주요 서비스 장애 사례를 보면, 마이크로소프트, AWS 같은 쟁쟁한 업체의 아무리 정교한 환경에서도 성능 저하와 네트워크 중단이 나타나고 서비스 중지로 이어질 수 있다. 시스코 산하의 인터넷 및 클라우드 트래픽을 추적...
2024.02.08
지난 11월 17일에 발생하여 3일간 이어졌던 행정전산망 마비 사태는 IT 업계에 큰 이슈가 되었다. 언론에 보도된 바에 따르면 네트워크 구성 장비 중 일부에서의 장애가 원인이라고 하지만 네트워크 전문가들은 해당 원인 만으로 장애가 그렇게 오래 지속되...
2023.12.01
이미 경영진까지 교체된 사건이다. 호주 통신사인 옵터스의 서비스 중단은 IT 리더에게 복원력과 재해 복구에 대한 중요한 교훈을 제공한다. 뿐만 아니라 계획을 재평가하고, 대화를 촉발하고, 리스크를 완화하고 후유증을 피하기 위해 투자해야 함을 시사한다....
2023.11.28
사우스웨스트 항공이 재앙이라고 표현할 만한 운영사고를 기록했다. 이 사고가 현대 IT 리더들에게 시사하는 교훈을 정리한다. 성수기에 치명적인 운영 문제가 나타나서는 안 된다. 그러나 사우스웨스트 항공의 경영진은 바로 지난주에...
2023.01.06
사우스웨스트 항공이 재앙이라고 표현할 만한 운영사고를 기록했다. 이 사고가 현대 IT 리더들에게 시사하는 교훈을 정리한다. 성수기에 치명적인 운영 문제가 나타나서는 안 된다. 그러나 사우스웨스트 항공의 경영진은 바로 지난주에...
2023.01.06
ERP에 대한 세간의 나쁜 평판에는 이유가 있다. 복잡하고 값비싼 이 엔터프라이즈 소프트웨어의 역사는 공급사의 횡포, 터무니없는 과장 광고, 어이없는 실패에 대한 이야기로 가득하다. 전사적 자원 관리(ERP)와 고객 관계 관리(CRM) 애...
2022.11.09
2022년 7월 8일, 캐나다의 로저스 ISP(Rogers ISP) 네트워크를 어설프게 유지보수 업데이트하는 실수로 인해 캐나다 전역에 최소 12시간 동안 인터넷 액세스 문제가 발생했다. 일부 고객들은 이후 며칠 동안 문제를 겪기도 했다. 약 1,2...
2022.09.01
2017년, 이코노미스트(The Economist)는 데이터가 석유보다 귀중한 자원이 되었다고 선언했다. 그 이후로 비슷한 진단이 이어졌다. 모든 산업의 조직들이 데이터와 분석에 지속적으로 투자했다. 하지만 석유와 마찬가지로 데이터와 분석에는 어두운 ...
2022.04.19
지난해 10월 말, 로블록스(Roblox)의 글로벌 온라인 게임 네트워크가 다운됐다. 정지는 3일 동안 지속됐다. 이 사이트는 매일 5,000만 명의 게이머들이 사용하고 있다. 이 혼란의 원인을 파악하여 해결하기 위해 로블록스와 주요 기술 공급자인 하...
2022.02.04
로봇이 곳곳에 등장하고 있다. 전쟁터에서 윤락 업소에 이르기까지 활용처도 다양한다. 그러나 로봇이 고장날 때 어떤 일이 일어날 수 있는지 살펴본다. 1. 나가사키, 일본 : 수백 개의 로봇 종업원 활용 중단 세계에서 처음으로 로봇을 대대적으로 배치한...
2019.01.30
지금은 괜찮아 보일지 모른다. 하지만 경보 신호가 이미 울렸음에도 불구하고 이를 아직 알아채지 못했을 가능성이 있다. 네트워크 상태가 갑자기 나빠지고 간단한 문제 해결에 시간이 더 오래 걸리며 계속 고장 나는 것이 생긴다. 모든 대규모 코드 릴리즈(R...
2018.02.12
다나 디지는 그의 오랜 경력에 걸쳐 유달리 위기 상황을 많이 겪은 CIO다. 여기 그가 현장에서 체득한 조언을 정리했다. CIO라면 누구나 시스템 정지 문제에 민감하다. 사이버 공격을 당하고 맞서가는 CIO들도 점점 더 증가하고 있다. 그...
2017.09.20
IT시스템의 1시간 다운타임은 호주 기업에게 50만 호주달러에서 1,000만 달러(한화 약 89억 원)에 달하는 것으로 조사됐다. 페이저듀티(PagerDuty)의 조사에 응한 사람들은 이 금액이 대부분 수익 손실 때문이라고 밝혔다. 개발과 ...
2017.08.02
2016년에는 매출 타격과 평판 저하로 이어진 굵직굵직한 다운 사고가 수 차례 있었다. 버그 픽스 등에 대응하기 위해 시스템 구성을 변경하려다 발생한 사고들이 잦았다. 빅판다(BigPanda)는 예상하지 못한 다운 사고를 방지하기 위해서는 밟아야 할 ...
2017.01.02
셀카(Selfie)를 촬영하다 사망하는 사고가 늘어나고 있는 가운데, 머신러닝 기술을 이용해 셀카 사망 사고를 막는 앱이 개발되고 있다. 카네기 멜론 대학 연구진과 인도 델파이 인드라프라스타 인스티튜트 연구진에 의해서다. 이들 연구진에 따르면 셀...
2016.11.28
사우스웨스트 항공(Southwest Airlines)의 CIO 랜디 슬론은 7월 회사의 달라스 본사에 거의 40시간 동안 머물렀다. 2,300대의 항공편을 뜨지 못하게 한 기술적 문제를 찾아야 했기 때문이다. 그는 수십 시간에 걸쳐 IT시스템을 쭈그린...
위기 사고 디지털 트랜스포메이션 디지털 디스럽션 비즈니스 붕괴
2016.09.20
사우스웨스트 항공(Southwest Airlines)의 CIO 랜디 슬론은 7월 회사의 달라스 본사에 거의 40시간 동안 머물렀다. 2,300대의 항공편을 뜨지 못하게 한 기술적 문제를 찾아야 했기 때문이다. 그는 수십 시간에 걸쳐 IT시스템을 쭈그린...
2016.09.20
위협 환경이 끊임없이 진화하는 가운데 사이버 보안 전문가들이 탐지와 사고 대응 비중을 높이면서 보안 분야에서 협업 영역이 늘고 있다. 하지만 이 협업을 어디서부터 어떻게 시작해야 할까? Credit: Getty Images Bank 많은...
2016.09.07