Offcanvas

데이터센터 / 스토리지 / 애플리케이션 / 클라우드

MS "호주 데이터센터 중단 사고, 인력 부족과 자동화 실패가 원인"

2023.09.05 Anirban Ghoshal  |  Network World
호주 내 마이크로소프트(MS) 데이터센터가 지난달 30일 사고로 인해 일시적으로 가동 중단됐다. 이로 인해 애저(Azure)의 API, 데이터베이스, 애플리케이션 서비스에 문제가 발생했다.
 
ⓒ Getty Images Bank

지난달 30일 호주 시드니 인근 지역에 정전이 발생해 오라클, MS 등 여러 클라우드 제공업체의 데이터센터가 일시적으로 가동 중단됐다. MS는 사용자가 24시간 이상 애저, 마이크로소프트365(M365), 파워플랫폼(Power Platform) 서비스에 접속할 수 없었던 원인으로 인력 부족과 자동화 실패를 꼽았다.

사고 후 분석 보고서에서 MS는 해당 지역의 유틸리티 전력 부족으로 정전이 발생했으며, 이로 인해 “가용 영역(Availability Zone) 중 하나의 데이터센터에서 냉각 장치 일부가 오프라인 상태로 전환됐다”라고 밝혔다.

MS에 따르면 데이터센터의 냉각 장치가 멈추면서 온도가 상승했고, 데이터 및 인프라 상태를 보존하기 위해 시스템이 자동으로 종료됐다. 이후 컴퓨팅, 네트워크 및 스토리지 서비스에 영향을 미친 것으로 전해졌다. 냉각 장치를 수동으로 재시작할 수도 있었지만, MS는 데이터센터에 충분한 인력이 없어 불가능했다고 전했다. 

보고서에서 MS는 “데이터센터 캠퍼스의 규모 때문에 야간에 냉각 장치를 적시에 재가동하기에는 인력이 부족했다. 근본적인 문제를 파악하고 적절한 완화 조치를 취할 수 있을 때까지 일시적으로 인원을 3명에서 7명으로 늘렸다”라고 설명했다. 또한 사고 발생 시 서비스 복구를 원활하게 하기 위해 기존 자동화를 보완하는 등 다른 개선 작업도 진행 중이라고 언급했다.

MS는 “여러 전압 강하 사고에 더 탄력적으로 대응할 수 있도록 자동화를 개선하는 방법을 모색하고 있다”라며, 부하가 가장 높은 서버와 해당 냉각기가 먼저 재시작되도록 하는 방안을 고려하고 있다고 덧붙였다. 

올해 MS는 여러 차례의 서비스 중단, 특히 M365 서비스를 사용할 수 없는 문제를 보고한 바 있다. 지난 7월에는 비즈니스용 원드라이브(Onedrive)와 셰어포인트(SharePoint) 온라인 서비스가 일시 중단됐으며, 6월에는 웹 아웃룩(Outlook), 팀즈(Teams), 비즈니스용 원드라이브, 셰어포인트에서 8시간 이상 문제가 지속됐다.

또한 지난 5월에는 한 영국 사용자가 M365에서 일부 서비스 제품에 접속하는 데 문제가 있다고 보고했다. 4월에 MS는 특정 사용자가 여러 M365 서비스에서 검색 기능을 사용할 수 없는 문제를 조사하고 있다고 밝혔다. 당시 웹용 및 데스크톱 아웃룩, 익스체인지(Exchange) 온라인, 셰어포인트 온라인, 팀즈가 영향을 받았다. 

4월에 발생한 또 다른 사고에서 한 사용자는 M365 웹 응용프로그램과 팀즈에 접속할 수 없다고 보고했다. 2월에는 전 세계적으로 서비스 중단이 발생해 사용자들이 이메일과 팀즈에 접속할 수 없었으며, 1월에도 유사한 중단 문제가 보고됐다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.