2017.01.02

"2016년 사례에서 배우자' 빅판다가 제시하는 다운 사태 예방법

Ryan Francis | CSO
2016년에는 매출 타격과 평판 저하로 이어진 굵직굵직한 다운 사고가 수 차례 있었다. 버그 픽스 등에 대응하기 위해 시스템 구성을 변경하려다 발생한 사고들이 잦았다. 빅판다(BigPanda)는 예상하지 못한 다운 사고를 방지하기 위해서는 밟아야 할 스텝들이 있다고 조언한다. 2016년 주요 다운 사고를 살펴보고 이러한 상황을 예방하는 방안을 살펴본다.

사우스웨스트 항공
지난 10월 836대의 사우스웨어스트 항공기가 이륙하지 못 하는 사고가 발생했다. 이 항공사의 기술 시스템과 관련한 문제가 발생했기 때문이었다. 이 항공사 엔지니어들이 백업 절차를 구동시키고 나서야 승객과 수화물 운송을 정상화시킬 수 있었다.



델타 항공
아틀란타 본사에서 미 동부 시각 새벽 2시 30분에 시작된 정전 사고는 이 항공사의 전세계 컴퓨터 시스템과 운영에 영향을 미쳐 운항 지연 사태를 촉발시켰다. 빅판다는 5시간 동안 이어진 이 사고로 인해 2,000여 건의 항공 예약이 취소되고 총 1억 5,000만 달러 상당의 손해가 발생했다고 추산했다.

세일즈포스
이 클라우드 애플리케이션 기업이 웹사이트에 밝힌 내용에 따르면, 12시간 동안 이어진 다운 사고는 NA14 인스턴스 상의 데이터베이스 고장에서 비롯됐으며 NA14 데이터베이스 파일 통합 이슈를 야기시켰다. 빅판다는 사고 인한 매출 타격이 2,000만 달러에 이르는 것으로 추정했다.



애플
지난 6월 애플의 아이클라우드와 앱스토어, 아이튠스, 애플TV 등이 9시간 동안 다운됐다. 12월 초에도 사용자들이 자신의 아이클라우드 계정에 접근할 수 없는 상황이 발생했다.

슬랙
웹 서버 용량 이슈로 인해 슬랙의 300만 사용자는 90분 동안 슬랙을 이용하지 못 했다. 사용자들이 트위터를 통해 이 사건을 희화화한 사연은 이곳에서 확인할 수 있다.

핵심 시스템을 분류하라
예기하지 않은 다운 사고를 피하기 위해서는 IT 운영 팀이 각 서비스의 계층을 구분하고 비즈니스에 핵심적인 시스템을 미리 구분해둬야 한다고 빅판다는 조언했다. 또 최상위 애플리케이션에는 PoS나 발권, 지불 시스템 등과 같이 비즈니스 성패에 직결되는 애플리케이션 등이 포함돼 있어야 한다는 설명이다.

최상위 시스템에 대해 튼튼한 계획 수립
고가용성 시스템을 구축하기 위해서는 그에 걸맞는 준비가 필요하다. 시스템 아키텍처 전반에 걸쳐 신중하게 계획이 수립돼 있어야 한다. 특히 비즈니스에 핵심적인 최상위 애플리케이션에 대해서는 튼튼한 복구 계획과 고장 대비 계획을 마련해놓아야 한다고 빅판다는 전했다.

우수한 모니터링 스택 구축
볼 수 없다면 대처할 수도 없다. 통합과 전달이 끊임없이 발생하는 오늘날 IT 시스템의 건전성을 유지하기 위해서는 각 계층에 걸쳐 우수한 모니터링 도구를 배치해야만 한다. 시스템 모니터링, 애플리케이션 모니터링, 웹 및 사용자 모니터링, 로깅, 에러 트래킹 도구 등을 예로 들 수 있다. 오늘날 업계는 단일 모니터링 아키텍처에서 벗어나 각 계층에 대해 최적의 모니터링 도구를 배치하는 '베스트 오브 브리드' 접근법으로 이동하고 있다.


신호와 노이즈 구분을 위해 경보 연관성(alert correlation) 도입
그러나 여러 종류의 도구를 도입함에 따라 노이즈도 함께 증가하는 문제가 발생한다. 빅판다는 실제 사고 신호와 노이즈를 구분하기 위해 신호를 적절히 구분하는 방안을 마련할 필요가 있다며, 경보 연관성 솔루션을 도입함으로써 단순한 노이즈와 사고 신호를 좀더 효율적으로 분류할 수 있다고 설명했다. ciokr@idg.co.kr 



2017.01.02

"2016년 사례에서 배우자' 빅판다가 제시하는 다운 사태 예방법

Ryan Francis | CSO
2016년에는 매출 타격과 평판 저하로 이어진 굵직굵직한 다운 사고가 수 차례 있었다. 버그 픽스 등에 대응하기 위해 시스템 구성을 변경하려다 발생한 사고들이 잦았다. 빅판다(BigPanda)는 예상하지 못한 다운 사고를 방지하기 위해서는 밟아야 할 스텝들이 있다고 조언한다. 2016년 주요 다운 사고를 살펴보고 이러한 상황을 예방하는 방안을 살펴본다.

사우스웨스트 항공
지난 10월 836대의 사우스웨어스트 항공기가 이륙하지 못 하는 사고가 발생했다. 이 항공사의 기술 시스템과 관련한 문제가 발생했기 때문이었다. 이 항공사 엔지니어들이 백업 절차를 구동시키고 나서야 승객과 수화물 운송을 정상화시킬 수 있었다.



델타 항공
아틀란타 본사에서 미 동부 시각 새벽 2시 30분에 시작된 정전 사고는 이 항공사의 전세계 컴퓨터 시스템과 운영에 영향을 미쳐 운항 지연 사태를 촉발시켰다. 빅판다는 5시간 동안 이어진 이 사고로 인해 2,000여 건의 항공 예약이 취소되고 총 1억 5,000만 달러 상당의 손해가 발생했다고 추산했다.

세일즈포스
이 클라우드 애플리케이션 기업이 웹사이트에 밝힌 내용에 따르면, 12시간 동안 이어진 다운 사고는 NA14 인스턴스 상의 데이터베이스 고장에서 비롯됐으며 NA14 데이터베이스 파일 통합 이슈를 야기시켰다. 빅판다는 사고 인한 매출 타격이 2,000만 달러에 이르는 것으로 추정했다.



애플
지난 6월 애플의 아이클라우드와 앱스토어, 아이튠스, 애플TV 등이 9시간 동안 다운됐다. 12월 초에도 사용자들이 자신의 아이클라우드 계정에 접근할 수 없는 상황이 발생했다.

슬랙
웹 서버 용량 이슈로 인해 슬랙의 300만 사용자는 90분 동안 슬랙을 이용하지 못 했다. 사용자들이 트위터를 통해 이 사건을 희화화한 사연은 이곳에서 확인할 수 있다.

핵심 시스템을 분류하라
예기하지 않은 다운 사고를 피하기 위해서는 IT 운영 팀이 각 서비스의 계층을 구분하고 비즈니스에 핵심적인 시스템을 미리 구분해둬야 한다고 빅판다는 조언했다. 또 최상위 애플리케이션에는 PoS나 발권, 지불 시스템 등과 같이 비즈니스 성패에 직결되는 애플리케이션 등이 포함돼 있어야 한다는 설명이다.

최상위 시스템에 대해 튼튼한 계획 수립
고가용성 시스템을 구축하기 위해서는 그에 걸맞는 준비가 필요하다. 시스템 아키텍처 전반에 걸쳐 신중하게 계획이 수립돼 있어야 한다. 특히 비즈니스에 핵심적인 최상위 애플리케이션에 대해서는 튼튼한 복구 계획과 고장 대비 계획을 마련해놓아야 한다고 빅판다는 전했다.

우수한 모니터링 스택 구축
볼 수 없다면 대처할 수도 없다. 통합과 전달이 끊임없이 발생하는 오늘날 IT 시스템의 건전성을 유지하기 위해서는 각 계층에 걸쳐 우수한 모니터링 도구를 배치해야만 한다. 시스템 모니터링, 애플리케이션 모니터링, 웹 및 사용자 모니터링, 로깅, 에러 트래킹 도구 등을 예로 들 수 있다. 오늘날 업계는 단일 모니터링 아키텍처에서 벗어나 각 계층에 대해 최적의 모니터링 도구를 배치하는 '베스트 오브 브리드' 접근법으로 이동하고 있다.


신호와 노이즈 구분을 위해 경보 연관성(alert correlation) 도입
그러나 여러 종류의 도구를 도입함에 따라 노이즈도 함께 증가하는 문제가 발생한다. 빅판다는 실제 사고 신호와 노이즈를 구분하기 위해 신호를 적절히 구분하는 방안을 마련할 필요가 있다며, 경보 연관성 솔루션을 도입함으로써 단순한 노이즈와 사고 신호를 좀더 효율적으로 분류할 수 있다고 설명했다. ciokr@idg.co.kr 

X