Offcanvas

CIO / CSO / 데이터센터 / 보안

칼럼 | 카카오 사태와 IT 운영

2022.11.01 정철환  |  CIO KR
최근 있었던 카카오 서비스 중단 사태는 많은 사람들에게 여러 생각을 하게 만든 사건이었다. 필자와 같이 오랜 기간 기업의 IT 운영업무를 직접 담당하던 입장에서는 더욱 그랬다. 그리고 오래전이었던 2011년 9월에 올렸던 ‘칼럼 | 기업에게 정보시스템이란?’이 떠오른다.

세상의 많은 사건, 사고는 많은 사람들에게 통찰의 기회를 제공하며 사건 이전과 이후로 나뉘는 계기를 제공하곤 한다. 이번 카카오 사태의 정확한 원인과 과실 책임 그리고 왜 이후 오랜 시간 서비스가 정상화되지 못했는지에 대해서는 아직 구체적으로 확인되거나 알려진 바가 적다. 

또한 최근 뉴스에서 카카오측과 SK측이 서로 법무법인을 선임하여 대응을 준비하고 있다고 하니 아마도 양측의 입장이 서로 엇갈리는 모양이다. 결론에 따라 막대한 손해보상비용에 대한 지불 책임이 주어질 수 있으니 양쪽에서 날카로운 신경전을 벌이는 것은 당연하다.

이번 사태를 계기로 그 동안 수많은 정부의 사업들이 카카오톡과 연계되어 진행되었던 것에 대한 비판도 있는 듯하고 네이버와는 달리 카카오가 시스템의 장애 발생시에 대한 대응을 철저하게 못 했다는 지적도 있다. 하지만 시스템의 운영을 담당하는 입장에서 모든 발생 가능한 상황에 대비하여 완벽한 시스템을 구성한다는 것은 쉽지 않다.

만약 911 사태가 발생하기 전에 항공 운항정책을 담당하는 그 누군가가 민항기를 이용한 테러 가능성을 예상하여 승객의 보안 검색 절차를 지금의 상황과 같이 매우 까다롭게 변경하여야 한다고 강력히 주장하여 이를 관철시켰다고 하자. 그로 인해 911테러가 사전에 예방되었다고 할지라도 향후 이 사람은 칭찬을 받는 것이 아니라 두고두고 원망을 들었을 것이다. ‘쓸데없이 보안 규정을 강화해서 불편하게 만들었다’고 말이다.

예상 가능한 모든 상황을 감안한 IT시스템 운영 대응 체계를 사전에 만들기 위해 기업 내의 경영진을 설득하는 것은 매우 어려운 일이다. 하지만 이번 사태를 보면 아쉬운 점들이 있어 보인다. 그리고 이러한 점들은 기업에서 IT 운영을 담당하는 분이라면 모두 생각해 봐야 할 만한 사항들이다.

우선 사고가 발생하는 것을 사전에 막을 수 없고 시스템 이중화가 완벽하게 안 되어 있다고 해도 데이터센터의 비상상황에 대한 운영 프로세스 상의 대비책은 제대로 준비되어 있어야 한다. 비상 시 시스템을 셧다운 하는 체계적인 절차와 이후 재기동 하는 것에 대해 수시로 훈련을 통해 운영진이 익숙할 수 있도록 준비하고 있어야 할 것이다. 수많은 서버를 수작업으로 셧다운 하는 것은 불가능하기에 이를 위한 시스템 차원의 방안을 사전이 마련되어야 할 것이다.

그리고 안정적 운영이 최선인 분야에 대해서는 가능한 보수적인 기술을 적용하는 것이 필요하다. 이번 사태의 원인 중 UPS 배터리가 리튬이온 방식인 것이 문제점이라는 지적이 있는데, 다른 데이터센터에서는 효율은 떨어지지만 보다 안정적인 납축전지를 사용하는 것이 좋은 예이다. 리튬이온 배터리가 가진 가볍고 고효율에 용량이 크다는 장점은 전기자동차나 스마트폰에서는 매우 중요한 사항이겠지만 충전 후 대기만 해야 하는 USP 배터리에 적합한 기술이었는지는 의문이다. 이는 기업 시스템 구성에 있어 안정성을 요구하는 분야에 최신 기술을 적용하는 것에 대한 보다 보수적인 검토를 필요로 한다는 의미다.

마지막으로 보이지 않는 곳에서 묵묵히 자신의 업무에 충실한 사람들에게 이에 걸맞은 대우와 인정이 필요할 것으로 생각된다. 데이터센터의 운영이나 IT 인프라의 유지보수는 주목을 받을 만한 중요한 업무로 인정받기 어렵다. 시스템이 정상적으로 운영되는 상황에서는 존재감이 드러나지 않는다. 그런데 정작 시스템 장애가 발생하면 비난의 대상이 된다. 이런 환경에서는 시스템의 안정적인 운영을 위한 체계적이고 잘 훈련된 인력을 유지하기 어렵다. 따라서 시스템 운영과 관련된 조직과 비용에 대한 평상시의 경영진 마인드가 장애 발생 최소화 및 장애 시 능동적이고 조직된 대응을 이끌어 낼 수 있는가 아닌가를 결정하게 될 것이다.

이번 카카오 사태와 이전의 모 그룹에서의 장애 시 대응 사례를 비교한 기사가 있었다. 모든 장애에 대비한 완벽한 시스템 인프라를 갖추는 것은 어렵다. 또한 장애가 발생하는 것을 사전에 인지하거나 또는 예방하는 것도 한계가 있다. 따라서 필연적으로 장애는 발생할 가능성이 있다. 그러나 이 때 어떻게 대응하는지에 대한 것은 평소 이에 대한 시스템 운영조직의 준비 상황은 물론 경영진의 IT 운영에 대한 마인드가 어떤 가에 따라 사뭇 달라질 것이다. 그리고 이 차이가 시스템 이용자나 고객의 만족도에 영향을 주게 될 것이다.

이번 사태를 계기로 대한민국의 IT 운영 체계가 더 발전하고 기업 내에서의 IT 운영에 대한 시각이 긍정적으로 개선되어 장기적으로 IT 인프라 안정성 개선의 밑거름이 되길 바라는 마음이다.

* 정철환 이사는 삼성SDS, 한양대학교 겸임교수를 거쳐 현재 그룹 IT 계열사 이사로 재직 중이다. 저서로는 <SI 프로젝트 전문가로 가는 길>과 <알아두면 쓸모 있는 IT 상식>이 있으며, 삼성SDS 사보에 1년 동안 원고를 쓴 경력이 있다. 한국IDG가 주관하는 CIO 어워드 2012에서 올해의 CIO로 선정됐다. ciokr@idg.co.kr
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.