기술 부채부터 클라우드 비용 문제까지, IT 리더는 큰 비즈니스 장애로 이어질 수 있는 몇몇 주요 운영 위험을 인식하고 해결 계획을 미리 수립해야 한다. 모자라기보다 넘치게 걱정할 만한 문제 5가지를 살펴본다.
디지털 트랜스포메이션 리더이자 전직 CIO로서 필자는 약간의 강박증을 가지고 있다. 생존 본능이라고 할 수 있겠다. 조직의 목표 달성을 저해하는 위험 요소를 지속적으로 파악하고 평가해 관리해야 한다는 강박중이다.
조직이 빠르게 변화하고 있는가? 이해관계자가 어려움을 겪고 있거나 불만을 갖고 있는가? 애자일 팀이 너무 많은 우선순위로 인해 과도한 스트레스를 받고 있지는 않은가?
CIO가 밤잠을 설치게 하는 주요 요인은 운영 및 보안 위험이다. IT 리더는 일단 보안 문제 포착 및 해결을 위한 모니터링 및 대응 계획을 수립해야 한다. 단 통제할 수 없는 변인에 대해 지나치게 스트레스를 받아서는 곤란하다.
그러나 운영 위험은 다른 문제다. 무엇이 잘못될 수 있는지에 대한 건강한 강박증이 오히려 도움될 수 있다. 별것 아닌 것처럼 보이는 많은 운영 리스크가 순식간에 현실화되어 IT 부서를 수렁에 빠뜨릴 수 있다. 대부분의 경우 "만약에"라는 질문을 충분히 하고 다양한 시나리오를 계획하면 도움이 된다.
다음 중 많은 항목이 위험도가 낮은 운영상의 문제처럼 보일 수 있지만 시간이 흐르고 상황이 변하면서 관리가 불가능해질 수 있다. CIO는 다음의 5가지 위험에 집중하여 문제가 되기 전에 해결책을 모색해야 한다.
1. 미션 크리티컬 시스템으로 인한 기술 부채 증가
증가하는 기술 부채와 수명이 다한 레거시 시스템의 영향은 스트레스를 느끼는 게 오히려 바람직한 위험 요인이다.
‘위기를 낭비하지 말라’는 말은 IT 사고가 보도될 때 CIO들이 서로 나누는 조언이다. 예를 들어, 미국의 새로운 연방 학자금 지원 무료 신청 프로그램인 FAFSA의 출시가 1년 연기되면서 연방 학비 지원을 받으려는 많은 대학생들이 혼란을 겪었다. 많은 이들이 의회를 비난했지만, 근본적인 원인 하나가 따로 있었다. 재설계로 인해 20개 이상의 시스템을 갱신해야 했던 가운데, 그 중 일부가 거의 50년 동안 업데이트되지 않았던 것들이었기 때문이다.
여기에는 코볼로 개발되어 "어지러울 정도로 많은 기관"의 개인 정보를 연결하는 시스템이 포함돼 있었다. 2019년 미국 회계감사원은 이를 현대화가 가장 필요한 10대 시스템 중 하나로 선정하기도 했다.
"레거시 하드웨어 시스템은 신속한 조치가 점점 더 시급해지고 있는 문제다"라고 린타스(LeanTaaS)의 보안 및 규정 준수 담당 이사 빌 머피는 지적했다. "이러한 시스템이 노후화됨에 따라 기업은 대체 하드웨어를 확보하고 유지보수 인력을 채용하는 데 어려움을 겪고 있다. 기술 부채를 적시에 해결하지 않으면 치명적인 결과를 초래할 수 있다"라고 그는 덧붙였다.
오늘날 CIO가 고려해야 할 다른 질문은 소프트웨어 개발에서 생성형 AI가 코드 관련 기술 부채를 산출하고 있는지 여부다. 물론 코드 코파일럿이나 생성형 AI 로우코드 기능을 사용하여 코드를 간소화할 수 있는 것은 사실이다.
그러나 소나의 안드레아 밀라고디 CIO는 "혁신과 경쟁력 측면에서 소프트웨어의 비중이 커지고 있다. 이 소프트웨어에 저품질 코드가 만연하면서 기술 부채가 증가하는 경향이 있다"라며, "AI또 사람이 만든 결과물과 마찬가지로 보안, 안정성, 유지보수성 문제가 있는 코드를 생성한다. 문제를 악화시킬 위험이 있다”라고 진단했다.
기술 부채 증가 문제를 안고 있는 CIO는 오늘의 문제와 내일의 위험을 알리는 실행 계획으로 전환해야 한다. 한 가지 접근 방식은 이사회 및 경영진과 논의해 동의를 구하는 것이다. 레거시 시스템 업그레이드가 다른 비즈니스 목표보다 우선시되어야 하는 기준을 공유해야 한다.
2. 팀 스트레스와 번아웃
스트레스와 번아웃은 CIO가 대비해야 할 심각한 문제다. 예를 들어, 2024 CISO 번아웃 보고서에 따르면 CISO의 80%는 자신을 '스트레스를 많이 받는 편'으로 분류하고, 63%는 자신의 역할을 관리하는 데 거의 또는 전혀 지원을 받지 못한다고 답했다. 50%는 직장 스트레스로 인해 팀원을 잃었다고 응답했다.
보안 전문가의 스트레스와 번아웃은 자원 부족과 비즈니스 영향, 복구 어려움과 같은 극심한 압박으로 인해 잘 알려진 문제다. 하지만 개발팀을 비롯한 다른 IT 전문가들도 성과를 산출하고, 결함을 해결하고, 최신 기술을 따라잡아야 한다는 압박감을 느낄 때 스트레스를 받기 십상이다.
해법 중 하나는 조직 전반의 스트레스를 유발하는 영역에 데이터, ML, AI를 추가하는 것이다. 데이터 연결성 보고서에 따르면 IT 직원의 3분의 2가 업무에 필요한 데이터에 액세스하는 데 부담을 느낀다고 답했으며, 이들 중 81%는 조직의 다른 직원들도 마찬가지라고 생각하고 있었다.
사실 CIO는 스트레스를 일으키는 변화를 주도하는 인물이기도 하다. 이제 조직과 회사 전반의 스트레스를 줄이기 위한 선제적이고 지속적인 조치를 취해야 한다. 새로운 기술 역량을 제공하고, 변화 관리 활동을 주도하고, 시스템 운영을 보장해야 한다는 비즈니스 기대치가 높아지면서 번아웃의 위험이 더욱 커지고 있다. CIO는 커뮤니케이션 개선, 운영 간소화, 현실적인 목표 설정 등 스트레스를 해소하고 줄일 수 있는 방법을 장려해야 한다.
3. IT 문화를 해치는 관행 모니터링
IT 운영으로 인한 스트레스와 관련하여 CIO가 집중해야 할 한 가지 분명한 영역은 서비스 모니터링이다. 애플리케이션 성능 문제와 서비스 수준 목표(SLO) 충족 여부를 알리는 각종 알람에 유의해야 한다. 물론 시스템이 제대로 작동하는지 확인하기 위해 충분한 모니터링과 자동화가 이루어지고 있는지에 대해 IT 운영팀은 신경써야 한다. 그러나 너무 많은 모니터링 도구, 수천 개의 알림, 잘못 정의된 SLO가 있으면 IT 인시던트가 만연한 문화를 조성하게 된다.
Logz.io의 공동 창립자이자 CTO인 아사프 이갈은 "엔지니어링 팀이 알림을 쫓느라 귀중한 시간을 낭비하고 있다. CIO는 수익에 직접적인 영향을 미치는 애플리케이션 및 인프라 오류에 초점을 맞추도록 설정해야 한다. 이러한 경고가 즉각적인 주의를 기울일 수 있도록 맨 위로 올라가면 된다”라고 설명했다.
CIO로 재직하던 시절 필자는 모니터링 도구가 포착하지 못하고 자동화가 해결하지 못한 IT 중단이 임원 회사에 보고는 상황이 몹시 두려웠다. 또한 IT가 운영에 할애하는 시간이 늘어나면서 혁신과 변화를 위한 노력이 줄어드는 것도 걱정스러웠다. CIO는 적절한 지표를 통해 조치가 필요한 시기를 파악하도록 설정해야 한다.
- 모니터링이 포착해야 할 각종 시스템 성능 문제까지도 직원들이 담당하고 있지는 않은가?
- 네트워크 운영 센터(NOC)와 사이트 안정성 엔지니어(SRE)가 증가하는 알림을 뒤쫒고 있으며, 이 문제로 인해 평균 복구 시간(MTTR)이 증가하고 있지는 않은가?
- 경영진이 IT 부문에 만족하지 못하는 가운데 혁신에 대한 투자나 IT와의 협업을 꺼려하지는 않은가?
모니터링 도구와 알림의 증가에 직면한 CIO는 통합 가시성 데이터를 중앙 집중화하고 머신러닝을 사용함으로써 대량의 시스템 알림을 관리 가능한 적은 수의 인시던트로 변환하는 AI옵스 솔루션을 검토해 볼 수 있다.
4. 써드파티 데이터 누출
AI 전략과 실행은 각종 써드파티 파트너, 솔루션 및 SaaS 도구로 이어지기 쉽다. 2024 써드파티 위험 관리 연구에 따르면 보안 및 데이터 거버넌스가 점점 더 큰 과제로 대두되고 있으며, 기업의 61%가 써드파티 데이터 유출 또는 보안 사고를 보고했다. 이는 작년에 비해 49% 증가한 수치다.
프레벌런트의 COO 겸 최고 전략 책임자인 브래드 히버트는 "써드파티 데이터 유출 및 보안 사고에 대한 경각심을 가져야 한다. 위험을 줄이려면 통합 내부 통제 평가와 지속적인 사이버 모니터링을 중심으로 써드파티 위험 관리 프로세스를 자동화하고, 발견 사항을 수정해야 한다. 또 AI 도구를 활용하여 위험 분석을 간소화해야 한다"라고 말했다.
기업 데이터를 호스팅하는 시스템의 수가 증가하고, 그 변화의 속도가 빨라지고 있다. 이러한 가운데 SaaS 제공업체가 서비스 약관을 자주 변경하는 현실이다. 편집증이 생기지 않기 어려운 형국이다. 직장 내 AI 펄스 설문조사에 따르면 작업자의 54%가 AI 도구에 의존하고 있다고 답했으며, 51%는 AI 사용을 장려하는 관리자가 있다고 답했다. 많은 조직에서 SaaS 및 생성형 AI 도구를 추가하는 속도가 IT, 인포섹 및 데이터 거버넌스 노력을 앞지르고 있다. 한편, 한 써드파티 위험 관리 연구에 따르면 조직은 공급업체의 1/3만이 위험을 관리하고 있는 것으로 나타났다.
세클로어의 CEO 겸 공동 설립자 비샬 굽타는 "조직이 협업해야 하는 글로벌 써드파티가 점점 더 많아지고 있는 상황에서 기존의 경계 보안 방법으로 보호하는 관행은 한계가 있다. 데이터가 기업을 떠나는 순간 효과가 사라진다. 네트워크 경계를 보호하는 보안 방식으로는 더 이상 충분하지 않으며, 보안팀은 데이터 자체를 보호하는 데이터 중심의 사전 예방적 보안 접근 방식을 취하는 데 집중해야 한다"라고 강조했다.
필자는 비즈니스 리더들과 섀도우 IT에 대해 논의하고 시민 데이터 과학에 대한 거버넌스를 정의할 때 ‘큰 힘에는 큰 책임이 따른다’라는 격언을 자주 인용한다. 애널리틱스와 머신러닝의 이점을 원하는 이들도 사전 예방적 데이터 거버넌스를 도입하는 데는 더디게 움직인다. 여기에 생성형 AI 코파일럿 도입까지 더해지면 CIO는 비즈니스 위기가 출현하기 전에 데이터 거버넌스를 강화해야 할 이유가 훨씬 더 뚜렷하다.
5. 증가하는 클라우드 비용
지난 10년 동안 CIO들은 오프라인 데이터센터에서 하이브리드 클라우드와 멀티클라우드로 IT 인프라를 전환했다. 동시에 개발 자동화를 통해 애자일 개발 및 데이터 과학 팀이 인프라 요구 사항을 셀프 서비스할 수 있도록 지원했다. AAG의 2024년 6월 클라우드 컴퓨팅 통계에 따르면 기업의 89%가 멀티클라우드 솔루션을 사용하고 있으며, 82%는 클라우드 지출 관리가 최우선 과제라고 답했다.
SADA의 수석 핀옵스 재무 분석가 로빈 로아초는 "클라우드 비용이 별다른 이유 없이 증가하는 현상을 주의해야 한다”라고 지적했다.
- 비용 소유권을 설정할 때 리소스에 레이블을 지정하고 태그를 지정하라.
- 재무 모델이 예산과 실제 차이를 정확하게 설명하는지 확인하라.
- 최적화 및 현대화를 위해 기존 워크로드를 검토하는 방법론을 육성하라.
- 예상치 못한 지출이 발생함을 알리는 알림 시스템을 만들거나 조정하라.
AI 워크로드는 특히 대규모 언어 모델(LLM) 기능을 개발하는 조직에서 추가 소비를 유발하기 쉽다. 예를 들어, 한 벤치마크에 따르면 AWS에서 권장하는 기본 인스턴스에서 LLM Falcon 180B를 호스팅하는 데 최소 월 2만 3,000달러의 비용이 든다.
탄소 영향 또한 고려해야 할 과제다. 퓨전 펀드의 설립자이자 매니징 파트너인 루 장은 2022년에 AI 기술이 약 460테라와트시의 전력을 소비할 것이라고 전하며, "이러한 수치는 AI와 관련해 반드시 해결해야 할 문제가 점점 더 커지고 있음을 강조한다. 앞으로 AI 알고리즘을 지속적으로 개선하고 데이터센터에 재생 에너지원을 통합하는 것이 매우 중요하다"라고 말했다.
마헤시 주티야바르 마스크텍 CIO는 "핀옵스를 통해 클라우드 비용 돌발 상황을 방지하는 동시에 지속가능하고 책임 있는 IT 미래를 위해 ESG 원칙을 준수하고 있다. 이러한 총체적인 전략은 회복탄력성과 장기적인 성공을 보장한다"라고 말했다.
오늘날의 CIO가 물려받은 기술 부채는 전임자가 내린 합리적 비즈니스 의사 결정의 부산물일 가능성이 높다. 그러나 오늘날의 스트레스가 많은 문화, 데이터 유출, IT 운영 요구, 클라우드 인프라 소비에 대한 단기적인 사고는 새로운 위기로 이어질 수 있다. CIO는 이러한 증가하는 위험에 대해 경각심을 갖고 속도, 민첩성, 혁신과 신중한 위험 관리 관행의 균형을 유지해야 한다.
* Isaac Sacolick는 애자일, 데브옵스, 데이터 과학을 다룬 ‘Driving Digital: The Leader’s Guide to Business Transformation through Technology’의 저자다. ciokr@idg.co.kr