Offcanvas

CIO / 데이터센터 / 리더십|조직관리 / 비즈니스|경제 / 아웃소싱 / 애플리케이션

제품 개선하고 고객 만족도 높인 '금요일의 실패'

2016.06.17 Sarah K. White  |  CIO
'연습이 완벽을 만든다(Practice makes perfect)'는 말이 있다. 그러나 IT 장애 해결 서비스 업체인 '페이저듀티(PagerDuty)'의 사례를 보면 '실패'가 완벽을 만든다. 정확히 말하면 실패를 연습해 제품과 서비스를 개선하고 고객 만족도를 높이고 엔지니어를 관리하는 것이다.


이미지 출처: Getty Images Bank

페이저듀티가 '이것'을 처음 시작한 것은 2013년 가을이다. 엔지니어 한 명이 '생산 단계에서 신속하게 제품 버그를 발견하지 못한다'는 불만을 들었다. 실제로 당시 업체는 고객이 직접 버그를 발견하기 전에 엔지니어가 미리 문제와 해결책을 찾는 데 어려움을 겪고 있었다. 이에 따라 페이저듀티는 넷플릭스(Netflix)의 '통제된 실패(Controlled failure)' 테스트를 참고해 이른바 '금요일의 실패(Failure Fridays)' 제도를 만들었다.

명칭은 좀 이상하게 보이지만, 이것은 이후 팀의 위기 대응 능력을 높이는 전통으로 자리 잡았고 기업을 성공적으로 운영하는 핵심 요소가 됐다. 페이저듀티 같은 기업에는 특히 중요한 것이었다. 업체의 엔지니어링 부사장인 팀 아만드푸는 "넷플릭스가 실제 인프라 환경에 '실패' 상황을 적용해 인프라 복원성을 테스트, 해결하는 방식에서 큰 영향을 받았다"고 말했다.

'금요일의 실패' 도입
아만드푸의 팀은 매주 금요일 새로 테스트할 대상을 찾는다. 신규 서비스나 전체 가용성 구역(Availability zone) 심지어 데이터센터의 가동을 중단한 후 테스트할 때도 있다. 이런 방식으로 고객 서비스에 영향을 주지 않고 긴급 상황에 대처할 수 있는지 확인한다.

아만드푸에 따르면, 이런 테스트를 하려면 실패 시나리오를 이해해 베스트 프랙티스를 만들고 상황이 잘못됐을 때를 대비해 철저한 전략을 만드는 것이 중요하다. 또 팀의 유대감을 높여 압박감 아래서도 침착함을 유지하면서 '통제되고 계획된' 방식으로 협력할 수 있도록 만들어야 한다.

페이저듀티는 디지털 재해 대비 서비스를 제공한다. 기업이 기술 때문에 발생하는 재해 상황과 야간 긴급 상황에 더 효과적으로 대처하고 이를 해결하는 소프트웨어를 공급한다. 아만드푸는 '금요일의 실패'가 이러한 기업 목적의 연장선에 있다고 믿는다. 그는 "우리가 설파했던 것, 그러니까 재빨리 문제를 파악해 해결하는 방법을 우리가 실제 체험하기 시작했다. 이를 통해 우리는 고객이 최악의 상황에 놓였을 때 최상의 능력을 발휘할 수 있도록 지원한다"고 말했다.

페이저듀티는 클라우드 공급업체인 고객사의 데이터센터 3개를 관리하고 있다. 그리고 이들이 언제나 데이터를 이용할 수 있는 '올웨이즈 온'(Always On) 환경을 목표로 한다. 현재 이 목표에 크게 가까워졌고 이 성과의 많은 부분이 '금요일의 실패'를 통해 터득한 교훈 덕분이다.

실제로 아만다푸의 팀은 인프라의 확장과 축소 문제, 제품의 버그, 프로세스의 중복 문제를 발견해 개선했다. 또 몇 년 동안 지속해서 문제를 일으켰던 아파치 주키퍼(Apache Zookeeper)의 버그를 발견해 관련 커뮤니티에 공유하기도 했다.

---------------------------------------------------------------
데이터센터 인기기사
-> 데이터센터를 안전하게! 물리적 보안 구축법
-> 규모로 승부하는 데이터센터들
-> ‘인프라도 스타급!’ 헐리우드의 엘리트 데이터센터들
-> '동굴, 벙커, 사막···' 쿨하고 쿨한 데이터센터 9곳
-> 데이터센터 위한 필수 장비 10종
-> 구글이 말하는 5가지 데이터센터 에너지 절약법
-> IT 전문가들이 선정한 필수 데이터센터 유틸리티 7선
-> 데이터센터 효율성 개선을 위한 6가지 팁테크
-> 컨버지드 인프라, 데이터센터의 미래인가?
-> ‘데이터센터 비용 절감’ 페이스북의 오픈소스 디자인 활용법
-> 8가지 획기적인 데이터센터 전력 비용 절감 방안
---------------------------------------------------------------

위기 상황에서도 침착할 수 있는 문화
물론 '금요일의 실패'를 실행하려면 많은 주의를 기울여야 한다. 각 실패 시나리오마다 계획과 전략을 수립하고 다양한 측면을 고려해야 한다. 예를 들어 상황실(war room)을 마련한 후 팀원에게 시나리오와 각자 해야 할 역할을 설명한다. 보유한 인프라의 1/3에 해당하는 데이터센터 가동을 중단하고 단 한 명의 고객도 눈치채지 않은 상태에서 한 시간 만에 복구하는 연습을 한다.

이런 훈련은 위기 상황에서 더 효과적으로 업무 우선순위를 설정하고 체계화하는 데 도움이 됐다. 또 팀의 자신감이 올라갔고 심지어 화재 상황을 대비한 대응 방법도 발전시켰다고 아만드푸는 설명했다. 그는 "잠재적인 문제에 대한 계획을 세워야 한다. 특히 자신이 통제할 수 없는 문제여야 한다. 예를 들면 서비스 일부를 서드파티의 클라우드 인프라에 의지할 때 이를 통제할 방법을 찾는 식이다"라고 말했다.

'금요일의 실패'를 도입하는 방법은 기업마다 다를 것이다. 모든 기업이 그대로 도입할 수 있는 정형화된 공식도 없다. 규모가 작다면 일부 직원이 실패 시나리오를 전담 관리할 수 있다. 반면 규모가 큰 기업은 더 중앙화된 방식이 필요하다. 그 방법이 무엇이든 목표는 두 걸음 더 앞서서 '대응'이 아닌 '예방'을 하는 것이다. 이렇게 하면 미리 막을 수 있었던 문제를 바로 잡느라 애를 먹을 일이 없다.

아만드푸는 "위기 상황이 닥쳐도 당황하지 않고 침착할 수 있는 문화를 만들어야 한다. 이를 위해선 조직 내부에 공감과 신뢰의 분위기를 구축하는 것이 중요하다. 특히 기업이 성장하면서 인프라가 복잡해질 때는 더 중요하다"고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.