2015.02.27

다운타임 논란 없는 구글, 비결은?

Brandon Butler | Network World
구글이 혁신적인 방법을 이용해 어떻게 다운타임을 피하는지에 대해 구글의 임원이 직접 설명했다.


2013년 8월 14일 정전이 발생했던 뉴욕시. 이미지 출처 : Thinkstock / Spencer Platt / Getty Images

많은 서비스를 제공하고 있는 구글의 특징은 이들 서비스들이 상당히 안정적이는 점이다. 이 회사는 어떻게 그 많은 서비스를 안정적으로 제공할 수 있는 걸까? 이에 대한 해답은 구글에서 사이트 안정성 팀을 만든 엔지니어링 담당 부사장인 벤 트레이너가 알고 있다. 트리이너는 서비스 신뢰도에 대한 구글의 접근 방식을 개발한 인물이기도 하다.

사람들은 구글이 구글앱스와 다른 서비스의 가동시간을 최대 100%로 끌어올릴 것을 목표로 한다고 생각할 것이다. 그것은 목표일 수도 있지만, 트레이너의 생각은 좀더 현실적이다. 구글의 각 제품들에는 1개월이나 1년 안에 최대 어느 정도까지의 다운타임을 허용하는지에 대한 서비스수준협약(SLA)이 있다. 예를 들어, 99.9%의 가동시간이라면, 이는 매월 43분의 다운타임을 허용한다는 의미며 이는 연간 약 8시간 40분간의 다운타임을 허용한다는 뜻이기도 하다. 트레이너는 이 8시간 40분에 대한 ‘오류 예산’을 산정해 놓아야 한다고 강조했다.

구글 제품 관리자가 완벽할 필요는 없다. 이들은 회사의 SLA보다 더 잘 하기만 하면 된다. 그래서 구글의 각 제품팀은 오류 예산을 가지고 있다. 기본적으로, 그들은 SLA가 허용하는 것보다 더 많은 실수를 저지를 수는 없다.

트레이너는 전통적인 사이트 신뢰도 모델에서 보면 사이트 신뢰도 엔지니어(SRES)와 제품 관리자 사이에 근본적인 단절이 있다고 밝혔다. 제품 관리자는 자사 제품에 계속해서 서비스를 추가하고 싶어 하지만, SRE는 신규 서비스 추가로 더 많은 잠재적인 문제를 야기하기 때문에 바꾸고 싶어하지 않는다. 이 ‘오류 예산' 모델은 SRE와 제품팀의 우선순위를 잘 조합해 바로 이러한 문제를 해결해 준다.

해당 제품이 SLA 가동 시간 약속을 충실히 준수하고 나서 제품팀이 새로운 기능을 접목할 수 있도록 해야 한다. 제품이 SLA를 벗어난다면 신뢰도를 높이기 전까지는 어떤 새로운 기능도 출시될 수 없다.

제품 개발자에게 신뢰할 수 있는 시스템을 만드는 책임을 지게 하면, 모두에게 윈윈이 된다. SRE는 안정적인 시스템을 갖게 되고, 개발자는 기능을 추가할 수 있게 되며, 사용자는 (아마도) 다운타임을 겪지 않게 된다. 100%의 가동시간을 의무화하기보다는 오류 예산을 만들어 놓으면 개발자와 사이트 신뢰도 담당자들의 우선순위를 좀더 긴밀하게 정리하면서 개발자와 엔지니어가 여유를 가질 수 있다. 이 프로세스에 대한 트레이너의 설명은 동영상으로 확인할 수 있다.

사이트 트래킹 회사인 클라우드하모니(CloudHarmony)에 따르면, 구글의 IaaS 클라우드 컴퓨팅 플랫폼은 지난해 주요 IT업체들 가운데 최고의 가동시간 통계치를 보여줬다. 아마존, 마이크로소프트, 다른 업체들과 비교해 구글의 사이트 신뢰도에 대해 자세히 알고 싶으면 이 사이트를 참고하면 된다. 물론 서비스 중단사태는 여전히 발생하고 있으며, 구글 컴퓨트 엔진(GCE)에서도 2월 한달 동안 한 차례 일어났다. ciokr@idg.co.kr



2015.02.27

다운타임 논란 없는 구글, 비결은?

Brandon Butler | Network World
구글이 혁신적인 방법을 이용해 어떻게 다운타임을 피하는지에 대해 구글의 임원이 직접 설명했다.


2013년 8월 14일 정전이 발생했던 뉴욕시. 이미지 출처 : Thinkstock / Spencer Platt / Getty Images

많은 서비스를 제공하고 있는 구글의 특징은 이들 서비스들이 상당히 안정적이는 점이다. 이 회사는 어떻게 그 많은 서비스를 안정적으로 제공할 수 있는 걸까? 이에 대한 해답은 구글에서 사이트 안정성 팀을 만든 엔지니어링 담당 부사장인 벤 트레이너가 알고 있다. 트리이너는 서비스 신뢰도에 대한 구글의 접근 방식을 개발한 인물이기도 하다.

사람들은 구글이 구글앱스와 다른 서비스의 가동시간을 최대 100%로 끌어올릴 것을 목표로 한다고 생각할 것이다. 그것은 목표일 수도 있지만, 트레이너의 생각은 좀더 현실적이다. 구글의 각 제품들에는 1개월이나 1년 안에 최대 어느 정도까지의 다운타임을 허용하는지에 대한 서비스수준협약(SLA)이 있다. 예를 들어, 99.9%의 가동시간이라면, 이는 매월 43분의 다운타임을 허용한다는 의미며 이는 연간 약 8시간 40분간의 다운타임을 허용한다는 뜻이기도 하다. 트레이너는 이 8시간 40분에 대한 ‘오류 예산’을 산정해 놓아야 한다고 강조했다.

구글 제품 관리자가 완벽할 필요는 없다. 이들은 회사의 SLA보다 더 잘 하기만 하면 된다. 그래서 구글의 각 제품팀은 오류 예산을 가지고 있다. 기본적으로, 그들은 SLA가 허용하는 것보다 더 많은 실수를 저지를 수는 없다.

트레이너는 전통적인 사이트 신뢰도 모델에서 보면 사이트 신뢰도 엔지니어(SRES)와 제품 관리자 사이에 근본적인 단절이 있다고 밝혔다. 제품 관리자는 자사 제품에 계속해서 서비스를 추가하고 싶어 하지만, SRE는 신규 서비스 추가로 더 많은 잠재적인 문제를 야기하기 때문에 바꾸고 싶어하지 않는다. 이 ‘오류 예산' 모델은 SRE와 제품팀의 우선순위를 잘 조합해 바로 이러한 문제를 해결해 준다.

해당 제품이 SLA 가동 시간 약속을 충실히 준수하고 나서 제품팀이 새로운 기능을 접목할 수 있도록 해야 한다. 제품이 SLA를 벗어난다면 신뢰도를 높이기 전까지는 어떤 새로운 기능도 출시될 수 없다.

제품 개발자에게 신뢰할 수 있는 시스템을 만드는 책임을 지게 하면, 모두에게 윈윈이 된다. SRE는 안정적인 시스템을 갖게 되고, 개발자는 기능을 추가할 수 있게 되며, 사용자는 (아마도) 다운타임을 겪지 않게 된다. 100%의 가동시간을 의무화하기보다는 오류 예산을 만들어 놓으면 개발자와 사이트 신뢰도 담당자들의 우선순위를 좀더 긴밀하게 정리하면서 개발자와 엔지니어가 여유를 가질 수 있다. 이 프로세스에 대한 트레이너의 설명은 동영상으로 확인할 수 있다.

사이트 트래킹 회사인 클라우드하모니(CloudHarmony)에 따르면, 구글의 IaaS 클라우드 컴퓨팅 플랫폼은 지난해 주요 IT업체들 가운데 최고의 가동시간 통계치를 보여줬다. 아마존, 마이크로소프트, 다른 업체들과 비교해 구글의 사이트 신뢰도에 대해 자세히 알고 싶으면 이 사이트를 참고하면 된다. 물론 서비스 중단사태는 여전히 발생하고 있으며, 구글 컴퓨트 엔진(GCE)에서도 2월 한달 동안 한 차례 일어났다. ciokr@idg.co.kr

X