Offcanvas

���������������

2021년 데이터센터 트렌드 6가지

데이터센터는 날로 증가하는 복잡성과 운영 과제에 직면해 있다. 업타임 인스터튜트(Uptime Institute)에 따르면, 미셜 크리티컬 워크로드에 퍼블릭 클라우드를 사용하는 기업이 늘어나고 있지만, 많은 기업이 클라우드 서비스 업체의 인프라 운영에 대한 투명성을 요구하고 있다. 업타임 인스티튜트의 2021 글로벌 데이터센터 서베이 결과 중 용량 증가, 지출, 기술 도입, 인력 고용 등의 핵심 트렌드를 살펴본다.     데이터센터 서비스 중단은 줄고 비용은 늘고 업타임은 연례 조사에서 3년 동안 발생한 서비스 중단이나 정지의 횟수와 심각성을 조사한다. 중단이나 정지 횟수의 경우, 2021년 조사 대상 데이터센터의 69%가 지난 3년 동안 일부 서비스 중단 문제를 겪었다고 답했다. 2020년에 이렇게 대답한 비율은 이보다 높은 78%였다. 업타임에 따르면, 중단이나 정지 횟수가 개선된 것은 팬데믹 위기로 인한 운영 측면의 변화와 관련이 있는 것으로 보인다. 보고서는 “최근에 이루어진 개선은 부분적으로 코로나19의 영향과 관련이 있다. 예상과 달리, 2020년에는 데이터센터의 대규모 서비스 중단 사태가 없었다. 기업 데이터센터 활동이 감소한 것, 기업 내부와 현장에 위치한 인력이 줄어든 것, 업그레이드가 감소한 것, 많은 조직에서 워크로드와 트래픽이 감소한 것, 클라우드/퍼블릭 인터넷 기반 애플리케이션 사용이 증가한 것이 이유일 것이다”라고 설명했다. 서비스 중단의 심각도에 있어서는 약 50%가 매출, 시간, 평판 측면에서 손해나 피해를 입은 것으로 조사됐다. 올해 보고서에 따르면, 20% 정도의 서비스 중단이 심각하거나 중대한 사고였다.  서비스 중단 사고의 원인으로는 여전히 전력이 43%로 가장 비중이 컸고, 네트워크 문제(14%), 냉방 문제(14%), 소프트웨어/IT 시스템 장애(14%)가 그 뒤를 이었다.   클라우드의 미션 크리티컬 워크로드 증가  데이터센터 보유 기업은 점점 더 많은 미션 크리티컬...

서베이 업타임 서비스중단 송환

2021.10.08

데이터센터는 날로 증가하는 복잡성과 운영 과제에 직면해 있다. 업타임 인스터튜트(Uptime Institute)에 따르면, 미셜 크리티컬 워크로드에 퍼블릭 클라우드를 사용하는 기업이 늘어나고 있지만, 많은 기업이 클라우드 서비스 업체의 인프라 운영에 대한 투명성을 요구하고 있다. 업타임 인스티튜트의 2021 글로벌 데이터센터 서베이 결과 중 용량 증가, 지출, 기술 도입, 인력 고용 등의 핵심 트렌드를 살펴본다.     데이터센터 서비스 중단은 줄고 비용은 늘고 업타임은 연례 조사에서 3년 동안 발생한 서비스 중단이나 정지의 횟수와 심각성을 조사한다. 중단이나 정지 횟수의 경우, 2021년 조사 대상 데이터센터의 69%가 지난 3년 동안 일부 서비스 중단 문제를 겪었다고 답했다. 2020년에 이렇게 대답한 비율은 이보다 높은 78%였다. 업타임에 따르면, 중단이나 정지 횟수가 개선된 것은 팬데믹 위기로 인한 운영 측면의 변화와 관련이 있는 것으로 보인다. 보고서는 “최근에 이루어진 개선은 부분적으로 코로나19의 영향과 관련이 있다. 예상과 달리, 2020년에는 데이터센터의 대규모 서비스 중단 사태가 없었다. 기업 데이터센터 활동이 감소한 것, 기업 내부와 현장에 위치한 인력이 줄어든 것, 업그레이드가 감소한 것, 많은 조직에서 워크로드와 트래픽이 감소한 것, 클라우드/퍼블릭 인터넷 기반 애플리케이션 사용이 증가한 것이 이유일 것이다”라고 설명했다. 서비스 중단의 심각도에 있어서는 약 50%가 매출, 시간, 평판 측면에서 손해나 피해를 입은 것으로 조사됐다. 올해 보고서에 따르면, 20% 정도의 서비스 중단이 심각하거나 중대한 사고였다.  서비스 중단 사고의 원인으로는 여전히 전력이 43%로 가장 비중이 컸고, 네트워크 문제(14%), 냉방 문제(14%), 소프트웨어/IT 시스템 장애(14%)가 그 뒤를 이었다.   클라우드의 미션 크리티컬 워크로드 증가  데이터센터 보유 기업은 점점 더 많은 미션 크리티컬...

2021.10.08

"엔지니어도 손대기 힘들었다"··· 페이스북 서비스 장애 원인은?

지난 4일 발생한 접속 장애의 근본 원인이 정기적인 유지보수 작업에 따른 DNS 서버 오류였지만, 그보다 앞서 페이스북의 백본 네트워크 전체가 마비된 것이 문제였다고 페이스북이 밝혔다.   페이스북에 따르면 설상가상으로 DNS에 장애가 발생하면서 페이스북 엔지니어들이 네트워크 백업을 위해 필요한 기기에 원격으로 접속할 수 없었다. 엔지니어들은 결국 수동으로 시스템을 재가동하기 위해 데이터센터로 직접 가야만 했다. 늦어진 대응을 더 느리게 만든 건 아무나 접근할 수 없도록 고안된 안전장치였다. 페이스북의 엔지니어링 인프라 담당 부사장 산토시 야나르단은 "데이터센터에 접근하기가 어려웠다. 하드웨어와 라우터에 물리적으로 액세스할 수 있어도 고치기 어렵게 설계돼 있다"라고 공식 블로그에 적었다. 시간은 걸렸지만 시스템이 복구되면서 네트워크가 정상화됐다. 네트워크를 통해 실행되는 고객 대면 서비스를 복구하는 것은 시간이 오래 걸리는 프로세스다. 이들 서비스를 한꺼번에 재가동하면 또 다른 서비스 다운이 발생할 수 있기 때문이다. 야나르단은 "각 데이터센터가 수 십 메가와트 범위의 전력 사용량 감소를 보고하고 있었고, 이런 상황에서 갑작스러운 가동은 전기 시스템부터 (데이터 임시저장소인) 캐시까지 모든 것을 위험에 빠뜨릴 수 있었다”라고 설명했다. 이번 사태로 페이스북은 총 7시간 5분 동안 다운됐다. 유지보수의 실패 페이스북의 서비스 중단을 촉발한 것은 정기적인 유지보수 작업으로, 이 과정에서 백본 네트워크 일부가 끊어졌다. 야나르단은 "정기적인 유지보수 작업 도중에 전 세계 백본 용량의 가용성을 검사해달라는 명령어를 실행했는데 의도와는 달리 이 명령어가 백본 네트워크에서 모든 접속을 끊었다"라며, "사실상 전 세계 페이스북 데이터센터 접속이 중단됐다"라고 설명했다. 이는 예상하기 어려운 상황이었다. 페이스북은 심각한 서비스 중단을 초래할 수 있는 명령어를 걸러내는 도구를 갖추고 있었지만 이번에 이 도구가 제대로 작동하지 않았다. 야나...

페이스북 소셜네트워크 서비스중단

2021.10.07

지난 4일 발생한 접속 장애의 근본 원인이 정기적인 유지보수 작업에 따른 DNS 서버 오류였지만, 그보다 앞서 페이스북의 백본 네트워크 전체가 마비된 것이 문제였다고 페이스북이 밝혔다.   페이스북에 따르면 설상가상으로 DNS에 장애가 발생하면서 페이스북 엔지니어들이 네트워크 백업을 위해 필요한 기기에 원격으로 접속할 수 없었다. 엔지니어들은 결국 수동으로 시스템을 재가동하기 위해 데이터센터로 직접 가야만 했다. 늦어진 대응을 더 느리게 만든 건 아무나 접근할 수 없도록 고안된 안전장치였다. 페이스북의 엔지니어링 인프라 담당 부사장 산토시 야나르단은 "데이터센터에 접근하기가 어려웠다. 하드웨어와 라우터에 물리적으로 액세스할 수 있어도 고치기 어렵게 설계돼 있다"라고 공식 블로그에 적었다. 시간은 걸렸지만 시스템이 복구되면서 네트워크가 정상화됐다. 네트워크를 통해 실행되는 고객 대면 서비스를 복구하는 것은 시간이 오래 걸리는 프로세스다. 이들 서비스를 한꺼번에 재가동하면 또 다른 서비스 다운이 발생할 수 있기 때문이다. 야나르단은 "각 데이터센터가 수 십 메가와트 범위의 전력 사용량 감소를 보고하고 있었고, 이런 상황에서 갑작스러운 가동은 전기 시스템부터 (데이터 임시저장소인) 캐시까지 모든 것을 위험에 빠뜨릴 수 있었다”라고 설명했다. 이번 사태로 페이스북은 총 7시간 5분 동안 다운됐다. 유지보수의 실패 페이스북의 서비스 중단을 촉발한 것은 정기적인 유지보수 작업으로, 이 과정에서 백본 네트워크 일부가 끊어졌다. 야나르단은 "정기적인 유지보수 작업 도중에 전 세계 백본 용량의 가용성을 검사해달라는 명령어를 실행했는데 의도와는 달리 이 명령어가 백본 네트워크에서 모든 접속을 끊었다"라며, "사실상 전 세계 페이스북 데이터센터 접속이 중단됐다"라고 설명했다. 이는 예상하기 어려운 상황이었다. 페이스북은 심각한 서비스 중단을 초래할 수 있는 명령어를 걸러내는 도구를 갖추고 있었지만 이번에 이 도구가 제대로 작동하지 않았다. 야나...

2021.10.07

칼럼 | 클라우드 사업자가 말하는 가용성과 실제 서비스 중단 시간

오늘날 클라우드의 가동시간은 매우 중요하지만, 업체가 제공하는 데이터는 혼란스럽다. 3대 클라우드 서비스를 비교 분석해 본다. 많은 기업에 클라우드는 그저 중요한 정도가 아니라 이른바 ‘미션 크리티컬한’ 존재이다. 점점 더 많은 IT 책임자와 사업 책임자가 퍼블릭 클라우드를 자사 디지털 트랜스포메이션 전략의 핵심 구성요소로 여기고 있으며, 퍼블릭 클라우드를 하이브리드 클라우드의 일부로 또는 온전히 퍼블릭 클라우드로 사용한다. 클라우드의 서비스 중단 사태는 이제 기업의 핵심 서비스가 중단되는 것을 의미하며, 이 때문에 클라우드의 안정성에 대한 기준 역시 높아졌다. 따라서 클라우드 구매자에게는 클라우드 서비스 업체의 안정성을 나타내는 수치를 정확하게 파악하는 것이 중요하다. 문제는 클라우드 서비스 업체가 일관성 있는 방식으로 관련 정보를 공개하지 않는다는 것. 실제로 일부 수치는 의미있는 결정을 하기 어려울 정도로 혼란스럽다.     실제 서비스 중단 시간과 표시된 중단 시간 마이크로소프트 애저와 구글 클라우드 플랫폼(GCP)은 모두 전형적인 날짜와 시간 정보를 제공하지만, 영향을 받은 서비스와 지역의 개략적인 데이터만 제공한다. 문제는 이런 정보로는 전반적인 안정성을 알기 어렵다는 것. 예를 들어, 만약 애저 클라우드에 세 개 리전의 다섯 가지 서비스에 영향을 미친 1시간의 서비스 중단이 있었다면, 웹 사이트는 그저 1시간의 서비스 중단이라고 표시한다. 사실 총 15시간의 서비스 중단이라고 봐야 한다. 애저와 GCP, AWS 중에서는 애저가 상세한 정보를 가장 적게 제공한다. GCP는 서비스 수준의 상세 정보를 제공해 더 낫지만, 지역 정보는 잘 알려주지 않는 경향이 있다. 때로는 어떤 서비스를 사용할 수 없는지 명확하게 하지만, 그렇지 않을 때도 있다. AWS가 가장 세밀한 보고서를 제공하는데, 모든 지역 모든 서비스를 보여준다. 만약 장애가 발생해 세 가지 서비스에 영향을 미친다면, 세 가지 서비스 모두 이용...

SLA AWS 애저 서비스중단 장애 가용성 GCP

2019.05.15

오늘날 클라우드의 가동시간은 매우 중요하지만, 업체가 제공하는 데이터는 혼란스럽다. 3대 클라우드 서비스를 비교 분석해 본다. 많은 기업에 클라우드는 그저 중요한 정도가 아니라 이른바 ‘미션 크리티컬한’ 존재이다. 점점 더 많은 IT 책임자와 사업 책임자가 퍼블릭 클라우드를 자사 디지털 트랜스포메이션 전략의 핵심 구성요소로 여기고 있으며, 퍼블릭 클라우드를 하이브리드 클라우드의 일부로 또는 온전히 퍼블릭 클라우드로 사용한다. 클라우드의 서비스 중단 사태는 이제 기업의 핵심 서비스가 중단되는 것을 의미하며, 이 때문에 클라우드의 안정성에 대한 기준 역시 높아졌다. 따라서 클라우드 구매자에게는 클라우드 서비스 업체의 안정성을 나타내는 수치를 정확하게 파악하는 것이 중요하다. 문제는 클라우드 서비스 업체가 일관성 있는 방식으로 관련 정보를 공개하지 않는다는 것. 실제로 일부 수치는 의미있는 결정을 하기 어려울 정도로 혼란스럽다.     실제 서비스 중단 시간과 표시된 중단 시간 마이크로소프트 애저와 구글 클라우드 플랫폼(GCP)은 모두 전형적인 날짜와 시간 정보를 제공하지만, 영향을 받은 서비스와 지역의 개략적인 데이터만 제공한다. 문제는 이런 정보로는 전반적인 안정성을 알기 어렵다는 것. 예를 들어, 만약 애저 클라우드에 세 개 리전의 다섯 가지 서비스에 영향을 미친 1시간의 서비스 중단이 있었다면, 웹 사이트는 그저 1시간의 서비스 중단이라고 표시한다. 사실 총 15시간의 서비스 중단이라고 봐야 한다. 애저와 GCP, AWS 중에서는 애저가 상세한 정보를 가장 적게 제공한다. GCP는 서비스 수준의 상세 정보를 제공해 더 낫지만, 지역 정보는 잘 알려주지 않는 경향이 있다. 때로는 어떤 서비스를 사용할 수 없는지 명확하게 하지만, 그렇지 않을 때도 있다. AWS가 가장 세밀한 보고서를 제공하는데, 모든 지역 모든 서비스를 보여준다. 만약 장애가 발생해 세 가지 서비스에 영향을 미친다면, 세 가지 서비스 모두 이용...

2019.05.15

네트워크 문제로 인한 데이터센터 가동 정지 증가··· 이유는?

데이터센터 가동 정지를 유발하는 일반적인 원인 중 하나는 정전이다. 그러나 정전이 유일한 원인은 아니다. 기업 컴퓨팅 환경의 복잡성이 높아지면서 IT 시스템과 네트워크의 장애로 인해 데이터센터 가동이 멈추는 사례가 늘고 있는 것으로 나타났다.   업타임 인스티튜트(Uptime Institute)는 불시의 다운타임을 유발하는 요소를 파악하고자 공개적으로 보고된 가동 정지 사례를 연구해왔다. 지난 3년 동안 전통적인 미디어 또는 소셜 미디어에 보고된 162건의 가동 정지 사례에서 정보를 수집했는데, 이 기간 동안 가용 데이터의 양은 꾸준히 증가했다. 연구진이 데이터를 수집한 가동 정지 사례는 2016년 27건, 2017년 57건에 이어 2018년에는 78건으로 늘었다. 복원성 서비스와 데이터센터 구축 및 운영 자문, 인증 서비스를 제공하는 업타임 인스티튜트의 리서치 책임자 앤디 로렌스는 “뉴스에 보도되는 가동 정지 사례가 계속 증가하고 있다”고 말했다. 로렌스는 이번 연구 결과를 발표하면서 “업계의 기록을 보면 거의 매일 전 세계 곳곳에서 심각한 가동 정지가 발생한다”면서 “가동 정지 건수 자체가 급증한다고 단정할 수는 없지만, 다운타임에 대한 관심은 커지고 있다. 정지가 미치는 영향이 확대되고 있는 것은 분명해 보인다”고 말했다. 업타임 인스티튜트 연구에서 발견한 중대한 사실은 전체적인 장애에서 정전보다 네트워크와 IT 시스템의 문제가 원인으로 작용하는 경우가 더 많다는 것이다. 전원 시스템의 안정성이 과거에 비해 향상되면서 온프레미스 데이터센터의 전원 장애가 줄어든 덕분이다. 업타임 인스티튜트의 CTO 크리스 브라운은 지난 20년 동안 IT 업계는 전원 시스템의 일부에 오류 또는 장애가 발생하더라도 IT 자산 운영을 지속할 수 있게 해주는 시스템을 설계하는 데 주력해왔다면서 “이중 코드 IT 장비에 전원을 공급하는 2N 전원 분배 시스템이 나오면서 IT 시스템은 단일...

서비스중단 정전 장애 가용성

2019.03.26

데이터센터 가동 정지를 유발하는 일반적인 원인 중 하나는 정전이다. 그러나 정전이 유일한 원인은 아니다. 기업 컴퓨팅 환경의 복잡성이 높아지면서 IT 시스템과 네트워크의 장애로 인해 데이터센터 가동이 멈추는 사례가 늘고 있는 것으로 나타났다.   업타임 인스티튜트(Uptime Institute)는 불시의 다운타임을 유발하는 요소를 파악하고자 공개적으로 보고된 가동 정지 사례를 연구해왔다. 지난 3년 동안 전통적인 미디어 또는 소셜 미디어에 보고된 162건의 가동 정지 사례에서 정보를 수집했는데, 이 기간 동안 가용 데이터의 양은 꾸준히 증가했다. 연구진이 데이터를 수집한 가동 정지 사례는 2016년 27건, 2017년 57건에 이어 2018년에는 78건으로 늘었다. 복원성 서비스와 데이터센터 구축 및 운영 자문, 인증 서비스를 제공하는 업타임 인스티튜트의 리서치 책임자 앤디 로렌스는 “뉴스에 보도되는 가동 정지 사례가 계속 증가하고 있다”고 말했다. 로렌스는 이번 연구 결과를 발표하면서 “업계의 기록을 보면 거의 매일 전 세계 곳곳에서 심각한 가동 정지가 발생한다”면서 “가동 정지 건수 자체가 급증한다고 단정할 수는 없지만, 다운타임에 대한 관심은 커지고 있다. 정지가 미치는 영향이 확대되고 있는 것은 분명해 보인다”고 말했다. 업타임 인스티튜트 연구에서 발견한 중대한 사실은 전체적인 장애에서 정전보다 네트워크와 IT 시스템의 문제가 원인으로 작용하는 경우가 더 많다는 것이다. 전원 시스템의 안정성이 과거에 비해 향상되면서 온프레미스 데이터센터의 전원 장애가 줄어든 덕분이다. 업타임 인스티튜트의 CTO 크리스 브라운은 지난 20년 동안 IT 업계는 전원 시스템의 일부에 오류 또는 장애가 발생하더라도 IT 자산 운영을 지속할 수 있게 해주는 시스템을 설계하는 데 주력해왔다면서 “이중 코드 IT 장비에 전원을 공급하는 2N 전원 분배 시스템이 나오면서 IT 시스템은 단일...

2019.03.26

블로그 | 데이터센터가 여러 곳이라도 페이스북이 다운되는 이유

페이스북이 8시간 동안 서비스가 중단되며 인스타그램과 페이스북 메신저에도 영향을 미치는 동안 수성 역행이 두드러졌다. 심각한 피해를 본 사람은 없는 것으로 알려졌다. 일부는 다른 사람들과 오래간만에 오프라인 인터랙션의 시간을 가졌을지도 모른다.   페이스북은 DDoS 같은 외부 공격은 아니었으며, 늘 그렇듯 환경 설정 오류라고 밝혔다. 페이스북 대변인 트라비스 리드는 “어제, 우리는 서버의 환경 설정을 변경했는데, 여러 가지 문제를 유발했다. 결과적으로 많은 사람이 페이스북의 앱과 서비스에 액세스하는 데 어려움을 겪었다”라며, “문제를 해결했고, 시스템은 몇 시간 만에 복구되었다”고 밝혔다. 물론 불편에 대한 사과와 사용자의 인내에 감사 표시도 했다.  문제는 여분의 데이터센터를 미국과 전 세계에 보유하고 있는 회사가 이런 식으로 서비스가 중단될 수 있는가이다. 페이스북은 이런 사태를 방지하기 위해 미국에만 7곳의 리던던시 데이터센터를 두고 있는 것으로 알려져 있다. 명확하지는 않지만, 버그나 운영 문제의 경우, 리던던시 데이터센터가 별 도움이 되지 않는다. 실제로는 문제가 빠르게 확산되는 역할을 한다. 애널리스트 롭 엔델은 “리던던시는 완전한 시스템 장애와 같은 경우에는 도움이 된다. 하지만 복제 데이터센터이기 때문에 바이러스나 소프트웨어 버그에는 도움이 되지 않는다. 따라서 이번 경우에 리던던시 데이터센터는 아무런 역할을 할 수 없다”고 설명했다. 소프트웨어 버그라면 인스타그램이나 페이스북 메신저에는 영향을 미치지 않아야 한다. 하지만 엔델은 문제가 공유된 코드와 관련된 것으로 보고 있다. 장애가 난 것이 어떤 것이든 같은 코드나 파생 코드를 사용한다면, 모든 서비스에 걸쳐 복제되기 때문이다. 엔델은 “적어도 서비스에 대한 파이어월을 갖춰 이런 문제를 방지했어야 했다”고 지적했다.  editor@itworld.co.kr

페이스북 서비스중단 다운 리던던시 수성역행

2019.03.18

페이스북이 8시간 동안 서비스가 중단되며 인스타그램과 페이스북 메신저에도 영향을 미치는 동안 수성 역행이 두드러졌다. 심각한 피해를 본 사람은 없는 것으로 알려졌다. 일부는 다른 사람들과 오래간만에 오프라인 인터랙션의 시간을 가졌을지도 모른다.   페이스북은 DDoS 같은 외부 공격은 아니었으며, 늘 그렇듯 환경 설정 오류라고 밝혔다. 페이스북 대변인 트라비스 리드는 “어제, 우리는 서버의 환경 설정을 변경했는데, 여러 가지 문제를 유발했다. 결과적으로 많은 사람이 페이스북의 앱과 서비스에 액세스하는 데 어려움을 겪었다”라며, “문제를 해결했고, 시스템은 몇 시간 만에 복구되었다”고 밝혔다. 물론 불편에 대한 사과와 사용자의 인내에 감사 표시도 했다.  문제는 여분의 데이터센터를 미국과 전 세계에 보유하고 있는 회사가 이런 식으로 서비스가 중단될 수 있는가이다. 페이스북은 이런 사태를 방지하기 위해 미국에만 7곳의 리던던시 데이터센터를 두고 있는 것으로 알려져 있다. 명확하지는 않지만, 버그나 운영 문제의 경우, 리던던시 데이터센터가 별 도움이 되지 않는다. 실제로는 문제가 빠르게 확산되는 역할을 한다. 애널리스트 롭 엔델은 “리던던시는 완전한 시스템 장애와 같은 경우에는 도움이 된다. 하지만 복제 데이터센터이기 때문에 바이러스나 소프트웨어 버그에는 도움이 되지 않는다. 따라서 이번 경우에 리던던시 데이터센터는 아무런 역할을 할 수 없다”고 설명했다. 소프트웨어 버그라면 인스타그램이나 페이스북 메신저에는 영향을 미치지 않아야 한다. 하지만 엔델은 문제가 공유된 코드와 관련된 것으로 보고 있다. 장애가 난 것이 어떤 것이든 같은 코드나 파생 코드를 사용한다면, 모든 서비스에 걸쳐 복제되기 때문이다. 엔델은 “적어도 서비스에 대한 파이어월을 갖춰 이런 문제를 방지했어야 했다”고 지적했다.  editor@itworld.co.kr

2019.03.18

칼럼 | 구글, 구글 플러스와 함께 '충성 사용자의 신뢰'도 잃었다

이 칼럼을 읽고 있는 사람은 열정적인 구글 사용자일 가능성이 꽤 높다. 해당 기업의 최신 제품에 관심을 갖고 항상 당시의 흥미로운 새 앱 또는 서비스를 사용해 보고 싶어하는 사람들 말이다. 그리고 자신이 그런 사람이라면 지금쯤 약간 의기소침하고 실망감이 들 가능성도 있다. 사실 당신을 비난하는 것은 아니다. 필자도 그렇게 느끼고 있다. 필자는 일반적인 "이런, 구글이 나를 감시하네!" 같은 걱정에 관해 이야기하는 것이 아니다. 구글 사용자라면 해당 기업의 비즈니스 모델과 이와 관련된 선택사항에 관해 잘 알고 있을 것이다. 필자는 구글이 고귀한 비전과 장대한 약속을 통해 가장 헌신적인 사용자들을 새로운 서비스로 유입시켜 이 사용자들이 새로운 서비스를 조사하여 삶에 통합하는데 투자하고 나면 생각을 바꾸고 이를 완전히 포기하는 패턴에 관해 이야기하는 것이다. 구글에 대해 잘 아는 사람이라면 모두 익숙한 이야기이며 이런 생각 자체는 새롭지 않지만 이런 트렌드가 최근 더욱 고조되고 있다. 생각해 보자. 올 가을 한 달 동안 구글은 4년 전 대대적으로 공개한 차세대 이메일 앱인 인박스(Inbox)를 포기했으며 사람들을 설득하기 위해 엄청난 에너지를 쏟아 부은 "구글의 미래" 소셜 계층인 구글 플러스(Google+)를 없애버렸다. 분명 구글의 기준으로는 둘 다 널리 보급되지 않은 서비스였다. 하지만 그것이 핵심은 아니다. 둘 다 구글의 가장 충성스럽고 열정적인 사용자, 즉 유용한 신제품에 대한 소문을 퍼뜨리고 (의도하지 않게) 해당 브랜드의 홍보대사로 활동한 사용자들이 좋아하는 서비스였다. 구글은 결국 이런 사람들이 자신의 삶과 긴밀히 연결된 제품을 포기하게 만들었으며 전략이 바뀌고 다른 기회가 찾아오자 조용히 움직였다. 구글은 구글 플러스나 인박스만 없앤 것이 아니라 가장 열정적인 사용자들의 신뢰를 잃었다. 인박스의 경우 구글의 자신감이 상당했다. 2014년 출시 당시 해당 앱은 "개발에 수 ...

구글 서비스중단 구글 플러스

2018.10.23

이 칼럼을 읽고 있는 사람은 열정적인 구글 사용자일 가능성이 꽤 높다. 해당 기업의 최신 제품에 관심을 갖고 항상 당시의 흥미로운 새 앱 또는 서비스를 사용해 보고 싶어하는 사람들 말이다. 그리고 자신이 그런 사람이라면 지금쯤 약간 의기소침하고 실망감이 들 가능성도 있다. 사실 당신을 비난하는 것은 아니다. 필자도 그렇게 느끼고 있다. 필자는 일반적인 "이런, 구글이 나를 감시하네!" 같은 걱정에 관해 이야기하는 것이 아니다. 구글 사용자라면 해당 기업의 비즈니스 모델과 이와 관련된 선택사항에 관해 잘 알고 있을 것이다. 필자는 구글이 고귀한 비전과 장대한 약속을 통해 가장 헌신적인 사용자들을 새로운 서비스로 유입시켜 이 사용자들이 새로운 서비스를 조사하여 삶에 통합하는데 투자하고 나면 생각을 바꾸고 이를 완전히 포기하는 패턴에 관해 이야기하는 것이다. 구글에 대해 잘 아는 사람이라면 모두 익숙한 이야기이며 이런 생각 자체는 새롭지 않지만 이런 트렌드가 최근 더욱 고조되고 있다. 생각해 보자. 올 가을 한 달 동안 구글은 4년 전 대대적으로 공개한 차세대 이메일 앱인 인박스(Inbox)를 포기했으며 사람들을 설득하기 위해 엄청난 에너지를 쏟아 부은 "구글의 미래" 소셜 계층인 구글 플러스(Google+)를 없애버렸다. 분명 구글의 기준으로는 둘 다 널리 보급되지 않은 서비스였다. 하지만 그것이 핵심은 아니다. 둘 다 구글의 가장 충성스럽고 열정적인 사용자, 즉 유용한 신제품에 대한 소문을 퍼뜨리고 (의도하지 않게) 해당 브랜드의 홍보대사로 활동한 사용자들이 좋아하는 서비스였다. 구글은 결국 이런 사람들이 자신의 삶과 긴밀히 연결된 제품을 포기하게 만들었으며 전략이 바뀌고 다른 기회가 찾아오자 조용히 움직였다. 구글은 구글 플러스나 인박스만 없앤 것이 아니라 가장 열정적인 사용자들의 신뢰를 잃었다. 인박스의 경우 구글의 자신감이 상당했다. 2014년 출시 당시 해당 앱은 "개발에 수 ...

2018.10.23

블로그 | 테러나 핵 공격, 해킹으로 클라우드가 붕괴할 가능성?

멸망에의 경고다. 미국의 주요 클라우드 서비스 업체가 3~6일 정도 중단되는 사이버 문제가 발생하면, 고개 기업은 약 53~190억 달러의 비즈니스 손실을 볼 수 있으며, 이중 보험으로 보상되는 범위는 11~35억 달러뿐이라고 보험회사 로이드가 밝혔다. 여기서 사이버 문제란 해킹이나 번개, 데이터센터의 폭발, 사람의 실수 등을 포함한다. 필자는 로이드가 제시한 수치를 의심하지 않는다. 하지만 만약 하나 이상의 주요 클라우드 서비스가 어떤 이유로 중단되면, 재고 시스템에 로그인하지 못하는 것 이상의 심각한 문제를 겪게 될 것이다. 그렇지만 그럴 가능성이 너무 작다. 퍼블릭 클라우드 서비스 업체는 상당한 복원력을 갖추고 있다. 과거에 지역적인 서비스 중단 사태가 있긴 했지만, 보통은 사람의 실수에 의한 것이었다. 사이버 공격으로 퍼블릭 클라우드를 중단시키는 것은 500Kg짜리 망치를 들고 두더지 잡기 게임을 하는 것과 마찬가지다. 퍼블릭 클라우드 서비스 업체는 자사 클라우드 내에 여분의 시스템을 여럿 구축한다. 만약 데이터센터 한 곳을 중단시켰다고 해도, 더 나아가 한 지역을 중단시켰다고 해도, 모든 지역의 모든 데이터센터를 파괴할 수는 없다. 한 곳이 죽으면, 다른 곳이 임무를 넘겨 받는다. 물론 핵 공격 같은 극단적인 경우로 클라우드 서비스 업체 대부분이 날아가는 경우를 생각할 수도 있다. 하지만 이런 경우에도 과연 모든 퍼블릭 클라우드가 오프라인 상태가 될지 의심스럽다. TCP/IP는 미 국방부가 개발한 것으로, 핵 공격으로 유실된 네트워크 구간을 우회하는 경로는 찾아내도록 만들어진 것이다. 그리고 솔직히 말해 핵 공격이 일어났는데, 과연 클라우드 서비스를 얼마나 신경 쓰겠는가? 가능성은 낮은 지구 종말 시나리오에서도 클라우드 컴퓨팅이 좋은 점이 하나 있는데, 클라우드 서비스 업체는 예전의 기업 데이터센터처럼 무방비 상태로 당하지 않는다는 것이다. 클라우드 서비스 업체는 지역적으로 넓게 분산되어 있고, 여분의 시스템이 ...

퍼블릭클라우드 서비스중단 테러 핵공격

2018.01.31

멸망에의 경고다. 미국의 주요 클라우드 서비스 업체가 3~6일 정도 중단되는 사이버 문제가 발생하면, 고개 기업은 약 53~190억 달러의 비즈니스 손실을 볼 수 있으며, 이중 보험으로 보상되는 범위는 11~35억 달러뿐이라고 보험회사 로이드가 밝혔다. 여기서 사이버 문제란 해킹이나 번개, 데이터센터의 폭발, 사람의 실수 등을 포함한다. 필자는 로이드가 제시한 수치를 의심하지 않는다. 하지만 만약 하나 이상의 주요 클라우드 서비스가 어떤 이유로 중단되면, 재고 시스템에 로그인하지 못하는 것 이상의 심각한 문제를 겪게 될 것이다. 그렇지만 그럴 가능성이 너무 작다. 퍼블릭 클라우드 서비스 업체는 상당한 복원력을 갖추고 있다. 과거에 지역적인 서비스 중단 사태가 있긴 했지만, 보통은 사람의 실수에 의한 것이었다. 사이버 공격으로 퍼블릭 클라우드를 중단시키는 것은 500Kg짜리 망치를 들고 두더지 잡기 게임을 하는 것과 마찬가지다. 퍼블릭 클라우드 서비스 업체는 자사 클라우드 내에 여분의 시스템을 여럿 구축한다. 만약 데이터센터 한 곳을 중단시켰다고 해도, 더 나아가 한 지역을 중단시켰다고 해도, 모든 지역의 모든 데이터센터를 파괴할 수는 없다. 한 곳이 죽으면, 다른 곳이 임무를 넘겨 받는다. 물론 핵 공격 같은 극단적인 경우로 클라우드 서비스 업체 대부분이 날아가는 경우를 생각할 수도 있다. 하지만 이런 경우에도 과연 모든 퍼블릭 클라우드가 오프라인 상태가 될지 의심스럽다. TCP/IP는 미 국방부가 개발한 것으로, 핵 공격으로 유실된 네트워크 구간을 우회하는 경로는 찾아내도록 만들어진 것이다. 그리고 솔직히 말해 핵 공격이 일어났는데, 과연 클라우드 서비스를 얼마나 신경 쓰겠는가? 가능성은 낮은 지구 종말 시나리오에서도 클라우드 컴퓨팅이 좋은 점이 하나 있는데, 클라우드 서비스 업체는 예전의 기업 데이터센터처럼 무방비 상태로 당하지 않는다는 것이다. 클라우드 서비스 업체는 지역적으로 넓게 분산되어 있고, 여분의 시스템이 ...

2018.01.31

칼럼 | 아마존이 보여준 '한 바구니에 담긴 달걀'의 위험성

최근 아마존의 미 동부 제1 데이터센터에 장애가 발생해 해당 센터에서 지원하던 아마존 S3 클라우드 서비스가 중단되는 사고가 발생했다. 그리고 그 결과는 실로 참담했다. 이 사고로 인해 쿼라(Quora), 비즈니스 인사이더(Business Insider), 넷플릭스(Netflix), 레딧(Reddit), 슬랙(Slack) 등 거대 사이트들의 운영이 전면 혹은 일부 중단되는 피해를 입었다. 시밀러테크(SimilerTech)의 조사에 따르면, 이번 장애로 영향을 받은 사이트는 총 12만 4,000곳에 이르는 것으로 확인됐다. 대학에 다니는 필자의 한 지인으로부터도 “학교의 IT 기능이 마비돼 학생들이 과제에 접근하지 못하는 등 불편을 입었다”는 피해 사례가 전해졌다. 한 클라우드 컨설턴트는 아마존 웹 서비스(AWS, Amazon Web Services)를 이용하던 고객들이 애저(Azure)로의 전환을 요구해오는 통에 전화기에 불이 날 지경이었다고 하소연하기도 했다. 이번 사태는 우리에게 중요한 교훈을 전해줬다. 그간 우리는, 클라우드를 잘못 이용해왔다. 이 수백만 달러의 피해를 불러온 사고의 원인은, 놀랍게도 하나의 타이핑 오류에서 비롯된 것이었다. AWS 측의 보고 자료를 인용해본다. “아마존 S3(Simple Storage Service) 팀은 S3 청구 시스템 처리 지연을 야기하는 문제에 대한 디버깅 작업을 진행 중이었다. 9:37 AM(태평양 표준시) 기준, 공인 S3 팀원 한 명이 기존 플레이북을 이용해 S3 청구 프로세스에 이용되는 S3 서브시스템 가운데 하나와 연결된 소수의 서버들을 제거하는 명령을 실행했다. 이 과정에서 명령 1 건이 잘못 입력됐고, 그로 인해 계획한 것보다 많은 수의 서버가 제거됐다. 오류로 인해 제거된 서버는 본래 작업 대상이 아닌 다른 두 S3 서브시스템을 지원하는 서버들로, 이로 인해 지역 내 모든 S3 객체의 메타데이터와 위치 정보를 총괄하는 인덱스 서브시스템에 손상이 가...

AWS 서비스중단 장애 분산배치

2017.03.09

최근 아마존의 미 동부 제1 데이터센터에 장애가 발생해 해당 센터에서 지원하던 아마존 S3 클라우드 서비스가 중단되는 사고가 발생했다. 그리고 그 결과는 실로 참담했다. 이 사고로 인해 쿼라(Quora), 비즈니스 인사이더(Business Insider), 넷플릭스(Netflix), 레딧(Reddit), 슬랙(Slack) 등 거대 사이트들의 운영이 전면 혹은 일부 중단되는 피해를 입었다. 시밀러테크(SimilerTech)의 조사에 따르면, 이번 장애로 영향을 받은 사이트는 총 12만 4,000곳에 이르는 것으로 확인됐다. 대학에 다니는 필자의 한 지인으로부터도 “학교의 IT 기능이 마비돼 학생들이 과제에 접근하지 못하는 등 불편을 입었다”는 피해 사례가 전해졌다. 한 클라우드 컨설턴트는 아마존 웹 서비스(AWS, Amazon Web Services)를 이용하던 고객들이 애저(Azure)로의 전환을 요구해오는 통에 전화기에 불이 날 지경이었다고 하소연하기도 했다. 이번 사태는 우리에게 중요한 교훈을 전해줬다. 그간 우리는, 클라우드를 잘못 이용해왔다. 이 수백만 달러의 피해를 불러온 사고의 원인은, 놀랍게도 하나의 타이핑 오류에서 비롯된 것이었다. AWS 측의 보고 자료를 인용해본다. “아마존 S3(Simple Storage Service) 팀은 S3 청구 시스템 처리 지연을 야기하는 문제에 대한 디버깅 작업을 진행 중이었다. 9:37 AM(태평양 표준시) 기준, 공인 S3 팀원 한 명이 기존 플레이북을 이용해 S3 청구 프로세스에 이용되는 S3 서브시스템 가운데 하나와 연결된 소수의 서버들을 제거하는 명령을 실행했다. 이 과정에서 명령 1 건이 잘못 입력됐고, 그로 인해 계획한 것보다 많은 수의 서버가 제거됐다. 오류로 인해 제거된 서버는 본래 작업 대상이 아닌 다른 두 S3 서브시스템을 지원하는 서버들로, 이로 인해 지역 내 모든 S3 객체의 메타데이터와 위치 정보를 총괄하는 인덱스 서브시스템에 손상이 가...

2017.03.09

MS, “아웃룩과 핫메일 서비스 장애는 과열된 서버가 원인”

아웃룩닷컴과 핫메일 사용자들을 무려 16시간이나 이메일에 접속하지 못하도록 했던 서비스 중단 사태는 데이터센터의 과열된 서버들 때문이었다고 마이크로소프트가 밝혔다.   태평양 표준시를 기준으로 지난 3월 12일 오후 1시 30분에 시작된 서비스 중단 사태는 Hotmail.com과 outlook.com 그리고 일부 스카이드라이브 사용자에게 영향을 미쳤다. 문제를 바로 잡는 데는 무려 16시간이 걸려 3월 14일 오전 5시 40분에 서비스가 정상화됐다. 하지만 이 시점에서는 마이크로소프트가 이에 대한 설명을 내놓지 않았다.   마이크로소프트의 부사장 아서 디 한은 수요일 늦게 서비스 장애가 발생했고, 시스템의 핵심 요소에 대한 펌웨어 업데이트를 했다고 블로그 포스트를 통해 밝혔다 아서 한의 설명에 따르면 이번 업데이트는 이전에 이미 성공적으로 적용된 것이었는데, 이번에 특정 인스턴스에서 예기치 못한 장애를 일으켰고, 이 장애가 데이터센터의 기본적인 온도를 급상승하게 만들었다는 것. 온도가 너무 급하게 올라 보호 조처를 취하기도 전에 데이터센터의 서버들에 영향을 미친 것이다.   과열로 인해 영향을 받은 서버에 저장된 메일함에 사용자들이 액세스하지 못하게 됐으며, 대기서버로 시스템을 전환하는 것도 불가능해 져서 결국 소프트웨어는 물론 사람의 직접적인 개입이 필요했다는 것이 아서 한의 설명이다.   아서 한은 “이처럼 사람의 직접적인 개입이 필요한 경우는 우리 서비스에서는 일반적인 것이 아니기 때문에 복구에 상당한 시간이 걸렸다”라고 덧붙였다.   마이크로소프트는 서비스 중단 사태에 대해 사과하고, 재발 방지를 약속했지만, 얼마나 많은 사용자가 영향을 받았는지는 밝히지 않았다.   한편 마이크로소프트는 향후 다시 서비스 중단 사태가 발생하면 https://status.live.com에서 특정 서비스에 대한 정확한 정보를 실시간으로 얻을 수 있다고 밝혔다.   ...

데이터센터 마이크로소프트 서비스중단 장애 핫메일 아웃룩닷컴 과열

2013.03.15

아웃룩닷컴과 핫메일 사용자들을 무려 16시간이나 이메일에 접속하지 못하도록 했던 서비스 중단 사태는 데이터센터의 과열된 서버들 때문이었다고 마이크로소프트가 밝혔다.   태평양 표준시를 기준으로 지난 3월 12일 오후 1시 30분에 시작된 서비스 중단 사태는 Hotmail.com과 outlook.com 그리고 일부 스카이드라이브 사용자에게 영향을 미쳤다. 문제를 바로 잡는 데는 무려 16시간이 걸려 3월 14일 오전 5시 40분에 서비스가 정상화됐다. 하지만 이 시점에서는 마이크로소프트가 이에 대한 설명을 내놓지 않았다.   마이크로소프트의 부사장 아서 디 한은 수요일 늦게 서비스 장애가 발생했고, 시스템의 핵심 요소에 대한 펌웨어 업데이트를 했다고 블로그 포스트를 통해 밝혔다 아서 한의 설명에 따르면 이번 업데이트는 이전에 이미 성공적으로 적용된 것이었는데, 이번에 특정 인스턴스에서 예기치 못한 장애를 일으켰고, 이 장애가 데이터센터의 기본적인 온도를 급상승하게 만들었다는 것. 온도가 너무 급하게 올라 보호 조처를 취하기도 전에 데이터센터의 서버들에 영향을 미친 것이다.   과열로 인해 영향을 받은 서버에 저장된 메일함에 사용자들이 액세스하지 못하게 됐으며, 대기서버로 시스템을 전환하는 것도 불가능해 져서 결국 소프트웨어는 물론 사람의 직접적인 개입이 필요했다는 것이 아서 한의 설명이다.   아서 한은 “이처럼 사람의 직접적인 개입이 필요한 경우는 우리 서비스에서는 일반적인 것이 아니기 때문에 복구에 상당한 시간이 걸렸다”라고 덧붙였다.   마이크로소프트는 서비스 중단 사태에 대해 사과하고, 재발 방지를 약속했지만, 얼마나 많은 사용자가 영향을 받았는지는 밝히지 않았다.   한편 마이크로소프트는 향후 다시 서비스 중단 사태가 발생하면 https://status.live.com에서 특정 서비스에 대한 정확한 정보를 실시간으로 얻을 수 있다고 밝혔다.   ...

2013.03.15

아마존 서비스 중단, 문제는 정전만이 아니었다

아마존 웹 서비스가 지난 주 발생한 서비스 중단 사태를 다룬 사후 보고서를 통해 정전과 소프트웨어 버그, 병목 재부팅이 “여러 고객에게 심각한 영향”을 미쳤다고 밝혔다.   태풍이 미국 중부를 휩쓰는 동안 제일 먼저 정전이 AWS의 EC2, EBS(Elastic Block Storage), RDS(Relational Database Service)에 영향을 미쳤으며, 이 장애가 ELB(Elastic Load Balancer) 같은 제어 서비스까지 확장됐다. 로드 밸런싱 서비스는 문제가 되는 지역의 트래픽을 이전하는 역할을 하도록 되어 있다.   아마존은 당시 여러 차례의 전기 공급 중단을 겪었지만, 대부분은 보조 발전기를 통해 해결할 수 있었다. 하지만 밤 8시 경에는 보조 발전기가 충분한 전력을 공급하지 못했고, 또 하나의 백업 전력인 UPS는 7분 만에 동이 나고 말았다. 이에 따라 8시 4분 경의 약 10분 동안 데이터센터에는 전력이 공급되지 못했고, 주요 서비스가 중단되는 사태를 맞이하고 말았다.   이에 따라 8시 4분부터 9시 10분까지 1시간이 넘는 시간 동안 아마존 고객들은 새로운 EC2 인스턴스나 EBS 볼륨을 생성할 수 없었다. 거의 대부분의 인스턴스는 11시 15분부터 자정 사이에 정상화됐지만, 복구 과정은 재기동 프로세스에 대한 요청이 폭주하면서 서버 기동 프로세스에 병목현상이 발생해 더욱 지체되고 말았다. 아마존은 이런 병목현상이 향후 정전에 대비해 개선 작업을 진행해야 할 부분이라고 밝혔다.   아마존은 자사의 서비스 지역을 여러 개의 가용 영역으로 나누고 있는데, 이는 장애가 발생했을 때 해당 영역을 격리하기 위한 것이다. 이번 서비스 중단은 한 영역에서만 발생했지만, 아마존이 문제가 발생한 영역의 트래픽을 다른 가용 영역으로 분산하려 하면서 문제가 더 커지고 말았다. 아마존은 “전력과 시스템이 복구...

클라우드 아마존 서비스중단 재해 복구 로드밸런서

2012.07.04

아마존 웹 서비스가 지난 주 발생한 서비스 중단 사태를 다룬 사후 보고서를 통해 정전과 소프트웨어 버그, 병목 재부팅이 “여러 고객에게 심각한 영향”을 미쳤다고 밝혔다.   태풍이 미국 중부를 휩쓰는 동안 제일 먼저 정전이 AWS의 EC2, EBS(Elastic Block Storage), RDS(Relational Database Service)에 영향을 미쳤으며, 이 장애가 ELB(Elastic Load Balancer) 같은 제어 서비스까지 확장됐다. 로드 밸런싱 서비스는 문제가 되는 지역의 트래픽을 이전하는 역할을 하도록 되어 있다.   아마존은 당시 여러 차례의 전기 공급 중단을 겪었지만, 대부분은 보조 발전기를 통해 해결할 수 있었다. 하지만 밤 8시 경에는 보조 발전기가 충분한 전력을 공급하지 못했고, 또 하나의 백업 전력인 UPS는 7분 만에 동이 나고 말았다. 이에 따라 8시 4분 경의 약 10분 동안 데이터센터에는 전력이 공급되지 못했고, 주요 서비스가 중단되는 사태를 맞이하고 말았다.   이에 따라 8시 4분부터 9시 10분까지 1시간이 넘는 시간 동안 아마존 고객들은 새로운 EC2 인스턴스나 EBS 볼륨을 생성할 수 없었다. 거의 대부분의 인스턴스는 11시 15분부터 자정 사이에 정상화됐지만, 복구 과정은 재기동 프로세스에 대한 요청이 폭주하면서 서버 기동 프로세스에 병목현상이 발생해 더욱 지체되고 말았다. 아마존은 이런 병목현상이 향후 정전에 대비해 개선 작업을 진행해야 할 부분이라고 밝혔다.   아마존은 자사의 서비스 지역을 여러 개의 가용 영역으로 나누고 있는데, 이는 장애가 발생했을 때 해당 영역을 격리하기 위한 것이다. 이번 서비스 중단은 한 영역에서만 발생했지만, 아마존이 문제가 발생한 영역의 트래픽을 다른 가용 영역으로 분산하려 하면서 문제가 더 커지고 말았다. 아마존은 “전력과 시스템이 복구...

2012.07.04

태풍 맞은 아마존 클라우드, 넷플릭스 등 서비스 중단 사태

디지털 클라우드 서비스가 실제 태풍에 대한 면역성이 없다는 것이 확인됐다. 지난 주말 아마존과 아마존 웹 사이트에 기반을 두고 있는 몇몇 사이트는 어려움을 겪어야 했다.   지난 주 금요일부터 미국 동부를 휩쓴 태풍은 200만 명 이상의 피해자를 냈으며, 넷플릭스, 핀터레스트, 인스타그램 등 북부 버지니아의 아마존 EC2의 서비스 중단으로 다운이 되고 말았다.   아마존 웹 서비스에 따르면, 태평양 표준시를 기준으로 오후 8시 21분에 동부 지역의 몇몇 인스턴스에 대해 접속 문제를 조사하고 있다고 밝혔으며, 토요일 아침에는 복구를 위해 계속 작업하고 있다고 밝혔다. 넷플릭스와 핀터레스트는 복구됐지만, 인스타그램은 토요일 아침까지도 다운된 상태였다.   구글이 직접 경쟁 IaaS 서비스인 GCE(Google Compute Engine)을 발표한 시점에 이런 사고가 발생하면서 아마존에게는 악재로 작용할 것으로 보인다.   이번 서비스 중단 사태는 또한 자연재해가 디지털 클라우드에 어떤 영향을 미치는지, 그리고 디지털 인프라가 아직은 자연 재해로부터 자유롭지 못하다는 것을 다시 한 번 확인시켜 줬다. 이번 태풍으로 미국 인디애나주에서 뉴저지주에 걸쳐 많은 지역에서 전력 공급이 중단됐으며, 시속 100Km가 넘는 바람에 트레일러가 전복되고 나무가 뽑혀 날아갔다.   데이터센터 놀리지의 보도에 따르면, 피해를 입은 아마존의 데이터센터는 약 30분 동안 전력 공급이 중단됐지만, 실제로 고객 사이트는 아마존이 가상머신 인스턴스를 복구하느라 더 오래 지속됐다. 또한 이런 대규모 데이터센터는 보조 발전기를 갖추고 있기 마련이지만, 어떤 이유에서인지 작동하지 않았다. editor@itworld.co.kr

클라우드 아마존 서비스중단 GCE 자연재해 태풍

2012.07.02

디지털 클라우드 서비스가 실제 태풍에 대한 면역성이 없다는 것이 확인됐다. 지난 주말 아마존과 아마존 웹 사이트에 기반을 두고 있는 몇몇 사이트는 어려움을 겪어야 했다.   지난 주 금요일부터 미국 동부를 휩쓴 태풍은 200만 명 이상의 피해자를 냈으며, 넷플릭스, 핀터레스트, 인스타그램 등 북부 버지니아의 아마존 EC2의 서비스 중단으로 다운이 되고 말았다.   아마존 웹 서비스에 따르면, 태평양 표준시를 기준으로 오후 8시 21분에 동부 지역의 몇몇 인스턴스에 대해 접속 문제를 조사하고 있다고 밝혔으며, 토요일 아침에는 복구를 위해 계속 작업하고 있다고 밝혔다. 넷플릭스와 핀터레스트는 복구됐지만, 인스타그램은 토요일 아침까지도 다운된 상태였다.   구글이 직접 경쟁 IaaS 서비스인 GCE(Google Compute Engine)을 발표한 시점에 이런 사고가 발생하면서 아마존에게는 악재로 작용할 것으로 보인다.   이번 서비스 중단 사태는 또한 자연재해가 디지털 클라우드에 어떤 영향을 미치는지, 그리고 디지털 인프라가 아직은 자연 재해로부터 자유롭지 못하다는 것을 다시 한 번 확인시켜 줬다. 이번 태풍으로 미국 인디애나주에서 뉴저지주에 걸쳐 많은 지역에서 전력 공급이 중단됐으며, 시속 100Km가 넘는 바람에 트레일러가 전복되고 나무가 뽑혀 날아갔다.   데이터센터 놀리지의 보도에 따르면, 피해를 입은 아마존의 데이터센터는 약 30분 동안 전력 공급이 중단됐지만, 실제로 고객 사이트는 아마존이 가상머신 인스턴스를 복구하느라 더 오래 지속됐다. 또한 이런 대규모 데이터센터는 보조 발전기를 갖추고 있기 마련이지만, 어떤 이유에서인지 작동하지 않았다. editor@itworld.co.kr

2012.07.02

아마존 클라우드 서비스 장애 발생··· 업계 파장에 촉각

클라우드 시장에서 자타가 공인하는 선도 업체인 아마존이 서비스 장애로 자사의 명예에 먹칠을 한 것은 물론, 클라우드 서비스 시장 전반에 좋지 않은 인상을 남기고 말았다.   4월 21일 아침, 인기 웹 사이트인 쿠오라(Quora)와 포스퀘어(Foursquare), 레딧(Reddit) 등이 오락가락하는 서비스 상태이거나 완전히 서비스가 중단되는 사태를 겪었다. 원인은 이들 웹 사이트의 호스팅 서비스를 책임지고 있는 아마존 데이터센터의 서버에 문제가 생겼기 때문.   서비스는 미국 동부 시간으로 오후 4시에 복구됐지만, 이때까지 포스퀘어와 쿠오라 등은 서비스가 중단된 상태로 있어야 했다. 서비스가 중단되지는 않았지만, 극히 불안정한 상태였던 레딧은 자사 사이트를 통해 “레딧은 현재 ”비상 읽기전용 모드“인데, 아마존이 서비스 중단 상태이기 때문이다”라고 밝혔다. 레딧 사용자는 로그인을 할 수 없는 불편을 겪었다.   웹 성능 측정 전문업체인 얼럿사이트(AlertSite)에 따르면, 21일 오전 6시부터 오푸 1시까지, 레딧 사이트는 페이지 로딩에 60초가 걸려서 장애에 대한 안내만 보여줬다. 포스퀘어 역시 오전 8시 15분부터 정오까지 장애 이율르 설명하는 메시지를 내보냈다.   21일 새벽 5시, 이들 사이트의 관리자들은 아마존의 RDB 서비스에 영향을 미치고 있는 접속 문제를 처리하고 있다고 보고했다. 이 서비스는 클라우드 데이터베이스 관리에 사요오디는 것으로, 문제는 미국 동부의 여러 지역에서 일어났다.   이는 최소한 11시간 동안 일부 웹 사이트가 완전히 정지됐거나 부분적으로 이용 불가능한 상태였다는 것을 의미한다.   이런 사태는 다운된 사이트에게도 문제였지만, 아마존 자체로는 더욱 더 심각한 문제가 아닐 수 없다. IDC의 애널리...

클라우드 아마존 서비스중단

2011.04.22

클라우드 시장에서 자타가 공인하는 선도 업체인 아마존이 서비스 장애로 자사의 명예에 먹칠을 한 것은 물론, 클라우드 서비스 시장 전반에 좋지 않은 인상을 남기고 말았다.   4월 21일 아침, 인기 웹 사이트인 쿠오라(Quora)와 포스퀘어(Foursquare), 레딧(Reddit) 등이 오락가락하는 서비스 상태이거나 완전히 서비스가 중단되는 사태를 겪었다. 원인은 이들 웹 사이트의 호스팅 서비스를 책임지고 있는 아마존 데이터센터의 서버에 문제가 생겼기 때문.   서비스는 미국 동부 시간으로 오후 4시에 복구됐지만, 이때까지 포스퀘어와 쿠오라 등은 서비스가 중단된 상태로 있어야 했다. 서비스가 중단되지는 않았지만, 극히 불안정한 상태였던 레딧은 자사 사이트를 통해 “레딧은 현재 ”비상 읽기전용 모드“인데, 아마존이 서비스 중단 상태이기 때문이다”라고 밝혔다. 레딧 사용자는 로그인을 할 수 없는 불편을 겪었다.   웹 성능 측정 전문업체인 얼럿사이트(AlertSite)에 따르면, 21일 오전 6시부터 오푸 1시까지, 레딧 사이트는 페이지 로딩에 60초가 걸려서 장애에 대한 안내만 보여줬다. 포스퀘어 역시 오전 8시 15분부터 정오까지 장애 이율르 설명하는 메시지를 내보냈다.   21일 새벽 5시, 이들 사이트의 관리자들은 아마존의 RDB 서비스에 영향을 미치고 있는 접속 문제를 처리하고 있다고 보고했다. 이 서비스는 클라우드 데이터베이스 관리에 사요오디는 것으로, 문제는 미국 동부의 여러 지역에서 일어났다.   이는 최소한 11시간 동안 일부 웹 사이트가 완전히 정지됐거나 부분적으로 이용 불가능한 상태였다는 것을 의미한다.   이런 사태는 다운된 사이트에게도 문제였지만, 아마존 자체로는 더욱 더 심각한 문제가 아닐 수 없다. IDC의 애널리...

2011.04.22

IDG 설문조사

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.8