Offcanvas

������

마이크소프트 "팀즈 글로벌 에러, 원인 분석 중"

21일 오전 전 세계 곳곳에서 발생한 팀즈 에러에 대해 마이크로소프트가 구체적인 원인을 조사 중이라고 밝혔다. 회사에 따르면 이번 에러는 최근 배치한 일부 인프라가 내부 스토리지 서비스와 잘못된 연결된 링크를 담고 있기 때문으로 추정된다. 회사는 그러나 이번 다운 현상의 범위에 대해서는 구체적으로 언급하지 않았다.  글로벌 IT 서비스 다운현상을 추적하는 다운디텍터닷컴에 따르면, 지금까지 마이크로소프트 팀즈 오류를 보고한 횟수는 4,800번을 상회하고 있다.    We’ve determined that a recent deployment contained a broken connection to an internal storage service, which has resulted in impact. We’re working to direct traffic to a healthy service to mitigate impact. Additional information can be found in the admin center under TM402718. — Microsoft 365 Status (@MSFT365Status) July 21, 2022 ciokr@idg.co.kr

팀즈 마이크로소프트 다운 에러

2022.07.21

21일 오전 전 세계 곳곳에서 발생한 팀즈 에러에 대해 마이크로소프트가 구체적인 원인을 조사 중이라고 밝혔다. 회사에 따르면 이번 에러는 최근 배치한 일부 인프라가 내부 스토리지 서비스와 잘못된 연결된 링크를 담고 있기 때문으로 추정된다. 회사는 그러나 이번 다운 현상의 범위에 대해서는 구체적으로 언급하지 않았다.  글로벌 IT 서비스 다운현상을 추적하는 다운디텍터닷컴에 따르면, 지금까지 마이크로소프트 팀즈 오류를 보고한 횟수는 4,800번을 상회하고 있다.    We’ve determined that a recent deployment contained a broken connection to an internal storage service, which has resulted in impact. We’re working to direct traffic to a healthy service to mitigate impact. Additional information can be found in the admin center under TM402718. — Microsoft 365 Status (@MSFT365Status) July 21, 2022 ciokr@idg.co.kr

2022.07.21

로블록스의 3일 정지 참사··· '사고 이후의 분석'

지난해 10월 말, 로블록스(Roblox)의 글로벌 온라인 게임 네트워크가 다운됐다. 정지는 3일 동안 지속됐다. 이 사이트는 매일 5,000만 명의 게이머들이 사용하고 있다. 이 혼란의 원인을 파악하여 해결하기 위해 로블록스와 주요 기술 공급자인 하시코프(HashiCorp)의 엔지니어들이 많은 노력을 기울여야 했다. 로블록스는 결국 1월 말 블로그 게시물에서 주목할 만한 분석 결과를 제시했다. 분석에 따르면 로블록스는 이상한 여러 이벤트의 동시 다발적인 발생에 의해 피해를 입었다. 로블록스와 하시코프가 진단과 해결을 위해 거친 프로세스는 대규모 IaC(Infrastructure as Code) 설비를 운용하고 있거나 인프라에서 컨테이너(Container)와 마이크로서비스(Microservice)를 대대적으로 사용하고 있는 기업들에게 유익한 교훈을 전한다.    로블록스는 하시코프 소프트웨어 스택에 올인했다 로블록스의 거대한 멀티플레이어 게임 인프라는 전 세계에 분산되어 있다. 이를 통해 준수한 네트워크 지연 속도를 제공함으로써 멀리 떨어진 곳에서 연결할 수도 있는 플레이어들에게도 공정한 게임 공간을 제공한다.  이를 위해 로블록스는 하시코프의 콘설(Consul), 노마드(Nomad), 볼트(Vault)를 사용하여 전 세계적으로 분산되어 있는 1만 8,000개 이상의 서버와 17만 개 이상의 컨테이너를 관리한다. 하시코프 소프트웨어를 사용하여 워크로드를 발견하고 일정을 조율하며 암호화키를 저장하고 순환시킨다. 로블록스의 인프라 기술 책임자 롭 카메론은 2020년 하시코프 사용자 컨퍼런스에서 해당 기업이 이런 기술을 어떻게 사용하고 있고 회사의 비즈니스 모델에 필수적인 이유에 관한 프레젠테이션을 진행했다(해당 링크는 전사본과 비디오 녹화본으로 연결된다).  카메론은 “미국에서 프랑스에 있는 사람과 게임을 하고 싶을 때 가능하다. 우리는 이를 파악하여 플레이어에게 가능한 가장 가까운 곳에 컴퓨팅 서버를 배치함으로써 가...

로블록스 사고 다운 정지 해시콥 클라우드 네이티브

2022.02.04

지난해 10월 말, 로블록스(Roblox)의 글로벌 온라인 게임 네트워크가 다운됐다. 정지는 3일 동안 지속됐다. 이 사이트는 매일 5,000만 명의 게이머들이 사용하고 있다. 이 혼란의 원인을 파악하여 해결하기 위해 로블록스와 주요 기술 공급자인 하시코프(HashiCorp)의 엔지니어들이 많은 노력을 기울여야 했다. 로블록스는 결국 1월 말 블로그 게시물에서 주목할 만한 분석 결과를 제시했다. 분석에 따르면 로블록스는 이상한 여러 이벤트의 동시 다발적인 발생에 의해 피해를 입었다. 로블록스와 하시코프가 진단과 해결을 위해 거친 프로세스는 대규모 IaC(Infrastructure as Code) 설비를 운용하고 있거나 인프라에서 컨테이너(Container)와 마이크로서비스(Microservice)를 대대적으로 사용하고 있는 기업들에게 유익한 교훈을 전한다.    로블록스는 하시코프 소프트웨어 스택에 올인했다 로블록스의 거대한 멀티플레이어 게임 인프라는 전 세계에 분산되어 있다. 이를 통해 준수한 네트워크 지연 속도를 제공함으로써 멀리 떨어진 곳에서 연결할 수도 있는 플레이어들에게도 공정한 게임 공간을 제공한다.  이를 위해 로블록스는 하시코프의 콘설(Consul), 노마드(Nomad), 볼트(Vault)를 사용하여 전 세계적으로 분산되어 있는 1만 8,000개 이상의 서버와 17만 개 이상의 컨테이너를 관리한다. 하시코프 소프트웨어를 사용하여 워크로드를 발견하고 일정을 조율하며 암호화키를 저장하고 순환시킨다. 로블록스의 인프라 기술 책임자 롭 카메론은 2020년 하시코프 사용자 컨퍼런스에서 해당 기업이 이런 기술을 어떻게 사용하고 있고 회사의 비즈니스 모델에 필수적인 이유에 관한 프레젠테이션을 진행했다(해당 링크는 전사본과 비디오 녹화본으로 연결된다).  카메론은 “미국에서 프랑스에 있는 사람과 게임을 하고 싶을 때 가능하다. 우리는 이를 파악하여 플레이어에게 가능한 가장 가까운 곳에 컴퓨팅 서버를 배치함으로써 가...

2022.02.04

구글 서비스 다수에서 글로벌 '먹통' 사태 발생 “유럽 지역이 가장 큰 피해”

지메일, 독스, 워크스페이스, 시트, 미트 등 구글 비즈니스 앱과 서비스 서비스 다수가 지난 14일 저녁 30분 이상 중단되는 상황이 발생했다. 구글은 현재 서비스가 대부분은 복원됐다고 밝혔다.  다운 디텍터(Down Detector) 웹 사이트에 따르면 유럽 지역의 이용자들이 가장 크게 타격을 입었다. 일과 시간 중에 중단 현상이 발생했기 때문이다. 미 동부 해안 지역의 이용자들도 업무가 시작되는 시점과 맞물렸다.  구글에 따르면 회사는 동부 표준시 오전 6시 55분에 중단을 확인했다. 또 이번 서비스 중단 사태가 “대부분의 사용자”에게 영향을 미쳤다. 서비스 중단(outage)는 동부 표준시 기준 오전 7시 31분에 ‘서비스 방해’(service disruption) 수준으로 격하됐다. 단 일부 사용자는 여전히 서비스 품질에 문제를 겪었다. 문제가 모두 해결된 시점은 오전 7시 52분이었다고 구글은 밝혔다.  한편 이번 중단 사태의 영향을 받은 다른 주요 서비스로는 유튜브, 맵스, 구글 네스트 등이 있다.  구글은 중단 사태의 원인과 관련해 인증 문제를 언급했다. 회사는 “오늘 오전3시 47분 (태평양 표준시)에 내부 저장 용량 문제로 인해 약 45 분 동안 인증 시스템이 중단됐다. 사용자가 로그인해야 하는 서비스들이 높은 오류율을 보였다. 인증 시스템 문제는 오전 4시 32분에 해결됐으며, 이에 따라 모든 서비스가 복원됐다. 영향을 받은 모든 분들께 사과드리며 향후 이 문제가 재발하지 않도록 철저한 후속 검토를 실시할 것이다”라고 밝혔다.  451 리서치/S&P 글로벌 마켓 인텔리전스의 선임 애널리스트 라울 카스타논은 이번 중단 사태에 대해 다음과 같이 언급했다. “전 세계적으로 나타난 구글 서비스 중단은 2020년에 일어난 ‘설상가상’ 상황이라고 표현할 수 있다. 원격근무로의 전환이 아직 미완성 상태임을 반영한다. 코로나19 사태는 클라우드로의 이전에 동력이 됐다. 지역적으로 분산된 인력...

구글 중단 먹통 유튜브 워크스페이스 유럽 다운

2020.12.15

지메일, 독스, 워크스페이스, 시트, 미트 등 구글 비즈니스 앱과 서비스 서비스 다수가 지난 14일 저녁 30분 이상 중단되는 상황이 발생했다. 구글은 현재 서비스가 대부분은 복원됐다고 밝혔다.  다운 디텍터(Down Detector) 웹 사이트에 따르면 유럽 지역의 이용자들이 가장 크게 타격을 입었다. 일과 시간 중에 중단 현상이 발생했기 때문이다. 미 동부 해안 지역의 이용자들도 업무가 시작되는 시점과 맞물렸다.  구글에 따르면 회사는 동부 표준시 오전 6시 55분에 중단을 확인했다. 또 이번 서비스 중단 사태가 “대부분의 사용자”에게 영향을 미쳤다. 서비스 중단(outage)는 동부 표준시 기준 오전 7시 31분에 ‘서비스 방해’(service disruption) 수준으로 격하됐다. 단 일부 사용자는 여전히 서비스 품질에 문제를 겪었다. 문제가 모두 해결된 시점은 오전 7시 52분이었다고 구글은 밝혔다.  한편 이번 중단 사태의 영향을 받은 다른 주요 서비스로는 유튜브, 맵스, 구글 네스트 등이 있다.  구글은 중단 사태의 원인과 관련해 인증 문제를 언급했다. 회사는 “오늘 오전3시 47분 (태평양 표준시)에 내부 저장 용량 문제로 인해 약 45 분 동안 인증 시스템이 중단됐다. 사용자가 로그인해야 하는 서비스들이 높은 오류율을 보였다. 인증 시스템 문제는 오전 4시 32분에 해결됐으며, 이에 따라 모든 서비스가 복원됐다. 영향을 받은 모든 분들께 사과드리며 향후 이 문제가 재발하지 않도록 철저한 후속 검토를 실시할 것이다”라고 밝혔다.  451 리서치/S&P 글로벌 마켓 인텔리전스의 선임 애널리스트 라울 카스타논은 이번 중단 사태에 대해 다음과 같이 언급했다. “전 세계적으로 나타난 구글 서비스 중단은 2020년에 일어난 ‘설상가상’ 상황이라고 표현할 수 있다. 원격근무로의 전환이 아직 미완성 상태임을 반영한다. 코로나19 사태는 클라우드로의 이전에 동력이 됐다. 지역적으로 분산된 인력...

2020.12.15

블로그 | MS 팀즈 다운 사태 유감, 비즈니스는 계속 되어야 한다

재택근무가 늘어나면 마이크로소프트 팀즈를 선택하는 기업이 늘고 있다. 그렇다면 팀즈는 증가한 수요에 제대로 대응할 수 있을까? 재택근무자가 폭증하면서 각종 협업 도구에 대한 관심이 고조되는 가운데 2017년 출시된 마이크로소프트 팀즈의 인기 또한 급증하고 있다. 직원들은 이 소프트웨어를 이용해 마이크로소프트 계정으로 채팅이나 화상회의, 공동 문서 작업을 쉽게 구현할 수 있다.  그러나 이 솔루션에 대한 수요가 급증하면서 팀즈의 안정성에 대한 의문이 제기되고 있다. 실제로 지난 19일 유럽에서는 2시간 동안의 서비스 중단 사태가 발생했으며, 이로 인해 재택근무 이용자들의 업무 처리에 난항을 겪어야 했다.  -> 원격근무 폭증 영향?··· MS 팀즈, 유럽에서 서비스 다운 취약한 경제 상황 속에서 이러한 문제는 이용 기업들에게 극심한 피해로 이어질 수 있다. 민감한 협상이나 주문을 온라인에서 수행하는 중이라면 특히 그럴 것이다.  팀즈의 안정성에 의문이 제기되는 이유는 2020년 들어 이미 두 번째로 발생한 다운 사태이기 때문이다. 비슷한 일이 다시 발생하면 이용 기업들은 대안을 찾아나설 가능성이 크다. 마이크로소프트에 이미 비용을 지불한 기업이라면 이중 지출을 피하지 못할 수도 있다.  수많은 협업 소프트웨어 공급사들이 코로나19 바이러스로 인해 고군부투하는 기업을 대상으로 각종 프로모션을 진행하고 있다. 마이크로소프트가 팀즈 앱의 안정성을 확보하기 위해 추가 조치를 단행해야 할 시점이다. ciokr@idg.co.kr  

협업 마이크로소프트 재택근무 다운 팀즈

2020.03.20

재택근무가 늘어나면 마이크로소프트 팀즈를 선택하는 기업이 늘고 있다. 그렇다면 팀즈는 증가한 수요에 제대로 대응할 수 있을까? 재택근무자가 폭증하면서 각종 협업 도구에 대한 관심이 고조되는 가운데 2017년 출시된 마이크로소프트 팀즈의 인기 또한 급증하고 있다. 직원들은 이 소프트웨어를 이용해 마이크로소프트 계정으로 채팅이나 화상회의, 공동 문서 작업을 쉽게 구현할 수 있다.  그러나 이 솔루션에 대한 수요가 급증하면서 팀즈의 안정성에 대한 의문이 제기되고 있다. 실제로 지난 19일 유럽에서는 2시간 동안의 서비스 중단 사태가 발생했으며, 이로 인해 재택근무 이용자들의 업무 처리에 난항을 겪어야 했다.  -> 원격근무 폭증 영향?··· MS 팀즈, 유럽에서 서비스 다운 취약한 경제 상황 속에서 이러한 문제는 이용 기업들에게 극심한 피해로 이어질 수 있다. 민감한 협상이나 주문을 온라인에서 수행하는 중이라면 특히 그럴 것이다.  팀즈의 안정성에 의문이 제기되는 이유는 2020년 들어 이미 두 번째로 발생한 다운 사태이기 때문이다. 비슷한 일이 다시 발생하면 이용 기업들은 대안을 찾아나설 가능성이 크다. 마이크로소프트에 이미 비용을 지불한 기업이라면 이중 지출을 피하지 못할 수도 있다.  수많은 협업 소프트웨어 공급사들이 코로나19 바이러스로 인해 고군부투하는 기업을 대상으로 각종 프로모션을 진행하고 있다. 마이크로소프트가 팀즈 앱의 안정성을 확보하기 위해 추가 조치를 단행해야 할 시점이다. ciokr@idg.co.kr  

2020.03.20

블로그 | 데이터센터가 여러 곳이라도 페이스북이 다운되는 이유

페이스북이 8시간 동안 서비스가 중단되며 인스타그램과 페이스북 메신저에도 영향을 미치는 동안 수성 역행이 두드러졌다. 심각한 피해를 본 사람은 없는 것으로 알려졌다. 일부는 다른 사람들과 오래간만에 오프라인 인터랙션의 시간을 가졌을지도 모른다.   페이스북은 DDoS 같은 외부 공격은 아니었으며, 늘 그렇듯 환경 설정 오류라고 밝혔다. 페이스북 대변인 트라비스 리드는 “어제, 우리는 서버의 환경 설정을 변경했는데, 여러 가지 문제를 유발했다. 결과적으로 많은 사람이 페이스북의 앱과 서비스에 액세스하는 데 어려움을 겪었다”라며, “문제를 해결했고, 시스템은 몇 시간 만에 복구되었다”고 밝혔다. 물론 불편에 대한 사과와 사용자의 인내에 감사 표시도 했다.  문제는 여분의 데이터센터를 미국과 전 세계에 보유하고 있는 회사가 이런 식으로 서비스가 중단될 수 있는가이다. 페이스북은 이런 사태를 방지하기 위해 미국에만 7곳의 리던던시 데이터센터를 두고 있는 것으로 알려져 있다. 명확하지는 않지만, 버그나 운영 문제의 경우, 리던던시 데이터센터가 별 도움이 되지 않는다. 실제로는 문제가 빠르게 확산되는 역할을 한다. 애널리스트 롭 엔델은 “리던던시는 완전한 시스템 장애와 같은 경우에는 도움이 된다. 하지만 복제 데이터센터이기 때문에 바이러스나 소프트웨어 버그에는 도움이 되지 않는다. 따라서 이번 경우에 리던던시 데이터센터는 아무런 역할을 할 수 없다”고 설명했다. 소프트웨어 버그라면 인스타그램이나 페이스북 메신저에는 영향을 미치지 않아야 한다. 하지만 엔델은 문제가 공유된 코드와 관련된 것으로 보고 있다. 장애가 난 것이 어떤 것이든 같은 코드나 파생 코드를 사용한다면, 모든 서비스에 걸쳐 복제되기 때문이다. 엔델은 “적어도 서비스에 대한 파이어월을 갖춰 이런 문제를 방지했어야 했다”고 지적했다.  editor@itworld.co.kr

페이스북 서비스중단 다운 리던던시 수성역행

2019.03.18

페이스북이 8시간 동안 서비스가 중단되며 인스타그램과 페이스북 메신저에도 영향을 미치는 동안 수성 역행이 두드러졌다. 심각한 피해를 본 사람은 없는 것으로 알려졌다. 일부는 다른 사람들과 오래간만에 오프라인 인터랙션의 시간을 가졌을지도 모른다.   페이스북은 DDoS 같은 외부 공격은 아니었으며, 늘 그렇듯 환경 설정 오류라고 밝혔다. 페이스북 대변인 트라비스 리드는 “어제, 우리는 서버의 환경 설정을 변경했는데, 여러 가지 문제를 유발했다. 결과적으로 많은 사람이 페이스북의 앱과 서비스에 액세스하는 데 어려움을 겪었다”라며, “문제를 해결했고, 시스템은 몇 시간 만에 복구되었다”고 밝혔다. 물론 불편에 대한 사과와 사용자의 인내에 감사 표시도 했다.  문제는 여분의 데이터센터를 미국과 전 세계에 보유하고 있는 회사가 이런 식으로 서비스가 중단될 수 있는가이다. 페이스북은 이런 사태를 방지하기 위해 미국에만 7곳의 리던던시 데이터센터를 두고 있는 것으로 알려져 있다. 명확하지는 않지만, 버그나 운영 문제의 경우, 리던던시 데이터센터가 별 도움이 되지 않는다. 실제로는 문제가 빠르게 확산되는 역할을 한다. 애널리스트 롭 엔델은 “리던던시는 완전한 시스템 장애와 같은 경우에는 도움이 된다. 하지만 복제 데이터센터이기 때문에 바이러스나 소프트웨어 버그에는 도움이 되지 않는다. 따라서 이번 경우에 리던던시 데이터센터는 아무런 역할을 할 수 없다”고 설명했다. 소프트웨어 버그라면 인스타그램이나 페이스북 메신저에는 영향을 미치지 않아야 한다. 하지만 엔델은 문제가 공유된 코드와 관련된 것으로 보고 있다. 장애가 난 것이 어떤 것이든 같은 코드나 파생 코드를 사용한다면, 모든 서비스에 걸쳐 복제되기 때문이다. 엔델은 “적어도 서비스에 대한 파이어월을 갖춰 이런 문제를 방지했어야 했다”고 지적했다.  editor@itworld.co.kr

2019.03.18

시스코 웹엑스 중단 사태··· 완벽한 복구 '아직'

시스코 웹엑스 협업 시스템의 서비스 중단 문제가 1주일이 넘게 지나도록 이어지고 있다. 시스코 웹 사이트에 따르면 9월 25일 대규모 중단 사태가 시작된 이후 관련 웹엑스 서비스에 레이턴시 및 연결 문제 등이 일부 나타나고 있는 중이다. 회사는 중단 시점에 "웹엑스 팀 서비스가 지속적인 서비스 중단으로 영향 받고 있다. 엔지니어링 리소스는 온라인 상태이며 서비스를 복원하기 위해 노력하고 있다. 우리는 그 충격에 사과하며 모든 관련 인력들이 서비스를 복구하기 노력하고 있다"라고 전했었다. 이후 대부분의 서비스 조금씩 정상화됐다. 그러나 웹엑스 팀(Teams) 서비스는 오랜 대기 시간과 같은 문제가 이어졌으며, 지난 4일까지도 성능 저하와 같은 몇몇 문제가 남아 있는 상태다. 시스코 측은 간헐적으로 서비스 복원 노력에 대한 게시글을 게재하고 있지만 실제 원인에 대한 자세한 설명은 아직 내놓지 않고 있다. 근본 원인에 대한 분석이 마무리되면 결과 보고서가 공개될 것으로 관측된다. ciokr@idg.co.kr

시스코 중단 다운 웹엑스

2018.10.05

시스코 웹엑스 협업 시스템의 서비스 중단 문제가 1주일이 넘게 지나도록 이어지고 있다. 시스코 웹 사이트에 따르면 9월 25일 대규모 중단 사태가 시작된 이후 관련 웹엑스 서비스에 레이턴시 및 연결 문제 등이 일부 나타나고 있는 중이다. 회사는 중단 시점에 "웹엑스 팀 서비스가 지속적인 서비스 중단으로 영향 받고 있다. 엔지니어링 리소스는 온라인 상태이며 서비스를 복원하기 위해 노력하고 있다. 우리는 그 충격에 사과하며 모든 관련 인력들이 서비스를 복구하기 노력하고 있다"라고 전했었다. 이후 대부분의 서비스 조금씩 정상화됐다. 그러나 웹엑스 팀(Teams) 서비스는 오랜 대기 시간과 같은 문제가 이어졌으며, 지난 4일까지도 성능 저하와 같은 몇몇 문제가 남아 있는 상태다. 시스코 측은 간헐적으로 서비스 복원 노력에 대한 게시글을 게재하고 있지만 실제 원인에 대한 자세한 설명은 아직 내놓지 않고 있다. 근본 원인에 대한 분석이 마무리되면 결과 보고서가 공개될 것으로 관측된다. ciokr@idg.co.kr

2018.10.05

"2016년 사례에서 배우자' 빅판다가 제시하는 다운 사태 예방법

2016년에는 매출 타격과 평판 저하로 이어진 굵직굵직한 다운 사고가 수 차례 있었다. 버그 픽스 등에 대응하기 위해 시스템 구성을 변경하려다 발생한 사고들이 잦았다. 빅판다(BigPanda)는 예상하지 못한 다운 사고를 방지하기 위해서는 밟아야 할 스텝들이 있다고 조언한다. 2016년 주요 다운 사고를 살펴보고 이러한 상황을 예방하는 방안을 살펴본다. 사우스웨스트 항공 지난 10월 836대의 사우스웨어스트 항공기가 이륙하지 못 하는 사고가 발생했다. 이 항공사의 기술 시스템과 관련한 문제가 발생했기 때문이었다. 이 항공사 엔지니어들이 백업 절차를 구동시키고 나서야 승객과 수화물 운송을 정상화시킬 수 있었다. 델타 항공 아틀란타 본사에서 미 동부 시각 새벽 2시 30분에 시작된 정전 사고는 이 항공사의 전세계 컴퓨터 시스템과 운영에 영향을 미쳐 운항 지연 사태를 촉발시켰다. 빅판다는 5시간 동안 이어진 이 사고로 인해 2,000여 건의 항공 예약이 취소되고 총 1억 5,000만 달러 상당의 손해가 발생했다고 추산했다. 세일즈포스 이 클라우드 애플리케이션 기업이 웹사이트에 밝힌 내용에 따르면, 12시간 동안 이어진 다운 사고는 NA14 인스턴스 상의 데이터베이스 고장에서 비롯됐으며 NA14 데이터베이스 파일 통합 이슈를 야기시켰다. 빅판다는 사고 인한 매출 타격이 2,000만 달러에 이르는 것으로 추정했다. 애플 지난 6월 애플의 아이클라우드와 앱스토어, 아이튠스, 애플TV 등이 9시간 동안 다운됐다. 12월 초에도 사용자들이 자신의 아이클라우드 계정에 접근할 수 없는 상황이 발생했다. 슬랙 웹 서버 용량 이슈로 인해 슬랙의 300만 사용자는 90분 동안 슬랙을 이용하지 못 했다. 사용자들이 트위터를 통해 이 사건을 희화화한 사연은 이곳에서 확인할 수 있다. 핵심 시스템을 분류하라 예기하지 않은 다운 사고를 피하기 위해서는 IT 운영 팀이 각 서비스의 계층을 구분하고 비즈니스에 핵심적인 시스템을 미리 구분...

사고 예방 정지 다운 빅판다 불통

2017.01.02

2016년에는 매출 타격과 평판 저하로 이어진 굵직굵직한 다운 사고가 수 차례 있었다. 버그 픽스 등에 대응하기 위해 시스템 구성을 변경하려다 발생한 사고들이 잦았다. 빅판다(BigPanda)는 예상하지 못한 다운 사고를 방지하기 위해서는 밟아야 할 스텝들이 있다고 조언한다. 2016년 주요 다운 사고를 살펴보고 이러한 상황을 예방하는 방안을 살펴본다. 사우스웨스트 항공 지난 10월 836대의 사우스웨어스트 항공기가 이륙하지 못 하는 사고가 발생했다. 이 항공사의 기술 시스템과 관련한 문제가 발생했기 때문이었다. 이 항공사 엔지니어들이 백업 절차를 구동시키고 나서야 승객과 수화물 운송을 정상화시킬 수 있었다. 델타 항공 아틀란타 본사에서 미 동부 시각 새벽 2시 30분에 시작된 정전 사고는 이 항공사의 전세계 컴퓨터 시스템과 운영에 영향을 미쳐 운항 지연 사태를 촉발시켰다. 빅판다는 5시간 동안 이어진 이 사고로 인해 2,000여 건의 항공 예약이 취소되고 총 1억 5,000만 달러 상당의 손해가 발생했다고 추산했다. 세일즈포스 이 클라우드 애플리케이션 기업이 웹사이트에 밝힌 내용에 따르면, 12시간 동안 이어진 다운 사고는 NA14 인스턴스 상의 데이터베이스 고장에서 비롯됐으며 NA14 데이터베이스 파일 통합 이슈를 야기시켰다. 빅판다는 사고 인한 매출 타격이 2,000만 달러에 이르는 것으로 추정했다. 애플 지난 6월 애플의 아이클라우드와 앱스토어, 아이튠스, 애플TV 등이 9시간 동안 다운됐다. 12월 초에도 사용자들이 자신의 아이클라우드 계정에 접근할 수 없는 상황이 발생했다. 슬랙 웹 서버 용량 이슈로 인해 슬랙의 300만 사용자는 90분 동안 슬랙을 이용하지 못 했다. 사용자들이 트위터를 통해 이 사건을 희화화한 사연은 이곳에서 확인할 수 있다. 핵심 시스템을 분류하라 예기하지 않은 다운 사고를 피하기 위해서는 IT 운영 팀이 각 서비스의 계층을 구분하고 비즈니스에 핵심적인 시스템을 미리 구분...

2017.01.02

클라우드 연결 문제가 발생한다면?

아마 온 세상이 멈춰버린 기분일 것이다. 몇 주 전 어느 날 오후 구글 드라이브와 구글 문서도구가 갑자기 작동을 멈췄을 때 이를 이용하는 지식근로자들 다수는 어떻게 대처할지 몰라 갈팡질팡했다. 모든 데이터가 온라인에 저장되어 있고 일상 서류 작업에 쓰는 앱을 사용할 수 없었기 때문에 워드패드로 전환할 수 밖에 없었다. 비즈니스 문서를 어디까지 완료했는지 기억해내느라 애를 써야 하는 경우도 있었다. 미션-크리티컬 기업 앱에 접속할 수 없는 상황은 프로젝트 완수, 동료와의 커뮤니케이션, 생산성 유지가 어려워진다는 의미로 직결된다. 실제로 손해도 크다. 한 IDC는 포츈 1,000대 기업의 경우 미션 크리티컬 앱 고장으로 인한 평균 비용이 시간당 50만 달러에서 100만 달러에 이른다고 추정했다. IT 부서가 이 상황을 어떻게 처리할지에 대해 몇몇 전문가들에게 질문했다. 주목할 만한 사실 중 하나는 어느 누구도 클라우드 컴퓨팅의 한계을 강조하지 않았다는 점이다. 인프라 확장성, 작업 공간 제약 탈피, 관리형/호스팅 서비스의 장점은 위에 설명된 몇 가지 불편한 점들보다 훨씬 크다. 전문가들에 의하면 요점은 이렇게 종종 발생하는 접속 장애 문제를 어떻게 처리할 것인지 계획이 필요하다는 점이다. 1. 긴급 상황 대책을 수립하라 직원들의 생산성을 유지하는 핵심 중 하나는 긴급 상황 대책을 수립하는 것이다. IT 컨설턴트 크리스 게하르트는 기업의 SaaS 포트폴리오 내 모든 애플리케이션에 대안 옵션이 있어야 한다고 조언했다. 예를 들어 만약 작업자가 구글 드라이브에 의존해 판매 프레젠테이션을 한다면, 연결이 없어도 미션 크리티컬 파일에 접속할 수 있도록 온-프레미스 파일 스토리지 옵션도 갖추고 있어야 한다는 이야기다. 여기에는 마이크로소프트 오피스 365, 구글 포 워크, 기트허브, 애져, 심지어 AWS같은 앱도 포함된다. 또한 이는 재난 복구 계획처럼 다뤄져야 한다. 그는 이 과정이 비즈니스 프로세스이기도 하다며,...

Saas 클라우드 다운 접속 오프라인 모드

2015.11.06

아마 온 세상이 멈춰버린 기분일 것이다. 몇 주 전 어느 날 오후 구글 드라이브와 구글 문서도구가 갑자기 작동을 멈췄을 때 이를 이용하는 지식근로자들 다수는 어떻게 대처할지 몰라 갈팡질팡했다. 모든 데이터가 온라인에 저장되어 있고 일상 서류 작업에 쓰는 앱을 사용할 수 없었기 때문에 워드패드로 전환할 수 밖에 없었다. 비즈니스 문서를 어디까지 완료했는지 기억해내느라 애를 써야 하는 경우도 있었다. 미션-크리티컬 기업 앱에 접속할 수 없는 상황은 프로젝트 완수, 동료와의 커뮤니케이션, 생산성 유지가 어려워진다는 의미로 직결된다. 실제로 손해도 크다. 한 IDC는 포츈 1,000대 기업의 경우 미션 크리티컬 앱 고장으로 인한 평균 비용이 시간당 50만 달러에서 100만 달러에 이른다고 추정했다. IT 부서가 이 상황을 어떻게 처리할지에 대해 몇몇 전문가들에게 질문했다. 주목할 만한 사실 중 하나는 어느 누구도 클라우드 컴퓨팅의 한계을 강조하지 않았다는 점이다. 인프라 확장성, 작업 공간 제약 탈피, 관리형/호스팅 서비스의 장점은 위에 설명된 몇 가지 불편한 점들보다 훨씬 크다. 전문가들에 의하면 요점은 이렇게 종종 발생하는 접속 장애 문제를 어떻게 처리할 것인지 계획이 필요하다는 점이다. 1. 긴급 상황 대책을 수립하라 직원들의 생산성을 유지하는 핵심 중 하나는 긴급 상황 대책을 수립하는 것이다. IT 컨설턴트 크리스 게하르트는 기업의 SaaS 포트폴리오 내 모든 애플리케이션에 대안 옵션이 있어야 한다고 조언했다. 예를 들어 만약 작업자가 구글 드라이브에 의존해 판매 프레젠테이션을 한다면, 연결이 없어도 미션 크리티컬 파일에 접속할 수 있도록 온-프레미스 파일 스토리지 옵션도 갖추고 있어야 한다는 이야기다. 여기에는 마이크로소프트 오피스 365, 구글 포 워크, 기트허브, 애져, 심지어 AWS같은 앱도 포함된다. 또한 이는 재난 복구 계획처럼 다뤄져야 한다. 그는 이 과정이 비즈니스 프로세스이기도 하다며,...

2015.11.06

애플 서비스 다수, 11일 접속 오류 발생 '아이클라우드, 앱 스토어 등'

다수의 애플 서비스에 접속하지 못하는 현상이 발생했다는 보고가 이어졌다. iOS 및 맥 앱 스토어, 아이튠즈, 아이클라우드, 회사의 지원 스케줄러 등이 대상이었다. 지난 11일 오전 3시부터 애플 지원 포럼에는 접속 불가를 알리는 포스트가 잇달아 게재됐다. 'xXDivineSparkXx'라는 아이디의 네티즌은 "앱 하나를 업데이트하려 시도했다. 그러나 맥 앱 스토어에 접속하려 할 때 'Status_Code_Error'가 하단 로그인 윈도우에 나타났다"라고 전했다. 접속 오류를 보고하는 네티즌들은 미국, 유럽, 중동, 아시아 등에 소재하고 있었다. 이 밖에 개발자들이 앱을 제출하고 관리하는 도구인 아이튠즈 커넥트에 로그인할 수 없다는 개발자들의 보고도 있었다. 컴퓨터월드가 확인할 결과 오전 6시 15분(PT)에 아이튠즈 및 앱 스토어에 접속할 수 없었다. 단 메시지는 "아이튠즈 스토어를 일시적으로 이용할 수 없는 상태입니다. 나중에 다시 시도해주십시오"라는 것이었다. 그러나 레딧 및 트위터의 애플 서비스 상태 페이지는 서비스가 정상 작동 중이라는 의미의 녹색등이 켜져 있었다. 애플은 기사 작성 시점까지 문의에 답해오지 않았다.  ciokr@idg.co.kr 

애플 아이클라우드 아이튠즈 중단 다운

2015.03.12

다수의 애플 서비스에 접속하지 못하는 현상이 발생했다는 보고가 이어졌다. iOS 및 맥 앱 스토어, 아이튠즈, 아이클라우드, 회사의 지원 스케줄러 등이 대상이었다. 지난 11일 오전 3시부터 애플 지원 포럼에는 접속 불가를 알리는 포스트가 잇달아 게재됐다. 'xXDivineSparkXx'라는 아이디의 네티즌은 "앱 하나를 업데이트하려 시도했다. 그러나 맥 앱 스토어에 접속하려 할 때 'Status_Code_Error'가 하단 로그인 윈도우에 나타났다"라고 전했다. 접속 오류를 보고하는 네티즌들은 미국, 유럽, 중동, 아시아 등에 소재하고 있었다. 이 밖에 개발자들이 앱을 제출하고 관리하는 도구인 아이튠즈 커넥트에 로그인할 수 없다는 개발자들의 보고도 있었다. 컴퓨터월드가 확인할 결과 오전 6시 15분(PT)에 아이튠즈 및 앱 스토어에 접속할 수 없었다. 단 메시지는 "아이튠즈 스토어를 일시적으로 이용할 수 없는 상태입니다. 나중에 다시 시도해주십시오"라는 것이었다. 그러나 레딧 및 트위터의 애플 서비스 상태 페이지는 서비스가 정상 작동 중이라는 의미의 녹색등이 켜져 있었다. 애플은 기사 작성 시점까지 문의에 답해오지 않았다.  ciokr@idg.co.kr 

2015.03.12

기고 | 상시 접근성·이용성 극대화를 위한 3가지 단계

서비스가 멈춰도 좋은 시간이란 없다. 계획된 정지인 경우라도 마찬가지다. 최근에는 글로벌화가 진행되면서 중요하지 않은 시간대도 없어졌다. 사실 상시 동작하고 상시 이용가능한 서비스와 관련해 ‘특효약’이란 없다. 여기 기업의 상시성을 구축하고 확보하는데 참조할 만한 3가지 단계를 소개한다.   자신이 상당 규모의 온라인 전자 상거래 서비스를 갖춘 소매 업체의 I&O 부서에서 근무하는 직원이라고 상정해보자. 오늘 정오에, 갑자기 인프라 중요한 요소에 문제가 생겼다. 당신이 해결책을 찾기 위해 고군분투 하는 동안에도 하루에 수천 달러의 수익을 내는 웹사이트는 에러 메시지로 고객들을 맞이하고 있고 소셜 미디어에서도 이에 대한 소문이 퍼지기 시작한다. 설상가상으로, 오늘은 그냥 평범한 날도 아니다. 일 년에 몇 번 안 되는 높은 수익을 올릴 수 있는 날이다. 이 악몽 같은 시나리오는 최악의 순간에 다운타임(downtime)이 일어나는 경우를 가정한 것이다. 그러나 중요한 것은, 다운타임이 일어나기에 적절한 시간 같은 것은 없다는 사실이다. 설령 사전에 계획된 다운타임이라도 그렇다. 점점 더 많은 직장인들의 유동성이 높아지고 재택 근무가 늘어나면서, 9시부터 5시까지 근무하는 전통적인 근무시간의 개념도 변화하고 있다. 게다가, 기업들이 세계화에 편승함에 따라 직원들, 고객들, 공급자들까지도 전 세계의 다양한 표준 시간대에 흩어져있다. 다운타임이 발생했을 때 누구도 영향을 받지 않는 시간대를 계획하는 것은 거의 불가능하다. 많은 고객들이 여러분 기업에 속해있지 않다는 점은, 언제나 이용 가능한 서비스가 필요한 또 다른 이유다. 오늘날 IT 부서들은 각기 다른 것을 필요로 하는 두 부류의 고객들을 담당해야 한다. 즉 내부 직원들과 외부의 고객, 파트너, 공급자 들이다. 그러나 이들은 생각보다 비슷하다. 회사 직원들이 언제 어디서든 업무를 볼 수 있기를 기대하는 것처럼, 외부의 고객들 ...

정지 상시성 다운 업타임 다운타임

2012.05.04

서비스가 멈춰도 좋은 시간이란 없다. 계획된 정지인 경우라도 마찬가지다. 최근에는 글로벌화가 진행되면서 중요하지 않은 시간대도 없어졌다. 사실 상시 동작하고 상시 이용가능한 서비스와 관련해 ‘특효약’이란 없다. 여기 기업의 상시성을 구축하고 확보하는데 참조할 만한 3가지 단계를 소개한다.   자신이 상당 규모의 온라인 전자 상거래 서비스를 갖춘 소매 업체의 I&O 부서에서 근무하는 직원이라고 상정해보자. 오늘 정오에, 갑자기 인프라 중요한 요소에 문제가 생겼다. 당신이 해결책을 찾기 위해 고군분투 하는 동안에도 하루에 수천 달러의 수익을 내는 웹사이트는 에러 메시지로 고객들을 맞이하고 있고 소셜 미디어에서도 이에 대한 소문이 퍼지기 시작한다. 설상가상으로, 오늘은 그냥 평범한 날도 아니다. 일 년에 몇 번 안 되는 높은 수익을 올릴 수 있는 날이다. 이 악몽 같은 시나리오는 최악의 순간에 다운타임(downtime)이 일어나는 경우를 가정한 것이다. 그러나 중요한 것은, 다운타임이 일어나기에 적절한 시간 같은 것은 없다는 사실이다. 설령 사전에 계획된 다운타임이라도 그렇다. 점점 더 많은 직장인들의 유동성이 높아지고 재택 근무가 늘어나면서, 9시부터 5시까지 근무하는 전통적인 근무시간의 개념도 변화하고 있다. 게다가, 기업들이 세계화에 편승함에 따라 직원들, 고객들, 공급자들까지도 전 세계의 다양한 표준 시간대에 흩어져있다. 다운타임이 발생했을 때 누구도 영향을 받지 않는 시간대를 계획하는 것은 거의 불가능하다. 많은 고객들이 여러분 기업에 속해있지 않다는 점은, 언제나 이용 가능한 서비스가 필요한 또 다른 이유다. 오늘날 IT 부서들은 각기 다른 것을 필요로 하는 두 부류의 고객들을 담당해야 한다. 즉 내부 직원들과 외부의 고객, 파트너, 공급자 들이다. 그러나 이들은 생각보다 비슷하다. 회사 직원들이 언제 어디서든 업무를 볼 수 있기를 기대하는 것처럼, 외부의 고객들 ...

2012.05.04

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.5.0.5