Offcanvas

������

‘마스터/슬레이브, 화이트/블랙...’ 차별적 IT 용어 퇴출 움직임 ‘꿈틀’

용어는 사람들이 회사의 일부라고(또는 회사에서 배제되었다고) 느끼게 만드는 요인이기도 하다. 컴퓨팅 분야에도 차별적인 용어가 없어야 하지만 아직도 존재한다. 마스터와 슬레이브, 블랙 및 화이트채팅/목록 같은 용어가 여전히 코딩 세계에서 사용되고 있어 많은 사람들이 불편해하고 있다. 하지만 다행히도 점차 많은 사람들이 이런 공격적이고 인종차별적인 용어의 문제점을 인식하고 있으며, 업계에서 없어져야 하는 포용주의의 장벽이라고 말하고 있다. 레드햇(Red Hat)의 오픈소스 프로그램실 책임자 뎁 브라이언트는 “인종, 성별, 기타 소수 그룹 등 특정 집단을 덜 환영하는 환경을 만드는 용어 때문에 업계에서 이 사람들의 입지가 약화된다. 그래서 우리 모두가 더 가난해지고 인류 전체의 혁신, 관점, 지혜를 부정하게 된다”라고 말했다.   2020년 고조된 분위기 업계의 많은 사람들이 오랫동안 부정적인 용어의 존재에 대해 의문을 제기했지만 조지 플로이드의 살인과 BLM(Black Lives Matter) 운동의 확산 등 2020년의 이벤트로 인해 차별을 강화하는 모든 것이 재조명되고 업계에서 이런 용어를 영원히 없애자는 움직임이 생겨나게 되었다. 브라이언트는 “나무를 심기에 가장 좋은 시기는 20년 전이고 그 다음으로 좋은 시기는 지금이다. 많은 사람들이 수십 년 동안 이 문제에 대해 함구했지만 이제 전 세계적으로 더 크고 빠른 변화를 요구하고 있다. 그래서 더 큰 규모로 변화에 영향을 미칠 수 있는 이전에는 없었던 모멘텀과 기회가 생겼다”라고 말했다. CNCF(Cloud Native Computing Foundation)의 책임자 프리양카 샤마는 “지난해, 사회적 불평등에 집중하면서 행동이 고조되었다. 그리고 우리는 시스코, IBM, 리눅스 재단, 레드햇, VM웨어와 함께 INI(Inclusive Naming Initiative) 개발을 발표하게 되었다”라고 말했다. 그는 “이 이니셔티브의 목적은 용어를 변경하고 싶지만 어디에서부터 시작해야 할지 모...

차별 포용 용어 화이트 블랙 마스터 슬레이브 CCRJ 인종 성별 INI 장애

2021.07.05

용어는 사람들이 회사의 일부라고(또는 회사에서 배제되었다고) 느끼게 만드는 요인이기도 하다. 컴퓨팅 분야에도 차별적인 용어가 없어야 하지만 아직도 존재한다. 마스터와 슬레이브, 블랙 및 화이트채팅/목록 같은 용어가 여전히 코딩 세계에서 사용되고 있어 많은 사람들이 불편해하고 있다. 하지만 다행히도 점차 많은 사람들이 이런 공격적이고 인종차별적인 용어의 문제점을 인식하고 있으며, 업계에서 없어져야 하는 포용주의의 장벽이라고 말하고 있다. 레드햇(Red Hat)의 오픈소스 프로그램실 책임자 뎁 브라이언트는 “인종, 성별, 기타 소수 그룹 등 특정 집단을 덜 환영하는 환경을 만드는 용어 때문에 업계에서 이 사람들의 입지가 약화된다. 그래서 우리 모두가 더 가난해지고 인류 전체의 혁신, 관점, 지혜를 부정하게 된다”라고 말했다.   2020년 고조된 분위기 업계의 많은 사람들이 오랫동안 부정적인 용어의 존재에 대해 의문을 제기했지만 조지 플로이드의 살인과 BLM(Black Lives Matter) 운동의 확산 등 2020년의 이벤트로 인해 차별을 강화하는 모든 것이 재조명되고 업계에서 이런 용어를 영원히 없애자는 움직임이 생겨나게 되었다. 브라이언트는 “나무를 심기에 가장 좋은 시기는 20년 전이고 그 다음으로 좋은 시기는 지금이다. 많은 사람들이 수십 년 동안 이 문제에 대해 함구했지만 이제 전 세계적으로 더 크고 빠른 변화를 요구하고 있다. 그래서 더 큰 규모로 변화에 영향을 미칠 수 있는 이전에는 없었던 모멘텀과 기회가 생겼다”라고 말했다. CNCF(Cloud Native Computing Foundation)의 책임자 프리양카 샤마는 “지난해, 사회적 불평등에 집중하면서 행동이 고조되었다. 그리고 우리는 시스코, IBM, 리눅스 재단, 레드햇, VM웨어와 함께 INI(Inclusive Naming Initiative) 개발을 발표하게 되었다”라고 말했다. 그는 “이 이니셔티브의 목적은 용어를 변경하고 싶지만 어디에서부터 시작해야 할지 모...

2021.07.05

패스틀리 CDN 마비로 일부 글로벌 웹사이트 먹통

주요국 정부, 언론 매체, 소셜 미디어 등 글로벌 웹사이트 몇몇이 8일(현지시간) 발생한 오류로 인해 접속이 차단되는 사태가 벌어졌다. 웹사이트의 콘텐츠 전송을 담당하는 미국 클라우드 기반 컴퓨팅 업체 패스틀리(Fastly)의 CDN(콘텐츠 전송 네트워크) 시스템에 문제가 발생한 탓이다.  이날 뉴욕타임스, BBC, 페이팔, 스포티파이, 아마존, 백악관 등 전 세계 주요 매체, 기업, 정부 웹사이트에 “Error 503 Service Unavailable” 등의 문구가 뜨며 길게는 1시간가량 접속 불가 상태가 유지되는 사태가 벌어졌다.    이번 사태는 미디어를 비롯한 주요 웹사이트에 CDN 서비스를 제공하는 패스틀리의 시스템에 생긴 장애로 인해 발생했다. 패스틀리는 이날 자사 웹사이트를 통해 전 세계적으로 CDN 장애가 발생했으며 웹사이트 로딩이 지연될 수 있다고 전했다.  CDN은 웹서비스를 이용하는 최종 사용자의 로컬 서버 근처에 분산돼 있는 서버로 이뤄진 플랫폼을 의미한다. CDN 서버는 원본 서버와 최종 사용자 사이에 위치해 웹상의 자료 전송에 따르는 병목현상과 버퍼링을 줄여준다.  패스틀리는 트위터를 통해 회사의 PoPs(points of presence, 상호접속위치) 전반에 서비스 구성상의 오류가 발생해 이번 사태가 발생했다고 전했다.  업계 전문가들은 이번 사태를 통해 인터넷 인프라가 일부 기술 업체에 의존하고 있는 현상을 보여준다고 진단했다.  디지털 에이전시 씽크3의 가즈 존스 기술국장은 “서버와 웹서비스의 절반이 구글, 패스틀리, 아마존 같은 거대 기업에 의존하고 있고, 이에 따라 이번과 같은 사태가 벌어졌다”라며 “인터넷이 위험할 정도로 소수의 플레이어에게 맞춰져 있다”라고 지적했다. 한편, 이번 사태로 인해 주요 기업들이 금전적 손실이 발생한 것으로 추정된다. 글로벌 시장 조사 업체 칸타(Kantar)는 이번 장애로 인해 패스틀리의 CDN 서버를 이용하는 기업...

패스틀리 인터넷 중단 CDN 데이터센버 장애 콘텐츠 전송 네트워크

2021.06.09

주요국 정부, 언론 매체, 소셜 미디어 등 글로벌 웹사이트 몇몇이 8일(현지시간) 발생한 오류로 인해 접속이 차단되는 사태가 벌어졌다. 웹사이트의 콘텐츠 전송을 담당하는 미국 클라우드 기반 컴퓨팅 업체 패스틀리(Fastly)의 CDN(콘텐츠 전송 네트워크) 시스템에 문제가 발생한 탓이다.  이날 뉴욕타임스, BBC, 페이팔, 스포티파이, 아마존, 백악관 등 전 세계 주요 매체, 기업, 정부 웹사이트에 “Error 503 Service Unavailable” 등의 문구가 뜨며 길게는 1시간가량 접속 불가 상태가 유지되는 사태가 벌어졌다.    이번 사태는 미디어를 비롯한 주요 웹사이트에 CDN 서비스를 제공하는 패스틀리의 시스템에 생긴 장애로 인해 발생했다. 패스틀리는 이날 자사 웹사이트를 통해 전 세계적으로 CDN 장애가 발생했으며 웹사이트 로딩이 지연될 수 있다고 전했다.  CDN은 웹서비스를 이용하는 최종 사용자의 로컬 서버 근처에 분산돼 있는 서버로 이뤄진 플랫폼을 의미한다. CDN 서버는 원본 서버와 최종 사용자 사이에 위치해 웹상의 자료 전송에 따르는 병목현상과 버퍼링을 줄여준다.  패스틀리는 트위터를 통해 회사의 PoPs(points of presence, 상호접속위치) 전반에 서비스 구성상의 오류가 발생해 이번 사태가 발생했다고 전했다.  업계 전문가들은 이번 사태를 통해 인터넷 인프라가 일부 기술 업체에 의존하고 있는 현상을 보여준다고 진단했다.  디지털 에이전시 씽크3의 가즈 존스 기술국장은 “서버와 웹서비스의 절반이 구글, 패스틀리, 아마존 같은 거대 기업에 의존하고 있고, 이에 따라 이번과 같은 사태가 벌어졌다”라며 “인터넷이 위험할 정도로 소수의 플레이어에게 맞춰져 있다”라고 지적했다. 한편, 이번 사태로 인해 주요 기업들이 금전적 손실이 발생한 것으로 추정된다. 글로벌 시장 조사 업체 칸타(Kantar)는 이번 장애로 인해 패스틀리의 CDN 서버를 이용하는 기업...

2021.06.09

'인증서 갱신을 안 해서···' MS, 팀즈 장애 '망신살'

마이크로소프트 팀즈(Teams) 사용자가 2시간 이상 이 협업 앱에 로그인하지 못하는 장애가 발생했다. 지난 3일의 상황으로, 인증서가 만기 됐기 때문으로 나타났다. 이번 장애는 기업 협업 시장에서 슬랙(Slack)과 경쟁하고 있는 마이크로소프트에 타격이 될 전망이다. 마이크로소프트에 따르면, 팀즈는 11월 기준 하루 활성 사용자가 2,000만 명이 넘는다. 네머테즈 리서치(Nemertes Research)의 부사장이자 서비스 디렉터인 네어윈 라자는 "이번 장애는 명백하게 마이크로소프트의 망신이다. 지난 몇 년간 슬랙의 장애를 비판하며 안정성을 강조해 왔기 때문이다. 특히 마이크로소프트가 인증서를 갱신하지 않았다는 것은 충격적이다. 팀즈가 매우 빠르게 성장함에 따라 앞으로 발생할 수 있는 장애를 막기 위해서는 운영 이슈에 더 집중해야 한다"라고 말했다. 실제로 이번 장애에 대한 즉각적인 대응은 점점 더 많은 사람이 팀 메시지 툴로 팀즈를 사용하고 있고, 팀즈의 중요성이 커지고 있음을 보여주는 지표다. 가트너의 리서치 디렉터 레리 커넬은 "서비스 장애는 그 서비스의 대중성과 중요성을 확인하는 가장 좋은 지표다. 물론 추천하는 방법은 아니다"라고 말했다. SSL 인증서는 웹 브라우저 혹은 앱과 서버 간의 보안 연결에 필수적이고 HTTPS 지원 사이트에 필요하다. 데이터를 암호화하는 중간자 공격(man-in-the-middle attacks) 같은 보안 위험으로부터 사용자를 보호한다. 이 인증서가 만료되면 서버는 인증할 수 없고 정보를 보낼 수 없는데, 팀즈의 장애도 바로 이런 과정을 통해 발생했다. 커넬은 "마이크로소프트가 이번 실패에서 많은 것을 배웠기를 바란다. 이런 일이 다시는 발생하지 않도록 관련 절차를 변경해야 한다"라고 말했다. 다운디텍터(Downdetector) 웹사이트에 따르면, 이번 사고는 미국 동부(ET) 기준 오전 8시 50분에 발생했다. 마이크로소프트는 9시 19분이 돼서야 마이크로소프트 365 스테이터스 트위터 계정을 통해 장애 ...

장애 인증서 팀스 팀즈

2020.02.06

마이크로소프트 팀즈(Teams) 사용자가 2시간 이상 이 협업 앱에 로그인하지 못하는 장애가 발생했다. 지난 3일의 상황으로, 인증서가 만기 됐기 때문으로 나타났다. 이번 장애는 기업 협업 시장에서 슬랙(Slack)과 경쟁하고 있는 마이크로소프트에 타격이 될 전망이다. 마이크로소프트에 따르면, 팀즈는 11월 기준 하루 활성 사용자가 2,000만 명이 넘는다. 네머테즈 리서치(Nemertes Research)의 부사장이자 서비스 디렉터인 네어윈 라자는 "이번 장애는 명백하게 마이크로소프트의 망신이다. 지난 몇 년간 슬랙의 장애를 비판하며 안정성을 강조해 왔기 때문이다. 특히 마이크로소프트가 인증서를 갱신하지 않았다는 것은 충격적이다. 팀즈가 매우 빠르게 성장함에 따라 앞으로 발생할 수 있는 장애를 막기 위해서는 운영 이슈에 더 집중해야 한다"라고 말했다. 실제로 이번 장애에 대한 즉각적인 대응은 점점 더 많은 사람이 팀 메시지 툴로 팀즈를 사용하고 있고, 팀즈의 중요성이 커지고 있음을 보여주는 지표다. 가트너의 리서치 디렉터 레리 커넬은 "서비스 장애는 그 서비스의 대중성과 중요성을 확인하는 가장 좋은 지표다. 물론 추천하는 방법은 아니다"라고 말했다. SSL 인증서는 웹 브라우저 혹은 앱과 서버 간의 보안 연결에 필수적이고 HTTPS 지원 사이트에 필요하다. 데이터를 암호화하는 중간자 공격(man-in-the-middle attacks) 같은 보안 위험으로부터 사용자를 보호한다. 이 인증서가 만료되면 서버는 인증할 수 없고 정보를 보낼 수 없는데, 팀즈의 장애도 바로 이런 과정을 통해 발생했다. 커넬은 "마이크로소프트가 이번 실패에서 많은 것을 배웠기를 바란다. 이런 일이 다시는 발생하지 않도록 관련 절차를 변경해야 한다"라고 말했다. 다운디텍터(Downdetector) 웹사이트에 따르면, 이번 사고는 미국 동부(ET) 기준 오전 8시 50분에 발생했다. 마이크로소프트는 9시 19분이 돼서야 마이크로소프트 365 스테이터스 트위터 계정을 통해 장애 ...

2020.02.06

블로그 | 머신러닝 운영은 클라우드옵스에 적합하지 않다

월요일 아침, 그리고 길고 긴 주말의 시스템 장애가 끝나고 클라우드 운영팀은 지난 주말에 일어난 일에 대해 토론했다. 머신러닝으로 동작하는 최첨단이자 새로운 인벤토리 관리 시스템과 관련된 여러 시스템이 주말 동안 문제를 일으켰다.   사후 결론은 다음과 같다. -    운영 데이터베이스에서 원시 데이터를 교육용 데이터베이스로 옮기는 배치 프로세스가 제대로 동작하지 않았으며, 자동 복구 프로세스도 마찬가지였다. 운영팀원 한 사람이 주말 동안 이 프로세스를 재기동하려고 애썼지만, 원인을 밝히지 못했다. 하지만 4건의 부분 업데이트가 이루어져 교육용 데이터베이스는 여전히 불안정한 상태이다. -    이로 인해 머신러닝 시스템의 지식 모델을 나쁜 데이터로 훈련을 시켰고, 지식 기반의 새 정보를 제거하고 모델을 재구축해야 한다. -    또한 가격이나 세금 데이터 같은 여러 외부 데이터 피드도 교육용 데이터베이스에 동시에 업데이트됐다. 비록 이들 프로세스는 제대로 동작했지만, 운영 데이터가 좋지 않은 상태였다는 것을 고려하면, 이들 역시 지식 데이터베이스에서 다시 삭제해야 한다. -    시스템은 이틀 동안 사용할 수 없었고, 업무 생산성, 고객 반응, 홍보 문제 등을 고려하면 이 회사는 400만 달러의 손실을 보았다.  2025년이 아니라 바로 오늘날의 이야기다. 기업은 ‘저렴하고 괜찮은’ 클라우드 기반 머신러닝 시스템을 점점 더 많이 사용하고 있으며, 이미 알려진 대로 머신러닝을 이용하는 시스템은 운영이 복잡하다. 운영팀은 난이도와 복잡성의 수준을 제대로 예측하지 못하며, 자신들이 제대로 훈련을 받지 못했고, 인력도 부족하고 자금도 부족하다는 사실을 알게 된다.  클라우드 운영팀이 클라우드 기반 데이터베이스와 클라우드 기반 스토리지, 클라우드 기반 컴퓨트를 쉽게 이전해 처리할 수 있다고 가정했다. 클라우드 기반 시스템이...

장애 인공지능 클라우드옵스

2019.08.27

월요일 아침, 그리고 길고 긴 주말의 시스템 장애가 끝나고 클라우드 운영팀은 지난 주말에 일어난 일에 대해 토론했다. 머신러닝으로 동작하는 최첨단이자 새로운 인벤토리 관리 시스템과 관련된 여러 시스템이 주말 동안 문제를 일으켰다.   사후 결론은 다음과 같다. -    운영 데이터베이스에서 원시 데이터를 교육용 데이터베이스로 옮기는 배치 프로세스가 제대로 동작하지 않았으며, 자동 복구 프로세스도 마찬가지였다. 운영팀원 한 사람이 주말 동안 이 프로세스를 재기동하려고 애썼지만, 원인을 밝히지 못했다. 하지만 4건의 부분 업데이트가 이루어져 교육용 데이터베이스는 여전히 불안정한 상태이다. -    이로 인해 머신러닝 시스템의 지식 모델을 나쁜 데이터로 훈련을 시켰고, 지식 기반의 새 정보를 제거하고 모델을 재구축해야 한다. -    또한 가격이나 세금 데이터 같은 여러 외부 데이터 피드도 교육용 데이터베이스에 동시에 업데이트됐다. 비록 이들 프로세스는 제대로 동작했지만, 운영 데이터가 좋지 않은 상태였다는 것을 고려하면, 이들 역시 지식 데이터베이스에서 다시 삭제해야 한다. -    시스템은 이틀 동안 사용할 수 없었고, 업무 생산성, 고객 반응, 홍보 문제 등을 고려하면 이 회사는 400만 달러의 손실을 보았다.  2025년이 아니라 바로 오늘날의 이야기다. 기업은 ‘저렴하고 괜찮은’ 클라우드 기반 머신러닝 시스템을 점점 더 많이 사용하고 있으며, 이미 알려진 대로 머신러닝을 이용하는 시스템은 운영이 복잡하다. 운영팀은 난이도와 복잡성의 수준을 제대로 예측하지 못하며, 자신들이 제대로 훈련을 받지 못했고, 인력도 부족하고 자금도 부족하다는 사실을 알게 된다.  클라우드 운영팀이 클라우드 기반 데이터베이스와 클라우드 기반 스토리지, 클라우드 기반 컴퓨트를 쉽게 이전해 처리할 수 있다고 가정했다. 클라우드 기반 시스템이...

2019.08.27

호주에 문 여는 스마트홈, 장애인 위한 새로운 유형의 서비스 제공

스마트홈이 웨어러블, 스마트폰 앱, 음성 비서, 센서, 인공지능을 시험하는 장이 될 것이다.    지적 장애가 있는 사람을 위해 특별히 지어진 스마트홈이 다음 달 호주 멜버른에서 문을 열 예정이다. 이 집은 거주자 치료를 개선하기 위한 일련의 특수 기술이 장착돼 있다. 호주에서 세번째로 큰 사립병원인 세인트존오브갓헬스케어(St John of God Health Care)가 운영하는 스마트홈은 간질환자, 뇌성마비 장애인, 시각 장애인 등 인지 장애를 가졌거나 2차적 상태에 있는 5명의 거주자에 적합한 맞춤형 웨어러블, 스마트폰 애플리케이션, 음성 보조 장비, 센서, 인공지능의 사용을 시험할 예정이다. 이스트 브링턴의 교외에 있는 이 스마트홈의 목표는 거주자가 간병인에 덜 의존하게 하고, ‘제한적인 관행을 줄이며’, 서비스 향상을 위해 세인트존오브갓의 데이터를 생성하는 것이다. 스마트홈의 특징 중에는 거주자에 따라 잠그고 열 수 있는 문이 있다. 거주자 중에는 보호자 없이 이동하는 것이 위험한 사람도 있다. 즉, 혼자 다닐 수 없는 사람이다.  세인트존오브갓의 커뮤니티 서비스 담당 이그제큐티브 디렉터인 케빈 테일러은 "기술을 사용해 특정 사람이 문 근처로 언제 갈 것인지를 결정할 수 있으며 문을 잠가 그 사람이 나가는 것을 막을 수 있다"라고 말했다. 이어서 "해당 장애인이 주변에 없다면 실제로 다른 고객은 밖에 나갈 수 있다. 다른 고객의 출입을 제한하지는 않는다. 또한 안전하지 않으면 현관문에서 나가지 못하도록 막을 수 있다"라고 설명했다. 아마존 알렉사는 조명을 천천히 밝히고 블라인드를 올리며 아침에는 차분한 음악을 트는 데 쓰인다. 태블릿은 저녁 식사 준비 상황을 보여주고, 어떤 간병인이 방문할지를 알려주고, 오늘 계획을 표시하는 등 불안을 줄이는 데 사용된다.  테일러는 "간병인이 깨우지 않으면 많은 고객이 일어나지 않을 것이다. 목표는 ...

혁신 고령 간병 알렉사 스마트홈 교통 태블릿 장애 삼성전자 병원 아마존 스마트폰 CIO 노인

2019.05.29

스마트홈이 웨어러블, 스마트폰 앱, 음성 비서, 센서, 인공지능을 시험하는 장이 될 것이다.    지적 장애가 있는 사람을 위해 특별히 지어진 스마트홈이 다음 달 호주 멜버른에서 문을 열 예정이다. 이 집은 거주자 치료를 개선하기 위한 일련의 특수 기술이 장착돼 있다. 호주에서 세번째로 큰 사립병원인 세인트존오브갓헬스케어(St John of God Health Care)가 운영하는 스마트홈은 간질환자, 뇌성마비 장애인, 시각 장애인 등 인지 장애를 가졌거나 2차적 상태에 있는 5명의 거주자에 적합한 맞춤형 웨어러블, 스마트폰 애플리케이션, 음성 보조 장비, 센서, 인공지능의 사용을 시험할 예정이다. 이스트 브링턴의 교외에 있는 이 스마트홈의 목표는 거주자가 간병인에 덜 의존하게 하고, ‘제한적인 관행을 줄이며’, 서비스 향상을 위해 세인트존오브갓의 데이터를 생성하는 것이다. 스마트홈의 특징 중에는 거주자에 따라 잠그고 열 수 있는 문이 있다. 거주자 중에는 보호자 없이 이동하는 것이 위험한 사람도 있다. 즉, 혼자 다닐 수 없는 사람이다.  세인트존오브갓의 커뮤니티 서비스 담당 이그제큐티브 디렉터인 케빈 테일러은 "기술을 사용해 특정 사람이 문 근처로 언제 갈 것인지를 결정할 수 있으며 문을 잠가 그 사람이 나가는 것을 막을 수 있다"라고 말했다. 이어서 "해당 장애인이 주변에 없다면 실제로 다른 고객은 밖에 나갈 수 있다. 다른 고객의 출입을 제한하지는 않는다. 또한 안전하지 않으면 현관문에서 나가지 못하도록 막을 수 있다"라고 설명했다. 아마존 알렉사는 조명을 천천히 밝히고 블라인드를 올리며 아침에는 차분한 음악을 트는 데 쓰인다. 태블릿은 저녁 식사 준비 상황을 보여주고, 어떤 간병인이 방문할지를 알려주고, 오늘 계획을 표시하는 등 불안을 줄이는 데 사용된다.  테일러는 "간병인이 깨우지 않으면 많은 고객이 일어나지 않을 것이다. 목표는 ...

2019.05.29

칼럼 | 클라우드 사업자가 말하는 가용성과 실제 서비스 중단 시간

오늘날 클라우드의 가동시간은 매우 중요하지만, 업체가 제공하는 데이터는 혼란스럽다. 3대 클라우드 서비스를 비교 분석해 본다. 많은 기업에 클라우드는 그저 중요한 정도가 아니라 이른바 ‘미션 크리티컬한’ 존재이다. 점점 더 많은 IT 책임자와 사업 책임자가 퍼블릭 클라우드를 자사 디지털 트랜스포메이션 전략의 핵심 구성요소로 여기고 있으며, 퍼블릭 클라우드를 하이브리드 클라우드의 일부로 또는 온전히 퍼블릭 클라우드로 사용한다. 클라우드의 서비스 중단 사태는 이제 기업의 핵심 서비스가 중단되는 것을 의미하며, 이 때문에 클라우드의 안정성에 대한 기준 역시 높아졌다. 따라서 클라우드 구매자에게는 클라우드 서비스 업체의 안정성을 나타내는 수치를 정확하게 파악하는 것이 중요하다. 문제는 클라우드 서비스 업체가 일관성 있는 방식으로 관련 정보를 공개하지 않는다는 것. 실제로 일부 수치는 의미있는 결정을 하기 어려울 정도로 혼란스럽다.     실제 서비스 중단 시간과 표시된 중단 시간 마이크로소프트 애저와 구글 클라우드 플랫폼(GCP)은 모두 전형적인 날짜와 시간 정보를 제공하지만, 영향을 받은 서비스와 지역의 개략적인 데이터만 제공한다. 문제는 이런 정보로는 전반적인 안정성을 알기 어렵다는 것. 예를 들어, 만약 애저 클라우드에 세 개 리전의 다섯 가지 서비스에 영향을 미친 1시간의 서비스 중단이 있었다면, 웹 사이트는 그저 1시간의 서비스 중단이라고 표시한다. 사실 총 15시간의 서비스 중단이라고 봐야 한다. 애저와 GCP, AWS 중에서는 애저가 상세한 정보를 가장 적게 제공한다. GCP는 서비스 수준의 상세 정보를 제공해 더 낫지만, 지역 정보는 잘 알려주지 않는 경향이 있다. 때로는 어떤 서비스를 사용할 수 없는지 명확하게 하지만, 그렇지 않을 때도 있다. AWS가 가장 세밀한 보고서를 제공하는데, 모든 지역 모든 서비스를 보여준다. 만약 장애가 발생해 세 가지 서비스에 영향을 미친다면, 세 가지 서비스 모두 이용...

SLA AWS 애저 서비스중단 장애 가용성 GCP

2019.05.15

오늘날 클라우드의 가동시간은 매우 중요하지만, 업체가 제공하는 데이터는 혼란스럽다. 3대 클라우드 서비스를 비교 분석해 본다. 많은 기업에 클라우드는 그저 중요한 정도가 아니라 이른바 ‘미션 크리티컬한’ 존재이다. 점점 더 많은 IT 책임자와 사업 책임자가 퍼블릭 클라우드를 자사 디지털 트랜스포메이션 전략의 핵심 구성요소로 여기고 있으며, 퍼블릭 클라우드를 하이브리드 클라우드의 일부로 또는 온전히 퍼블릭 클라우드로 사용한다. 클라우드의 서비스 중단 사태는 이제 기업의 핵심 서비스가 중단되는 것을 의미하며, 이 때문에 클라우드의 안정성에 대한 기준 역시 높아졌다. 따라서 클라우드 구매자에게는 클라우드 서비스 업체의 안정성을 나타내는 수치를 정확하게 파악하는 것이 중요하다. 문제는 클라우드 서비스 업체가 일관성 있는 방식으로 관련 정보를 공개하지 않는다는 것. 실제로 일부 수치는 의미있는 결정을 하기 어려울 정도로 혼란스럽다.     실제 서비스 중단 시간과 표시된 중단 시간 마이크로소프트 애저와 구글 클라우드 플랫폼(GCP)은 모두 전형적인 날짜와 시간 정보를 제공하지만, 영향을 받은 서비스와 지역의 개략적인 데이터만 제공한다. 문제는 이런 정보로는 전반적인 안정성을 알기 어렵다는 것. 예를 들어, 만약 애저 클라우드에 세 개 리전의 다섯 가지 서비스에 영향을 미친 1시간의 서비스 중단이 있었다면, 웹 사이트는 그저 1시간의 서비스 중단이라고 표시한다. 사실 총 15시간의 서비스 중단이라고 봐야 한다. 애저와 GCP, AWS 중에서는 애저가 상세한 정보를 가장 적게 제공한다. GCP는 서비스 수준의 상세 정보를 제공해 더 낫지만, 지역 정보는 잘 알려주지 않는 경향이 있다. 때로는 어떤 서비스를 사용할 수 없는지 명확하게 하지만, 그렇지 않을 때도 있다. AWS가 가장 세밀한 보고서를 제공하는데, 모든 지역 모든 서비스를 보여준다. 만약 장애가 발생해 세 가지 서비스에 영향을 미친다면, 세 가지 서비스 모두 이용...

2019.05.15

네트워크 문제로 인한 데이터센터 가동 정지 증가··· 이유는?

데이터센터 가동 정지를 유발하는 일반적인 원인 중 하나는 정전이다. 그러나 정전이 유일한 원인은 아니다. 기업 컴퓨팅 환경의 복잡성이 높아지면서 IT 시스템과 네트워크의 장애로 인해 데이터센터 가동이 멈추는 사례가 늘고 있는 것으로 나타났다.   업타임 인스티튜트(Uptime Institute)는 불시의 다운타임을 유발하는 요소를 파악하고자 공개적으로 보고된 가동 정지 사례를 연구해왔다. 지난 3년 동안 전통적인 미디어 또는 소셜 미디어에 보고된 162건의 가동 정지 사례에서 정보를 수집했는데, 이 기간 동안 가용 데이터의 양은 꾸준히 증가했다. 연구진이 데이터를 수집한 가동 정지 사례는 2016년 27건, 2017년 57건에 이어 2018년에는 78건으로 늘었다. 복원성 서비스와 데이터센터 구축 및 운영 자문, 인증 서비스를 제공하는 업타임 인스티튜트의 리서치 책임자 앤디 로렌스는 “뉴스에 보도되는 가동 정지 사례가 계속 증가하고 있다”고 말했다. 로렌스는 이번 연구 결과를 발표하면서 “업계의 기록을 보면 거의 매일 전 세계 곳곳에서 심각한 가동 정지가 발생한다”면서 “가동 정지 건수 자체가 급증한다고 단정할 수는 없지만, 다운타임에 대한 관심은 커지고 있다. 정지가 미치는 영향이 확대되고 있는 것은 분명해 보인다”고 말했다. 업타임 인스티튜트 연구에서 발견한 중대한 사실은 전체적인 장애에서 정전보다 네트워크와 IT 시스템의 문제가 원인으로 작용하는 경우가 더 많다는 것이다. 전원 시스템의 안정성이 과거에 비해 향상되면서 온프레미스 데이터센터의 전원 장애가 줄어든 덕분이다. 업타임 인스티튜트의 CTO 크리스 브라운은 지난 20년 동안 IT 업계는 전원 시스템의 일부에 오류 또는 장애가 발생하더라도 IT 자산 운영을 지속할 수 있게 해주는 시스템을 설계하는 데 주력해왔다면서 “이중 코드 IT 장비에 전원을 공급하는 2N 전원 분배 시스템이 나오면서 IT 시스템은 단일...

서비스중단 정전 장애 가용성

2019.03.26

데이터센터 가동 정지를 유발하는 일반적인 원인 중 하나는 정전이다. 그러나 정전이 유일한 원인은 아니다. 기업 컴퓨팅 환경의 복잡성이 높아지면서 IT 시스템과 네트워크의 장애로 인해 데이터센터 가동이 멈추는 사례가 늘고 있는 것으로 나타났다.   업타임 인스티튜트(Uptime Institute)는 불시의 다운타임을 유발하는 요소를 파악하고자 공개적으로 보고된 가동 정지 사례를 연구해왔다. 지난 3년 동안 전통적인 미디어 또는 소셜 미디어에 보고된 162건의 가동 정지 사례에서 정보를 수집했는데, 이 기간 동안 가용 데이터의 양은 꾸준히 증가했다. 연구진이 데이터를 수집한 가동 정지 사례는 2016년 27건, 2017년 57건에 이어 2018년에는 78건으로 늘었다. 복원성 서비스와 데이터센터 구축 및 운영 자문, 인증 서비스를 제공하는 업타임 인스티튜트의 리서치 책임자 앤디 로렌스는 “뉴스에 보도되는 가동 정지 사례가 계속 증가하고 있다”고 말했다. 로렌스는 이번 연구 결과를 발표하면서 “업계의 기록을 보면 거의 매일 전 세계 곳곳에서 심각한 가동 정지가 발생한다”면서 “가동 정지 건수 자체가 급증한다고 단정할 수는 없지만, 다운타임에 대한 관심은 커지고 있다. 정지가 미치는 영향이 확대되고 있는 것은 분명해 보인다”고 말했다. 업타임 인스티튜트 연구에서 발견한 중대한 사실은 전체적인 장애에서 정전보다 네트워크와 IT 시스템의 문제가 원인으로 작용하는 경우가 더 많다는 것이다. 전원 시스템의 안정성이 과거에 비해 향상되면서 온프레미스 데이터센터의 전원 장애가 줄어든 덕분이다. 업타임 인스티튜트의 CTO 크리스 브라운은 지난 20년 동안 IT 업계는 전원 시스템의 일부에 오류 또는 장애가 발생하더라도 IT 자산 운영을 지속할 수 있게 해주는 시스템을 설계하는 데 주력해왔다면서 “이중 코드 IT 장비에 전원을 공급하는 2N 전원 분배 시스템이 나오면서 IT 시스템은 단일...

2019.03.26

'대세' 서버리스 컴퓨팅의 3가지 한계와 그 해결법

서버리스 컴퓨팅이 대세다. 누구든 이미 구축했거나, 구축을 고려하거나 둘 중 하나에는 속한다. 지금 동참하지 않으면 뒤처지게 될지도 모른다. 이렇게 서버리스가 화제인 이유가 무엇일까? 서버리스 컴퓨팅은 시스템 확장을 위해 필요할 때 서버 리소스를 시스템에 적용할 수 있게 해주는 인프라를 제공한다. 즉, 수도나 전기처럼 현재 부하의 필요에 따라 컴퓨팅 성능을 소비할 수 있다. 따라서 런타임에서 개별 서버를 신경 쓸 필요가 없다(솔직히 처음부터 아무도 신경 쓰지 않았다). 규모의 경제를 통해 클라우드 서비스 업체에 비용 효율적으로 대규모 서버를 아웃소싱할 수 있지만, “서버리스” 인터페이스는 계약을 최소화함으로써 이 아웃소싱 관계를 최대한 간소화해준다. 많은 사람의 즉각적인 반응은 서버에 연결했던 차트, 트래픽 지표, 경보를 개별 서버리스 함수와 관련된 차트, 트래픽 지표, 경보로 교체하는 것이다. 그러나 이 방법으로는 근본적인 애플리케이션 관리 문제를 해결하지 못한다. 아무도 서버에 신경을 쓰지 않는 것과 마찬가지로, 아무도 서버리스 함수에 따로 신경을 쓰지는 않기 때문이다. 사람들이 신경 쓰는 것은 시스템이 사용자에게 제공하는 서비스 수준이다. 이는 모니터링이 유용해야 하고 잘못될 가능성이 있는 요소에 초점을 맞춰야 함을 의미한다. 서버리스 맥락에서는 “서버 용량 소진”이라는 개념이 사실상 없으므로 “잘못된다”는 것은 대부분 물리 법칙을 위반하려는 시도를 의미한다. 그렇다면 일반적인 서버리스 문제는 무엇이고, 어떤 방식으로 드러날까? 서버리스 배포와 관련하여 만연한 대표적인 세 가지 문제와 이 문제를 완화하는 방법을 살펴보자.   콜드 스타트 비용 서버리스 시스템과 관련하여 자주 언급되는 사안이다. 서버리스 제공업체는 사용률을 최대화하기 위해 비활성 함수를 완전히 종료하는 방법을 택하는 경우가 종종 있다. 부하가 재개될 때 이 함수의 시작 비용이 응답 시간에 영향을 미치게 된...

모니터링 장애 가시성 함수 서버리스

2019.02.12

서버리스 컴퓨팅이 대세다. 누구든 이미 구축했거나, 구축을 고려하거나 둘 중 하나에는 속한다. 지금 동참하지 않으면 뒤처지게 될지도 모른다. 이렇게 서버리스가 화제인 이유가 무엇일까? 서버리스 컴퓨팅은 시스템 확장을 위해 필요할 때 서버 리소스를 시스템에 적용할 수 있게 해주는 인프라를 제공한다. 즉, 수도나 전기처럼 현재 부하의 필요에 따라 컴퓨팅 성능을 소비할 수 있다. 따라서 런타임에서 개별 서버를 신경 쓸 필요가 없다(솔직히 처음부터 아무도 신경 쓰지 않았다). 규모의 경제를 통해 클라우드 서비스 업체에 비용 효율적으로 대규모 서버를 아웃소싱할 수 있지만, “서버리스” 인터페이스는 계약을 최소화함으로써 이 아웃소싱 관계를 최대한 간소화해준다. 많은 사람의 즉각적인 반응은 서버에 연결했던 차트, 트래픽 지표, 경보를 개별 서버리스 함수와 관련된 차트, 트래픽 지표, 경보로 교체하는 것이다. 그러나 이 방법으로는 근본적인 애플리케이션 관리 문제를 해결하지 못한다. 아무도 서버에 신경을 쓰지 않는 것과 마찬가지로, 아무도 서버리스 함수에 따로 신경을 쓰지는 않기 때문이다. 사람들이 신경 쓰는 것은 시스템이 사용자에게 제공하는 서비스 수준이다. 이는 모니터링이 유용해야 하고 잘못될 가능성이 있는 요소에 초점을 맞춰야 함을 의미한다. 서버리스 맥락에서는 “서버 용량 소진”이라는 개념이 사실상 없으므로 “잘못된다”는 것은 대부분 물리 법칙을 위반하려는 시도를 의미한다. 그렇다면 일반적인 서버리스 문제는 무엇이고, 어떤 방식으로 드러날까? 서버리스 배포와 관련하여 만연한 대표적인 세 가지 문제와 이 문제를 완화하는 방법을 살펴보자.   콜드 스타트 비용 서버리스 시스템과 관련하여 자주 언급되는 사안이다. 서버리스 제공업체는 사용률을 최대화하기 위해 비활성 함수를 완전히 종료하는 방법을 택하는 경우가 종종 있다. 부하가 재개될 때 이 함수의 시작 비용이 응답 시간에 영향을 미치게 된...

2019.02.12

'스마트폰으로' 네트워크를 관리하는 무료 툴 5선

유지보수 작업이 필요할 때 네트워크 전문가는 대부분 데스크톱 PC나 노트북에서 변경 작업을 한다. 그러나 아이폰 또는 안드로이드 폰 역시 PC 못지않게 유용하다. 스마트폰을 진단 툴로 바꿔주는 앱을 사용해서 네트워크를 스캔하고 원격으로 시스템을 관리하는 등의 작업이 가능하다. 애플 앱 스토어와 구글 플레이 스토어에서 다운로드할 수 있는 네트워크 유틸리티는 엄청나게 많다. 그 중에서 평점이 가장 높고 다운로드 횟수가 가장 많으며 전문가들도 인정한 앱만 추렸다.   핑(Fing) : 네트워크 스캐너 핑은 다용도 툴이다. 사무실 LAN 또는 와이파이 네트워크에 연결된 디바이스를 찾아 목록화하는 네트워크 스캐너로, 디바이스 이름과 IP 주소, MAC 주소, 제조사와 같은 정보를 제공한다. 핑(앱 스토어와 구글 플레이에서 다운로드 가능)에는 네트워크 문제를 진단하고 해결하는 데 도움이 되는 단계별 가이드가 포함돼 있다. 보안을 위해 디바이스가 와이파이 네트워크에 연결될 때 알림을 보내도록 설정할 수도 있다. 네트워크 스캐너 외에도 봉주르(Bonjour), NetBIOS, UPnP의 서비스 분석기, DNS 조회 및 역 DNS 조회, 인터넷 연결 검사, ISP 분석기, 핑, 포트 커넥터(브라우저, FTP, SSH), 포트 스캐너, 서브넷 스캐너, traceroute, Wake On LAN 등의 툴을 포함한다. 핑은 무료이며 독립적으로 사용할 수도 있지만 100달러에 판매되는 옵션 디바이스인 핑박스(Fingbox)와 연계 작동도 가능하다. 핑박스는 더 심층적인 분석과 보안을 위해 네트워크에서 디바이스를 차단하고 와이파이 네트워크의 신호 강도를 측정하고 근처 디바이스 모니터링으로 와이파이 네트워크를 보호하고 네트워크의 인터넷 연결 문제를 해결하기 위한 툴도 부가적으로 제공한다. 가격: 무료 개발: 핑(Fing Limited)   VNC 뷰어(VNC Viewer) : 원격 데스크톱 액세스 아이폰을 사용해서 회사 네트워크의 서버 또는 다른 컴퓨터에 액...

테스트 원격 장애

2019.02.01

유지보수 작업이 필요할 때 네트워크 전문가는 대부분 데스크톱 PC나 노트북에서 변경 작업을 한다. 그러나 아이폰 또는 안드로이드 폰 역시 PC 못지않게 유용하다. 스마트폰을 진단 툴로 바꿔주는 앱을 사용해서 네트워크를 스캔하고 원격으로 시스템을 관리하는 등의 작업이 가능하다. 애플 앱 스토어와 구글 플레이 스토어에서 다운로드할 수 있는 네트워크 유틸리티는 엄청나게 많다. 그 중에서 평점이 가장 높고 다운로드 횟수가 가장 많으며 전문가들도 인정한 앱만 추렸다.   핑(Fing) : 네트워크 스캐너 핑은 다용도 툴이다. 사무실 LAN 또는 와이파이 네트워크에 연결된 디바이스를 찾아 목록화하는 네트워크 스캐너로, 디바이스 이름과 IP 주소, MAC 주소, 제조사와 같은 정보를 제공한다. 핑(앱 스토어와 구글 플레이에서 다운로드 가능)에는 네트워크 문제를 진단하고 해결하는 데 도움이 되는 단계별 가이드가 포함돼 있다. 보안을 위해 디바이스가 와이파이 네트워크에 연결될 때 알림을 보내도록 설정할 수도 있다. 네트워크 스캐너 외에도 봉주르(Bonjour), NetBIOS, UPnP의 서비스 분석기, DNS 조회 및 역 DNS 조회, 인터넷 연결 검사, ISP 분석기, 핑, 포트 커넥터(브라우저, FTP, SSH), 포트 스캐너, 서브넷 스캐너, traceroute, Wake On LAN 등의 툴을 포함한다. 핑은 무료이며 독립적으로 사용할 수도 있지만 100달러에 판매되는 옵션 디바이스인 핑박스(Fingbox)와 연계 작동도 가능하다. 핑박스는 더 심층적인 분석과 보안을 위해 네트워크에서 디바이스를 차단하고 와이파이 네트워크의 신호 강도를 측정하고 근처 디바이스 모니터링으로 와이파이 네트워크를 보호하고 네트워크의 인터넷 연결 문제를 해결하기 위한 툴도 부가적으로 제공한다. 가격: 무료 개발: 핑(Fing Limited)   VNC 뷰어(VNC Viewer) : 원격 데스크톱 액세스 아이폰을 사용해서 회사 네트워크의 서버 또는 다른 컴퓨터에 액...

2019.02.01

재앙적 IT 장애의 진짜 교훈··· "다층적 시스템 복원력 갖춰라"

호주의 금융, 정부, 여행, 무선통신 업계에서 거의 매주 서비스 장애 사고가 발생하고 있다. 주로 하드웨어 오류와 소프트웨어 업그레이드, 인적 오류, 랜섬웨어 공격 때문인데 결국 중대한 서비스 장애를 나타나고 있다. 클라우드의 확산과 함께 이런 장애도 계속될 수밖에 없으므로 일정 수준의 복원력을 갖추는 것이 중요하다는 지적이다. 서비스 중단은 기업 평판에 악영향을 끼칠 뿐만 아니라 매출과 생산성 손실로도 이어진다. 한 가지 분명한 것은 오늘날처럼 매우 치열한 경쟁 환경에서 이를 감내할 여유가 있는 기업이 없다는 점이다. 지금이야말로 CIO가 업무 연속성과 재해 복구(DR) 계획이 제대로 준비됐는지 냉철히 살펴보아야 할 적기이다. 당연하게도, 복원력을 제대로 갖춘 DR 플랫폼에 투자하는 것이 장애 이후 상황을 해결하는 것보다 비용이 훨씬 적게 든다. 많은 CIO가 클라우드에 겹겹이 안전 장치를 확보하는 것이 큰 이득이라는 것을 깨닫고 있다. 즉, 주 사이트와 서로 날씨가 다를 정도로 지리적으로 충분히 떨어져 있는 곳에 제2의(또는 그 이상의) 복구 데이터센터를 구축하는 것이다. 그래야만 주 사이트에 무슨 일이 생겨도 서비스 중단의 영향을 방지하거나 줄일 수 있다. 서비스 중단 시간의 비용 IT 기능에 대한 의존도가 점점 커지고 있고 그 중 많은 부분이 클라우드에서 지원되고 있으므로, 일부 기업은 서비스 장애 발생 시 매우 취약하다. 웹사이트 전체가 상당 기간 오프라인 상태에 빠질 수 있으며 그 기간 동안 사업에 타격을 받게 된다. 특히 일부 업무용 프로그램은 이러한 다중 안전 장치를 갖추기가 어렵다. 특정 환경에서만 사용하도록 설계됐고 이동성은 고려되지 않았기 때문이다. 이 문제를 해결하고 제대로 된 재해 안전망을 갖추기 위해 많은 CIO가 하이브리드 클라우드 구축 방식을 검토하고 있다. 즉, 관리서비스 제공업체 또는 자체 데이터센터를 활용하는 것이다. 서비스 중단 시간은 기업에 금전적인 면이나 평판 면에서 모두 큰 피해를 줄...

CIO 장애 다운타임 복원력

2017.11.20

호주의 금융, 정부, 여행, 무선통신 업계에서 거의 매주 서비스 장애 사고가 발생하고 있다. 주로 하드웨어 오류와 소프트웨어 업그레이드, 인적 오류, 랜섬웨어 공격 때문인데 결국 중대한 서비스 장애를 나타나고 있다. 클라우드의 확산과 함께 이런 장애도 계속될 수밖에 없으므로 일정 수준의 복원력을 갖추는 것이 중요하다는 지적이다. 서비스 중단은 기업 평판에 악영향을 끼칠 뿐만 아니라 매출과 생산성 손실로도 이어진다. 한 가지 분명한 것은 오늘날처럼 매우 치열한 경쟁 환경에서 이를 감내할 여유가 있는 기업이 없다는 점이다. 지금이야말로 CIO가 업무 연속성과 재해 복구(DR) 계획이 제대로 준비됐는지 냉철히 살펴보아야 할 적기이다. 당연하게도, 복원력을 제대로 갖춘 DR 플랫폼에 투자하는 것이 장애 이후 상황을 해결하는 것보다 비용이 훨씬 적게 든다. 많은 CIO가 클라우드에 겹겹이 안전 장치를 확보하는 것이 큰 이득이라는 것을 깨닫고 있다. 즉, 주 사이트와 서로 날씨가 다를 정도로 지리적으로 충분히 떨어져 있는 곳에 제2의(또는 그 이상의) 복구 데이터센터를 구축하는 것이다. 그래야만 주 사이트에 무슨 일이 생겨도 서비스 중단의 영향을 방지하거나 줄일 수 있다. 서비스 중단 시간의 비용 IT 기능에 대한 의존도가 점점 커지고 있고 그 중 많은 부분이 클라우드에서 지원되고 있으므로, 일부 기업은 서비스 장애 발생 시 매우 취약하다. 웹사이트 전체가 상당 기간 오프라인 상태에 빠질 수 있으며 그 기간 동안 사업에 타격을 받게 된다. 특히 일부 업무용 프로그램은 이러한 다중 안전 장치를 갖추기가 어렵다. 특정 환경에서만 사용하도록 설계됐고 이동성은 고려되지 않았기 때문이다. 이 문제를 해결하고 제대로 된 재해 안전망을 갖추기 위해 많은 CIO가 하이브리드 클라우드 구축 방식을 검토하고 있다. 즉, 관리서비스 제공업체 또는 자체 데이터센터를 활용하는 것이다. 서비스 중단 시간은 기업에 금전적인 면이나 평판 면에서 모두 큰 피해를 줄...

2017.11.20

브리티시 에어웨이, 시스템 장애로 항공기 수백 대 운항 차질

영국의 대형 항공사인 브리티시 에어웨이(British Airways)의 데이터센터 장애 사고는 백업 시스템 테스팅과 계획성 있는 재해복구 절차의 중요성을 잘 보여준다. 업체의 CEO 알렉스 크루즈는 이번 사고를 '핵심 IT 시스템의 장애'라고 설명했다. 이로 인해 모든 항공기 체크인과 운영 시스템에 장애가 발생했다. 이번 사고는 5월 27일 토요일에 일어났다. 항공기 수백 대의 일정이 지연 혹은 취소됐고 승객 수천 명이 주말을 앞두고 런던 히스로 공항에 발이 묶였다. 이번 장애는 이틀이 지난 현재도 완전히 복구되지 않았다. 크루즈는 이번 사고의 원인이 전력 공급 문제라고 밝혔다. 업체 대변인도 "영국 데이터센터의 전력 공급 문제 때문에 발생했다. 비정상적인 파워 서지(power surge) 때문에 데이터센터내 하드웨어가 물리적인 피해를 입었고 그 결과 다른 복잡한 IT 운영 시스템들이 영향을 받았다"고 말했다. 특히 그는 "이런 상황을 대비해 백업 시스템을 갖추고 있지만 이번 사고 복구 과정에서는 제대로 작동하지 않았다"고 말했다. 그동안 전력 문제를 겪은 항공사는 브리티시 에어웨이가 처음이 아니다. 델타 에어라인도 지난 2016년 8월에 비슷한 장애를 겪었다. 업체 본사에 공급되는 전력 전환기에 이상이 발생해 전 세계 비행 업무에 차질을 빚었다. 사안이 조금 다르긴 하지만 지난 달에는 사우스웨스트 에어라인에서 네트워크 라우터 문제로 시스템 장애가 발생하기도 했다. 브리티시 에어웨이는 1개 이상의 데이터센터를 보유하고 있지만 같은 파워 서지가 두 곳 모두에 피해를 줬을 가능성을 배제할 수 없다. 지난 2012년 업체는 히스로 근처의 워터사이드 본사 옆에 데이터센터 2곳을 설립했다고 밝혔다. 이 업체에 DCIM(data center infrastructure management) 시스템을 공급한 업체 선버드(Sunbird)에 따르면, 6개 홀에 데이터 캐비닛 500개를 밀집해 놓은 형...

전력 장애 브리티시 에어웨이 항공기 파워 서지

2017.05.30

영국의 대형 항공사인 브리티시 에어웨이(British Airways)의 데이터센터 장애 사고는 백업 시스템 테스팅과 계획성 있는 재해복구 절차의 중요성을 잘 보여준다. 업체의 CEO 알렉스 크루즈는 이번 사고를 '핵심 IT 시스템의 장애'라고 설명했다. 이로 인해 모든 항공기 체크인과 운영 시스템에 장애가 발생했다. 이번 사고는 5월 27일 토요일에 일어났다. 항공기 수백 대의 일정이 지연 혹은 취소됐고 승객 수천 명이 주말을 앞두고 런던 히스로 공항에 발이 묶였다. 이번 장애는 이틀이 지난 현재도 완전히 복구되지 않았다. 크루즈는 이번 사고의 원인이 전력 공급 문제라고 밝혔다. 업체 대변인도 "영국 데이터센터의 전력 공급 문제 때문에 발생했다. 비정상적인 파워 서지(power surge) 때문에 데이터센터내 하드웨어가 물리적인 피해를 입었고 그 결과 다른 복잡한 IT 운영 시스템들이 영향을 받았다"고 말했다. 특히 그는 "이런 상황을 대비해 백업 시스템을 갖추고 있지만 이번 사고 복구 과정에서는 제대로 작동하지 않았다"고 말했다. 그동안 전력 문제를 겪은 항공사는 브리티시 에어웨이가 처음이 아니다. 델타 에어라인도 지난 2016년 8월에 비슷한 장애를 겪었다. 업체 본사에 공급되는 전력 전환기에 이상이 발생해 전 세계 비행 업무에 차질을 빚었다. 사안이 조금 다르긴 하지만 지난 달에는 사우스웨스트 에어라인에서 네트워크 라우터 문제로 시스템 장애가 발생하기도 했다. 브리티시 에어웨이는 1개 이상의 데이터센터를 보유하고 있지만 같은 파워 서지가 두 곳 모두에 피해를 줬을 가능성을 배제할 수 없다. 지난 2012년 업체는 히스로 근처의 워터사이드 본사 옆에 데이터센터 2곳을 설립했다고 밝혔다. 이 업체에 DCIM(data center infrastructure management) 시스템을 공급한 업체 선버드(Sunbird)에 따르면, 6개 홀에 데이터 캐비닛 500개를 밀집해 놓은 형...

2017.05.30

칼럼 | 아마존이 보여준 '한 바구니에 담긴 달걀'의 위험성

최근 아마존의 미 동부 제1 데이터센터에 장애가 발생해 해당 센터에서 지원하던 아마존 S3 클라우드 서비스가 중단되는 사고가 발생했다. 그리고 그 결과는 실로 참담했다. 이 사고로 인해 쿼라(Quora), 비즈니스 인사이더(Business Insider), 넷플릭스(Netflix), 레딧(Reddit), 슬랙(Slack) 등 거대 사이트들의 운영이 전면 혹은 일부 중단되는 피해를 입었다. 시밀러테크(SimilerTech)의 조사에 따르면, 이번 장애로 영향을 받은 사이트는 총 12만 4,000곳에 이르는 것으로 확인됐다. 대학에 다니는 필자의 한 지인으로부터도 “학교의 IT 기능이 마비돼 학생들이 과제에 접근하지 못하는 등 불편을 입었다”는 피해 사례가 전해졌다. 한 클라우드 컨설턴트는 아마존 웹 서비스(AWS, Amazon Web Services)를 이용하던 고객들이 애저(Azure)로의 전환을 요구해오는 통에 전화기에 불이 날 지경이었다고 하소연하기도 했다. 이번 사태는 우리에게 중요한 교훈을 전해줬다. 그간 우리는, 클라우드를 잘못 이용해왔다. 이 수백만 달러의 피해를 불러온 사고의 원인은, 놀랍게도 하나의 타이핑 오류에서 비롯된 것이었다. AWS 측의 보고 자료를 인용해본다. “아마존 S3(Simple Storage Service) 팀은 S3 청구 시스템 처리 지연을 야기하는 문제에 대한 디버깅 작업을 진행 중이었다. 9:37 AM(태평양 표준시) 기준, 공인 S3 팀원 한 명이 기존 플레이북을 이용해 S3 청구 프로세스에 이용되는 S3 서브시스템 가운데 하나와 연결된 소수의 서버들을 제거하는 명령을 실행했다. 이 과정에서 명령 1 건이 잘못 입력됐고, 그로 인해 계획한 것보다 많은 수의 서버가 제거됐다. 오류로 인해 제거된 서버는 본래 작업 대상이 아닌 다른 두 S3 서브시스템을 지원하는 서버들로, 이로 인해 지역 내 모든 S3 객체의 메타데이터와 위치 정보를 총괄하는 인덱스 서브시스템에 손상이 가...

AWS 서비스중단 장애 분산배치

2017.03.09

최근 아마존의 미 동부 제1 데이터센터에 장애가 발생해 해당 센터에서 지원하던 아마존 S3 클라우드 서비스가 중단되는 사고가 발생했다. 그리고 그 결과는 실로 참담했다. 이 사고로 인해 쿼라(Quora), 비즈니스 인사이더(Business Insider), 넷플릭스(Netflix), 레딧(Reddit), 슬랙(Slack) 등 거대 사이트들의 운영이 전면 혹은 일부 중단되는 피해를 입었다. 시밀러테크(SimilerTech)의 조사에 따르면, 이번 장애로 영향을 받은 사이트는 총 12만 4,000곳에 이르는 것으로 확인됐다. 대학에 다니는 필자의 한 지인으로부터도 “학교의 IT 기능이 마비돼 학생들이 과제에 접근하지 못하는 등 불편을 입었다”는 피해 사례가 전해졌다. 한 클라우드 컨설턴트는 아마존 웹 서비스(AWS, Amazon Web Services)를 이용하던 고객들이 애저(Azure)로의 전환을 요구해오는 통에 전화기에 불이 날 지경이었다고 하소연하기도 했다. 이번 사태는 우리에게 중요한 교훈을 전해줬다. 그간 우리는, 클라우드를 잘못 이용해왔다. 이 수백만 달러의 피해를 불러온 사고의 원인은, 놀랍게도 하나의 타이핑 오류에서 비롯된 것이었다. AWS 측의 보고 자료를 인용해본다. “아마존 S3(Simple Storage Service) 팀은 S3 청구 시스템 처리 지연을 야기하는 문제에 대한 디버깅 작업을 진행 중이었다. 9:37 AM(태평양 표준시) 기준, 공인 S3 팀원 한 명이 기존 플레이북을 이용해 S3 청구 프로세스에 이용되는 S3 서브시스템 가운데 하나와 연결된 소수의 서버들을 제거하는 명령을 실행했다. 이 과정에서 명령 1 건이 잘못 입력됐고, 그로 인해 계획한 것보다 많은 수의 서버가 제거됐다. 오류로 인해 제거된 서버는 본래 작업 대상이 아닌 다른 두 S3 서브시스템을 지원하는 서버들로, 이로 인해 지역 내 모든 S3 객체의 메타데이터와 위치 정보를 총괄하는 인덱스 서브시스템에 손상이 가...

2017.03.09

칼럼 | '운전의 즐거움도 잡는다' 토요타의 자율주행 자동차 전략

토요타가 자동차의 미래와 로봇 운전 차의 미래를 고민하는 것으로 알려졌다. 칼럼니스트 롭 엔덜은 토요타가 자율주행 자동차의 2가지 모델을 개발 중인데, 컴퓨터가 하든 사람이 하든 누가 운전을 하든 중요한 것은 사람의 안전이라고 강조했다.    2015년형 토요타 캠리 하이브리드. 이미지 출처 : Toyota 필자는 엔디비아 GPU 개발자 컨퍼런스를 마무리하는 중이다(알림: 엔디비아는 필자의 고객사다). 컨퍼런스는 게임에 관한 것으로 시작됐지만 현재 게임은 전체 행사의 일부일 뿐이고 전문가용 VR, 딥러닝, 자동차에 주로 초점이 맞춰져 있다. 이 행사의 마무리 기조연설은 토요타 리서치의 CEO 길 프랫이 맡았다. 토요타 리서치는 미래형 자동차뿐 아니라 로봇 연구에 관해서도 크게 관여하고 있다. 자율주행 자동차가 시장에 곧 등장하는 상황에서 이런 이야기는 그 어느 때보다도 시의적절하다고 생각한다. 다음은 필자가 꼽은 기조연설의 하이라이트다. 120만 이는 자동차 사고로 매년 사망하는 사람의 수다. 이 엄청난 숫자가 필자를 놀라게 했다. 자율주행 자동차는 이런 사망 사고를 줄이는 데 초점을 맞추고 있다. 우리 뇌는 놀랄 정도로 에너지 효율적이다 현재 전기 자율주행 자동차 시스템은 주행에 수천 와트의 전력이 들지만, 우리 뇌는 오직 30와트의 전력만으로 운전과 다른 일을 동시에 할 수 있다(사람은 운전 중 다른 생각을 한다) 동일한 작업을 비슷한 전력 대에서 수행하게 하는 것이 기술적인 어려움이다. 분명 사람처럼 생긴 로봇과 말처럼 생긴 로봇은 실제 사람과 말보다 몇 백 배 더 많은 전력을 쓴다. 수많은 연구 결과, 자연이 매우 에너지 효율적이라는 점이 밝혀졌다. 동물에게 에너지는 아주 값비싸서 진화는 자연적으로 에너지를 효율화시켰다. 이는 자연을 따른 모델링이 이 문제를 해결하는 가장 성공적인 방식임을 시사한다. 딥러닝 이전에 만들어진 비전 제품인 네오비전(Neo...

CIO 마비 환자 교통 사고 자율주행 딥러닝 엔디비아 Rob Enderle 토요타 개발자 컨퍼런스 운전 안전 로봇 GPU 인공지능 AI 장애 자동차 토요타 리서치

2016.04.12

토요타가 자동차의 미래와 로봇 운전 차의 미래를 고민하는 것으로 알려졌다. 칼럼니스트 롭 엔덜은 토요타가 자율주행 자동차의 2가지 모델을 개발 중인데, 컴퓨터가 하든 사람이 하든 누가 운전을 하든 중요한 것은 사람의 안전이라고 강조했다.    2015년형 토요타 캠리 하이브리드. 이미지 출처 : Toyota 필자는 엔디비아 GPU 개발자 컨퍼런스를 마무리하는 중이다(알림: 엔디비아는 필자의 고객사다). 컨퍼런스는 게임에 관한 것으로 시작됐지만 현재 게임은 전체 행사의 일부일 뿐이고 전문가용 VR, 딥러닝, 자동차에 주로 초점이 맞춰져 있다. 이 행사의 마무리 기조연설은 토요타 리서치의 CEO 길 프랫이 맡았다. 토요타 리서치는 미래형 자동차뿐 아니라 로봇 연구에 관해서도 크게 관여하고 있다. 자율주행 자동차가 시장에 곧 등장하는 상황에서 이런 이야기는 그 어느 때보다도 시의적절하다고 생각한다. 다음은 필자가 꼽은 기조연설의 하이라이트다. 120만 이는 자동차 사고로 매년 사망하는 사람의 수다. 이 엄청난 숫자가 필자를 놀라게 했다. 자율주행 자동차는 이런 사망 사고를 줄이는 데 초점을 맞추고 있다. 우리 뇌는 놀랄 정도로 에너지 효율적이다 현재 전기 자율주행 자동차 시스템은 주행에 수천 와트의 전력이 들지만, 우리 뇌는 오직 30와트의 전력만으로 운전과 다른 일을 동시에 할 수 있다(사람은 운전 중 다른 생각을 한다) 동일한 작업을 비슷한 전력 대에서 수행하게 하는 것이 기술적인 어려움이다. 분명 사람처럼 생긴 로봇과 말처럼 생긴 로봇은 실제 사람과 말보다 몇 백 배 더 많은 전력을 쓴다. 수많은 연구 결과, 자연이 매우 에너지 효율적이라는 점이 밝혀졌다. 동물에게 에너지는 아주 값비싸서 진화는 자연적으로 에너지를 효율화시켰다. 이는 자연을 따른 모델링이 이 문제를 해결하는 가장 성공적인 방식임을 시사한다. 딥러닝 이전에 만들어진 비전 제품인 네오비전(Neo...

2016.04.12

블로그 |'감사할만한' 올해의 클라우드 발전 3가지

감사의 계절이 돌아왔다. 그리고 클라우드 컴퓨팅에 있어서는 최소한 3가지 발전에 대해 감사해도 될 것이다. 아직 갈 길이 멀지만 2015년에는 클라우드 보안, 운영 안정성, 그리고 빅데이터 액세스가 클라우드 컴퓨팅의 가치를 한 단계 높여 줬다. 1. 대규모 클라우드 데이터 침해 사고가 없었다 다행한 일이 아닐 수 없다. 모든 대규모 해킹 사고, 즉 소니 픽처스나 홈 디포, 타깃 등은 클라우드 컴퓨팅과 아무런 관련이 없다. 클라우드를 안전하게 보호하는 역량은 올바른 보안을 설계하고 올바른 기술을 사용하는 데 얼마나 많은 노력을 기울이냐에 달려 있다. 다행스럽게도 클라우드는 높은 보안 수준을 유지하고 있다. 반면에 전통적인 시스템, 특히 오래 된 시스템은 쉽게 공격의 대상이 된다. 2. 줄어든 서비스 중단 사태 사실 서비스 중단 사태는 여전히 발생한다. 하지만 대규모의 광범위한 클라우드 서비스 중단은 더 이상 주요 뉴스가 아니다. 클라우드 서비스 업체들은 이전보다 운영을 훨씬 잘 하고 있으며, 여기에는 서비스 중단을 사전에 방지하는 역량도 포함된다. 오늘날 네트워크와 핵심 서버, 전력 시스템은 모두 이중화되어 있다. 일반적으로 한 부품의 장애가 전체 클라우드 서비스의 중단을 가져오는 일은 없다. 이로써 클라우드가 대부분의 전통적인 시스템보다 더 안정적이라는 사실이 증명되고 있다. 3. 클라우드 빅데이터의 부상 빅데이터와 같은 대규모 데이터 시스템은 하드웨어와 소프트웨어에 수백만 달러를 들여야 한다. 퍼블릭 클라우드는 이런 빅데이터 시스템을 구현하는 데 드는 비용을 현격하게 줄여주며, 한 때는 비용 때문에 주저했던 기업에게도 자사 데이터를 완벽하게 이해할 수 있는 역량을 가져다 준다. 데이터 플랫폼으로 퍼블릭 클라우드를 사용하는 일은 앞으로 계속 증가할 것으로 예상되며, 데이터가 퍼블릭 클라우드의 킬러 애플리케이션이 될 것이다. 이처럼 중요한 진전이 이루어졌음에도 불구하고, 아직도 우리는 곤경에서 벗어나지 못하고 있다. 우...

클라우드 보안 빅데이터 장애 퍼블릭 클라우드 클라우드 보안

2015.11.30

감사의 계절이 돌아왔다. 그리고 클라우드 컴퓨팅에 있어서는 최소한 3가지 발전에 대해 감사해도 될 것이다. 아직 갈 길이 멀지만 2015년에는 클라우드 보안, 운영 안정성, 그리고 빅데이터 액세스가 클라우드 컴퓨팅의 가치를 한 단계 높여 줬다. 1. 대규모 클라우드 데이터 침해 사고가 없었다 다행한 일이 아닐 수 없다. 모든 대규모 해킹 사고, 즉 소니 픽처스나 홈 디포, 타깃 등은 클라우드 컴퓨팅과 아무런 관련이 없다. 클라우드를 안전하게 보호하는 역량은 올바른 보안을 설계하고 올바른 기술을 사용하는 데 얼마나 많은 노력을 기울이냐에 달려 있다. 다행스럽게도 클라우드는 높은 보안 수준을 유지하고 있다. 반면에 전통적인 시스템, 특히 오래 된 시스템은 쉽게 공격의 대상이 된다. 2. 줄어든 서비스 중단 사태 사실 서비스 중단 사태는 여전히 발생한다. 하지만 대규모의 광범위한 클라우드 서비스 중단은 더 이상 주요 뉴스가 아니다. 클라우드 서비스 업체들은 이전보다 운영을 훨씬 잘 하고 있으며, 여기에는 서비스 중단을 사전에 방지하는 역량도 포함된다. 오늘날 네트워크와 핵심 서버, 전력 시스템은 모두 이중화되어 있다. 일반적으로 한 부품의 장애가 전체 클라우드 서비스의 중단을 가져오는 일은 없다. 이로써 클라우드가 대부분의 전통적인 시스템보다 더 안정적이라는 사실이 증명되고 있다. 3. 클라우드 빅데이터의 부상 빅데이터와 같은 대규모 데이터 시스템은 하드웨어와 소프트웨어에 수백만 달러를 들여야 한다. 퍼블릭 클라우드는 이런 빅데이터 시스템을 구현하는 데 드는 비용을 현격하게 줄여주며, 한 때는 비용 때문에 주저했던 기업에게도 자사 데이터를 완벽하게 이해할 수 있는 역량을 가져다 준다. 데이터 플랫폼으로 퍼블릭 클라우드를 사용하는 일은 앞으로 계속 증가할 것으로 예상되며, 데이터가 퍼블릭 클라우드의 킬러 애플리케이션이 될 것이다. 이처럼 중요한 진전이 이루어졌음에도 불구하고, 아직도 우리는 곤경에서 벗어나지 못하고 있다. 우...

2015.11.30

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.

10.4.0.31