Offcanvas

AI / IoT / 가상화 / 데이터센터 / 머신러닝|딥러닝 / 빅 데이터 / 신기술|미래

'1만 대 서버 관리는 머신러닝에 맡겼다' 한 데이터센터 기업 사례

2016.10.27 Matthew Finnegan   |  Computerworld UK
머신러닝이 사람을 대신해 시스템 장애에 신속하게 대응하고 인프라를 관리할 수 있을까? 데이터센터 규모가 커지면 문제가 생겼을 때 이를 관리자에게 자동으로 알려주고 대응하게 하는 체계로는 한계가 있다. 머신러닝에서 이러한 한계를 극복할 수 있는 해답을 찾았다.



인공지능이 단순 작업을 자동화하고 기계로 처리하면서 다양한 산업을 바꿔 놓을 것으로 예상된다. IT부문도 다르지 않으며, 머신러닝 알고리즘이 점차 데이터센터 운영 자동화 및 개선에 초점을 맞추고 있다.

눈에 띄는 예로 최근 자체 딥마인드(DeepMind) 기술을 이용해 거대한 서버 팜(Server Farm)에서 전력 소비량을 관리하여 필요한 전력량을 40%가 절감했다고 밝힌 구글을 들 수 있다.

또 AI기술이 IT운영팀이 수행하는 기능을 자동화할 수도 있다. 머신러닝은 인간의 개입 없이 인프라를 관리하고 장애에 신속하게 대응하는 방법을 제시했다.

바르셀로나에서 열린 VM월드 유럽(VMworld Europe)에서 항공 산업에 서비스를 제공하는 기술 업체 아마데우스(Amadeus) IT그룹의 글로벌 비즈니스 담당 VP 겸 GM 볼프강 크립스 박사는 해당 기업이 현재 자사의 데이터센터 인프라를 모니터링하기 위해 IBM의 왓슨(Watson) 인공지능 플랫폼 사용을 시험하고 있다고 밝혔다.

"대규모 데이터센터 운영에는 완전히 다른 역량이 필요하기 때문에 운영 파라미터 작업, 사고 예측, 더욱 신속한 기저 원인 파악에 그들의 기술을 활용할 수 있는지 보기 위해 IBM에서 왓슨 전문가들과 협력하고 있다."

아마데우스는 약 1만 2,000개의 서버를 갖춘 데이터센터로 자사의 비즈니스 운영을 지원하고 있다. 해당 기업의 인프라 환경은 구글의 그것과 비교하여 규모가 작지만 데이터센터를 운영하는 다른 조직과 마찬가지로 새로운 서비스에 대한 고객들의 수요가 그 어느 때보다도 증가하고 있으며 다운 타임(Down Time)을 거의 없애야 한다.

크립스는 "해결해야 하는 문제 공간이 너무 복잡해지고 있으며 하루에 수백 억 개의 사건이 일어나고 있다. 더 이상 인간이 관리할 수 있는 수준이 아니다"며 다음과 같이 이야기했다.

"완전히 자동화된 방식으로 이런 것들을 관리해야 하기 때문에 의사를 결정할 수 있는 기계가 필요하다. 이를 통해 컴퓨터를 지금 종료하거나 다른 것을 해야 하는지 여부를 결정할 수 있다. 우리는 지금 최소한 최초의 해결 조치가 자동으로 시작되고 추가 조치를 취할 수 없는 경우에만 도움을 요청하도록 하는 방법을 찾으려 노력하고 있다. 이것이 트렌드며 이 때문에 우리가 이 모든 영역을 살피고 있다."

VM웨어 EMEA의 CTO인 조 베이글리는 데이터센터 인프라 관리를 위해 소프트웨어를 제공하기 위해 머신러닝이 고객들에게 도움이 되는 방법도 연구하고 있다고 전했다.

베이그리는 "우리의 클라우드 관리 CTO 마이크 우키는 특히 플랫폼의 자동화 및 관리를 위해 머신러닝과 AI에 대한 많은 연구를 진행하고 있다"고 설명했다.

"[데이터센터가] 이전에는 불가능했던 규모와 속도에 도달하면서 인간이 경보 그래프를 충분히 신속하게 해석하여 100% 가용성을 유지하기에는 무리가 있는 수준에 도달했다"고 베이그리는 언급했다.

이어서 "우리는 조치를 취하기 위해 인프라와 애플리케이션에서 AI 기반의 응답을 찾아야 한다. '어떤 서브 시스템 x의 디스크 7에 문제가 있다'가 아니라 '이것이 지금 시스템이 받는 영향이다'라야 한다"고 주장했다.

그는 다음과 같이 덧붙였다. "관리 툴셋에 머신러닝이 더 많이 적용되고 향후 5년 중 4년 동안 AI에 집중하는 모습을 보게 될 것이다."

베이글리는 인프라 문제가 언제 발생할지 예측하는 능력을 얻는 것이 바로 목적이라고 말했다. 이는 온라인 소매 기업 아마존이 적용하는 수요 예측과 닮았다.

아마존은 공급망에 이런 것을 적용하고 있다. 때로는 주문한 물건이 다음 날이 아닌 당일에 배송되는 경우가 있는데, 그 이유는 그 지역 사람들이 해당 시점에 그런 물건을 주문하는 경향이 있다는 사실을 알고 제품을 출고하기 때문이다. 베이글리는 아마존 사례에서 ‘데이터센터에서는 그렇게 할 수 없을까? 미리 출고하고 트렌드를 찾을 수는 없을까?’라는 의문을 가지고 출발했다.


머신러닝에 대한 관심이 기술 인프라 자동화의 다음 단계로 옮겨가게 된 배경에 대해 베이글리는 이같이 설명했다.

아마데우스의 크립스는 수동 데이터센터 운영의 필요성 감소로 인해 IT 운영 인력의 역할이 바뀔 것이라고 말했다.

그는 "현재 일일 트랜잭션(Transaction)과 서비스 구성에 능동적으로 참여하는 부서나 사업부가 앞으로는 그런 일을 하지 않을 것이다"고 밝혔다.

이어서 "이 사람들은 자동화 엔지니어가 될 것이다. 자동차 공장과 마찬가지로 노동자들은 컨베이어 벨트에서 벗어나 로봇 프로그래밍을 시작할 것이다. 이런 수준의 안정성과 민첩성을 원한다면 서비스를 제공하는 방식을 완전히 바꾸어야 한다. 이런 거대한 변화가 지금 이루어지고 있다"고 덧붙였다. ciokr@idg.co.kr
 
추천 테크라이브러리

회사명:한국IDG 제호: ITWorld 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아00743 등록일자 : 2009년 01월 19일

발행인 : 박형미 편집인 : 박재곤 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2022 International Data Group. All rights reserved.