전력 관리는 서버 워크로드 관리와 유관
데이터센터는 글로벌 전기 공급량의 3%를 소비하고 약 2%의 온실 가스를 배출시키는 것으로 추산된다. 많은 기업들이 비용을 절감하고 환경적 책임을 지기 위해 데이터센터 전력 관리를 면밀히 살피는 배경이다.
451 리서치의 수석 분석가 다니엘 비조는 AI 기반 시스템이 데이터센터 운영자에게 다양한 혜택을 제공할 수 있다고 전했다. 특히 기류를 방해하는 고밀도 캐비닛, 성능이 부족한 HVAC 장치, 열기와 냉기 통로 사이의 부족한 공기 분리 등, 현재의 또는 잠재적인 냉각 문제를 이해하는 데 도움이 될 수 있다는 설명이다.
비조는 이어 AI가 데이터센터 설계를 넘어 데이터센터 HVAC 시스템 데이터와 환경 감지 값을 상호 연계시키는 등 시설을 학습할 수 있을 것이라고 덧붙였다.
전력 관리는 손쉽게 달성할 수 있는 목표라고 IT 자문 및 컨설팅 기업 스토리지IO(StorageIO)의 설립자 그렉 슐츠가 평가했다. 그는 “현재 중요한 것은 생산성, BTU당 작업 처리 효율 증가, 에너지 와트당 작업 처리량 증가, 즉 더 스마트하게 일하고 장비를 더 스마트하게 운용하는 것이다”라고 말했다.
또한 용량 계획 측면도 있다. 데이터센터가 적절한 수의 물리적인 서버에 전력을 공급하고 일시적인 수요 증가 시 새로운 물리적인 서버를 구성(해제)할 수 있는 용량을 확보하는 데 AI가 일조할 수 있는 것이다.
슐츠는 아울러 전력 관리 도구가 발전하면서 장비와 워크로드를 관리하는 시스템에 통합되고 있다고 덧붙였다. 예를 들어, 센서가 과도한 서버 온도를 감지하면 시스템이 워크로드를 활용도가 낮은 서버로 신속하게 자동으로 이동시키는 식이다. 그리고 AI 시스템이 서버 과열 문제를 조사할 수 있다. 고장 난 팬(HVAC 문제), 곧 고장 난 물리적인 부품(장비 문제), 서버 과부하(워크로드 문제) 등의 원인을 파악하는 것이다.
AI를 통한 건전성 모니터링, 구성 관리 감독
데이터센터는 정기적인 유지보수가 필요한 물리적인 장비로 가득 차 있다. AI 시스템은 예약된 유지보수의 수준을 넘어 즉각적인 주의가 요구되는 특정 영역을 찾을 수 있는 텔레메트리 데이터에 대한 수집 및 분석을 도울 수 있다. 슐츠는 “AI 도구는 모든 데이터를 분석하여 패턴을 찾아 이상을 발견할 수 있다”라고 말했다.
비조는 “건전성 모니터링은 장비가 올바르게 구성되어 있고 기대치에 부합하는지 확인하면서 시작된다. 수만 개의 구성품을 가진 수백 또는 수천 개의 IT 캐비닛의 경우 이런 일상적인 작업이 노동 집약적일 수 있기 때문에 항상 시의 적절하고 엄격하게 수행되지는 않는다”라고 덧붙였다.
그는 또 많은 양의 데이터 로그에 기초한 예비 장비 고장 모델링으로 ‘어렴풋한 구성품 또는 장비 고장을 찾아내고 서비스 정지’를 유발할 수도 있는 용량 손실을 방지하기 위해 즉각적인 유지보수가 필요한지 여부를 평가할 수 있다고 전했다.
주니퍼 네트웍스(Juniper Networks)의 기업 및 클라우드 마케팅 부사장 마이클 부숑은 기업 데이터센터 운영자들이 AI와 관련된 일부 지나친 약속과 광고에 주의할 필요가 있다며, 그가 말하는 ‘지루한 혁신’에 집중해야 한다고 지적했다.
“그렇다. AI 시스템은 언젠가 ‘나에게 무엇이 잘못되었고 그것을 고치라고 말할 수 있을 것이다. 그러나 ‘문제가 발생하면 위치를 알려주는’ 수준으로도 충분히 효율성이 있다”라고 그는 말했다.
이 밖에 원활하고 안전한 장비 운영 유지의 또 다른 중요한 측면은 구성 추이를 통제하는 것이다. 이것은 데이터센터에서 즉석 구성 변경사항이 점차 축적되어 문제를 발생시키는 현상을 일컫는 말이다. 부숑은 “AI를 ‘추가적인 안전 점검’으로 활용하여 임박한 구성 기반 데이터센터 문제를 찾을 수 있다”라고 말했다.