Offcanvas

AI / 데이터센터 / 머신러닝|딥러닝 / 비즈니스|경제 / 서버 / 신기술|미래 / 통신|네트워크

프로세스까지 최적화··· 진화하는 '데이터센터 속 AI'

2018.05.28 Ann Bednarz  |  Network World
데이터센터 운영에서 인공지능(AI)의 역할이 확대될 전망이다. 대규모 데이터센터 운영업체와 코로케이션 업체에서 머신러닝 기술을 도입해 사용한 결과가 나쁘지 않은 것으로 나타나면서, 점차 많은 기업이 이 기술을 도입하기 시작했기 때문이다.



오늘날 하이브리드 컴퓨팅 환경은 온-프레미스 데이터센터, 클라우드 및 코로케이션 현장, 그리고 엣지 컴퓨팅 구축까지 포함하는 경우가 많다. 이에 따라 기업도 전통적인 데이터센터 관리 방식이 최적이 아님을 깨닫고 있다. 머신러닝과 AI 기술은 복잡한 컴퓨팅 시설 관리를 더 단순하고 능률적으로 만들 가능성이 있다.

현재 데이터센터에서 AI의 역할은 머신러닝을 이용해 전력 공급과 분배, 냉각 인프라스트럭처, 랙(rack) 시스템, 물리적 보안 등 각종 시설 요소의 관리를 모니터링하고 자동화하는 정도에 그치고 있다.

데이터센터 시설 내에도 파워 백업(UPS), 배전 유닛, 개폐기 및 냉각 장치 등 다양한 디바이스로부터 데이터를 수집하는 센서의 수가 증가하고 있다. 이를 통해 이들 기기와 그 환경에 대한 데이터를 머신러닝 알고리즘으로 분석하고, 각 기기의 성능과 역량에 대한 통찰력을 얻고, 필요에 따라 설정을 바꾸거나 알림을 보내는 등 적절하게 대처할 수 있다. 주변 환경이나 조건이 바뀌면 머신러닝 시스템이 이를 스스로 학습한다. 특정 프로그래밍 지시에 기대지 않고도 작업을 수행하고, 스스로 변화에 적응해 조정할 수 있도록 만들어졌기 때문이다.

결국, 데이터센터에서 AI를 이용하는 이유는 시설의 신뢰도와 효율성을 높이고 가능하면 더 자율적인 운영을 구현하기 위해서다. 그러나 이들 장비로부터 데이터를 가져 오는 일은 생각처럼 간단한 작업은 아니다. 무엇보다 주요 설비로부터 실시간으로 데이터를 가져올 수 있어야 한다. 여기서 주요 요소란 냉각기, 냉각 타워, 공조기, 팬 등을 가리킨다. IT 장비 쪽에서는 서버 활용률, 온도 및 전력 소모량 등이 있다.

슈나이더 일렉트릭(Schneider Electric)의 데이터센터 글로벌 솔루션의 시니어 디렉터 스티브 칼리니는 “데이터센터를 이처럼 수치화하는 작업은 쉽지 않다. AI 기술을 적용하려면, 데이터센터에 존재하는 무수히 많은 전력 및 냉각 연결 포인트에서 데이터를 추출해야 한다”라고 말했다. 디바이스 모니터링, 실시간 알림 등에 익숙한 IT 전문가라도 데이터센터 설비에는 익숙하지 않을 수 있다. 그는 “IT 장비의 알림이 즉각적으로 이루어 질 것이 기대하지만, 전력 시스템에서는 그러한 즉각적인 알림이 안 된다. 둘은 전혀 다른 별개의 세계다”라고 말했다.

데이터센터가 전력 및 냉각을 모니터링할 수 있도록 완벽하게 측정 설비를 갖추게 된 것이 채 10년이 안됐다. 그리고 이처럼 데이터의 측정이 이루어 지는 곳에서는 표준화가 어렵다. 데이터센터 관리자들은 모드버스(Modbus)와 BACnet부터 LONworks, 나이아가라(Niagara)에 이르기까지 다양한 커뮤니케이션 프로토콜을 사용하는 건물 관리 시스템을 사용하고 있으며, 데이터를 공유할 수 없거나 원격 조종으로 컨트롤 할 수 없는 기기도 쓰고 있다. 칼리니는 “TCP/IP, 이더넷 연결 등의 연결은 냉각 및 전동 기구 쪽에서는 전례가 없는 일이었다”라고 말했다.

다행인 것은 데이터센터 모니터링 기술이 이제는 고급 애널리틱스 및 머신러닝에 필요한 수준까지 발전하고 있다는 것이다. 칼리니는 “서비스 공급자 및 코로케이션 공급자는 예전부터 랙 레벨이나 케이지 레벨의 모니터링, 또는 에너지 사용량 모니터링 작업을 잘 해 왔다. 기업 역시 데이터센터의 규모에 따라 이를 적용하기 시작했다”라고 말했다.

머신러닝 기반 냉각 시스템
델타 에어라인은 2016년 발생한 전기 시스템 고장으로 인해 데이터센터 장애로 무려 2천 건이 넘는 항공편 운항 지연과 1억 5000만 달러에 달하는 손실을 봤다. 머신러닝 기반 자동화 기술을 이용하면 바로 이런 상황을 모면할 수 있다. 데이터센터 측정 기술의 발전과 클라우드의 데이터 풀 덕분에 미리 데이터센터 취약점을 파악하고 데이터센터 운영의 효율성을 높일 수 있는 스마트 시스템이 가능해지고 있다. 수동 프로세스로는 불가능했던 일이다.

머신러닝 주도적 지능의 가장 단순한 예는 데이터센터의 소모품에 적용될 수 있는 상태 기반 관리 방식이다. 냉각 필터도 그러한 소모품 중 하나가 될 수 있을 것이다. 스마트 시스템이 여러 필터를 통한 공기 흐름 상태를 모니터링하며 필터 중 일부가 막히게 되면 이를 감지해 이 필터를 교체할 때까지 더 흐름 상태가 좋은 다른 필터로 공기를 우회시킨다.

또 다른 예는 UPS 시스템의 온도 및 배터리 방전 상태를 모니터링하는 것이다. 스마트 시스템은 상대적으로 더운 환경에 있으면서 더 자주 방전되는 UPS 시스템을 식별해 내고, 이러한 UPS를 백업 UPS로 지정해 둔다. 칼리니는 “즉, 사람을 대신해 약간의 판단을 내려 주는 것이다. 물론 사람이 직접 이런 작업을 할 수도 있겠지만, 기계에 위임할 수 있다면 굳이 하지 않을 이유가 없다"라고 말했다.

여기서 한 단계 더 나아간 것이 바로 다이내믹 냉각 최적화 기술이다. 다이내믹 냉각 최적화 기술은 오늘날 데이터센터 분야에 머신러닝 기술을 적용한 가장 대표적인 사례 중 하나다. 특히 대규모 데이터센터 관리자나 코로케이션 서비스 제공업체가 많이 사용한다.

다이내믹 냉각 최적화 기술을 이용하면 데이터센터 관리자가 주변 환경 조건에 따라 시설물의 냉각 인프라스트럭처를 모니터링 및 통제할 수 있다. 장비를 이동하거나 컴퓨팅 트래픽이 급증할 때 건물 내부의 열도 변화한다. 이처럼 변화하는 열에 맞춰 동적으로 냉각 아웃풋을 조절하면 불필요한 냉각 용적을 줄일 수 있고 운영 비용도 절감된다.

451 리서치의 환경친화 IT 채널 및 데이터센터 기술 연구 디렉터 론다 아시에르토는 "코로케이션 서비스 공급자가 이러한 다이내믹 냉각 최적화 기술을 애용한다. 데이터센터에서 머신러닝 기술을 사용한 건 사실 꽤 된 일이다. 관리자는 오래 전부터 설비 용적과 수요에 기반한 적절한 규모의 냉각 시스템을 구축하고자 했고, 머신러닝은 이를 실시간으로 할 수 있게 해 줬다"라고 말했다.

비질런트(Vigilent)는 다이내믹 냉각 최적화 분야의 선두주자이다. 데이터센터 시설물 내부의 공기 흐름을 최적화해 자동으로 열 적체를 찾아내고 해소하는 기술을 가지고 있다. 비질런트의 창립자이자 대표이며 CTO인 클리프 페더스피엘은 "데이터센터 관리자는 필요 이상으로 많은 냉각 장비를 도입하는 경향이 있다. 이러한 냉각 장치들은 그럭저럭 문제 없이 온도 균일화를 해 내지만, 너무 큰 비용이 드는 게 문제다”라고 말했다.

즉, 열이 적체된 핫 스팟이 발견되면 대부분은 그냥 냉각 용적을 증가시키는 것에 만족한다는 것이다. 그러나 사실 공기 흐름 속도가 너무 빠르면 압력 차가 발생해 장비를 통한 공기 흐름을 막거나, 뜨거워진 공기가 냉각 장치로 회수되는 과정을 방해할 수 있다. 따라서 언뜻 듣기에는 틀린 말처럼 느껴질 수 있어도 차라리 팬 속도를 늦추는 것이 도움이 될 수도 있다.

비질런트의 머신러닝 기반 기술은 각 고객의 열 환경에 최적화된 공기 흐름 설정을 찾아낸다. 딱 필요한 만큼의 냉각을, 정확히 필요한 위치에 공급해 냉각 관련 에너지 비용을 40%까지 절감할 수 있다고 업체는 주장했다. 비질런트의 소프트웨어는 냉각 시스템 자동화 외에도, 데이터센터 시설과 관련한 운영상의 의사 결정을 내리는 데 도움이 되는 애널리틱스를 제공한다.

페더스피엘은 “데이터를 사용해 자본 지출, 용적 계획, 신뢰성 프로그램 등을 관리하는 방식에 대한 관심이 점차 높아지고 있다. 이러한 방식은 데이터센터 내부에서 이루어지는 여러 가지 데이터 의존적 의사 결정과 관련한 다양한 기회를 만들어 내고 있다”라고 말했다.


기존 프로세스 개선을 위한 AI 기술
다이내믹 냉각 최적화 시스템의 성공에 힘입어 데이터센터 관리자들은 이러한 기술을 다른 영역에까지 확대 적용할 방법을 찾고 있다. 일반적으로 머신러닝 기술을 받아들일 준비가 된 프로세스는 대개 반복적 작업 위주의 익숙한 프로세스다. 페더스피엘은 “새로운 머신러닝 기반 데이터센터 관리는 기존 비즈니스 프로세스에 적용될 확률이 높다. 왜냐하면 이 기술은 기업이 직면한 문제와 규칙을 완벽하게 이해하고 있을 때 가장 효과가 크기 때문이다”라고 말했다.

물론 기업도 기존에 사용하던 모니터링 툴이 있다. 데이터센터 자산, 상호의존성, 성능 및 용적에 대한 가시성을 제공하는 DCIM(Data-Center Infrastructure Management) 소프트웨어가 대표적이다. 원격 장비 모니터링, 전력 및 환경 모니터링, IT 자산 관리, 데이터 관리 및 리포팅 등의 기능을 수행한다. 기업은 용적 계획과 자원 배당을 단순화하기 위해, 그리고 무엇보다 전력, 장비 및 공간 활용의 효율성을 극대화하기 위해 DCIM 소프트웨어를 사용한다.

아시에르토는 “기본적인 모니터링 및 자산 관리 시스템이 안착해 있다면 용적을 예측하는 능력이 비약적으로 발전한다. 오늘날 기업은 자체적인 데이터를 가지고 이러한 작업을 하고 있다”라고 말했다.

그 다음은 외부 데이터를 DCIM에 통합하는 것이다. 바로 이 부분에서 머신러닝이 결정적 역할을 한다. 데이터센터 매니지먼트 서비스, 혹은 DMaaS는 DCIM 소프트웨어에 기반한 것이다. 그러나 단순히 DCIM 소프트웨어의 SaaS 버전이라고 생각해선 곤란하다. DMaaS는 데이터 수집을 한 단계 발전시켜 다수의 데이터센터로부터 장비 및 디바이스 데이터를 취합한다. 그리고 이들 데이터를 익명화한 후 한 데 모아 머신러닝을 이용해 분석한다.

DMaaS 시장의 선도 기업을 꼽으면 2곳이다. 슈나이더 일렉트릭(Schneider Electric)과 이튼(Eaton)이다. 두 기업 모두 데이터센터 설계 및 건축, 건물 관리, 전원 분배, 전력 및 냉각 서비스 등 수년 간의 데이터센터 경험을 통해 상당한 규모의 데이터를 보유하고 있다. 아시에르토는 “슈나이더나 이튼 사가 추구하는 변화는 매우 유의미하며 거대한 것이다. 고객의 데이터를 취합한 데이터 레이크를 만들겠다는 것이다. 데이터센터 분야에서는 아주 흥미로운 시도이다”라고 말했다.

다양한 범주의 고객과 각양 각색의 데이터센터 환경으로부터 추출한 이러한 데이터를 활용하면 자사의 데이터센터 성능과 세계적인 데이터센터의 성능을 비교하는 것도 가능하다. 예컨대, 슈나이더 사의 DMaaS 서비스인 에코스트럭셔 IT(EcoStruxure IT)는 전 세계 500여 곳 이상 고객사의 220만 개 이상의 센서로부터 취합한 벤치마킹 데이터를 담은 데이터 레이크와 연결돼 있다.

아시에르토는 “이러한 문제를 자체적인 데이터를 가지고 이해하고, 해결할 수 있을 뿐 아니라, 다른 수천 개 기관으로부터 얻은 데이터를 사용할 수도 있다. 이들 중에는 실제 나의 기업과 매우 유사한 환경의 기관도 있을 것이다. 이런 정보를 활용할 수 있는 것은 매우 큰 차이다”라고 말했다. 예를 들어, 예측 및 예방 보전은 인텔리전스가 심층적일수록 유리하다. 그는 “AI는 유사 환경 내에서, 유사한 활용도와 연식, 요소 등을 가지고 가동되는 다른 기기의 데이터를 참조해 문제를 예측할 수 있다”라고 덧붙였다.

시나리오 플래닝 역시 머신러닝 기술로부터 많은 도움을 받게 될 프로세스다. 예를 들어 오늘날 기업은 장비의 변화가 전력 소모에 어떤 영향을 미칠지 추산하기 위해 시나리오 플래닝 방식을 이용한다. 아시에르토는 “물론 머신러닝 기술이 없어도 시나리오 플래닝은 가능하다. 그러나 머신러닝 데이터와 역사적 데이터를 특정 설정이나 디자인에 적용할 수 있으면, 그러한 설정 및 디자인 하에서의 결과 예측 정확도가 크게 높아진다”라고 말했다.

리스크 분석, 그리고 리스크 축소 계획도 심층 애널리틱스를 통해 한층 더 개선할 수 있다. 그는 “데이터센터는 아주 복잡한 시설이다. 게다가 그 규모도 엄청나기 때문에 인간의 힘으로 패턴을 파악하기 매우 어렵다. 그러나 기계에 이를 맡기면 꽤 쉽게 해낸다”라고 덧붙였다.

미래에는 데이터센터에서 머신러닝 기술을 적용하는 사례가 늘어남에 따라 특정 워크로드를 어디서 처리할 것인지 결정할 때도 상당한 통찰력을 제공받을 수 있을 것으로 기대된다. 아시에르토는 “이는 특히 실행 장소를 결정하려는 기업에 매우 소중한 정보다. 과연 이 애플리케이션을 어떤 데이터센터에서 구동해야 할지, 코로케이션 데이터센터에서 구동해야 할 지 등을 고민할 때 유용하다"라고 말했다.

미래에는 더 정교하고 복잡한 작업도 스마트 시스템에 맡길 수 있게 될 지 모른다. 이를 통해 워크로드를 가장 효율적이고, 안정적으로 처리할 수 있는 위치를 찾고 이에 기반해 능동적으로 워크로드를 조절하는 데이터센터가 등장할 수도 있다. 물론 칼리니에 따르면, 이러한 AI 기술은 아직은 먼 미래의 이야기에 가깝다.

한편 이제 막 데이터센터에 AI 기술 적용을 시작한 기업엔 시설 관리자와 IT팀 간의 협력이 가장 중요하다. 칼리니는 “데이터센터의 모든 영역을 고려하는 것이 중요하다. 전력, 냉각, IT 룸 등이 그것이다. 데이터센터 업계는 각기 다른 기술 영역 간의 상호 운용성을 보장하기 위해 많은 노력을 기울이고 있다. 기업 역시 이와 같은 노력을 할 필요가 있다. 기술적으로는 점차 발전이 이루어 지고 있지만, 기업이나 조직적 측면에서는 아직까지 변화의 속도를 따라오지 못하는 부분이 남아 있다”라고 말했다. ciokr@idg.co.kr 
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.