워크로드 규모를 조정하고, 최신 세대 서버로 업그레이드하고, 전력 소비를 관리하면 기업이 데이터센터의 지속 가능성 목표에 도달하는 데 도움을 줄 수 있다.
서버는 현대 데이터센터의 전체 에너지 중 절반 이상을 소비한다. 탄소 중립 지속 가능성 목표에 도달하려는 기업에게 서버 효율성은 관심이 갈 주제다. 에너지 사용량을 줄이면 비용도 절약할 수 있다.
인프라의 성능, 효율성, 안정성 관련 컨설팅을 제공하는 업타임 인스티튜트(Uptime Institute, 이하 업타임)는 서버 효율성을 높이는 5가지 방법을 다음과 같이 제시했다.
1. 최신 세대의 서버로 업그레이드한다. 지난 수십 년간 서버 에너지 효율은 서버를 구동하는 프로세서의 효율성 향상과 함께 꾸준히 개선되어 왔다.
2. 초당 트랜잭션 수(Transaction Per Second, TPS)로 측정할 때 컴퓨팅 용량이 높은 서버를 선택한다. 에너지 소비에 효율적인 서버다.
3. 코어 카운트가 높은 서버를 선택한다. 일반적으로 코어 수가 많을수록 효율성이 향상되지만, 최고점에서는 다소 낮아지는 경향이 있다.
4. 서버 효율성(와트당 TPS)이 높아지면 실제 전체 소비 전력(와트)도 증가할 수 있다는 점에 유의한다.
5. 두 가지 방법으로 전원 관리 기능을 활용한다. 사용률이 높아짐에 따라 코어 CPU 전압과 클럭 주파수를 낮추거나, 불필요한 코어를 유휴 상태로 전환한다.
업타임은 분석을 위해 AMD EPYC 또는 인텔 제온 프로세서를 사용하는 서버에 중점을 뒀다. 그린 그리드의 SERT 데이터베이스의 데이터를 사용해 2017, 2019, 2021년의 서버 세대를 조사했다(SERT 데이터의 자세한 내용은 아래에서 설명한다).
오래되고 전력 소모가 많은 서버 제거하기
업타임의 지속 가능성 연구 책임자인 제이 디트리히는 신형 서버가 구형 서버보다 에너지 효율이 뛰어나다고 언급했다. 그가 공동 집필한 최근 보고서에 따르면, 예를 들어 50% 사용률로 가동되는 인텔 서버의 경우 효율성이 2017년과 2019년 사이에 34% 향상됐다. 같은 기간 AMD 기반 서버의 효율성은 무려 140% 향상됐다.
디트리히는 2019년형에서 2021년형으로 업그레이드하면 CPU 기반 서버의 효율성이 인텔 서버의 경우 32%, AMD 서버의 경우 47% 향상된다고 말했다. 효율성 향상 수치는 사용률(utilization) 단계 모두에서 확인할 수 있다.
AMD 서버와 인텔 서버를 비교하면, 2017년에는 인텔 서버가 각 CPU 사용률 단계에서 더 효율적이었지만, 2019년부터는 AMD가 앞서 나가고 있다. 2021년형 기준, 서버를 50% 사용률로 가동할 때 AMD 서버는 평균적으로 인텔 서버보다 74% 더 효율적인 것으로 나타났다.
서버를 과소 사용하지 않기
최대 사용량으로 실행되지 않는 서버는, 도로 위에서 공회전하는 자동차처럼 에너지를 낭비할 뿐이다.
업타임의 데이터센터 설문 조사에 따르면 서버 사용률이 50% 이상인 기업은 2020년 36%에서 2022년 47%로 증가하는 데 그쳤다. 디트리히는 설문 조사에 응답한 기업이 최고 성능의 서버(예를 들면 사용률이 80% 수준까지 올라가는 배치 작업만 실행하는 서버)만 보고했을 수 있기 때문에 수치가 다소 부풀려졌을 가능성이 있다고 언급했다.
많은 애플리케이션이 일관성 있게 실행되지 않기 때문에 일반적으로 사용률 수치는 더 낮을 수 있다. 예를 들어 비즈니스 및 엔터프라이즈 소프트웨어는 근무 시간 중 사용량이 많지만, 이후에는 훨씬 적게 사용된다. 비즈니스 앱을 호스팅하는 서버라면 시간에 덜 민감한 워크로드를 설정하고 사용량이 많지 않은 시간대에 적용해 서버의 사용률을 높일 수 있다.
이러한 설정 작업은 효과가 있다. 업타임에 따르면 CPU 사용률을 낮은 수준(20~30%)에서 높은 수준(40~60%)으로 2배가량 올리면 평균 효율성이 크게 향상된다.
효과를 극대화하려면 기업은 사용률을 높이는 동시에 서버를 최신 모델로 업그레이드하는 방안을 고려해야 한다. 업타임은 사용률의 증진과 서버 업그레이드를 병행하면 평균 효율성이 2배 이상 상승한다고 진단했다. 이는 동일한 전력량으로 처리하는 워크로드가 100% 이상 늘어난다는 의미다. 대규모로 수행할 경우 운영 비용을 상당히 절감하고 에너지 요구량(ER)을 줄여 지속 가능성 성과를 올릴 수 있다.
반대로 레거시 서버를 더 큰 용량으로 직접 교체하면서 레거시 워크로드를 함께 늘리지 않으면, 실제 서버 사용률은 감소해 업그레이드의 이점을 잃을 수 있다고 디트리히는 전했다.
하드웨어를 업그레이드하는 동시에 사용률을 늘리려면 추가적인 계획이 필요하지만, 결과적으로 효율성은 향상될 뿐만 아니라 운영에 필요한 새 머신의 수가 줄어들 수 있다. 더 적은 서버로도 운영이 가능하게 되는 것이다.
더 강력한 머신을 택하기
더 강력한 하드웨어의 구입은 더 나은 에너지 효율로 이어진다. 특히 AMD 서버의 경우 작업 용량이 증가하면 효율성이 빠르게 향상된다. 200만 개의 SSJ를 처리하는 로우엔드 서버에서 800만 개 이상을 처리하는 하이엔드 서버로 업그레이드하면 서버 효율성을 크게 높일 수 있다. 인텔 서버의 경우 극적인 변화는 아니어도 효과가 있다고 업타임 측은 언급했다.
서버 코어 늘리기
효율성을 획기적으로 높이는 또 다른 방법은 프로세서 코어 수를 늘리는 것이다. 업타임에 따르면 2021년형 AMD 서버는 코어 수가 8개에서 64개로 증가함에 따라 효율성도 3배 늘었다. 2021년형 인텔 서버는 AMD보다 향상 폭은 작았지만, 수치는 여전히 의미가 있었다.
다만 디트리히는 모든 워크로드가 서버의 사용 가능 코어를 전부 사용할 수 있는 것은 아니라고 강조했다. 그는 “어느 워크로드의 경우 12코어 프로세서에서 가장 효율적으로 작동한다”라고 말했다. 효율성을 극대화하려면 서버에서 실행되는 애플리케이션의 요구사항과 프로세서 성능을 일치시키는 것이 중요하다.
일부 애플리케이션의 경우 사용량을 극대화하기 위해 하이퍼바이저와 가상 머신을 쓸 수 있다고 디트리히는 말했다.
효율적으로 전원 관리하기
업타임의 연구에 따르면 서버의 전원 관리 기능은 에너지 효율 방정식을 개선해 서버 효율성을 10% 이상 높일 수 있다.
이 기능은 CPU 전압과 클럭 주파수를 높이거나 낮추고, 사용하지 않는 코어를 저전력 유휴 상태로 전환한다. 하지만 많은 조직에서는 성능 걱정이나 지연 시간 문제로 이 기능을 쓰지 않고 있다.
업타임은 전원 관리 기능으로 인해 지연 시간이 20~80마이크로초까지 나타날 수 있다고 진단했다. 이는 금융 거래 등 일부 워크로드 유형에서는 허용되지 않는 수준이다.
디트리히는 “성능이나 응답 시간 문제 발생을 우려해 의도적으로 사용하지 않는 애플리케이션이 있을 수 있다”라고 말했다. 반면 지연 현상이 나타나도 비즈니스에 영향을 미치지 않는 애플리케이션도 있다.
디트리히는 “서비스 수준 계약(SLA) 조건에 너무 얽매여서 에너지 효율 개선 방안을 시도하지 않는 기업이 있다”라고 지적했다. 그는 “서버당 몇백 달러의 에너지 요금을 절약할 수 있다고 판단해도, SLA 위반으로 백만 달러의 비용이 발생할 위험이 있다면 운영자는 전원 관리를 켜지 않는다”라고 덧붙였다.
디트리히는 기업이 새 서버를 구입하고 성능 테스트를 실행할 때 전원 관리 기능이 애플리케이션에 어떤 영향을 미치는지 반드시 테스트할 것을 권장했다. 그는 “고객들이 불편해하지 않는다면 전원 관리 기능을 사용할 수 있다”라며 ”에너지를 절약하면서도 고객이 원하는 응답 시간과 성능을 제공하는 일련의 전원 관리 기능을 구현할 수 있다”라고 말했다.
업타임 인스티튜트의 효율성 측정 방법
업타임은 그린 그리드의 서버 효율성 평가 도구(Server Efficiency Rating Tool, SERT) 데이터베이스를 통해 429개 서버 플랫폼의 효율성을 분석했다. 그린 그리드는 데이터센터 환경의 에너지 및 리소스 효율성을 목표로 하는 컨소시엄으로, 관련 도구를 만들고 기술 전문 지식을 제공한다.
SERT 스위트(SERT Suite)는 서버 효율성을 측정하는 업계 표준이다. EU의 에코디자인 지침과 미국의 에너지스타 프로그램이 정한 서버 효율성 의무 요건에는 SERT 전체 효율성 지표를 보고하도록 명시되어 있다.
업타임은 SERT 데이터베이스에서 AMD와 인텔 서버 데이터를 분석했고, 워크로드에 따라 프로세스별 장단점이 있다는 점에 유의했다. AMD EPYC 또는 인텔 제온 프로세서를 사용하는 서버에 중점을 두고 2017, 2019, 2021년 서버 세대를 분석했다.
연구소는 프로세서와 메모리에 스트레스를 주도록 시뮬레이션(SERT Worklet Server-side Java, SSJ)된, 기업용 온라인 트랜잭션 처리 애플리케이션을 통해 서버의 성능을 테스트했다.
업타임은 SSJ 데이터가 서버 사용률에 4단계가 아닌 8단계(12.5%, 25%, 37.5%, 50%, 62.5%, 75%, 87.5%, 100%)로 접근해 보다 세분화된 분석이 가능하기 때문에 선택했다고 말했다. ciokr@idg.co.kr