2019.01.21

이코어 기고 | 발상의 전환! 부압 수랭 솔루션의 가치

편집부 | CIO KR
“곤경이 천재를 일깨워준다.” 로마의 시인 오비디우스의 말이다. 기존의 솔루션으로는 도저히 해법이 보이지 않는 상황이 도래할 때 혁신적인 대안이 등장하기 마련이다. AI, 머신러닝 트렌드가 새로운 차원의 연산 능력을 요구하는 오늘날, 슈퍼컴퓨터 및 데이터센터 분야에서 ‘냉각’을 둘러싸고 나타나고 있는 움직임 하나가 바로 이 형국이다. 여기 현대의 데이터센터 효율성,미국과 중국의 슈퍼 컴퓨터 경쟁, GPU 및 인공지능 트렌드 속에서 펼쳐지는, 흥미진진한 수랭(Liquid Cooling) 솔루션 이야기 하나를 전한다.
 
Image Credit : Getty Images Bank


공랭 12KW, 하이브리드 방식 24KW라는 한계
냉각을 특화한 실험적 데이터센터에 대한 뉴스는 흔히 찾아볼 수 있다. 페이스북은 북극 인근에 데이터센터를 지어 극지방의 차가운 공기를 이용해 서버를 식힌다. 마이크로소프트는 해저에 데이터센터를 건설하고 운영 중이다. 이 밖에도 구글과 아마존, 페이스북과 같은 거대 IT 기업들은 기존의 공랭 방식에 한계를 발견하고 수랭 솔루션으로 이미 전환하고 있다. 이름을 밝힐 수 없는 국내 조직들 다수 역시 수랭 방식을 잇달아 채택하고 있다. 참고할 만한 레퍼런스를 확인하지 못해 고심만 하는 기업들은 애석하게도 더 흔하다.

->'동굴, 벙커, 사막···' 쿨하고 쿨한 데이터센터 9곳

오늘날 기업들의 고민은 지난 2012년 발간된 미국냉동공조협회(ASHRAE)의 데이터콤 시리즈 2 핸드북에서 잘 예측되어 있다. 대기 환경 분야에서 권위높은 이 학술 단체의 자료에 따르면 데이터센터의 소비 전력은 2020년 랙당 최대 50KW에 달할 전망이다. 

그러나 전통적인 공랭 방식이 소화할 수 있는 한계는 불과 12KW에 그친다. 공랭과 수랭을 결합한 하이브리드 방식(RDHx;Rear Door Heat eXchange)이나 컨테인먼트 방식을 사용해도 24KW가 이론상의 최대치다. 오직 수랭 방식(또는 실험적 대안)만이 랙당 50KW의 소비 전력에 대응할 수 있다. 
 
ⓒ 미국냉동공조협회(ASHRAE)의 데이터콤 시리즈 2 핸드북에 전망한 연도별 서버 최대 소비 전력과 쿨링 기법별 냉각 한계.

그러나 전통적 수랭 시스템은 가격이 비싸고, 유지 보수가 복잡하며, 고장 요인이 늘어나는데다 냉각수가 유출될 경우 재앙으로 이어질 수 있다는 문제점을 지닌다.

기업들이 당면한 현실은 2012년에 발간된 ASHRAE의 전망값보다 더 심각하다. ASHRAE의 2012년 전망이 CPU의 발전에 기반해 작성됐던 반면 지난 몇 년 동안 돌발 변수가 등장했기 때문이다. 바로 GPU의 존재다. AI, 머신러닝, 딥러닝의 발전과 함께 GPU의 활용이 급격히 증가하면서 2018년 이미 랙 하나당 소비전력이 59KW에 이르는 시스템이 출현한 상태다.

더욱이 12KW라는 한계값은 이론상의 수치라는 점이 문제의 심각성을 더한다. 서버실 온도가 24도(이 이하로 설정하면 결로 현상이 발생해 고장의 원인이 된다)인 상황에서 공기의 흐름이 최적인 상황을 상정했을 때에만 달성 가능한수치이며, 실제로는 8KW도 버겁다. 실제로 국내 어떤 기업은 몇 년 전 12KW에 맞춰 수천 대의 서버와 GPU를 도입한 후 곧바로 장애를 겪어야 했다. 이 기업은 랙을 핫존과 콜드존을 분리해 냉각하는 컨테인먼트 방식을 뒤늦게 도입해서야 서버를 동작시킬 수 있었다.

궁극적으로는 수랭이 해답
현실이 이렇다보니 고집적 시스템의 경우 랙을 절반 이상 비워둬야만 하는 상황이 발생하고 있다. 이러한 공간의 낭비는 결과적으로 데이터센터의 효율성 문제로 이어진다. 방대한 하드웨어 인프라를 구축해 이용하는 클라우드 서비스 벤더와 대기업, 연구 조직들이 앞다퉈 수랭 솔루션을 모색하게 된 배경이다.

사실 ‘물’은 냉각이 필요한 모든 분야에서 애용되는 물질이다. 열을 빼앗아오는 효율 측면에서 공기보다 4,000배 더 뛰어나며 열을 보유하는 효율 또한 가장 높고 또 저렴하기까지 하다. 전기와 무관한 모든 분야에 서 냉각을 위해 물을 사용하고 있다는 점에서도 이를 쉽게 알 수 있다.

아울러 물의 뛰어난 냉각 특성은 다양한 추가 혜택을 초래한다. 먼저 내구성이 달라진다. 일례로 소비자용 GPU와 산업용 GPU는 기술적으로 거의 다르지 않다. 같은 웨이퍼에서 같은 설계도로 생산된 것 중 효율과 내구성이 우수한 제품이 서버용으로 공급되는 식이다. 벤더가 소비자용 GPU에 대해 1년의 보증 기간을 설정하는 이유이기도 하다.

이는 이코어가 진행했던 실제 사례에서도 확인할 수 있다. 소비자용 GPU를 약 200개 도입해 사용하고 있는 국내 모 기관의 경우 1년에 약 20%를 교체한다. 반면 수천 개의 소비자용 GPU를 도입한 다른 모 기관의 경우 1년 동안 2% 이하의 교체율을 기록했다. 결정적인 차이점은 후자의 경우 이코어의 칠다인 솔루션을 통해 수랭 방식을 이용했다는 것이다. GPU 동작 온도가 100도 가까이 오르는 공랭 방식과 비교해 수랭 방식은 40~60도 이내로 유지할 수 있었기 때문이다.

수랭 방식의 부가적인 혜택은 또 있다. PUE, 즉 데이터센터의 전력사용효율이 드라마틱하게 개선되며 공간도 절약된다. 좀더 구체적으로 표현하자면 전력 소모가 45~50%까지 줄어들고 공간 효율성은 20% 정도 개선된다. 서버 자체의 소비 전력은 5~10% 정도 감소하는데 그치지만 항온항습기의 전력 소비가 80~90%까지 감소하기 때문이다. 데이터센터 PUE가 1.2 정도까지는 손쉽게 달성된다. 이는 비용 절감으로 곧바로 이어지는데, 데이터센터 규모와 소재지의 기후에 따라 수랭 솔루션의 ROI가 1년 만에 달성되기도 한다.

이 뿐만이 아니다. 수랭 방식은 ‘성능의 향상’을 기대할 수 있다. 오늘날 CPU와 GPU 대부분이 동작 온도에 따라 클럭 속도를 변화시키는 쓰로틀링 기능을 내장하고 있어서다. 실제로 공랭 방식에서도 프로세서가 공기 흡입구 인근에 위치한 서버는 좀더 빠르게 동작한다. 그러나 오늘날의 서버는 유지보수 편의성을 위해 디스크를 전면에 배치시키는 것이 일반적이다.

이코어의 국내 사례 데이터에 따르면, 공랭식일 경우 기온 24도 환경에서 CPU가 80도로 동작했다. 반면 수랭식에서는 최악의 조건인 수온 28도인 상황에서도 CPU 온도가 40도에 머물렀다. 현실적으로 24도 기온을 유지하는 데이터센터가 드물다는 점에서 클럭 쓰로틀링으로 인한 성능 차는 결코 무시할 만한 수준이 아니다. 값비싼 고성능 CPU와 GPU를 이용하고 있다면 더욱 그렇다.

한편 이는 소프트웨어 라이선스 비용과 관련성을 지닌다. 오늘날 기업용 소프트웨어는 CPU 소켓 수, 또는 코어 수로 라이선스 비용을 책정하는 경우가 흔하며, 이는 서버의 성능에 따라 수억 원에 이르는 라이선스 비용이 영향 받을 수 있다는 의미다. 이를 감안하면 수랭 솔루션의 ROI 시기는 더욱 앞당겨질 수 있다.

수랭 단점을 극복하는 역발상 ‘칠다인 네거티브 프레셔 리퀴드 쿨링 솔루션’
그러나 액체를 이용한 서버 냉각에는 다양하고도 심각한 한계들이 있다. 먼저 앞서 언급한 바와 같이 물의 경우 전기와 상극이라는 특성이 있다. 자칫 물이 샌다면 시스템이 고장나는 것은 물론 화재와 같이 큰 사고로 이어질 가능성을 배제할 수 없다. 3M 노백과 같은 비전도 용액을 이용해 컴퓨터를 통째로 액체에 담그는 방식도 있기는 하지만 이는 비용도 비싸고 소규모 시스템에서나사용 가능한 기법이다.

또 수랭 방식에는 호스와 조인트, 펌프 등 유지보수 포인트가 증가하는 결과가 뒤따르며, 부식 방지와 청소를 위해 용액을 교체하는 작업도 만만치 않다. 녹과 이끼를 막는 안티코로젼(anti-corrosion) 용액을 첨가함에 따라 냉각 효율이 40% 정도 떨어지는데, 이를 만회하기 위해 압력을 높이면 누수 가능성이 커지기도 한다. 수천, 수만 대의 서버가 존재하는 데이터센터에서는 결코 가볍게 생각할 수 없는 문제다. 전력 소비와 발열 측면에서 한계 상황이 다가오는 가운데, 명명백백한 해법이 분명히 존재하지만 그 해법에 가시가 있는 형국이다.

이코어가 국내 시장에 공급하고 있는 칠다인(Chilldyne)은 독창적인 접근법으로 이 ‘가시’를 제거한다. 냉각 플레이트에 물을 흐르게 하려면 압력이 필요하다. 기존의 수랭 솔루션 기업들은 펌프를 이용해 높은 압력으로 물을 밀어냈다. 제품에 따라 대략 3~5배의 압력을 가하는 포지티브 프레셔 방식이다. 그러나 칠다인은 대기압보다 낮은 압력으로 물을 순환시키는 네거티브 프레셔 방식을 채택했다.

이 접근법이 의미 있는 이유는 먼저 사고 가능성이 획기적으로 줄어든다는데 있다. 호스나 노즐에 미세한 구멍이 날지라도 물이 새지 않는다. 내부의 압력이 대기압보다 더 낮기에 오히려 공기가 유입될 뿐이다. 발상의 전환을 통해 누수의 가능성을 원천적으로 차단한 셈이다. 또 포지티브 프레셔 방식과 달리 피스톤이 없기에 가격이 더 저렴하며 고장 요인이 줄어든다. 더 오랜 수명을 자랑하는 것도 물론이다.

서버 수리 상황에서도 네거티브 프레셔 접근법은 빛을 발한다. 포지티브 프레셔의 경우 스왑 커넥터를 연결하면 물이 배관에 그대로 남아 있어 컴프레셔로 냉각 용액을 빼내는 작업을 해야 한다. 반면 칠다인 솔루션의 경우 핫스왑 커넥터를 꽂으면 관 내부의 물이 고스란히 빨아들여진다. 칠다인 솔루션에서만 존재하는 특허 기술이다.

칠다인은 이에 더해 다른 기술을 통해서도 부압 쿨링 솔루션의 가치를 높였다. 대기압보다 낮은 압력과 0.5배 정도의 압력 차이로도 원활한 흐름을 보장하기 위해 터뷸레이터 특허 기술을 이용했다. 이는 내부의 용액이 회오리치면서 흐르게 함으로써 배관 가장자리 부분의 흐름까지도 원활히 하는 기술이다. 이를 통해 칠다인은 여타 수랭 솔루션의 1/3 수준의 물만 이용하고 있다.
 
로켓 기술에서 태어났다, 칠다인(Chilldyne)

칠다인은 항공우주, 의료기기 분야의 열역학 전문 기업 플로메트릭스(Flomerics)에서 분사한 컴퓨팅 냉각 솔루션 전문 기업이다. 플로메트릭스는 태양 표면과 맞먹는 온도로 치솟는 로켓 노즐을 식힐 수 있는 리퀴드 쿨링 솔루션을 서비스하고 있다. 주로 미 항공우주국(NASA)와 협업하던 이 기업은 CPU나 GPU의 단위 면적당 전력 밀도가 핵원자로 수준에 근접하고 있는 트렌드를 포착하고 증가하는 IT 분야의 수요에 대응하기 위해 칠다인을 독립시켰다.
칠다인은 CPU나 GPU의 방열판을 떼어내고 내부에 액체가 흐르는 콜드 플레이트를 부착해 냉각하는 DCLC(Direct Chip Liquid Cooling, Direct Water Cooling) 방식을 이용한다. RDHx 방식도 리퀴드 쿨링으로 분류되곤 하지만 이는 랙 내에서는 공랭식(서버 뒷단에 냉각을 위한 수랭 기기가 존재)으로 동작한다는 점에서, 또 한계 냉각 용량이 24KW 선이라는 점에서 하이브리드 쿨링으로 볼 수 있다. 칠다인 DCLC 솔루션은 이코어(www.ecore.asia)가 국내 시장에 독점 공급하고 있다
 
ⓒ 호스가 손상되면 액체가 나오는 대신 공기가 유입된다. 네거티브 프레셔 접근법이 보여주는 특징이다.
 
ⓒ 냉각수가 소용돌이 치며 흐르는 터뷸레이터 기술 효과적으로 발열체의 열을 흡수하는 칠다인의 특허 기술이다.


19인치 표준 랙 크기 CDU 유닛으로 300KW까지 대응
CPU와 GPU를 식히며 데워진 용액은 19인치 표준 랙에 들어갈 수 있는 CDU를 통해 냉각된다. 칠다인은 이 CDU에도 다양한 아이디어와 기술을 더했다. 유압식 피스톤이 아닌 진공 펌프를 내장한 이 CDU는 먼저 기존 데이터센터 인프라와의 호환성이 돋보인다. 기존 항온항습기와 데이터센터 쿨링타워 등을 그대로 이용할 수 있어 기존 투자를 보호할 수 있다.

이 밖에 리던던트 기능을 지원해 청소 작업 시에도 서버 동작성을 유지할 수 있으며, 온도와 냉각 상황, 기기 상황, 습도 등을 원격 모니터링할 수 있도록 지원한다.

경쟁 솔루션과 비교해 특히 돋보이는 다른 장점은 ‘종속성이 없다’는 사실이다. 인수를 통해 다이렉트 워터 쿨링 방식 기술을 확보한 타 기업의 경우 자사 서버가 자사 CDU 유닛만 이용할 수 있도록 했다. 수명이 15~20년인 데이터센터 기계 장비를 5년 내외의 서버에 종속시킨 것이며, 이는 CDU 수명 기간 동안 같은 기업의 서버만 구입해야 한다는 의미다. 

반면 칠다인은 개방형 구조를 채택해 어느 기업 서버로든 연결할 수 있으며, 이에 따라 서버 리프레시 주기에 맞춰 CDU를 교체하는 일이 요구되지 않는다. 

한편 서버 벤더 중 공조 시스템 벤더와의 역할을 철저히 구분한 기업은 IBM이 유일하다. 심지어 서버를 선택할 때 공랭과 수랭을 원하는 대로 선택할 수 있도록 조치했으며 대규모 배치 시에는 수랭을 권장하고 있다. 칠다인
솔루션이 IBM 서버과 조합될 때는 별도의 커스터마이징 작업조차 필요 없어지게 된다.

CDU 유닛 1대가 냉각시킬 수 있는 서버 용량은 300KW다. 300W 소형 서버를 1,000대까지, GPU 8개를 내장한 고집적도 서버일지라도 100대까지 CDU 열교환기 하나로 냉각시킬 수 있다. 이 과정에 필요한 용액은 120리터에 불과하다. 네거티브 프레셔 방식이기에 비전도 용액을 섞을 필요가 없어 냉각 효율을 높일 수 있기에 가능한 수치다.

칠다인 수랭 솔루션으로 효율성 높이는 조직들
글로벌 기업들은 물론 국내 조직들 사이에서도 혁신적인 칠다인 수랭 솔루션을 이용해 투자 효율성을 높이고 소모 비용을 낮춘 사례는 이미 찾아볼 수 있다. 주요 사례와 혜택을 정리하면 다음과 같다.

- 우리나라의 한 기관은 2년 전 소비자용 GPU를 도입하면서 칠다인 수랭 솔루션을 이용했다. 소비자용 GPU의 낮은 내구성을 수랭 솔루션을 통해 보완하는 방식을 채택한 결과 타 기관이 수백억을 들여 도입한 슈퍼 컴퓨터에 견줄 만한 연산 성능을 휠씬 적은 예산에 확보할 수 있었다. 국내 설치사례에 연연하지 않고 수랭 시스템의 효율성을 포착해 선도적으로 추진한 실무자의 혜안이 돋보이는 사례다. 이 기관은 수랭 솔루션을 도입하면서 사계절의 급격한 외부온도 변화에도 GPU의 동작온도를 안정적으로 유지하는데 중점을 두고 프리쿨링 냉동기를 추가하여 혹서기에도 GPU 동작온도를 50도 이내로 유지시키고 있다.

- 수랭 시스템은 수백 억 원 규모의 데이터센터에서만 효과를 볼 수 있는 것으로 간주되곤 한다. 그러나 칠다인 수랭 솔루션의 비용 효율성은 현재 50억 원 규모의 프로젝트에서도 비용 효과를 창출하는 단계에 이르렀으며 앞으로 더욱 낮아질 전망이다. 한 해외 기업은 불과 2대의 서버에 접목시켜 항온항습기 전력 소모를 172.41W에서 10.33W로 낮추는 성과를 거두기도 했다. 서버 자체의 전력 소비 또한 7% 감소했다.

국내 사례는 소비자용 GPU를 수랭 솔루션과 결합해 비용 효율성을 극대화했다는 점이 특징이다. 사실 이러한 편법(?)은 해외에서도 종종 활용된 바 있다. 시장 충돌을 우려한 엔비디아는 결국 소비자용 GPU로 서버용 애플리케이션을 작동시키면 컴플라이언스 이슈를 제기하겠다는 입장을 공식 표명했다. 그러나 여전히 많은 조직들이 슈퍼 컴퓨터 등재를 포기하고 소비자용 GPU와 수랭 솔루션을 결합해 내부 분석용으로 활용하고 있는 것으로 파악되고 있다.

수랭이 필연인 미래, 슈퍼 컴퓨터가 시사한다
슈퍼 컴퓨터는 국가의 경쟁력, 특히 군사력과 직결된다. 국방에 투입된 슈퍼 컴퓨팅 분야에의 투자는 시장에서 활용돼 해당 국가의 시장 지배력을 강화시키는 선순환 구조로 이어진다. 중국이 텐허나 선웨이 타이후라이트와 같은 슈퍼 컴퓨터에 투자해 전세계 톱500 슈퍼 컴퓨터 1위를 끝내 차지했던 배경이 이것이며, 미국이 슈퍼 컴퓨터 수위 재탈환을 위해 민감하게 반응했던 배경도 이것이다.

미국 정부는 1973년 이래 지켜오던 1위 자리를 텐허에 빼앗겼고 톱500 슈퍼 컴퓨터의 대수 측면에서도 중국이 미국을 넘어서는 현상을 목격해야 했다. 중국에 대해 금수 조치를 취했음에도 불구하고 3년도 안돼 중국 자체 프로세서를 이용한 타이후라이트가 텐허를 제치고 다시 1위에 올랐기에 미국의 충격은 더욱 컸다.

결국 미국 정부는 기존의 아키텍처를 넘어서려는 코랄 프로젝트를 추진해 개발한 서밋(Summit)을 통해 2017년 슈퍼 컴퓨터 1위 자리를 재탈환했다. 이 과정에서 미국 정부가 내건 조건 중 하나는 에너지 효율이었으며 이는 1위인 IBM 서밋과 3위인 시에라 모두 수랭 솔루션을 채택하는 결과로 이어졌다. 랙당 59KW에 이르는 소비 전력에 효율적으로 대응하기 위해서는 수랭 외에는 답이 없었기 때문이다.

서밋과 시에라의 주요 특징 중 하나는 데이터 중심적, 메모리 중심적 아키텍처다. CPU의 역할이 축소되고 GPU와 네트워크 등의 요소들이 메모리를 공유해 프로세서 중심적 아키텍처의 한계를 극복하고 있다. 이는 향후 CPU보다도 높은 온도로 동작하는 GPU의 활용이 더욱 늘어날 것이라는 사실을 의미하며, 여기에는 일반 기업들의 데이터센터도 예외가 아니다.
 
ⓒ 오크릿지 국립 연구소에서 동작하고 있는 서밋 슈퍼 컴퓨터. 위쪽에 냉각수가 이동하는 호스를 확인할 수 있다.


머신러닝, 딥러닝이 예측을 넘어서는 속도로 우리 곁에 다가온 가운데 이를 효과적으로 냉각시키는 방법에 대한 고민 또한 갑자기 증가했다. 리스크에 대한 막연한 걱정, 익숙하지 않음을 이유로 기존 냉각 방식을 고수하면 기업 경쟁력이 뒤쳐질 수 있는 시대가 도래하고 있다. 페이스북과 마이크로소프트가 북극과 해저에서 데이터센터를 실험하는 이유는 ‘과시’가 아닌 ‘생존’이다.

* 본 기고문은 이코어(Ecore) 박병오 대표의 발표를 기반으로 작성됐다. ciokr@idg.co.kr



2019.01.21

이코어 기고 | 발상의 전환! 부압 수랭 솔루션의 가치

편집부 | CIO KR
“곤경이 천재를 일깨워준다.” 로마의 시인 오비디우스의 말이다. 기존의 솔루션으로는 도저히 해법이 보이지 않는 상황이 도래할 때 혁신적인 대안이 등장하기 마련이다. AI, 머신러닝 트렌드가 새로운 차원의 연산 능력을 요구하는 오늘날, 슈퍼컴퓨터 및 데이터센터 분야에서 ‘냉각’을 둘러싸고 나타나고 있는 움직임 하나가 바로 이 형국이다. 여기 현대의 데이터센터 효율성,미국과 중국의 슈퍼 컴퓨터 경쟁, GPU 및 인공지능 트렌드 속에서 펼쳐지는, 흥미진진한 수랭(Liquid Cooling) 솔루션 이야기 하나를 전한다.
 
Image Credit : Getty Images Bank


공랭 12KW, 하이브리드 방식 24KW라는 한계
냉각을 특화한 실험적 데이터센터에 대한 뉴스는 흔히 찾아볼 수 있다. 페이스북은 북극 인근에 데이터센터를 지어 극지방의 차가운 공기를 이용해 서버를 식힌다. 마이크로소프트는 해저에 데이터센터를 건설하고 운영 중이다. 이 밖에도 구글과 아마존, 페이스북과 같은 거대 IT 기업들은 기존의 공랭 방식에 한계를 발견하고 수랭 솔루션으로 이미 전환하고 있다. 이름을 밝힐 수 없는 국내 조직들 다수 역시 수랭 방식을 잇달아 채택하고 있다. 참고할 만한 레퍼런스를 확인하지 못해 고심만 하는 기업들은 애석하게도 더 흔하다.

->'동굴, 벙커, 사막···' 쿨하고 쿨한 데이터센터 9곳

오늘날 기업들의 고민은 지난 2012년 발간된 미국냉동공조협회(ASHRAE)의 데이터콤 시리즈 2 핸드북에서 잘 예측되어 있다. 대기 환경 분야에서 권위높은 이 학술 단체의 자료에 따르면 데이터센터의 소비 전력은 2020년 랙당 최대 50KW에 달할 전망이다. 

그러나 전통적인 공랭 방식이 소화할 수 있는 한계는 불과 12KW에 그친다. 공랭과 수랭을 결합한 하이브리드 방식(RDHx;Rear Door Heat eXchange)이나 컨테인먼트 방식을 사용해도 24KW가 이론상의 최대치다. 오직 수랭 방식(또는 실험적 대안)만이 랙당 50KW의 소비 전력에 대응할 수 있다. 
 
ⓒ 미국냉동공조협회(ASHRAE)의 데이터콤 시리즈 2 핸드북에 전망한 연도별 서버 최대 소비 전력과 쿨링 기법별 냉각 한계.

그러나 전통적 수랭 시스템은 가격이 비싸고, 유지 보수가 복잡하며, 고장 요인이 늘어나는데다 냉각수가 유출될 경우 재앙으로 이어질 수 있다는 문제점을 지닌다.

기업들이 당면한 현실은 2012년에 발간된 ASHRAE의 전망값보다 더 심각하다. ASHRAE의 2012년 전망이 CPU의 발전에 기반해 작성됐던 반면 지난 몇 년 동안 돌발 변수가 등장했기 때문이다. 바로 GPU의 존재다. AI, 머신러닝, 딥러닝의 발전과 함께 GPU의 활용이 급격히 증가하면서 2018년 이미 랙 하나당 소비전력이 59KW에 이르는 시스템이 출현한 상태다.

더욱이 12KW라는 한계값은 이론상의 수치라는 점이 문제의 심각성을 더한다. 서버실 온도가 24도(이 이하로 설정하면 결로 현상이 발생해 고장의 원인이 된다)인 상황에서 공기의 흐름이 최적인 상황을 상정했을 때에만 달성 가능한수치이며, 실제로는 8KW도 버겁다. 실제로 국내 어떤 기업은 몇 년 전 12KW에 맞춰 수천 대의 서버와 GPU를 도입한 후 곧바로 장애를 겪어야 했다. 이 기업은 랙을 핫존과 콜드존을 분리해 냉각하는 컨테인먼트 방식을 뒤늦게 도입해서야 서버를 동작시킬 수 있었다.

궁극적으로는 수랭이 해답
현실이 이렇다보니 고집적 시스템의 경우 랙을 절반 이상 비워둬야만 하는 상황이 발생하고 있다. 이러한 공간의 낭비는 결과적으로 데이터센터의 효율성 문제로 이어진다. 방대한 하드웨어 인프라를 구축해 이용하는 클라우드 서비스 벤더와 대기업, 연구 조직들이 앞다퉈 수랭 솔루션을 모색하게 된 배경이다.

사실 ‘물’은 냉각이 필요한 모든 분야에서 애용되는 물질이다. 열을 빼앗아오는 효율 측면에서 공기보다 4,000배 더 뛰어나며 열을 보유하는 효율 또한 가장 높고 또 저렴하기까지 하다. 전기와 무관한 모든 분야에 서 냉각을 위해 물을 사용하고 있다는 점에서도 이를 쉽게 알 수 있다.

아울러 물의 뛰어난 냉각 특성은 다양한 추가 혜택을 초래한다. 먼저 내구성이 달라진다. 일례로 소비자용 GPU와 산업용 GPU는 기술적으로 거의 다르지 않다. 같은 웨이퍼에서 같은 설계도로 생산된 것 중 효율과 내구성이 우수한 제품이 서버용으로 공급되는 식이다. 벤더가 소비자용 GPU에 대해 1년의 보증 기간을 설정하는 이유이기도 하다.

이는 이코어가 진행했던 실제 사례에서도 확인할 수 있다. 소비자용 GPU를 약 200개 도입해 사용하고 있는 국내 모 기관의 경우 1년에 약 20%를 교체한다. 반면 수천 개의 소비자용 GPU를 도입한 다른 모 기관의 경우 1년 동안 2% 이하의 교체율을 기록했다. 결정적인 차이점은 후자의 경우 이코어의 칠다인 솔루션을 통해 수랭 방식을 이용했다는 것이다. GPU 동작 온도가 100도 가까이 오르는 공랭 방식과 비교해 수랭 방식은 40~60도 이내로 유지할 수 있었기 때문이다.

수랭 방식의 부가적인 혜택은 또 있다. PUE, 즉 데이터센터의 전력사용효율이 드라마틱하게 개선되며 공간도 절약된다. 좀더 구체적으로 표현하자면 전력 소모가 45~50%까지 줄어들고 공간 효율성은 20% 정도 개선된다. 서버 자체의 소비 전력은 5~10% 정도 감소하는데 그치지만 항온항습기의 전력 소비가 80~90%까지 감소하기 때문이다. 데이터센터 PUE가 1.2 정도까지는 손쉽게 달성된다. 이는 비용 절감으로 곧바로 이어지는데, 데이터센터 규모와 소재지의 기후에 따라 수랭 솔루션의 ROI가 1년 만에 달성되기도 한다.

이 뿐만이 아니다. 수랭 방식은 ‘성능의 향상’을 기대할 수 있다. 오늘날 CPU와 GPU 대부분이 동작 온도에 따라 클럭 속도를 변화시키는 쓰로틀링 기능을 내장하고 있어서다. 실제로 공랭 방식에서도 프로세서가 공기 흡입구 인근에 위치한 서버는 좀더 빠르게 동작한다. 그러나 오늘날의 서버는 유지보수 편의성을 위해 디스크를 전면에 배치시키는 것이 일반적이다.

이코어의 국내 사례 데이터에 따르면, 공랭식일 경우 기온 24도 환경에서 CPU가 80도로 동작했다. 반면 수랭식에서는 최악의 조건인 수온 28도인 상황에서도 CPU 온도가 40도에 머물렀다. 현실적으로 24도 기온을 유지하는 데이터센터가 드물다는 점에서 클럭 쓰로틀링으로 인한 성능 차는 결코 무시할 만한 수준이 아니다. 값비싼 고성능 CPU와 GPU를 이용하고 있다면 더욱 그렇다.

한편 이는 소프트웨어 라이선스 비용과 관련성을 지닌다. 오늘날 기업용 소프트웨어는 CPU 소켓 수, 또는 코어 수로 라이선스 비용을 책정하는 경우가 흔하며, 이는 서버의 성능에 따라 수억 원에 이르는 라이선스 비용이 영향 받을 수 있다는 의미다. 이를 감안하면 수랭 솔루션의 ROI 시기는 더욱 앞당겨질 수 있다.

수랭 단점을 극복하는 역발상 ‘칠다인 네거티브 프레셔 리퀴드 쿨링 솔루션’
그러나 액체를 이용한 서버 냉각에는 다양하고도 심각한 한계들이 있다. 먼저 앞서 언급한 바와 같이 물의 경우 전기와 상극이라는 특성이 있다. 자칫 물이 샌다면 시스템이 고장나는 것은 물론 화재와 같이 큰 사고로 이어질 가능성을 배제할 수 없다. 3M 노백과 같은 비전도 용액을 이용해 컴퓨터를 통째로 액체에 담그는 방식도 있기는 하지만 이는 비용도 비싸고 소규모 시스템에서나사용 가능한 기법이다.

또 수랭 방식에는 호스와 조인트, 펌프 등 유지보수 포인트가 증가하는 결과가 뒤따르며, 부식 방지와 청소를 위해 용액을 교체하는 작업도 만만치 않다. 녹과 이끼를 막는 안티코로젼(anti-corrosion) 용액을 첨가함에 따라 냉각 효율이 40% 정도 떨어지는데, 이를 만회하기 위해 압력을 높이면 누수 가능성이 커지기도 한다. 수천, 수만 대의 서버가 존재하는 데이터센터에서는 결코 가볍게 생각할 수 없는 문제다. 전력 소비와 발열 측면에서 한계 상황이 다가오는 가운데, 명명백백한 해법이 분명히 존재하지만 그 해법에 가시가 있는 형국이다.

이코어가 국내 시장에 공급하고 있는 칠다인(Chilldyne)은 독창적인 접근법으로 이 ‘가시’를 제거한다. 냉각 플레이트에 물을 흐르게 하려면 압력이 필요하다. 기존의 수랭 솔루션 기업들은 펌프를 이용해 높은 압력으로 물을 밀어냈다. 제품에 따라 대략 3~5배의 압력을 가하는 포지티브 프레셔 방식이다. 그러나 칠다인은 대기압보다 낮은 압력으로 물을 순환시키는 네거티브 프레셔 방식을 채택했다.

이 접근법이 의미 있는 이유는 먼저 사고 가능성이 획기적으로 줄어든다는데 있다. 호스나 노즐에 미세한 구멍이 날지라도 물이 새지 않는다. 내부의 압력이 대기압보다 더 낮기에 오히려 공기가 유입될 뿐이다. 발상의 전환을 통해 누수의 가능성을 원천적으로 차단한 셈이다. 또 포지티브 프레셔 방식과 달리 피스톤이 없기에 가격이 더 저렴하며 고장 요인이 줄어든다. 더 오랜 수명을 자랑하는 것도 물론이다.

서버 수리 상황에서도 네거티브 프레셔 접근법은 빛을 발한다. 포지티브 프레셔의 경우 스왑 커넥터를 연결하면 물이 배관에 그대로 남아 있어 컴프레셔로 냉각 용액을 빼내는 작업을 해야 한다. 반면 칠다인 솔루션의 경우 핫스왑 커넥터를 꽂으면 관 내부의 물이 고스란히 빨아들여진다. 칠다인 솔루션에서만 존재하는 특허 기술이다.

칠다인은 이에 더해 다른 기술을 통해서도 부압 쿨링 솔루션의 가치를 높였다. 대기압보다 낮은 압력과 0.5배 정도의 압력 차이로도 원활한 흐름을 보장하기 위해 터뷸레이터 특허 기술을 이용했다. 이는 내부의 용액이 회오리치면서 흐르게 함으로써 배관 가장자리 부분의 흐름까지도 원활히 하는 기술이다. 이를 통해 칠다인은 여타 수랭 솔루션의 1/3 수준의 물만 이용하고 있다.
 
로켓 기술에서 태어났다, 칠다인(Chilldyne)

칠다인은 항공우주, 의료기기 분야의 열역학 전문 기업 플로메트릭스(Flomerics)에서 분사한 컴퓨팅 냉각 솔루션 전문 기업이다. 플로메트릭스는 태양 표면과 맞먹는 온도로 치솟는 로켓 노즐을 식힐 수 있는 리퀴드 쿨링 솔루션을 서비스하고 있다. 주로 미 항공우주국(NASA)와 협업하던 이 기업은 CPU나 GPU의 단위 면적당 전력 밀도가 핵원자로 수준에 근접하고 있는 트렌드를 포착하고 증가하는 IT 분야의 수요에 대응하기 위해 칠다인을 독립시켰다.
칠다인은 CPU나 GPU의 방열판을 떼어내고 내부에 액체가 흐르는 콜드 플레이트를 부착해 냉각하는 DCLC(Direct Chip Liquid Cooling, Direct Water Cooling) 방식을 이용한다. RDHx 방식도 리퀴드 쿨링으로 분류되곤 하지만 이는 랙 내에서는 공랭식(서버 뒷단에 냉각을 위한 수랭 기기가 존재)으로 동작한다는 점에서, 또 한계 냉각 용량이 24KW 선이라는 점에서 하이브리드 쿨링으로 볼 수 있다. 칠다인 DCLC 솔루션은 이코어(www.ecore.asia)가 국내 시장에 독점 공급하고 있다
 
ⓒ 호스가 손상되면 액체가 나오는 대신 공기가 유입된다. 네거티브 프레셔 접근법이 보여주는 특징이다.
 
ⓒ 냉각수가 소용돌이 치며 흐르는 터뷸레이터 기술 효과적으로 발열체의 열을 흡수하는 칠다인의 특허 기술이다.


19인치 표준 랙 크기 CDU 유닛으로 300KW까지 대응
CPU와 GPU를 식히며 데워진 용액은 19인치 표준 랙에 들어갈 수 있는 CDU를 통해 냉각된다. 칠다인은 이 CDU에도 다양한 아이디어와 기술을 더했다. 유압식 피스톤이 아닌 진공 펌프를 내장한 이 CDU는 먼저 기존 데이터센터 인프라와의 호환성이 돋보인다. 기존 항온항습기와 데이터센터 쿨링타워 등을 그대로 이용할 수 있어 기존 투자를 보호할 수 있다.

이 밖에 리던던트 기능을 지원해 청소 작업 시에도 서버 동작성을 유지할 수 있으며, 온도와 냉각 상황, 기기 상황, 습도 등을 원격 모니터링할 수 있도록 지원한다.

경쟁 솔루션과 비교해 특히 돋보이는 다른 장점은 ‘종속성이 없다’는 사실이다. 인수를 통해 다이렉트 워터 쿨링 방식 기술을 확보한 타 기업의 경우 자사 서버가 자사 CDU 유닛만 이용할 수 있도록 했다. 수명이 15~20년인 데이터센터 기계 장비를 5년 내외의 서버에 종속시킨 것이며, 이는 CDU 수명 기간 동안 같은 기업의 서버만 구입해야 한다는 의미다. 

반면 칠다인은 개방형 구조를 채택해 어느 기업 서버로든 연결할 수 있으며, 이에 따라 서버 리프레시 주기에 맞춰 CDU를 교체하는 일이 요구되지 않는다. 

한편 서버 벤더 중 공조 시스템 벤더와의 역할을 철저히 구분한 기업은 IBM이 유일하다. 심지어 서버를 선택할 때 공랭과 수랭을 원하는 대로 선택할 수 있도록 조치했으며 대규모 배치 시에는 수랭을 권장하고 있다. 칠다인
솔루션이 IBM 서버과 조합될 때는 별도의 커스터마이징 작업조차 필요 없어지게 된다.

CDU 유닛 1대가 냉각시킬 수 있는 서버 용량은 300KW다. 300W 소형 서버를 1,000대까지, GPU 8개를 내장한 고집적도 서버일지라도 100대까지 CDU 열교환기 하나로 냉각시킬 수 있다. 이 과정에 필요한 용액은 120리터에 불과하다. 네거티브 프레셔 방식이기에 비전도 용액을 섞을 필요가 없어 냉각 효율을 높일 수 있기에 가능한 수치다.

칠다인 수랭 솔루션으로 효율성 높이는 조직들
글로벌 기업들은 물론 국내 조직들 사이에서도 혁신적인 칠다인 수랭 솔루션을 이용해 투자 효율성을 높이고 소모 비용을 낮춘 사례는 이미 찾아볼 수 있다. 주요 사례와 혜택을 정리하면 다음과 같다.

- 우리나라의 한 기관은 2년 전 소비자용 GPU를 도입하면서 칠다인 수랭 솔루션을 이용했다. 소비자용 GPU의 낮은 내구성을 수랭 솔루션을 통해 보완하는 방식을 채택한 결과 타 기관이 수백억을 들여 도입한 슈퍼 컴퓨터에 견줄 만한 연산 성능을 휠씬 적은 예산에 확보할 수 있었다. 국내 설치사례에 연연하지 않고 수랭 시스템의 효율성을 포착해 선도적으로 추진한 실무자의 혜안이 돋보이는 사례다. 이 기관은 수랭 솔루션을 도입하면서 사계절의 급격한 외부온도 변화에도 GPU의 동작온도를 안정적으로 유지하는데 중점을 두고 프리쿨링 냉동기를 추가하여 혹서기에도 GPU 동작온도를 50도 이내로 유지시키고 있다.

- 수랭 시스템은 수백 억 원 규모의 데이터센터에서만 효과를 볼 수 있는 것으로 간주되곤 한다. 그러나 칠다인 수랭 솔루션의 비용 효율성은 현재 50억 원 규모의 프로젝트에서도 비용 효과를 창출하는 단계에 이르렀으며 앞으로 더욱 낮아질 전망이다. 한 해외 기업은 불과 2대의 서버에 접목시켜 항온항습기 전력 소모를 172.41W에서 10.33W로 낮추는 성과를 거두기도 했다. 서버 자체의 전력 소비 또한 7% 감소했다.

국내 사례는 소비자용 GPU를 수랭 솔루션과 결합해 비용 효율성을 극대화했다는 점이 특징이다. 사실 이러한 편법(?)은 해외에서도 종종 활용된 바 있다. 시장 충돌을 우려한 엔비디아는 결국 소비자용 GPU로 서버용 애플리케이션을 작동시키면 컴플라이언스 이슈를 제기하겠다는 입장을 공식 표명했다. 그러나 여전히 많은 조직들이 슈퍼 컴퓨터 등재를 포기하고 소비자용 GPU와 수랭 솔루션을 결합해 내부 분석용으로 활용하고 있는 것으로 파악되고 있다.

수랭이 필연인 미래, 슈퍼 컴퓨터가 시사한다
슈퍼 컴퓨터는 국가의 경쟁력, 특히 군사력과 직결된다. 국방에 투입된 슈퍼 컴퓨팅 분야에의 투자는 시장에서 활용돼 해당 국가의 시장 지배력을 강화시키는 선순환 구조로 이어진다. 중국이 텐허나 선웨이 타이후라이트와 같은 슈퍼 컴퓨터에 투자해 전세계 톱500 슈퍼 컴퓨터 1위를 끝내 차지했던 배경이 이것이며, 미국이 슈퍼 컴퓨터 수위 재탈환을 위해 민감하게 반응했던 배경도 이것이다.

미국 정부는 1973년 이래 지켜오던 1위 자리를 텐허에 빼앗겼고 톱500 슈퍼 컴퓨터의 대수 측면에서도 중국이 미국을 넘어서는 현상을 목격해야 했다. 중국에 대해 금수 조치를 취했음에도 불구하고 3년도 안돼 중국 자체 프로세서를 이용한 타이후라이트가 텐허를 제치고 다시 1위에 올랐기에 미국의 충격은 더욱 컸다.

결국 미국 정부는 기존의 아키텍처를 넘어서려는 코랄 프로젝트를 추진해 개발한 서밋(Summit)을 통해 2017년 슈퍼 컴퓨터 1위 자리를 재탈환했다. 이 과정에서 미국 정부가 내건 조건 중 하나는 에너지 효율이었으며 이는 1위인 IBM 서밋과 3위인 시에라 모두 수랭 솔루션을 채택하는 결과로 이어졌다. 랙당 59KW에 이르는 소비 전력에 효율적으로 대응하기 위해서는 수랭 외에는 답이 없었기 때문이다.

서밋과 시에라의 주요 특징 중 하나는 데이터 중심적, 메모리 중심적 아키텍처다. CPU의 역할이 축소되고 GPU와 네트워크 등의 요소들이 메모리를 공유해 프로세서 중심적 아키텍처의 한계를 극복하고 있다. 이는 향후 CPU보다도 높은 온도로 동작하는 GPU의 활용이 더욱 늘어날 것이라는 사실을 의미하며, 여기에는 일반 기업들의 데이터센터도 예외가 아니다.
 
ⓒ 오크릿지 국립 연구소에서 동작하고 있는 서밋 슈퍼 컴퓨터. 위쪽에 냉각수가 이동하는 호스를 확인할 수 있다.


머신러닝, 딥러닝이 예측을 넘어서는 속도로 우리 곁에 다가온 가운데 이를 효과적으로 냉각시키는 방법에 대한 고민 또한 갑자기 증가했다. 리스크에 대한 막연한 걱정, 익숙하지 않음을 이유로 기존 냉각 방식을 고수하면 기업 경쟁력이 뒤쳐질 수 있는 시대가 도래하고 있다. 페이스북과 마이크로소프트가 북극과 해저에서 데이터센터를 실험하는 이유는 ‘과시’가 아닌 ‘생존’이다.

* 본 기고문은 이코어(Ecore) 박병오 대표의 발표를 기반으로 작성됐다. ciokr@idg.co.kr

X