Offcanvas

AI / 데이터센터 / 머신러닝|딥러닝 / 서버 / 신기술|미래

데이터센터 GPU 삼파전··· '독보적 선두·역전의 명수·전통의 강호'가 맞붙었다

2022.05.11 Andy Patrizio  |  Network World
현대의 GPU는 게임용 3D 가속기로서 시작됐다. 그러나 지난 20년에 걸쳐 고성능 컴퓨팅 및 인공지능 애플리케이션을 위한 엔터프라이즈 서버 프로세서로서도 변신하고 있다.

이제 GPU는 슈퍼컴퓨팅, AI 훈련 및 추론, 신약 개발, 재무 모델링, 의학 이미징에서 성능을 좌우하는 존재다. 또한 이들은 GPU로 구동되는 관계형 데이터베이스 등 CPU가 감당하기 버거운 상황의 작업들에도 적용되곤 한다.

GPU 수요가 증가함에 따라 서버용 GPU를 만드는 업체 간의 경쟁이 뜨거워지고 있다. 경쟁 업체는 3곳, 즉 엔비디아, AMD, 인텔뿐이다. 인텔은 타사 GPU의 대안으로서 자리매김하려는 시도에서 이미 2차례 실패했지만 현재 3번째 시도를 감행하고 있다. 
 
Image Credit : Getty Images Bank


데이터센터 GPU의 중요성 
이들 세 회사는 데이터센터 GPU 수요를 비즈니스 기회로 바라본다. GPU는 기업 데이터센터와 하이퍼스케일러 네트워크에서 인공지능(AI)과 머신러닝(ML)에 필수적인 수많은 연산을 처리하는 데 CPU보다 더 적합하다. CPU도 이를 처리할 수 있지만 시간이 더 오래 걸린다.

GPU는 복잡한 수학 문제를 개별 작업들로 분리해 병렬로 처리하도록 설계되기 때문에 문제에 따라 푸는 속도가 더 빠르다. GPU는 대개 범용 CPU보다 코어 수가 훨씬 더 많다. 예를 들어 인텔의 제온 CPU는 최대 28개의 코어이고 AMD의 에픽(Epyc) 서버 CPU는 최대 64개의 코어를 가진다. 이와 대조적으로 엔비디아의 최신 GPU 세대인 암페어(Ampere)는 6,912개의 코어를 가지며, 이들은 모두 한가지 일, 다시 말해 수학 처리, 구체적으로 부동 소수점 연산을 병렬로 실행한다.   

GPU의 성능은 GPU가 초당 수행할 수 있는 부동 소수점 연산의 수로 측정된다(FLOPS). 때때로 이 수치는 측정에 사용된 표준 부동 소수점 형식을 명시한다(예. FP64). 

그렇다면 올해 서버 분야의 GPU에서 무슨 일이 펼쳐질까? 자못 흥미롭다. 엔비디아, AMD, 인텔은 각각 당면 계획을 공개했고, 치열한 경쟁이 펼쳐질 전망이다. 엔비디아, AMD, 인텔이 가진 계획을 하나씩 살펴본다.

엔비디아 
엔비디아는 3월 호퍼(Hopper) GPU 아키텍처를 발표하며 올해의 GPU 로드맵을 공개했다. 그러면서 용도에 따라 차이가 있지만 이전 아키텍처인 암페어에 비해 성능이 3~6배에 이를 것이라고 주장했다. 참고로 암페어의 성능은 HP64에서 9.7 TFLOPS이다. 엔비디아는 호퍼 H100의 성능이 FP64에서 60TFLOPS에 도달할 것이라고 전했다.

이전 GPU와 마찬가지로 호퍼 H100 GPU는 서버 내에서 확장 PCI 익스프레스 보드 상에서 실행되는 독립형 프로세서로서 작용할 수 있다. 그러나 엔비디아는 이를 23년 출시 예정인 자체적으로 개발한 그레이스(Grace)라는 커스텀 Arm 프로세서 상에서 CPU와 결합시킬 계획이다.

호퍼와 관련해 엔비디아는 단순한 GPU 프로세서의 성능 강화 이상의 작업을 진행했다. 스마트폰에 널리 쓰이는 저전력 DDR(Low-Power Double Data Rate) 5 메모리를 수정해 LPDDR5X 메모리를 개발했다. 이는 오류 정정 코드(ECC)를 지원하고 기존의 DDR5 메모리 대역을 1TBps 처리량으로 2배 증가시킨다.

호퍼와 함께 최신 GPU-GPU 연결 기술인 NV링크4가 발표됐다. NV링크 4C2C는 호퍼 GPU가 900GB의 최대 총 대역에서 상호간에 직접 통신할 수 있게 해준다. PCIe 젠5 버스로 연결됐을 때보다 7배 더 빠르다. 

존 페디 리서치(Jon Peddie Research)의 사장인 존 페디는 “데이터센터 제품에서는 3가지 컴포넌트를 고려할 수 있다. 이들이 발맞춰 발전할 필요성이 있다. 다시 말해 메모리, 프로세서, 통신이다”면서 “그리고 엔비디아는 호퍼로 이를 해냈다”라고 말했다.  

엔비디아는 2022년 3분기부터 호퍼 GPU를 출하할 예정이다. OEM 파트너는 아토스(Atos), BOXX 테크놀로지스, 시스코, 델 테크놀로지스, 후지쯔, 기가바이트, H3C, 휴렛팩커드 엔터프라이즈(HPE), 인스퍼(Inspur), 레노버, 넷트릭스(Netrix), 슈퍼마이크로(Supermicro) 등이다. 

엔비디아의 칩 제조업체인 TSMC가 계속되는 공급 압박을 겪는 가운데 엔비디아는 인텔의 파운드리 사업과 협력할 가능성을 열었다. 단 구체화되기까지는 여러 해를 기다려야 할 것이라며 선을 그었다.   

AMD
AMD는 순조롭게 항해 중이다. 매출은 분기마다 증가하고, x86 시장 점유율도 성장하고 있다. 그리고 2월 자일링스(Xilinx)의 인수를 마무리했다. 그러면서 FPGA, 적응형 SoC, AI 엔진, 소프트웨어 역량을 확보했다. AMD는 2022년 말까지 젠 4 CPU를 출시할 것으로 예상된다.

AMD의 RDNA3 아키텍처 기반의 신형 게이밍 GPU 역시 올해 출시될 예정이다. AMD는 RNDA 3 규격에 대해 함구해왔지만 열혈 게이밍 블로거들이 RNDA2에 비해 50% ~ 60%에 이르는 성능 이득이 있다는 소문을 유포하고 있다.

한편 AMD는 기업 컴퓨팅을 위한 인스팅트(Instinct) MI250 GPU 가속기 계열 라인업을 출하하고 있다. 이는 전작인 MI100 계열보다 훨씬 더 빠르다. 메모리 버스는 4,096 비트로부터 8,192 비트로 2배가 늘었고, 메모리 대역도 3.21TBps로부터 1.23TBps로 2배 이상 증가했다. 성능은 FP64에서 11.5 TFLOPS로부터 47.9TFLOPS로 4배 이상 증가했다. 호퍼의 60TFLOPS보다 느리지만 꽤 경쟁력을 가진다.

퓨처럼 리서치(Futurum Research)의 수석 애널리스트인 다니엘 뉴먼은 AI 시장이 성장하면서 AMD에게 시장 점유율을 늘릴 기회가 올 것이라고 말했다. 이어서 그는 AMD가 거둔 CPU 시장에서의 성공이 GPU 판매에 긍정적인 영향을 줄 것으로 본다고 말했다. 

그는 “지난 5년~7년에 걸쳐 AMD는 앞으로도 지속될 수 있는 매우 강력한 로열티를 확보했다”며서, “관건은 AMD가 AI/HPC 시장 점유율을 크게 늘릴 수 있겠냐는 것이다”라고 말했다.

그는 충분히 가능하다면서 AMD가 시장 기회를 발견하고 공급망을 관리하는 데 뛰어나기 때문에 목표를 달성할 것으로 본다고 말했다. 그리고 “AMD가 경쟁하기로 결정한 어떤 분야에서든 AMD를 무시하기가 매우 힘들다”라고 그는 평가했다.

옴디아(Omdia)의 고급 컴퓨팅, AI, 사물인터넷(IoT) 수석 애널리스트인 조너선 캐셀은 AMD가 에픽 서버 CPU에서 거둔 성공이 인스팅트 프로세서에게 기회를 제공할 것이라고 말했다.

그는 “AMD가 데이터센터 마이크로프로세서 측면에서 거둔 성공이 기반이 될 것이다. 기업들에게 인스팅트를 검토하게 만들 것이라고 생각한다. 고객과의 관계를 활용해 입지를 강화하려 할 것이다”라고 말했다.

인스팅트는 2022년 1분기부터 출하됐다. 현재까지 가장 유명한 이용 사례는 오크리지 국립 연구소(Oak Ridge National Labs)의 슈퍼컴퓨터였고, 매우 협소한 공간 안에 엄청난 성능을 우겨 넣었다. 

그뿐만이 아니다. 연구소는 올해 말 전개할 예정으로 있는 전면적인 AMD 엑사스케일 슈퍼컴퓨터인 프런티어(Frontier)를 제작하고 있다. 인스팅크트가 탑재된 제품을 출하 중인 OEM 파트너로는 에이수스, 아토스(ATOS), Dell테크놀로지스, 기가바이트, HPE, 레노버, 펭귄 컴퓨팅(Penguin Computing), 슈퍼마이크로(Supermicro) 등이 있다. 

인텔 
인텔은 오랫동안 데스크톱 CPU에 통합되는 기본적 GPU를 제외하고는 이렇다 할 성과를 거두지 못했다. 

이제 인텔은 올해 HP64에서 45TPLOPS의 성능을 달성할 것으로 알려진 코드명 폰테 베키오(Ponte Vecchio) 프로세서와 함께 데이터센터 GPU 시장에 진출할 것이라고 밝혔다. 이는 AMD의 MI250와 유사하고 엔비디아 호퍼에 비해 25% 정도 뒤진 성능을 갖출 것으로 관측되고 있다.

페디는 “시장을 송두리째 뒤흔들 수 있다. 인텔이 말해온 것, 각종 소문과 유출 정보로 미루어 볼 때, 이는 확장성이 매우 뛰어나다”라고 말했다. 폰테 베키오는 올해 말 출하될 예정이다. 

뉴먼은 폰테 베키오에 관해 긍정적인 사실들을 접하기는 했지만 인텔의 진짜 기회는 원API 소프트웨어 전략에 있다고 분석했다.

원API(oneAPI)는 인텔이 개발 중인 통합 소프트웨어 개발 플랫폼으로서, 애플리케이션 컴파일 시 인텔의 x86, GPU, FPGA, AI 프로세서 가운데 가장 적합한 유형을 선택하도록 설계된다. 즉 개발자에게 하나의 실리콘 및 코드 유형을 강제하지 않는다. 또한 영상 처리, 통신, 애널리틱스, 신경망 등에 쓰일 수많은 API 라이브러리를 제공한다.

이러한 추상화는 근간에서 작동할 프로세서가 무언인지 판단할 필요를 제거한다. 아울러 상이한 툴, 라이브러리, 프로그래밍 언어로 작업할 필요도 없어진다. 따라서 특정한 언어로 특정한 프로세서를 코딩하는 대신 비즈니스 로직에 집중할 수 있다. 뿐만 아니라 데이터 병렬성과 이기종 프로그래밍을 위해 특별히 설계된 C++의 오픈소스 변형인 데이터 패러렐 C++(DPC++)로 코딩할 수 있다. 

엔비디아 및 AMD와 달리 인텔은 칩을 자체적으로 제조한다. 대만의 칩 제조업체인 TSMC를 이용하기도 하지만 인텔은 대부분의 칩을 미국에서 자체적으로 생산하고, 아일랜드, 말레이시아, 이스라엘에도 생산 기지가 있다. 또한 미국에서의 대규모 증설 계획도 있다. 

이는 분명한 이점을 가지고 있다. 캐셀은 “제조를 자체적으로 통제할 수 있기 때문에 어떤 면에서 운명을 스스로 통제할 수 있다”면서 “인텔의 차별화된 자산이다”라고 말했다.

뉴먼은 최종적으로 엔비디아, AMD, 인텔 사이의 경쟁은 소프트웨어 경쟁으로 귀결될 것이라고 말했다. 그는 “엔비디아의 최고위 엔지니어들에게 물어보면 이들은 자신들이 칩 제조업체가 아니라고 말할 것이다. 소프트웨어 회사라고 말할 것이다. 인텔은 지금까지 AI에 관해 소프트웨어 회사처럼 생각하지 않았다고 본다. 그러나 원API가 성공하면 진짜 기회가 생길 것이다”라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.