2020.04.08

“DIM 소켓 없는 ARM 기반 HPC”··· 후지쯔의 슈퍼컴퓨팅 승부수

Andy Patrizio | Network World
서버용 ARM 프로세서는 처참한 실패(Calxeda)로 시작해서 적당한 성공(ThunderX2)으로, 그리고 마침내 제대로 된 경쟁자(ThunderX3, Ampere)로 부상했다. 일본의 대형 IT 기업인 후지쯔의 ARM 프로세서에 대한 세부 정보가 공개됐는데, 후지쯔는 엔비디아 GPU보다 더 적은 전력으로 더 높은 성능을 구현할 수 있다고 주장한다.
 
ⓒ Riken Advanced Institute for Computational Science

후지쯔는 ARM8 파생 버전인 48코어 A64FX를 고성능 컴퓨팅 전용 프로세서로 개발하고 있는데, 범용 코어가 아니라 인공지능이나 머신러닝 등에 특화된 연산 엔진을 추가했다. 이 프로세서는 후가쿠(Fugaku)란 이름의 새 슈퍼컴퓨터에 탑재된다. 후가쿠는 포스트 K라고도 불리는데, 한때 세계 최고의 슈퍼컴퓨터였던 K 슈퍼컴퓨터의 후속작이다. K는 맞춤형 스팍 칩을 사용했다.

후지쯔는 관련 세부 정보 일부를 공개했는데, 꽤 인상적이다. 우선 A64FX의 설계는 전통적인 방식에서 시작한다. AMD 에픽이나 일부 제온과 같은 치플렛 설계 대신 단일 모놀리식 설계를 선택했다. 더 중요한 것은 HBM2 칩 4개가 들어간다는 것이다. CPU와 연결되는 이 값비싼 고속 메모리는 고성능 시스템에만 사용된다. 각각 2개의 8GB 모듈이 CPU 양옆에 배치되어 CPU당 32GB의 HBM2 메모리를 제공한다. 이 때문에 A64FX의 메인보드 프로토타입에는 RAM DIMM 소켓이 없다. 

HPC 환경에서는 메모리 대역폭이 병목지점이 되는 경우가 많다. 특히 분석이나 시뮬레이션, 머신러닝 같은 데이터 집약적인 워크로드에서 성능 저하가 발생하는 원인이 된다. 실제로 데이터를 처리하는 데 드는 처리 성능의 100배 정도가 데이터를 옮기는 데 사용된다. 따라서 전력 효율을 높이기 위해서는 데이터를 가능한 한 조금 움직여야 한다.

따라서 A64FX의 설계는 표준 ARM 칩이나 x86 칩과는 완전히 다르다. 시스템 메모리가 없으며, 프로세서당 32GB의 초고속 메모리가 느린 메모리 버스 대신 고속 상호연결 기술을 통해 CPU와 직접 연결된다. CPU와 메모리 간의 지연을 대폭 줄이고 데이터가 메모리 소켓을 드나드는 데 소비하는 전력도 절감할 수 있다.

A64FX의 48개 코어는 마치 GPU처럼 기능하는데, K 슈퍼컴퓨터에 사용했던 기술인 토푸(Tofu)로 서로 연결한다. 토푸는 전력 효율과 낮은 지연에 맞춰 설계된 기술로, A64FX에서 한층 개선된 것으로 알려졌다. A64FX는 최고 3테라플롭의 성능을 내면서도 x86 프로세서보다 전력 효율은 10배나 높다. 후가쿠는 프로토타입만으로도 가장 전력 효율이 좋은 슈퍼컴퓨터를 뽑는 그린500(Green500) 목록에서 1위를 차지했다. 

후지쯔는 초기 벤치마크에서 후지쯔는 인텔의 최상위 제품군인 제온 플래티넘과 주 경쟁 상대인 엔비디아 볼타 GPU 제품군을 앞섰다고 주장한다. 하지만 최종 완성된 프로세서도 아니고, 객관적인 평가는 서드파티 벤치마크를 기다려보는 것이 좋을 것이다.

그럼에도 업계의 이목이 쏠리는 것은 크렐이가 후지쯔와 계약을 맺고 A64FX를 사용해 HPC 서버를 제작하기 때문이다. 이 제품은 크레이 제품으로 판매된다. 크레이는 지난 해 HPE에 인수되었기 때문에 이로써 HPE가 프로젝트 문샷 서버와 A64FX 두 가지 ARM 기반의 서버를 출시하게 된다.

또한 HPC에서 시작해 주류 시장에 자리 잡은 기술은 GPU 컴퓨팅부터 수랭 시스템, 모듈형 서버 설계 등 한둘이 아니다. A64FX가 기존 슈퍼컴퓨팅 설비보다 AI나 머신러닝 워크로드를 더 잘 처리해 주류 시장에 진입하지 못할 이유도 없다. 특히 DIMM을 없애고 HBM2를 탑재한 과격한 변화에 인텔이나 AMD가 어떻게 대응할지를 지켜보는 것도 흥미로운 일이 될 것이다. editor@itworld.co.kr



2020.04.08

“DIM 소켓 없는 ARM 기반 HPC”··· 후지쯔의 슈퍼컴퓨팅 승부수

Andy Patrizio | Network World
서버용 ARM 프로세서는 처참한 실패(Calxeda)로 시작해서 적당한 성공(ThunderX2)으로, 그리고 마침내 제대로 된 경쟁자(ThunderX3, Ampere)로 부상했다. 일본의 대형 IT 기업인 후지쯔의 ARM 프로세서에 대한 세부 정보가 공개됐는데, 후지쯔는 엔비디아 GPU보다 더 적은 전력으로 더 높은 성능을 구현할 수 있다고 주장한다.
 
ⓒ Riken Advanced Institute for Computational Science

후지쯔는 ARM8 파생 버전인 48코어 A64FX를 고성능 컴퓨팅 전용 프로세서로 개발하고 있는데, 범용 코어가 아니라 인공지능이나 머신러닝 등에 특화된 연산 엔진을 추가했다. 이 프로세서는 후가쿠(Fugaku)란 이름의 새 슈퍼컴퓨터에 탑재된다. 후가쿠는 포스트 K라고도 불리는데, 한때 세계 최고의 슈퍼컴퓨터였던 K 슈퍼컴퓨터의 후속작이다. K는 맞춤형 스팍 칩을 사용했다.

후지쯔는 관련 세부 정보 일부를 공개했는데, 꽤 인상적이다. 우선 A64FX의 설계는 전통적인 방식에서 시작한다. AMD 에픽이나 일부 제온과 같은 치플렛 설계 대신 단일 모놀리식 설계를 선택했다. 더 중요한 것은 HBM2 칩 4개가 들어간다는 것이다. CPU와 연결되는 이 값비싼 고속 메모리는 고성능 시스템에만 사용된다. 각각 2개의 8GB 모듈이 CPU 양옆에 배치되어 CPU당 32GB의 HBM2 메모리를 제공한다. 이 때문에 A64FX의 메인보드 프로토타입에는 RAM DIMM 소켓이 없다. 

HPC 환경에서는 메모리 대역폭이 병목지점이 되는 경우가 많다. 특히 분석이나 시뮬레이션, 머신러닝 같은 데이터 집약적인 워크로드에서 성능 저하가 발생하는 원인이 된다. 실제로 데이터를 처리하는 데 드는 처리 성능의 100배 정도가 데이터를 옮기는 데 사용된다. 따라서 전력 효율을 높이기 위해서는 데이터를 가능한 한 조금 움직여야 한다.

따라서 A64FX의 설계는 표준 ARM 칩이나 x86 칩과는 완전히 다르다. 시스템 메모리가 없으며, 프로세서당 32GB의 초고속 메모리가 느린 메모리 버스 대신 고속 상호연결 기술을 통해 CPU와 직접 연결된다. CPU와 메모리 간의 지연을 대폭 줄이고 데이터가 메모리 소켓을 드나드는 데 소비하는 전력도 절감할 수 있다.

A64FX의 48개 코어는 마치 GPU처럼 기능하는데, K 슈퍼컴퓨터에 사용했던 기술인 토푸(Tofu)로 서로 연결한다. 토푸는 전력 효율과 낮은 지연에 맞춰 설계된 기술로, A64FX에서 한층 개선된 것으로 알려졌다. A64FX는 최고 3테라플롭의 성능을 내면서도 x86 프로세서보다 전력 효율은 10배나 높다. 후가쿠는 프로토타입만으로도 가장 전력 효율이 좋은 슈퍼컴퓨터를 뽑는 그린500(Green500) 목록에서 1위를 차지했다. 

후지쯔는 초기 벤치마크에서 후지쯔는 인텔의 최상위 제품군인 제온 플래티넘과 주 경쟁 상대인 엔비디아 볼타 GPU 제품군을 앞섰다고 주장한다. 하지만 최종 완성된 프로세서도 아니고, 객관적인 평가는 서드파티 벤치마크를 기다려보는 것이 좋을 것이다.

그럼에도 업계의 이목이 쏠리는 것은 크렐이가 후지쯔와 계약을 맺고 A64FX를 사용해 HPC 서버를 제작하기 때문이다. 이 제품은 크레이 제품으로 판매된다. 크레이는 지난 해 HPE에 인수되었기 때문에 이로써 HPE가 프로젝트 문샷 서버와 A64FX 두 가지 ARM 기반의 서버를 출시하게 된다.

또한 HPC에서 시작해 주류 시장에 자리 잡은 기술은 GPU 컴퓨팅부터 수랭 시스템, 모듈형 서버 설계 등 한둘이 아니다. A64FX가 기존 슈퍼컴퓨팅 설비보다 AI나 머신러닝 워크로드를 더 잘 처리해 주류 시장에 진입하지 못할 이유도 없다. 특히 DIMM을 없애고 HBM2를 탑재한 과격한 변화에 인텔이나 AMD가 어떻게 대응할지를 지켜보는 것도 흥미로운 일이 될 것이다. editor@itworld.co.kr

X