Offcanvas

AI / 데이터센터

“엔비디아 A100 GPU, 전세계 슈퍼컴퓨터 센터에서 채택 가속화”

2020.05.21 편집부  |  CIO KR
전세계 슈퍼컴퓨터 센터 6곳에 암페어(Ampere) 아키텍처를 기반으로 설계된 A100 GPU가 도입됐다고 엔비디아가 밝혔다.  
 

아르곤 국립 연구소가 도입한 엔비디아 DGX-A100
미국과 독일에 위치한 슈퍼컴퓨터 센터들은 약 1만3,000개의 A100 GPU를 사용해 천체 물리학에서 바이러스 미생물학에 이르는 다양한 분야에서 엑사스케일 시대를 준비하고 있다. 

A100 GPU는 64비트 부동소수점 연산을 사용하는 시뮬레이션을 위해 최대 250페타플롭(PF) 이상의 성능을 제공한다. 이는 혼합정밀수학을 사용하고 희소성(sparsity) 지원을 위해 A100 GPU를 사용하는 인공지능(AI) 추론 작업에는 무려 8.07 엑사플롭스급의 성능을 제공한다.

연구원들은 이러한 컴퓨팅 성능을 통해 과학을 다각도로 발전시키고, 더 방대한 모델을 시뮬레이션하고, 고도화된 딥 네트워크를 훈련·배포하며, AI 지원 시뮬레이션이라는 새로운 하이브리드 분야를 주도할 수 있게 됐다.

일례로, 미국 아르곤 국립 연구소의 연구원들은 150만 개의 원자로 구성된 코로나 바이러스 표면에 있는 단백질 스파크의 핵심 부위를 시뮬레이션 하며 코로나19 백신을 개발하고 있다. 아르곤 국립 연구소는 이를 위해 24개의 엔비디아 DGX A100 시스템 클러스터를 활용할 예정이다.

또한, 미국 에너지부 버클리 국립 연구소의 국립에너지연구소 과학컴퓨팅센터(NERSC)는 프리-엑사스케일 슈퍼컴퓨터인 펄머터(Perlmutter)에 6,200개의 GPU를 구축하기 위해 HPE와 협력하고 있다. 

시뮬레이션과 AI 프로젝트 추진 중인 엑사스케일 컴퓨팅 팀
NERSC의 엑사스케일 컴퓨팅 전담팀은 대규모 시뮬레이션, 데이터 애널리틱스, 딥 러닝을 활용하는 약 30개의 펄머터 프로젝트를 계획하고 있다. 이 중에는 강화 학습을 통해 광원 실험을 제어하는 프로젝트 등 고성능컴퓨팅(HPC)과 AI를 결합해 사용하는 프로젝트와 고에너지 물리 탐지기에서 많은 비용이 드는 시뮬레이션을 재현하기 위해 생성 모델을 사용하는 프로젝트도 있다.

이미 A100 GPU의 배정밀도 텐서 코어(Tensor Cores)를 탑재해 NERSC의 HPC 애플리케이션 중 두 개의 프로토타입이 제작됐으며, 이는 이전 세대 볼타(Volta) GPU 대비 성능이 대폭 개선됐다. 

독일 율리히 슈퍼컴퓨팅 센터의 AI 프로젝트에 도입된 A100
A100은 프랑스 슈퍼컴퓨터 제조기업 아토스가 제작한 독일 율리히 슈퍼컴퓨팅 센터의 새로운 70PF 시스템에 탑재됐으며, AI 프로젝트에 집중적으로 사용될 예정이다.

그 중 비교적으로 느린 대규모 대기 시뮬레이션을 사용하는 기존 시스템을 보완하면서 단기간에 빠른 기상 예측을 제공하는 것을 목표로 하는 딥 레인(Deep Rain) 프로젝트에 도입된다. 이 외에도 수천 개의 고해상도 2D 뇌 이미지를 딥 러닝으로 조합해 인간 두뇌의 섬유 지도(atlas)를 구축하는 프로젝트에도 활용될 예정이다. 또한, 율리히 센터가 도입한 새로운 A100 시스템은 물질을 구성하는 아원자 단위 쿼크(quark)의 응집력을 연구하고, 기후 과학 프로젝트를 통해 지표면과 지하수 흐름을 모델링하는데 기여하게 된다.

대규모 데이터 처리 시스템을 위한 고속 NV링크
카를스루에 공과대학(이하 KIT)은 엔비디아 멜라녹스 200Gb 인피니밴드(InfiniBand) 네트워크에 740개의 A100 GPU를 탑재한 새로운 17페타플롭급 시스템을 구축하기 위해 레노버(Lenovo)와 파트너십을 맺었다. 

KIT는 이 시스템을 통해 ▲기후 과학 목적의 킬로미터 단위의 대기 시뮬레이션 ▲폴딩앳홈(Folding@home) 지원 등 코로나19 대응을 위한 연구 ▲대형 강입자 충돌기(LHC)용 힉스 보손(Higgs boson) 이상의 입자 물리학 연구 ▲리튬 이온 배터리를 대체 가능한 신소재 연구 ▲로보틱스, 언어 처리, 재생 가능 에너지용 AI 애플리케이션 개발 등을 대응할 예정이다. 

뮌헨 근방에 위치한 막스 플랑크 연구소 컴퓨터센터는 레노버와 합작해 768개의 엔비디아 A100 GPU로 구동되는 레이븐-GPU(Raven-GPU)라는 슈퍼컴퓨터 시스템을 구축하고 있다. 레이븐-GPU는 천체 물리학, 생물학, 이론 화학, 고급 재료학과 같은 분야에 사용된다. 막스 플랑크 연구소는 연말까지 레이븐-GPU를 설치하는 것을 목표로 하고 있으며 현재 A100에 최적화된 애플리케이션 지원 요청을 받고 있다.

사이버 보안 위협에 대응하는 인디애나 대학 연구소
미국의 인디애나 대학교는 6페타플롭급의 슈퍼컴퓨터 빅 레드 200(Big Red 200)을 구축하고 있다. 빅 레드 200이 완성되면 인대애나 대학은 미국에서 가장 빠른 슈퍼 컴퓨터를 갖고 있는 대학이 될 예정이다. 

빅레드 200 슈퍼컴퓨터에는 256개의 A100 GPU가 탑재된다. 빅레드 200 슈퍼컴퓨터는 AI를 활용해 사이버 보안 위협에 대처할 뿐 아니라, 유전학 분야의 난제를 해결하는데 기여해 개인 맞춤형 진료를 지원하고, 한 발 더 나아가 기후 모델링, 물리학, 천문학 연구에도 기여할 예정이다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.