Offcanvas

클라우드

마이크로소프트 애저, 엔비디아 A100 GPU 탑재된 인스턴스 공개

2020.08.24 편집부  |  CIO KR
마이크로소프트 애저가 엔비디아 A100 GPU를 탑재한 첫 인스턴스를 공개했다고 엔비디아는 밝혔다.

마이크로소프트는 연례 개발자 행사인 ‘빌드 2020(Build 2020)’에서 대규모 AI(AI at Scale)에 대한 비전을 소개했다. 해당 이니셔티브는 최첨단 AI 슈퍼컴퓨팅과 차세대 AI를 가능케 하는 새로운 종류의 대규모 AI 모델을 골자로 한다.

회사에 따르면 대규모 모델의 장점은 AI 슈퍼컴퓨팅을 이용해 방대한 양의 데이터를 한 번만 훈련하면 훨씬 작은 데이터셋과 리소스를 가진 다양한 작업 및 도메인을 정밀 조정할 수 있다는 점이다. 

모델이 더 많은 파라미터를 가질수록 데이터의 어려운 뉘앙스를 잘 파악할 수 있다고 회사 측은 설명했다. 이는 170억 개의 파라미터를 가진 마이크로소프트의 언어 모델로, 처음 본 질문에 답하거나 문서를 요약할 수 있을 정도의 언어 이해력을 가진 Turing-NLG에 의해 입증됐다. 이 같은 자연어 모델들은 1년 전의 최신 모델보다 그 규모가 훨씬 크며, 과거의 이미지 중심 모델보다 수십 배 큰 규모로 빙, 워드, 아웃룩, 다이나믹스(Dynamics)에서 다양한 작업을 수행하고 있다.

이러한 규모의 훈련 모델은 머신 내부와 전체에 걸쳐 고대역폭 네트워크로 상호 연결된 전문 AI 가속기가 갖춰진 수백 대의 머신으로 구성된 대규모 클러스터를 필요로 한다. 마이크로소프트는 제품 전반에 걸쳐 새로운 자연어 생성 능력과 이해력을 구현하고, 안전한 AI를 개발한다는 오픈AI(OpenAI)의 미션을 지원하기 위해 이러한 클러스터를 애저에 구축했다.

마이크로소프트의 최신 클러스터는 AI 슈퍼컴퓨터라고 불릴 만큼 많은 통합된 컴퓨팅 성능을 제공한다. 또한, 오픈AI를 위해 구축된 클러스터는 현재까지 공개된 전세계 상위 5대 슈퍼컴퓨터 성능에 도달했다. 지난 5월, 오픈AI는 해당 슈퍼컴퓨터를 사용해 1,750억 개의 파라미터를 가진 GP5-3 모델과 함께, 이 모델이 시를 쓰거나 번역을 하는 등 특별히 훈련되지 않은 광범위한 작업을 어떻게 지원하는지 선보이기도 했다.

마이크로소프트가 대규모 컴퓨팅 클러스터, 네트워크 설계, 그리고 애저 머신러닝(Azure Machine Learning), 오닉스 런타임(ONNX Runtime), 기타 애저 AI 서비스를 포함한 소프트웨어 스택에서 이를 관리하기 위해 수행한 작업들은 대규모 AI 전략과 직결된다. 이러한 과정을 통해 창출되는 혁신은 궁극적으로 애저가 규모에 상관없이 모든 고객의 AI 요구사항을 보다 효과적으로 충족시키도록 하고 있다. 

일례로, NDv2 VM 시리즈를 통해 애저는 엔비디아 멜라녹스 인피니밴드(NVIDIA Mellanox InfiniBand) 네트워킹으로 연결된 엔비디아 V100 텐서 코어(Tensor Core) GPU를 탑재한 가상머신(VM) 클러스터를 제공하는 퍼블릭 클라우드가 됐다.

더불어, 마이크로소프트는 새로운 ND A100 v4 VM 시리즈도 공개했다. 이는 마이크로소프트의 가장 강력하면서도 대규모로 확장 가능한 AI VM으로, 수백 대의 VM에 걸쳐 8개부터 수천 개에 이르는 상호 연결된 엔비디아 GPU를 탑재해 온디맨드 방식으로 이용할 수 있다. 

ND A100 v4 VM 시리즈는 단일 VM과 8개의 엔비디아 암페어(Ampere) A100 텐서 코어 GPU로 시작하지만, 인간의 두뇌가 상호 연결된 뉴런으로 구성된 것처럼 ND A100 v4 기반 클러스터는 전례없는 VM당 1.6TB/s의 상호연결 대역폭으로 최대 수천 개의 GPU까지 확장할 수 있다.

각 GPU에는 토폴로지 제한이 없는 전용 200GB/s 엔비디아 멜라녹스 HDR 인피니밴드 연결이 제공된다. 수십, 수백, 또는 수천 개의 GPU가 멜라녹스 인피니밴드 HDR 클러스터의 일부로 함께 작동해 모든 수준의 AI 목표를 달성할 수 있다. 여타 퍼블릭 클라우드 보다 16배 높은 전용 GPU-투-GPU 대역폭을 통해 모델을 처음부터 훈련하거나, 자체 데이터로 훈련을 계속하거나, 혹은 원하는 작업에 맞게 미세 조정하는 등 어떤 AI 목표든 훨씬 빠르게 달성할 수 있다.

ND A100 v4 VM 시리즈는 PCIe 4.0과 같은 최신 하드웨어 표준을 모든 주요 시스템 구성요소에 적용하여, 애저용으로 완전히 새롭게 설계된 AMD 롬(Rome) 기반 플랫폼으로 지원된다. 각 VM 내에 있는 PCIe 4.0과 GPU-투-GPU 상호연결을 위한 엔비디아의 3세대 NV링크(NVLINK) 아키텍처는 이전보다 2배 이상 빠른 속도로 시스템간 데이터 이동을 가능케 한다.

엔비디아 가속 컴퓨팅 담당 부사장 겸 총괄 이안 벅은 “애저는 엔비디아의 가장 진보된 컴퓨팅 및 네트워킹 기능을 통해 클라우드 상에서 혁신적인 AI 플랫폼을 설계했다”라며, “엔비디아 A100 GPU의 단일 파티션에서부터 엔비디아 멜라녹스 인피니밴드 상호연결을 사용하는 수천 개의 A100 GPU까지 확장될 수 있는 유연한 아키텍처를 통해, 애저 고객은 세계에서 가장 까다로운 AI 워크로드를 실행할 수 있게 될 것”이라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.