페이스북의 모회사 메타(Meta)가 세계 최대 성능의 AI 슈퍼 컴퓨터를 구축하고 있다고 밝혔다. 메타버스 프로젝트 구축에 필요한 머신러닝 및 자연어 처리를 지원하기 위한 용도다.
RSC(Research Super Computer)라고 불리는 이 새로운 시스템은 1만 6,000개의 엔비디아 A100 GPU와 4,000개의 AMD 에픽 롬 7742 프로세서를 탑재한다. 노드당 8개의 GPU 칩과 2개의 에픽 마이크로프로세서가 있는 2,000개의 엔비디아 DGX-A100 노드가 존재하는 구조다. 올해 말 구축 완료될 예정이다.
회사에 따르면 RSC는 이미 부분적으로 구축된 상태다. 760개의 DGX-A100 시스템이 배치돼 있다. 메타의 연구진은 이미 자연어 처리(NLP) 및 연구용 컴퓨터 비전을 위한 대규모 모델을 교육하기 시작했다. 궁극적으로는 수조 개의 매개변수가 있는 모델을 교육하는 것이 목표다.
마크 주커버그 CEO는 “메타버스를 위해 구축하는 경험에는 엄청난 컴퓨팅 성능이 필요하다. RSC는 수조 개의 예제에서 학습하고 수백 가지 언어 등을 이해할 수 있는 새로운 AI 모델을 가능하게 할 것이다”라고 밝혔다.
메타가 HPC 시스템 전문 벤더인 펭귄컴퓨팅과 협력해 구축하고 있는 RSC는 FP16 및 FP32의 혼합 정밀 처리에서 5엑사플롭스의 최고 성능을 기록할 것으로 예상된다. 현재 톱500 슈퍼 컴퓨터 1위의 성능은 442페타플롭스/s다. 단숨에 1위를 차지하게 되는 셈이다. RSC의 소재지는 알려지지 않았다.
메타의 기술 프로그램 관리자인 케빈 리와 소프트웨어 엔지니어인 수보 센굽타는
블로그 포스트를 통해 “RSC가 새롭고 더 나은 AI 모델을 구축하는 데 도움이 될 것이다. 수백 가지 다른 언어로 작업하고, 텍스트, 이미지 및 비디오를 함께 매끄럽게 분석하며, 새로운 증강현실 도구를 개발할 수 있게 해줄 것”이라고 밝혔다.
그들은 이어 “예를 들어 다른 언어를 사용하는 대규모 그룹의 사람들에게 실시간 음성 번역을 제공해 협업을 돕거나 AR 게임을 할 수 있는 완전히 새로운 AI 시스템을 구축할 수 있게 될 것”이라고 전했다.
한편 RSC는 스토리지 측면에서도 퓨어스토리지 플래시어레이에서 175페타바이트, 캐시 스토리지 46페타바이트, 10페타바이트의 퓨어스토리지의 객체 스토리지 장비를 갖출 예정이다. ciokr@idg.co.kr