Offcanvas

데이터센터 / 비즈니스|경제 / 신기술|미래 / 클라우드 / 통신|네트워크

MS 애저 네트워킹 속도 향상의 비밀은 '자체 개발 FPGA 칩'

2016.09.29 Blair Hanley Frank  |  IDG News Service
마이크로소프트 애저(Microsoft Azure) 가상 머신 네트워킹 속도가 빨라지고 있다. 독자적으로 개발해 데이터센터에 배치한 새 하드웨어 덕분이다.


Image Credit: 마이크로소프트

26일 마이크로소프트는 5개 대륙 15개 국가의 서버 장비에 수 만개 FPGA(Field-Programmable Gate Array) 설치를 완료했다고 밝혔다. 이 칩은 마이크로소프트의 다양한 퍼스트파티(First-party, 직접 제공하고 유지하는) 서비스에 활용되고 있으며, 애저 클라우드 플랫폼 네트워킹 속도를 크게 높이고 있다.

FPGA는 단지 네트워크 속도만 향상시키는 것이 아니다. 머신러닝 작업과 다른 주요 클라우드 기능도 개선한다. 마이크로소프트는 애저용 맞춤 보드의 구성에 관해 상세한 정보를 밝히지 않았지만 FPGA, 고정 RAM 칩, 강화된 디지털 신호 프로세서에 관해 일부 내용을 공개했다.

마이크로소프트가 프로그래밍이 가능한 하드웨어를 데이터센터에 설치한 것이 중요한 이유는 CPU 속도 상승세가 예전같지 않기 때문이다. CPU 성장세가 둔화된 가운데 FPGA는 특정 작업의 처리능력을 강화하고 네트워크 트래픽 흐름 관리나 텍스트 해석 같은 작업의 처리시간을 단축한다. 마이크로소프트는 이미 클라우드 시장에서 경쟁사와 치열한 컴퓨팅 하드웨어 성능 경쟁을 벌이고 있으므로, 이 하드웨어는 매우 유용한 무기가 될 전망이다.

26일 베타 버전으로 공개된 액셀러레이티드 네트워킹(Accelerated Networking)이 대표적이다. FPGA로 구현한 신기능 중 하나로, 추가 비용 없이 이 기술이 활성화된 가상머신(VM)간에 25Gbps의 전송 속도를 제공한다. 지연 시간은 약 100마이크로세컨드이다.

마이크로소프트는 오라클이 오픈월드(OpenWorld)에서 오프서버(Off-Server)와 소프트웨어 정의 네트워킹으로 성능을 향상시킨 2세대 IaaS 제품을 공개한지 불과 1주일만에 액셀러레이티드 네트워킹 기능을 공개했다. 일종의 '맞불'인 셈이다.

애저의 CTO 마크 루시노비치는 애저가 데이터센터의 네트워킹 하드웨어를 이점으로 활용하도록 만드는 데 FPGA가 중요한 역할을 한다고 말했다. 하드웨어는 40Gbps의 속도를 지원한다. 그러나 소프트웨어 정의 네트워킹 규칙이 다른 상태에서 모든 네트워크 트래픽을 이동시키려면 막대한 CPU 성능이 필요하다. 루시노비치는 "이는 경제성 측면에서 실용적이지 못하다. FPGA를 이용할 수 있는데 가상 머신으로 고객에게 판매할 수 있는 부분에서 CPU 성능을 가져올 이유가 있는가?"라고 말했다.


FPGA는 마이크로소프트 연구소(Microsoft Research) 산하 NExT(New Experiences and Technologies)의 선임 엔지니어 더그 버저의 아이디어에서 출발했다. 그는 2010년에 이른바 '캐터펄트(Catapult)' 프로젝트를 시작했고, 처음에는 빙(Bing)을 대상으로 했다가 후에 애저로 확대됐다. 이를 바탕으로 마이크로소프트 FPGA 하드웨어 레이아웃 두번째 디자인이 만들어졌고 그것이 현재의 제품이다.

마이크로소프트는 FPGA 카드 1개를 각 애저 서버에 설치하고, NIC(Network Interface Card), PCIe 버스, TOR(Top Of Rack) 네트워크 스위치에 연결했다. 이를 통해 각 FPGA가 서로 통신을 하는 방식이다. 마이크로소프트는 대용량 데이터 처리 작업에 FPGA를 사용하는데 지연시간도 낮다. 많은 성능을 요구하는 머신러닝 애플리케이션에 특히 유용하다.

버저는 "하나의 딥 신경망(Deep neural net)에 1,000개의 FPGA를 할당할 수 있을 정도로 대규모로 구축이 완료된 상태다"라고 말했다. 이는 상당한 규모의 컴퓨팅 파워다. 버저는 이그나이트(Ignite) 컨퍼런스 발표를 통해 애저에 배포된 모든 FPGA를 이용하면 영어판 위키피디아(Wikipedia)를 단 1/10초만에 해석할 수 있다고 설명했다.

이처럼 맞춤 '실리콘(칩)'을 이용하는 업체는 마이크로소프트만이 아니다. 구글은 올해 초 클라우드에서 일부 머신러닝 작업 속도를 향상시킬 수 있는 전용 ASCI(Application-Specific Integrated Circuit) 칩 'TPU(Tensor Processing Unit)'를 공개했다. 구글이 FPGA 대신 ASIC를 선택한 것은 속도와 효율성 때문이다.

그렇다면 마이크로소프트는 왜 FPGA일까? 버저는 "업계의 변화가 너무 빨라 ASIC의 미래를 확신할 수 없었다"고 말했다. FPGA에 다시 프로그래밍을 할 수 있는 하드웨어를 하나만 사용하는 것이 성능 측면에서 좋지 않을 수 있지만, FPGA 보드의 SRAM과 DSP 칩을 강화해 특정 애플리케이션 성능을 향상시켜 성능 차이를 줄일 수 있다는 것이다.

현재 액셀러레이티드 네트워킹 기능은 애저 미국 중서부(West Central)와 서유럽(Western Europe)의 DS15v2 인스턴스에서만 이용할 수 있다. 또 윈도우 서버 2012 R2와 윈도우 서버 2016 테크니컬 프리뷰 5만 지원한다. 조만간 리눅스 인스턴스도 지원할 예정이다. 장기적으로는 애저의 모든 가상 머신 종류와 운영 체제로 지원을 확대할 계획이다. 네트워킹 속도를 높이기 위해 선택할 수 있는 보강 기능으로 시작해 기본적으로 무료 제공하고 이후 선택적으로 이용을 중단할 수 있는 형태가 될 예정이다.

마이크로소프트는 머신러닝 애플리케이션에 FPGA를 이용할 계획이라고 밝혔다. 이를 위해서는 FPGA 가속 모드에서 인식 서비스(Cognitive Service)를 실행할 수 있도록 코드를 구현해야 하는데 이는 다음 목표이다.

루시노비치는 "고객에게 이 기능을 제공하려면 일정한 단계가 필요하다. 먼저 모델을 교육하고, 고객이 우리 데이터센터 CPU나 GPU에서 이를 실행시킬 수 있는 딥 러닝을 구현해야 한다. 미래에는 FPGA에서 '스코어링'을 실행하고 원할 경우 FPGA에서 모델을 교육하는 것도 가능해 질 것이다. 하지만 아직은 먼 이야기이다"라고 말했다.

버저의 가장 큰 고민 중 하나는 애저 데이터센터에서 FPGA와 CPU를 균형 있게 활용하는 방법을 찾는 것이다. 마이크로소프트는 이미 FPGA 수만 개를 배포했다. 그러나 사용자가 더 늘었을 때 이를 충분히 지원할 수 있는 정도는 아니다. 그는 "우리가 보유한 모든 소프트웨어와 제품, 서비스에는 CPU가 중요하고 앞으로도 그럴 것이다. 그러나 애플리케이션의 경우 CPU가 아닌 다른 기술에서 대규모 혁신이 나타날 것이다"라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.