2018.09.17

'GPU 데이터센터에 AI 더했다'··· 엔비디아, '인퍼런스 플랫폼' 공개

Marc Ferranti | Network World
엔비디아가 데이터센터 시장에 대한 대응을 강화했다. 새로운 튜링(Turing) 아키텍처 기반의 테슬라 T4 GPU를 이용해 AI 워크로드를 다양한 형식의 작업으로 확장했다. 이미지, 음성, 번역, 추천 시스템 같은 애플리케이션의 성능을 크게 강화하도록 설계됐다.



T4는 엔비디아의 새로운 텐서RT 하이퍼스케일 인터런스 플랫폼(TensorRT Hyperscale Inference Platform)의 핵심이다. 소형 가속 카드 형태로, 주요 서버 시장을 겨냥해 올 4분기부터 판매를 시작할 예정이다. T4는 튜링 텐서 코어(Turing Tensor Cores)를 지원한다. 이를 통해 다양한 AI 애플리케이션에 맞춰 여러 가지 수준의 연산 정확성을 제공하는 것은 물론, 텐서플로우(TensorFlow)와 파이터치(PyTorch), MX넷(MXNet), 체이너(Chainer), 카페2(Caffe2) 등 다층 신경망이 포함된 딥러닝, 머신러닝 소프트웨어 프레임워크를 지원한다.

엔비디아의 CEO 젠슨 황은 최근 일본 도쿄에서 열린 GTC 행사에서 신형 GPU와 플랫폼을 공개하며 "테슬라 T4는 튜링 아키텍처를 기반으로 한다. 데이터센터에서 AI를 활용하는 방식을 완전히 바꾸어놓을 것이다. 텐서 코어 CPU는 GPU의 완전한 재발명 의미가 있다"라고 말했다. 이 대용량 GPU 병렬 아키텍처를 이용하면 GPU를 AI에 더 최적화할 수 있다. 엔비디아 GPU의 병렬 컴퓨팅 기능은 강력한 순수 프로세싱 파워와 결합해 지난 수년간 AI용 기술로 널리 확산했다. 현재는 특히 머신러닝용 데이터셋을 학습시켜 딥러닝 신경망 모델을 만드는 데 쓰인다.

AI 추론의 장점은 멀티프리시젼 처리
T4 GPU와 새로운 추론 플랫폼의 가장 큰 개선은 이전 파스칼(Pascal) 아키텍처가 적용된 엔비디아 P4 GPU보다 더 다양한 정밀도에서 처리할 수 있는 기능이다. 일단 신경망 모델을 방대한 데이터세트로 학습시키면, 이를 추론 애플리케이션에 적용할 수 있다. 결과를 추론하기 위한 데이터의 분류 작업이다. 학습 과정은 컴퓨트 집약적 업무지만, 실제 애플리케이션에 적용된 추론은 프로세서로부터 최대한 유연해야 한다. 즉, 신경망의 각 수준에서 애플리케이션 속도와 전력 효율성 측면에서 가장 덜 방해를 받는 것이 좋다.

황은 "우리는 이러한 복합된 프리시젼을 짜 맞추는 아키텍처를 개발하는 데 성공했다. 처리량뿐만 아니라 정확성도 극대화할 수 있고, 이 모든 작업을 처리하는 데 75와트만 소비한다. T4s는 일반적으로 P4s보다 4배 이상 빠르고, 경우에 따라 최대 40배 더 빠르다"라고 말했다.

데이터센터에서 매우 다양한 종류의 애플리케이션을 처리하게 되면서 추론 작업에 대한 수요가 급속히 늘고 있다. 음성 질의와 번역, 이미지와 동영상, 추천과 소설 미디어 작업 등 수십억 개에 달한다. 엔비디아는 AI 추론 시장이 향후 5년간 200억 달러까지 성장할 것으로 전망한다. 애플리케이션에 따라 다양한 수준의 신경망 처리가 필요하다.

무어 인사이트 앤 스트레티지(Moor Insights & Strategy)의 설립자이자 애널리스트인 패트릭 무어헤드는 "애플리케이션이 16비트를 요구한다면 32비트 부동소수점 연산을 하고 싶지는 않을 것이다. 엔비디아는 새로운 추론 플랫폼을 통해 AI용 데이터센터 시장에서 경쟁사보다 확실히 앞서가게 됐다"라고 말했다.

텐서RT 하이퍼스케일 인퍼런스 플랫폼은 75와트 PCIe 폼팩터로 모두 집약돼 있다. 주요 구성 요소는 다음과 같다.

- 엔비디아 테슬라 T4 GPU. 튜링 텐서 코어 32개와 쿠다(CUDA, Compute Unitfied Device Architecture) 코어 2560개를 지원한다. 쿠다는 엔비디아의 병렬 처리 프로그래밍 언어다. T4 멀티프리시젼 기능에는 FP16(16비트 부동소수점 연산)부터 FP32까지 포함된다. INT8은 130테라플롭스, INT4는 260테라플롭스의 성능을 지원한다.

- 텐서RT 5. 추론 최적화를 담당하며 동시에 딥러닝용 런타임 역할을 한다. 낮은 레이턴시와 높은 추론 성능의 특성을 갖도록 설계됐다. 하이퍼스케일 데이터센터에서 학습된 추론용 신경망을 빠르게 최적화하고 검증하고 적용하는 GPU 플랫폼이다. 텐서플로우와 MX넷, 카페2, 매트랩 프레임워크는 물론 ONNX(Open Neural Network Exchange)를 이용하는 다른 프레임워크도 지원한다.

- 텐서RT 추론 서버. 엔비디아가 자사의 GPU 클라우드에서 추론 서버로 사용할 수 있도록 개발하고 있다. 여러 클라우드에 걸친 GPU 클러스터에 학습과 추론 역할 모두 확장할 수 있도록 설계됐다. 쿠버네티스와 도커와도 통합돼 개발자가 자동으로 배포, 스케줄링할 수 있다. 여러 클러스터 노드에 걸쳐 GPU 애플리케이션 컨테이너를 관리할 수도 있다.

엔비디아의 엑셀러레이트 컴퓨팅 사업부 부사장 이안 벅은 "우리는 계속해서 우리의 전체 소프트웨어 스택을 처음부터 투자해 최적화하고 있다. 범용적인 프레임워크를 이용하므로, 포장을 풀고 바로 신경망을 사용할 수 있다. 자신의 학습 모델을 선택할 수 있고, 바로 전환해 현장에 적용할 수 있다"라고 말했다.

한편 AI 추론 영역에서 엔비디아는 자일링스(Xilinx) 같은 FPGA(field programmable gate arrays) 업체와 경쟁하고 있다. FPGA는 프로그래밍할 수 있으므로 개발자가 서로 다른 수준의 딥 신경망에 사용될 컴퓨팅 프리시젼을 입맛에 맞게 수정할 수 있다. 문제는 개발자가 처음에 배우기가 어렵다는 점이다. FPGA를 조작하려면 HDL(Hardware Description Languages)을 이용해야 하는데 이는 다른 칩에서 일반적으로 사용하는 고수준 언어와 크게 다르다.


FPGA와 GPU의 경쟁
지난 3월 자일링스는 ACAP(Adaptive Compute Acceleration Platform)라는 새로운 제품군을 공개했다. 기존의 FPGA보다 소프트웨어 지원을 강화한 것이 특징이다. 코드명 에베레스트(Everest)로 알려진 첫 버전은 C/C++, 오픈CL, 파이썬 같은 툴을 이용한다. 또한 베리로그(Verilog)와 VHDL 같은 HDL 툴을 이용해 하드웨어와 RTL(register-transfer level)에서 프로그래밍하는 것도 가능하다.

반면 T4 GPU가 제공하는 소프트웨어 지원은 멀티프리시젼 기능과 결합됐다. 엔비디아는 이를 통해 AI 학습과 추론 모두에서 위상을 강화하려 하는 것으로 보인다. 벅은 "우리는 가장 효율적인 추론 플랫폼을 보유하고 있다. 실제 업무 환경에서 사용하는 고객도 우리를 높게 평가하고 있다. 우리는 최고의 학습은 물론 최고의 추론 플랫폼을 제공하기 위해 스택의 모든 부문에서 고객과 협업하고 있다"라고 말했다.

엔비디아에 따르면, 현재 P4 GPU를 사용하는 모든 서버 제작업체가 올해 말까지 T4 지원 제품을 내놓을 예정이다. 시스코, 델, EMC, 후지쯔, HPE, IBM, 오라클, 수퍼마이크로 등이다. 구글도 신형 T4s를 사용할 예정이라고 밝혔다. ciokr@idg.co.kr 



2018.09.17

'GPU 데이터센터에 AI 더했다'··· 엔비디아, '인퍼런스 플랫폼' 공개

Marc Ferranti | Network World
엔비디아가 데이터센터 시장에 대한 대응을 강화했다. 새로운 튜링(Turing) 아키텍처 기반의 테슬라 T4 GPU를 이용해 AI 워크로드를 다양한 형식의 작업으로 확장했다. 이미지, 음성, 번역, 추천 시스템 같은 애플리케이션의 성능을 크게 강화하도록 설계됐다.



T4는 엔비디아의 새로운 텐서RT 하이퍼스케일 인터런스 플랫폼(TensorRT Hyperscale Inference Platform)의 핵심이다. 소형 가속 카드 형태로, 주요 서버 시장을 겨냥해 올 4분기부터 판매를 시작할 예정이다. T4는 튜링 텐서 코어(Turing Tensor Cores)를 지원한다. 이를 통해 다양한 AI 애플리케이션에 맞춰 여러 가지 수준의 연산 정확성을 제공하는 것은 물론, 텐서플로우(TensorFlow)와 파이터치(PyTorch), MX넷(MXNet), 체이너(Chainer), 카페2(Caffe2) 등 다층 신경망이 포함된 딥러닝, 머신러닝 소프트웨어 프레임워크를 지원한다.

엔비디아의 CEO 젠슨 황은 최근 일본 도쿄에서 열린 GTC 행사에서 신형 GPU와 플랫폼을 공개하며 "테슬라 T4는 튜링 아키텍처를 기반으로 한다. 데이터센터에서 AI를 활용하는 방식을 완전히 바꾸어놓을 것이다. 텐서 코어 CPU는 GPU의 완전한 재발명 의미가 있다"라고 말했다. 이 대용량 GPU 병렬 아키텍처를 이용하면 GPU를 AI에 더 최적화할 수 있다. 엔비디아 GPU의 병렬 컴퓨팅 기능은 강력한 순수 프로세싱 파워와 결합해 지난 수년간 AI용 기술로 널리 확산했다. 현재는 특히 머신러닝용 데이터셋을 학습시켜 딥러닝 신경망 모델을 만드는 데 쓰인다.

AI 추론의 장점은 멀티프리시젼 처리
T4 GPU와 새로운 추론 플랫폼의 가장 큰 개선은 이전 파스칼(Pascal) 아키텍처가 적용된 엔비디아 P4 GPU보다 더 다양한 정밀도에서 처리할 수 있는 기능이다. 일단 신경망 모델을 방대한 데이터세트로 학습시키면, 이를 추론 애플리케이션에 적용할 수 있다. 결과를 추론하기 위한 데이터의 분류 작업이다. 학습 과정은 컴퓨트 집약적 업무지만, 실제 애플리케이션에 적용된 추론은 프로세서로부터 최대한 유연해야 한다. 즉, 신경망의 각 수준에서 애플리케이션 속도와 전력 효율성 측면에서 가장 덜 방해를 받는 것이 좋다.

황은 "우리는 이러한 복합된 프리시젼을 짜 맞추는 아키텍처를 개발하는 데 성공했다. 처리량뿐만 아니라 정확성도 극대화할 수 있고, 이 모든 작업을 처리하는 데 75와트만 소비한다. T4s는 일반적으로 P4s보다 4배 이상 빠르고, 경우에 따라 최대 40배 더 빠르다"라고 말했다.

데이터센터에서 매우 다양한 종류의 애플리케이션을 처리하게 되면서 추론 작업에 대한 수요가 급속히 늘고 있다. 음성 질의와 번역, 이미지와 동영상, 추천과 소설 미디어 작업 등 수십억 개에 달한다. 엔비디아는 AI 추론 시장이 향후 5년간 200억 달러까지 성장할 것으로 전망한다. 애플리케이션에 따라 다양한 수준의 신경망 처리가 필요하다.

무어 인사이트 앤 스트레티지(Moor Insights & Strategy)의 설립자이자 애널리스트인 패트릭 무어헤드는 "애플리케이션이 16비트를 요구한다면 32비트 부동소수점 연산을 하고 싶지는 않을 것이다. 엔비디아는 새로운 추론 플랫폼을 통해 AI용 데이터센터 시장에서 경쟁사보다 확실히 앞서가게 됐다"라고 말했다.

텐서RT 하이퍼스케일 인퍼런스 플랫폼은 75와트 PCIe 폼팩터로 모두 집약돼 있다. 주요 구성 요소는 다음과 같다.

- 엔비디아 테슬라 T4 GPU. 튜링 텐서 코어 32개와 쿠다(CUDA, Compute Unitfied Device Architecture) 코어 2560개를 지원한다. 쿠다는 엔비디아의 병렬 처리 프로그래밍 언어다. T4 멀티프리시젼 기능에는 FP16(16비트 부동소수점 연산)부터 FP32까지 포함된다. INT8은 130테라플롭스, INT4는 260테라플롭스의 성능을 지원한다.

- 텐서RT 5. 추론 최적화를 담당하며 동시에 딥러닝용 런타임 역할을 한다. 낮은 레이턴시와 높은 추론 성능의 특성을 갖도록 설계됐다. 하이퍼스케일 데이터센터에서 학습된 추론용 신경망을 빠르게 최적화하고 검증하고 적용하는 GPU 플랫폼이다. 텐서플로우와 MX넷, 카페2, 매트랩 프레임워크는 물론 ONNX(Open Neural Network Exchange)를 이용하는 다른 프레임워크도 지원한다.

- 텐서RT 추론 서버. 엔비디아가 자사의 GPU 클라우드에서 추론 서버로 사용할 수 있도록 개발하고 있다. 여러 클라우드에 걸친 GPU 클러스터에 학습과 추론 역할 모두 확장할 수 있도록 설계됐다. 쿠버네티스와 도커와도 통합돼 개발자가 자동으로 배포, 스케줄링할 수 있다. 여러 클러스터 노드에 걸쳐 GPU 애플리케이션 컨테이너를 관리할 수도 있다.

엔비디아의 엑셀러레이트 컴퓨팅 사업부 부사장 이안 벅은 "우리는 계속해서 우리의 전체 소프트웨어 스택을 처음부터 투자해 최적화하고 있다. 범용적인 프레임워크를 이용하므로, 포장을 풀고 바로 신경망을 사용할 수 있다. 자신의 학습 모델을 선택할 수 있고, 바로 전환해 현장에 적용할 수 있다"라고 말했다.

한편 AI 추론 영역에서 엔비디아는 자일링스(Xilinx) 같은 FPGA(field programmable gate arrays) 업체와 경쟁하고 있다. FPGA는 프로그래밍할 수 있으므로 개발자가 서로 다른 수준의 딥 신경망에 사용될 컴퓨팅 프리시젼을 입맛에 맞게 수정할 수 있다. 문제는 개발자가 처음에 배우기가 어렵다는 점이다. FPGA를 조작하려면 HDL(Hardware Description Languages)을 이용해야 하는데 이는 다른 칩에서 일반적으로 사용하는 고수준 언어와 크게 다르다.


FPGA와 GPU의 경쟁
지난 3월 자일링스는 ACAP(Adaptive Compute Acceleration Platform)라는 새로운 제품군을 공개했다. 기존의 FPGA보다 소프트웨어 지원을 강화한 것이 특징이다. 코드명 에베레스트(Everest)로 알려진 첫 버전은 C/C++, 오픈CL, 파이썬 같은 툴을 이용한다. 또한 베리로그(Verilog)와 VHDL 같은 HDL 툴을 이용해 하드웨어와 RTL(register-transfer level)에서 프로그래밍하는 것도 가능하다.

반면 T4 GPU가 제공하는 소프트웨어 지원은 멀티프리시젼 기능과 결합됐다. 엔비디아는 이를 통해 AI 학습과 추론 모두에서 위상을 강화하려 하는 것으로 보인다. 벅은 "우리는 가장 효율적인 추론 플랫폼을 보유하고 있다. 실제 업무 환경에서 사용하는 고객도 우리를 높게 평가하고 있다. 우리는 최고의 학습은 물론 최고의 추론 플랫폼을 제공하기 위해 스택의 모든 부문에서 고객과 협업하고 있다"라고 말했다.

엔비디아에 따르면, 현재 P4 GPU를 사용하는 모든 서버 제작업체가 올해 말까지 T4 지원 제품을 내놓을 예정이다. 시스코, 델, EMC, 후지쯔, HPE, IBM, 오라클, 수퍼마이크로 등이다. 구글도 신형 T4s를 사용할 예정이라고 밝혔다. ciokr@idg.co.kr 

X