Offcanvas

AI / How To / 가상화 / 개발자 / 데이터센터 / 머신러닝|딥러닝 / 서버 / 애플리케이션

리뷰 | VM웨어 위에서 AI를!··· 엔비디아 'AI 엔터프라이즈’ 살펴보기

2022.01.07 Martin Heller  |  InfoWorld


IT 관리자를 위한 엔비디아 런치패드 데모 
필자는 IT 관리보다 데이터 과학에 더 관심이 있기 때문에 실습 관리 랩의 데모는 대충 살펴보기만 했다. 아래 나오는 첫 번째 스크린샷은 랩 설명서의 시작 부분이다. 두 번째 스크린샷은 VM웨어 v스피어 클라이언트 웹 인터페이스의 페이지이다. 엔비디아에 따르면 엔비디아가 교육시킨 IT 관리자는 대다수가 v스피어와 윈도우에 이미 숙달된 상태였지만 우분투 리눅스는 그렇지 않았다. 


이 화면은 VM웨어 v스피어를 이용해 엔비디아 AI 엔터프라이즈 가상 머신을 생성하는 설명서이다. IT 관리자 교육의 일부이다.


이 화면은 VM웨어 v스피어에서 강의 목적으로 생성된 엔비디아 AI 엔터프라이즈 가상 머신에 대한 하드웨어 개요이다. 

AI 실무자를 위한 런치패드 랩 
필자는 하루에 걸쳐 AI 실무자를 위한 런치패드를 검토했다. 이는 주로 ‘주피터 노트북(Jupyter Notebook)’으로 전달된다. 엔비디아 관계자는 이게 400 레벨 교재라고 했다. 코드를 필자가 직접 작성해야 했다면 분명 그 정도 수준이었을 것이다. 코드는 이미 모두 작성된 상태였고, 훈련을 거친 기본 BERT 모델은 정밀 교정만 거치면 된다. 정밀 교정을 위한 제반 훈련 및 테스트 데이터는 SQuAD(Stanford Question Answering Database)로부터 제공되었다.

서버 내의 런치패드 전용 A30 GPU는 필자가 정밀 교정 단계에 도달했을 때 작업을 수행했고, 97분이 걸렸다. 이 GPU가 없다면 시간이 훨씬 더 걸렸을 것이다. 예를 들어 위키피디아에 관해 BERT 모델을 처음부터 훈련시킨다면 이는 여러 GPU와 긴 시간을 요하는 대형 작업이다(아마 몇 주가 걸릴 것이다).


이 페이지의 윗부분은 주피터 노트북으로 이용자를 이동시키고, 이는 고객 서비스를 위한 BERT 모델을 정밀 교정한다. 아랫부분은 훈련된 모델을 추론 서버로 ‘내보내기’하는 방법을 설명한다. 한편, 정밀 교정 단계 후 커널을 닫지 않으면 ‘내보내기’ 단계는 ‘mysterious error tracebacks’와 함께 실패할 것이다. 필자는 이를 직접 체험했다.


이는 AI 프랙티셔너 과정의 1 단계를 구현하는 주피터 노트북의 시작 부분이다. 이는 단계 3에서 다운로드 된 사전-훈련된 BERT 텐서플로우 모델을 이용한다. 그 후에는 단계 2에서 다운로드 된 작고 집중된 데이터세트에 맞춰 이를 정밀 교정한다. 


이 단계는 텐서플로우를 이용해 예제 문장을 토큰 형식으로 변환한다. CPU 상에서 실행되는 데 몇 분이 걸린다. 


정밀 교정은 A30 GPU를 이용할 때 약 90분이 걸린다. 여기는 훈련의 시작 부분이다. ‘estimator.train(…)’ 호출에서 시작한다. 


정밀 교정 훈련 단계가 마침내 끝났다. 총 5,838초가(97분) 소요되었다. 시작 오베헤드에 약 4분이 소비되었다. 


주피터 노트북은 추론 테스트 및 평가 단계로 이어진다. 둘 다 정밀 교정을 거친 텐서플로우 BERT 모델을 이용한다. 이 단계 후 주피터 노트북을 종료하고 트리톤 추론 서버를 VM에서 시작한 후 주피터 콘솔로부터 트리톤 서버를 테스트한다. 

전체적으로 보았을 때 엔비디아 AI 엔터프라이즈는 AI 문제에 대처하는 대단히 우수한 하드웨어/소프트웨어 패키지다. 그리고 런치패드는 엔비디아 AI 엔터프라이즈에 숙달되는 편리한 방법이다. 

필자는 딥러닝 소프트웨어가 엔비디아 암페어 아키텍처 GPU에서 이루어진 최근의 혁신들, 예를 들어 혼합 정밀 계산 및 텐서 코어 등을 능숙히 활용하는 것을 보고 매우 놀랐다. 엔비디아 서버 인스턴스 상에서 엔비디아 AI 엔터프라이즈 실습 랩을 시험하는 일이 필자의 다른 경험보다 훨씬 더 좋았다. 다시 말해 필자 본인의 하드웨어 및 클라우드 VM/AI 서비스 상에서 텐서플로우 및 파이토치 예제를 실행하는 것보다 나은 경험이었다.

대형 퍼블릭 클라우드는 예외 없이 엔비디아 GPU, TPU(구글), FPGA(애저)로의 액세스를 제공한다. 또한 예를 들어 훈련을 위한 (AWS EC2 DL1 인스턴스 상에서) 하바나 가우디(Habana Gaudi) 칩, 추론을 위한 (아마존 EC2 Inf1 인스턴스 상에서) AWS 인퍼렌시아(AWS Inferetia) 칩 등 커스텀 가속기를 제공한다. 

심지어 구글 코랩(Google Colab)에서 무료로 TPU와 GPU에 액세스할 수 있다. 클라우드 사업자들은 텐서플로우, 파이토치 버전들, 그리고 그 외 자사 클라우드에 최적화된 프레임워크 또한 제공한다. 

엔비디아 런치패드에 액세스할 수 있고 이를 성공적으로 테스트할 수 있다고 하자. 다음 단계는 경영진의 동의와 지지를 받아 회사에 높은 가치를 지닌 AI 애플리케이션의 개념 증명을 하는 것임이 거의 확실하다. 

암페어 등급 GPU를 가진 소형 엔비디아 인증 서버를 임대한 후 엔비디아 AI 엔터프라이즈 무료 90일 평가 라이선스를 활용한다면 최소의 비용과 위험으로 POC를 달성할 수 있을 것이다.  

엔비디아 AI 엔터프라이즈를 위한 런치패드 요약
엔비디아 AI 엔터프라이즈는 AI 문제에 대처하는 데 있어 대단히 우수한 하드웨어/소프트웨어 패키지이고, AWS, 마이크로소프트 애저, 구글 클라우드의 AI 및 머신러닝 서비스의 위력적인 대안이다. 아울러 런치패드는 엔비디아 AI 엔터프라이즈에 숙달되는 편리한 방법이다. 

장점 
• 최신 엔비디아 GPU 이용 
• 1U ~ 2U 폼팩터 서버 
• 첨단 AI 소프트웨어 
• 우수한 하드웨어-소프트웨어 통합 
• 우수한 실습 랩 

단점 
• 2주에 불과한 시험 사용 기간(2주 연장 가능_
• 엔비디아 생태계에 속박되기 쉬움 
ciokr@idg.co.kr

CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.