2017.08.09

IBM, 딥러닝 학습 속도 높이는 새 기술 개발

Serdar Yegulalp | InfoWorld
딥러닝 모델을 훈련하는 데 걸리던 막대한 시간이 다소 줄어들 것으로 보인다. IBM은 딥러닝 훈련 작업을 여러 물리 서버로 자동 분산하는 새로운 기술 'DDL(Distributed Deep Learning)'을 공개했다. 개별 GPU로 나누는 것이 아니라 별도 GPU 세트를 장착한 시스템으로 분산하는 것이 특징이다. 단, 제약사항이 있다. IBM의 파워AI 4.0 소프트웨어 패키지에서만 사용할 수 있다. 이 소프트웨어는 IBM의 오픈파워 하드웨어 시스템에서만 작동한다.

DDL의 장점은 이를 개발자가 쓰기 위해 어떤 새로운 딥러닝 프레임워크도 새로 배울 필요가 없다는 점이다. 텐서플로우(TensorFlow), 토치(Torch), 카페(Caffe), 체이너(Chainer), 티아노(Theano) 등 여러 가지 머신러닝용 공통 프레임워크가 들어이 있기 때문이다. 이들 프레임워크를 사용하는 딥러닝 프로젝트는 다양한 하드웨어 노드에 걸쳐 병렬로 실행할 수 있다.

IBM은 DDL을 이용하면 노드를 늘림에 따라 거의 비례해서 속도가 향상된다고 주장했다. 레스넷-101과 이미지넷-22K 데이터를 이용한 벤치마크 결과를 보면, IBM S822LC 서버에서 16일 걸리던 작업을 64개 시스템으로 분산하자 7시간만에 끝낼 수 있었다. 58배 빨라진 것이다.

DDL을 이용하는 방법은 2가지다. 하나는 거액을 들여 전용 기기를 구매하는 것이다. 엔비디아 테슬라 P100 유니트가 2개 들어갔고 대당 5만 달러 가량된다. 두번째 방법은 IBM 파트너인 님빅스(Nimbix)가 서비스하는 클라우드에서 파워AI 소프트웨어를 실행하는 것이다. 비용은 시간당 0.43달러 정도다.

단, 일반적인 인텔 x86 시스템에서는 파워AI를 실행할 수 없다. IBM은 앞으로도 x86에서 파워AI를 지원할 계획이 없다. 파워AI와 전용 부품과 이를 지원하는 오픈파워 시스템이 매우 긴밀하게 결합돼 있다는 이유다. 이 긴밀한 결합의 대표적인 사례가 인피니밴드 링크다. IBM은 이외에 일반적인 기가비트 이더넷에서도 DDL을 실행할 수 있다고 주장하지만, 속도는 인피니밴드만큼 빠르지 않다는 것을 IBM도 인정하고 있다.

클러스터된 여러 시스템에서 딥러닝 훈련 작업을 하는 것은 이전에도 가능했다. 문제는 각 프레임워크가 자체 솔루션 세트를 갖고 있다는 점이다. 예를 들어 카페는 패럴렐 ML 시스템(Parallel ML System)과 카페온스파크(CaffeOnSpark)를 써야 하는 식이다. 텐서플로우도 여러 서버에 분산할 수 있지만 다른 프레임워크와 통합하려면 수작업이 반드시 필요했다.

IBM이 주장하는 DLL의 장점은 번거로운 설정 작업 없이 다양한 프레임워크와 호환된다는 점이다. 단, 이를 위해서는 치러야 할 대가가 있다. 즉 IBM이 파는 고가 장비를 구매해야 한다는 것이다. ciokr@idg.co.kr
2017.08.09

IBM, 딥러닝 학습 속도 높이는 새 기술 개발

Serdar Yegulalp | InfoWorld
딥러닝 모델을 훈련하는 데 걸리던 막대한 시간이 다소 줄어들 것으로 보인다. IBM은 딥러닝 훈련 작업을 여러 물리 서버로 자동 분산하는 새로운 기술 'DDL(Distributed Deep Learning)'을 공개했다. 개별 GPU로 나누는 것이 아니라 별도 GPU 세트를 장착한 시스템으로 분산하는 것이 특징이다. 단, 제약사항이 있다. IBM의 파워AI 4.0 소프트웨어 패키지에서만 사용할 수 있다. 이 소프트웨어는 IBM의 오픈파워 하드웨어 시스템에서만 작동한다.

DDL의 장점은 이를 개발자가 쓰기 위해 어떤 새로운 딥러닝 프레임워크도 새로 배울 필요가 없다는 점이다. 텐서플로우(TensorFlow), 토치(Torch), 카페(Caffe), 체이너(Chainer), 티아노(Theano) 등 여러 가지 머신러닝용 공통 프레임워크가 들어이 있기 때문이다. 이들 프레임워크를 사용하는 딥러닝 프로젝트는 다양한 하드웨어 노드에 걸쳐 병렬로 실행할 수 있다.

IBM은 DDL을 이용하면 노드를 늘림에 따라 거의 비례해서 속도가 향상된다고 주장했다. 레스넷-101과 이미지넷-22K 데이터를 이용한 벤치마크 결과를 보면, IBM S822LC 서버에서 16일 걸리던 작업을 64개 시스템으로 분산하자 7시간만에 끝낼 수 있었다. 58배 빨라진 것이다.

DDL을 이용하는 방법은 2가지다. 하나는 거액을 들여 전용 기기를 구매하는 것이다. 엔비디아 테슬라 P100 유니트가 2개 들어갔고 대당 5만 달러 가량된다. 두번째 방법은 IBM 파트너인 님빅스(Nimbix)가 서비스하는 클라우드에서 파워AI 소프트웨어를 실행하는 것이다. 비용은 시간당 0.43달러 정도다.

단, 일반적인 인텔 x86 시스템에서는 파워AI를 실행할 수 없다. IBM은 앞으로도 x86에서 파워AI를 지원할 계획이 없다. 파워AI와 전용 부품과 이를 지원하는 오픈파워 시스템이 매우 긴밀하게 결합돼 있다는 이유다. 이 긴밀한 결합의 대표적인 사례가 인피니밴드 링크다. IBM은 이외에 일반적인 기가비트 이더넷에서도 DDL을 실행할 수 있다고 주장하지만, 속도는 인피니밴드만큼 빠르지 않다는 것을 IBM도 인정하고 있다.

클러스터된 여러 시스템에서 딥러닝 훈련 작업을 하는 것은 이전에도 가능했다. 문제는 각 프레임워크가 자체 솔루션 세트를 갖고 있다는 점이다. 예를 들어 카페는 패럴렐 ML 시스템(Parallel ML System)과 카페온스파크(CaffeOnSpark)를 써야 하는 식이다. 텐서플로우도 여러 서버에 분산할 수 있지만 다른 프레임워크와 통합하려면 수작업이 반드시 필요했다.

IBM이 주장하는 DLL의 장점은 번거로운 설정 작업 없이 다양한 프레임워크와 호환된다는 점이다. 단, 이를 위해서는 치러야 할 대가가 있다. 즉 IBM이 파는 고가 장비를 구매해야 한다는 것이다. ciokr@idg.co.kr
X