2018.06.12

'세계 최고속 수퍼컴 예약'··· 美 '서밋', 내년 초 전면 가동

Peter Sayer | IDG News Service
미국 국립 오크리지 연구소(Oak Ridge National Laboratory)의 최신 '서밋(Summit)' 수퍼컴퓨터 설계팀은 데이터 중심 컴퓨팅의 급성장을 정확히 예견했다. 그러나 악천후가 핵심 컴포넌트의 배송을 방해할 것이라는 점까지는 예상하지 못했다.

일부 차질에도 불구하고 서밋은 IBM이 제작을 수주한 지 거의 4년 만에 일정대로 가동을 시작했다. 오크리지 리더십 컴퓨팅 퍼실리티(Oak Ridge Leadership Computing Facility, OLCF)의 과학 소장인 잭 웰스는 "이 200페타플롭 머신이 내년 초부터 전면 가동된다. 서밋은 세계 최강이자 최대의 과학용 수퍼컴퓨터다”라고 말했다.



서밋은 핵물리학과 지진학, 기후 과학 등과 연관된 작업을 처리하도록 설계됐다. 일반적으로 이들은 모형 및 일련의 초기 조건과 함께 시작되고 해법을 얻는 과정에서 대량의 데이터를 생성한다.

서밋 제작자는 유전자 게놈 연구나 머신 러닝 등 방대한 데이터 세트와 함께 시작돼 이에 대한 간명한 설명을 추구하는 새로운 컴퓨팅 문제 유형에 대한 계획도 빼놓지 않았다. 웰스는 “데이터 집중형 응용 분야에서 이용이 많이 늘어날 것으로 생각했고, 실제로도 그렇게 됐다. 현재 서밋을 사용하려는 딥러닝 프로젝트가 10여 건에 이른다. 몇 해 전만 해도 단 1건도 없었다"라고 말했다.

서밋의 아키텍처, 즉 프로세서 간 메모리를 공유하는 방식과 줄어든 정확도 대신 더 많은 양의 계산을 수행하는 능력은 이런 문제에 특히 적합하다(서밋의 운영 체계는 레드햇 리눅스다). 성능 벤치마크가 예상치대로 나온다면 최고 200페타플롭, 즉 1초당 20경 회의 부동소수점 연산을 이행한다. 세계 최고 속도 수퍼컴퓨터 500 목록(Top 500 list)에서도 1위에 해당하는 성능이다.

그러나 다른 기준으로 측정하면 서밋은 1.88엑사플롭, 즉 1초당 188경 번 이상의 연산을 수행할 수 있다. 웰스는 이들 계산이 과학 모델링에 일반적으로 쓰이는 64비트 배-정도 부동소수점 연산(64-bit, double-precision, floating-point arithmetic) 대신 16비트, 또는 반-정도 부동소수점 연산(16-bit, or half-precision, floating-point arithmetic )을 이용해 수행된다고 설명했다. 이는 딥러닝이나 게놈 연구에 사용되는 각종 연산을 감당하기에 충분하다.

서밋은 2012년 11월 당시 세계에서 가장 빠른 컴퓨터였던 타이탄보다 노드 수가 훨씬 더 적다. 타이탄의 1만 8,688개 노드는 각각 하나의 엔비디아 케플러 GPU와 하나의 AMD 옵테론 CPU로 구성됐다. 반면, 서밋의 4,600개 노드는 각각 2개의 IBM 파워9 CPU와 6개의 엔비디아 테슬라 V100 GPU로 구성된다. 이들 칩은 컴퓨팅을 다양한 정확도 수준에서 매우 효과적으로 작업을 수행한다.



노드는 메모리로 가득하다. 파워9 CPU용 512GB DDR4 램, V100용 96GB HBM2(High Bandwidth Memory), 1.6TB의 버스트 버퍼 메모리다. 나아가 프로그래머의 시각으로 볼 때, 이 메모리는 CPU와 GPU 간에 공유되고, 하나의 싱글 블록으로 취급돼 연산 속도를 추가로 가속한다.

노드는 3개 범주로 나누어진다. 코드를 컴파일하고 작업을 제출하는 로그인 노드, 배치를 실행하는 런치 노드, 난해한 컴퓨팅 작업을 완수하는 컴퓨트 노드다. 그러나 모든 노드가 물리적으로 동일하고, 따라서 상이 표적에 따른 크로스-컴파일 작업이 필요하지 않다.

노드는 23GB/s의 노드 인젝션 대역폭을 가진 듀얼-레일 EDR 인피니밴드 네트워크로 연결된다. 스위치는 3단계 논-블로킹 팻트리 토폴로지 구조다. 이에 의해 다른 노드의 작업에 상관 없이 최대 대역폭으로 통신할 수 있다.

미국 에너지부는 IBM에게 오크리지 서밋 컴퓨터의 제작을 위탁했던 것과 거의 동시에 국립 로렌스 리버모어 연구소의 시에라(Sierra) 수퍼컴퓨터의 제작 역시 의뢰했다. 이들은 중요한 차이점이 있다. 로렌스 리버모어는 데이터센터가 전통적인 이중 바닥 설계인 반면 오크리지는 물과 전력 등의 설비가 상부에서 들어온다.

IBM 시스템즈의 설계 및 엔지니어링 부사장인 웨인 호웰은 “시스템, 그러니까 캐비닛 자체의 방향을 오크리지에 맞춰 재설계해야 했다. 모든 기반 시설, 즉 랙, 쿨링, 네트워크가 첫 번째 노드의 인도 이전에 설치돼 있어야 했다. 이들을 가설하면서 동시에 인프라를 구축하려고 했다면 조율 문제로 인해 엉망이었을 것이다”라고 말했다.



그러나 이는 노드가 비교적 짧은 기간에 고정된 속도로 설치돼야 함을 의미했다. 그는 “우리가 겪은 한 가지 어려움은 일단 가설이 시작되면 간섭이 없어야 한다는 점이었다”라고 말했다. 예를 들어서 트럭 고장이나 악천후 같은 간섭이다(노드는 2017년 4분기부터 2018년 1분기까지 북미의 겨울철에 가설됐다).

IBM의 캘리포니아 설비와 테네시의 연구소 사이의 어디선가 차량 고장으로 인해 서버가 오도가도 못하는 상황일 때 차기 배송분이 이를 인수하기를 기다리지 않고 다른 트럭을 파견했다. 호웰에 따르면 이런 방식으로 수천 킬로미터의 여정에서 단지 몇 시간의 지연만이 있었다.

악천후로 인해 트럭이 모두 멈출 경우 IBM은 대신 비행기를 임대했다. 웰스는 “아메리카 대륙을 가로질러 이들을 배송할 때 시간 때문에 육상 대신 항공 운송을 이용했다. 그러나 일부 컴포넌트는 엄청나게 커서 대형 항공기를 임대해야 했다”라고 말했다.

다른 문제도 있었다. 웰스는 "서버에 수반되는 온갖 포장들을 생각해보라. 오크리지의 수용력을 순식간에 압도했다”라고 말했다. 현지 폐기물 처리 시설에 넘기는 대신 IBM은 서버를 배송한 빈 트럭들 가운데 하나에 이들을 다시 실었다. 2018년 3월 장비의 배송이 최종 마무리됐다. 그는 “시스템 소프트웨어의 테스트를 반복하고 있다. 인수 테스트는 이번 여름 늦게까지 완료할 계획이고, 2019년 1월 전면 가동될 것이다”라고 말했다. ciokr@idg.co.kr 

2018.06.12

'세계 최고속 수퍼컴 예약'··· 美 '서밋', 내년 초 전면 가동

Peter Sayer | IDG News Service
미국 국립 오크리지 연구소(Oak Ridge National Laboratory)의 최신 '서밋(Summit)' 수퍼컴퓨터 설계팀은 데이터 중심 컴퓨팅의 급성장을 정확히 예견했다. 그러나 악천후가 핵심 컴포넌트의 배송을 방해할 것이라는 점까지는 예상하지 못했다.

일부 차질에도 불구하고 서밋은 IBM이 제작을 수주한 지 거의 4년 만에 일정대로 가동을 시작했다. 오크리지 리더십 컴퓨팅 퍼실리티(Oak Ridge Leadership Computing Facility, OLCF)의 과학 소장인 잭 웰스는 "이 200페타플롭 머신이 내년 초부터 전면 가동된다. 서밋은 세계 최강이자 최대의 과학용 수퍼컴퓨터다”라고 말했다.



서밋은 핵물리학과 지진학, 기후 과학 등과 연관된 작업을 처리하도록 설계됐다. 일반적으로 이들은 모형 및 일련의 초기 조건과 함께 시작되고 해법을 얻는 과정에서 대량의 데이터를 생성한다.

서밋 제작자는 유전자 게놈 연구나 머신 러닝 등 방대한 데이터 세트와 함께 시작돼 이에 대한 간명한 설명을 추구하는 새로운 컴퓨팅 문제 유형에 대한 계획도 빼놓지 않았다. 웰스는 “데이터 집중형 응용 분야에서 이용이 많이 늘어날 것으로 생각했고, 실제로도 그렇게 됐다. 현재 서밋을 사용하려는 딥러닝 프로젝트가 10여 건에 이른다. 몇 해 전만 해도 단 1건도 없었다"라고 말했다.

서밋의 아키텍처, 즉 프로세서 간 메모리를 공유하는 방식과 줄어든 정확도 대신 더 많은 양의 계산을 수행하는 능력은 이런 문제에 특히 적합하다(서밋의 운영 체계는 레드햇 리눅스다). 성능 벤치마크가 예상치대로 나온다면 최고 200페타플롭, 즉 1초당 20경 회의 부동소수점 연산을 이행한다. 세계 최고 속도 수퍼컴퓨터 500 목록(Top 500 list)에서도 1위에 해당하는 성능이다.

그러나 다른 기준으로 측정하면 서밋은 1.88엑사플롭, 즉 1초당 188경 번 이상의 연산을 수행할 수 있다. 웰스는 이들 계산이 과학 모델링에 일반적으로 쓰이는 64비트 배-정도 부동소수점 연산(64-bit, double-precision, floating-point arithmetic) 대신 16비트, 또는 반-정도 부동소수점 연산(16-bit, or half-precision, floating-point arithmetic )을 이용해 수행된다고 설명했다. 이는 딥러닝이나 게놈 연구에 사용되는 각종 연산을 감당하기에 충분하다.

서밋은 2012년 11월 당시 세계에서 가장 빠른 컴퓨터였던 타이탄보다 노드 수가 훨씬 더 적다. 타이탄의 1만 8,688개 노드는 각각 하나의 엔비디아 케플러 GPU와 하나의 AMD 옵테론 CPU로 구성됐다. 반면, 서밋의 4,600개 노드는 각각 2개의 IBM 파워9 CPU와 6개의 엔비디아 테슬라 V100 GPU로 구성된다. 이들 칩은 컴퓨팅을 다양한 정확도 수준에서 매우 효과적으로 작업을 수행한다.



노드는 메모리로 가득하다. 파워9 CPU용 512GB DDR4 램, V100용 96GB HBM2(High Bandwidth Memory), 1.6TB의 버스트 버퍼 메모리다. 나아가 프로그래머의 시각으로 볼 때, 이 메모리는 CPU와 GPU 간에 공유되고, 하나의 싱글 블록으로 취급돼 연산 속도를 추가로 가속한다.

노드는 3개 범주로 나누어진다. 코드를 컴파일하고 작업을 제출하는 로그인 노드, 배치를 실행하는 런치 노드, 난해한 컴퓨팅 작업을 완수하는 컴퓨트 노드다. 그러나 모든 노드가 물리적으로 동일하고, 따라서 상이 표적에 따른 크로스-컴파일 작업이 필요하지 않다.

노드는 23GB/s의 노드 인젝션 대역폭을 가진 듀얼-레일 EDR 인피니밴드 네트워크로 연결된다. 스위치는 3단계 논-블로킹 팻트리 토폴로지 구조다. 이에 의해 다른 노드의 작업에 상관 없이 최대 대역폭으로 통신할 수 있다.

미국 에너지부는 IBM에게 오크리지 서밋 컴퓨터의 제작을 위탁했던 것과 거의 동시에 국립 로렌스 리버모어 연구소의 시에라(Sierra) 수퍼컴퓨터의 제작 역시 의뢰했다. 이들은 중요한 차이점이 있다. 로렌스 리버모어는 데이터센터가 전통적인 이중 바닥 설계인 반면 오크리지는 물과 전력 등의 설비가 상부에서 들어온다.

IBM 시스템즈의 설계 및 엔지니어링 부사장인 웨인 호웰은 “시스템, 그러니까 캐비닛 자체의 방향을 오크리지에 맞춰 재설계해야 했다. 모든 기반 시설, 즉 랙, 쿨링, 네트워크가 첫 번째 노드의 인도 이전에 설치돼 있어야 했다. 이들을 가설하면서 동시에 인프라를 구축하려고 했다면 조율 문제로 인해 엉망이었을 것이다”라고 말했다.



그러나 이는 노드가 비교적 짧은 기간에 고정된 속도로 설치돼야 함을 의미했다. 그는 “우리가 겪은 한 가지 어려움은 일단 가설이 시작되면 간섭이 없어야 한다는 점이었다”라고 말했다. 예를 들어서 트럭 고장이나 악천후 같은 간섭이다(노드는 2017년 4분기부터 2018년 1분기까지 북미의 겨울철에 가설됐다).

IBM의 캘리포니아 설비와 테네시의 연구소 사이의 어디선가 차량 고장으로 인해 서버가 오도가도 못하는 상황일 때 차기 배송분이 이를 인수하기를 기다리지 않고 다른 트럭을 파견했다. 호웰에 따르면 이런 방식으로 수천 킬로미터의 여정에서 단지 몇 시간의 지연만이 있었다.

악천후로 인해 트럭이 모두 멈출 경우 IBM은 대신 비행기를 임대했다. 웰스는 “아메리카 대륙을 가로질러 이들을 배송할 때 시간 때문에 육상 대신 항공 운송을 이용했다. 그러나 일부 컴포넌트는 엄청나게 커서 대형 항공기를 임대해야 했다”라고 말했다.

다른 문제도 있었다. 웰스는 "서버에 수반되는 온갖 포장들을 생각해보라. 오크리지의 수용력을 순식간에 압도했다”라고 말했다. 현지 폐기물 처리 시설에 넘기는 대신 IBM은 서버를 배송한 빈 트럭들 가운데 하나에 이들을 다시 실었다. 2018년 3월 장비의 배송이 최종 마무리됐다. 그는 “시스템 소프트웨어의 테스트를 반복하고 있다. 인수 테스트는 이번 여름 늦게까지 완료할 계획이고, 2019년 1월 전면 가동될 것이다”라고 말했다. ciokr@idg.co.kr 

X