Offcanvas

데이터센터 / 신기술|미래

‘고장 확률도 급증’ 수퍼컴퓨터의 복원성 문제 해답은?

2012.11.23 Joab Jackson  |  Computerworld
수퍼컴퓨터가 강력해지면서 고장이 날 확률 또한 높아지고 있다. 내장 부품이 늘어난 까닭이다. 지난 주 솔트레이크 시티(Salt Lake City)에서 열린 SC 12 컨퍼런스에서, 몇몇 연구원들은 이 문제를 해결할 수 있는 방법들을 소개했다.

현재 고성능 컴퓨팅(HPC) 시스템은 10만 노드 이상을 설치할 수 있다. 그리고 각 노드는 메모리, 프로세서, 버스, 다른 회로 등 여러 부품들로 구성돼 있다. 이들 부품 모두 어느 순간 고장이 날 확률이 있다. 노스캐롤라이나 주립대학(North Carolina State University) 박사 과정 데이빗 피아라는 이런 문제가 발생하면 고성능 컴퓨팅 시스템의 작동이 멈춘다고 지적했다.

물론 새로운 문제는 아니다. 로렌스 리버모어 연구소(Lawrence Livermore National Laboratory)가 지난 2001년 600 노드 ASCI(Accelerated Strategic Computing Initiative) 화이트 수퍼컴퓨터를 도입했을 때 평균 고장 시간 (MTBF)은 5시간에 불과했다. 부분적으로는 부품 고장 때문이다. 피아라는 이후 ASCI 화이트의 MTBF를 55시간으로 개선할 수 있었다고 설명했다.

-> 지구 최강의 수퍼컴퓨터 10선

그러나 수퍼컴퓨터의 노드 수가 증가하면서, 문제 또한 늘어날 전망이다. 피아라는 "이 문제에 대한 대책이 필요하다. 엑사급 기술로 발전하면서 문제가 더욱 심각해질 것으로 관측된다"라고 언급했다. 그는 차세대 수퍼컴퓨터는 현재의 수퍼컴퓨터보다 성능이 10배 이상 나아질 것이라고 예상했다.

따라서 현재 시스템 고장을 다루는 기법이 잘 들어맞지 않을 가능성이 있다. 그는 실행되고 있는 프로그램이 일시적으로 중단이 됐을 때, 작업 상황을 디스크에 저장하는 체크포인팅(Checkpoing)을 예로 들었다. 만약 프로그램이 충돌을 한다면, 시스템은 마지막 체크포인트에서 다시 작업을 실행시킬 수 있다.

피아라는 이 체크포인팅에 문제가 있다고 지적했다. 노드의 수가 증가하면서 체크포인팅 작업에 필요한 시스템 오버헤드 또한 증가하기 때문이다. 그것도 기하급수적으로 증가한다. 10만 개의 노드로 구성된 수퍼컴퓨터의 경우, 작업 실행에 관여하는 비중이 35%에 불과하다. 나머지는 체크포인팅과, 시스템이 고장을 일으켰을 경우 복구 작업이 차지하게 된다.

피아라는 향후 미래의 수퍼컴퓨팅 시스템이 지금의 수퍼컴퓨팅 시스템과 동일한 MTBF를 유지하려면 신뢰성을 100배 이상 개선해야 한다고 말했다. 엑사급 시스템에 맞게 하드웨어를 추가 장착해야 하는데, 이들 하드웨어들은 100만여 부품으로 구성이 될 수 있기 때문이다.

필라는 자신과 동료 연구원들이 신뢰도 개선을 위해 개발한 기술들을 소개했다. 그에 따르면 이 기술은 데이트를 디스크에 쓸 때 감지하지 못하는 오류를 일으키는 사일런트 데이터 손상 문제를 해결할 수 있다.

이들 연구원들이 제안한 방법은 기본적으로 프로그램을 여럿 복사 또는 복제하고, 동시에 답을 비교하는 방법이다. ‘RedMPI’라고 불리는 소프트웨어는 여러 서버로 실행 애플리케이션을 분산해 프로그램을 병렬로 실행시키는 라이브러리인 MPI(Message Passing Interface)와 함께 실행된다.

‘RedMPI’는 특정 애플리케이션이 전송하는 모든 MPI 메시지를 가로채 복사한 후, 메시지 복사 본을 프로그램 복제본에 전송한다. 복제본마다 답을 다르게 연산했다면, 그 즉시 다시 답을 계산할 수 있다. 전체 프로그램을 다시 실행시키는데 필요한 자원과 시간을 절약해주는 것이다.

피아라는 "이중화 실행은 비싸지 않다. 더 많은 코어가 필요할 수 있다. 그러나 체크포인트 재실행과 재작성이 필요 없다. 물론 대안이 있다. 정답을 찾을 때까지 작업을 재실행하는 것이다"라고 말했다.
피아라는 3중화를 위해 프로그램마다 2개의 백업 사본을 실행시키라고 권장했다. 물론 프로그램마다 여러 사본을 실행시키려면 처음에는 더 많은 자원이 필요하다. 그러나 시간이 지나면 더 효율적이다. 답을 체크하기 위해 프로그램을 재실행 시킬 필요가 없기 때문이다. 또 여러 사본을 실행시키면 체크포인팅 작업이 필요 없을 수도 있다. 이 또한 시스템 자원을 절약해준다.

UC 산타크루즈(University of California Santa Cruz)의 컴퓨터 사이언스 교수인 에단 밀러는 "이중화가 좋은 아이디어다. 수만 노드의 작업이 필요한 초대형 연산 작업에서는 어떻게든 오류가 일어날 확률이 있기 때문이다"라고 말했다.

그는 그러나 일부 용량의 네트워크 트래픽에는 이런 방식이 맞지 않을 수도 있다고 지적했다. 그는 동일 노드 세트의 모든 애플리케이션을 실행시킬 것을 제안했다. 인터노드 트래픽을 최소화 할 수 있기 때문이라는 설명이다.

일리노이 주립대학 어반나 샴페인(University of Illinois at Urbana-Champaign)의 박사 과정 학생인 안나 가이나루는 로그 파일을 분석해 시스템 고장이 발생할 시기를 예측하는 기법을 소개했다.

신호 분석과 데이터 마이닝을 결합한 기법이다. 신호 분석은 정상 행동의 특징을 파악하는데 사용된다. 이를 통해 고장 발생을 쉽게 분별할 수 있다. 그리고 보고된 고장들의 연관성을 파악하기 위해 데이터 마이닝을 사용한다. 다른 연구원들은 일부 고장들의 경우 서로 관련 있음을 보여줬다. 가이나루에 따르면, 특정 기술과 관련된 고장이 다른 기술의 성능에 영향을 주기 때문이다. 예를 들어, 네트워크 카드가 고장 나면 네트워크 통신을 의존하는 다른 시스템이 작동을 멈추게 된다.

연구 결과에 따르면, 서로 관련된 고장의 70%는 약 10초간의 기회를 제공한다. 고장 신호를 처음 감지했을 때, 아주 심각한 고장이 발생하기 전에 작업을 저장하고 다른 노드로 작업을 옮기기까지 가용한 시간이 최대 10초라는 의미다. 가이나루는 "이런 고장 예측 기법을 다른 고장 허용 한계 기법과 결합해 사용할 수 있다"라고 설명했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.