생성형 AI의 등장 이후 산업 전반에 걸쳐 AI프로젝트를 통해 기업의 생산성을 높이고, 새로운 비즈니스 기회를 창출하고자 하는 움직임이 그 어느때보다 빨라 지고 있으며, 그에 맞추어 GPU에 대한 수요도 폭발적으로 증가하고 있다.
흔히 AI인프라를 처음 도입할 시기에 GPU만 도입하면 완벽하다고 생각하기 쉽다. 그러나 이를 잘 활용하기 위해서는 네트워크와 스토리지 역시 또한 중요하다는 점을 간과해서는 안 된다. AI 모델을 학습할 때 방대한 양의 데이터 IO가 필요하고, 재학습하면서 또 무수한 데이터를 받아들이는 과정을 반복하게 되는데, 스토리지의 성능이 탄탄하게 받쳐 주지 못한다면 완벽한 AI/HPC 환경을 구현했다고 말할 수 없기 때문이다.
AI인프라에 최적화된 스토리지가 필요한 이유
기존까지 AI프로젝트에 있어서 스토리지는 인프라 성능에 큰 부담을 미치지 않는 요소였다. 문제는 생성형 AI 열풍이 불면서부터다. 기업들이 수많은 콘텐츠에서 생성하는 대규모 언어 모델(LLM)에 대한 관심이 높아지면서, AI 모델 학습을 위한 고성능의 데이터 저장소에 대한 중요성이 커지게 된 것이다.
전통적인 SAN이나 NAS의 성능과 확장성으로는 AI환경이 요구하는 성능을 충족하는 데 한계가 있다. 데이터 노드를 늘린다 해도 메타 정보를 찾는 속도가 서버 속도를 따라가지 못한다. GPT는 데이터 수집, 전처리, 모델 생성, 평가, 아카이빙 등의 여러 단계를 거치는데 이 과정에서 전수 데이터를 읽으며 상당한 디스크 IO를 일으킨다. NVMe 플래시가 개별 속도는 빠를지 모르지만, 데이터를 찾아서 GPU로 이동시키는 게 느리다면 전반적인 시스템 속도가 현저히 떨어질 수밖에 없다.
즉, AI 시스템에 고속으로 정확하게 데이터를 공급하고 분석하려면, 서버 외에 스토리지나 네트워크도 고성능의 요건을 반드시 충족해야 하는 상황이 도래하게 된 것이다. 특히 스토리지의 경우에는 고속 처리를 위해 하드디스크보다 NVMe 플래시를, 방대한 양의 데이터를 더욱 고성능으로 저장하기 위해 병렬 분산 파일 시스템을 권장하는 추세다.
거기에 더해 기하급수적으로 늘어나는 데이터를, 성능을 유지하면서 비용효율적으로 관리하는 방안도 필요하게 되면서 AI스토리지에 대한 요구사항은 계속 늘어나고 있다. 초기에는 기업들이 GPU나 네트워크 부분에 주로 투자했지만, 이제는 모든 인프라의 원활한 흐름을 위해 적합한 스토리지를 도입하려는 고민이 많아지고 있는 이유이다.
AI 스토리지의 조건 4가지
그렇다면 AI스토리지를 도입함에 있어 최소한의 필수 요건들은 무엇일까? 크게 아래와 같이 4가지로 정리될 수 있다.
1) 병렬파일시스템 구조를 가지고 있어야 한다
병렬파일시스템이란, 하나의 데이터 파일을 잘게 쪼개서 여러 병렬파일시스템 데이터 노드에 분산처리하는 구조를 말한다. 이러한 병렬파일시스템이 나오게 된 이유는, AI 환경의 경우 수많은 GPU 클러스터와 코어에서 병렬연산을 수행하기 때문에, 스토리지에서도 한 노드에 특정되는 것이 아니라 병렬 처리가 되어 고성능을 같이 내 줘야 하기 때문이다. 만약 병렬파일시스템이 아닌 일반적인 스케일아웃 NAS 구조로 AI스토리지를 선택할 경우 성능의 제약이 생길 수 밖에 없으며, 노드가 많아 질수록 점점 더 병목현상이 심해 질 수 있다는 것을 간과해서는 안 된다.
2) 고성능을 위해 필요한 기술들을 활용할 수 있어야 한다
보통은 AI분석을 위한 성능요건으로 GPU클러스터 관련 기술들만 검토하는 경우가 많은데, 스토리지 단에서도 GDS(GPUDirect Storage)나 DPDK와 같은 기술들이 잘 적용 되는 지 확인해야 한다. 특히 GDS는 CPU Memory를 거치지 않고 GPU 프로세스에 직접적으로 연계되어 고성능 디스크IO를 일으키는 방식으로, GDS를 사용하지 않는다면 데이터를 읽고 쓰는 과정에서 불필요한 CPU제약사항이 발생하여 원하는 성능을 낼 수 없다.
3) 멀티 프로토콜이 지원되어야 한다
멀티 프로토콜이 지원되는 스토리지란, 하나의 스토리지 시스템에서 POSIX, SMB, NFS, S3 및 컨테이너기반 쿠버네티스 CSI를 지원하여 ‘‘모든 유형의 데이터가 하나의 파일시스템에서 서비스’된다는 것을 의미한다. 스토리지에서 멀티 프로토콜이 지원하지 않을 경우, 특정 프로토콜을 지원하는 스토리지들로 개별 구성해야 하고, 따라서 비용과 관리 포인트가 늘어날 수 밖에 없게 된다. 특히 각 단계를 넘어갈 때마다 데이터가 복제되는데 시간이 소요되어 불필요한 저장의 낭비가 발생할 수밖에 없게 된다는 것을 명심해야 할 것이다
4) 효율적인 대용량 데이터 관리가 가능해야 한다
AI분석을 업무를 진행하다 보면, 전체 데이터가 매번 분석에 활용되는 것은 아니다. 따라서 AI분석에 필요한 데이터도 ‘Hot’과 ‘Cold’로 구분해서 효율적으로 관리하는 것이 필요하다.
일반적인 계층형 스토리지의 경우 콜드티어에 있는 데이터가 핫티어로 이동하려면, 사람이 개입할 수 밖에 없다. 하지만 분석가 입장에서는 이것이 콜드티어에 있는지 핫티어에 있는지 신경을 쓰지 않아야 보다 생산적인 결과를 낼 수 있다. 따라서 AI스토리지는 엑세스하겠다는 요청이 들어오는 순간, 스토리지에 있는 콜드 데이터가 핫티어로 빠르게 자동으로 리스토어가 되고 정책에 의해 자동으로 다시 콜드티어로 내려가는 오토 티어링 구조를 갖춘 자동저장소여야 AI에 특화된 최적의 저장소라고 할 수 있을 것이다.
로드맵 수립부터 원스톱 지원까지 - AI인프라 전문벤더의 자격
AI 비즈니스를 준비하는 기업 중 LLM 모델 및 AI 모델을 한 가지 관점에서만 고민하는 경우가 많다. 그런데, 이러한 모델은 끊임 없이 진화하고 있어 지속적으로 운영하기가 쉽지 않다. 탄탄한 인프라를 위한 컴퓨팅 파워, 네트워크 속도, 스토리지구성 등을 초기부터 종합적으로 살펴보고 기업 환경에 맞는 전략을 수립해야 향후에 기회비용을 최소화할 수 있다. 이에 대해 조직 내에서 자체적으로 판단하기 어렵다면, 전문 벤더의 컨설팅을 통해 환경에 걸맞은 로드맵을 수립한 후 최적의 인프라를 체계적으로 도입하는 것이 무엇보다 중요하다.
효성인포메이션시스템은 컴퓨팅부터 네트워크, 스토리지까지 AI인프라 구현에 필요한 모든 기술과 컨설팅을 종합적으로 제공하고 있다. 다년간 다양한 산업 분야에서 쌓은 노하우와 전문화된 인력, 레퍼런스를 바탕으로 AI 전문 기업뿐만 아니라 대기업, 중견/중소기업, 금융 등 기업의 규모나 업종에 관계 없이 안정적으로 AI를 구현하는 최적의 환경을 제안하고 지원할 것이다. ciokr@idg.co.kr