Offcanvas

AI / CIO / ESG|CSR|CSM / 데이터센터 / 신기술|미래 / 통신|네트워크

절박해지는 'AI 대응 및 전력 절감'··· ‘광 네트워크’ 기술 탄력 받는다

2024.06.27 Michael Cooney  |  Network World
더 빠른 속도, AI 네트워크 개발, 에너지 효율성에 대한 요구가 광 네트워킹 기술의 발전을 촉진하고 있다.

대기업 및 하이퍼스케일러 네트워크가 점점 더 많은 AI 워크로드와 고부하 애플리케이션을 처리함에 따라 광 연결 기술에 대한 수요가 증가하고 있다. 시스코의 광학 시스템 및 광학 그룹 수석 부사장 겸 총괄 매니저 빌 가트너는, 사실 광 네트워크 기술은 각종 분산 네트워크 요소를 연결하는 데 필요한 거리와 용량에 대응하는 유일한 유형의 연결 기술이라고 진단했다. 

그러나 광케이블이 유일한 해법인 것은 아니다. 400G 이더넷, 800G 이더넷 등 더 빠르면서도 지속 가능한, 여타 기술도 개발되고 있다.

광 회로 스위치 분야의 주요 기업으로는 시스코, 캘리언트 네트웍스, 브로드컴, 엔비디아, 텔레슨트 등의 있다. 구글 역시 아폴로(Apollo)라는 자체 광 회로 스위칭 플랫폼을 개발 중이다. 이들 업체는 높은 대역폭과 속도를 지원하는 것도 중요하지만, 에너지 사용량을 개선하는 데에도 집중하고 있다.
 
Image Credit : Getty Images Bank


구글의 아폴로 광 회로 스위칭
아폴로에 관한 최근 블로그 게시글에서 구글은 아폴로 플랫폼이 데이터센터 네트워킹에 광 회로 스위칭(OCS)을 사용한다고 설명했다. 기존 네트워크의 경우 스파인 및 리프 구성이라고도 하는 ‘Clos’ 토폴로지를 사용하여 데이터센터 내의 모든 서버와 랙을 연결한다. 블로그 게시글은 다음과 같다.
 

"스파인 및 리프 아키텍처에서는 컴퓨팅 리소스(CPU, GPU, FPGA, 스토리지 및/또는 ASIC이 장착된 서버 랙)가 리프 또는 랙 상단 스위치에 연결되고, 이 스위치는 다양한 집계 계층을 통해 스파인에 연결된다. 전통적으로 이 네트워크의 스파인은 브로드컴, 시스코, 마벨, 엔비디아 같은 회사에서 제공하는 표준 네트워크 스위치인 전자 패킷 스위치(EPS)를 사용한다. 하지만 이러한 EPS는 상당한 양의 전력을 소비한다."

"아폴로는 데이터센터 네트워킹에 광 회로 스위칭(OCS)을 대규모로 적용한 최초의 사례라고 할 수 있다. 아폴로 OCS 플랫폼에는 자체 개발한 OCS, 서큘레이터, 그리고 OCS와 서큘레이터를 통해 양방향 링크를 지원하는 맞춤형 파장 분할 다중화(WDM) 광 트랜시버 기술이 포함되어 있다. 아폴로는 거의 10년 동안 모든 구글 데이터센터 네트워크의 백본 역할을 해왔으며, 모든 데이터센터 사용 사례를 지원한다.”

"아폴로 OCS 레이어를 통합하면 스파인 블록을 대체, 스파인 레이어에 사용되는 전기 스위치와 광 인터페이스를 제거함으로써 비용과 전력을 크게 절감할 수 있다. 구글은 이러한 광 스위치를 직접 연결 아키텍처에서 사용하여 패치 패널을 통해 리프를 연결한다. 이 방식은 패킷 스위칭이 아니라 광 교차 연결로 작동한다."


델오로 그룹의 사메 부젤베네 부사장은 "OCS 스위치의 경우 높은 대역폭과 낮은 네트워크 지연 시간을 제공한다. 또 자본 지출을 크게 줄일 수 있다. 필요한 전기 스위치의 수를 줄여 비용이 많이 드는 광-전기-광 변환을 제거할 수 있기 때문이다. 이 밖에도 전기 스위치와 달리 OCS 스위치는 서버가 차세대 광 트랜시버를 채택할 때 잦은 업그레이드를 필요로 하지 않는다"라고 말했다.

하지만 OCS는 아직 신흥 기술이다. 현재까지 수년간의 개발 끝에 데이터센터 네트워크에 대규모로 구축한 곳은 구글뿐이다. 또한 클라우드 업체에 따라서는 OCS 스위치를 사용하려면 기존 광 인프라를 변경해야 할 수도 있다.

부젤베네는 "그러나 AI 애플리케이션이 확산하면서 OCS 스위치가 구글 외의 조직에서도 점점 더 많이 구축되고 있다"라고 말해싿.

광 전송 기술 표준화
AI 네트워크가 확장됨에 따라 더 빠른 속도의 이더넷 네트워킹 장비에 대한 요구가 고조되고 있다. 예를 들어, 오픈ZR+를 사용하는 800G 이더넷에 대한 수요가 증가하고 있다. 오픈ZR+는 800ZR 고속 광 전송 기술과 일관된 광 트랜시버를 위한 상호 운용 가능한 표준을 개발하기 위한 업계 이니셔티브다.

이러한 동향은 400G 이더넷 영역에서도 나타난다. 시스코의 아카시아 웹사이트는 “400ZR이 여러 벤더와 메트로 DCI[데이터 센터 상호 연결] 애플리케이션에 배포된 엄청난 양의 400ZR QSFP-DD 및 OSFP 모듈을 통해 코히어런트 플러그형 업계에서 큰 성공을 거뒀다”라고 기술하고 있다. (시스코는 2021년에 광학 제조업체인 아카시아 커뮤니케이션즈(Acacia Communications)를 45억 달러에 인수한 바 있다.)

IDC는 최근 보고서에서 "400ZR과 같은 네트워크 등급 플러그형 옵틱이 2024년에 통신 서비스 업체 네트워크에 방대하게 배포될 것"이라고 전망했다. 

시스코의 가트너 매니저도 AI 데이터센터 간의 거리가 문제가 됨에 따라 DCI를 통해 분산된 데이터센터를 효과적으로 연결하려는 수요가AI 및 광섬유 네트워크의 핵심 동력이 될 것이라고 전망했다.

이러한 링크의 용량은 AI 애플리케이션과 함께 증가할 전망이다. 가트너는 "현재 우리는 한 파장에 400기가를 구현한다. 하지만 업계는 훨씬 더 나은 성능, 더 낮은 비용, 더 낮은 밀도, 더 나은 밀도를 원한다. 초기 5나노미터에 최적화된 제품이 등장하겠지만 앞으로 점점 더 개선될 것이다"라고 말했다.

증가하는 AI 클러스터 규모
부젤베네에 따르면 AI 애플리케이션의 규모가 기하급수적으로 확장되고 있으며, 이러한 애플리케이션이 처리해야 하는 매개변수의 수 또한 2~3년마다 1,000배씩 증가하고 있다. "따라서 가속기 수를 기준으로 한 AI 클러스터의 평균 규모는 2년마다 4배씩 증가하는 추세다. 일반적인 256개에서 1,000개로, 그리고 4K로 빠르게 진화하고 있으며, 현재 일부 클러스터는 32K 및 64K 가속기를 보유하고 있다"라고 그는 전했다. 

OFC(광섬유 통신 컨퍼런스) 2023에서 공급업체들은 람다당 200G를 기반으로 하는 수많은 1.6Tbps 광학 부품과 트랜시버를 소개했다. 1년 뒤 행사인 OFC 2024에서는 이러한 1.6Tbps 제품에 대한 여러 시연이 마련됐다.

부젤베네는 "2025/2026년에야 1.6Tbps의 대량 출하가 가능할 것으로 예상되지만, 업계는 이미 3.2Tbps를 달성하기 위한 노력을 시작한 상태다. 이 이정표에 도달하기 위한 다양한 경로와 옵션을 모색하고 있다"라고 밝혔다.

그는 이어 "AI 클러스터 내 대역폭 수요의 기하급수적인 증가, 더 빠른 속도와 관련된 전력 및 비용 문제 증가 등 여러 요인이 복합적으로 작용해 긴박감이 고조되는 양상"이라고 덧붙였다.

델오로가 최근 발표한 'AI 워크로드를 위한 AI 네트워크' 보고서에서 연구원들은 2025년이면 AI 네트워크의 포트 대부분이 800Gbps, 2027년이면 포트의 대부분이 1600Gbps가 될 것으로 전망했다. 시장에서 사용 가능한 최고 속도가 매우 빠르게 채택된다는 예측인 셈이다.

LPO vs. CPO
광학 및 AI 네트워킹이 미래를 가리키고 있지만 보다 단기적인 양상은 선형 드라이브 플러그형 광학(LPO ; Linear Drive Pluggable Optics)과 공동 패키지형 광학(CPO ; Co-Packaged Optics) 간의 경쟁이다. LPO는 일반적으로 광섬유 모듈 간에 직접 링크를 설정하므로 디지털 신호 프로세서와 같은 기존 구성 요소를 필요로 하지 않는다. CPO는 광학 부품을 스위치 ASIC에 직접 통합하는 것이 특징이다. 

두 기술 모두 전력 소비를 줄이고 향상된 대역폭 밀도를 지원하므로 광 네트워크에서 각자의 영역을 차지하고 있다. 각 기술 모두 장단점이 있는데, 일단 CPO는 CPO 패키지에 포함된 기술의 양으로 인해 배포하기가 더 복잡한 반면, LPO는 더 단순하다는 장점을 가진다.

LPO를 지지하는 측은 올해 이 기술을 강력하게 밀어붙이고 있다. 일례로 3월에는 시스코, 브로드컴, 인텔, 엔비디아, 아리스타, AMD 등 12개 핵심 광학 공급업체가 LPO 기술 개발을 위해 선형 플러그형 광학 다중 소스 계약 그룹을 결성했다.

LPO 그룹은 AI 및 고성능 컴퓨팅과 같은 고속, 대용량 애플리케이션을 겨냥한 스위치, NIC, 이더넷 GPU 등 수많은 광 네트워킹 장비를 개발하고 있다.

LPO MSA 의장인 마크 노웰은 성명에서 "AI 및 기타 고성능 애플리케이션의 네트워크 전력 소비를 줄여야 하는 시급한 필요성이 있다. LPO는 플러그형 인터페이스를 유지하면서 모듈과 시스템 모두의 전력 소비를 크게 줄여 고객이 대량 배포에 필요한 경제성과 유연성을 제공한다"라고 말했다.

LPO와 CPO는 모두 고속으로 전환함에 있어 전력과 비용을 줄이는 것을 목표로 한다. 그러나 대량 도입을 위해서는 멀티벤더 지원, 시장 출시 기간, 서비스 가능성, 제조 가능성, 테스트 가능성이 관건이다. 부젤베네는 "LPO는 플러그형 폼 팩터(DSP만 제거됨)를 유지하므로 이러한 요구 사항을 충족하는 데 있어 CPO보다 앞서 있는 것으로 보인다. 따라서 LPO가 CPO보다 먼저 볼륨 배포를 달성할 것으로 예상한다"라고 말했다. ciokr@idg.co.kr
CIO Korea 뉴스레터 및 IT 트랜드 보고서 무료 구독하기
Sponsored
추천 테크라이브러리

회사명:한국IDG 제호: CIO Korea 주소 : 서울시 중구 세종대로 23, 4층 우)04512
등록번호 : 서울 아01641 등록발행일자 : 2011년 05월 27일

발행인 : 박형미 편집인 : 천신응 청소년보호책임자 : 한정규
사업자 등록번호 : 214-87-22467 Tel : 02-558-6950

Copyright © 2024 International Data Group. All rights reserved.