Nvidia 的 SXM(Server PCI Express Module),是個連接高效能計算加速器如 GPU 至系統的高頻寬方案。這項技術支援 Nvidia 多代的高性能 Tensor Core GPU,包括 Pascal、Volta、Ampere 與 Hopper 等架構。
主要特色與優勢
高頻寬與高功率
SXM 插槽以其卓越的頻寬能力聞名,對於機器學習應用和數據中心的高負荷工作至關重要。相較於傳統 PCIe 連接,SXM 提供了更為優異的功率輸出,這對於滿足 Nvidia Tensor Core GPU 的高性能需求非常關鍵。
NVLink 與 NVSwitch 技術
SXM 模組通常整合了 NVLink 交換機,這讓 GPU 之間的通信更加迅速,有效減少了 CPU 和 PCIe 中常見的瓶頸問題。例如,採用 Hopper 架構的 H100 SXM5 GPU,能夠透過 18 個 NVLink 4 通道,達到高達 900GB/s 的頻寬。
高效能冷卻與電源管理
SXM 插槽同時負責電源供應,省去了 PCIe 卡所需的外接電源線。這種設計加上水平安裝方式,使得冷卻效率更高,讓基於 SXM 的 GPU 能在更高性能下運作。舉例來說,Hopper 架構的 H100 僅透過 SXM 插槽就能提供高達 700W 的功率。
系統組裝簡化
SXM 基礎的系統由於沒有利用纜線連結,使得大型系統的組裝與維修更為簡便,同時降低了潛在的故障點。這對於對維護和系統可靠性要求極高的數據中心來說,方便了不少。
Nvidia 生態系統中的 SXM
DGX 與 HGX 平台
Nvidia 的 DGX 和 HGX 平台採用 SXM 插槽,為 AI 和機器學習領域提供高性能計算能力。DGX 系統就配備了支援高頻寬和功率輸出的 SXM 插槽,以滿足 Tensor Core GPU 的需求。這些系統具有良好的擴展性,能夠加速訓練過程,並更有效地部署如 GPT-4 這樣的大型語言模型 (LLM)。
客製化與性能表現
HGX 平台提供了客製化選項,用戶可以根據自己的需求選擇記憶體、儲存和網路配置,同時享受 SXM 形式因素帶來的高性能優勢,讓數據中心能夠針對特定需求進行系統定制。
不同世代的插槽
Nvidia 推出了多個世代的 SXM 插槽,如針對 Volta GPU 的 SXM2、針對 Ampere GPU 的 SXM4,以及針對 Hopper GPU 的 SXM5。這些插槽專為特定型號的加速器設計,提供的性能超越了 PCIe 等效卡。
寫在後面
Nvidia 的 SXM 在高性能計算領域扮演著關鍵角色,其優於傳統 PCIe 連接的高頻寬、高功率供應和冷卻能力,以及透過 NVLink 實現的快速 GPU 通信,使其成為對性能和可靠性要求極高的數據中心和 AI 應用的理想選擇。
留言
張貼留言