英偉達NVLink技術深度分析

2024-04-16 07:41
架構師技術聯盟

NVIDIA NVLink已成為高性能計算（HPC）和人工智能領域的關鍵技術。本文深入探討瞭NVLink的復雜性，並介紹NVSwitch芯片、NVLink服務器和NVLink交換機，以揭示其在不斷演進的先進計算領域中的重要性。

關於CPU、服務器和存儲詳細技術，請參考“服務器基礎知識全解(終極版)”，“2023年服務器計算機CPU行業報告”、“2023年機架式服務器行業洞察”、“2023~2025服務器CPU路綫圖”、“2023服務器産業鏈及市場競爭格局”、“存儲係統關鍵技術全解（終極版）”、“更新下載：存儲係統基礎知識全解（終極版）”、“存儲芯片技術基礎知識介紹（2023）”等等。

什麼是NVIDIA NVLink

NVLink是一種解決服務器內GPU之間通信限製的協議。與傳統的PCIe交換機不同，NVLink帶寬有限，可以在服務器內的GPU之間實現高速直接互連。第四代NVLink提供更高的帶寬，每條通道達到112Gbps，比PCIe Gen5通道速率快三倍。

NVLink旨在為GPU直接互連提供簡化、高速、點對點的網絡，相比傳統網絡減少瞭開銷。通過在不同層次提供CUDA加速，NVLink減少瞭與通信相關的網絡開銷。NVLink隨著GPU架構的演進不斷發展，從P100的NVLink1到H100的NVLink4，如圖所示。NVLink 1.0、NVLink 2.0、NVLink 3.0和NVLink 4.0之間的關鍵區彆在於連接方式、帶寬和性能。

NVSwitch芯片

NVSwitch芯片是一種物理芯片，類似於交換機ASIC，可通過高速的NVLink接口連接多個GPU，提高服務器內的通信和帶寬。第三代NVIDIA NVSwitch可支持以900 GB/s的速率互連每對GPU。

NVSwitch3芯片具有64個NVLink4端口，提供總共12.8 Tbps的單嚮帶寬或3.2 TB/s的雙嚮帶寬。NVSwitch3芯片的獨特之處在於其集成瞭SHARP功能，對多個GPU單元的計算結果進行聚閤和更新，減少網絡數據包並提高計算性能。

NVLink服務器

NVLink服務器采用NVLink和NVSwitch技術連接GPU，通常可在英偉達（NVIDIA）的DGX係列服務器或具有類似架構的OEM HGX服務器中找到。這些服務器利用NVLink技術，提供齣色的GPU互聯性、可擴展性和高性能計算能力。2022年，英偉達（NVIDIA）宣布推齣第四代NVIDIA® DGX™係統，這是世界上首個采用新的NVIDIA DGX H100服務器構建的AI平颱。

因此，NVLink服務器在科學計算、人工智能、大數據處理和數據中心等關鍵領域已經變得不可或缺。通過提供強大的計算能力和高效的數據處理，NVLink服務器不僅滿足瞭這些領域的嚴格要求，還推動瞭這些領域的進步和創新。

NVLink交換機

2022年，英偉達（NVIDIA）將NVSwitch芯片獨立齣來，並製作成NVLink交換機，用於連接主機之間的GPU設備。它采用瞭1U尺寸設計，具有32個OSFP端口；每個OSFP端口包含8個112G PAM4通道，每個交換機內置2個NVSwitch3芯片。

NVLink網絡

NVSwitch物理交換機將多個NVLink GPU服務器連接成一個大型Fabric網絡，即NVLink網絡，解決瞭GPU之間的高速通信帶寬和效率問題。每個服務器都有獨立的地址空間，為NVLink網絡中的GPU提供數據傳輸、隔離和安全保護。當係統啓動時，NVLink網絡通過軟件API自動建立連接，並可以在運行過程中更改地址。