国产亚洲精品婷婷人,国产日韩亚洲欧美

電子發(fā)燒友網綜合報道隨著AI技術迅猛發(fā)展，尤其是大型語言模型的興起，對于算力的需求呈現出爆炸性增長。這不僅推動了智算中心的建設，還對網絡互聯(lián)技術提出了新的挑戰(zhàn)。

在AI大模型訓練過程中，由于單個AI芯片的算力提升速度無法跟上模型參數的增長速率，再加上龐大的模型參數和訓練數據，已遠遠超出單個AI芯片甚至單臺服務器的能力范圍。因此，需要將數據樣本和模型結構分散到多個計算設備上，這導致了設備間的頻繁通信需求。為了適應這一變化，智算中心服務器內部的網絡互聯(lián)技術變得至關重要。

芯片間互聯(lián)技術

AI服務器的互聯(lián)技術是保障其高性能計算能力的關鍵，涉及芯片間、服務器內以及服務器間等多個層面的高速數據傳輸。

芯片間互聯(lián)技術方面，英偉達、AMD、英特爾都推出了相關技術，分別是NVLink、Infinity Fabric、CXL（Compute Express Link）等。NVLink是由NVIDIA開發(fā)的GPU之間的高速互連技術，能加快CPU與GPU、GPU與GPU之間的數據傳輸速度，提高系統(tǒng)性能。從2016年到2022年，NVLink歷經多次迭代更新，例如基于Hopper架構的第四代NVLink，單鏈可實現50GB/s的雙向帶寬，單芯片可支持18鏈路，即900GB/s的總雙向帶寬。在NVIDIA的DGX H100服務器中，GPU（H100）之間互聯(lián)主要通過NV Switch芯片來實現，而NV Switch芯片與GPU之間的數據傳輸就依賴于NVLink。

AMD推出的Infinity Fabric，由傳輸數據的Infinity Scalable Data Fabric（SDF）和負責控制的Infinity Scalable Control Fabric（SCF）兩個系統(tǒng)組成，連接了on-die和off-die以及多路CPU間的通信。最新的AMD Instinct MI300X GPU采用5nm制程，支持客戶將8個GPU整合為一個性能主導型節(jié)點，并且具有全互聯(lián)式點對點環(huán)形設計，使用了第4代Infinity Fabric高速總線互聯(lián)，總線帶寬達到896GB/s（與英偉達H100的900GB/s帶寬相當）。

CXL（Compute Express Link）是英特爾提出的一種開放性互聯(lián)協(xié)議，CXL是建立在PCIe物理層之上的協(xié)議，可以實現設備之間的緩存和內存一致性。利用廣泛存在的PCIe接口，CXL允許內存在各種硬件上共享：CPU、NIC和DPU、GPU和其它加速器、SSD和內存設備，從而滿足高性能異構計算的要求。

服務器內互聯(lián)技術有PCIe Switch、Retimer芯片。PCIe Switch，即PCIe開關或PCIe交換機，主要作用是實現PCIe設備互聯(lián)。由于PCIe的鏈路通信是一種端對端的數據傳輸，需要Switch提供擴展或聚合能力，從而允許更多的設備連接到一個PCIe端口，以解決PCIe通道數量不夠的問題。例如在AI服務器中，GPU與CPU連接時可能需要用到PCIe Switch，并且隨著PCIe總線技術的升級，PCIe Switch每代速率提升，能提高數據傳輸的速度。

在AI服務器中，GPU與CPU連接時至少需要一顆Retimer芯片來保證信號質量，很多AI服務器都會配置多顆Retimer芯片。例如Astera Labs在AI加速器中配置了4顆Retimer芯片。

AI服務器間互聯(lián)技術

服務器間互聯(lián)技術有InfiniBand、RoCE、高速以太網。InfiniBand是一種高性能的網絡互聯(lián)技術，具有低延遲、高帶寬的特點，能夠滿足AI服務器之間超低延遲、超高帶寬的通信需求，適用于大規(guī)模AI模型訓練時服務器之間的高效通信和數據同步。例如訓練超大模型往往需要成百上千臺服務器組成集群，服務器之間就需要InfiniBand這樣的網絡進行高效通信。

RoCE（RDMA over Converged Ethernet），基于以太網的RDMA（遠程直接內存訪問）技術，它允許數據在網絡中直接從一臺計算機的內存?zhèn)鬏數搅硪慌_計算機的內存，而無需操作系統(tǒng)內核的介入，從而降低了延遲，提高了帶寬利用率，可用于AI服務器間的互聯(lián)，提升數據傳輸效率。

高速以太網，如400Gbps甚至800Gbps以太網適配器，能為AI服務器間提供高速的網絡連接，保障大規(guī)模集群部署時服務器之間的數據傳輸性能。例如昆侖芯超節(jié)點結合百度智能云自研的基于導軌優(yōu)化的HPN（High Performance Network）架構，可支撐從數百卡到上萬卡的XPU集群構建，其中就涉及到高速以太網技術的應用。

小結

在AI服務器中，互聯(lián)技術的作用已從數據傳輸通道升級為算力釋放引擎。通過高帶寬、低延遲、可擴展的互聯(lián)架構，AI服務器能夠突破單節(jié)點算力瓶頸，實現萬億參數模型的分布式訓練；降低推理延遲，支撐實時AI應用的商業(yè)化落地；優(yōu)化能效比，應對超大規(guī)模數據中心的能耗挑戰(zhàn)。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關注

關注
91

文章
40820

瀏覽量
302428
算力

算力

+關注

關注
2

文章
1643

瀏覽量
16824

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

算力網絡的“神經突觸”：AI互聯(lián)技術如何重構分布式訓練范式

評論