電子發(fā)燒友網(wǎng)報(bào)道(文/周凱揚(yáng))在現(xiàn)代數(shù)據(jù)中心架構(gòu)中,網(wǎng)絡(luò)和計(jì)算設(shè)備都部署在兩層甚至三層的互聯(lián)矩陣中,與傳統(tǒng)的多層架構(gòu)不同,數(shù)據(jù)中心的交換矩陣促成了服務(wù)器架構(gòu)的扁平化,進(jìn)一步縮短了數(shù)據(jù)中心內(nèi)不同端點(diǎn)之間的距離,提高效率的同時(shí),也降低了延遲。
可以說(shuō)交換矩陣技術(shù)決定了數(shù)據(jù)中心的擴(kuò)展性,相較傳統(tǒng)的網(wǎng)絡(luò)交換矩陣而言,如今的復(fù)雜計(jì)算交換矩陣,也就是我們所說(shuō)的芯片外互聯(lián)技術(shù),更是提高算力的重要解決方案之一。
英偉達(dá)NVLink和NV Switch
與其他公司采用的通用交換矩陣技術(shù)不同,英偉達(dá)憑借其在互聯(lián)交換技術(shù)上的積累,再結(jié)合收購(gòu)Mellanox獲得的技術(shù),為其GPU產(chǎn)品打造并迭代了NVLink和NVSwitch技術(shù)。
以目前的英偉達(dá)GPU服務(wù)器集群為例,集群內(nèi)的GPU通過(guò)NVSwitch交換機(jī),以NVLink來(lái)實(shí)現(xiàn)互相通信。如今NVLink技術(shù)已經(jīng)發(fā)展至第五代,NVSwitch也已經(jīng)發(fā)展至第四代NVLink Switch。
隨著GB200的出現(xiàn),英偉達(dá)已經(jīng)實(shí)現(xiàn)了單Blackwell GPU支持18個(gè)NVLink連接的可拓展性,也使得總帶寬達(dá)到了1.8TB/s,是第四代NVLink技術(shù)的兩倍,更是遠(yuǎn)超PCIe 5.0。
單個(gè)GB200 NVL72服務(wù)器更是可以集成72個(gè)GB200 GPU,依靠NVLink Switch實(shí)現(xiàn)130TB/s的總帶寬,這樣的可拓展性對(duì)于提高現(xiàn)在的大模型訓(xùn)練規(guī)模和速度來(lái)說(shuō)尤為重要,NVL72就可以普遍用于訓(xùn)練萬(wàn)億參數(shù)級(jí)別的大模型。
AMD Infinity Fabric
雖然很多AI加速器初創(chuàng)企業(yè)或英偉達(dá)的競(jìng)爭(zhēng)對(duì)手,都會(huì)鼓吹單個(gè)GPU或加速器的性能本身,但如果不能從擴(kuò)展性上縮短差距,也很難被云服務(wù)廠商和數(shù)據(jù)中心大規(guī)模商用。以英偉達(dá)的老對(duì)手AMD為例,他們的MI300系列在交換矩陣的支持上由128鏈路組成,其中64個(gè)支持PCIe 5.0和自研的Infinity Fabric,另外64個(gè)則僅支持Infinity Fabric。
在單芯片或單個(gè)服務(wù)器上的性能可能會(huì)更加優(yōu)異,但一旦擴(kuò)展至數(shù)百個(gè)服務(wù)器的規(guī)模下,就很難繼續(xù)保持優(yōu)勢(shì)了。AMD也很清楚自己需要縮小這一差距,但僅僅依靠自身在Infinity Fabric交換矩陣上的積累,很難打通整個(gè)生態(tài),所以AMD選擇了合作開(kāi)放一途。
早在去年AMD的Advancing AI大會(huì)上,AMD就宣布向生態(tài)合作伙伴開(kāi)放自己的Infinity Fabric IP(XGMI),呼吁別的交換芯片廠商對(duì)Infinity Fabric加以支持。比如博通就表示,其下一代PCIe交換芯片,除了支持PCIe、CXL之外,也將支持AMD的Infinity Fabric。
然而這里指的并不是今年下半年才送樣的PCIe 6.0交換芯片,Atlas 3系列,而是PCIe 7.0的Atlas 4系列。由此看來(lái),要想真正見(jiàn)到第三方交換矩陣方案支持AMD的Infinity Fabric,還得等到PCIe 7.0正式面世。
寫(xiě)在最后
對(duì)于市面上其他的AI加速器而言,開(kāi)放標(biāo)準(zhǔn)或已有的商用標(biāo)準(zhǔn)是他們的最好選擇,比如PCIe、CXL等等。除此之外,據(jù)了解一些與緩存一致性相關(guān)的專(zhuān)利即將過(guò)期,或許對(duì)于一些初創(chuàng)公司來(lái)說(shuō),未來(lái)會(huì)有開(kāi)源的高端交換互聯(lián)方案供他們選擇。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5751瀏覽量
75192
發(fā)布評(píng)論請(qǐng)先 登錄
華為入選2026年Gartner數(shù)據(jù)中心交換機(jī)市場(chǎng)指南報(bào)告代表性廠商
華為數(shù)據(jù)中心交換機(jī)2025年蟬聯(lián)中國(guó)市場(chǎng)第一
國(guó)產(chǎn)數(shù)據(jù)中心AI芯片企業(yè)一覽
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
數(shù)據(jù)中心UPS并機(jī)方案:公用電池組的優(yōu)缺點(diǎn)深度分析
華為數(shù)據(jù)中心交換機(jī)獲得黃鶴實(shí)驗(yàn)室首批安全公測(cè)最高等級(jí)
產(chǎn)品彩頁(yè)-CX-N系列數(shù)據(jù)中心交換機(jī)
華為榮獲2025年上半年數(shù)據(jù)中心交換機(jī)中國(guó)市場(chǎng)第一
提升AI數(shù)據(jù)服務(wù)器交換機(jī)性能與效率的關(guān)鍵:永銘電容的應(yīng)用
PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?
中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照
中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案
華為連續(xù)9年穩(wěn)居中國(guó)數(shù)據(jù)中心交換機(jī)市場(chǎng)第一
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
單芯片性能不抵拓展性,數(shù)據(jù)中心的交換矩陣
評(píng)論