導(dǎo)語
在OFC 2026期間,曦智科技接受了Semiconductor Engineering的專訪,探討了AI數(shù)據(jù)中心三大擴(kuò)展策略——縱向擴(kuò)展(Scale-up)、橫向擴(kuò)展(Scale-out)和跨數(shù)據(jù)中心擴(kuò)展(Scale-across)。
以下內(nèi)容編譯自Semiconductor Engineering,點(diǎn)擊“閱讀原文”查看完整文章內(nèi)容。
隨著當(dāng)今數(shù)據(jù)中心工作負(fù)載,尤其是 AI 和 HPC 工作負(fù)載,持續(xù)突破單機(jī)架或單個(gè)數(shù)據(jù)中心在物理空間、供電能力和架構(gòu)上的限制,數(shù)據(jù)中心的擴(kuò)展方式正日益受到重視。
縱向擴(kuò)展(Scale-up)通常指單機(jī)架內(nèi)的擴(kuò)展;橫向擴(kuò)展(Scale-out)則是指同一數(shù)據(jù)中心內(nèi)的跨機(jī)架擴(kuò)展;當(dāng)單個(gè)數(shù)據(jù)中心內(nèi)可調(diào)度的資源仍不足時(shí),才進(jìn)一步走向跨數(shù)據(jù)中心擴(kuò)展(Scale-across) 。
縱向擴(kuò)展主要追求更低延遲,橫向擴(kuò)展則更關(guān)注抖動(dòng)等網(wǎng)絡(luò)傳輸波動(dòng)。在跨數(shù)據(jù)中心擴(kuò)展中,其面臨的問題總體上更接近橫向擴(kuò)展,但由于長(zhǎng)距離傳輸場(chǎng)景下對(duì)抖動(dòng)和擁塞的處理方式會(huì)有所不同,因此通常被單獨(dú)作為一類來討論。
縱向擴(kuò)展(Scale-up):
讓GPU集群對(duì)外表現(xiàn)得更像一個(gè)大型處理器
縱向擴(kuò)展的核心思路是將計(jì)算資源(主要是GPU)匯聚在一起,讓它們整體上像一個(gè)大型處理器那樣工作,而不是一堆小型處理器的簡(jiǎn)單堆疊。
關(guān)鍵特征
首要優(yōu)化指標(biāo)是延遲;
采用內(nèi)存語義——所有處理器看到統(tǒng)一的內(nèi)存空間;
資源配置通常是靜態(tài)的,在啟動(dòng)時(shí)完成;
在縱向擴(kuò)展的短距離場(chǎng)景下,銅纜仍是可行選擇;但當(dāng)互連距離進(jìn)一步拉長(zhǎng)時(shí),光互連將成為實(shí)現(xiàn)高速互連和大規(guī)模擴(kuò)展的必要手段。
橫向擴(kuò)展(Scale-out):
從其他機(jī)架調(diào)動(dòng)資源
關(guān)鍵特征
首要優(yōu)化指標(biāo)是報(bào)文傳輸抖動(dòng)(packet jitter);
采用RDMA(遠(yuǎn)程直接內(nèi)存訪問)語義,而非內(nèi)存語義;
資源會(huì)在計(jì)算過程中按需動(dòng)態(tài)分配和釋放;
在更長(zhǎng)距離互連場(chǎng)景下,光互連正變得越來越關(guān)鍵。
在橫向擴(kuò)展場(chǎng)景中,以太網(wǎng)目前占據(jù)主導(dǎo)地位。NVIDIA也推出了面向AI分布式計(jì)算負(fù)載的以太網(wǎng)方案,以適配那些已經(jīng)大規(guī)模部署了以太網(wǎng)基礎(chǔ)設(shè)施的用戶。
縱向擴(kuò)展跨出單機(jī)架:
不同國家下的連接需求差異
作為一家全球化公司,曦智科技在不同國家觀察到了各不相同的數(shù)據(jù)中心架構(gòu)需求。公司高級(jí)產(chǎn)品戰(zhàn)略副總裁Maurice Steinman在采訪中分享了他的見解。
在中國,由于單節(jié)點(diǎn) GPU 性能受限,為獲得同等集群算力,Scale-up域可能需要擴(kuò)展到兩到三個(gè)機(jī)架。這意味著跨機(jī)架通信往往不再保持一跳(one-hop),而可能需要經(jīng)過兩級(jí)交換,但這是實(shí)現(xiàn)目標(biāo)算力的必要折中。
在日本,情況類似,但原因不同:?jiǎn)螜C(jī)架可獲得的功率預(yù)算提升較慢,機(jī)架供電能力受限。為了達(dá)到目標(biāo)集群性能,往往需要部署更多機(jī)架。文章同時(shí)援引Peter Judge在Uptime Intelligence的信息稱,日本正推進(jìn)面向數(shù)據(jù)中心的新能效法規(guī),預(yù)計(jì)將于 2026年4月起實(shí)施。
跨數(shù)據(jù)中心擴(kuò)展(Scale-across):
當(dāng)單個(gè)數(shù)據(jù)中心已無法滿足目標(biāo)規(guī)模需求
當(dāng)單個(gè)數(shù)據(jù)中心在資源、功率或容量上已無法承載目標(biāo)規(guī)模工作負(fù)載時(shí),就需要把不同地理位置的數(shù)據(jù)中心連接起來,以支撐同一個(gè)工作負(fù)載跨數(shù)據(jù)中心運(yùn)行。
跨數(shù)據(jù)中心擴(kuò)展在機(jī)制上與橫向擴(kuò)展較為接近,但由于距離進(jìn)一步拉長(zhǎng),擁塞處理所采用的算法和方法會(huì)發(fā)生變化。可以把它理解為更長(zhǎng)距離下的橫向擴(kuò)展。

不同數(shù)據(jù)中心,不同實(shí)現(xiàn)方式
每個(gè) AI 數(shù)據(jù)中心都會(huì)采用這些擴(kuò)展策略,但具體實(shí)現(xiàn)方式往往并不相同。
需要注意的是,這些描述針對(duì)的是當(dāng)下的網(wǎng)絡(luò)與數(shù)據(jù)中心實(shí)踐,并不意味著這些定義是固定不變的。
受不同國家約束條件影響,縱向擴(kuò)展與橫向擴(kuò)展之間的邊界已經(jīng)開始出現(xiàn)模糊;隨著數(shù)據(jù)中心的持續(xù)演進(jìn),縱向擴(kuò)展、橫向擴(kuò)展與跨數(shù)據(jù)中心擴(kuò)展之間的邊界也可能進(jìn)一步模糊。
-
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5759瀏覽量
75196 -
AI
+關(guān)注
關(guān)注
91文章
41023瀏覽量
302545 -
曦智科技
+關(guān)注
關(guān)注
0文章
41瀏覽量
8084
原文標(biāo)題:你的AI集群該往哪擴(kuò)?Scale-up、Scale-out還是Scale-across?
文章出處:【微信號(hào):曦智科技,微信公眾號(hào):曦智科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
跳線架在數(shù)據(jù)中心的應(yīng)用與優(yōu)化策略
國產(chǎn)數(shù)據(jù)中心AI芯片企業(yè)一覽
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
數(shù)據(jù)中心發(fā)展的三大驅(qū)動(dòng)力
人工智能數(shù)據(jù)中心的光纖布線策略
微軟最新AI技術(shù)數(shù)據(jù)中心即將啟用
是德科技如何提升AI數(shù)據(jù)中心集群的可擴(kuò)展性
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫,加速 AI 數(shù)據(jù)中心部署與運(yùn)營
華為數(shù)字能源亮相2025開放數(shù)據(jù)中心大會(huì)
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)
加速AI未來,睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)
華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?
簡(jiǎn)單認(rèn)識(shí)安森美AI數(shù)據(jù)中心電源解決方案
曦智科技探討AI數(shù)據(jù)中心三大擴(kuò)展策略
評(píng)論