最新加速器和網(wǎng)絡(luò)平臺(tái)提升高級模擬、AI、量子計(jì)算、數(shù)據(jù)分析等方面的性能。
從量子計(jì)算到新藥研發(fā)和聚變能源領(lǐng)域,隨著加速計(jì)算和 AI 的進(jìn)步,全球涌現(xiàn)了一項(xiàng)又一項(xiàng)重大突破,基于物理模擬的科學(xué)計(jì)算有望推進(jìn)造福人類的各個(gè)領(lǐng)域大幅進(jìn)步。
NVIDIA 在今年 3 月的 GTC 上發(fā)布了 NVIDIA Blackwell 平臺(tái),該平臺(tái)可在萬億參數(shù)級大語言模型(LLM)上實(shí)現(xiàn)生成式 AI,而且其成本和能耗相較于 NVIDIA Hopper 架構(gòu)最低可降至 1/25。
Blackwell 對 AI 工作負(fù)載具有重大的意義,其技術(shù)能力還將有助于推進(jìn)包括傳統(tǒng)的數(shù)值模擬在內(nèi)的各類科學(xué)計(jì)算應(yīng)用的探索工作。
加速計(jì)算和 AI 通過降低能源成本推動(dòng)可持續(xù)計(jì)算。許多科學(xué)計(jì)算應(yīng)用已從中受益。相較于基于傳統(tǒng) CPU 的系統(tǒng)和其他系統(tǒng),天氣模擬的成本和能耗分別降至其 1/200 和 1/300,數(shù)字孿生模擬的成本和能耗則分別降至其 1/65 和 1/58。
利用 Blackwell 實(shí)現(xiàn)科學(xué)計(jì)算模擬性能倍增
科學(xué)計(jì)算和基于物理的模擬通常依賴于所謂的雙精度格式或 FP64(浮點(diǎn))來解決問題。Blackwell GPU 的 FP64 和 FP32 FMA(融合乘加)性能比 Hopper 高出 30% 。
基于物理的模擬對產(chǎn)品設(shè)計(jì)和開發(fā)至關(guān)重要。無論是飛機(jī)、火車,還是橋梁、半導(dǎo)體芯片和藥品,在模擬中對產(chǎn)品進(jìn)行測試和改進(jìn)能夠?yàn)檠芯咳藛T和開發(fā)人員節(jié)省數(shù)十億美元。
現(xiàn)今的專用集成電路(ASIC)幾乎完全是在 CPU 上設(shè)計(jì)的,整個(gè)流程漫長且復(fù)雜,包括進(jìn)行模擬分析以確定電壓和電流。
但這種情況正在發(fā)生改變。比如,Cadence SpectreX 模擬器就是一個(gè)典型的模擬電路設(shè)計(jì)求解器。SpectreX 電路模擬在 Grace Blackwell 超級芯片(由 Blackwell GPU 和 Grace CPU 連接而成)上的運(yùn)行速度預(yù)計(jì)可達(dá)到傳統(tǒng) CPU 的 13 倍。
此外,GPU 加速的計(jì)算流體動(dòng)力學(xué)(CFD)已成為一種重要工具。工程師和設(shè)備設(shè)計(jì)師用它來預(yù)測各種設(shè)計(jì)的行為。Cadence Fidelity 在 NVIDIA 的 Grace Blackwell 系統(tǒng)上運(yùn)行 CFD 模擬的速度預(yù)計(jì)比傳統(tǒng)基于 CPU 系統(tǒng)快 22 倍,前所未有的流動(dòng)細(xì)節(jié)都可被捕捉到。
在另一項(xiàng)應(yīng)用中,Cadence Reality 的數(shù)字孿生軟件被用于創(chuàng)建物理數(shù)據(jù)中心的虛擬復(fù)制品,包括其服務(wù)器、冷卻系統(tǒng)、電源在內(nèi)的所有組件。這種虛擬模型可以讓工程師在現(xiàn)實(shí)世界中進(jìn)行應(yīng)用之前,就能夠提前對各種配置和方案進(jìn)行測試,從而節(jié)省時(shí)間和成本。
Cadence Reality 的優(yōu)異之處在于其基于物理的算法可以模擬熱量、氣流和用電量對數(shù)據(jù)中心的影響。這有助于工程師和數(shù)據(jù)中心運(yùn)營人員更有效地管理容量,預(yù)測潛在的運(yùn)行問題,并做出明智的決策,通過優(yōu)化數(shù)據(jù)中心的布局和運(yùn)行,從而提高效率和容量利用率。借助 Blackwell GPU,這些模擬的運(yùn)行速度預(yù)計(jì)比 CPU 快高達(dá) 30 倍,從而加快了完成時(shí)間并提高了能效。
AI 在科學(xué)計(jì)算中的應(yīng)用
全新 Blackwell 加速器和網(wǎng)絡(luò)平臺(tái)將大幅提升模擬性能。
NVIDIA Grace Blackwell 開啟了高性能計(jì)算(HPC)的新時(shí)代。其架構(gòu)采用第二代 Transformer 引擎,經(jīng)過優(yōu)化,可加速 LLM 推理工作負(fù)載。
與上一代 Hopper 架構(gòu) GPU 相比,Blackwell 架構(gòu)使資源密集型應(yīng)用如 1.8 萬億參數(shù)的 GPT-MoE(生成式預(yù)訓(xùn)練轉(zhuǎn)換器-專家混合)模型實(shí)現(xiàn)了 30 倍的提速,為 HPC 開辟了新的可能性。通過讓 LLM 處理和解讀海量科學(xué)數(shù)據(jù),高性能計(jì)算應(yīng)用可以更快獲得有價(jià)值洞察,從而加速科學(xué)探索。
桑迪亞國家實(shí)驗(yàn)室正在構(gòu)建一個(gè)適用于并行編程的 LLM 智能助手。傳統(tǒng)的 AI 可以高效生成基本的串行計(jì)算代碼,但當(dāng)涉及到 HPC 應(yīng)用的并行計(jì)算代碼時(shí),LLM 就會(huì)顯得力不從心。桑迪亞的研究人員正在通過一個(gè)雄心勃勃的項(xiàng)目解決這個(gè)問題,他們準(zhǔn)備用 Kokkos 自動(dòng)生成并行代碼。Kokkos 是一種由多國實(shí)驗(yàn)室設(shè)計(jì)的編程語言,專門用于在全球最強(qiáng)大超級計(jì)算機(jī)的數(shù)萬個(gè)處理器上運(yùn)行任務(wù)。
桑迪亞國家實(shí)驗(yàn)室正在使用一種被稱為檢索增強(qiáng)生成(RAG)的 AI 技術(shù)將信息檢索能力與語言生成模型相結(jié)合。該項(xiàng)目團(tuán)隊(duì)正在創(chuàng)建一個(gè) Kokkos 數(shù)據(jù)庫,并利用 RAG 將其與 AI 模型集成。
初步結(jié)果十分喜人。桑迪亞國家實(shí)驗(yàn)室采用的不同 RAG 方法已經(jīng)自主生成了用于并行計(jì)算應(yīng)用的 Kokkos 代碼。他們希望通過克服 AI 并行代碼生成中的障礙,為全球領(lǐng)先的超級計(jì)算設(shè)施提供新的 HPC 可能性。
其他示例包括可再生能源研究、氣候科學(xué)和新藥研發(fā)。
推動(dòng)量子計(jì)算的進(jìn)步
量子計(jì)算為聚變能、氣候研究、新藥研發(fā)等領(lǐng)域帶來了大幅加速。因此,研究人員正努力在基于 NVIDIA GPU 的系統(tǒng)和軟件上模擬未來的量子計(jì)算機(jī),以前所未有的速度開發(fā)和測試量子算法。
NVIDIA CUDA-Q 平臺(tái)通過一個(gè)實(shí)現(xiàn) CPU、GPU 和 QPU(量子處理器)協(xié)同工作的統(tǒng)一編程模型,實(shí)現(xiàn)量子計(jì)算機(jī)模擬和混合應(yīng)用開發(fā)。
CUDA-Q 正在加快巴斯夫化學(xué)工作流、石溪大學(xué)高能和核物理學(xué)研究以及 NERSC 量子化學(xué)的模擬速度。
NVIDIA Blackwell 架構(gòu)將助推量子模擬達(dá)到新高度。通過最新的 NVIDIA NVLink 多節(jié)點(diǎn)互連技術(shù),可以更快地打通數(shù)據(jù)以提高量子模擬速度。
加快數(shù)據(jù)分析以推動(dòng)科學(xué)突破
使用 RAPIDS 處理數(shù)據(jù)的方式在科學(xué)計(jì)算領(lǐng)域非常常見。Blackwell 加入了一個(gè)硬件解壓縮引擎,能夠?qū)嚎s數(shù)據(jù)進(jìn)行解壓縮,并加快在 RAPIDS 中的分析速度。
該解壓縮引擎可將性能提升至 800GB/s,使 NVIDIA Grace Blackwell 在查詢基準(zhǔn)測試中的性能較 CPU(在 Sapphire Rapids 上)快 18 倍,較 NVIDIA Hopper Tensor Core GPU 快 6 倍。
憑借 8TB/s 的高內(nèi)存帶寬和 Grace CPU 高速 NVLink 片間(C2C)互連技術(shù),該引擎可大幅提高數(shù)據(jù)傳輸速度,進(jìn)而加快整個(gè)數(shù)據(jù)庫查詢過程。Blackwell 能夠在數(shù)據(jù)分析和數(shù)據(jù)科學(xué)用例中發(fā)揮出卓越性能,從而加快數(shù)據(jù)洞察速度并降低成本。
NVIDIA 網(wǎng)絡(luò)平臺(tái)為科學(xué)計(jì)算提供極致性能
NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)平臺(tái)可為科學(xué)計(jì)算基礎(chǔ)設(shè)施提供最高吞吐量。
該平臺(tái)包含 NVIDIA Quantum Q3400 和 Q3200 交換機(jī), 以及 NVIDIA ConnectX-8 SuperNIC,二者組合在帶寬上可達(dá)上一代產(chǎn)品的兩倍。Q3400 平臺(tái)的帶寬容量提高了 5 倍,并且借助 NVIDIA 的 SHARPv4(可擴(kuò)展分層聚合和歸約協(xié)議)技術(shù)實(shí)現(xiàn)了 14.4 Tflops 的網(wǎng)絡(luò)計(jì)算能力,較上一代產(chǎn)品提高了 9 倍。
性能的飛躍和能效的提高,使科學(xué)計(jì)算的工作負(fù)載完成時(shí)間與能耗顯著減少。
-
集成電路
+關(guān)注
關(guān)注
5464文章
12685瀏覽量
375719 -
加速器
+關(guān)注
關(guān)注
2文章
841瀏覽量
40241 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5687瀏覽量
110117 -
量子計(jì)算
+關(guān)注
關(guān)注
4文章
1177瀏覽量
37091
原文標(biāo)題:ISC24 | NVIDIA Blackwell 平臺(tái)推動(dòng)科學(xué)計(jì)算突破發(fā)展
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
NVIDIA重點(diǎn)展示推動(dòng)AI走向物理世界的關(guān)鍵突破
生命科學(xué)領(lǐng)先企業(yè)采用 NVIDIA BioNeMo 平臺(tái)加速 AI 驅(qū)動(dòng)的藥物研發(fā)
NVIDIA DGX SuperPOD為Rubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市
NVIDIA擴(kuò)大與微軟合作推動(dòng)AI超級工廠建設(shè)
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
NVIDIA技術(shù)推動(dòng)化學(xué)和材料科學(xué)發(fā)展
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA與合作伙伴推動(dòng)物理AI發(fā)展
NVIDIA AI助力科學(xué)研究領(lǐng)域持續(xù)突破
NVIDIA驅(qū)動(dòng)的現(xiàn)代超級計(jì)算機(jī)如何突破速度極限并推動(dòng)科學(xué)發(fā)展
NVIDIA Blackwell平臺(tái)推動(dòng)科學(xué)計(jì)算突破發(fā)展
評論