此外,NVIDIA 在 KubeCon Europe 大會(huì)上宣布推出適用于 GPU 加速工作負(fù)載的機(jī)密容器解決方案、NVIDIA KAI Scheduler 更新,以及用于實(shí)現(xiàn)大規(guī)模 AI 工作負(fù)載的全新開源項(xiàng)目。
人工智能 (AI) 已迅速成為現(xiàn)代計(jì)算中最重要的工作負(fù)載之一。
對(duì)于絕大多數(shù)企業(yè)來說,AI 工作負(fù)載在 Kubernetes 上運(yùn)行——一個(gè)可實(shí)現(xiàn)容器化應(yīng)用的部署、擴(kuò)縮容與管理自動(dòng)化的開源平臺(tái)。
為了使全球開發(fā)者社區(qū)能夠更高效透明地管理高性能 AI 基礎(chǔ)設(shè)施,NVIDIA 將向云原生計(jì)算基金會(huì) (Cloud Native Computing Foundation, CNCF) 捐贈(zèng)關(guān)鍵軟件——NVIDIA 動(dòng)態(tài)資源分配 (DRA) GPU 驅(qū)動(dòng)程序。CNCF 是一個(gè)供應(yīng)商中立組織,致力于促進(jìn)和維護(hù)云原生生態(tài)系統(tǒng)。
該捐贈(zèng)消息于本周在阿姆斯特丹舉行的 CNCF 年度盛會(huì) KubeCon Europe 上發(fā)布,此舉標(biāo)志著驅(qū)動(dòng)程序從供應(yīng)商管理轉(zhuǎn)向 Kubernetes 項(xiàng)目治理,社區(qū)擁有完整的所有權(quán)。這種開放的環(huán)境鼓勵(lì)更多的專家參與貢獻(xiàn)想法,加速創(chuàng)新,并助力確保技術(shù)與現(xiàn)代云環(huán)境適配。
CNCF 首席技術(shù)官 Chris Aniszczyk 表示:“NVIDIA 與 Kubernetes 和 CNCF 社區(qū)深度合作,將 NVIDIA DRA GPU 驅(qū)動(dòng)程序貢獻(xiàn)至上游,是開源 Kubernetes 和 AI 基礎(chǔ)設(shè)施的一個(gè)重要里程碑。通過將硬件創(chuàng)新與上游 Kubernetes 和 AI 兼容性工作相結(jié)合,NVIDIA 讓高性能 GPU 編排工作更為無縫,且便于開發(fā)者使用?!?/p>
此外,NVIDIA 與 CNCF 的機(jī)密容器 (Confidential Containers) 社區(qū)合作,為 Kata Containers 引入了 GPU 支持,其為一種兼具容器特性的輕量級(jí)虛擬機(jī)。這將硬件加速擴(kuò)展到更強(qiáng)大的隔離環(huán)境,通過工作負(fù)載分離以提高安全性,并使 AI 工作負(fù)載能夠在更強(qiáng)的保護(hù)機(jī)制下運(yùn)行,組織由此可以輕松實(shí)施機(jī)密計(jì)算來保護(hù)數(shù)據(jù)。
簡化 AI 基礎(chǔ)設(shè)施
在過去,管理數(shù)據(jù)中心內(nèi)為 AI 提供動(dòng)力的強(qiáng)大 GPU 需要付出巨大努力。
這一貢獻(xiàn)旨在使高性能計(jì)算更易于使用。開發(fā)者的受益點(diǎn)包括:
提高效率:該驅(qū)動(dòng)程序支持NVIDIA Multi-Process Service和NVIDIA Multi-Instance GPU技術(shù),可實(shí)現(xiàn)更智能的 GPU 資源共享,從而有效利用計(jì)算能力。
大規(guī)模擴(kuò)展:提供原生支持,可將系統(tǒng)連接在一起,兼容NVIDIA 多節(jié)點(diǎn) NVLink互聯(lián)技術(shù)。這對(duì)于在 NVIDIA Grace Blackwell 系統(tǒng)和下一代 AI 基礎(chǔ)設(shè)施上訓(xùn)練大型 AI 模型至關(guān)重要。
靈活性:開發(fā)者可以根據(jù)需要?jiǎng)討B(tài)重新配置硬件,隨時(shí)更改資源分配方式。
精度:該軟件支持微調(diào)請(qǐng)求,允許用戶根據(jù)其應(yīng)用需求指定特定的算力、顯存設(shè)置或互連配置。
全行業(yè)協(xié)作
NVIDIA 正在與行業(yè)領(lǐng)導(dǎo)者合作,包括亞馬遜云科技、博通、Canonical、Google Cloud、微軟、Nutanix、紅帽和SUSE,共同推動(dòng)這些功能的發(fā)展,造福整個(gè)云原生生態(tài)系統(tǒng)。
紅帽首席技術(shù)官兼全球工程高級(jí)副總裁 Chris Wright 表示:“開源將成為每個(gè)成功企業(yè) AI 策略的核心,為推動(dòng)生產(chǎn)級(jí) AI 工作負(fù)載的高性能基礎(chǔ)設(shè)施組件帶來標(biāo)準(zhǔn)化。NVIDIA 捐贈(zèng)的 NVIDIA DRA GPU 驅(qū)動(dòng)程序有助于鞏固開源在 AI 演進(jìn)中的作用,我們期待與 NVIDIA 以及 Kubernetes 生態(tài)系統(tǒng)中更廣泛的社區(qū)展開合作?!?/p>
CERN 平臺(tái)基礎(chǔ)設(shè)施負(fù)責(zé)人 Ricardo Rocha 表示:“開源軟件及其背后維系的社區(qū)是科學(xué)計(jì)算和研究基礎(chǔ)設(shè)施的基石。對(duì)于 CERN 這樣需要高效分析 PB 級(jí)數(shù)據(jù)來實(shí)現(xiàn)科研突破的組織來說,社區(qū)驅(qū)動(dòng)的創(chuàng)新有助于加快科學(xué)發(fā)展步伐。NVIDIA 捐贈(zèng)的 DRA 驅(qū)動(dòng)程序強(qiáng)化了研究人員所依賴的生態(tài)系統(tǒng),使他們能夠同時(shí)處理傳統(tǒng)科學(xué)計(jì)算和新興機(jī)器學(xué)習(xí)工作負(fù)載中的數(shù)據(jù)?!?/p>
擴(kuò)展開源視野
這一項(xiàng)捐贈(zèng)只是 NVIDIA 支持開源社區(qū)的更廣泛舉措的一部分。其他舉措還包括在上周 GTC 大會(huì)上發(fā)布的NVSentinel(GPU 故障修復(fù)系統(tǒng)) 以及AI Cluster Runtime(智能體 AI 框架)。
此外,NVIDIA 還于GTC 大會(huì)宣布了全新開源項(xiàng)目,包括NVIDIA NemoClaw參考軟件棧以及NVIDIA OpenShell運(yùn)行時(shí),用于安全運(yùn)行自主智能體。OpenShell 支持細(xì)粒度可編程策略安全性和隱私管理,并與 Linux、eBPF 和 Kubernetes 原生集成。
NVIDIA 還宣布,其高性能 AI 工作負(fù)載調(diào)度器 KAI Scheduler 已作為 CNCF Sandbox 項(xiàng)目上線,這是朝著促進(jìn)更廣泛的協(xié)作并確保技術(shù)與更廣泛的云原生生態(tài)系統(tǒng)需求同步發(fā)展邁出的關(guān)鍵一步。開發(fā)者和企業(yè)組織可以立即使用 KAI Scheduler 并提出建議。
NVIDIA 致力于積極維護(hù)和貢獻(xiàn) Kubernetes 及 CNCF 項(xiàng)目,助力滿足企業(yè) AI 客戶的嚴(yán)格需求。
此外,在NVIDIA Dynamo1.0 發(fā)布后,NVIDIA 正在借助 Grove擴(kuò)展 Dynamo 生態(tài)系統(tǒng),Grove 是一個(gè)用于在 GPU 集群上編排 AI 工作負(fù)載的開源 Kubernetes 應(yīng)用編程接口。Grove 能夠使開發(fā)者在單一聲明式資源中表達(dá)復(fù)雜的推理系統(tǒng),目前正在與 llm-d 推理堆棧集成,以便在 Kubernetes 社區(qū)中得到更廣泛的采用。
開發(fā)者和企業(yè)組織可以開始使用NVIDIA DRA 驅(qū)動(dòng)程序。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5678瀏覽量
110073 -
gpu
+關(guān)注
關(guān)注
28文章
5253瀏覽量
136017 -
AI
+關(guān)注
關(guān)注
91文章
40820瀏覽量
302427
原文標(biāo)題:NVIDIA 向 Kubernetes 社區(qū)捐贈(zèng)動(dòng)態(tài)資源分配 GPU 驅(qū)動(dòng)程序,推動(dòng)開源 AI 發(fā)展
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
云平臺(tái)資源動(dòng)態(tài)分配:技術(shù)原理與系統(tǒng)架構(gòu)全解析
Kubernetes Ingress Controller對(duì)比解析
如何在 VisionFive v2 上使用外部 GPU?
二進(jìn)制 GPU 驅(qū)動(dòng)程序需要什么才能啟動(dòng)?
KubePi:開源Kubernetes可視化管理面板,讓集群管理如此簡單
NVIDIA Isaac Lab多GPU多節(jié)點(diǎn)訓(xùn)練指南
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
為FreeRTOS增加新的設(shè)備驅(qū)動(dòng)程序
zephyr設(shè)備驅(qū)動(dòng)程序模型
SK海力士向無錫首個(gè)應(yīng)急救援驛站捐贈(zèng)AED設(shè)備
CY4500 EZ-PD協(xié)議分析儀缺少驅(qū)動(dòng)程序怎么解決?
如何在Ubuntu上安裝NVIDIA顯卡驅(qū)動(dòng)?
Kubernetes Helm入門指南
Linux環(huán)境再升級(jí):PLIN驅(qū)動(dòng)程序正式發(fā)布
NVIDIA向Kubernetes社區(qū)捐贈(zèng)動(dòng)態(tài)資源分配GPU驅(qū)動(dòng)程序
評(píng)論