如今的數(shù)據(jù)中心承載著許多用戶和各種應(yīng)用,它們甚至已經(jīng)成為科研、技術(shù)和全球產(chǎn)業(yè)競(jìng)爭(zhēng)優(yōu)勢(shì)的關(guān)鍵因素。隨著科學(xué)計(jì)算復(fù)雜性的增加,數(shù)據(jù)中心的運(yùn)營(yíng)成本也在不斷上升。除了要防止運(yùn)營(yíng)安全隱患的干擾外,保持?jǐn)?shù)據(jù)中心的完整和平滑運(yùn)行也至關(guān)重要。
更重要的是,惡意用戶可能會(huì)利用數(shù)據(jù)中心的訪問(wèn)權(quán)限,運(yùn)行被禁止的應(yīng)用,濫用計(jì)算資源,進(jìn)而導(dǎo)致意外停機(jī)以及更高的運(yùn)營(yíng)成本。對(duì)于今天的 IT 經(jīng)理和支持開(kāi)發(fā)者而言,能夠快速識(shí)別問(wèn)題并提高效率的數(shù)據(jù)中心管理工具比以往任何時(shí)候都更加重要。
NVIDIA 以圖形處理能力和出色 GPU 計(jì)算性能而聞名,廣泛應(yīng)用于各個(gè)研究領(lǐng)域。同時(shí), NVIDIA 也是安全和可擴(kuò)展數(shù)據(jù)中心技術(shù)的領(lǐng)導(dǎo)者,提供了各種靈活的庫(kù)和工具,來(lái)最大程度地優(yōu)化業(yè)界一流的基礎(chǔ)設(shè)施。
要為當(dāng)今研究和商業(yè)領(lǐng)域最關(guān)鍵的組成部分提供全棧式解決方案,其中不僅包括提供一流的服務(wù)器平臺(tái)、GPU 以及部署在整個(gè)數(shù)據(jù)中心的豐富軟件組合,而且還需要關(guān)注到安全和可管理性是建立數(shù)據(jù)中心基礎(chǔ)設(shè)施的關(guān)鍵支柱。
NVIDIA UFM Cyber-AI
為 InfiniBand 數(shù)據(jù)中心帶來(lái)變革
NVIDIA Unified Fabric Manager(UFM)Cyber-AI 平臺(tái)提供增強(qiáng)的實(shí)時(shí)網(wǎng)絡(luò)遙測(cè)功能,并結(jié)合了 AI 智能和先進(jìn)的分析技術(shù),讓 IT 經(jīng)理能夠發(fā)現(xiàn)運(yùn)營(yíng)異常,甚至預(yù)測(cè)網(wǎng)絡(luò)故障。這既提高了安全性和數(shù)據(jù)中心的正常運(yùn)行時(shí)間,又降低了整體運(yùn)營(yíng)費(fèi)用。
UFM Cyber-AI 的獨(dú)特優(yōu)勢(shì)在于它能夠捕獲豐富的遙測(cè)信息并采用 AI 技術(shù)來(lái)識(shí)別事件之間的隱形關(guān)聯(lián),從而檢測(cè)到異常的系統(tǒng)和應(yīng)用行為,而且在引發(fā)組件或系統(tǒng)故障之前就能識(shí)別到性能的下降。UFM Cyber-AI 甚至可以實(shí)時(shí)采取修正措施。該平臺(tái)能夠?qū)W習(xí)數(shù)據(jù)中心的典型運(yùn)行模式,并根據(jù)網(wǎng)絡(luò)遙測(cè)數(shù)據(jù)(包括流量模式、溫度等)檢測(cè)異常使用情況。
UFM Cyber-AI 基本原理
如UFM Cyber-AI 包含三個(gè)不同的層級(jí)。
輸入遙測(cè):以多種方式從網(wǎng)絡(luò)中采集信息并學(xué)習(xí):
網(wǎng)絡(luò)中各種元素的遙測(cè)信息
網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)(租戶或應(yīng)用的連接與資源分配)
網(wǎng)絡(luò)設(shè)備特性和功能
處理模型:包含若干模型,如:用于數(shù)據(jù)準(zhǔn)備的提取、轉(zhuǎn)換和加載(ETL)處理引擎。它還包含用于對(duì)比的聚合、數(shù)據(jù)存儲(chǔ)和分析模型。UFM Cyber-AI 使用用于異常檢測(cè)和預(yù)測(cè)的機(jī)器學(xué)習(xí)(ML)技術(shù)和AI模型來(lái)學(xué)習(xí)數(shù)據(jù)中心網(wǎng)絡(luò)組件(線纜、交換機(jī)、端口、InfiniBand 網(wǎng)卡)的生命周期模式。
輸出 dashboard:一個(gè)顯示中央 dashboard 的可視化層,讓網(wǎng)絡(luò)管理員和云編排人員可以查看警報(bào)和建議,以提高網(wǎng)絡(luò)利用率和效率并解決網(wǎng)絡(luò)健康問(wèn)題。dashboard 分為兩個(gè)主要類別:可疑行為和鏈接分析,每個(gè)類別都包含警報(bào)和預(yù)測(cè)部分。
UFM Cyber-AI
功能豐富、簡(jiǎn)潔直觀的自定義網(wǎng)絡(luò)管理器
UFM Cyber-AI 還支持自定義網(wǎng)絡(luò)警報(bào),或查看隨時(shí)間變化的異常情況,以及不同時(shí)間維度情況。通過(guò)使用基于小時(shí)或星期參數(shù)的聚合網(wǎng)絡(luò)統(tǒng)計(jì)數(shù)據(jù),可基于可能偏離正常操作使用的測(cè)量結(jié)果來(lái)設(shè)置閾值和配置通知。例如可以使用預(yù)定義閾值來(lái)識(shí)別有問(wèn)題的線纜。
內(nèi)置分析功能將當(dāng)前的遙測(cè)信息與基于時(shí)間的匯總信息進(jìn)行比較,以檢測(cè)系統(tǒng)使用或流量模式中任何可疑的增加或減少并立即通知系統(tǒng)管理員。UFM Cyber-AI 還通過(guò)鏈路或端口遙測(cè)信息提供數(shù)據(jù)中心租戶或應(yīng)用警報(bào),并識(shí)別與底層 PKEY 相關(guān)的統(tǒng)計(jì)數(shù)據(jù)及其相關(guān)節(jié)點(diǎn)。
目前只有 UFM Cyber-AI 提供支持預(yù)測(cè)性維護(hù)的鏈路故障預(yù)測(cè)等功能。通過(guò)在早期階段監(jiān)測(cè)性能下降情況,UFM Cyber-AI 可以預(yù)測(cè)潛在的鏈路或端口故障,使管理員能夠進(jìn)行及時(shí)維護(hù)進(jìn)而規(guī)避數(shù)據(jù)中心的故障停機(jī)。
NVIDIA Morpheus 賦能未來(lái)
要為 InfiniBand 帶來(lái)最強(qiáng)大的網(wǎng)絡(luò)管理解決方案,就必須通過(guò)不斷創(chuàng)新來(lái)應(yīng)對(duì)當(dāng)今數(shù)據(jù)中心管理的復(fù)雜性。NVIDIA 計(jì)劃將 NVIDIA Morpheus 與 UFM Cyber-AI(圖 3)進(jìn)行集成,以從其他數(shù)據(jù)中心元件中獲取更多遙測(cè)信息,例如基于服務(wù)器或機(jī)架的組件遙測(cè)或 DPU、GPU 和應(yīng)用計(jì)數(shù)器。
我們甚至可以提供一個(gè)可以直接與 Kafka(一個(gè)用于高性能數(shù)據(jù)流水線、流分析和數(shù)據(jù)整合的開(kāi)源分布式事件流平臺(tái))等其他 API 對(duì)接的附加層。用戶可以使用該集成對(duì)開(kāi)發(fā)者定義的操作系統(tǒng)異常進(jìn)行特定檢測(cè),例如在一個(gè)專門用于生命科學(xué)研究的系統(tǒng)上進(jìn)行加密挖掘檢測(cè)。
Morpheus 是一個(gè)為網(wǎng)絡(luò)安全開(kāi)發(fā)者提供高度優(yōu)化 AI 流水線和預(yù)訓(xùn)練 AI 功能的開(kāi)放 AI 應(yīng)用框架。這些功能能夠即時(shí)檢查整個(gè)數(shù)據(jù)中心架構(gòu)中的所有網(wǎng)絡(luò)流量。Morpheus 通過(guò)提供以下功能將數(shù)據(jù)中心的安全提升到全新的水平:
動(dòng)態(tài)保護(hù)
實(shí)時(shí)遙測(cè)
自適應(yīng)策略
用于檢測(cè)和處理網(wǎng)絡(luò)安全威脅的網(wǎng)絡(luò)防御措施
隨著 Morpheus 與 UFM Cyber-AI 設(shè)備的集成,NVIDIA 可以提供出色、完整的解決方案,為關(guān)鍵數(shù)據(jù)中心提高靈活性和可擴(kuò)展性,并為開(kāi)發(fā)者提供支持。通過(guò)自定義異常檢測(cè)和與其他標(biāo)準(zhǔn)化 API 的對(duì)接,UFM Cyber-AI 可以成為任何多租戶數(shù)據(jù)中心或云原生基礎(chǔ)設(shè)施的一項(xiàng)靈活資產(chǎn)。
編輯:jq
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5690瀏覽量
110118
原文標(biāo)題:使用 NVIDIA UFM Cyber-AI 安全、智能地管理數(shù)據(jù)中心
文章出處:【微信號(hào):murata-eetrend,微信公眾號(hào):murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
曦智科技探討AI數(shù)據(jù)中心三大擴(kuò)展策略
意法半導(dǎo)體為超大規(guī)模AI數(shù)據(jù)中心破解供電難題
TI 攜手 NVIDIA 推出面向下一代 AI 數(shù)據(jù)中心的完整 800 VDC 電源架構(gòu)
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
NVIDIA軟件可選服務(wù)支持數(shù)據(jù)中心集群管理
華為星河AI高算效數(shù)據(jù)中心網(wǎng)絡(luò)亮相ODCC 2025
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫(kù),加速 AI 數(shù)據(jù)中心部署與運(yùn)營(yíng)
華為數(shù)字能源亮相2025開(kāi)放數(shù)據(jù)中心大會(huì)
睿海光電:400G光模塊技術(shù)創(chuàng)新與AI數(shù)據(jù)中心變革
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)
加速AI未來(lái),睿海光電800G OSFP光模塊重構(gòu)數(shù)據(jù)中心互聯(lián)標(biāo)準(zhǔn)
華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
安森美攜手英偉達(dá)推動(dòng)下一代AI數(shù)據(jù)中心發(fā)展
NVIDIA 800V HVDC 架構(gòu)賦能新一代AI數(shù)據(jù)中心 挑戰(zhàn)傳統(tǒng)機(jī)架電源系統(tǒng)極限
NVIDIA UFM Cyber-AI為InfiniBand數(shù)據(jù)中心帶來(lái)變革
評(píng)論