隨著 NVIDIA 推出 Aether 項(xiàng)目,通過(guò)采用 NVIDIA 加速的 Apache Spark 企業(yè)得以自動(dòng)加速其數(shù)據(jù)中心規(guī)模的分析工作負(fù)載,從而節(jié)省數(shù)百萬(wàn)美元。
全球數(shù)萬(wàn)家企業(yè)依靠 Apache Spark 來(lái)處理海量數(shù)據(jù),以支持關(guān)鍵業(yè)務(wù)的運(yùn)營(yíng),同時(shí)預(yù)測(cè)趨勢(shì)、客戶行為、業(yè)務(wù)表現(xiàn)等。企業(yè)處理和理解數(shù)據(jù)的速度越快,盈利和節(jié)省的成本就越多。
這就是為什么擁有海量數(shù)據(jù)集的公司紛紛采用適用于 Apache Spark 的 RAPIDS 加速器,其中包括全球各地的大型零售商和銀行。這個(gè)開(kāi)源軟件運(yùn)行在 NVIDIA 加速計(jì)算平臺(tái)上,它能夠顯著加速端到端數(shù)據(jù)科學(xué)和分析流程的處理,而無(wú)需更改任何代碼。
為了讓企業(yè)能更輕松地從 NVIDIA 加速的 Spark 中獲取價(jià)值,NVIDIA 于近日發(fā)布了 Aether 項(xiàng)目。該項(xiàng)目包含了一系列工具和流程,可自動(dòng)地評(píng)估、測(cè)試、配置和優(yōu)化 Spark 工作負(fù)載,從而實(shí)現(xiàn)大規(guī)模的 GPU 加速。
Aether 項(xiàng)目可在一周內(nèi)完成一年的工作量
對(duì)于在生產(chǎn)環(huán)境中使用 Spark 的客戶來(lái)說(shuō),他們通常需要管理數(shù)以萬(wàn)計(jì)甚至更多的復(fù)雜作業(yè)。從純 CPU 計(jì)算遷移到 GPU 驅(qū)動(dòng)的計(jì)算具有諸多顯著優(yōu)勢(shì),但這一過(guò)程可能需要手動(dòng)操作,耗時(shí)且費(fèi)力。
此前,企業(yè)需要手動(dòng)完成大量步驟,而 Aether 項(xiàng)目實(shí)現(xiàn)了這些步驟的自動(dòng)化處理,包括分析所有 Spark 作業(yè)以找出最適合 GPU 加速的作業(yè),以及每個(gè)作業(yè)的準(zhǔn)備和試運(yùn)行。它利用 AI 對(duì)每個(gè)作業(yè)的配置進(jìn)行調(diào)優(yōu),以實(shí)現(xiàn)最優(yōu)性能。
為了理解 Aether 項(xiàng)目的影響力,這里假設(shè)有一家企業(yè)需要完成 100 個(gè) Spark 作業(yè)。借助 Aether 項(xiàng)目,每個(gè)作業(yè)最快僅需 4 天就能完成配置并針對(duì) NVIDIA GPU 加速進(jìn)行優(yōu)化。而如果由一名數(shù)據(jù)工程師手動(dòng)完成相同的工作量,可能需要長(zhǎng)達(dá)一年的時(shí)間。

澳大利亞聯(lián)邦銀行借助 NVIDIA 加速的 Apache Spark 來(lái)推動(dòng) AI 轉(zhuǎn)型
與僅使用 CPU 相比,在 NVIDIA 加速計(jì)算平臺(tái)上運(yùn)行 Apache Spark 能夠幫助全球各地的企業(yè)更快地完成作業(yè),且所需硬件更少,從而節(jié)省時(shí)間、空間、電力和散熱成本,同時(shí)降低本地基礎(chǔ)設(shè)施的資本成本以及使用云計(jì)算的運(yùn)營(yíng)成本。
作為澳大利亞最大的金融機(jī)構(gòu),澳大利亞聯(lián)邦銀行處理該國(guó) 60% 的金融交易。在運(yùn)行 Spark 工作負(fù)載時(shí),該銀行面臨著延遲和成本方面的挑戰(zhàn)。據(jù)估算,如果僅使用 CPU計(jì)算集群,這家銀行除了要處理繁重的日常數(shù)據(jù)需求外,還需要近 9 年時(shí)間才能處理完積壓的訓(xùn)練任務(wù)。
澳大利亞聯(lián)邦銀行首席數(shù)據(jù)和分析官 Andrew McMullan 表示:“我們每天要處理 4000 萬(wàn)次推理交易,因此能夠及時(shí)、可靠地處理這些交易至關(guān)重要。”
通過(guò)在 GPU 驅(qū)動(dòng)的基礎(chǔ)設(shè)施上運(yùn)行適用于 Apache Spark 的 RAPIDS 加速器,澳大利亞聯(lián)邦銀行把系統(tǒng)性能提升了 640 倍,僅用 5 天時(shí)間就完成了 63 億筆交易的訓(xùn)練。此外,在處理每天 4000 萬(wàn)筆交易時(shí),澳大利亞聯(lián)邦銀行目前能在 46 分鐘內(nèi)完成推理,成本比基于 CPU 的解決方案降低了 80% 以上。
McMullan 表示,NVIDIA 加速的 Apache Spark 還有另外一個(gè)重大優(yōu)勢(shì)。它在計(jì)算時(shí)間上極為高效,使其團(tuán)隊(duì)能夠經(jīng)濟(jì)地構(gòu)建模型,從而幫助澳大利亞聯(lián)邦銀行提供更好的客戶服務(wù)、預(yù)測(cè)客戶可能何時(shí)需要住房貸款方面的幫助,以及更快地檢測(cè)欺詐交易。
澳大利亞聯(lián)邦銀行還計(jì)劃使用 NVIDIA 加速的 Apache Spark 更好地確定客戶通常在何處結(jié)束其數(shù)字旅程,從而能夠在必要時(shí)采取補(bǔ)救措施,以降低放棄申請(qǐng)的比例。
全球生態(tài)系統(tǒng)
適用于 Apache Spark 的 RAPIDS 加速器通過(guò)全球合作伙伴網(wǎng)絡(luò)提供。目前已經(jīng)在亞馬遜云科技、Cloudera、Databricks、Dataiku、Google Cloud、Microsoft Azure 和 Oracle Cloud Infrastructure 平臺(tái)上線。
Dell Technologies 同日也宣布,將適用于 Apache Spark 的 RAPIDS 加速器集成到 Dell Data Lakehouse 中。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5687瀏覽量
110115 -
數(shù)據(jù)中心
+關(guān)注
關(guān)注
18文章
5767瀏覽量
75204
原文標(biāo)題:GTC25 | NVIDIA 加速的 Apache Spark 助力企業(yè)節(jié)省大量成本
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
首屆中國(guó)NVIDIA DGX Spark黑客松大賽開(kāi)啟報(bào)名
NVIDIA DGX Spark助力高等教育領(lǐng)域重大項(xiàng)目
NVIDIA DGX Spark桌面級(jí)AI超級(jí)計(jì)算機(jī)助力開(kāi)發(fā)者構(gòu)建AI模型
如何在DGX Spark上運(yùn)行NVIDIA Omniverse
NVIDIA DGX Spark系統(tǒng)恢復(fù)過(guò)程與步驟
NVIDIA在ISC 2025分享最新超級(jí)計(jì)算進(jìn)展
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
在NVIDIA DGX Spark平臺(tái)上對(duì)NVIDIA ConnectX-7 200G網(wǎng)卡配置教程
NVIDIA DGX Spark快速入門指南
NVIDIA宣布開(kāi)源Aerial軟件
NVIDIA DGX Spark新一代AI超級(jí)計(jì)算機(jī)正式交付
MediaTek攜手NVIDIA開(kāi)啟個(gè)人AI算力新紀(jì)元
NVIDIA DGX Spark桌面AI計(jì)算機(jī)開(kāi)啟預(yù)訂
使用NVIDIA GPU加速Apache Spark中Parquet數(shù)據(jù)掃描
NVIDIA加速的Apache Spark助力企業(yè)節(jié)省大量成本
評(píng)論