哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

FPGA與GPU計(jì)算存儲(chǔ)加速對(duì)比

劉杰 ? 來源:zrl12123456 ? 作者:zrl12123456 ? 2022-08-02 08:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

硬件制造商正在將加速方法應(yīng)用于計(jì)算存儲(chǔ),這是專門設(shè)計(jì)用于包含內(nèi)嵌計(jì)算元素的存儲(chǔ)。這種方法已經(jīng)被證明可以為分析和 AI 應(yīng)用提供優(yōu)異的性能。使用或者不使用機(jī)器學(xué)習(xí)輔助的分析以及驗(yàn)證,都可以借助計(jì)算存儲(chǔ)器件進(jìn)行加速。這些器件提供了一個(gè)關(guān)鍵的優(yōu)勢(shì),使得成本高昂的計(jì)算被卸載到存儲(chǔ)器件上,而不必在服務(wù)器 CPU 上完成。與標(biāo)準(zhǔn)的存儲(chǔ)/CPU 方法相比,通過計(jì)算存儲(chǔ)獲得的優(yōu)勢(shì)包括:

1. 借助應(yīng)用專用編程定制可編程硬件,獲得更高性能

2. 將計(jì)算任務(wù)從服務(wù)器卸載到存儲(chǔ)器件,釋放 CPU 資源

3. 數(shù)據(jù)與計(jì)算共址,降低數(shù)據(jù)傳輸需求

這種新穎的方法前景光明。不過,您應(yīng)根據(jù)具體用例評(píng)估這種方法,考量性能、成本、功耗和易用性。性價(jià)比和單位功耗性能在選擇加速硬件評(píng)估時(shí),占據(jù)主要比率。在本文中,我們將研討單位功耗性能。

計(jì)算存儲(chǔ)功耗比較

在這個(gè)場(chǎng)景中,我們將比較以 CSV 數(shù)據(jù)讀取用例為主的三種工具:英偉達(dá) GPUDirect 存儲(chǔ) 和RAPIDS存儲(chǔ),以及基于賽靈思技術(shù)的三星 SmartSSD 存儲(chǔ)。CSV 讀取在計(jì)算密集型流水線中起著重要的作用(參見圖 1)。

在下文中,我們將性能定義成 CSV 的處理速率,或處理“帶寬”。我們先快速回顧一下三種系統(tǒng)的運(yùn)行方式。

英偉達(dá) GPUDirect 存儲(chǔ)

端到端滿足分析和 AI 需求

將 GPU 用作計(jì)算單元,緊貼基于 NVMe 的存儲(chǔ)器件布局 (GPUDirect)

使用 CUDA 進(jìn)行編程 (RAPIDS)

英偉達(dá)用其 CSV 數(shù)據(jù)讀取技術(shù)衡量相對(duì)于標(biāo)準(zhǔn) SSD 的性能提升。結(jié)果如圖 1 所示。使用 1 到 8 個(gè)加速器時(shí),對(duì)應(yīng)的吞吐量是 4 到 23GB/s。

三星 SmartSSD 驅(qū)動(dòng)器

將賽靈思 FPGA 用作計(jì)算單元

與存儲(chǔ)邏輯內(nèi)嵌駐留在同一個(gè)內(nèi)部 PCIe 互聯(lián)上

通過編程在存儲(chǔ)平臺(tái)上開展運(yùn)算

賽靈思數(shù)據(jù)分析解決方案合作伙伴 Bigstream 與三星合作,為 Apache Spark 設(shè)計(jì)加速器,包括用于 CSV 和 Parquet 處理的 IP。SmartSSD 的測(cè)試使用單機(jī)模式的 CSV 解析引擎,以便開展比較。結(jié)果如圖 2 所示,使用 1 到 12 個(gè)加速器時(shí),對(duì)應(yīng)的吞吐量是 4 到 23GB/s,同時(shí)也給出英偉達(dá)的結(jié)果(使用 1 到 8 個(gè)加速器)。請(qǐng)注意,本討論中的所有結(jié)果都按 x 軸上的加速器數(shù)量進(jìn)行參數(shù)化。

這些結(jié)果令人振奮,但在選擇您的解決方案時(shí),請(qǐng)務(wù)必將功耗情況納入考慮。

圖 2:SmartSSD 驅(qū)動(dòng)器的 CSV 解析性能結(jié)果

單位功耗性能比較

圖 3 顯示了將功耗考慮在內(nèi)后的分析結(jié)果。它們代表單位功耗達(dá)到的性能水平,根據(jù)上述討論中引用的相關(guān)材料,給出了以下假設(shè):

Tesla V100 GPU:最大功耗 200 瓦

SmartSSD 驅(qū)動(dòng)器 FPGA:最大功耗 30 瓦

圖 3:CSV 解析的每瓦功耗帶寬比較

在這個(gè)場(chǎng)景下,計(jì)算表明,在全部使用 8 個(gè)加速器的情況下,SmartSSD 的單位功耗性能比 GPUDirect Storage 高 25 倍。

最終思考

計(jì)算存儲(chǔ)的優(yōu)勢(shì)在于能增強(qiáng)數(shù)據(jù)分析和 AI 應(yīng)用的性能。然而,要讓這種方法具備可實(shí)際部署的能力和實(shí)用性,就必須在評(píng)估時(shí)將功耗納入考慮。

針對(duì)用于 CSV 數(shù)據(jù)解析的兩種不同的計(jì)算存儲(chǔ)方法,我們已經(jīng)提出按功耗參數(shù)化的吞吐量性能曲線。結(jié)果顯示,在使用相似數(shù)量的加速器進(jìn)行比較時(shí),SmartSSD 驅(qū)動(dòng)器的單位功耗性能優(yōu)于 GPUDirect存儲(chǔ)方法。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • FPGA
    +關(guān)注

    關(guān)注

    1663

    文章

    22493

    瀏覽量

    638951
  • 驅(qū)動(dòng)器
    +關(guān)注

    關(guān)注

    54

    文章

    9111

    瀏覽量

    156437
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5259

    瀏覽量

    136039
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于openEuler平臺(tái)的CPU、GPUFPGA異構(gòu)加速實(shí)戰(zhàn)

    隨著 AI、視頻處理、加密和高性能計(jì)算需求的增長,單一 CPU 已無法滿足低延遲、高吞吐量的計(jì)算需求。openEuler 作為面向企業(yè)和云端的開源操作系統(tǒng),在 多樣算力支持 方面表現(xiàn)出色,能夠高效調(diào)度 CPU、GPU、
    的頭像 發(fā)表于 04-08 11:02 ?548次閱讀
    基于openEuler平臺(tái)的CPU、<b class='flag-5'>GPU</b>與<b class='flag-5'>FPGA</b>異構(gòu)<b class='flag-5'>加速</b>實(shí)戰(zhàn)

    成功案例:象帝先計(jì)算技術(shù)與Imagination合作——面向現(xiàn)代圖形與計(jì)算工作負(fù)載的專業(yè)GPU

    為專業(yè)計(jì)算設(shè)計(jì)桌面GPU桌面GPU不僅用于游戲,還能加速從專業(yè)可視化、高級(jí)模擬到數(shù)據(jù)密集型計(jì)算在內(nèi)的多種現(xiàn)代工作負(fù)載。專業(yè)用戶需要能在多種應(yīng)
    的頭像 發(fā)表于 03-09 09:17 ?423次閱讀
    成功案例:象帝先<b class='flag-5'>計(jì)算</b>技術(shù)與Imagination合作——面向現(xiàn)代圖形與<b class='flag-5'>計(jì)算</b>工作負(fù)載的專業(yè)<b class='flag-5'>GPU</b>

    FPGA硬件加速卡設(shè)計(jì)原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件加速卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA硬件加速, PCIe半高卡, XCKU115, 光纖采集卡, 信號(hào)計(jì)算板, 硬件加速
    的頭像 發(fā)表于 02-12 09:52 ?523次閱讀
    <b class='flag-5'>FPGA</b>硬件<b class='flag-5'>加速</b>卡設(shè)計(jì)原理圖:1-基于Xilinx XCKU115的半高PCIe x8 硬件<b class='flag-5'>加速</b>卡 PCIe半高 XCKU115-3-FLVF1924-E芯片

    FPGA+GPU異構(gòu)混合部署方案設(shè)計(jì)

    為滿足對(duì) “納秒級(jí)實(shí)時(shí)響應(yīng)” 與 “復(fù)雜數(shù)據(jù)深度運(yùn)算” 的雙重需求,“FPGA+GPU”異構(gòu)混合部署方案通過硬件功能精準(zhǔn)拆分與高速協(xié)同,突破單一硬件的性能瓶頸 ——FPGA聚焦低延遲實(shí)時(shí)交易鏈路,GPU承接高復(fù)雜度數(shù)據(jù)處理任務(wù),
    的頭像 發(fā)表于 01-13 15:20 ?470次閱讀

    RSoft GPU加速技術(shù)重塑光子元件設(shè)計(jì)效率革命

    設(shè)計(jì)效率。為了解決這個(gè)問題,RSoft 光子器件工具的 FullWAVE FDTD 模組中引入 GPU 加速,通過 NVIDIA GPU 的平行運(yùn)算能力,使得模擬速度相比 CPU 計(jì)算
    的頭像 發(fā)表于 01-12 14:09 ?387次閱讀
    RSoft <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>技術(shù)重塑光子元件設(shè)計(jì)效率革命

    沐曦股份GPU加速技術(shù)助力藥物研發(fā)降本增效

    沐曦股份科學(xué)計(jì)算團(tuán)隊(duì)近期取得突破性進(jìn)展,成功將主流分子動(dòng)力學(xué)模擬引擎GROMACS中的FEP計(jì)算全流程部署于GPU執(zhí)行,并實(shí)現(xiàn)2.5倍性能提升,相關(guān)成果獲得GROMACS官方團(tuán)隊(duì)的高度認(rèn)可,該
    的頭像 發(fā)表于 12-02 15:58 ?883次閱讀

    嵌入式和FPGA的區(qū)別

    、光傳輸) 高性能計(jì)算(算法加速) 原型驗(yàn)證(ASIC前期驗(yàn)證) 軍事航天(抗輻射、高可靠需求) 未來發(fā)展趨勢(shì) 隨著技術(shù)的融合,我們看到嵌入式處理器與FPGA結(jié)合的SoC器件(如Xilinx
    發(fā)表于 11-19 06:55

    FPGAGPU加速的視覺SLAM系統(tǒng)中特征檢測(cè)器研究

    (Nvidia Jetson Orin與AMD Versal)上最佳GPU加速方案(FAST、Harris、SuperPoint)與對(duì)應(yīng)FPGA加速方案的性能,得出全新結(jié)論。
    的頭像 發(fā)表于 10-31 09:30 ?868次閱讀
    <b class='flag-5'>FPGA</b>和<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>的視覺SLAM系統(tǒng)中特征檢測(cè)器研究

    PCIe協(xié)議分析儀能測(cè)試哪些設(shè)備?

    ) 測(cè)試場(chǎng)景:驗(yàn)證CPU與PCIe設(shè)備(如GPU、FPGA)之間的數(shù)據(jù)流,優(yōu)化任務(wù)調(diào)度和數(shù)據(jù)流。 應(yīng)用價(jià)值:在異構(gòu)計(jì)算環(huán)境中平衡計(jì)算資源,減少數(shù)據(jù)傳輸瓶頸。 二、
    發(fā)表于 07-25 14:09

    基于FPGA的壓縮算法加速實(shí)現(xiàn)

    本設(shè)計(jì)中,計(jì)劃實(shí)現(xiàn)對(duì)文件的壓縮及解壓,同時(shí)優(yōu)化壓縮中所涉及的信號(hào)處理和計(jì)算密集型功能,實(shí)現(xiàn)對(duì)其的加速處理。本設(shè)計(jì)的最終目標(biāo)是證明在充分并行化的硬件體系結(jié)構(gòu) FPGA 上實(shí)現(xiàn)該算法時(shí),可以大大提高該算
    的頭像 發(fā)表于 07-10 11:09 ?2569次閱讀
    基于<b class='flag-5'>FPGA</b>的壓縮算法<b class='flag-5'>加速</b>實(shí)現(xiàn)

    AMD FPGA異步模式與同步模式的對(duì)比

    本文講述了AMD UltraScale /UltraScale+ FPGA 原生模式下,異步模式與同步模式的對(duì)比及其對(duì)時(shí)鐘設(shè)置的影響。
    的頭像 發(fā)表于 07-07 13:47 ?1764次閱讀

    硅谷GPU云服務(wù)器是什么意思?使用指南詳解

    硅谷GPU云服務(wù)器本質(zhì)上是一種IaaS(基礎(chǔ)設(shè)施即服務(wù))產(chǎn)品,它將物理服務(wù)器上的GPU資源通過虛擬化技術(shù)分割成可彈性調(diào)配的云服務(wù)。與普通CPU云服務(wù)器相比,GPU服務(wù)器最大的特點(diǎn)是搭載了NVIDIATesla、AMDInstin
    的頭像 發(fā)表于 06-16 09:41 ?709次閱讀

    Matlab與MWORKS軟件計(jì)算精度對(duì)比

    MWORKS軟件作為同元開發(fā)的Matlab替代產(chǎn)品,目前正在軍工企業(yè)及部分院校開始試用。結(jié)合去年開發(fā)算例,對(duì)兩個(gè)軟件在計(jì)算精度方面進(jìn)行了對(duì)比,請(qǐng)各位大神指導(dǎo)。 以《軌道交通系統(tǒng)動(dòng)力學(xué)與Matlab
    發(fā)表于 06-07 16:57

    智算加速卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉GPU和TPU!

    隨著AI技術(shù)火得一塌糊涂,大家都在談"大模型"、"AI加速"、"智能計(jì)算",可真到了落地環(huán)節(jié),算力才是硬通貨。你有沒有發(fā)現(xiàn),現(xiàn)在越來越多的AI企業(yè)不光用GPU,也不怎么迷信TPU了?他們嘴里多了一個(gè)新詞兒——智算
    的頭像 發(fā)表于 06-05 13:39 ?1865次閱讀
    智算<b class='flag-5'>加速</b>卡是什么東西?它真能在AI戰(zhàn)場(chǎng)上干掉<b class='flag-5'>GPU</b>和TPU!
    龙州县| 青州市| 莱州市| 武夷山市| 徐汇区| 栾城县| 隆子县| 衡山县| 杭州市| 乌恰县| 常德市| 东光县| 萨嘎县| 德兴市| 汽车| 新郑市| 迁安市| 衡阳县| 廊坊市| 惠来县| 南涧| 邹平县| 治多县| 萝北县| 华容县| 库车县| 嫩江县| 钟山县| 库尔勒市| 青州市| 文昌市| 西乡县| 曲沃县| 祁门县| 西华县| 昭平县| 麻江县| 定边县| 新疆| 北安市| 伊川县|