哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大規(guī)模推理時代深度學習加速的天花板在哪?

智能計算芯世界 ? 來源:智能計算芯世界 ? 作者:智能計算芯世界 ? 2022-12-15 10:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從數據分析、經典機器學習到搜索、推薦,再到語言處理和圖像識別,每個 AI 任務運行的背后都需要海量的數學計算??梢哉f,AI 真的就是數學,但卻是很多很多的數學。 尤其是在 AI 進入大模型時代的當下,模型的大規(guī)模訓練和推理更是對計算資源有著巨大的需求。但同時,算力的掣肘正在阻礙著 AI 走向大規(guī)模落地。 當前 AI 面臨的“數學題”都是何種難度?“算珠”又該如何撥弄得更快才能追得上不斷增長的計算需求呢? 讓我們從 CPU 的 AI 算力談起。

1

大規(guī)模推理時代

深度學習加速的天花板在哪?

人工智能迎來第三次浪潮后,以深度學習為代表的AI已經進入應用階段。而深度學習 AI 需要進行大量矩陣乘法以訓練神經網絡模型,并利用推理將這些模型應用于實際任務。

也就是說,深度學習分為訓練和推理兩個階段,而推理則是推動AI大規(guī)模走向落地的關鍵。

訓練深度學習模型可能需要數小時或數天的算力。而深度學習推理可能需要幾分之一秒到幾分鐘,具體取決于模型的復雜程度和對結果的準確度的要求。在推理過程中,計算機將輸入數據與模型進行比較,然后推斷數據的含義。

讓人工智能落地更多是推理層面的工作,無論是推薦引擎、圖像識別、媒體分析、語言翻譯 、自然語言處理、強化學習等負載中推理性能的大幅提升對落地應用的貢獻都十分重要。

在此背景下,硬件架構將成為AI落地的重中之重。

而做大規(guī)模推理,CPU平臺具有較大優(yōu)勢——用戶學習門檻低、部署速度快等,在類似推薦系統(tǒng)的應用中,CPU也擔當著算力支撐,那么如何提升CPU的AI算力?

CPU的算力取決于 CPU 特定加速指令集或運算單元的持續(xù)引入及改進,那么通過強化算力單元和增加算力單元數量并舉,即Scale-Up與Scale-Out相結合,提升CPU的AI算力。

回望英特爾歷代至強 可擴展處理器的深度學習加速技術(即DL Boost),已經將這一提升路徑充分實踐并拉高優(yōu)化天花板:從第一代至強可擴展處理器引入的AVX-512——中低端型號每核心配備1個FMA單元、高端型號每核心配備2個FMA單元,到代號Ice Lake-SP的雙路第三代至強可擴展處理器將此類配置擴展到全系列產品,并將最高核心數從28增加至40個,CPU的向量處理能力得以大幅提升。

6ac25558-7c19-11ed-8abf-dac502259ad0.png

指令優(yōu)化方面,第二代英特爾至強 可擴展處理器引入了簡稱VNNI(Vector Neural Network Instruction,矢量神經網絡指令)的擴展,提高了數據格式INT8推理的效率;代號Cooper Lake的第三代英特爾至強可擴展處理器又引入了數據格式bfloat16(BF16)加速功能,可以用于推理和訓練。 目前,前三代英特爾至強 可擴展處理器的加速路徑,主要依靠現有的計算單元,即AVX-512,配合指令集、算法和數據上的優(yōu)化,輸出AI算力。 但加速的天花板就到此為止了嗎?

還有別的思路——內置硬件加速器,且與本就高性能的CPU內核無縫配合,疊加buff推高天花板。

2

硬件直接“貼貼”加速

第四代至強內置多種專用加速器

在今年11月,英特爾宣布將在2023年1月11日發(fā)布代號為Sapphire Rapids的全新第四代英特爾至強 可擴展處理器。

Sapphire Rapids將為廣泛的標量和并行工作負載提供跨越式的性能提升,更重要的是,它的基本架構旨在實現彈性計算模型(如容器化微服務)的突破性性能,以及在所有形式的以數據為中心的計算中快速擴展 AI 的使用。

第四代英特爾至強可擴展處理器的核心數量有顯著增長,并支持DDR5、PCIe 5.0和CXL 1.1等下一代內存和接口標準,在內置硬件加速上,Sapphire Rapids也集成了5項加速器:

用于AI的高級矩陣擴展(Advanced Matrix Extensions),簡稱AMX;

用于數據分析的存內分析加速器(In-Memory Analytics Accelerator),簡稱IAA;

用于5G/網絡的數據流加速器(Data Streaming Accelerator),簡稱DSA;

用于存儲的動態(tài)負載均衡器(Dynamic Load Balancer),簡稱DLB;

用于數據壓縮和加解密的QuickAssist技術,英特爾數據保護與壓縮加速技術,簡稱QAT。

首先,內置加速器可以消除在將數據從 CPU 移至協處理器加速器時產生的大部分開銷。

同時,Sapphire Rapids還引入了加速器接口架構 (AIA),解決了無縫集成加速引擎和高性能核心時面臨的關鍵挑戰(zhàn)——能夠處理 CPU 內核與內置加速器之間的數據高效調度、同步和信令傳遞,而不是高開銷內核模式。

內置的硬件加速器也易獲得更出色的性能,而不必將時間浪費在進行片外傳輸設置上。

AMX與上述其他4個加速器的一大區(qū)別,就是它本身就集成在了CPU核心內,與AVX-512一樣,隨核心數同步增長,線性提升處理能力。

3

開啟全新計算單元

AMX升維加速深度學習工作負載

AMX與AVX-512又有什么區(qū)別?

AMX是全新的計算單元,有自己的存儲和操作電路,并行度高,以便為AI工作負載加速Tensor運算,支持bfloat16和INT8兩種數據類型。

Tensor處理是深度學習算法的核心,AMX功能可以實現每個循環(huán)2000次int8運算和1000次bfloat16運算。

同時,AMX的寄存器(名為Tile)是二維的,寄存器組是三維的,均比AVX-512高一個維度,寄存器組存儲的數據相當于一個小型矩陣,這樣AMX 能夠在每個時鐘周期執(zhí)行更多矩陣乘法以每時鐘周期來看。

理論上,AMX的TMUL(矩陣乘法運算)對AVX-512的2個FMA(融合乘加操作)單元,INT8性能高達8倍;處理浮點數據,AMX使用動態(tài)范圍與FP32相當的BF16,性能可達AVX-512的16倍。

如此,有全新可擴展二維寄存器文件和全新矩陣乘法指令,可增強各種深度學習工作負載中推理及訓練性能,也就代表著計算能力的大幅提升,這些計算能力可以通過行業(yè)標準框架和運行時無縫訪問。

據今年1月數據表明,基于TensorFlow框架,INT8 精度下每秒檢測的圖像的數量增幅以及高達 6 倍多 BF16 精度下進行對象檢測時每秒檢測的圖像的數量增幅明顯增加:

56核的第四代英特爾 至強可擴展處理器全新的AMX,對比40核的第三代英特爾 至強可擴展處理器,在SSD-ResNet34上進行實時推理時,每秒處理的圖像數量增加高達4.5倍。(注:實際性能受使用情況、配置和其他因素的差異影響,且性能測試結果基于配置信息中顯示的日期進行的測試[1])

當然AVX-512本身就以FP32、FP64等高精度浮點數據的運算見長,依然可以專注于如數據分析、科學計算、經典機器學習等高精度計算。

如今第三代人工智能浪潮是以深度學習為代表,并非只有深度學習,AI的范圍正在不斷擴大,計算需求也在多元化,當人工智能的工作負載出現混合精度計算需求,AMX和AVX-512就可搭配使用,發(fā)展各自長處。

對于數據精度不高但要求高準確度的推理場景,如圖像識別、推薦引擎、媒體分析、語言翻譯、自然語言處理(NLP)、強化學習等典型AI應用場景,AMX其實屬于降維打擊,可發(fā)揮空間很大。

根據預告,英特爾第四代至強可擴展處理器是處理AI等更現代化、更新興并行工作負載的基礎設施,在進行整體設計時也考慮到了未來技術發(fā)展趨勢——絕大多數新的可擴展服務將采用容器化微服務等彈性計算模型進行開發(fā)。

新版Windows、Linux Kernel和虛擬化軟件也確實都具備支持AMX指令集的條件,所謂“引領”就是要更先一步到達未來。

1月11號,讓我們期待至強新品的發(fā)布和更多信息吧~可以先點擊閱讀原文,提前了解至強產品組合~

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11320

    瀏覽量

    225834
  • 人工智能
    +關注

    關注

    1819

    文章

    50290

    瀏覽量

    266842
  • 算力
    +關注

    關注

    2

    文章

    1658

    瀏覽量

    16832

原文標題:明年1月,推高CPU人工智能算力天花板

文章出處:【微信號:AI_Architect,微信公眾號:智能計算芯世界】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    打破轉速天花板!其利天下13萬轉無刷吸塵器PCBA方案,吸力提升50%

    深圳其利天下技術開發(fā)有限公司,依托自研高端芯片系列KY32DS024,重磅推出其利天下13萬轉無刷吸塵器PCBA方案,以硬核芯片算力+深度優(yōu)化FOC算法,突破高速電機控制瓶頸,讓吸塵器吸力直接提升50%,徹底打破行業(yè)轉速天花板,為家用、商用高端吸塵器提供可量產的核心動力解
    的頭像 發(fā)表于 04-10 18:00 ?1054次閱讀
    打破轉速<b class='flag-5'>天花板</b>!其利天下13萬轉無刷吸塵器PCBA方案,吸力提升50%

    泰瑞達推出Photon 100全面型自動測試平臺,加速大規(guī)模硅光子和共封裝光學量產

    今天Teradyne(泰瑞達)宣布,推出全面型光電自動測試平臺——Photon 100,該平臺專為加速大規(guī)模硅光子(SiPh)和共封裝光學(CPO)量產打造。
    的頭像 發(fā)表于 04-10 15:20 ?186次閱讀

    當6 TOPS不再是極限:RK3576+Hailo-8,讓高幀率攝像頭真正“實時”

    天花板”。圖:米爾基于RK3576開發(fā)一、RK3576的算力極限在哪里?RK3576內置NPU由2核組成,具備6TOPS算力,在常規(guī)輕量級模型推理中表現不俗。但在
    的頭像 發(fā)表于 04-02 08:02 ?8875次閱讀
    當6 TOPS不再是極限:RK3576+Hailo-8,讓高幀率攝像頭真正“實時”

    商湯開源SenseNova-MARS:突破多模態(tài)搜索推理天花板

    )、GPT-5.2(67.64 分)。 SenseNova-MARS是首個支持動態(tài)視覺推理和圖文搜索深度融合的 Agentic VLM 模型,它能自己規(guī)劃步驟、調用工具,輕松搞定各種復雜任務,讓AI真正具備
    的頭像 發(fā)表于 01-29 23:53 ?244次閱讀
    商湯開源SenseNova-MARS:突破多模態(tài)搜索<b class='flag-5'>推理</b><b class='flag-5'>天花板</b>

    AMD Alveo MA35D加速器:開啟大規(guī)模交互式流媒體新時代

    AMD Alveo MA35D加速器:開啟大規(guī)模交互式流媒體新時代 在當今全球視頻市場被直播主導的背景下,低延遲應用不斷涌現,對基礎設施和視頻處理技術的成本結構及部署策略產生了深遠影響。AMD推出
    的頭像 發(fā)表于 12-15 14:35 ?549次閱讀

    破解“散熱天花板”:金剛石銅復合材料的百億征程(附分析報告)

    在AI算力爆發(fā)、新能源汽車普及、6G通信加速落地的今天,電子設備正以前所未有的速度向高功率、高密度演進。隨之而來的,是“散熱”這一曾經被邊緣化的技術環(huán)節(jié),正悄然成為制約設備性能與可靠性的“天花板
    的頭像 發(fā)表于 11-05 06:34 ?1595次閱讀
    破解“散熱<b class='flag-5'>天花板</b>”:金剛石銅復合材料的百億征程(附分析報告)

    TensorRT-LLM的大規(guī)模專家并行架構設計

    之前文章已介紹引入大規(guī)模 EP 的初衷,本篇將繼續(xù)深入介紹 TensorRT-LLM 的大規(guī)模專家并行架構設計與創(chuàng)新實現。
    的頭像 發(fā)表于 09-23 14:42 ?1336次閱讀
    TensorRT-LLM的<b class='flag-5'>大規(guī)模</b>專家并行架構設計

    大規(guī)模專家并行模型在TensorRT-LLM的設計

    DeepSeek-V3 / R1 等模型采用大規(guī)模細粒度混合專家模型 (MoE) 架構,大幅提升了開源模型的質量。Llama 4 和 Qwen3 等新發(fā)布的開源模型的設計原則也采用了類似的大規(guī)模細粒度 MoE 架構。但大規(guī)模 M
    的頭像 發(fā)表于 09-06 15:21 ?1405次閱讀
    <b class='flag-5'>大規(guī)模</b>專家并行模型在TensorRT-LLM的設計

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規(guī)模數據和復雜模型的需求。FPGA(現場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?3069次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    學習、大規(guī)模數據分析等前沿技術。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語音)和實時交互能力,能夠高效處理代碼生成、復雜問題求解、跨模態(tài)學習等高階任務。憑借其
    發(fā)表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發(fā)展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大模型推理顯存和
    發(fā)表于 07-03 19:43

    突破無風扇工控機技術天花板,聚徽廠家這些方案你知道嗎?

    ,隨著技術的迅猛發(fā)展以及應用場景需求的不斷攀升,無風扇工控機在散熱、性能、防護等方面面臨著諸多挑戰(zhàn),亟待突破技術天花板。接下來,讓我們一同探尋那些能夠突破無風扇工控機技術瓶頸的創(chuàng)新方案。 一、高效散熱方案革新
    的頭像 發(fā)表于 06-03 15:01 ?772次閱讀
    突破無風扇工控機技術<b class='flag-5'>天花板</b>,聚徽廠家這些方案你知道嗎?

    閃迪天花板級PCIe5.0 SSD上市,性能與能效均位于行業(yè)前沿

    PCIe 5.0 SSD的上市,正是能夠滿足未來高性能與主流應用場景的更優(yōu)存儲選擇,同時也是閃迪固態(tài)硬盤組合的天花板級產品。這款產品不僅為消費者帶來卓越的存儲體驗,也進一步推動了當前PCIe Gen 5.0
    的頭像 發(fā)表于 05-29 12:09 ?905次閱讀
    閃迪<b class='flag-5'>天花板</b>級PCIe5.0 SSD上市,性能與能效均位于行業(yè)前沿

    思嵐科技AI工業(yè)機器人開放底盤Phoebus P350全新發(fā)布:深度學習導航+300KG負載

    工業(yè)4.0時代,智能搬運的“底盤力”決定效率天花板。 SLAMTEC全新推出 Phoebus P350工業(yè)級機器人底盤 ,以 “開放AI架構+深度學習導航” 為核心,融合300KG超強
    的頭像 發(fā)表于 05-12 11:33 ?1610次閱讀
    思嵐科技AI工業(yè)機器人開放底盤Phoebus P350全新發(fā)布:<b class='flag-5'>深度</b><b class='flag-5'>學習</b>導航+300KG負載

    大模型時代深度學習框架

    量是約為 25.63M,在ImageNet1K數據集上,使用單張消費類顯卡 RTX-4090只需大約35~40個小時 ,即可完成ResNet50模型的預訓練。在 大模型時代 ,由于大模型參數規(guī)模龐大,無法跟CNN時代的小模型一樣
    的頭像 發(fā)表于 04-25 11:43 ?953次閱讀
    大模型<b class='flag-5'>時代</b>的<b class='flag-5'>深度</b><b class='flag-5'>學習</b>框架
    丰顺县| 同仁县| 九龙坡区| 枣强县| 依兰县| 铁岭市| 赣榆县| 南和县| 外汇| 同仁县| 潼南县| 临朐县| 镇赉县| 海晏县| 垫江县| 江都市| 青田县| 禄劝| 牟定县| 永州市| 肇源县| 陇西县| 南召县| 搜索| 怀集县| 乌兰察布市| 西藏| 湘潭市| 平乡县| 永兴县| 奈曼旗| 津市市| 永清县| 长宁县| 达拉特旗| 独山县| 云霄县| 班玛县| 扬州市| 天全县| 体育|