哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌最便宜TPU值不值得買?TPU在執(zhí)行神經(jīng)網(wǎng)絡計算方面的優(yōu)勢

DPVg_AI_era ? 來源:lp ? 2019-03-21 09:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

谷歌本月推出千元級搭載Edge TPU芯片的開發(fā)板,性能令人期待。本文以可視化圖形的方式,對比TPU、GPUCPU,解釋了TPU在執(zhí)行神經(jīng)網(wǎng)絡計算方面的優(yōu)勢。

谷歌最便宜 TPU 值不值得買?

谷歌 Edge TPU 在本月初終于公布價格 —— 不足 1000 元人民幣,遠低于 TPU。

實際上,Edge TPU 基本上就是機器學習樹莓派,它是一個用 TPU 在邊緣進行推理的設備。

Edge TPU(安裝在 Coral 開發(fā)板上)

云 vs 邊緣

Edge TPU顯然是在邊緣(edge)運行的,但邊緣是什么呢?為什么我們不選擇在云上運行所有東西呢?

在云中運行代碼意味著你使用的CPU、GPU和TPU都是通過瀏覽器提供的。在云中運行代碼的主要優(yōu)點是,你可以為特定的代碼分配必要的計算能力(訓練大型模型可能需要大量的計算)。

邊緣與云相反,意味著你是在本地運行代碼(也就是說你能夠?qū)嶋H接觸到運行代碼的設備)。在邊緣運行代碼的主要優(yōu)點是沒有網(wǎng)絡延遲。由于物聯(lián)網(wǎng)設備通常要頻繁地生成數(shù)據(jù),因此運行在邊緣上的代碼非常適合基于物聯(lián)網(wǎng)的解決方案。

對比 CPU、GPU,深度剖析 TPU

TPU(Tensor Processing Unit, 張量處理器)是類似于CPU或GPU的一種處理器。不過,它們之間存在很大的差異。最大的區(qū)別是TPU是ASIC,即專用集成電路。ASIC經(jīng)過優(yōu)化,可以執(zhí)行特定類型的應用程序。對于TPU來說,它的特定任務就是執(zhí)行神經(jīng)網(wǎng)絡中常用的乘積累加運算。CPU和GPU并未針對特定類型的應用程序進行優(yōu)化,因此它們不是ASIC。

下面我們分別看看 CPU、GPU 和 TPU 如何使用各自的架構(gòu)執(zhí)行累積乘加運算:

在 CPU 上進行累積乘加運算

CPU 通過從內(nèi)存中讀取每個輸入和權(quán)重,將它們與其 ALU (上圖中的計算器) 相乘,然后將它們寫回內(nèi)存中,最后將所有相乘的值相加,從而執(zhí)行乘積累加運算。

現(xiàn)代 CPU 通過其每個內(nèi)核上的大量緩存、分支預測和高時鐘頻率得到增強。這些都有助于降低 CPU 的延遲。

GPU 上的乘積累加運算

GPU 的原理類似,但它有成千上萬的 ALU 來執(zhí)行計算。計算可以在所有 ALU 上并行進行。這被稱為 SIMD (單指令流多數(shù)據(jù)流),一個很好的例子就是神經(jīng)網(wǎng)絡中的多重加法運算。

然而,GPU 并不使用上述那些能夠降低延遲的功能。它還需要協(xié)調(diào)它的數(shù)千個 ALU,這進一步減少了延遲。

簡而言之,GPU 通過并行計算來大幅提高吞吐量,代價是延遲增加?;蛘邠Q句話說:

CPU 是一個強大而訓練有素的斯巴達戰(zhàn)士,而 GPU 就像一支龐大的農(nóng)民大軍,但農(nóng)民大軍可以打敗斯巴達戰(zhàn)士,因為他們?nèi)硕唷?/p>

讀取 TPU 上的乘加操作的權(quán)重

TPU 的運作方式非常不同。它的 ALU 是直接相互連接的,不需要使用內(nèi)存。它們可以直接提供傳遞信息,從而大大減少延遲。

從上圖中可以看出,神經(jīng)網(wǎng)絡的所有權(quán)重都被加載到 ALU 中。完成此操作后,神經(jīng)網(wǎng)絡的輸入將加載到這些 ALU 中以執(zhí)行乘積累加操作。這個過程如下圖所示:

TPU 上的乘加操作

如上圖所示,神經(jīng)網(wǎng)絡的所有輸入并不是同時插入 ALU 的,而是從左到右逐步地插入。這樣做是為了防止內(nèi)存訪問,因為 ALU 的輸出將傳播到下一個 ALU。這都是通過脈動陣列 (systolic array) 的方式完成的,如下圖所示。

使用脈動陣列執(zhí)行乘加操作

上圖中的每個灰色單元表示 TPU 中的一個 ALU (其中包含一個權(quán)重)。在 ALU 中,乘加操作是通過將 ALU 從頂部得到的輸入乘以它的權(quán)重,然后將它與從左編得到的值相加。此操作的結(jié)果將傳播到右側(cè),繼續(xù)完成乘加操作。ALU 從頂部得到的輸入被傳播到底部,用于為神經(jīng)網(wǎng)絡層中的下一個神經(jīng)元執(zhí)行乘加操作。

在每一行的末尾,可以找到層中每個神經(jīng)元的乘加運算的結(jié)果,而不需要在運算之間使用內(nèi)存。

使用這種脈動陣列顯著提高了 Edge TPU 的性能。

Edge TPU 推理速度超過其他處理器架構(gòu)

TPU 還有一個重要步驟是量化 (quantization)。由于谷歌的 Edge TPU 使用 8 位權(quán)重進行計算,而通常使用 32 位權(quán)重,所以我們應該將權(quán)重從 32 位轉(zhuǎn)換為 8 位。這個過程叫做量化。

量化基本上是將更精確的 32 位數(shù)字近似到 8 位數(shù)字。這個過程如下圖所示:

量化

四舍五入會降低精度。然而,神經(jīng)網(wǎng)絡具有很好的泛化能力 (例如 dropout),因此在使用量化時不會受到很大的影響,如下圖所示。

非量化模型與量化模型的精度

量化的優(yōu)勢更為顯著。它減少了計算量和內(nèi)存需求,從而提高了計算的能源效率。

Edge TPU 執(zhí)行推理的速度比任何其他處理器架構(gòu)都要快。它不僅速度更快,而且通過使用量化和更少的內(nèi)存操作,從而更加環(huán)保。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6257

    瀏覽量

    111936
  • 機器學習
    +關(guān)注

    關(guān)注

    67

    文章

    8560

    瀏覽量

    137198
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    171

    瀏覽量

    21712

原文標題:一文讀懂:谷歌千元級Edge TPU為何如此之快?

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    直擊英偉達腹地?谷歌TPU v7開放部署,催生OCS產(chǎn)業(yè)鏈紅利

    Processing Unit, TPU)構(gòu)建了一套完整的AI算力基礎設施體系。 ? 11月,谷歌宣布第七代 TPU v7(代號 Ironwood)將在后續(xù)幾周大規(guī)模上市。與此消息同步出來的還有:允許客戶
    的頭像 發(fā)表于 11-27 08:53 ?9662次閱讀
    直擊英偉達腹地?<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b> v7開放部署,催生OCS產(chǎn)業(yè)鏈紅利

    AI芯片大單!Anthropic從博通采購100萬顆TPU v7p芯片

    Anthropic供應基于TPU v7p的機架級 AI 系統(tǒng),繞過TPU芯片的另一開發(fā)參與方谷歌。不過谷歌預計仍可從 Anthropic 同博通的交易中取得 IP授權(quán)收入。 ? 博通
    的頭像 發(fā)表于 01-06 08:38 ?1.1w次閱讀

    神經(jīng)網(wǎng)絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經(jīng)網(wǎng)絡的實現(xiàn)。什么是神經(jīng)網(wǎng)絡?神經(jīng)網(wǎng)絡的核心思想是模仿生物神經(jīng)系統(tǒng)的結(jié)構(gòu),特別是大腦中神經(jīng)
    的頭像 發(fā)表于 12-17 15:05 ?434次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的初步認識

    谷歌云發(fā)布最強自研TPU,性能比前代提升4倍

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日,谷歌官方博客上正式宣布,公司成功推出第七代TPU(張量處理器)“Ironwood”,該芯片預計未來幾周內(nèi)正式上市。 ? “Ironwood”由
    的頭像 發(fā)表于 11-13 07:49 ?8899次閱讀
    <b class='flag-5'>谷歌</b>云發(fā)布最強自研<b class='flag-5'>TPU</b>,性能比前代提升4倍

    NMSIS神經(jīng)網(wǎng)絡庫使用介紹

    () riscv_fully_connected_q7()   NS上跑時和arm的神經(jīng)網(wǎng)絡庫一致,可在github上下載CMSIS的庫,然后加入到自己庫所在的路徑下即可。
    發(fā)表于 10-29 06:08

    Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗

    本帖欲分享Ubuntu20.04系統(tǒng)中訓練神經(jīng)網(wǎng)絡模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數(shù)字識別的神經(jīng)網(wǎng)絡
    發(fā)表于 10-22 07:03

    CICC2033神經(jīng)網(wǎng)絡部署相關(guān)操作

    完成神經(jīng)網(wǎng)絡量化后,需要將神經(jīng)網(wǎng)絡部署到硬件加速器上。首先需要將所有權(quán)重數(shù)據(jù)以及輸入數(shù)據(jù)導入到存儲器內(nèi)。 仿真環(huán)境下,可將其存于一個文件,并在 Verilog 代碼中通過 read
    發(fā)表于 10-20 08:00

    液態(tài)神經(jīng)網(wǎng)絡(LNN):時間連續(xù)性與動態(tài)適應性的神經(jīng)網(wǎng)絡

    1.算法簡介液態(tài)神經(jīng)網(wǎng)絡(LiquidNeuralNetworks,LNN)是一種新型的神經(jīng)網(wǎng)絡架構(gòu),其設計理念借鑒自生物神經(jīng)系統(tǒng),特別是秀麗隱桿線蟲的神經(jīng)結(jié)構(gòu),盡管這種微生物的
    的頭像 發(fā)表于 09-28 10:03 ?1509次閱讀
    液態(tài)<b class='flag-5'>神經(jīng)網(wǎng)絡</b>(LNN):時間連續(xù)性與動態(tài)適應性的<b class='flag-5'>神經(jīng)網(wǎng)絡</b>

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+神經(jīng)形態(tài)計算、類腦芯片

    AI芯片不僅包括深度學細AI加速器,還有另外一個主要列別:類腦芯片。類腦芯片是模擬人腦神經(jīng)網(wǎng)絡架構(gòu)的芯片。它結(jié)合微電子技術(shù)和新型神經(jīng)形態(tài)器件,模仿人腦神經(jīng)系統(tǒng)機選原理進行設計,實現(xiàn)類似人腦的超低
    發(fā)表于 09-17 16:43

    神經(jīng)網(wǎng)絡的并行計算與加速技術(shù)

    隨著人工智能技術(shù)的飛速發(fā)展,神經(jīng)網(wǎng)絡眾多領(lǐng)域展現(xiàn)出了巨大的潛力和廣泛的應用前景。然而,神經(jīng)網(wǎng)絡模型的復雜度和規(guī)模也不斷增加,這使得傳統(tǒng)的串行計算
    的頭像 發(fā)表于 09-17 13:31 ?1268次閱讀
    <b class='flag-5'>神經(jīng)網(wǎng)絡</b>的并行<b class='flag-5'>計算</b>與加速技術(shù)

    神經(jīng)網(wǎng)絡專家系統(tǒng)電機故障診斷中的應用

    的診斷誤差。仿真結(jié)果驗證了該算法的有效性。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡專家系統(tǒng)電機故障診斷中的應用.pdf【免責聲明】本文系網(wǎng)絡轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版
    發(fā)表于 06-16 22:09

    神經(jīng)網(wǎng)絡RAS異步電機轉(zhuǎn)速估計中的仿真研究

    ,在一定程度上擴展了轉(zhuǎn)速估計范圍。 純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:神經(jīng)網(wǎng)絡RAS異步電機轉(zhuǎn)速估計中的仿真研究.pdf【免責聲明】本文系網(wǎng)絡轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)
    發(fā)表于 06-16 21:54

    基于FPGA搭建神經(jīng)網(wǎng)絡的步驟解析

    本文的目的是一個神經(jīng)網(wǎng)絡已經(jīng)通過python或者MATLAB訓練好的神經(jīng)網(wǎng)絡模型,將訓練好的模型的權(quán)重和偏置文件以TXT文件格式導出,然后通過python程序?qū)xt文件轉(zhuǎn)化為coe文件,(coe
    的頭像 發(fā)表于 06-03 15:51 ?1480次閱讀
    基于FPGA搭建<b class='flag-5'>神經(jīng)網(wǎng)絡</b>的步驟解析

    AI神經(jīng)網(wǎng)絡降噪算法語音通話產(chǎn)品中的應用優(yōu)勢與前景分析

    的語音保真度以及更低的延遲,能夠有效應對復雜噪聲場景。本文將探討AI神經(jīng)網(wǎng)絡降噪語音通話產(chǎn)品中的核心優(yōu)勢,并分析其未來發(fā)展趨勢和市場前景
    的頭像 發(fā)表于 05-16 17:07 ?1804次閱讀
    AI<b class='flag-5'>神經(jīng)網(wǎng)絡</b>降噪算法<b class='flag-5'>在</b>語音通話產(chǎn)品中的應用<b class='flag-5'>優(yōu)勢</b>與前景分析

    TPU處理器的特性和工作原理

    張量處理單元(TPU,Tensor Processing Unit)是一種專門為深度學習應用設計的硬件加速器。它的開發(fā)源于對人工智能(AI)和機器學習應用的需求,尤其是深度學習中的神經(jīng)網(wǎng)絡計算。
    的頭像 發(fā)表于 04-22 09:41 ?4854次閱讀
    <b class='flag-5'>TPU</b>處理器的特性和工作原理
    浑源县| 黄梅县| 高安市| 汤阴县| 河北区| 红原县| 余姚市| 思南县| 邳州市| 望城县| 肃宁县| 远安县| 和硕县| 枣阳市| 中西区| 新密市| 抚远县| 万山特区| 成都市| 黎川县| 西和县| 长沙市| 瓦房店市| 延长县| 鄄城县| 双江| 南昌县| 辽阳县| 海南省| 伊宁县| 栾川县| 泸西县| 桦川县| 罗山县| 洛浦县| 永春县| 洪江市| 大名县| 文登市| 尼木县| 武强县|