哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

谷歌TPU2和英偉達V100的性能詳細對比

ml8z_IV_Technol ? 來源:未知 ? 作者:胡薇 ? 2018-05-04 14:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文詳細對比了谷歌TPU2和英偉達V100的性能,有兩個對比方向:一是測試在沒有增強過的合成數(shù)據(jù)上的吞吐量(每秒圖像);二是,考察ImageNet上兩者實現(xiàn)的精確性和收斂性。結(jié)果在ResNet-50模型的原始表現(xiàn)上,4塊TPU2芯片和4塊V100GPU速度相同。訓練ResNet-50時谷歌云TPU的實現(xiàn)用時短到令人發(fā)指,且基于ImageNet數(shù)據(jù)集的圖像分類準確度達76.4%的成本只要73美元,說物美價廉可能也不過分。

去年5月,谷歌推出了第二代TPU芯片,這是一個自定義開發(fā)的深度學習加速芯片,不少人認為有望成為英偉達GPU的替代品。

可事實真的如此么?

在這篇文章中,作者詳細對比了谷歌TPU2和英偉達V100的性能。孰優(yōu)孰劣,一較便知~

環(huán)境設(shè)置

話不多說直接上干貨了。下面我們就先比較由四個TPU芯片組成的TPU2組合板與四個英偉達V100 GPU的環(huán)境設(shè)置的差別。

巧的是,因為兩者的總內(nèi)存均為64G,因此我們能夠用同一個模型測試了,還能使用相同的batch size,節(jié)省了不少工夫呢。

在這次實驗中,我們用相同的方式訓練模型,雙方需要運行同步數(shù)據(jù)并行分布式訓練。

最后,我們選中了ImageNet上的ResNet-50模型進行測試。它實際上是圖像分類的一個參考點,雖然參考實現(xiàn)是公開的,但目前還沒有一個支持在云TPU和多個GPU上訓練的單一實現(xiàn)。

先看看V100這一邊,英偉達建議用MXNet或TensorFlow來實現(xiàn),兩者都可以在英偉達GPU云上的Docker映像中使用。

但實際的操作中我們卻發(fā)現(xiàn)了一些問題,這要是兩種實現(xiàn)不能很好融合多個GPU和產(chǎn)生的大型batch size。

好在我們還有一些新發(fā)現(xiàn),從TensorFlow的基準存儲庫中使用ResNet-50實現(xiàn),并在Docker映像中運行它是可行的。這種方法比英偉達的推薦的TensorFlow實現(xiàn)要快得多,只比MXNet實現(xiàn)稍微慢一點(約3%)。這樣一來,也更容易在相同版本中用同一個框架的實現(xiàn)做對比。

再看看谷歌云TPU這一邊,官方建議用帶TensorFlow 1.7.0官方TPU存儲庫的bfloat16實現(xiàn)。TPU和GPU實現(xiàn)都在各自的體系架構(gòu)上使用混合精度計算,但大部分張量是以半精度的方式儲存的。

一翻研究和對比后……我們終于敲定了實驗方案。

對于V100來說,我們決定用AWS上的p3.8xlarge實例(Xeon E5-2686@2.30GHz 16內(nèi)核,244GB內(nèi)存,Ubuntu16.04),用4個單個內(nèi)存為16GB的V100 GPU進行測試。

TPU這邊的測試,我們將小型的n1-standard-4實例作為host(Xeon@2.3GHz兩核,15GB內(nèi)存,Debian 9),我們提供了一個云TPU,由4個單個內(nèi)存為16G的TPU2芯片組成。

方案敲定后,我們又規(guī)劃了兩個對比方向。

一是我們要測試在沒有增強過的合成數(shù)據(jù)上的吞吐量(每秒圖像)。這種比較獨立于收斂性,保證里了在I/O或數(shù)據(jù)增強中沒有瓶頸bottleneck影響結(jié)果。

二是,我們要考察ImageNet上兩者實現(xiàn)的精確性和收斂性。

目標,明確,方法,明確。我們迫不及待開始測試了——

吞吐量測試

我們依據(jù)每秒合成數(shù)據(jù)上的圖像來測量吞吐量,即在訓練數(shù)據(jù)實時創(chuàng)建、batch size也不同的情況下對吞吐量進行檢測。

雖然~官方只推薦的TPU的batch size是1024,但是基于讀者的請求,我們還報告了其他batch size大小的性能。

△在合成數(shù)據(jù)和w/o數(shù)據(jù)增強的不同批次上每秒的圖像性能

在batch size為1024的情況下,雙方的吞吐量旗鼓相當,TPU略領(lǐng)先2%。

當batch size較小時,在雙方吞吐量均降低,但對比起來GPU的性能稍好一些??磥恚@些batch size真的不是TPU的推薦設(shè)置~

根據(jù)英偉達的建議,我們還也在MXNet上做了一個GPU測驗。

利用英偉達GPU云上Docker映像中提供的ResNet-50實現(xiàn)(mxnet:18.03-py3),我們發(fā)現(xiàn)在batch size為768的情況下,GPU每秒能處理約3280個圖像。這比上面最好的TPU結(jié)果還要快3%。

也正如上面所說的那樣,在上述batch size下,MXNet的實現(xiàn)在多個GPU上并沒有很好聚合。所以,我們接下來研究的重點就是這就是為什么我們將重點就是TensorFlow的實現(xiàn)。

性價比

上面我們也提到過,谷歌云TPU2一組有四塊芯片,目前只在谷歌云上才能用到。

當需要進行計算時,我們可以將它與虛擬機相連??紤]到谷歌云上不支持英偉達V100,所以其云服務(wù)只能來自AWS。

基于上述結(jié)果,我們可以把數(shù)據(jù)標準化,從每小時的花費、每秒處理的圖片數(shù)量、每美元能處理的圖片數(shù)三個維度進行對比。

△每美元每秒處理圖像的表現(xiàn)

對比下來,谷歌云TPU性價比略高。不過,谷歌TPU目前不賣,只能租。如果你考慮長期租用,或者購買的話,結(jié)論就不一樣了。

有一點你可能忘了,上面這張表的前提是假定了我們的租期為12個月,所以費用中包含了AWS上p3.8xlarge實例,并且不需要提前支付定金。這樣大大降低了價格,還能達到每美元能處理375張圖片的不錯效果。

其實對于GPU來說,還有更多的選擇。比方說,Cirrascale提供4臺V100GPU服務(wù)器的月租服務(wù),收費大概是7500美元,折算下來是每小時10.3美元。

不過,因為AWS上像CPU、內(nèi)存、NVLink支持等硬件類型也各不同,如果要更直接的對比,就需要更多的參考數(shù)據(jù)。其他費用套餐可參考:

http://www.cirrascale.com/pricing_x86BM.php

精準度和收斂程度

除了原始的表現(xiàn),我們還希望有效驗證的計算能力。比方說,實現(xiàn)收斂的結(jié)果。因為比較的是兩個不同的實現(xiàn),所以可以預期到結(jié)果會有不同。比較的結(jié)果不僅僅是硬件的速度,也包含實現(xiàn)的質(zhì)量。

比方說,TPU實現(xiàn)的過程中應(yīng)用到了計算密集的圖像預處理步驟,并且還犧牲了原始的吞吐量。下面我們也能看到,谷歌的這種選擇有不錯的回報。

我們用ImageNet數(shù)據(jù)集訓練這些模型,想把圖像進行分類。目前,這個數(shù)據(jù)集中的類別已經(jīng)細分到了1000種,包含了130萬張訓練圖片,5萬張驗證圖片。

我們在batch size為1024的情況下進行訓練,進行了90次迭代后在驗證集上對比雙方的結(jié)果。

結(jié)果顯示,TPU可以每秒完成2796張圖,GPU則為2839張。這個結(jié)果和我們上面提到的吞吐量不同,是因為上面我們禁用了數(shù)據(jù)增強,并用合成數(shù)據(jù)來比較的TPU和GPU的原始速度。

△90次訓練之后,Top-1 精確值*(只考慮每張圖最高的預估)

從上圖可以看出來,90次訓練之后,TPU實現(xiàn)的Top-1精準度要好過GPU,有0.7%的優(yōu)勢。

雖然0.7%的優(yōu)勢看起來非常微小,但在如此高水平的情況下還有這樣的改進非常難,基于不同的應(yīng)用個,這點改進將對最后的結(jié)果有很大影響。

接下來,我們看一下不同訓練時期,模型Top-1精準度的表現(xiàn)。

△在驗證集上,兩種方法實現(xiàn)Top-1精準度的表現(xiàn)

可以看出,圖表中有一段精準度陡增,和學習速率高度同步。TPU實現(xiàn)的收斂表現(xiàn)更好,最后到第86次訓練時,準確率可以達到76.4%。

GPU的表現(xiàn)就被甩在了后面,第84次訓練后達到了75.7%的準確率,而TPU早在第64次訓練時就達到了這個水平。

TPU有更好的表現(xiàn),很可能要歸功于前期的預處理和數(shù)據(jù)增強。不過我們需要更多的實驗來驗證這個猜想。

基于成本價格提出的解決方案

我們最終需要考慮的,一是整個流程走下來的時間,二是它需要耗費多少資金。如果我們假設(shè)最后可接受的準確率為75.7%,那么可以根據(jù)每秒訓練速度和既定要求的訓練次數(shù),算出來達到這個標準所需的成本。時間方面需要注意,不包括訓練啟動用時,以及訓練期間的模型驗證用時。

△達到75.1%Top-1準確率所需成本 | *表示租期為12個月

上圖顯示,谷歌TPU從零訓練圖像分類模型的成本是55美元(且訓練時間用了不到9小時)!收斂到76.4%的話成本將達到73美元。

而英偉達V100速度差不多快,但成本會更高,收斂速度也比較慢,不是個性價比高的解決方案~

對了,我們這個結(jié)論是基于實現(xiàn)的質(zhì)量、云的價格來對比得出的。其實還有另外一個維度可以來比較,即算力的損耗。不過因為我們?nèi)狈Χ鶷PU算力損耗的公開信息,這方面的對比先不做了啦。

總結(jié)

按我們上述的衡量標準來看,在ResNet-50模型的原始表現(xiàn)上,4塊TPU2芯片和4塊V100GPU是速度相同。

目前來說,訓練ResNet-50時谷歌云TPU的實現(xiàn)用時短到令人發(fā)指,且基于ImageNet數(shù)據(jù)集的圖像分類準確度達76.4%的成本只要73美元,說物美價廉可能也不過分~

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6259

    瀏覽量

    111978
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5271

    瀏覽量

    136069
  • TPU
    TPU
    +關(guān)注

    關(guān)注

    0

    文章

    173

    瀏覽量

    21716
  • 英偉達
    +關(guān)注

    關(guān)注

    23

    文章

    4115

    瀏覽量

    99619

原文標題:谷歌TPU2代有望取代英偉達GPU?測評結(jié)果顯示…

文章出處:【微信號:IV_Technology,微信公眾號:智車科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    谷歌發(fā)布第八代TPU,訓練推理分離,搭載自研CPU

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)在2026年4月22日舉行的谷歌云Next大會上,谷歌正式發(fā)布了第八代張量處理單元(TPU)。此次發(fā)布的產(chǎn)品包含兩款獨立的芯片:TPU 8t和
    的頭像 發(fā)表于 04-24 09:03 ?5563次閱讀
    <b class='flag-5'>谷歌</b>發(fā)布第八代<b class='flag-5'>TPU</b>,訓練推理分離,搭載自研CPU

    豪言自家芯片比英偉GPU強10倍,這家AI公司再獲融資

    電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)在 AI 算力需求呈指數(shù)級增長的今天,英偉憑借其 GPU 和 CUDA 生態(tài)構(gòu)筑的 “護城河” 似乎堅不可摧。然而,一股由前谷歌 TPU 核心工程師
    的頭像 發(fā)表于 03-01 06:41 ?1.2w次閱讀

    直擊英偉腹地?谷歌TPU v7開放部署,催生OCS產(chǎn)業(yè)鏈紅利

    Processing Unit, TPU)構(gòu)建了一套完整的AI算力基礎(chǔ)設(shè)施體系。 ? 11月,谷歌宣布第七代 TPU v7(代號 Ironwood)將在后續(xù)幾周大規(guī)模上市。與此消息同
    的頭像 發(fā)表于 11-27 08:53 ?9725次閱讀
    直擊<b class='flag-5'>英偉</b><b class='flag-5'>達</b>腹地?<b class='flag-5'>谷歌</b><b class='flag-5'>TPU</b> <b class='flag-5'>v</b>7開放部署,催生OCS產(chǎn)業(yè)鏈紅利

    “命門”被卡!谷歌牽手Marvell:一場終結(jié)英偉霸權(quán)的“世紀密談”?

    電子發(fā)燒友網(wǎng)報道(文/席安帝)??面對越來越多大客戶的“圍攻”,如今的英偉可謂是焦頭爛額。繼上周Meta與博通官宣2nm ASIC芯片重磅合作之后。4月20日,The Information援引
    的頭像 發(fā)表于 04-22 18:25 ?2409次閱讀

    AI芯片大單!Anthropic從博通采購100萬顆TPU v7p芯片

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日消息,AI企業(yè)Anthropic將直接從博通采購近100萬顆TPU v7?pIronwood AI芯片,本地部署在其控制的數(shù)據(jù)中心中。也就是說,博通將直接向
    的頭像 發(fā)表于 01-06 08:38 ?1.1w次閱讀

    全球產(chǎn)量預計超162億顆!RISC-V重構(gòu)國產(chǎn)AI算力新生態(tài)

    在于,Meta開始購買大量谷歌TPU替代GPU,而后者發(fā)起了一場反英偉“GPU+CUDA”的架構(gòu)壟斷。 ? 相對于谷歌
    發(fā)表于 12-10 09:56 ?2063次閱讀
    全球產(chǎn)量預計超162億顆!RISC-<b class='flag-5'>V</b>重構(gòu)國產(chǎn)AI算力新生態(tài)

    英偉 Q3 狂攬 308 億

    廠商季度合計 500 億美元資本支出中,約 30% 流向了英偉。 新一代 Blackwell 芯片已全面投產(chǎn),Q3 交付 1.3 萬個 GPU 樣品,H200 GPU 理論性能較 H100
    的頭像 發(fā)表于 11-20 18:11 ?1371次閱讀

    谷歌云發(fā)布最強自研TPU性能比前代提升4倍

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日,谷歌云在官方博客上正式宣布,公司成功推出第七代TPU(張量處理器)“Ironwood”,該芯片預計在未來幾周內(nèi)正式上市。 ? “Ironwood”由谷歌自主
    的頭像 發(fā)表于 11-13 07:49 ?8972次閱讀
    <b class='flag-5'>谷歌</b>云發(fā)布最強自研<b class='flag-5'>TPU</b>,<b class='flag-5'>性能</b>比前代提升4倍

    納微半導體助力英偉打造800 VDC電源架構(gòu)

    納微半導體正式發(fā)布專為英偉800 VDC AI工廠電源架構(gòu)打造的全新100V氮化鎵,650V氮化鎵和高壓碳化硅功率器件,以實現(xiàn)突破性效率、功率密度與
    的頭像 發(fā)表于 10-15 15:54 ?3157次閱讀
    納微半導體助力<b class='flag-5'>英偉</b><b class='flag-5'>達</b>打造800 VDC電源架構(gòu)

    英偉:CUDA 已經(jīng)開始移植到 RISC-V 架構(gòu)上

    7 月 17 日,在第五屆(2025)RISC-V 中國峰會主論壇上,英偉副總裁 Frans Sijstermanns 分享了題為《在英偉
    發(fā)表于 07-17 16:30 ?4011次閱讀

    擺脫依賴英偉!OpenAI首次轉(zhuǎn)向使用谷歌芯片

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)近日,據(jù)知情人士透露,OpenAI近期已開始租用谷歌的張量處理單元(TPU),為旗下ChatGPT等熱門產(chǎn)品提供算力支持。這一舉措不僅標志著OpenAI首次實質(zhì)性
    的頭像 發(fā)表于 07-02 00:59 ?8586次閱讀

    數(shù)據(jù)中心電力架構(gòu)革命!英偉強推800V HVDC,2年后量產(chǎn)

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)最近英偉在COMPUTEX 2025上宣布,從2027年開始率先將數(shù)據(jù)中心機架電源從54V往800V HVDC過渡,通過高壓架構(gòu)以支持1MW以上的數(shù)據(jù)中
    的頭像 發(fā)表于 05-27 00:13 ?1w次閱讀
    數(shù)據(jù)中心電力架構(gòu)革命!<b class='flag-5'>英偉</b><b class='flag-5'>達</b>強推800<b class='flag-5'>V</b> HVDC,<b class='flag-5'>2</b>年后量產(chǎn)

    SiC MOSFET模塊在英偉800V HVDC電源系統(tǒng)中的技術(shù)優(yōu)勢與應(yīng)用價值

    基本半導體BMF240R12E2G3 SiC MOSFET模塊在英偉800V HVDC電源系統(tǒng)中的技術(shù)優(yōu)勢與應(yīng)用價值 隨著AI數(shù)據(jù)中心對算力需求的爆發(fā)式增長,傳統(tǒng)UPS供電方案因效率
    的頭像 發(fā)表于 05-23 06:50 ?1572次閱讀
    SiC MOSFET模塊在<b class='flag-5'>英偉</b><b class='flag-5'>達</b>800<b class='flag-5'>V</b> HVDC電源系統(tǒng)中的技術(shù)優(yōu)勢與應(yīng)用價值

    GPU 維修干貨 | 英偉 GPU H100 常見故障有哪些?

    上漲,英偉H100GPU憑借其強大的算力,成為AI訓練、高性能計算領(lǐng)域的核心硬件。然而,隨著使用場景的復雜化,H100服務(wù)器故障率也逐漸攀
    的頭像 發(fā)表于 05-05 09:03 ?3390次閱讀
    GPU 維修干貨 | <b class='flag-5'>英偉</b><b class='flag-5'>達</b> GPU H<b class='flag-5'>100</b> 常見故障有哪些?
    杨浦区| 饶河县| 新竹县| 武冈市| 金平| 湖口县| 望江县| 岳阳县| 田阳县| 新邵县| 浙江省| 开鲁县| 宁河县| 金沙县| 兴仁县| 南城县| 拜泉县| 榆林市| 禄丰县| 安岳县| 象山县| 香港| 宾阳县| 崇仁县| 渭源县| 雷州市| 黄浦区| 融水| 郓城县| 邯郸市| 罗平县| 鄂伦春自治旗| 奎屯市| 常山县| 筠连县| 河曲县| 弥勒县| 运城市| 随州市| 六盘水市| 朝阳市|