久草视频在线吗,中日精品

IEEE計算機運算研討會。

32位與16位格式的混合精度訓練，正是當前深度學習的主流。

最新的英偉達核彈GPU H100，剛剛添加上對8位浮點數(shù)格式FP8的支持。

英偉達首席科學家Bill Dally現(xiàn)在又表示，他們還有一個“秘密武器”：

在IEEE計算機運算研討會上，他介紹了一種實驗性5nm芯片，可以混合使用8位與4位格式，并且在4位上得到近似8位的精度。

目前這種芯片還在開發(fā)中，主要用于深度學習推理所用的INT4和INT8格式，對于如何應用在訓練中也在研究了。

相關(guān)論文已發(fā)表在2022 IEEE Symposium on VLSI Technology上。

新的量化技術(shù)

降低數(shù)字格式而不造成重大精度損失，要歸功于按矢量縮放量化（per-vector scaled quantization，VSQ）的技術(shù)。

具體來說，一個INT4數(shù)字只能精確表示從-8到7的16個整數(shù)。

其他數(shù)字都會四舍五入到這16個值上，中間產(chǎn)生的精度損失被稱為量化噪聲。

傳統(tǒng)的量化方法給每個矩陣添加一個縮放因子來減少噪聲，VSQ則在這基礎之上給每個向量都添加縮放因子，進一步減少噪聲。

關(guān)鍵之處在于，縮放因子的值要匹配在神經(jīng)網(wǎng)絡中實際需要表示的數(shù)字范圍。

英偉達研究人員發(fā)現(xiàn)，每64個數(shù)字為一組賦予獨立調(diào)整過的縮放因子可以最小化量化誤差。

計算縮放因子的開銷可以忽略不計，從INT8降為INT4則讓能量效率增加了一倍。

Bill Dally認為，結(jié)合上INT4計算、VSQ技術(shù)和其他優(yōu)化方法后，新型芯片可以達到Hopper架構(gòu)每瓦運算速度的10倍。

還有哪些降低計算量的努力

除了英偉達之外，業(yè)界還有更多降低計算量的工作也在這次IEEE研討會上亮相。

馬德里康普頓斯大學的一組研究人員設計出基于Posits格式的處理器核心，與Float浮點數(shù)相比準確性提高了多達4個數(shù)量級。

Posits與Float相比，增加了一個可變長度的Regime區(qū)域，用來表示指數(shù)的指數(shù)。

對于0附近的較小數(shù)字只需要占用兩個位，而這類數(shù)字正是在神經(jīng)網(wǎng)絡中大量使用的。

適用Posits格式的新硬件基于FPGA開發(fā)，研究人員發(fā)現(xiàn)可以用芯片的面積和功耗來提高精度，而不用增加計算時間。

ETH Zurich一個團隊的研究基于RISC-V，他們把兩次混合精度的積和熔加計算（fused multiply-add，F(xiàn)MA）放在一起平行計算。

這樣可以防止兩次計算之間的精度損失，還可以提高內(nèi)存利用率。

FMA指的是d = a * b + c這樣的操作，一般情況下輸入中的a和b會使用較低精度，而c和輸出的d使用較高精度。

研究人員模擬了新方法可以使計算時間減少幾乎一半，同時輸出精度有所提高，特別是對于大矢量的計算。

相應的硬件實現(xiàn)正在開發(fā)中。

巴塞羅那超算中心和英特爾團隊的研究也和FMA相關(guān)，致力于神經(jīng)網(wǎng)絡訓練可以完全使用BF16格式完成。

BF16格式已在DALL·E 2等大型網(wǎng)絡訓練中得到應用，不過還需要與更高精度的FP32結(jié)合，并且在兩者之間來回轉(zhuǎn)換。

這是因為神經(jīng)網(wǎng)絡訓練中只有一部分計算不會因BF16而降低精度。

最新解決辦法開發(fā)了一個擴展的格式BF16-N，將幾個BF16數(shù)字組合起來表示一個數(shù)，可以在不顯著犧牲精度的情況下更有效進行FMA計算

關(guān)鍵之處在于，F(xiàn)MA計算單元的面積只受尾數(shù)位影響。

比如FP32有23個尾數(shù)位，需要576個單位的面積，而BF16-2只需要192個，減少了2/3。

另外這項工作的論文題目也很有意思，BF16 is All You Need。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54409

瀏覽量
469084
英偉達

英偉達

+關(guān)注

關(guān)注
23

文章
4115

瀏覽量
99601

原文標題：英偉達首席科學家：5nm實驗芯片用INT4達到INT8的精度

文章出處：【微信號：ICViews，微信公眾號：半導體產(chǎn)業(yè)縱橫】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

英偉達：5nm實驗芯片用INT4達到INT8的精度

評論