哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

能夠降低每Token成本的因素有哪些

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2026-04-27 15:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

傳統(tǒng)數(shù)據(jù)中心過去主要用于數(shù)據(jù)的存儲、檢索與處理。但在生成式 AI 與代理式 AI 時代,這些設(shè)施已演變?yōu)?AI Token 工廠。隨著 AI 推理成為其核心工作負(fù)載,它們的主要產(chǎn)出已轉(zhuǎn)變?yōu)橐?Token 形式制造的智能。

這一轉(zhuǎn)變也需要對包括總體擁有成本 (TCO) 在內(nèi)的 AI 基礎(chǔ)設(shè)施的經(jīng)濟效益評估的方式相應(yīng)地進行調(diào)整。然而,在評估 AI 基礎(chǔ)設(shè)施時,企業(yè)仍過于關(guān)注芯片峰值規(guī)格、計算成本,或每美元所能獲得的浮點運算性能,即每美元 FLOPS。

關(guān)鍵區(qū)別在于:

算力成本是企業(yè)為 AI 基礎(chǔ)設(shè)施所支付的費用,無論是從云服務(wù)提供商租用,還是在本地自建部署。

每美元 FLOPS衡量的是企業(yè)每投入一美元所獲得的原始算力,但原始算力并不等同于現(xiàn)實世界中的 Token 產(chǎn)出。

每 Token 成本指的是企業(yè)生成并交付每一個 Token 的綜合成本,通常以每百萬 Token 成本來表示。

前兩者僅是投入指標(biāo)。但當(dāng)業(yè)務(wù)圍繞產(chǎn)出運轉(zhuǎn)時,只針對投入優(yōu)化,本質(zhì)上是一種根本性的錯配。

每 Token 成本決定了企業(yè)能否實現(xiàn) AI 的規(guī)?;K俏ㄒ荒軌蛑苯泳C合反映硬件性能、軟件優(yōu)化、生態(tài)系統(tǒng)支持以及實際利用率的 TCO 指標(biāo),而 NVIDIA 在這一指標(biāo)上實現(xiàn)了行業(yè)最低的每 Token 成本。

能夠降低每 Token 成本的因素有哪些?

要理解如何優(yōu)化每 Token 成本,首先需要了解用于計算“每百萬 Token 成本”的計算公式。

inference-equation-token-5115300-scaled.png

在這個公式中,許多評估 AI 基礎(chǔ)設(shè)施的企業(yè)往往只關(guān)注分子項,即每 GPU 每小時成本。對于云部署而言,這對應(yīng)支付給云服務(wù)提供商的小時費用;而對于本地部署,則是通過攤銷自有基礎(chǔ)設(shè)施得到的等效小時成本。然而,降低每 Token 成本的關(guān)鍵在于分母,即最大化實際交付的 Token 產(chǎn)出。

這個分母傳遞了兩層商業(yè)含義:

最小化每 Token 成本:當(dāng) Token 產(chǎn)出增加被代入公式時,將降低每 Token 成本,從而提升每一次交互服務(wù)的利潤空間。

最大化收入:每秒交付更多 Token,也意味著每兆瓦產(chǎn)出更多的 Token,這將帶來更高的智能供給能力,使 AI 驅(qū)動的產(chǎn)品與服務(wù)能夠在相同基礎(chǔ)設(shè)施投入下創(chuàng)造更高收入。

因此,如果只關(guān)注分子,就會忽視真正決定分母的因素。可以將其理解為一個“推理冰山”:分子位于水面之上,直觀可見且易于橫向比較;而分母則隱藏在水面之下,那才是決定實際 Token 產(chǎn)出的關(guān)鍵因素。對 AI 基礎(chǔ)設(shè)施的準(zhǔn)確評估,應(yīng)從探究水面之下的部分開始。

Inference-Iceberg-5115325_004-1-scaled.jpg

表層問題:

每 GPU 小時的成本是多少?

峰值 PetaFLOPS 性能和高帶寬內(nèi)存容量是多少?

每美元可獲得多少 FLOPS?

深度成本分析:

每百萬 Token 的成本是多少?尤其是針對大規(guī)?;旌蠈<?(MoE) 推理模型 (當(dāng)前部署最廣泛的一類 AI 模型),其每百萬 Token 成本是多少?

每兆瓦可交付多少 Token 產(chǎn)出?尤其是對本地部署而言,由于在土地、電力與基礎(chǔ)設(shè)施上的資本投入較大,最大化每兆瓦所產(chǎn)生的智能產(chǎn)出至關(guān)重要。

縱向擴展 (scale-up) 互連是否能夠支撐 MoE 模型所需的“all-to-all”通信模式?

是否支持 FP4 精度?推理棧是否能夠在保持高精度的同時充分利用 FP4?

推理運行時是否支持投機解碼或多 Token 預(yù)測,以提升用戶交互體驗?

服務(wù)層是否支持解耦服務(wù)、KV 感知路由、KV 緩存卸載以及其他優(yōu)化?

平臺是否支持代理式 AI 的獨特工作負(fù)載需求,包括超低延遲、高吞吐以及長輸入序列長度等?

平臺是否支持從訓(xùn)練、后訓(xùn)練到大規(guī)模推理的完整生命周期,并覆蓋所有模型架構(gòu),從而實現(xiàn)基礎(chǔ)設(shè)施可互換性與高利用率?

這些算法、硬件與軟件化中的每一項優(yōu)化都必須有效并且是可以相互集成的,否則分母項將無法成立。一塊看似“更便宜”的 GPU,如果其每秒 Token 產(chǎn)出數(shù)量明顯更低,反而會導(dǎo)致更高的每 Token 成本。能夠做到全棧真正優(yōu)化的 AI 基礎(chǔ)設(shè)施,才能夠確保每項優(yōu)化都相互增強,從而持續(xù)提升整體效率。

為什么每 Token 成本比每美元 FLOPS 更重要?

以下 DeepSeek-R1 AI 模型的數(shù)據(jù)展示了理論指標(biāo)與實際商業(yè)結(jié)果之間的差異。

僅從算力成本來看,NVIDIA Blackwell 平臺的成本似乎約為 NVIDIA Hopper 的 2 倍,但算力成本并不能說明這項投入究竟能帶來多少實際產(chǎn)出。如果僅以每美元 FLOPS 進行分析,相較于 NVIDIA Hopper 架構(gòu),NVIDIA Blackwell 僅有約 2 倍優(yōu)勢。然而,實際結(jié)果卻呈現(xiàn)出數(shù)量級差異:Blackwell 每瓦的 Token 產(chǎn)出量是 Hopper 的 50 倍以上,每百萬 Token 的成本降低至其 1/35 左右。

指標(biāo) NVIDIA Hopper
(HGX H200)
NVIDIA Blackwell (GB300 NVL72) Blackwell 相較 Hopper
GPU 每小時成本
(美元)
$1.41 $2.65 2x
每美元 FLOPS (PFLOPS) 2.8 5.6 2x
每 GPU 每秒 Token 產(chǎn)出 90 6,000 65x
每兆瓦 Token 產(chǎn)出 54K 2.8M 50x
每百萬 Token 成本
(美元)
$4.20 $0.12 降為 1/35

注:數(shù)據(jù)來源于 NVIDIA 分析報道及SemiAnalysis InferenceX v2基準(zhǔn)測試。

這一懸殊差異表明,相較于上一代 Hopper,NVIDIA Blackwell 在商業(yè)價值上實現(xiàn)了巨大的躍遷,其提升幅度遠超系統(tǒng)成本的增加。

如何選擇合適的 AI 基礎(chǔ)設(shè)施?

僅憑算力成本或每美元理論 FLOPS 來比較 AI 基礎(chǔ)設(shè)施,不僅是不充分的,也無法真實反映推理經(jīng)濟學(xué)。正如數(shù)據(jù)所展示的,要準(zhǔn)確評估 AI 基礎(chǔ)設(shè)施的營收潛力與盈利能力,需將衡量維度從輸入指標(biāo)轉(zhuǎn)向每 Token 成本和實際 Token 產(chǎn)出量。

NVIDIA 通過在計算、網(wǎng)絡(luò)、內(nèi)存、存儲、軟件以及合作伙伴技術(shù)上的極致協(xié)同設(shè)計,實現(xiàn)了業(yè)內(nèi)最低的 Token 成本與最高的 Token 吞吐量。此外,諸如 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等基于 NVIDIA 平臺構(gòu)建的開源推理軟件的持續(xù)優(yōu)化,意味著在現(xiàn)有 NVIDIA 基礎(chǔ)設(shè)施部署后,Token 產(chǎn)出仍可不斷提升,每 Token 成本會持續(xù)下降。 領(lǐng)先的云服務(wù)提供商與 NVIDIA 云合作伙伴,已在規(guī)?;渴鹬谐浞煮w現(xiàn)這一優(yōu)勢。包括CoreWeave、Nebius、Nscale與Together AI在內(nèi)的合作伙伴,已部署 NVIDIA Blackwell 基礎(chǔ)設(shè)施,并對其技術(shù)棧進行了優(yōu)化,為企業(yè)提供當(dāng)前最低的 Token 成本,同時充分發(fā)揮 NVIDIA 在硬件、軟件與生態(tài)系統(tǒng)協(xié)同設(shè)計方面的全部優(yōu)勢,使每一次 AI 交互的處理都建立在這一完整體系之上。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5694

    瀏覽量

    110118
  • 數(shù)據(jù)中心
    +關(guān)注

    關(guān)注

    18

    文章

    5773

    瀏覽量

    75209
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41156

    瀏覽量

    302617

原文標(biāo)題:重新思考 AI TCO:為何每 Token 成本才是唯一重要的指標(biāo)

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Token工廠加速兌現(xiàn)!迅策攜手國家級數(shù)據(jù)交易所,深化垂類Token開發(fā)

    當(dāng)中國日均Token消耗突破140萬億,當(dāng)OpenAI每分鐘處理150億Token,當(dāng)中國兩年增長1400倍——Token,這個兩年前還陌生的技術(shù)術(shù)語,正在成為AI時代的"新千瓦時"。 深圳2026
    的頭像 發(fā)表于 04-13 16:26 ?171次閱讀
    <b class='flag-5'>Token</b>工廠加速兌現(xiàn)!迅策攜手國家級數(shù)據(jù)交易所,深化垂類<b class='flag-5'>Token</b>開發(fā)

    芯盾時代助企業(yè)破解智能體Token失控難題

    2026年,隨著OpenClaw等自主智能體(Agent)技術(shù)的爆發(fā),企業(yè)AI應(yīng)用正經(jīng)歷從“對話問答”到“自主執(zhí)行”的躍遷。為了占得智能體應(yīng)用先機,企業(yè)紛紛給員工下發(fā)Token額度、鼓勵全員“養(yǎng)龍蝦”。一時之間,Token成為企業(yè)在AI戰(zhàn)場上的“戰(zhàn)略物資”,
    的頭像 發(fā)表于 03-28 13:40 ?1052次閱讀

    Token中文新譯名:「符元」——一文七個維度講清Token的本質(zhì)定義

    拒絕“智元”走私語義,七維拆解 Token 物理本質(zhì),定義 AI 時代唯一真名:「符元」。
    的頭像 發(fā)表于 03-27 15:23 ?774次閱讀
    <b class='flag-5'>Token</b>中文新譯名:「符元」——一文七個維度講清<b class='flag-5'>Token</b>的本質(zhì)定義

    數(shù)字電力帝國崛起:Token成為中國能源出口新載體

    成本碾壓下的突圍:Token出海改寫全球AI服務(wù)格局
    的頭像 發(fā)表于 03-06 16:30 ?1364次閱讀
    數(shù)字電力帝國崛起:<b class='flag-5'>Token</b>成為中國能源出口新載體

    NVIDIA Blackwell平臺助力企業(yè)實現(xiàn)token成本的大幅降低

    一次醫(yī)療領(lǐng)域的診斷洞察、一次互動游戲中角色的對話、一次來自客服代理的自主解決方案——這些由 AI 驅(qū)動的交互,皆基于同一智能單元:一個 token。
    的頭像 發(fā)表于 03-02 14:48 ?624次閱讀

    影響三防漆流速的因素有哪些?

    三防漆作為一種特殊配方的涂料,主要用于保護電路板及相關(guān)設(shè)備免受潮濕、腐蝕等環(huán)境因素的侵蝕。在實際應(yīng)用中,三防漆消泡困難是常見問題之一,氣泡若未能及時消除,固化后會影響涂層致密性和防護效果?,F(xiàn)在讓我們
    的頭像 發(fā)表于 12-20 16:57 ?324次閱讀
    影響三防漆流速的<b class='flag-5'>因素有</b>哪些?

    貼片電阻的阻抗與什么因素有關(guān)?

    貼片電阻的阻抗(即交流電路中的綜合阻抗,包含電阻、電感與電容的復(fù)合效應(yīng))受多種因素影響,這些因素可分為材料特性、幾何結(jié)構(gòu)、封裝設(shè)計、環(huán)境條件及制造工藝五大類。以下是具體分析: 一、材料特性:阻抗
    的頭像 發(fā)表于 11-27 15:46 ?657次閱讀
    貼片電阻的阻抗與什么<b class='flag-5'>因素有</b>關(guān)?

    精密平臺中重復(fù)精度的影響因素有哪些

    σ等。 雅科貝思VRG系列平臺 重復(fù)定位精度受多種復(fù)雜因素影響,既有運動臺自身因素,比如背隙、摩擦力、線纜擾動力、伺服抖動、剛度等,也有環(huán)境因素,比如溫度漂移、地基振動、環(huán)境噪聲等。我們幾乎不太可能給出每一種
    的頭像 發(fā)表于 10-15 11:24 ?968次閱讀
    精密平臺中重復(fù)精度的影響<b class='flag-5'>因素有</b>哪些

    影響電能質(zhì)量在線監(jiān)測裝置校準(zhǔn)周期的環(huán)境因素有哪些?

    影響電能質(zhì)量在線監(jiān)測裝置校準(zhǔn)周期的環(huán)境因素,核心是 加速設(shè)備元器件老化、破壞電路穩(wěn)定性、導(dǎo)致測量精度漂移 的外部條件。這些因素會使裝置偏離初始校準(zhǔn)狀態(tài)的速度加快,因此需根據(jù)環(huán)境惡劣程度縮短校準(zhǔn)周期
    的頭像 發(fā)表于 09-19 14:42 ?715次閱讀

    決定自動駕駛攝像頭質(zhì)量的因素有哪些?

    和一條數(shù)據(jù)鏈路拼湊在一起,最后要得到的卻是算法能穩(wěn)定用、工程能長期維護的“可信圖像”,那決定自動駕駛攝像頭質(zhì)量的因素有哪些? 攝像頭質(zhì)量的評價因素 討論攝像頭能力時,我們不僅要看物理量化指標(biāo),也要看這些指標(biāo)在真實世
    的頭像 發(fā)表于 09-14 10:59 ?1343次閱讀
    決定自動駕駛攝像頭質(zhì)量的<b class='flag-5'>因素有</b>哪些?

    網(wǎng)線傳輸距離和哪些因素有關(guān)

    網(wǎng)線的傳輸距離受多種因素影響,這些因素共同決定了信號在傳輸過程中的衰減、干擾和時延,進而限制了有效傳輸距離。以下是主要影響因素的詳細分析: 1. 網(wǎng)線類型與規(guī)格 不同類別的網(wǎng)線在導(dǎo)體材質(zhì)、絞距
    的頭像 發(fā)表于 08-25 10:22 ?3512次閱讀
    網(wǎng)線傳輸距離和哪些<b class='flag-5'>因素有</b>關(guān)

    降低失效成本,高精度CT檢測新能源汽車功率模塊

    降低失效成本,高精度CT檢測新能源汽車功率模塊
    的頭像 發(fā)表于 08-08 15:56 ?857次閱讀
    <b class='flag-5'>降低</b>失效<b class='flag-5'>成本</b>,高精度CT檢測新能源汽車功率模塊

    影響三防漆消泡的因素有哪些

    三防漆在涂覆過程中若存在氣泡,會導(dǎo)致涂層出現(xiàn)針孔、空洞等缺陷,降低防護性能。消泡效果受材料特性、工藝操作及環(huán)境條件等多方面影響,下面就讓我們來了解一下影響三防漆消泡的因素,以及如何改善這種情況吧
    的頭像 發(fā)表于 07-18 18:10 ?899次閱讀
    影響三防漆消泡的<b class='flag-5'>因素有</b>哪些

    電纜的阻燃程度跟什么因素有關(guān)系

    電纜的阻燃程度主要與材料配方、結(jié)構(gòu)設(shè)計、制造工藝、阻燃等級標(biāo)準(zhǔn)以及外部使用環(huán)境等因素密切相關(guān)。以下是具體分析: 一、材料配方 絕緣材料: 交聯(lián)聚乙烯(XLPE):基礎(chǔ)絕緣材料,需通過添加阻燃劑(如
    的頭像 發(fā)表于 07-16 09:59 ?873次閱讀

    樹莓派設(shè)備物聯(lián)網(wǎng)解決方案,將錄音設(shè)備的項目成本降低 90%!

    基于RaspberryPi設(shè)備的物聯(lián)網(wǎng)(IoT)解決方案將“終止開關(guān)”(killswitch)成本降低了90%在RaspberryPi設(shè)備上采用新的AWSIoT解決方案,GreenCustard顯著
    的頭像 發(fā)表于 06-05 15:42 ?1059次閱讀
    樹莓派設(shè)備物聯(lián)網(wǎng)解決方案,將錄音設(shè)備的項目<b class='flag-5'>成本</b><b class='flag-5'>降低</b> 90%!
    绩溪县| 天镇县| 淮北市| 遂宁市| 中卫市| 迭部县| 鄂尔多斯市| 泊头市| 临海市| 富宁县| 岚皋县| 叶城县| 家居| 白山市| 常山县| 修水县| 淮北市| 湖州市| 岳西县| 青田县| 锦州市| 娄烦县| 定州市| 荃湾区| 萨嘎县| 宝兴县| 云安县| 慈溪市| 长治市| 白朗县| 中方县| 哈尔滨市| 休宁县| 垣曲县| 玉门市| 翁源县| 宁都县| 苏尼特左旗| 任丘市| 惠来县| 拜泉县|