哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

騰訊云與NVIDIA仍持續(xù)為AI推理加速進(jìn)行合作

NVIDIA英偉達(dá) ? 來(lái)源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-08-31 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

騰訊云計(jì)算加速套件 TACO Kit 包含 TACO Train 和 TACO Infer 兩個(gè) AI 組件?;?GPU 異構(gòu)計(jì)算平臺(tái)針對(duì)業(yè)界 AI 訓(xùn)練和推理任務(wù)進(jìn)行了全方位的加速優(yōu)化。TACO Kit 不僅大大提升了 GPU 集群上多機(jī)多卡分布式訓(xùn)練的效率,對(duì)于 GPU 上的模型推理也通過(guò)集成 NVIDIA TensorRT 帶來(lái)了顯著加速。雙方團(tuán)隊(duì)就 GPU 推理加速這一話題將進(jìn)行持續(xù)深入的合作,推出定制化的優(yōu)化方案,為業(yè)界客戶(hù)帶來(lái)顯著的性能收益。

騰訊云計(jì)算加速套件TACO Kit(Tencent Cloud Accelerated Computing Optimization Kit)是一種異構(gòu)計(jì)算加速軟件服務(wù),具備領(lǐng)先的 GPU 共享技術(shù)和業(yè)界唯一的 GPU 在離線混部能力,搭配騰訊自研的軟硬件協(xié)同優(yōu)化組件和硬件廠商特有優(yōu)化方案,支持物理機(jī)、云服務(wù)器、容器等產(chǎn)品的計(jì)算加速、圖形渲染、視頻轉(zhuǎn)碼各個(gè)應(yīng)用場(chǎng)景,幫助用戶(hù)實(shí)現(xiàn)全方位全場(chǎng)景的降本增效。

其中,AI 加速引擎 TACO Train 和 TACO Infer 是騰訊云虛擬化團(tuán)隊(duì)依托云帆團(tuán)隊(duì),立足于騰訊內(nèi)部豐富的 AI 業(yè)務(wù)場(chǎng)景,深耕訓(xùn)練框架優(yōu)化、分布式框架優(yōu)化、網(wǎng)絡(luò)通信優(yōu)化、推理性能優(yōu)化等關(guān)鍵技術(shù),攜手打造的一整套 AI 加速方案。為了更好的服務(wù)用戶(hù),騰訊云決定將內(nèi)部深度優(yōu)化的加速方案免費(fèi)提供給公有云用戶(hù),助力廣大用戶(hù)提高 AI 產(chǎn)品迭代效率。

無(wú)論對(duì)于 AI 訓(xùn)練或 AI 推理,如何有效提升 AI 任務(wù)的性能,節(jié)省硬件資源成本,是業(yè)界持續(xù)追求的目標(biāo)。在訓(xùn)練方面,隨著 AI 模型規(guī)模的擴(kuò)大及訓(xùn)練數(shù)據(jù)的增多,用戶(hù)對(duì)模型的迭代效率要求也隨之增長(zhǎng),單個(gè) GPU 的算力已無(wú)法滿(mǎn)足大部分業(yè)務(wù)場(chǎng)景,使用單機(jī)多卡或多機(jī)多卡訓(xùn)練已成為趨勢(shì)。但用戶(hù)在部署分布式訓(xùn)練系統(tǒng)時(shí),時(shí)常面臨著難以充分利用 GPU 資源、訓(xùn)練效率低下的問(wèn)題,而分布式訓(xùn)練性能調(diào)優(yōu)卻是需要同時(shí)進(jìn)行通信優(yōu)化、計(jì)算優(yōu)化的極其復(fù)雜的問(wèn)題。

在推理方面,對(duì)多種多樣的工作負(fù)載進(jìn)行推理加速也是業(yè)界共同的需求。這需要考慮如何對(duì)不同框架訓(xùn)練的模型進(jìn)行統(tǒng)一的高效部署;如何整合各類(lèi)加速軟件和技術(shù),對(duì)接不同模型和業(yè)務(wù)場(chǎng)景。

在訓(xùn)練方面,TACO Train 推出 Tencent TensorFlow(以下簡(jiǎn)稱(chēng) TTF), 針對(duì)特定業(yè)務(wù)場(chǎng)景的 XLA,Grappler 圖優(yōu)化,以及自適應(yīng)編譯框架解決冗余編譯的問(wèn)題,并對(duì) TensorFlow 1.15 添加了對(duì)CUDA 11的支持,讓用戶(hù)可以使用NVIDIA A100 Tensor Core GPU來(lái)進(jìn)行模型訓(xùn)練。另外,TACO Train 推出 LightCC 這一基于 Horovod 深度優(yōu)化的分布式訓(xùn)練框架,在保留了原生 Horovod 的易用性上,增加了性能更好的通信方式。相比 Horovod,LightCC 能夠?qū)?2D AllReduce 充分利用通信帶寬;在 GPU 上訓(xùn)練時(shí)提供高效的梯度融合方式;并使用 TOPK 壓縮通信,降低通信量,提高傳輸效率。最后,騰訊云自研了用戶(hù)態(tài)網(wǎng)絡(luò)協(xié)議棧 HARP,可以通過(guò) Plug-in 的方式集成到NVIDIA NCCL中,無(wú)需任何業(yè)務(wù)改動(dòng),加速云上分布式訓(xùn)練性能,從而解決了目前普遍使用的內(nèi)核網(wǎng)絡(luò)協(xié)議棧存在著一些必要的開(kāi)銷(xiāo)導(dǎo)致其不能很好地利用高速網(wǎng)絡(luò)設(shè)備的問(wèn)題。

在推理方面,TACO Infer 通過(guò)跨平臺(tái)統(tǒng)一的優(yōu)化接口賦能用戶(hù),讓渴望加速計(jì)算的用戶(hù)輕松駕馭騰訊云上豐富的異構(gòu)算力。TACO Infer 針對(duì) GPU 推理任務(wù),集成了NVIDIA TensorRT,利用其極致的模型優(yōu)化能力,使推理過(guò)程能夠達(dá)到令人滿(mǎn)意的性能。此外,TACO 也將自定義的高性能 kernel 實(shí)現(xiàn)與TensorRT相結(jié)合,極大地提升用戶(hù)的推理效率。

TACO Kit 針對(duì) GPU 的訓(xùn)練優(yōu)化,為諸多業(yè)務(wù)帶來(lái)了顯著的性能提升。在某電商平臺(tái)推薦業(yè)務(wù)Wide & Deep 模型訓(xùn)練任務(wù)中,TACO Train 提供的方案通過(guò)定制化高性能 GPU 算子,使延遲從 14.3ms 下降至 2.8ms;整體訓(xùn)練性能提升 43%,成本下降 11%;在另一電商推薦場(chǎng)景 MMoE 模型的訓(xùn)練任務(wù)中,TACO Train 提供的訓(xùn)練方案,在NVIDIA V100 Tensor Core GPU集群上,使計(jì)算速度性?xún)r(jià)比相比于 CPU 集群提升了 3.2 倍,收斂速度性?xún)r(jià)比相比于 CPU 集群提升了 24.3 倍。

目前,騰訊云 TACO Kit 與 NVIDIA 雙方團(tuán)隊(duì)仍持續(xù)為 AI 推理加速進(jìn)行合作。未來(lái)也將針對(duì)一些常見(jiàn)的業(yè)務(wù)模型,圍繞TensorRT進(jìn)行聯(lián)合優(yōu)化,將模型推理的性能推向更高的水準(zhǔn),為業(yè)界有推理加速需求的客戶(hù)提供一站式的優(yōu)化方案。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5682

    瀏覽量

    110108
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5267

    瀏覽量

    136051
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    41014

    瀏覽量

    302544
  • 騰訊云
    +關(guān)注

    關(guān)注

    0

    文章

    224

    瀏覽量

    17496

原文標(biāo)題:騰訊云與 NVIDIA 深度合作,打造計(jì)算加速套件 TACO Kit 加速 GPU AI 計(jì)算全鏈路

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Oracle和NVIDIA合作加速向量搜索和企業(yè)數(shù)據(jù)處理

    Oracle 和 NVIDIA 正在與客戶(hù)合作,將 GPU 加速的向量索引構(gòu)建應(yīng)用于實(shí)際工作負(fù)載。Oracle Private AI Services Container 初期支持 C
    的頭像 發(fā)表于 03-23 15:26 ?417次閱讀

    NVIDIA與亞馬遜科技深化合作伙伴關(guān)系

    NVIDIA 和亞馬遜科技 (AWS) 擴(kuò)展雙方合作,增強(qiáng)在 AWS 平臺(tái)上的由 NVIDIA 驅(qū)動(dòng)的數(shù)據(jù)處理能力,并增加對(duì) NVIDIA
    的頭像 發(fā)表于 03-23 15:17 ?440次閱讀

    是德科技推出全新AI推理仿真平臺(tái)

    是德科技(NYSE: KEYS)近日推出KAI推理構(gòu)建器(Keysight AI Inference Builder),這款仿真與分析平臺(tái)旨在大規(guī)模驗(yàn)證針對(duì)推理進(jìn)行優(yōu)化的
    的頭像 發(fā)表于 03-20 17:27 ?804次閱讀
    是德科技推出全新<b class='flag-5'>AI</b><b class='flag-5'>推理</b>仿真平臺(tái)

    NVIDIA DGX SuperPODRubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計(jì)算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺(tái)的十分之一,可
    的頭像 發(fā)表于 01-14 09:14 ?816次閱讀

    NVIDIA 推出 Alpamayo 系列開(kāi)源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車(chē)開(kāi)發(fā)

    新聞?wù)?: l NVIDIA 率先發(fā)布應(yīng)對(duì)輔助駕駛長(zhǎng)尾場(chǎng)景挑戰(zhàn)而設(shè)計(jì)的開(kāi)源視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助
    的頭像 發(fā)表于 01-06 09:40 ?510次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo 系列開(kāi)源 <b class='flag-5'>AI</b> 模型與工具,<b class='flag-5'>加速</b>安全可靠的<b class='flag-5'>推理</b>型輔助駕駛汽車(chē)開(kāi)發(fā)

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺(tái)上的
    的頭像 發(fā)表于 10-21 11:04 ?1391次閱讀

    MediaTek攜手NVIDIA開(kāi)啟個(gè)人AI算力新紀(jì)元

    Spark 助力開(kāi)發(fā)者能在本地端對(duì)大型 AI 模型進(jìn)行原型設(shè)計(jì)(Prototype)、微調(diào)(Fine-tune)和推理(Inference)。NVIDIA DGX Spark 將于
    的頭像 發(fā)表于 10-16 11:26 ?928次閱讀

    什么是AI模型的推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊(duì) NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理
    的頭像 發(fā)表于 09-23 15:19 ?1453次閱讀

    蘑菇車(chē)聯(lián)與騰訊達(dá)成戰(zhàn)略合作

    9月16日,蘑菇車(chē)聯(lián)(MOGOX)與騰訊達(dá)成戰(zhàn)略合作,全面推動(dòng)MogoMind大模型關(guān)鍵能力升級(jí)。雙方將通過(guò)服務(wù)、算力等方面的技術(shù)合作,
    的頭像 發(fā)表于 09-17 14:13 ?873次閱讀

    NVIDIA到邊緣加速OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS推理

    的發(fā)布持續(xù)深化了雙方的 AI 創(chuàng)新合作。NVIDIANVIDIA Blackwell 架構(gòu)上優(yōu)化了這兩款全新的開(kāi)放權(quán)重模型并實(shí)現(xiàn)了
    的頭像 發(fā)表于 08-15 20:34 ?2481次閱讀
    <b class='flag-5'>NVIDIA</b>從<b class='flag-5'>云</b>到邊緣<b class='flag-5'>加速</b>OpenAI gpt-oss模型部署,實(shí)現(xiàn)150萬(wàn)TPS<b class='flag-5'>推理</b>

    睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)

    400G/800G光模塊已實(shí)現(xiàn)規(guī)?;慨a(chǎn),并基于AI工廠與AI的核心需求進(jìn)行深度優(yōu)化: 速率突破:采用PAM4調(diào)制技術(shù),單通道速率達(dá)100Gbps,整模塊實(shí)現(xiàn)800Gbps傳輸能力,
    發(fā)表于 08-13 19:01

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動(dòng)AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    NVIDIA計(jì)劃打造全球首個(gè)工業(yè)AI平臺(tái)

    NVIDIA 宣布,其正在為歐洲制造商構(gòu)建全球首個(gè)工業(yè) AI 。這家總部位于德國(guó)的 AI 工廠將配備 1 萬(wàn)個(gè) GPU,包括通過(guò) NVIDIA
    的頭像 發(fā)表于 06-16 14:17 ?1604次閱讀

    NVIDIA攜手諾和諾德借助AI加速藥物研發(fā)

    NVIDIA 宣布與諾和諾德開(kāi)展合作,借助創(chuàng)新 AI 應(yīng)用加速藥物研發(fā)。此次合作也將支持諾和諾德與丹麥
    的頭像 發(fā)表于 06-12 15:49 ?1478次閱讀

    NVIDIA攜手微軟加速代理式AI發(fā)展

    代理式 AI 正在重新定義科學(xué)探索,推動(dòng)各行各業(yè)的研究突破和創(chuàng)新發(fā)展。NVIDIA 和微軟正通過(guò)深化合作提供先進(jìn)的技術(shù),從到 PC 加速
    的頭像 發(fā)表于 05-27 14:03 ?1215次閱讀
    长乐市| 班戈县| 武义县| 鄱阳县| 铜鼓县| 林州市| 南平市| 峨山| 宽城| 云浮市| 旌德县| 称多县| 枣阳市| 西城区| 周至县| 清流县| 且末县| 高青县| 前郭尔| 巨野县| 博野县| 汕尾市| 搜索| 青岛市| 镇雄县| 凌源市| 大埔县| 涿鹿县| 长岛县| 蒙自县| 吴江市| 九江县| 获嘉县| 大关县| 东丽区| 岳阳县| 永仁县| 澳门| 乐昌市| 呼图壁县| 汪清县|