哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-1

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:未知 ? 2023-01-11 06:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在 Triton 推理服務(wù)器的使用中,模型(model)類別與調(diào)度器(scheduler)、批量處理器(batcher)類型的搭配,是整個(gè)管理機(jī)制中最重要的環(huán)節(jié),三者之間根據(jù)實(shí)際計(jì)算資源與使用場(chǎng)景的要求去進(jìn)行調(diào)配,這是整個(gè) Triton 服務(wù)器中比較復(fù)雜的部分。

在模型類別中有“無(wú)狀態(tài)(stateless)”、“有狀態(tài)(stateful)”“集成(ensemble)”三種,調(diào)度器方面則有“標(biāo)準(zhǔn)調(diào)度器(default scheduler)”“集成調(diào)度器(ensemble scheduler)”兩種,而標(biāo)準(zhǔn)調(diào)度器下面還有“動(dòng)態(tài)批量處理器(dynamic batcher)”“序列批量處理器(sequence batcher)”兩種批量處理器。

模型類別與調(diào)度器/批量處理器之間存在一些關(guān)聯(lián)性,以下整理出一個(gè)簡(jiǎn)單的配合表格,提供大家參考:

類別

調(diào)度器

批量處理器

使用場(chǎng)景

無(wú)狀態(tài)

標(biāo)準(zhǔn)調(diào)度器

動(dòng)態(tài)批量處理器

面向各自獨(dú)立的推理模型

有狀態(tài)

標(biāo)準(zhǔn)調(diào)度器

序列批量處理器

處理存在交互關(guān)系的推理模型組

集成

集成調(diào)度器

創(chuàng)建復(fù)雜的工作流水線

接下去就要為這幾個(gè)管理機(jī)制的組合進(jìn)行說(shuō)明,由于內(nèi)容較多并且不均衡,特別是“有狀態(tài)模型”與“集成模型”兩部分的使用是相對(duì)復(fù)雜的,因此這些組合會(huì)分為三篇文章來(lái)進(jìn)行較為深入的說(shuō)明。

1. 無(wú)狀態(tài)(Stateless)模式:

這是 Triton 默認(rèn)的模型模式,最主要的要求就是“模型所維護(hù)的狀態(tài)不跨越推理請(qǐng)求”,也就是不存在與其他推理請(qǐng)求有任何交互關(guān)系,大部分處于最末端的獨(dú)立推理模型,都適合使用這種模式,例如車牌檢測(cè)最末端的將圖像識(shí)別成符號(hào)的推理、為車輛識(shí)別顏色/種類/廠牌的圖像分類等,還有 RNN 以及具有內(nèi)部?jī)?nèi)存的類似模型,也可以是無(wú)狀態(tài)的。

2. 有狀態(tài)(Stateful)模式:

很多提供云服務(wù)的系統(tǒng),需要具備同時(shí)接受多個(gè)推理請(qǐng)求去形成一系列推理的能力,這些推理必須路由到某些特定模型實(shí)例中,以便正確更新模型維護(hù)的狀態(tài)。此外,該模型可能要求推理服務(wù)器提供控制信號(hào),例如指示序列的開(kāi)始和結(jié)束。

Triton 服務(wù)器提供動(dòng)態(tài)(dynamic)與序列(sequence)兩種批量處理器(batcher),其中序列批量處理器必須用于這種有狀態(tài)模式,因?yàn)樾蛄兄械乃型评碚?qǐng)求都被路由到同一個(gè)模型實(shí)例,以便模型能夠正確地維護(hù)狀態(tài)。

序列批量處理程序還需要與模型相互傳遞信息,以指示序列的開(kāi)始、結(jié)束、具有可執(zhí)行推理請(qǐng)求的時(shí)間,以及序列的關(guān)聯(lián)編號(hào)(ID)。當(dāng)對(duì)有狀態(tài)模型進(jìn)行推理請(qǐng)求時(shí),客戶端應(yīng)用程序必須為序列中的所有請(qǐng)求提供相同的關(guān)聯(lián)編號(hào),并且還必須標(biāo)記序列的開(kāi)始和結(jié)束。

下面是這種模式的控制行為有“控制輸入”、“隱式狀態(tài)管理”“調(diào)度策略”三個(gè)部分,本文后面先說(shuō)明控制輸入的內(nèi)容,另外兩個(gè)部分在下篇文章內(nèi)講解。

(1) 控制輸入(control inputs)

為了使有狀態(tài)模型能夠與序列批處理程序一起正確運(yùn)行,模型通常必須接受 Triton 用于與模型通信的一個(gè)或多個(gè)控制輸入張量。

模型配置的sequence_batching里的control_input部分,指示模型如何公開(kāi)序列批處理程序應(yīng)用于這些控件的張量。所有控件都是可選的,下面是模型配置的一部分,顯示了所有可用控制信號(hào)的示例配置:

05204e62-9136-11ed-bfe3-dac502259ad0.png

  • 開(kāi)始(start):

這個(gè)輸入張量在配置中使用“CONTROL_SEQUENCE_START”指定,上面配置表明模型有一個(gè)名為“START”的輸入張量,其數(shù)據(jù)類型為 32 位浮點(diǎn)數(shù),序列批量處理程序?qū)⒃趯?duì)模型執(zhí)行推理時(shí)定義此張量。

START 輸入張量必須是一維的,大小等于批量大小,張量中的每個(gè)元素指示相應(yīng)批槽中的序列是否開(kāi)始。上面配置中“fp32_false_true”表示,當(dāng)張量元素等于 0 時(shí)為“false(不開(kāi)始)”、等于 1 時(shí)為“ture(開(kāi)始)”。

  • 結(jié)束(End):

結(jié)束輸入張量在配置中使用“CONTROL_SEQUENCE_END”指定,上面配置表明模型有一個(gè)名為“END”的輸入張量,具有 32 位浮點(diǎn)數(shù)據(jù)類型,序列批處理程序?qū)⒃趯?duì)模型執(zhí)行推理時(shí)定義此張量。

END 輸入張量必須是一維的,大小等于批量大小,張量中的每個(gè)元素指示相應(yīng)批槽中的序列是否開(kāi)始。上面配置中“fp32_false_true”表示,當(dāng)張量元素等于 0 時(shí)為“false(不結(jié)束)”、等于 1 時(shí)為“ture(結(jié)束)”。

  • 準(zhǔn)備就緒(Ready):

就緒輸入張量在配置中使用“CONTROL_SEQUENCE_READY”指定,上面配置表明模型有一個(gè)名為“READY”的輸入張量,其數(shù)據(jù)類型為 32 位浮點(diǎn)數(shù),序列批處理程序?qū)⒃趯?duì)模型執(zhí)行推理時(shí)定義此張量。

READY 輸入張量必須是一維的,大小等于批量大小,張量中的每個(gè)元素指示相應(yīng)批槽中的序列是否開(kāi)始。上面配置中“fp32_false_true”表示,當(dāng)張量元素等于 0 時(shí)為“false(未就緒)”、等于1時(shí)為“ture(就緒)”。

  • 關(guān)聯(lián)編號(hào)(Correlation ID):

關(guān)聯(lián)編號(hào)輸入張量在配置中使用“CONTROL_SEQUENCE_CORRID”指定,上面置表明模型有一個(gè)名為“CORRID”的輸入張量,其數(shù)據(jù)類型為無(wú)符號(hào) 64 位整數(shù),序列批處理程序?qū)⒃趯?duì)模型執(zhí)行推理時(shí)定義此張量。

CORRID 張量必須是一維的,大小等于批量大小,張量中的每個(gè)元素表示相應(yīng)批槽中序列的相關(guān)編號(hào)。

(2) 隱式狀態(tài)管理(implicit State Management)

這種方式允許有狀態(tài)模型將其狀態(tài)存儲(chǔ)在 Triton 服務(wù)器中。當(dāng)使用隱式狀態(tài)時(shí),有狀態(tài)模型不需要在模型內(nèi)部存儲(chǔ)推理所需的狀態(tài)。不過(guò)隱式狀態(tài)管理需要后端(backend)支持。目前只有 onnxruntime_backend 和 tensorrt_backend 支持隱式狀態(tài)。

下面是模型配置的一部分,在sequence_batching配置中的 state 部分,就是用于指示該模型正在使用隱式狀態(tài):

sequence_batching {
  state  [
    {
       input_name: "INPUT_STATE"
       output_name: "OUTPUT_STATE"
       data_type: TYPE_INT32
      dims:  [ -1 ]
    }
  ]
}

這里做簡(jiǎn)單的說(shuō)明:

  • 字段說(shuō)明:

  • input_name 字段:指定將包含輸入狀態(tài)的輸入張量的名稱;
  • output_name 字段:描述由包含輸出狀態(tài)的模型生成的輸出張量的名稱;
  • dims 字段:指定狀態(tài)張量的維度。

  • 執(zhí)行要點(diǎn):

  • 序列中第 i 個(gè)請(qǐng)求中模型提供的輸出狀態(tài),將用作第 i+1 個(gè)請(qǐng)求中的輸入狀態(tài);
  • 當(dāng) dims 字段包含可變大小的維度時(shí),輸入狀態(tài)和輸出狀態(tài)的尺度不必匹配;
  • 出于調(diào)試目的,客戶端可以請(qǐng)求輸出狀態(tài)。為了實(shí)現(xiàn)這個(gè)目的,模型配置的輸出部分必須將輸出狀態(tài)(OUTPUT_STATE)列為模型的一個(gè)輸出;
  • 由于需要傳輸額外的張量,從客戶端請(qǐng)求輸出狀態(tài)可能會(huì)增加請(qǐng)求延遲。

默認(rèn)情況下,序列中的啟動(dòng)請(qǐng)求包含輸入狀態(tài)的未初始化數(shù)據(jù)。模型可以使用請(qǐng)求中的開(kāi)始標(biāo)志來(lái)檢測(cè)新序列的開(kāi)始,并通過(guò)在模型輸出中提供初始狀態(tài)來(lái)初始化模型狀態(tài),如果模型狀態(tài)描述中的 dims 部分包含可變尺度,則 Triton 在開(kāi)始請(qǐng)求時(shí)將每個(gè)可變尺寸設(shè)置為“1”。對(duì)于序列中的其他非啟動(dòng)請(qǐng)求,輸入狀態(tài)是序列中前一個(gè)請(qǐng)求的輸出狀態(tài)。

對(duì)于狀態(tài)初的初始化部分,有以下兩種狀況需要調(diào)整:

  • 啟動(dòng)請(qǐng)求時(shí):則模型將“OUTPUT_STATE”設(shè)置為等于“INPUT”張量;

  • 非啟動(dòng)請(qǐng)求時(shí):將“OUTPUT_STATE”設(shè)為“INPUT”和“INPUT_STATE”張量之和。

除了上面討論的默認(rèn)狀態(tài)初始化之外,Triton 還提供了“從 0 開(kāi)始”與“從文件導(dǎo)入”兩種初始化狀態(tài)的機(jī)制。下面提供兩種初始化的配置示例:

052f0830-9136-11ed-bfe3-dac502259ad0.png

兩個(gè)配置只有粗體部分不一樣,其余內(nèi)容都是相同的,提供讀者做個(gè)參考。

以上是關(guān)于有狀態(tài)模型的“控制輸入”與“隱式狀態(tài)管理”的使用方式,剩下的“調(diào)度策略”部分,會(huì)在后文中提供完整的說(shuō)明。


原文標(biāo)題:NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-1

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 英偉達(dá)
    +關(guān)注

    關(guān)注

    23

    文章

    4112

    瀏覽量

    99588

原文標(biāo)題:NVIDIA Triton 系列文章(11):模型類別與調(diào)度器-1

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA與亞馬遜云科技深化合作伙伴關(guān)系

    NVIDIA 和亞馬遜云科技 (AWS) 擴(kuò)展雙方合作,增強(qiáng)在 AWS 平臺(tái)上的由 NVIDIA 驅(qū)動(dòng)的數(shù)據(jù)處理能力,并增加對(duì) NVIDIA Nemotron 開(kāi)放模型
    的頭像 發(fā)表于 03-23 15:17 ?409次閱讀

    NVIDIA 擴(kuò)展開(kāi)放模型系列,推動(dòng)代理式、物理和醫(yī)療 AI 下一階段發(fā)展

    新聞?wù)?●NVIDIA Nemotron 3 全模態(tài)理解模型 (Omni-understanding Models) 為 AI 智能體提供動(dòng)力 ,使其能夠?qū)崿F(xiàn)自然對(duì)話、復(fù)雜推理和高級(jí)視覺(jué)能力
    的頭像 發(fā)表于 03-17 09:18 ?480次閱讀
    <b class='flag-5'>NVIDIA</b> 擴(kuò)展開(kāi)放<b class='flag-5'>模型</b><b class='flag-5'>系列</b>,推動(dòng)代理式、物理和醫(yī)療 AI 下一階段發(fā)展

    NVIDIA Jetson模型賦能AI在邊緣端落地

    開(kāi)源生成式 AI 模型不再局限于數(shù)據(jù)中心,而是開(kāi)始深入到現(xiàn)實(shí)世界的各種機(jī)器中。從 Orin 到 Thor,NVIDIA Jetson 系列正在成為運(yùn)行 NVIDIA Nemotron、
    的頭像 發(fā)表于 03-16 16:27 ?569次閱讀
    <b class='flag-5'>NVIDIA</b> Jetson<b class='flag-5'>模型</b>賦能AI在邊緣端落地

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計(jì)目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的一大優(yōu)勢(shì)是允許開(kāi)發(fā)者基于其構(gòu)建自定義的 DS
    的頭像 發(fā)表于 02-10 10:31 ?491次閱讀

    NVIDIA 推出 Alpamayo 系列開(kāi)源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開(kāi)發(fā)

    新聞?wù)?: l NVIDIA 率先發(fā)布為應(yīng)對(duì)輔助駕駛長(zhǎng)尾場(chǎng)景挑戰(zhàn)而設(shè)計(jì)的開(kāi)源視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA);NVIDIA Alpamayo 系列還包含賦能輔助
    的頭像 發(fā)表于 01-06 09:40 ?498次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Alpamayo <b class='flag-5'>系列</b>開(kāi)源 AI <b class='flag-5'>模型</b>與工具,加速安全可靠的推理型輔助駕駛汽車開(kāi)發(fā)

    七大基于大模型的地面測(cè)控站網(wǎng)調(diào)度分系統(tǒng)軟件的應(yīng)用與未來(lái)發(fā)展

    出的七項(xiàng)具有代表性的智能調(diào)度系統(tǒng)/項(xiàng)目。這些系統(tǒng)均深度融合大模型、AI決策與數(shù)據(jù)驅(qū)動(dòng)優(yōu)化技術(shù),是航天測(cè)控體系向智能化、自主化升級(jí)的核心載體。 ? ?1.北京華盛恒輝大模型地面測(cè)控站網(wǎng)
    的頭像 發(fā)表于 12-19 15:42 ?483次閱讀

    NVIDIA 推出 Nemotron 3 系列開(kāi)放模型

    新聞?wù)?● Nemotron 3 系列開(kāi)放模型包含 Nano、Super 和 Ultra 三種規(guī)模,具有極高的效率和領(lǐng)先的精度,適用于代理式 AI 應(yīng)用開(kāi)發(fā)。 ● Nemotron 3 Nano
    的頭像 發(fā)表于 12-16 09:27 ?787次閱讀
    <b class='flag-5'>NVIDIA</b> 推出 Nemotron 3 <b class='flag-5'>系列</b>開(kāi)放<b class='flag-5'>模型</b>

    NVIDIA攜手Mistral AI發(fā)布全新開(kāi)源大語(yǔ)言模型系列

    全新 Mistral 3 系列涵蓋從前沿級(jí)到緊湊型模型,針對(duì) NVIDIA 平臺(tái)進(jìn)行了優(yōu)化,助力 Mistral AI 實(shí)現(xiàn)云到邊緣分布式智能愿景。
    的頭像 發(fā)表于 12-13 09:58 ?1412次閱讀

    NVIDIA推動(dòng)面向數(shù)字與物理AI的開(kāi)源模型發(fā)展

    NVIDIA 發(fā)布一系列涵蓋語(yǔ)音、安全與輔助駕駛領(lǐng)域的全新 AI 工具,其中包括面向移動(dòng)出行領(lǐng)域的行業(yè)級(jí)開(kāi)源視覺(jué)-語(yǔ)言-動(dòng)作推理模型(Reasoning VLA) NVIDIA DRI
    的頭像 發(fā)表于 12-13 09:50 ?1506次閱讀

    利用NVIDIA Cosmos開(kāi)放世界基礎(chǔ)模型加速物理AI開(kāi)發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開(kāi)放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測(cè)試與驗(yàn)證數(shù)據(jù)生成。借助 NVID
    的頭像 發(fā)表于 12-01 09:25 ?1368次閱讀

    面向科學(xué)仿真的開(kāi)放模型系列NVIDIA Apollo正式發(fā)布

    用于加速工業(yè)和計(jì)算工程的開(kāi)放模型系列 NVIDIA Apollo 于近日舉行的 SC25 大會(huì)上正式發(fā)布。
    的頭像 發(fā)表于 11-25 11:15 ?7.4w次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1988次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2推理<b class='flag-5'>模型</b>發(fā)布

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 開(kāi)源其物理 AI 平臺(tái) NVIDIA Cosmos 中的關(guān)鍵模型——NVIDIA Cosmos Reason-1-7B。
    的頭像 發(fā)表于 07-09 10:17 ?991次閱讀

    使用NVIDIA Triton和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    針對(duì)基于 Diffusion 和 LLM 類別的 TTS 模型NVIDIA Triton 和 TensorRT-LLM 方案能顯著提升推理速度。在單張
    的頭像 發(fā)表于 06-12 15:37 ?2047次閱讀
    使用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Triton</b>和TensorRT-LLM部署TTS應(yīng)用的最佳實(shí)踐

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期發(fā)布了 Cosmos Reason-1 的 7B 和 56B 兩款多模態(tài)大語(yǔ)言模型 (MLLM),它們經(jīng)過(guò)了“物理 AI 監(jiān)督微調(diào)”和“物理 AI 強(qiáng)化學(xué)習(xí)”兩個(gè)階段的訓(xùn)練。其中
    的頭像 發(fā)表于 06-04 13:43 ?1151次閱讀
    灯塔市| 海安县| 洮南市| 新乡市| 松江区| 饶河县| 左贡县| 汤阴县| 伊春市| 绥江县| 临邑县| 东港市| 伽师县| 卫辉市| 阜康市| 全南县| 民和| 广元市| 凌源市| 黄平县| 宁波市| 宁陕县| 嘉荫县| 若尔盖县| 阳西县| 鹿泉市| 洛阳市| 宜兰市| 竹溪县| 东乡族自治县| 保定市| 丹江口市| 平凉市| 鄂托克前旗| 德钦县| 行唐县| 辽源市| 德安县| 普宁市| 牟定县| 综艺|