哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于Arm平臺(tái)的端到端int8 Conformer模型部署

Arm社區(qū) ? 來(lái)源:Arm社區(qū) ? 2026-02-24 10:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 工程部主任軟件工程師 Alexey Vilkin 等

在邊緣側(cè)運(yùn)行高質(zhì)量的語(yǔ)音與音頻模型頗具挑戰(zhàn),需滿(mǎn)足時(shí)延、內(nèi)存、功耗和模型大小等多方面的嚴(yán)苛約束。不同于云端部署,邊緣側(cè)系統(tǒng)通常離線(xiàn)運(yùn)行,需兼顧用戶(hù)隱私與可預(yù)測(cè)的實(shí)時(shí)性能。這些落地場(chǎng)景涵蓋端側(cè)語(yǔ)音轉(zhuǎn)文本、語(yǔ)音助手、語(yǔ)音控制的物聯(lián)網(wǎng)設(shè)備、工業(yè)人機(jī)界面,以及常開(kāi)式音頻應(yīng)用等諸多用例。

Conformer 模型結(jié)合卷積層與基于 Transformer 的自注意力機(jī)制,具備出色的語(yǔ)音識(shí)別精度。若要在嵌入式硬件上實(shí)現(xiàn)高效執(zhí)行,需對(duì)量化與部署環(huán)節(jié)進(jìn)行精細(xì)處理。

本文將展示一個(gè)涵蓋訓(xùn)練、量化及在基于 Arm 架構(gòu)的嵌入式平臺(tái)上部署 int8 Conformer 模型的端到端的工作流。通過(guò)使用 ExecuTorch 為模型進(jìn)行量化,最終得以高效地部署到 Arm Ethos-U85 NPU 上。該演示表明基于 Transformer 架構(gòu)的現(xiàn)代語(yǔ)音識(shí)別模型可以在 Arm 軟硬件生態(tài)系統(tǒng)中高效運(yùn)行。

開(kāi)發(fā)者可通過(guò) Arm 固定虛擬平臺(tái) (Fixed Virtual Platform, FVP) 仿真平臺(tái)來(lái)使用 Arm 機(jī)器學(xué)習(xí)嵌入式評(píng)估套件 (Machine Learning Embedded Evaluation Kit, MLEK)[1]體驗(yàn)部署本演示。

[1] Arm MLEK: https://gitlab.arm.com/artificial-intelligence/ethos-u/ml-embedded-evaluation-kit

模型訓(xùn)練

本演示選用了一個(gè)主流的開(kāi)源 Conformer 模型。該模型是一個(gè)基于 Transformer 架構(gòu)的語(yǔ)音識(shí)別網(wǎng)絡(luò),適用于嵌入式設(shè)備。由于原模型未提供預(yù)訓(xùn)練權(quán)重,我們首先訓(xùn)練了一個(gè)性能良好的 FP32 基準(zhǔn)模型,作為后續(xù)量化與部署到 Ethos-U85 的基礎(chǔ)。經(jīng)過(guò)推理速度測(cè)試,我們最終選定 Conformer-S 架構(gòu),其采用 144 維編碼器、16 層網(wǎng)絡(luò)結(jié)構(gòu)與 4 個(gè)注意力頭,并使用 CTC 損失函數(shù)完成語(yǔ)音轉(zhuǎn)文本的序列對(duì)齊。訓(xùn)練所用的數(shù)據(jù)集為 LibriSpeech 標(biāo)準(zhǔn)訓(xùn)練與評(píng)估子集。

我們采用了一個(gè)直接在 LibriSpeech 數(shù)據(jù)集上訓(xùn)練的 SentencePiece 分詞器。它生成了一個(gè)包含 128 個(gè)詞元 (token) 的精簡(jiǎn)詞表,使整個(gè)流程簡(jiǎn)單、獨(dú)立運(yùn)行、無(wú)需外部依賴(lài)。該分詞器采用 Unigram 模型實(shí)現(xiàn),且在訓(xùn)練與評(píng)估階段保持配置完全一致。

早期實(shí)驗(yàn)中,我們?cè)捎脙H包含英文字母的基礎(chǔ)字符級(jí)詞表訓(xùn)練模型。該方案雖可正常運(yùn)行,但模型收斂速度較慢,詞錯(cuò)誤率 (WER) 也顯著增高。Subword 單元通過(guò)合并高頻詞素與短詞匯來(lái)縮短目標(biāo)序列,既能引入適度的弱語(yǔ)言先驗(yàn),又能穩(wěn)定 CTC 任務(wù)中聲學(xué)特征到詞元的映射關(guān)系,進(jìn)而有效提升模型收斂速度與識(shí)別準(zhǔn)確度。

在預(yù)處理階段,本流程以 16kHz 采樣率提取 80 維的對(duì)數(shù)梅爾頻譜圖。我們嘗試了多種數(shù)據(jù)增強(qiáng)方法,其中頻率遮擋、時(shí)間遮擋以及隨機(jī)語(yǔ)速擾動(dòng),在訓(xùn)練過(guò)程中帶來(lái)了穩(wěn)定的 WER 改進(jìn),使得模型識(shí)別結(jié)果更準(zhǔn)確。

在初期實(shí)驗(yàn)中,我們遇到了收斂問(wèn)題,這類(lèi)問(wèn)題在 Conformer 類(lèi)模型中較為常見(jiàn)。我們通過(guò)將批次大小與學(xué)習(xí)率調(diào)度方案對(duì)齊、并引入權(quán)重衰減以約束權(quán)重取值,成功地解決了該問(wèn)題;同時(shí)權(quán)重衰減通常也能有效提升后續(xù) int8 量化的精度。

在該配置下,模型在 test?clean 測(cè)試子集上取得了 6.43% 的詞錯(cuò)誤率,我們將這一結(jié)果作為量化環(huán)節(jié)的 FP32 基準(zhǔn)。經(jīng)內(nèi)部評(píng)估確認(rèn),該精度水平已滿(mǎn)足演示場(chǎng)景的需求,因此我們?cè)诖穗A段完成模型訓(xùn)練。

Conformer-S 架構(gòu)本身仍具備進(jìn)一步優(yōu)化的潛力。在后續(xù)迭代中,我們計(jì)劃將數(shù)據(jù)集拓展至 LibriSpeech 之外,并嘗試更豐富的數(shù)據(jù)增強(qiáng)方法。因?yàn)槲覀冊(cè)谟?xùn)練后期觀察到模型出現(xiàn)過(guò)擬合的早期跡象。為簡(jiǎn)化實(shí)現(xiàn),當(dāng)前系統(tǒng)直接采用了 Conformer 的原始輸出。根據(jù)多項(xiàng)相關(guān)研究表明,引入一個(gè)輕量級(jí)語(yǔ)言模型(例如 N?gram 或小型 LSTM 等),可進(jìn)一步降低詞錯(cuò)誤率。

模型訓(xùn)練過(guò)程中我們采用了動(dòng)態(tài)長(zhǎng)度的語(yǔ)音樣本,而端側(cè)推理時(shí)卻必須處理固定長(zhǎng)度的音頻片段。我們對(duì)多種音頻切片的策略進(jìn)行了評(píng)估驗(yàn)證,結(jié)果表明:對(duì)重疊片段的預(yù)測(cè)結(jié)果進(jìn)行聚合,能在精度與時(shí)延之間取得最優(yōu)平衡。該方案使得系統(tǒng)能夠使用更短的音頻片段來(lái)實(shí)現(xiàn)實(shí)時(shí)推理,同時(shí)保持較高的識(shí)別水準(zhǔn)。

訓(xùn)練后量化 (PTQ)

我們采用 ExecuTorch 來(lái)進(jìn)行模型的訓(xùn)練后量化及后續(xù)部署。ExecuTorch 中的 Arm 后端已支持包括 Conformer 在內(nèi)的數(shù)百種模型。模型部署流程如下:

第一步:通過(guò) torch.export.export API 將模型導(dǎo)出至 ATen 算子集。

第二步:為實(shí)現(xiàn)在 Ethos-U85 NPU 上部署,使用 ExecuTorch 中的 Ethos-U 量化器對(duì)模型執(zhí)行量化操作。Ethos-U 量化器的定義方式如下:

compile_spec = EthosUCompileSpec(

target="ethos-u85-256",

system_config="Ethos_U85_SYS_Flash_High",

memory_mode="Shared_Sram",

extra_flags=["--output-format=raw", "--debug-force-regor"],

)

quantizer = EthosUQuantizer(compile_spec)

config = get_symmetric_quantization_config(is_per_channel=True)

quantizer.set_global(config)

第三步:采用逐通道量化,以保證優(yōu)異的 int8 精度。

quantized_graph_module = prepare_pt2e(graph_module, quantizer) # Annotate the graph with observers

print("Calibrating...")

for feats, feat_lens, *_ in calibration_loader:

quantized_graph_module(feats, feat_lens) # Pass true data, similar to what the model will see when running inference

quantized_graph_module = convert_pt2e(quantized_graph_module)

第四步:對(duì)模型進(jìn)行校準(zhǔn)。校準(zhǔn)過(guò)程會(huì)在數(shù)據(jù)類(lèi)型從 FP32 轉(zhuǎn)換為 int8 時(shí),為每一層選取最優(yōu)的量化參數(shù)。在 ExecuTorch 中,可按照以下步驟對(duì)模型進(jìn)行校準(zhǔn):

partitioner = EthosUPartitioner(compile_spec)

edge_program_manager = to_edge_transform_and_lower(

quant_exported_program,

partitioner=[partitioner],

compile_config=EdgeCompileConfig(

_check_ir_validity=False,

),

)

第五步:調(diào)用 to_edge_transform_and_lower 函數(shù),將神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換下沉至 TOSA 格式,并完成模型編譯。

第六步:將程序轉(zhuǎn)換至 ExecuTorch 后端,并保存為 .pte 模型文件。

executorch_program_manager = edge_program_manager.to_executorch(

config=ExecutorchBackendConfig(extract_delegate_segments=False)

)

save_pte_program(

executorch_program_manager, f"conformer_quantized_{npu_variant}_{memory_mode}.pte"

)

借助 ExecuTorch 進(jìn)行訓(xùn)練后量化的完整代碼可在此[2]獲取。若不想自行執(zhí)行訓(xùn)練后量化操作,可在 Hugging Face 上獲取該模型的量化版本[3]。

[2] https://github.com/Arm-Examples/ML-examples/tree/main/pytorch-conformer-train-quantize/post_training_quantization

[3] https://huggingface.co/Arm/stt_en_conformer_executorch_small

將上述操作所生成的 .pte 文件保存至系統(tǒng)級(jí)芯片 (SoC) 的外部存儲(chǔ)器中。該文件包含模型權(quán)重、偏置以及供 NPU 使用的指令流。Ethos-U 會(huì)讀取此文件并自主完成推理。

在 Arm 平臺(tái)上部署

Arm MLEK 是部署與評(píng)估 Ethos-U85 的主要工具。通過(guò)與 ExecuTorch 集成,可實(shí)現(xiàn)在嵌入式目標(biāo)平臺(tái)上高效地執(zhí)行 PyTorch 模型。下圖展示了更新后的軟件棧,支持在 MLEK 中啟用 ExecuTorch 運(yùn)行時(shí)。

1b8c4046-0656-11f1-90a1-92fbcf53809c.png

圖:更新后的 MLEK 軟件架構(gòu):在共享抽象層下,實(shí)現(xiàn) ExecuTorch 與 TensorFlow Lite Micro 的集成;可復(fù)用的平臺(tái)無(wú)關(guān) API 支持各類(lèi)示例用例跨框架、跨目標(biāo)平臺(tái)運(yùn)行。

MLEK 25.12 版本新增了對(duì) ExecuTorch 1.0.0 的支持。在本次 Conformer 模型部署中,我們復(fù)用了現(xiàn)有的自動(dòng)語(yǔ)音識(shí)別示例并完成適配,實(shí)現(xiàn)量化后的 Conformer 模型在 Ethos-U85 上的端到端運(yùn)行。

在 Corstone?320 FVP 上運(yùn)行演示

Arm 提供了一款示例應(yīng)用,可借助 Arm Corstone-320 FVP,在 Ethos-U85 上運(yùn)行預(yù)訓(xùn)練的 Conformer 模型。請(qǐng)參照以下步驟:

第一步:確保已安裝前置依賴(lài)項(xiàng):

Arm Corstone-320 FVP:

https://developer.arm.com/Tools%20and%20Software/Fixed%20Virtual%20Platforms/IoT%20FVPs

適用 AArch32 裸機(jī)環(huán)境的 Arm GNU 工具鏈:

https://developer.arm.com/downloads/-/arm-gnu-toolchain-downloads

第二步:克隆并初始化 Arm MLEK 項(xiàng)目:

git clone https://gitlab.arm.com/artificial-intelligence/ethos-u/ml-embedded-evaluation-kit.git

cd ml-embedded-evaluation-kit

git checkout 9e9957c6

git submodule update --init --recursive

第三步:構(gòu)建 Ethos-U85 項(xiàng)目:

python set_up_default_resources.py --parallel $(nproc) --ml-framework executorch --use-case asr

cmake -B build --preset mps4-320-gcc -DML_FRAMEWORK="ExecuTorch" -DUSE_CASE_BUILD="asr" -DETHOS_U_NPU_TIMING_ADAPTER_ENABLED="OFF"

cmake --build build -j $(nproc)

第四步:在 Corstone-320 FVP 上運(yùn)行自動(dòng)語(yǔ)音識(shí)別應(yīng)用:

~/FVP_Corstone_SSE-320/models/Linux64_GCC-9.3/FVP_Corstone_SSE-320

-a build/bin/ethos-u-asr.axf

-C mps4_board.subsystem.ethosu.extra_args="--fast"

應(yīng)用將對(duì)一組示例音頻片段開(kāi)展語(yǔ)音檢測(cè)。推理運(yùn)行期間,可視化界面會(huì)顯示輸入音頻的波形與生成的梅爾頻譜圖。系統(tǒng)會(huì)將梅爾頻譜圖數(shù)據(jù)填充至 15 秒時(shí)長(zhǎng),并作為輸入送入 Conformer 模型。

1bf0309c-0656-11f1-90a1-92fbcf53809c.png

通過(guò) Conformer 模型對(duì)應(yīng)用內(nèi)置的示例音頻片段進(jìn)行語(yǔ)音檢測(cè)。在控制臺(tái)中,可查看模型當(dāng)前使用的具體輸入音頻文件,以及輸入/輸出張量的形狀與內(nèi)存占用等信息:

INFO - Number of input tensors: 2

INFO - Tensor: 480000 bytes; 120000 elements

INFO - Shape:[1, 1500, 80]

INFO - Type:fp32

INFO - Tensor: 4 bytes; 1 elements

INFO - Shape:[1]

INFO - Type:int32

INFO - Number of output tensors: 2

INFO - Tensor: 192984 bytes; 48246 elements

INFO - Shape:[1, 374, 129]

INFO - Type:fp32

INFO - Tensor: 4 bytes; 1 elements

INFO - Shape:[1]

INFO - Type:int32

INFO - Total memory usage:

INFO - Method memory: Used: 1080898; Peak: 1080898; Available: 2097152

INFO - Temp memory: Used: 0; Peak: 117; Available: 33554432

INFO - Model initialisation complete

INFO - Initialising audio interface: Static sample audio files

INFO - Using sample audio: another_door.wav

稍等片刻后,即可在控制臺(tái)中看到解碼后的輸出結(jié)果。

INFO - Decoded output: and he walked immediately out of the apartment by another door

源音頻文件位于 resources/asr/samples 目錄下,你可以播放這些音頻,并與控制臺(tái)輸出的解碼文本進(jìn)行對(duì)比。界面中同樣會(huì)顯示性能相關(guān)數(shù)據(jù)。

性能評(píng)估

在前面章節(jié)中,我們?cè)?FVP 的快速模式下運(yùn)行了該應(yīng)用。該模式有助于驗(yàn)證功能,但其顯示的性能數(shù)據(jù)并不準(zhǔn)確。若要獲取準(zhǔn)確的性能指標(biāo),需關(guān)閉快速模式,重新構(gòu)建并運(yùn)行該應(yīng)用。這個(gè)過(guò)程耗時(shí)較長(zhǎng),可能超過(guò) 1 小時(shí)。具體步驟如下:

# Build

rm-rf build

python set_up_default_resources.py --parallel $(nproc) --ml-framework executorch --use-case asr

cmake -B build --preset mps4-320-gcc -DML_FRAMEWORK="ExecuTorch" -DUSE_CASE_BUILD="asr"

cmake --build build -j $(nproc)

# Run

~/FVP_Corstone_SSE-320/models/Linux64_GCC-9.3/FVP_Corstone_SSE-320

-a build/bin/ethos-u-asr.axf

若按照上述步驟正確構(gòu)建并運(yùn)行應(yīng)用,將看到類(lèi)似于如下所示的性能指標(biāo):

INFO - NPU ACTIVE: 206370332 cycles

INFO - NPU ETHOSU_PMU_SRAM_RD_DATA_BEAT_RECEIVED: 13858306 beats

INFO - NPU ETHOSU_PMU_SRAM_WR_DATA_BEAT_WRITTEN: 7968438 beats

INFO - NPU ETHOSU_PMU_EXT_RD_DATA_BEAT_RECEIVED: 26978241 beats

INFO - NPU ETHOSU_PMU_EXT_WR_DATA_BEAT_WRITTEN: 18985466 beats

INFO - NPU IDLE: 724 cycles

INFO - NPU TOTAL: 206371056 cycles

控制臺(tái)輸出將展示多項(xiàng)性能指標(biāo)。例如,NPU ACTIVE 指標(biāo)用于統(tǒng)計(jì) Ethos-U85 完成 Conformer 模型推理所消耗的時(shí)鐘周期數(shù)。我們所使用的 Conformer 模型,采用 15 秒音頻的固定輸入規(guī)格;當(dāng)硬件系統(tǒng)主頻為 1.0 GHz 時(shí),該性能數(shù)據(jù)表明,模型推理可在 0.206 秒內(nèi)完成。MLEK 項(xiàng)目文檔中,詳細(xì)說(shuō)明了各類(lèi)性能計(jì)數(shù)器的具體含義,包括內(nèi)存帶寬及時(shí)延配置相關(guān)指標(biāo)。

結(jié)論與后續(xù)工作

本文展示了在 Arm 嵌入式平臺(tái)上,訓(xùn)練、量化并部署 int8 Conformer 語(yǔ)音識(shí)別模型的端到端工作流。借助 ExecuTorch 與 Ethos-U85 NPU,我們驗(yàn)證了基于 Transformer 架構(gòu)的語(yǔ)音模型可在邊緣側(cè)高效運(yùn)行,同時(shí)滿(mǎn)足嚴(yán)格的性能與功耗約束。這充分體現(xiàn)了 Arm 軟硬件生態(tài)系統(tǒng)賦能開(kāi)發(fā)者,將性能卓越的語(yǔ)音與音頻模型落地到嵌入式設(shè)備中,且無(wú)需犧牲能效與識(shí)別精度。

歡迎各位開(kāi)發(fā)者們點(diǎn)擊閱讀原文,進(jìn)一步了解如何在 Arm 平臺(tái)上使用 ExecuTorch 部署優(yōu)化后的 AI 工作負(fù)載,也可以使用 Arm MLEK 探索 Ethos-U 系列 NPU,優(yōu)化邊緣側(cè) AI 部署!

* 本文為 Arm 原創(chuàng)文章,轉(zhuǎn)載請(qǐng)留言聯(lián)系獲得授權(quán)并注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9581

    瀏覽量

    393361
  • 嵌入式
    +關(guān)注

    關(guān)注

    5208

    文章

    20603

    瀏覽量

    336501
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3808

    瀏覽量

    52241

原文標(biāo)題:基于 Arm 平臺(tái)的端到端 int8 Conformer:訓(xùn)練、量化及 Ethos-U85 上部署

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    esp-dl int8量化模型數(shù)據(jù)集評(píng)估精度下降的疑問(wèn)求解?

    一 試著將模型進(jìn)行了esp-dl上int16和int8的量化,并在測(cè)試數(shù)據(jù)集上進(jìn)行精度評(píng)估,其中int16的模型精度基本沒(méi)有下降,但是
    發(fā)表于 06-28 15:10

    是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成INT8訓(xùn)練后量化模型?

    無(wú)法確定是否可以輸入隨機(jī)數(shù)據(jù)集來(lái)生成 INT8 訓(xùn)練后量化模型
    發(fā)表于 03-06 06:45

    在OpenVINO?工具套件的深度學(xué)習(xí)工作臺(tái)中無(wú)法導(dǎo)出INT8模型怎么解決?

    無(wú)法在 OpenVINO? 工具套件的深度學(xué)習(xí) (DL) 工作臺(tái)中導(dǎo)出 INT8 模型
    發(fā)表于 03-06 07:54

    為什么無(wú)法在GPU上使用INT8INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4 和 int8,并在 GPU 上使用 OpenVINO? 運(yùn)行推理。 沒(méi)有可用的
    發(fā)表于 06-23 07:11

    請(qǐng)問(wèn)在新CPU上推斷INT8模型的速度是否比舊CPU快?

    與采用舊 CPU 的推理相比,在新 CPU 上推斷的 INT8 模型的推理速度更快。
    發(fā)表于 08-15 08:28

    Xilinx INT8 優(yōu)化開(kāi)發(fā)嵌入式視覺(jué)

    賽靈思 INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計(jì)算機(jī)視覺(jué)功能的嵌入式視覺(jué)應(yīng)用提供最優(yōu)異的性能和能效最出色的計(jì)算方法。與其他 FPGA/DSP 架構(gòu)相比,賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運(yùn)算上能實(shí)現(xiàn) 1.75 倍的性能優(yōu)勢(shì)。
    的頭像 發(fā)表于 09-22 17:27 ?6125次閱讀

    DSP48E2 Slice 上優(yōu)化 INT8 深度學(xué)習(xí)運(yùn)算分析

    本白皮書(shū)旨在探索實(shí)現(xiàn)在賽靈思 DSP48E2 Slice 上的 INT8 深度學(xué)習(xí)運(yùn)算,以及與其他 FPGA 的對(duì)比情況。在相同資源數(shù)量情況下,賽靈思的 DSP 架構(gòu)憑借 INT8INT8 深度
    發(fā)表于 11-16 14:23 ?1.6w次閱讀
    DSP48E2 Slice 上優(yōu)化 <b class='flag-5'>INT8</b> 深度學(xué)習(xí)運(yùn)算分析

    駕駛模型的發(fā)展歷程

    尋找駕駛模型的最早嘗試,至少可以追溯1989年的ALVINN模型【2】。ALVINN是一
    的頭像 發(fā)表于 03-28 15:26 ?5888次閱讀
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>駕駛<b class='flag-5'>模型</b>的發(fā)展歷程

    基于TensorRT完成NanoDet模型部署

    【GiantPandaCV導(dǎo)語(yǔ)】本文為大家介紹了一個(gè)TensorRT int8 量化部署 NanoDet 模型的教程,并開(kāi)源了全部代碼。主要是教你如何搭建tensorrt...
    發(fā)表于 01-25 19:04 ?0次下載
    基于TensorRT完成NanoDet<b class='flag-5'>模型</b><b class='flag-5'>部署</b>

    Int8量化-ncnn社區(qū)Int8重構(gòu)之路

    本文是對(duì)NCNN社區(qū)int8模塊的重構(gòu)開(kāi)發(fā),再也不用擔(dān)心溢出問(wèn)題了,速度也還行。作者:圈圈蟲(chóng)首發(fā)知乎傳送門(mén)ncnnBUG1989/caffe-int8-conver...
    發(fā)表于 02-07 12:38 ?1次下載
    <b class='flag-5'>Int8</b>量化-ncnn社區(qū)<b class='flag-5'>Int8</b>重構(gòu)之路

    INT8量子化PyTorch x86處理器

    INT8量子化PyTorch x86處理器
    的頭像 發(fā)表于 08-31 14:27 ?1893次閱讀
    <b class='flag-5'>INT8</b>量子化PyTorch x86處理器

    探索ChatGLM2在算能BM1684X上INT8量化部署,加速大模型商業(yè)落地

    |探索ChatGLM2-6B模型與TPU部署》。為了進(jìn)一步提升模型的推理效率與降低存儲(chǔ)空間,我們對(duì)模型進(jìn)行了INT8量化
    的頭像 發(fā)表于 10-10 10:18 ?5835次閱讀
    探索ChatGLM2在算能BM1684X上<b class='flag-5'>INT8</b>量化<b class='flag-5'>部署</b>,加速大<b class='flag-5'>模型</b>商業(yè)落地

    Yolo系列模型部署、精度對(duì)齊與int8量化加速

    可視化其他量化形式的engine和問(wèn)題engine進(jìn)行對(duì)比,我們發(fā)現(xiàn)是一些層的int8量化會(huì)出問(wèn)題,由此找出問(wèn)題量化節(jié)點(diǎn)解決。
    的頭像 發(fā)表于 11-23 16:40 ?2743次閱讀

    理想汽車(chē)自動(dòng)駕駛模型實(shí)現(xiàn)

    理想汽車(chē)在感知、跟蹤、預(yù)測(cè)、決策和規(guī)劃等方面都進(jìn)行了模型化,最終實(shí)現(xiàn)了模型。這種模型不僅
    發(fā)表于 04-12 12:17 ?1050次閱讀
    理想汽車(chē)自動(dòng)駕駛<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b><b class='flag-5'>模型</b>實(shí)現(xiàn)

    小鵬汽車(chē)發(fā)布模型

    小鵬汽車(chē)近日宣布,其成功研發(fā)并發(fā)布了“國(guó)內(nèi)首個(gè)量產(chǎn)上車(chē)”的模型,該模型可直接通過(guò)傳感器輸入內(nèi)容來(lái)控制車(chē)輛,標(biāo)志著智能駕駛技術(shù)的新突破
    的頭像 發(fā)表于 05-21 15:09 ?1380次閱讀
    逊克县| 方山县| 军事| 岗巴县| 谢通门县| 成都市| 韶山市| 井冈山市| 报价| 建始县| 河北区| 璧山县| 宁化县| 克拉玛依市| 博兴县| 北京市| 海丰县| 鄂温| 安丘市| 福海县| 高唐县| 洛隆县| 柘城县| 会泽县| 仙居县| 大足县| 靖远县| 绥中县| 龙门县| 彝良县| 新闻| 锡林郭勒盟| 黎平县| 固安县| 乌拉特前旗| 桂林市| 阿勒泰市| 苏尼特左旗| 永定县| 广饶县| 松滋市|