作者:Arm 首席解決方案架構(gòu)師 沈綸銘
基于云的人工智能 (AI) 占據(jù)了大多數(shù)關(guān)注焦點(diǎn),但真正實(shí)現(xiàn)響應(yīng)和隱私保護(hù)的交互則發(fā)生在邊緣側(cè)。本文將展示如何基于 Arm 架構(gòu)的 NVIDIA DGX Spark 平臺(tái),構(gòu)建一個(gè)完全離線(xiàn)、實(shí)時(shí)運(yùn)行的語(yǔ)音助手系統(tǒng)。該系統(tǒng)集成了諸如 faster-whisper 和 vLLM 等開(kāi)源組件,在無(wú)需將數(shù)據(jù)發(fā)送到本地環(huán)境之外的情況下,實(shí)現(xiàn)低延遲、接近人類(lèi)對(duì)話(huà)體驗(yàn)的交互。
技術(shù)挑戰(zhàn)
對(duì)云的依賴(lài)?yán)Ь?/strong>
在許多企業(yè)環(huán)境中,技術(shù)人員需要快速訪(fǎng)問(wèn)內(nèi)部文檔或獲得實(shí)時(shí)支持。然而,依賴(lài)云端 API 會(huì)帶來(lái)三個(gè)關(guān)鍵瓶頸:
延遲:與云端 API 的往返通信會(huì)打斷語(yǔ)音對(duì)話(huà)的自然節(jié)奏。
隱私:將敏感數(shù)據(jù)發(fā)送到外部服務(wù)器會(huì)帶來(lái)合規(guī)風(fēng)險(xiǎn),尤其是在涉及專(zhuān)有內(nèi)容時(shí)。
成本與可控性:基于 API 的計(jì)費(fèi)模式和使用限制,會(huì)限制系統(tǒng)的擴(kuò)展能力以及針對(duì)特定行業(yè)需求的定制化能力。
解決方案
異構(gòu)的開(kāi)源流水線(xiàn)
為了應(yīng)對(duì)上述問(wèn)題,我們?cè)?DGX Spark 上設(shè)計(jì)了一套流水線(xiàn),DGX Spark 基于 NVIDIA GB10 Grace Blackwell 構(gòu)建。在該方案中,CPU 被定位一個(gè)主動(dòng)的、以低延遲為優(yōu)化目標(biāo)的計(jì)算引擎。
軟件棧
為了實(shí)現(xiàn)最大的靈活性與性能,整個(gè)系統(tǒng)運(yùn)行在以下開(kāi)源工具上:

關(guān)鍵組件與系統(tǒng)設(shè)計(jì)
實(shí)時(shí)音頻與語(yǔ)音活動(dòng)檢測(cè)
系統(tǒng)以 16kHz 單聲道音頻進(jìn)行采集,并使用 WebRTC 的語(yǔ)音活動(dòng)檢測(cè) (VAD) 在 30 毫秒的幀級(jí)別上檢測(cè)語(yǔ)音信號(hào)。該方法能夠確保系統(tǒng)只處理有效的語(yǔ)音輸入,同時(shí)忽略背景噪聲和靜音間隔。
基于 Arm 架構(gòu) CPU 的高速語(yǔ)音轉(zhuǎn)寫(xiě)
對(duì)于短時(shí)、對(duì)延遲敏感的任務(wù),系統(tǒng)并未將其分流到 GPU 上,而是使用高性能的 Arm CPU 集群(Arm Cortex-X 和 Cortex-A 系列核心)來(lái)處理。
為什么選擇 Arm:Arm 架構(gòu)針對(duì)實(shí)時(shí)搜索、小批量推理任務(wù)等延遲關(guān)鍵型工作負(fù)載進(jìn)行了優(yōu)化,
性能表現(xiàn):在 Arm CPU 上運(yùn)行 faster-whisper 可以滿(mǎn)足低延遲需求,在交互式系統(tǒng)中,語(yǔ)音轉(zhuǎn)寫(xiě)時(shí)間約為 70 至 90 毫秒。
基于 GPU 加速的推理 (vLLM)
在完成語(yǔ)音轉(zhuǎn)寫(xiě)后,文本會(huì)被傳遞至 vLLM 進(jìn)行處理。DGX Spark 采用統(tǒng)一內(nèi)存 (Unified Memory),使 CPU 與 GPU 共享同一內(nèi)存空間。該設(shè)計(jì)允許 GPU 直接訪(fǎng)問(wèn) CPU 的輸出數(shù)據(jù),從而無(wú)需顯式的數(shù)據(jù)傳輸或消除通過(guò) PCIe 進(jìn)行拷貝所帶來(lái)的額外開(kāi)銷(xiāo)。
系統(tǒng)架構(gòu)流程圖
以下流程圖展示了在 DGX Spark 上構(gòu)建的一個(gè)高性能異構(gòu)流水線(xiàn)。系統(tǒng)將任務(wù)分配給最合適的計(jì)算單元,以降低整體延遲。

圖:DGX Spark 異構(gòu)流水線(xiàn)。Arm CPU 負(fù)責(zé) STT 轉(zhuǎn)錄,
GPU 負(fù)責(zé)生成響應(yīng),從而顯著降低交互延遲。
在該流水線(xiàn)中,Cortex-X 和 Cortex-A CPU 核心用于處理對(duì)延遲敏感的任務(wù),例如音頻采集和語(yǔ)音轉(zhuǎn)寫(xiě)。這種方式可以實(shí)現(xiàn)低于 100 毫秒的響應(yīng)時(shí)間。系統(tǒng)采用統(tǒng)一內(nèi)存,使 GPU 能夠直接訪(fǎng)問(wèn)共享 DRAM 中的轉(zhuǎn)寫(xiě)數(shù)據(jù),從而消除了傳統(tǒng) PCIe 數(shù)據(jù)傳輸帶來(lái)的開(kāi)銷(xiāo)。整個(gè)流程的最后,由 NVIDIA GPU 運(yùn)行 vLLM 引擎生成智能響應(yīng),從而實(shí)現(xiàn)高吞吐量且具備隱私保護(hù)的對(duì)話(huà)體驗(yàn)。
演示:
本地語(yǔ)音交互與性能指標(biāo)
我們通過(guò)一個(gè)多輪“訂閱取消”場(chǎng)景對(duì)系統(tǒng)進(jìn)行了驗(yàn)證。系統(tǒng)能夠生成經(jīng)過(guò)驗(yàn)證、基于事實(shí)的回答,并且未出現(xiàn)幻覺(jué) (hallucination) 問(wèn)題。
性能指標(biāo):延遲拆解
以下數(shù)據(jù)記錄了從用戶(hù)語(yǔ)音結(jié)束到大語(yǔ)音模型開(kāi)始生成響應(yīng)之間的精確時(shí)間(即響應(yīng)延遲)。

觀(guān)察結(jié)果:所有對(duì)話(huà)輪次的平均響應(yīng)延遲約為四秒。該性能表現(xiàn)可與基于云的解決方案相媲美,同時(shí)在無(wú)需網(wǎng)絡(luò)連接的情況下提供了更強(qiáng)的隱私保護(hù)。
構(gòu)建你自己的系統(tǒng)?
理解 Arm 架構(gòu) AI 能力的最佳方式是親自實(shí)踐。為此,我們準(zhǔn)備了一套完整的、循序漸進(jìn)的 Learning Path,幫助你部署這一流水線(xiàn)??靵?lái)動(dòng)手實(shí)踐吧!
該 Learning Path 將指導(dǎo)以下內(nèi)容:
如何為邊緣設(shè)備配置專(zhuān)業(yè)級(jí)麥克風(fēng)采集系統(tǒng);
如何針對(duì) Arm Cortex-X 優(yōu)化 faster-whisper;
如何使用量化模型部署 vLLM,以最大化本地吞吐性能。
-
ARM
+關(guān)注
關(guān)注
135文章
9581瀏覽量
393361 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5678瀏覽量
110073 -
語(yǔ)音助手
+關(guān)注
關(guān)注
7文章
243瀏覽量
27639
原文標(biāo)題:在邊緣側(cè)重新思考語(yǔ)音 AI:基于 Arm 架構(gòu)的 DGX Spark 的實(shí)用離線(xiàn)流水線(xiàn)
文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
在NVIDIA DGX Spark平臺(tái)上對(duì)NVIDIA ConnectX-7 200G網(wǎng)卡配置教程
NVIDIA DGX Spark系統(tǒng)恢復(fù)過(guò)程與步驟
NVIDIA DGX Spark快速入門(mén)指南
Microchip發(fā)布專(zhuān)為NVIDIA DGX Spark而設(shè)計(jì)的MEC1723嵌入式控制器定制固件
NVIDIA 宣布推出 DGX Spark 個(gè)人 AI 計(jì)算機(jī)
NVIDIA GTC2025 亮點(diǎn) NVIDIA推出 DGX Spark個(gè)人AI計(jì)算機(jī)
NVIDIA發(fā)布AI優(yōu)先DGX個(gè)人計(jì)算系統(tǒng)
NVIDIA DGX Spark桌面AI計(jì)算機(jī)開(kāi)啟預(yù)訂
NVIDIA DGX Spark新一代AI超級(jí)計(jì)算機(jī)正式交付
NVIDIA DGX Spark助力構(gòu)建自己的AI模型
如何在DGX Spark上運(yùn)行NVIDIA Omniverse
基于Arm架構(gòu)的NVIDIA DGX Spark平臺(tái)構(gòu)建離線(xiàn)語(yǔ)音助手系統(tǒng)
評(píng)論