輔助駕駛研究領(lǐng)域正經(jīng)歷一場(chǎng)快速變革。視覺-語言-動(dòng)作推理模型(Reasoning VLA) 的出現(xiàn)正重塑該領(lǐng)域,這些模型為輔助駕駛決策賦予了類人的思維能力。這類模型可視為在語義空間中運(yùn)行的隱式世界模型,使輔助駕駛能夠逐步解決復(fù)雜問題,并生成反映人類思維過程的推理軌跡。這種變革不僅體現(xiàn)在模型本身:傳統(tǒng)的開環(huán)評(píng)估已不足以嚴(yán)謹(jǐn)?shù)貦z驗(yàn)此類模型,因此需要開發(fā)新的評(píng)估工具。
近期,NVIDIA 推出了 Alpamayo 系列,該系列包含模型、仿真工具及數(shù)據(jù)集,旨在推動(dòng)安全可靠的推理型輔助駕駛汽車開發(fā)。我們的目標(biāo)是為研究人員和開發(fā)者提供一個(gè)靈活、快速且可擴(kuò)展的平臺(tái),用于在真實(shí)的閉環(huán)環(huán)境中評(píng)估并最終訓(xùn)練新一代基于推理的輔助駕駛架構(gòu)。
在這篇博客中,我們將介紹 Alpamayo 以及如何快速啟動(dòng)基于推理的輔助駕駛開發(fā):
第一部分:NVIDIA Alpamayo 1——具備 100 億參數(shù)的開源 VLA 推理模型,以及如何利用該模型生成軌跡預(yù)測(cè)結(jié)果并查看對(duì)應(yīng)的推理路徑。
第二部分:物理 AI 數(shù)據(jù)集——當(dāng)前規(guī)模大、地域分布廣的輔助駕駛開放數(shù)據(jù)集,可用于訓(xùn)練和評(píng)估此類模型。
第三部分:NVIDIA AlpaSim——專為評(píng)估端到端模型設(shè)計(jì)的開源端到端仿真框架。
這三個(gè)關(guān)鍵組件為構(gòu)建 VLA 推理模型提供了必要的基礎(chǔ)要素:基礎(chǔ)模型、用于訓(xùn)練的大規(guī)模數(shù)據(jù)集,以及用于測(cè)試和評(píng)估的仿真器。
第一部分:Alpamayo 1——面向輔助駕駛的開源 VLA 推理模型
只需三步,即可開始使用 Alpamayo VLA 推理模型。
步驟 1:獲取 Alpamayo 模型權(quán)重和代碼
Hugging Face 倉庫包含預(yù)訓(xùn)練的模型權(quán)重,可通過GitHub 上的對(duì)應(yīng)代碼加載。
步驟 2:環(huán)境準(zhǔn)備
Alpamayo GitHub 倉庫包含設(shè)置開發(fā)環(huán)境的步驟,包括安裝 uv(如果尚未安裝)以及創(chuàng)建 Python 虛擬環(huán)境。
# Install uv curl -LsSf https://astral.sh/uv/install.sh | sh export PATH="$HOME/.local/bin:$PATH" # Setup the virtual environment uv venv ar1_venv source ar1_venv/bin/activate # Install pip in the virtual environment (if missing) ./ar1_venv/bin/python -m ensurepip # Install Jupyter notebook package ./ar1_venv/bin/python -m pip install notebook uv sync --active
最后,由于該模型需要訪問 Hugging Face 的部分受限資源,請(qǐng)?jiān)诖颂幧暾?qǐng)?jiān)L問權(quán)限:
●PhysicalAI-AV Dataset
●Alpamayo-R1-10B Model Weights
●物理 AI – 輔助駕駛數(shù)據(jù)集
●Alpamayo-R1-10B 模型權(quán)重
然后,使用以下方式進(jìn)行身份驗(yàn)證:
hf auth login
并在此獲取 Hugging Face token。
步驟 3:運(yùn)行 Alpamayo VLA 推理模型
模型倉庫包含一個(gè)notebook文件,用于下載 Alpamayo 模型的權(quán)重參數(shù),加載 NVIDIA 物理 AI 輔助駕駛數(shù)據(jù)集示例數(shù)據(jù),運(yùn)行模型,最后可視化輸出軌跡及其關(guān)聯(lián)的推理路徑。
具體而言,示例數(shù)據(jù)包含自車駛過施工區(qū)域的場(chǎng)景,下圖展示了來自四個(gè)攝像頭(分別位于前排左側(cè)、前排廣角、前排右側(cè)、前排遠(yuǎn)攝位置,對(duì)應(yīng)下圖各行)的四個(gè)時(shí)間步(列)。
圖 1. 示例數(shù)據(jù)樣本的可視化展示,其中包含施工區(qū)域,該數(shù)據(jù)將被輸入模型。具體展示了來自 4 個(gè)攝像頭(前左、前廣角、前右、前遠(yuǎn)攝)的 4個(gè)時(shí)間步(列)。
在 Alpamayo 模型運(yùn)行后,notebook 中可能出現(xiàn)的示例輸出為:“向左微調(diào)方向,避開侵占車道的施工路錐,擴(kuò)大通行間距”,對(duì)應(yīng)的預(yù)測(cè)軌跡與實(shí)際軌跡如下圖所示。

圖 2. 模型輸出軌跡(藍(lán)色)與實(shí)際軌跡(紅色)的可視化對(duì)比圖。
若需生成更多軌跡和推理路徑,請(qǐng)將推理調(diào)用中的 num_traj_samples=1 參數(shù)修改為更大的數(shù)值。
第二部分:面向大規(guī)模多樣化輔助駕駛數(shù)據(jù)的物理AI 數(shù)據(jù)集
物理 AI 輔助駕駛數(shù)據(jù)集是目前規(guī)模較大、地域分布廣的多傳感器數(shù)據(jù)集,助力輔助駕駛研究人員構(gòu)建新一代基于物理 AI 的端到端駕駛系統(tǒng)。
圖 3. 物理 AI 輔助駕駛數(shù)據(jù)集片段,該數(shù)據(jù)集是規(guī)模較大、地域分布廣的多傳感器輔助駕駛數(shù)據(jù)集。
該數(shù)據(jù)集包含了 25 個(gè)國家、超過 2,500 座城市共計(jì) 1,727 小時(shí)的駕駛視頻數(shù)據(jù)(覆蓋范圍如下圖所示,顏色深淺代表各國收錄的片段數(shù)量)。數(shù)據(jù)采集范圍涵蓋多樣化的交通狀況、天氣條件、道路障礙物及行人活動(dòng)。整體數(shù)據(jù)集由 310,895 段獨(dú)立視頻片段構(gòu)成,每段時(shí)長(zhǎng)均為 20 秒。所有片段均包含多攝像頭與激光雷達(dá)的傳感器數(shù)據(jù),其中 163,850 個(gè)片段還同步收錄了毫米波雷達(dá)數(shù)據(jù)。
圖 4. 物理 AI 輔助駕駛數(shù)據(jù)集的地理覆蓋范圍。該數(shù)據(jù)集總計(jì)收錄了 25 個(gè)國家、超過 2,500 座城市共計(jì) 1727 小時(shí)的駕駛視頻數(shù)據(jù)(顏色深淺表示各國收錄的片段數(shù)量)。
如需使用以上物理 AI 輔助駕駛數(shù)據(jù)集,請(qǐng)?jiān)L問physical_ai_av GitHub代碼倉庫,其提供了 Python 開發(fā)工具包及文檔(以知識(shí)庫形式呈現(xiàn))。事實(shí)上,本系列第一部分中用于加載 Alpamayo 1 示例數(shù)據(jù)的工具,正是基于此資源包實(shí)現(xiàn)。
第三部分:AlpaSim——面向輔助駕駛評(píng)估的閉環(huán)仿真框架
AlpaSim 概述

圖 5. 圍繞核心運(yùn)行時(shí)的 AlpaSim 微服務(wù)架構(gòu)高層概覽。各服務(wù)運(yùn)行在獨(dú)立進(jìn)程中,以實(shí)現(xiàn)靈活的擴(kuò)展性和模塊化設(shè)計(jì)。
AlpaSim 基于微服務(wù)架構(gòu)構(gòu)建,其核心是運(yùn)行時(shí)(見圖 5),該組件負(fù)責(zé)協(xié)調(diào)所有仿真活動(dòng)。各獨(dú)立服務(wù)如驅(qū)動(dòng)程序、渲染器、交通仿真器、控制器和物理引擎均在獨(dú)立進(jìn)程中運(yùn)行,且可分配至不同 GPU。此設(shè)計(jì)具備兩大優(yōu)勢(shì):
基于 gRPC 提供清晰的模塊化 API,能夠輕松集成新服務(wù)且有效避免依賴沖突。
支持任意水平擴(kuò)展,使研究人員能將計(jì)算資源分配到最關(guān)鍵的環(huán)節(jié)。例如:若驅(qū)動(dòng)程序推理成為瓶頸,只需啟動(dòng)更多驅(qū)動(dòng)進(jìn)程;若渲染成為瓶頸,則為渲染分配更多 GPU。當(dāng)渲染進(jìn)程無法同時(shí)處理多個(gè)場(chǎng)景時(shí),可在同一 GPU 上運(yùn)行多個(gè)渲染器實(shí)例以最大化資源利用率。
但橫向擴(kuò)展并非全部,AlpaSim 的真正優(yōu)勢(shì)在于運(yùn)行時(shí)如何實(shí)現(xiàn)流水線并行(見圖 6)。
在傳統(tǒng)的順序執(zhí)行中,各組件必須相互等待。例如,驅(qū)動(dòng)程序在每次推理步驟后必須暫停,直至渲染器生成下一個(gè)感知輸入。AlpaSim 消除了這一瓶頸:當(dāng)一個(gè)場(chǎng)景正在渲染時(shí),驅(qū)動(dòng)程序可同時(shí)為另一個(gè)場(chǎng)景運(yùn)行推理。這種重疊處理顯著提升了 GPU 利用率和吞吐量。在進(jìn)一步擴(kuò)展時(shí),驅(qū)動(dòng)程序推理可跨多個(gè)場(chǎng)景進(jìn)行批量處理,而多個(gè)渲染進(jìn)程則并行生成感知輸入。

圖 6. AlpaSim 通過實(shí)現(xiàn)流水線并行執(zhí)行,以優(yōu)化 GPU 利用率并提高吞吐量。
共享生態(tài)系統(tǒng)
目前已為所有核心服務(wù)提供初始實(shí)現(xiàn)方案,包括通過 NVIDIA OmniverseNuRec 3DGUT算法進(jìn)行渲染、參考控制器以及驅(qū)動(dòng)程序基準(zhǔn)。 Alpamayo 1 和 CAT-K 等更多驅(qū)動(dòng)程序模型將于未來幾周內(nèi)上線。
該平臺(tái)還預(yù)裝了約900 個(gè)重建場(chǎng)景(每個(gè)場(chǎng)景時(shí)長(zhǎng) 20 秒)以及物理 AI 輔助駕駛數(shù)據(jù)集,使研究人員能夠在真實(shí)的閉環(huán)場(chǎng)景中即時(shí)評(píng)估端到端模型。此外,AlpaSim 具備高度可配置性,支持從攝像頭參數(shù)、渲染頻率到人工延遲等眾多仿真設(shè)置。
除了內(nèi)置組件外, AlpaSim 將發(fā)展為更廣泛的協(xié)作生態(tài)系統(tǒng)。未來,實(shí)驗(yàn)室將能夠無縫接入自研的駕駛、渲染或交通模型,并基于共享基準(zhǔn)測(cè)試平臺(tái)直接對(duì)比不同方案。
AlpaSim 實(shí)際應(yīng)用
AlpaSim 已為多項(xiàng)內(nèi)部研究工作提供支持。
首先,我們近期提出的Sim2Val框架,證明了 AlpaSim 的推演結(jié)果足夠真實(shí),能夠顯著提升實(shí)車驗(yàn)證的有效性。通過將仿真軌跡整合至評(píng)估流程,關(guān)鍵現(xiàn)實(shí)世界指標(biāo)的方差降低了高達(dá) 83%,使模型評(píng)估更快速、更可靠。
其次,我們借助 AlpaSim 對(duì) Alpamayo 1 模型進(jìn)行閉環(huán)評(píng)估。通過回放重建場(chǎng)景并讓策略驅(qū)動(dòng)端到端駕駛,我們可計(jì)算出反映真實(shí)交通條件下性能的駕駛評(píng)分(DrivingScore)。
除評(píng)估功能外,我們正結(jié)合同期發(fā)布的 RoaD 算法,將 AlpaSim 應(yīng)用于閉環(huán)訓(xùn)練。該算法能有效緩解開環(huán)訓(xùn)練與閉環(huán)部署間的協(xié)變量偏移問題,同時(shí)數(shù)據(jù)效率顯著優(yōu)于傳統(tǒng)強(qiáng)化學(xué)習(xí)。

圖 7. 真實(shí)駕駛(x 軸)與重模擬駕駛(y 軸)之間的指標(biāo)相關(guān)性。我們測(cè)量了與附近物體的最近距離(左)以及車輛偏離車道中心的距離(右)。
Alpasim 入門指南
只需三個(gè)步驟,即可開始使用 AlpaSim 進(jìn)行模型評(píng)估。
步驟 1:訪問 AlpaSim
該開源倉庫包含所需軟件,場(chǎng)景重建文件可從NVIDIA 物理 AI 開放數(shù)據(jù)集獲取。
步驟 2:環(huán)境準(zhǔn)備
首先,請(qǐng)確保遵循ONBOARDING.md中的入門步驟。
然后,使用以下命令執(zhí)行初始設(shè)置/安裝:
source setup_local_env.sh
此操作將編譯原語文件,下載示例駕駛模型,從 Hugging Face下載示例場(chǎng)景,并安裝 alpasim_wizard 命令行工具。
步驟3:運(yùn)行模擬
使用向?qū)順?gòu)建、運(yùn)行和評(píng)估模擬部署:
alpasim_wizard +deploy=local wizard.log_dir=$PWD/tutorial
仿真日志、輸出文件位于已創(chuàng)建的 tutorial 目錄下。如需查看可視化呈現(xiàn)結(jié)果,系統(tǒng)會(huì)在 tutorial/eval/videos/clipgt-05bb8212…_0.mp4 路徑下生成一個(gè) mp4 文件,其內(nèi)容將與以下示例類似:

圖 8. AlpaSim 輸出可視化:展示了包含智能體邊界框與地圖(若可用)的俯視語義視圖、平均及逐時(shí)間步指標(biāo),以及疊加預(yù)測(cè)軌跡及真實(shí)軌跡的前置攝像頭視圖。
如需了解輸出結(jié)果以及 AlpaSim 的使用信息,請(qǐng)參閱TUTORIAL.md文件。
總體而言,本示例展示了如何通過端到端策略重現(xiàn)真實(shí)駕駛場(chǎng)景,包括原始場(chǎng)景中的所有靜態(tài)和動(dòng)態(tài)目標(biāo)物。在此基礎(chǔ)上,利用 AlpaSim 靈活的即插即用架構(gòu),用戶可調(diào)整干擾車輛的行為、修改攝像頭參數(shù),從而對(duì)策略進(jìn)行迭代優(yōu)化。
策略集成
借助通用 API,策略模型可輕松切換,支持開發(fā)人員測(cè)試其先進(jìn)的實(shí)現(xiàn)方案。
步驟 1:gRPC 集成
AlpaSim 采用 gRPC 作為組件間的接口:驅(qū)動(dòng)組件的示例實(shí)現(xiàn)可作為參考,以確保符合驅(qū)動(dòng)程序接口規(guī)范。
步驟 2:重新配置并運(yùn)行
AlpaSim 支持通過 YAML 文件描述進(jìn)行高度定制,包括指定仿真器在運(yùn)行時(shí)所需的組件。您可為自己的模型創(chuàng)建新的配置文件(部分示例如下所示)。
# driver_configs/my_model.yaml
# @package _global_
services:
driver:
image:
command:
- ""
運(yùn)行:
alpasim_wizard +deploy=local wizard.log_dir=$PWD/my_model +driver_configs=my_model.yaml
使用命令行界面(CLI)進(jìn)行自定義配置的示例:
運(yùn)行向?qū)纠龝r(shí),可更改配置:
# Different scene alpasim_wizard +deploy=local wizard.log_dir=$PWD/custom_run \ scenes.scene_ids=['clipgt-02eadd92-02f1-46d8-86fe-a9e338fed0b6'] # More rollouts alpasim_wizard +deploy=local wizard.log_dir=$PWD/custom_run \ runtime.default_scenario_parameters.n_rollouts=8 # Different simulation length alpasim_wizard +deploy=local wizard.log_dir=$PWD/custom_run \ runtime.default_scenario_parameters.n_sim_steps=200
配置通過Hydra進(jìn)行管理——請(qǐng)參閱src/wizard/configs/base_config.yaml文件查看所有可用選項(xiàng)。
如需下載圖 8 所示的場(chǎng)景,可運(yùn)行以下命令:
hf download --repo-type=dataset \ --local-dir=data/nre-artifacts/all-usdzs \ nvidia/PhysicalAI-Autonomous-Vehicles-NuRec \ sample_set/25.07_release/Batch0001/02eadd92-02f1-46d8-86fe-a9e338fed0b6/02eadd92-02f1-46d8-86fe-a9e338fed0b6.usdz
擴(kuò)展運(yùn)行規(guī)模
AlpaSim 能夠通過協(xié)同與并行化服務(wù)來適配各類硬件配置,高效支持大型測(cè)試套件、擾動(dòng)測(cè)試和模型訓(xùn)練。
alpasim_wizard +deploy=local wizard.log_dir=$PWD/test_suite +experiment=my_test_suite.yaml runtime.default_scenario_parameters.n_rollouts=16
結(jié)論:綜合分析
強(qiáng)大的端到端模型是輔助駕駛未來的關(guān)鍵,而 AlpaSim 提供了快速測(cè)試和迭代這些模型的能力,從而加速研究進(jìn)程。本文介紹了 Alpamayo 1 模型、物理 AI 數(shù)據(jù)集以及 Alpasim 仿真架構(gòu)。它們共同構(gòu)成了一套完整的基于推理的輔助駕駛系統(tǒng)開發(fā)框架,包含模型、海量訓(xùn)練數(shù)據(jù)以及用于評(píng)估的仿真器。
綜合來看,以下視頻展示了 Alpamayo 1 在 AlpaSim 仿真環(huán)境中穿越施工區(qū)域的閉環(huán)駕駛實(shí)例,既呈現(xiàn)了該模型的推理與駕駛能力,同時(shí)也彰顯了AlpaSim 在多種真實(shí)駕駛場(chǎng)景中評(píng)估輔助駕駛模型的能力。視頻 3. Alpamayo 1 在 AlpaSim 中執(zhí)行閉環(huán)駕駛,穿越施工區(qū)域時(shí),其推理路徑與軌跡預(yù)測(cè)均通過可視化呈現(xiàn)。
關(guān)于作者
Marco Pavone 是 NVIDIA 自動(dòng)駕駛汽車研究總監(jiān)。他的主要研究興趣是開發(fā)自動(dòng)駕駛系統(tǒng)的分析、設(shè)計(jì)和控制方法,重點(diǎn)關(guān)注自動(dòng)駕駛汽車、自動(dòng)駕駛航空航天車輛和未來移動(dòng)系統(tǒng)。他目前正在斯坦福大學(xué)部分請(qǐng)假,擔(dān)任航空航天系副教授。在斯坦福大學(xué),他還是自動(dòng)駕駛系統(tǒng)實(shí)驗(yàn)室主任兼汽車研究中心聯(lián)合主任。他于 2010 年獲得麻省理工學(xué)院航空航天專業(yè)博士學(xué)位。他獲得了多個(gè)獎(jiǎng)項(xiàng),包括美國總統(tǒng)巴拉克?奧巴馬頒發(fā)的總統(tǒng)科學(xué)家和工程師早期職業(yè)獎(jiǎng)、美國海軍研究辦公室青年研究員獎(jiǎng)、美國國家科學(xué)基金會(huì)早期職業(yè)獎(jiǎng) (CAREER)、NASA 早期職業(yè)教師獎(jiǎng),以及機(jī)器人科學(xué)和系統(tǒng)基金會(huì)頒發(fā)的早期職業(yè)聚焦獎(jiǎng)。他被美國工程教育協(xié)會(huì) (ASEE) 評(píng)為美國 20 位 40 歲以下最有前途的研究人員之一。他目前擔(dān)任 IEEE Control Systems 雜志的副編輯。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5678瀏覽量
110073 -
輔助駕駛
+關(guān)注
關(guān)注
1文章
433瀏覽量
15830
原文標(biāo)題:CES 2026 | 基于 NVIDIA Alpamayo 構(gòu)建具備推理能力的輔助駕駛汽車
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
今日看點(diǎn)|黃仁勛:物理AI的ChatGPT時(shí)刻已然到來;波士頓動(dòng)力發(fā)布Atlas人形機(jī)器人量產(chǎn)版本
從先進(jìn)駕駛輔助系統(tǒng)到無人駕駛
Nvidia 無人駕駛汽車招聘
Nvidia 無人駕駛汽車招聘
高級(jí)安全駕駛員輔助系統(tǒng)助力自動(dòng)駕駛
自動(dòng)駕駛汽車的處理能力怎么樣?
NVIDIA 在首個(gè)AI推理基準(zhǔn)測(cè)試中大放異彩
駕駛輔助技術(shù)的一些常見功能介紹
Xilinx FPGA在輔助駕駛系統(tǒng)中有哪些應(yīng)用?
基于FPGA平臺(tái)構(gòu)建汽車輔助駕駛系統(tǒng)算法
NVIDIA企業(yè)級(jí)解決方案賦能汽車輔助駕駛
NVIDIA推動(dòng)面向數(shù)字與物理AI的開源模型發(fā)展
NVIDIA 推出 Alpamayo 系列開源 AI 模型與工具,加速安全可靠的推理型輔助駕駛汽車開發(fā)
基于NVIDIA Alpamayo構(gòu)建具備推理能力的輔助駕駛汽車
評(píng)論