国产精品红桃视频观看,久久久久久久视

阿里巴巴推出了全新開源千問3.5系列，專為構建原生多模態(tài)智能體而設計。該系列的首個模型是一款總參數(shù)為397B、具備推理能力的原生視覺語言模型(VLM)，基于由混合專家模型(MoE)和門控Delta網絡(Gated Delta Networks)組成的混合架構構建。千問3.5能夠理解和導航用戶界面，相較上一代VLM有了顯著提升。

千問3.5適用于各種用例，包括：

編碼任務，包括Web開發(fā)

視覺推理任務，包括移動端和Web界面

聊天應用

復雜搜索

千問3.5
模態(tài)	視覺、語言
總參數(shù)	397B
激活參數(shù)	17B
激活率	4.28%
輸入上下文長度	256K token，可擴展至1M token
支持的語言	200+
其他配置信息
專家	512
共享專家	1
每個token使用的專家數(shù)量	11（10個路由專家+ 1個共享專家）
層數(shù)	60
詞表大小	248,320

表1. 千問3.5模型的規(guī)格和配置詳情

使用NVIDIA端點進行構建

您可以在NVIDIA官網上免費使用由NVIDIA GPU驅動的GPU加速端點使用千問3.5進行構建。作為NVIDIA開發(fā)者計劃的一部分，您可以在瀏覽器中快速體驗、試驗不同的提示詞，并使用自己的數(shù)據(jù)測試模型，以評估其在實際場景中的性能。

視頻1.了解如何在NVIDIA GPU加速端點上測試千問3.5

您還可以通過API來調用NVIDIA托管的模型，注冊NVIDIA開發(fā)者計劃即可免費使用。

import requests 
   
invoke_url = "https://integrate.api.nvidia.com/v1/chat/completions" 
   
headers = { 
    "Authorization": "Bearer $NVIDIA_API_KEY", 
    "Accept": "application/json", 
} 
   
payload = { 
  "messages": [ 
    { 
    "role": "user", 
    "content": "" 
    } 
  ], 
  "model": "qwen/qwen3.5-397b-a17b", 
  "chat_template_kwargs": { 
    "thinking": True 
  }, 
  "frequency_penalty": 0, 
  "max_tokens": 16384, 
  "presence_penalty": 0, 
  "stream": True, 
  "temperature": 1, 
  "top_p": 1 
} 
   
# re-use connections 
session = requests.Session() 
   
response = session.post(invoke_url, headers=headers, json=payload) 
   
response.raise_for_status() 
response_body = response.json() 
print(response_body)

要使用工具調用功能，只需定義一個由OpenAI兼容工具組成的數(shù)組，并將其添加到聊天補全接口的tools參數(shù)中。

NVIDIA NIM可以輕松將千問3.5從開發(fā)階段遷移到生產環(huán)境。NIM提供經過優(yōu)化的容器化推理微服務，將模型與性能調優(yōu)、標準化API和企業(yè)所需的部署靈活性打包集成。您可以在各類環(huán)境中下載并運行，無論是本地、云上或混合環(huán)境。

使用NVIDIANeMo自定義模型

千問3.5已具備出色的“開箱即用”多模態(tài)功能，NVIDIA NeMo框架仍提供了關鍵的工具集，使其進一步適配特定領域的需求。開發(fā)者可以使用NeMo Automodel庫微調千問3.5 397B參數(shù)架構，實現(xiàn)高吞吐效率。

NeMoAutomodel是一個原生PyTorch訓練庫，提供Day 0 Hugging Face支持，無需繁瑣的模型轉換，即可在現(xiàn)有檢查點上直接進行訓練。無論是執(zhí)行全量監(jiān)督微調(Supervised Fine-Tuning, SFT)，還是使用LoRA等內存高效方法，都有助于快速開展實驗。

作為參考實現(xiàn)指南，開發(fā)者可以利用醫(yī)學視覺問答技術教程，該教程詳細說明了如何在放射學數(shù)據(jù)集上微調千問3.5。在大規(guī)模場景下，NeMo支持多節(jié)點Slurm和Kubernetes部署，從而確保即使是最大的MoE模型，也能在特定領域的推理和復雜智能體工作流中實現(xiàn)低延遲的優(yōu)化，并將延遲降至最低。

開始使用千問3.5

從數(shù)據(jù)中心部署到可隨時隨地進行容器化部署的NVIDIA NIM，NVIDIA提供了千問3.5的集成解決方案。訪問Hugging Face上的千問3.5模型頁面，并前往NVIDIA官網體驗千問3.5的功能。

關于作者

Anu Srivastava 是高級技術營銷經理，專注于開放 AI 模型。她與主要合作伙伴和基金會合作，為開源開發(fā)者生態(tài)系統(tǒng)提供 NVIDIA 加速平臺支持。加入 NVIDIA 之前，她曾在 Google 擔任各種工程職務超過 10 年，并擁有德克薩斯大學奧斯汀分校計算機科學學位。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴