Av影视国产在线,精品高清日韩无码蜜臀,高清视频9区

電子發(fā)燒友網報道（文/李彎彎）2026年4月24日，DeepSeek V4 - Pro和DeepSeek V4 - Flash正式發(fā)布并開源。模型上下文處理長度從128K大幅提升至1M，新增KV Cache滑窗和壓縮算法，顯著降低計算與訪存開銷，在Agent能力、世界知識和推理性能上處于國內及開源領域領先地位。

與此同時，華為宣布昇騰超節(jié)點全系列產品全面支持DeepSeek V4系列，這場芯模協(xié)同不僅彰顯技術實力，更標志著國產AI算力在擺脫海外依賴、構建全棧自主生態(tài)上邁出關鍵一步。

生態(tài)遷移：從CUDA到CANN的跨越

DeepSeek V4與華為昇騰的合作，核心在于從英偉達CUDA生態(tài)向華為自研的CANN異構計算架構遷移，這一過程遠非簡單的代碼移植。

過去，中國大模型開發(fā)高度依賴英偉達GPU和CUDA生態(tài)，從訓練到推理都面臨卡脖子風險。此次遷移需重寫數十萬行底層代碼，重構通信協(xié)議、顯存管理等核心模塊，攻克算子對齊、通信優(yōu)化、內存管理三大技術壁壘。

據傳，DeepSeek團隊耗時14個月攻堅，華為工程師駐場支持，反復調試精度、優(yōu)化算子。最終，經深度優(yōu)化，DeepSeek V4在昇騰950PR上的推理速度較初期版本提升35倍，能耗降低40%。第三方評測顯示，昇騰950PR單卡推理性能達到英偉達特供版H20芯片的2.87倍。這一成果表明國產AI芯片正加速從“可用”邁向“好用”，在特定場景下已具備超越國際主流產品的競爭力。

華為計算官微顯示，華為昇騰950超節(jié)點通過融合kernel和多流并行技術，結合多種量化算法，實現(xiàn)了DeepSeek V4模型的高吞吐、低時延推理部署。具體而言，昇騰950超節(jié)點實現(xiàn)了DeepSeek V4 - Pro 20ms和DeepSeek V4 - Flash 10ms的極低時延推理。在8K輸入場景下，單卡Decode吞吐分別可達4700TPS（V4 - Pro）和1600TPS（V4 - Flash）。這一成就得益于昇騰950底層架構的三大升級：原生精度加速支持FP8、MXFP8等數據格式，內存占用降低50%以上；稀疏訪存優(yōu)化解決MoE模型帶寬瓶頸；Vector與Cube共享Memory設計消除數據搬運開銷。

此外，Atlas 900 A3 SuperPoD液冷超節(jié)點及Atlas 800 A3風冷超節(jié)點采用平等架構、全局內存統(tǒng)一編址、點對點互聯(lián)帶寬達784GB/s。提供32到384多種規(guī)格滿足不同業(yè)務需求，昇騰超節(jié)點是國內唯一成熟規(guī)模商用的超節(jié)點產品，滿足互聯(lián)網、運營商、金融等行業(yè)對大模型推理超高吞吐、超大并發(fā)的極致性能需求。

基于昇騰A3 64卡超節(jié)點結合大EP模式部署，DeepSeek V4-Flash模型，8K/1K輸入輸出場景，基于vLLM推理引擎可實現(xiàn)2000+TPS的單卡Decode吞吐，單卡吞吐持續(xù)提升。針對DeepSeek V4-Pro模型，昇騰A3同步支持推理部署，性能持續(xù)優(yōu)化中。

此次合作意義重大，徹底打破了國產AI對海外技術的依賴。DeepSeek V4成為首個在華為昇騰平臺上完成從訓練到推理完整閉環(huán)的萬億級模型，中國首次擁有了從頂級大模型到自主算力基礎設施的完整、可控的AI技術棧。這不僅是技術上的勝利，更是產業(yè)生態(tài)的轉折點，向市場證明國產算力有能力承載全球頂尖AI模型，且能實現(xiàn)性能與成本的雙重優(yōu)勢。

國產大模型與算力的協(xié)同共進

在DeepSeek V4發(fā)布當天，寒武紀宣布基于自研NeuWare軟件生態(tài)與vLLM框架，完成對DeepSeek V4的“Day 0”適配，并將適配代碼開源至GitHub社區(qū)。這是寒武紀連續(xù)第二次在DeepSeek新模型發(fā)布首日推出國產芯片適配方案，通過自研高性能融合算子庫Torch - MLU - Ops和BangC編程語言，充分釋放硬件底層潛力。

天數智芯也完成了與DeepSeek - V4的Day 0級適配，以天垓系列訓練芯片與智鎧系列推理芯片為核心，承接DeepSeek - V4的全場景應用。此外，DeepSeek V4 - Flash還已經在海光信息、沐曦、摩爾線程（FP8）、昆侖芯、平頭哥真武等國產AI芯片平臺上實現(xiàn)適配。

近年來，隨著先進大模型的發(fā)布和開源，國產AI芯片廠商紛紛發(fā)布Day 0適配消息。如MiniMax M2.7全球開源時，華為昇騰、摩爾線程、沐曦股份、昆侖芯等廠商就宣布推理平臺已完成Day0適配，即在開源首日完成模型接入與推理適配工作。

MiniMax M2.7開源當日，華為昇騰AI基礎軟硬件實現(xiàn)首日適配，基于vllm - Ascend推理引擎在Atlas800A3、Atlas800IA2系列產品上為模型推理部署提供全流程支持；摩爾線程技術團隊基于MUSA架構，針對M2.7的模型特點完成深度調優(yōu)，成功在MTTS5000上實現(xiàn)模型高性能推理；沐曦曦云C系列GPU憑借全棧自研的MXMACA軟件棧，首日完成深度適配，實現(xiàn)“模型發(fā)布即算力就緒”的Day0體驗；昆侖芯依托自研架構，通過底層算子優(yōu)化與軟硬件協(xié)同加速，保障M2.7在平臺上的穩(wěn)定、高效運行。

此外，近日騰訊混元Hy3preview語言模型發(fā)布并開源，依托全棧自研技術優(yōu)勢，壁仞科技基于vLLM主流開源框架實現(xiàn)Hy3preview模型的Day0適配及推理驗證。月內該公司旗艦GPU產品適配國內多家大模型，包括月之暗面Kimi K2.6模型、阿里（BABA）Qwen3.6-35B-A3B大模型等。

在AI大模型和芯片領域，適配是關鍵技術術語，指讓軟件在特定硬件或軟件平臺上順利、高效運行的一整套技術工作。國產AI芯片在支持大模型推理上已呈現(xiàn)全面發(fā)展態(tài)勢，此次華為昇騰對DeepSeek V4的全面支持，讓DeepSeek V4擺脫CUDA生態(tài)依賴，使用CANN，國產AI算力實力更上一層樓。

國產AI算力的未來展望

DeepSeek V4與華為昇騰的深度融合，不僅是技術上的成功適配，更是深刻的戰(zhàn)略轉型，標志著中國AI產業(yè)從依賴海外技術邁向全鏈路自主可控。

性能上的反超和成本上的巨大優(yōu)勢，為國產AI的商業(yè)化落地鋪平道路。隨著下半年昇騰950超節(jié)點的批量上市，DeepSeek V4 - Pro的服務價格有望大幅下調，這將加速AI技術在金融、政務、法律等關鍵領域的普及應用。

從數據上來看，全球智能計算芯片市場預計2029年達到5857億美元，2024-2029年年符合增長率37.5%；中國市場增長更快，復合增長率達46.3%，國產AI芯片廠商市場份額有望持續(xù)提升。

展望未來，一個由國產芯片、國產框架、國產大模型構成的完整AI生態(tài)閉環(huán)正在加速形成。這不僅體現(xiàn)了國家科技自立自強的戰(zhàn)略要求，也為全球AI產業(yè)發(fā)展提供了新的思路和模式。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI算力

AI算力

+關注

關注
1

文章
169

瀏覽量
10033

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

國產AI算力：從DeepSeek V4與華為昇騰協(xié)同看全棧自主之路

評論