哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

新思科技SLM解決方案守護AI芯片萬億算力

新思科技 ? 來源:新思科技 ? 2025-11-21 14:03 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2024年,Meta訓練了一款AI模型“Llama 3”,并將相關(guān)訓練成果匯總發(fā)表了一篇論文,受到廣泛關(guān)注。在為期54天的預訓練過程中,Llama 3遭遇了466次訓練中斷,其中意外中斷高達419次。通過進一步調(diào)查,Meta了解到,這些異常中斷中78%源自GPU及主機組件等硬件問題。

此類硬件問題不僅會導致工作任務中斷,還可能導致靜默數(shù)據(jù)損壞(SDC),造成意外數(shù)據(jù)丟失或異常,而這些問題往往長期難以被察覺。

Meta預訓練時遭遇的中斷雖出乎意料,但這種現(xiàn)象其實不難理解。像Llama 3這樣的AI模型處理需求巨大,必須依賴超大規(guī)模計算集群支持。僅在訓練環(huán)節(jié),AI工作負載往往需要數(shù)十萬個計算節(jié)點及其配套GPU持續(xù)協(xié)同工作數(shù)周甚至數(shù)月之久。

高強度、大規(guī)模的AI處理和數(shù)據(jù)交換會產(chǎn)生大量熱量、電壓波動和噪聲,這些因素給計算硬件施加了巨大的壓力。相較于以往的常規(guī)條件,GPU等底層芯片的退化速度大幅加快,性能和可靠性也隨之下降。

這種情況在5nm以下制程中尤為突出,無論是制造環(huán)境和實際應用廠家,都能觀察到明顯的芯片退化和故障行為。

那么,我們該如何應對此類情況?又該如何減少意外中斷和SDC?隨著行業(yè)不斷推出更新、規(guī)模更大AI工作任務,面對市場對處理能力與規(guī)模持續(xù)攀升的需求,芯片設計團隊應如何確保最佳性能和可靠性?

確保芯片可靠性、可用性和可維護性(RAS)

以Meta為代表的AI創(chuàng)新企業(yè)已構(gòu)建起完善的監(jiān)控診斷體系,旨在持續(xù)改善計算環(huán)境的可用性與可靠性。然而隨著算力需求激增、硬件故障頻發(fā)以及SDC問題日益嚴峻,行業(yè)亟需建立更深層的測試與遙測能力,而且這種能力需要貫穿每個XPU/GPU內(nèi)部的晶粒、多芯片封裝以及互連架構(gòu)等基礎層面。

芯片生命周期管理(SLM)解決方案正是保障端到端RAS的關(guān)鍵所在,其覆蓋范圍貫穿芯片設計、制造、啟動調(diào)試及現(xiàn)場運維全流程。

憑借更出色的可見性、監(jiān)控和芯片層級診斷,設計團隊可以:

通過遙測數(shù)據(jù)了解芯片故障或發(fā)生SDC的原因。

識別芯片組件、Multi-Die封裝和高速互連中的電壓或時序退化、過熱和機械故障。

更精確地分析AI工作任務的熱性能和功耗性能分析。

檢測、特征分析和解決輻射、電壓噪聲以及可能引發(fā)位翻轉(zhuǎn)和SDC的潛在故障機制。

提高芯片的良率、質(zhì)量和現(xiàn)場RAS。

寄存器傳輸級(RTL)設計階段采用triple modular redundancy and dual core lock step(三模冗余和雙核鎖步等以可靠性為核心的技術(shù)),降低SDC風險。

建立準確的硅前老化仿真方法檢測敏感或脆弱電路,并用抗老化電路替換。

優(yōu)化可靠性模型中的異常檢測(識別偏離正常行為的數(shù)據(jù)點),最大程度減少現(xiàn)場SDC。

c6829ec6-c459-11f0-8c8f-92fbcf53809c.png

新思科技SLM解決方案

作為系統(tǒng)設計的全球領導者,新思科技提供SLM IP和分析解決方案,可顯著提升芯片健康狀態(tài),并在系統(tǒng)生命周期的各個階段提供關(guān)鍵運行指標。

該解決方案具備三大監(jiān)測特性,即環(huán)境監(jiān)測、結(jié)構(gòu)監(jiān)測和功能監(jiān)測,分別可以基于器件運行環(huán)境了解和優(yōu)化芯片性能;識別從設計到現(xiàn)場運行階段的性能變化;以及用于跟蹤關(guān)鍵器件功能的健康狀況和異常情況。

我們的SLM IP和分析解決方案包括:

工藝、電壓和溫度監(jiān)測器

確保最優(yōu)運行狀態(tài),同時最大化性能、功耗與可靠性。

全芯片高精度分布式監(jiān)測,支持通過頻率調(diào)節(jié)實現(xiàn)熱管理。

支持28nm至3nm工藝節(jié)點。

路徑裕量監(jiān)測器

測量1000多條綜合和功能路徑(測試和現(xiàn)場)的時序裕量。

基于實際裕量優(yōu)化芯片性能。

自動化路徑選擇、IP插入和掃描生成功能。

時鐘和延遲監(jiān)測器

測量一個或多個信號的邊緣之間的延遲。

監(jiān)測時鐘占空比的質(zhì)量。

借助內(nèi)置自測(BIST)跟蹤,測量內(nèi)存讀取訪問時間。

對數(shù)字延遲線進行特征分析。

UCIe監(jiān)測、測試和修復

監(jiān)測Die-to-Die UCIe通道的信號完整性。

生成算法BIST向量,以檢測互連故障類型,包括通道間串擾。

通過冗余分配執(zhí)行累積通道修復(制造和現(xiàn)場)。

高速訪問和測試

支持通過功能接口(PCIe、USB、SPI等)進行測試。

適用于現(xiàn)場運行以及晶圓分揀、最終測試和系統(tǒng)級測試。

可以與自動化測試設備結(jié)合使用。

通過減少引腳數(shù)量,方便現(xiàn)場遠程診斷,降低測試成本。

高帶寬內(nèi)存(HBM)外部測試和修復

全面且經(jīng)過硅驗證的DRAM堆疊測試、修復和診斷引擎。

支持第三方HBM DRAM堆疊提供商解決方案。

高性能Die-to-Die互連測試和修復支持。

與HBM PHY協(xié)同工作,并支持一系列HBM協(xié)議和配置。

SLM分層子系統(tǒng)

面向片上系統(tǒng)(SoC)的自動化分層SLM和測試可管理性解決方案。

借助系統(tǒng)內(nèi)調(diào)度,自動集成和訪問所有IP/核心。

預先驗證、隨時可用的ATE向量和向量移植功能。

AI時代的芯片測試和遙測

隨著AI器件和工作任務的規(guī)模和處理需求持續(xù)上升,系統(tǒng)可靠性、芯片健康和SDC問題愈發(fā)常見。雖然不存在能夠徹底規(guī)避這些問題的單一解決方案或萬能方法,但在芯片層級進行更深入、更全面的測試、修復和遙測,能極大緩解相關(guān)風險。其中,檢測或預測現(xiàn)場芯片退化的能力尤為關(guān)鍵,這使我們能夠在突發(fā)或災難性系統(tǒng)故障發(fā)生之前及時采取糾正措施。

AI技術(shù)快速演進的時代背景下,我們必須提供端到端的可見性和RAS保障,這使得芯片測試、修復和遙測的重要性與日俱增。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 新思科技
    +關(guān)注

    關(guān)注

    5

    文章

    976

    瀏覽量

    52985
  • Meta
    +關(guān)注

    關(guān)注

    0

    文章

    325

    瀏覽量

    12496
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2161

    瀏覽量

    36858

原文標題:應對硬件故障與靜默數(shù)據(jù)損壞:新思科技SLM方案以端到端可靠性守護AI芯片萬億算力

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    GTC 2026引爆AI新浪潮,芯聯(lián)集成如何為萬億AI注入能源動力

    :2025年至2027年,全球AI市場規(guī)模將累計突破1萬億美元大關(guān)。 這意味著AI產(chǎn)業(yè)正式進入“工業(yè)化、基建化”新階段。
    的頭像 發(fā)表于 03-23 10:53 ?333次閱讀
    GTC 2026引爆<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>新浪潮,芯聯(lián)集成如何為<b class='flag-5'>萬億</b><b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>注入能源動力

    偉創(chuàng)攜手博通,推進下一代AI液冷解決方案落地

    近日,偉創(chuàng)宣布旗下先進液冷解決方案公司 JetCool 與 博通(Broadcom)展開合作,為博通 下一代 AI XPU(定制化 AI 計算加速
    的頭像 發(fā)表于 03-17 10:44 ?577次閱讀
    偉創(chuàng)<b class='flag-5'>力</b>攜手博通,推進下一代<b class='flag-5'>AI</b>液冷<b class='flag-5'>解決方案</b>落地

    因為有愛 所以溫暖|天數(shù)智銀發(fā)伴侶解決方案,用AI守護最美夕陽紅?

    AI守護陪伴,用科技點亮夕陽。天數(shù)智銀發(fā)伴侶解決方案,愿與每一個家庭、每一位合作伙伴攜手,讓長者們老有所伴、老有所養(yǎng)、老有所樂、老有所安,共筑有溫度、有智慧的養(yǎng)老新生態(tài),讓最美夕陽
    的頭像 發(fā)表于 03-16 10:30 ?380次閱讀
    因為有愛  所以溫暖|天數(shù)智<b class='flag-5'>算</b>銀發(fā)伴侶<b class='flag-5'>解決方案</b>,用<b class='flag-5'>AI</b><b class='flag-5'>守護</b>最美夕陽紅?

    邊緣AI臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值

    310P芯片的底層架構(gòu),深度剖析這款產(chǎn)品的技術(shù)細節(jié)、門檻及其在實際產(chǎn)業(yè)落地中的真實價值。 一、176TOPS的產(chǎn)業(yè)門檻:為何這是邊緣
    發(fā)表于 03-10 14:19

    CES 2026 | 100 TOPS高AI模組領銜,美格智能全棧AI解決方案定義智能未來

    要點:SNM983系列:100TOPS的高AI模組,面向“AI原生”時代的架構(gòu)革命MT2
    的頭像 發(fā)表于 01-12 17:01 ?614次閱讀
    CES 2026 | 100 TOPS高<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>AI</b>模組領銜,美格智能全棧<b class='flag-5'>AI</b><b class='flag-5'>解決方案</b>定義智能未來

    AI送上太空,是終極方案還是瘋狂幻想?評論區(qū)說出你的陣營!

    AI
    江蘇易安聯(lián)
    發(fā)布于 :2026年01月06日 09:43:34

    華為AI WAN解決方案推動互聯(lián)網(wǎng)高質(zhì)量發(fā)展

    出,人工智能規(guī)模化應用驅(qū)動部署需求全面升級,華為AI WAN解決方案憑借持續(xù)的技術(shù)創(chuàng)新突破,有效解決了跨域
    的頭像 發(fā)表于 12-25 15:17 ?734次閱讀

    AI服務器電源測試解決方案:為巨擘注入穩(wěn)定之魂

    在人工智能浪潮之巔,AI服務器電源作為驅(qū)動萬億參數(shù)模型奔騰不息的“心臟”,其性能至關(guān)重要。這顆心臟能否在極限負載下強勁搏動,在復雜工況中穩(wěn)定運行,直接決定了整個AI
    的頭像 發(fā)表于 12-03 13:56 ?828次閱讀

    湘軍,讓變成生產(chǎn)?

    腦極體
    發(fā)布于 :2025年11月25日 22:56:58

    國產(chǎn)AI芯片真能扛住“內(nèi)卷”?海思昇騰的這波操作藏了多少細節(jié)?

    最近行業(yè)都在說“AI的命門”,但國產(chǎn)芯片真的能接住這波需求嗎? 前陣子接觸到海思昇騰910B,實測下來有點超出預期——7nm工藝下
    發(fā)表于 10-27 13:12

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進和物聯(lián)網(wǎng)應用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:26 ?2027次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來,騰視科技將繼續(xù)深耕AI模組領域,全力推動AI邊緣計算行業(yè)的深度發(fā)展。隨著AI技術(shù)的不斷演進和物聯(lián)網(wǎng)應用的持續(xù)拓展,騰視科技的
    的頭像 發(fā)表于 09-19 15:25 ?1005次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    廣電計量打造AI芯片檢測一站式解決方案

    在人工智能蓬勃發(fā)展的時代,AI芯片作為智能世界的“最強大腦”,正驅(qū)動著自動駕駛、智能安防、大數(shù)據(jù)分析等眾多前沿領域的飛速前進。據(jù)弗若斯特沙利文預測,中國的
    的頭像 發(fā)表于 08-21 11:49 ?1307次閱讀

    一文看懂AI集群

    最近這幾年,AI浪潮席卷全球,成為整個社會的關(guān)注焦點。大家在討論AI的時候,經(jīng)常會提到AI集群。AI
    的頭像 發(fā)表于 07-23 12:18 ?1879次閱讀
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    邊緣計算時代,科通技術(shù)以端AI方案重構(gòu)分配格局

    ,通過優(yōu)化大模型與芯片的協(xié)同能力,為智能終端設備提供高性能、低成本且安全可靠的解決方案,進一步推動AI芯片的廣泛應用與需求增長,成為公司業(yè)績持續(xù)增長的核心驅(qū)動力。?? 近年來,
    的頭像 發(fā)表于 05-28 14:23 ?718次閱讀
    邓州市| 浦东新区| 无棣县| 利川市| 尉氏县| 友谊县| 囊谦县| 吉首市| 张家口市| 平武县| 朝阳市| 九寨沟县| 灌阳县| 大兴区| 邵东县| 克拉玛依市| 车险| 林州市| 玉树县| 北票市| 那坡县| 彩票| 潜山县| 三台县| 临洮县| 五大连池市| 台江县| 达尔| 依安县| 江油市| 保德县| 蒙阴县| 新野县| 古蔺县| 安龙县| 读书| 七台河市| 新蔡县| 蒙山县| 重庆市| 凤翔县|