哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CogBERT:腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語(yǔ)言模型

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:哈工大SCIR ? 作者:陳薄文 ? 2022-11-03 15:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

介紹

本文研究了利用認(rèn)知語(yǔ)言處理信號(hào)(如眼球追蹤或 EEG 數(shù)據(jù))指導(dǎo) BERT 等預(yù)訓(xùn)練模型的問(wèn)題?,F(xiàn)有的方法通常利用認(rèn)知數(shù)據(jù)對(duì)預(yù)訓(xùn)練模型進(jìn)行微調(diào),忽略了文本和認(rèn)知信號(hào)之間的語(yǔ)義差距。為了填補(bǔ)這一空白,我們提出了 CogBERT 這個(gè)框架,它可以從認(rèn)知數(shù)據(jù)中誘導(dǎo)出細(xì)粒度的認(rèn)知特征,并通過(guò)自適應(yīng)調(diào)整不同 NLP 任務(wù)的認(rèn)知特征的權(quán)重將認(rèn)知特征納入 BERT。

實(shí)驗(yàn)結(jié)果表明:1)認(rèn)知指導(dǎo)下的預(yù)訓(xùn)練模型在 10 個(gè) NLP 任務(wù)上可以一致地比基線預(yù)訓(xùn)練模型表現(xiàn)更好;2)不同的認(rèn)知特征對(duì)不同的 NLP 任務(wù)有不同的貢獻(xiàn)?;谶@一觀察,我們給出為什么認(rèn)知數(shù)據(jù)對(duì)自然語(yǔ)言理解有幫助的一個(gè)細(xì)化解釋?zhuān)?)預(yù)訓(xùn)練模型的不同 transformer 層應(yīng)該編碼不同的認(rèn)知特征,詞匯級(jí)的認(rèn)知特征在 transformer 層底部,語(yǔ)義級(jí)的認(rèn)知特征在 transformer 層頂部;4)注意力可視化證明了 CogBERT 可以與人類(lèi)的凝視模式保持一致,并提高其自然語(yǔ)言理解能力。

aa54f22a-5b30-11ed-a3b6-dac502259ad0.png

▲ 圖1. 人類(lèi)眼球動(dòng)作捕捉數(shù)據(jù)示意圖

背景與簡(jiǎn)介

隨著預(yù)訓(xùn)練模型的出現(xiàn),當(dāng)代人工智能模型在諸多任務(wù)上得到了超越人類(lèi)的表現(xiàn)。隨著預(yù)訓(xùn)練模型取得越來(lái)越好的結(jié)果,但是研究人員對(duì)于預(yù)訓(xùn)練模型卻并沒(méi)有知道更多。

另一方面,從語(yǔ)言處理的角度來(lái)看,認(rèn)知神經(jīng)科學(xué)研究人類(lèi)大腦中語(yǔ)言處理的生物和認(rèn)知過(guò)程。研究人員專(zhuān)門(mén)設(shè)計(jì)了預(yù)訓(xùn)練的模型來(lái)捕捉大腦如何表示語(yǔ)言的意義。之前的工作主要是通過(guò)明確微調(diào)預(yù)訓(xùn)練的模型來(lái)預(yù)測(cè)語(yǔ)言誘導(dǎo)的大腦記錄,從而納入認(rèn)知信號(hào)。 然而,前人基于認(rèn)知的預(yù)訓(xùn)練模型的工作,其思路無(wú)法對(duì)認(rèn)知數(shù)據(jù)為何對(duì) NLP 有幫助進(jìn)行精細(xì)的分析和解釋。而這對(duì)于指導(dǎo)未來(lái)的認(rèn)知啟發(fā)式 NLP 研究,即應(yīng)該從認(rèn)知數(shù)據(jù)中誘導(dǎo)出什么樣的認(rèn)知特征,以及這些認(rèn)知特征如何對(duì) NLP 任務(wù)做出貢獻(xiàn),具有重要意義,否則這只是相當(dāng)于往預(yù)訓(xùn)練模型加入更多的數(shù)據(jù),而對(duì)認(rèn)知數(shù)據(jù)如何幫助預(yù)訓(xùn)練模型任然知之甚少。 例如,圖 1 顯示了以英語(yǔ)為母語(yǔ)的人的眼球追蹤數(shù)據(jù),其中圖 1(a) 說(shuō)明了人類(lèi)正常閱讀時(shí)的關(guān)注次數(shù)。圖 2(b) 和 (c) 分別顯示了在 NLP 任務(wù)中的情感分類(lèi)(SC)和命名實(shí)體識(shí)別(NER)的關(guān)注次數(shù)。我們可以看到,對(duì)于同一個(gè)句子,在不同的 NLP 任務(wù)下,人類(lèi)的注意力是不同的。特別是,對(duì)于情感分類(lèi)任務(wù),人們更關(guān)注情感詞,如``terrible'和``chaos'。而對(duì)于 NER 任務(wù),人們傾向于關(guān)注命名的實(shí)體詞,如``ISIS'和``Syria'。但是先前的研究不能通過(guò)簡(jiǎn)單地在認(rèn)知數(shù)據(jù)上微調(diào)預(yù)先訓(xùn)練好的模型來(lái)給出這種細(xì)粒度的分析。 為了促進(jìn)這一點(diǎn),我們提出了 CogBERT,一個(gè)認(rèn)知指導(dǎo)的預(yù)訓(xùn)練模型。具體來(lái)說(shuō),我們專(zhuān)注于使用眼球追蹤數(shù)據(jù)的效果,該數(shù)據(jù)通過(guò)追蹤眼球運(yùn)動(dòng)和測(cè)量固定時(shí)間來(lái)提供母語(yǔ)者的凝視信息。我們沒(méi)有直接在認(rèn)知數(shù)據(jù)上對(duì) BERT 進(jìn)行微調(diào),而是首先根據(jù)認(rèn)知理論提取心理語(yǔ)言學(xué)特征。

然后,我們?cè)谘蹌?dòng)數(shù)據(jù)中過(guò)濾掉統(tǒng)計(jì)學(xué)上不重要的特征(這意味著具有這些特征的單詞的人類(lèi)注意力并不明顯高于/低于單詞的平均注意力)。隨后,我們通過(guò)在不同的 NLP 任務(wù)上進(jìn)行微調(diào),將這些經(jīng)過(guò)認(rèn)知驗(yàn)證的特征納入 BERT。在微調(diào)過(guò)程中,我們將根據(jù)不同的 NLP 任務(wù),為每一類(lèi)特征學(xué)習(xí)不同的權(quán)重。

方法

本文的方法主要基于一個(gè)二階段的過(guò)程,其中一個(gè)階段被用來(lái)產(chǎn)生基于認(rèn)知的特征模板,第二個(gè)階段在于將這些認(rèn)知啟發(fā)的特征模板通過(guò)特殊設(shè)定的架構(gòu)融入預(yù)訓(xùn)練模型當(dāng)中。3.1 方法心理語(yǔ)言學(xué)研究表明 [1],人類(lèi)閱讀能力的獲得體現(xiàn)在兩個(gè)方面。底層線索 (ower strands) 和高層線索 (upper strands)。底層線索(包括語(yǔ)音學(xué)、形態(tài)學(xué)等)隨著閱讀者的重復(fù)和練習(xí)而變得準(zhǔn)確和自動(dòng)。同時(shí),高層線索(包括語(yǔ)言結(jié)構(gòu)、語(yǔ)義等)相互促進(jìn),并與底層線索交織在一起,形成一個(gè)熟練的讀者。即意味著,人類(lèi)本質(zhì)上的語(yǔ)言習(xí)得能力,其中一個(gè)重要的關(guān)鍵是對(duì)文本中的一系列特征進(jìn)行越來(lái)越熟練的提取和識(shí)別。 這意味著,人類(lèi)的眼球動(dòng)作行為一定程度上可以被語(yǔ)言特征所反應(yīng),受以往工作的啟發(fā),我們構(gòu)建了一個(gè)初始的認(rèn)知特征集,包括使用 spaCy 工具 [2] 從文本中提取的 46 個(gè)細(xì)粒度的認(rèn)知特征,并將其分為下層特征(詞級(jí))和上層特征(語(yǔ)義/語(yǔ)法級(jí))。我們對(duì)這 46 種語(yǔ)言特征進(jìn)行了廣泛的統(tǒng)計(jì)顯著性分析,找到了其中 14 個(gè)對(duì)于人類(lèi)眼球動(dòng)作有顯著影響的特征,并根據(jù)特征特點(diǎn),將其分為了上層特征和下層特征,展示在下表 1 當(dāng)中。

aa77fa9a-5b30-11ed-a3b6-dac502259ad0.png

▲表1. 特征層級(jí)分類(lèi)圖

3.2加權(quán)認(rèn)知特征向量學(xué)習(xí)

aa8a77ce-5b30-11ed-a3b6-dac502259ad0.png

▲圖2. 加權(quán)認(rèn)知特征向量學(xué)習(xí)模型

我們可以通過(guò)使用 spaCy 工具從文本中提取特征。然而,這些特征不應(yīng)該被賦予相同或隨機(jī)的權(quán)重,因?yàn)樗鼈儗?duì)適應(yīng)人類(lèi)對(duì)句子的理解的貢獻(xiàn)是不同的。因此,如圖 2 所示,給定一個(gè)輸入句子,我們訓(xùn)練一個(gè)四層的 Bi-LSTM [3],將每個(gè)單詞嵌入到一個(gè)加權(quán)的八維認(rèn)知特征向量。根據(jù)前述的心里語(yǔ)言學(xué)理論,我們認(rèn)為認(rèn)知特征可以解釋人類(lèi)眼動(dòng)信息的分配。因此,我們使用眼球追蹤數(shù)據(jù)(Zuco 1.0、Zuco 2.0 和 Geco)[4,5,6] 的眼球動(dòng)作信息中的關(guān)注次數(shù) (nFix) 作為監(jiān)督信號(hào)來(lái)訓(xùn)練 Bi-LSTM 模型。

這部分的目的在實(shí)踐上實(shí)現(xiàn)前述所提到的理論,即人類(lèi)的閱讀行為可以被特征解釋?zhuān)瑯拥?,在模型層面上即意味著,模型要學(xué)會(huì)去利用語(yǔ)言特征的組合去逼近人類(lèi)的閱讀行為。但是在本模型中,所需要的本不是最后對(duì)于眼球動(dòng)作數(shù)據(jù)的逼近,而是需要其中通過(guò)眼球動(dòng)作數(shù)據(jù)學(xué)來(lái)的特征向量。3.3 特征向量融入預(yù)訓(xùn)練語(yǔ)言模型

aaa0d0d2-5b30-11ed-a3b6-dac502259ad0.png

▲圖3. 特征向量融入預(yù)訓(xùn)練語(yǔ)言模型

如圖 3(a) 所示,對(duì)于每個(gè)有單詞的輸入句子,我們可以從 Bi-LSTM 模型中獲得其對(duì)應(yīng)的特征矩陣。對(duì)于每個(gè)底層特征(即詞長(zhǎng)、詞位、NER 和內(nèi)容詞),我們可以從 Bi-LSTM 模型中為其生成一個(gè)初始特征向量,隨后這些特征向量將會(huì)被對(duì)角化放在一個(gè)矩陣的對(duì)角線上。

對(duì)于每個(gè)上層特征(即 NP chunk、情感詞、Mod&Aux 和 Obj&Comp),我們可以從 Bi-LSTM 模型中分別為其生成一個(gè)初始的特征矩陣。如果相鄰的詞組成了一個(gè)上層特征,它在特征矩陣中的值是由 Bi-LSTM 模型得到的相鄰詞的平均特征得分,而其余數(shù)值都填為 0。同時(shí)對(duì)于每一個(gè)特征,會(huì)有一個(gè)經(jīng)由高斯采樣出的權(quán)重每個(gè)特征進(jìn)行放縮,用來(lái)提來(lái)該特征在該條數(shù)據(jù)或者任務(wù)當(dāng)中的重要性。

經(jīng)由上述過(guò)程生成的特征矩陣經(jīng)過(guò)放縮后分別被卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行處理用于提取特征形成基于特征的注意力矩陣,同時(shí)為了保留原始的模型注意力信息和特征的注意力矩陣,本文添加了一個(gè)門(mén)控向量,該向量會(huì)分別與模型原本的注意力矩陣和特征注意力矩陣進(jìn)行相乘并求和,求得一個(gè)原注意力矩陣和當(dāng)前注意力矩陣的線性加權(quán)。

同時(shí)可以注意到,本模型當(dāng)中,底層特征將會(huì)融入在預(yù)訓(xùn)練模型的底層,而高層特征則會(huì)融入在預(yù)訓(xùn)練模型的高層。

實(shí)驗(yàn)及分析4.1數(shù)據(jù)集

本文在多個(gè)數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果包括了 GLUE Benchmark [7], CoNLL2000 Chunking [8] 以及 Eye-tracking [9] 和模型本身的一些分析。

4.2基線方法

1. BERT 不進(jìn)行遷移,直接在目標(biāo)領(lǐng)域上進(jìn)行預(yù)測(cè)。RoBERTa 微調(diào)源領(lǐng)域模型的全部參數(shù)進(jìn)行領(lǐng)域適應(yīng);

2. fMRI-EEG-BERT 一種認(rèn)知數(shù)據(jù)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型,利用了核磁共振與腦電磁場(chǎng)數(shù)據(jù);

3. Eye-tracking BERT 一種認(rèn)知數(shù)據(jù)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型,利用了眼球動(dòng)作捕捉進(jìn)行微調(diào)后再在下游任務(wù)上微調(diào);

4. CogBERT (Random) 本論文所提出的模型,但是特征分?jǐn)?shù)并未經(jīng)由一階段進(jìn)行生成,而是隨機(jī)生成的。

4.3 實(shí)驗(yàn)結(jié)果與分析

如表 2 所示,本文所提出的模型能夠在所有任務(wù)上超越模型的原本基線,同時(shí)超越大多數(shù)的認(rèn)知增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型,并能夠在大多數(shù)任務(wù)上達(dá)到或者超越經(jīng)由語(yǔ)法增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型,體現(xiàn)了本文所提出模型的有效性。

aad02760-5b30-11ed-a3b6-dac502259ad0.png

▲表2. GLUE Benchmark實(shí)驗(yàn)結(jié)果

在 CoNLL 2000 Chunking 的數(shù)據(jù)集上,本文提出的模型可以超越 BERT 基線模型,同時(shí)本文提出的模型還可以超越先前專(zhuān)門(mén)用于序列標(biāo)注而設(shè)計(jì)的模型。體現(xiàn)了認(rèn)知增強(qiáng)的模型可以被用在廣泛的自然語(yǔ)言處理任務(wù)上。

aaf1d04a-5b30-11ed-a3b6-dac502259ad0.png

▲表3. CoNLL2000 Chunking實(shí)驗(yàn)結(jié)果 同時(shí),本文也在認(rèn)知相關(guān)任務(wù)上進(jìn)行了測(cè)試。在眼動(dòng)數(shù)據(jù)預(yù)測(cè)的任務(wù)當(dāng)中,本文所提出的模型可以在英語(yǔ)和荷蘭語(yǔ)的數(shù)據(jù)上超越相應(yīng)的基線模型。同時(shí)由于本文模型是基于 BERT 單語(yǔ)言版本,實(shí)驗(yàn)證明我們的模型也能夠超越 BERT 多語(yǔ)言版本,同時(shí)能夠超越 XLM-17 這一在 17 種語(yǔ)言上預(yù)訓(xùn)練的模型,最終能以?xún)H單語(yǔ)言的模型版本達(dá)到可比或者超越 XLM-100 這一在 100 種語(yǔ)言上預(yù)訓(xùn)練的模型。證明了融入認(rèn)知數(shù)據(jù)對(duì)于認(rèn)知任務(wù)具有強(qiáng)力的增益。

ab0c1e3c-5b30-11ed-a3b6-dac502259ad0.png

▲表4. Eye-tracking Prediction實(shí)驗(yàn)結(jié)果

在對(duì)于模型本身的分析方面,首先展示在模型學(xué)習(xí)中不同任務(wù)里,不同特征所得到的權(quán)重。在 COLA(語(yǔ)法可接受性)上,本文的模型對(duì)語(yǔ)法相關(guān)特征給出了高權(quán)值。在 MRPC(轉(zhuǎn)述句識(shí)別)上,模型認(rèn)為命名實(shí)體是最為重要的特征,即可能如果兩個(gè)句子并不在描述同一個(gè)實(shí)體,那么兩個(gè)句子大概率不是轉(zhuǎn)述句。在 RTE(文本蘊(yùn)含)中,模型認(rèn)為名詞短語(yǔ)是最為重要的特征,這可能意味著如果兩個(gè)句子具有類(lèi)似的名詞短語(yǔ)結(jié)構(gòu),那么兩個(gè)句子具有較大的概率是蘊(yùn)含關(guān)系。在 CoNLL 2000 Chunking 和 CoNLL 2003 NER 任務(wù)當(dāng)中,模型可以很直觀的給出名詞短語(yǔ)和實(shí)體詞為最重要特征,符合了任務(wù)的設(shè)計(jì)。

ab1e6204-5b30-11ed-a3b6-dac502259ad0.png

▲表5. 特征權(quán)重分析實(shí)驗(yàn)結(jié)果

我們觀察到,替換下層或上層的認(rèn)知特征會(huì)降低模型的性能,而去除所有層的認(rèn)知特征會(huì)進(jìn)一步影響模型的性能。我們還注意到,盡管可讀性對(duì)于我們的模型來(lái)說(shuō)沒(méi)有認(rèn)知特征那么重要,但去除它也會(huì)損害模型的性能。不分層的融入特征意味著我們將所有的特征整合到 BERT 的每一層,不分層的糟糕表現(xiàn)表明,以分層的方式整合特征是認(rèn)知引導(dǎo)的 NLP 的一個(gè)有效方法。

ab2cb106-5b30-11ed-a3b6-dac502259ad0.png

▲表6. 消融實(shí)驗(yàn)結(jié)果

在本文中,由于下層特征融入到預(yù)訓(xùn)練模型的底層,而上層特征融入到高層當(dāng)中,因此有必要去尋找合適的分層邊界。本文量化地討論了 BERT 的哪一層應(yīng)該是下層和上層認(rèn)知特征的邊界,并對(duì) SST2、MRPC、QNLI 和 STS-B 任務(wù)的開(kāi)發(fā)集進(jìn)行了比較實(shí)驗(yàn),并在圖中說(shuō)明了結(jié)果。Y 軸是不同 NLP 任務(wù)的性能。X 軸是層數(shù)。例如,如果層數(shù)為 6,我們將下層的認(rèn)知特征納入 BERT 的 1-6 層,將上層的認(rèn)知特征納入其余層。

研究發(fā)現(xiàn),當(dāng)層數(shù)邊界在 4 左右時(shí),所有任務(wù)都達(dá)到了最佳性能,這意味著 BERT 的低層更適合納入下層認(rèn)知特征,而當(dāng)我們將上層認(rèn)知特征納入更高的層數(shù)時(shí),它們更有用。這些結(jié)果可以有效地指導(dǎo)未來(lái)認(rèn)知強(qiáng)化預(yù)訓(xùn)練模型的研究,同時(shí)也進(jìn)一步驗(yàn)證了前人關(guān)于預(yù)訓(xùn)練模型的相關(guān)研究 [10]。

ab3d73ec-5b30-11ed-a3b6-dac502259ad0.png

▲圖4. 任務(wù)表現(xiàn)與特征層數(shù)分析圖

為了定性地分析我們方法的有效性,我們將 CogBERT 的注意力可視化,并與 BERT 和人類(lèi)進(jìn)行比較。我們從 SST2、NER 和 MRPC 任務(wù)中選擇案例。為了與人類(lèi)的認(rèn)知進(jìn)行比較,給定一個(gè)特定的 NLP 任務(wù),我們要求四個(gè)注釋者在閱讀句子時(shí)突出他們的注意詞。對(duì)于 BERT 和 CogBERT,我們從預(yù)訓(xùn)練模型的較高層次中選擇注意力得分,這可以捕捉到任務(wù)的特定特征。SST2 和 NER 的注意力可視化圖。

圖 (a) 展示了 CoNLL-2003 NER 任務(wù)的注意力可視化,說(shuō)明 CogBERT 像人類(lèi)一樣對(duì) NER 詞 "Asian Cup"、"Japan"和 "Syria"給予了更多的關(guān)注,而 BERT 對(duì)這些詞的關(guān)注很少。圖 (b) 說(shuō)明了 SST2 任務(wù)的注意力可視化,顯示 CogBERT 捕獲了關(guān)鍵的情感詞`fun'和`okay',而這兩個(gè)詞從人類(lèi)的判別行為來(lái)說(shuō)對(duì)人類(lèi)的判斷也很重要。

相比之下,BERT 未能關(guān)注這些詞。這些實(shí)驗(yàn)結(jié)果表明,盡管預(yù)訓(xùn)練模型在眾多 NLP 任務(wù)中取得了可喜的改進(jìn),但它們離人類(lèi)智能的水平還很遠(yuǎn)。通過(guò)學(xué)習(xí)人類(lèi)閱讀中的注意力機(jī)制,認(rèn)知引導(dǎo)的預(yù)訓(xùn)練模型可以提供一種接近人類(lèi)認(rèn)知的有效方法。

ab55b15a-5b30-11ed-a3b6-dac502259ad0.png

▲圖5. 注意力可視化

結(jié)論

我們提出了 CogBERT,一個(gè)能夠有效地將認(rèn)知信號(hào)納入預(yù)訓(xùn)練模型的框架。實(shí)驗(yàn)結(jié)果表明,CogBERT 在多個(gè) NLP 基準(zhǔn)數(shù)據(jù)集上取得了超越基線的結(jié)果,同時(shí)模型表明證明對(duì)認(rèn)知任務(wù)同樣有用。分析表明,CogBERT 可以自適應(yīng)地學(xué)習(xí)特定任務(wù)的認(rèn)知特征權(quán)重,從而對(duì)認(rèn)知數(shù)據(jù)在 NLP 任務(wù)中的工作方式做出精細(xì)的解釋。這項(xiàng)工作為學(xué)習(xí)認(rèn)知增強(qiáng)的預(yù)訓(xùn)練模型提供了一個(gè)新的方法,廣泛闡述的實(shí)驗(yàn)可以指導(dǎo)未來(lái)的研究。

審核編輯 :李倩 ·

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 語(yǔ)言模型
    +關(guān)注

    關(guān)注

    0

    文章

    573

    瀏覽量

    11341
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26258

原文標(biāo)題:COLING'22 | CogBERT:腦認(rèn)知指導(dǎo)的預(yù)訓(xùn)練語(yǔ)言模型

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點(diǎn)主要集中在大模型訓(xùn)練所需的算力投入。一個(gè)萬(wàn)億參數(shù)大模型訓(xùn)練可能需要數(shù)千張GPU芯片連續(xù)運(yùn)行數(shù)月,成本高
    的頭像 發(fā)表于 02-05 16:07 ?997次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點(diǎn)已至

    什么是大模型,智能體...?大模型100問(wèn),快速全面了解!

    ,LLM)是大模型中最主要的一類(lèi),專(zhuān)門(mén)用于處理和生成人類(lèi)語(yǔ)言。大語(yǔ)言模型通過(guò)“閱讀”海量的文本數(shù)據(jù)(如書(shū)籍、網(wǎng)頁(yè)、文章等)進(jìn)行預(yù)
    的頭像 發(fā)表于 02-02 16:36 ?1108次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問(wèn),快速全面了解!

    VLA模型是基于預(yù)置規(guī)則來(lái)指導(dǎo)行動(dòng)嗎?

    [首發(fā)于智駕最前沿微信公眾號(hào)]今天繼續(xù)來(lái)回答小伙伴的提問(wèn),最近有一位小伙伴提問(wèn),VLA模型中的理解是不是也基于一些預(yù)置的規(guī)則指導(dǎo)行動(dòng)的?其實(shí)這個(gè)問(wèn)題非常值得討論,今天智駕最前沿就帶大家詳細(xì)聊一聊
    的頭像 發(fā)表于 12-25 09:22 ?1369次閱讀
    VLA<b class='flag-5'>模型</b>是基于預(yù)置規(guī)則來(lái)<b class='flag-5'>指導(dǎo)</b>行動(dòng)嗎?

    認(rèn)知機(jī)接口:開(kāi)啟神經(jīng)精神疾病診療新時(shí)代

    ,北京決明科技有限公司副總經(jīng)理孫香杰分享的主題為《認(rèn)知機(jī)接口:神經(jīng)精神疾病診療新范式》。在日常生活中,功能疾病正悄然成為健康的“隱形殺手”。從常見(jiàn)的抑郁癥、焦慮癥,到兒童多動(dòng)癥,這些疾病不僅影響患者的日常生活,更對(duì)
    發(fā)表于 11-11 11:12 ?4418次閱讀

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個(gè)手寫(xiě)數(shù)字識(shí)
    發(fā)表于 10-22 07:03

    【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+神經(jīng)形態(tài)計(jì)算、類(lèi)芯片

    。是實(shí)現(xiàn)類(lèi)芯片的基本模型。SNN中的神經(jīng)元通過(guò)短的電脈沖相互溝通,脈沖之間的時(shí)間間隔起著重要作用。 最有利于硬件實(shí)現(xiàn)的脈沖神經(jīng)元模型是“漏電整合-激發(fā)”模型: 與DNN相比,SNN的
    發(fā)表于 09-17 16:43

    基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真模型解決方案

    在基于神經(jīng)網(wǎng)絡(luò)的數(shù)字預(yù)失真(DPD)模型中,使用不同的激活函數(shù)對(duì)整個(gè)系統(tǒng)性能和能效有何影響?
    的頭像 發(fā)表于 08-29 14:01 ?3635次閱讀

    基于大規(guī)模人類(lèi)操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來(lái),機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類(lèi)方法存在兩大局限:不同機(jī)器人本體和動(dòng)作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機(jī)器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1205次閱讀
    基于大規(guī)模人類(lèi)操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    杭州靈汐類(lèi)智算集群實(shí)現(xiàn)大模型快速推理

    據(jù)悉,“杭州靈汐類(lèi)智算集群”已于7月底實(shí)現(xiàn)了大模型快速推理API的企業(yè)服務(wù)試運(yùn)行。該集群由杭州靈汐類(lèi)科技有限公司牽頭搭建運(yùn)營(yíng),中國(guó)電信、中國(guó)電子科技南湖研究院以及啟社區(qū)作為合作方
    的頭像 發(fā)表于 08-18 16:06 ?1096次閱讀

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒(méi)有中文 查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
    發(fā)表于 07-30 08:15

    沐曦MXMACA軟件平臺(tái)在大模型訓(xùn)練方面的優(yōu)化效果

    在如今的人工智能浪潮中,大規(guī)模語(yǔ)言模型(上百億乃至千億參數(shù))正迅速改變著我們的工作和生活。然而,訓(xùn)練這些龐大的模型往往面臨“算力不足、顯存不夠用、通信太慢”等諸多挑戰(zhàn)。
    的頭像 發(fā)表于 07-03 14:09 ?2389次閱讀
    沐曦MXMACA軟件平臺(tái)在大<b class='flag-5'>模型</b><b class='flag-5'>訓(xùn)練</b>方面的優(yōu)化效果

    龍芯中科與文心系列模型開(kāi)展深度技術(shù)合作

    ”解決方案。 強(qiáng)強(qiáng)聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進(jìn)行高效訓(xùn)練、推理和部署。在大
    的頭像 發(fā)表于 07-02 16:53 ?1459次閱讀

    兆芯率先展開(kāi)文心系列模型深度技術(shù)合作

    對(duì)文心系列大模型的快速適配、無(wú)縫銜接。 ? 文心大模型 ? 文心4.5系列開(kāi)源模型共10款,均使用飛漿深度學(xué)習(xí)框架進(jìn)行高效訓(xùn)練、推理和部署。在大語(yǔ)言
    的頭像 發(fā)表于 07-01 10:49 ?1061次閱讀

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    模型時(shí)代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費(fèi)類(lèi)顯卡 RTX-4090只需大約35~40個(gè)小時(shí) ,即可完成ResNet50模型預(yù)訓(xùn)練。在 大模型時(shí)代 ,由于大
    的頭像 發(fā)表于 04-25 11:43 ?950次閱讀
    大<b class='flag-5'>模型</b>時(shí)代的深度學(xué)習(xí)框架
    临澧县| 信宜市| 呈贡县| 丘北县| 宾川县| 红原县| 柳江县| 福鼎市| 鞍山市| 宽甸| 日土县| 贵州省| 梁山县| 宝清县| 紫云| 稻城县| 霍邱县| 博野县| 金堂县| 吉安市| 容城县| 普格县| 孙吴县| 聂拉木县| 渝中区| 睢宁县| 格尔木市| 井研县| 江都市| 扶风县| 瑞昌市| 伽师县| 宜丰县| 札达县| 宿州市| 广安市| 抚松县| 望城县| 临夏市| 萝北县| 荆州市|