哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

通過Token實(shí)現(xiàn)多視角文檔向量表征的構(gòu)建

深度學(xué)習(xí)自然語言處理 ? 來源:NLP工作站 ? 作者:劉聰 ? 2022-07-08 11:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

寫在前面

今天給大家?guī)硪黄?a target="_blank">ACL2022論文MVR,「面向開放域檢索的多視角文檔表征」,主要解決同一個(gè)文檔向量與多個(gè)語義差異較大問題向量語義不匹配的問題。通過「插入多個(gè)特殊Token」實(shí)現(xiàn)多視角文檔向量表征的構(gòu)建,并為了防止多種視角間向量的趨同,引入了「退火溫度」的全局-局部損失,論文全稱《Multi-View Document Representation Learning for Open-Domain Dense Retrieval》。

該篇論文與前兩天分享的DCSR-面向開放域段落檢索的句子感知的對比學(xué)習(xí)一文有異曲同工之妙,都是在檢索排序不引入額外計(jì)算量的同時(shí),通過插入特殊Token構(gòu)建長文檔的多語義向量表征,使得同一文檔可以與多種不同問題的向量表征相似。

8665290c-f08c-11ec-ba43-dac502259ad0.png

并且目前的檢索召回模型均存在一些缺陷:

Cross-encoder類模型(BERT)由于計(jì)算量太大,無法在召回階段使用;

Bi-encoder類模型(DPR)無法很好地表現(xiàn)長文檔中的多主題要素;

Late Interaction類模型(ColBERT)由于使用sum操作,無法直接使用ANN進(jìn)行排序;

Attention-based Aggregator類模型(PolyEncoder)增加了額外運(yùn)算并且無法直接使用ANN進(jìn)行排序。

867ad496-f08c-11ec-ba43-dac502259ad0.png

模型

868cedd4-f08c-11ec-ba43-dac502259ad0.png

通常向量表征時(shí),采用特殊字符[CLS]對應(yīng)的向量表征作為文本的向量表征。為了獲取文檔中更細(xì)粒度的語義信息,MVR引入多個(gè)特殊字符[VIE]替代[CLS]。

對于文檔來說,在文本前插入多個(gè)字符[],為了防止干擾原始文本的位置信息,我們將[]的所有位置信息設(shè)置為0,文檔語句位置信息從1開始。

對于問題來說,由于問題較短且通常表示同一含義,因此僅使用一個(gè)特殊字符[VIE]。

模型采用雙編碼器作為骨干,分別對問題和文檔進(jìn)行編碼,如下:

其中,表示鏈接符,[VIE]和[SEP]為BERT模型的特殊字符,和分別為問題編碼器和文檔編碼器。

如上圖所示,首先計(jì)算問題向量與每個(gè)視角的文檔向量進(jìn)行點(diǎn)積,獲取每一個(gè)視角的得分,然后通過max-pooler操作,獲取視角中分值最大的作為問題向量與文檔向量的得分,如下:

為了防止多種視角間向量的趨同,引入了帶有退火溫度的Global-Local Loss,包括全局對比損失和局部均勻損失,如下:

其中,全局對比損失為傳統(tǒng)的對比損失函數(shù),給定一個(gè)問題、一個(gè)正例文檔以及多個(gè)負(fù)例文檔,損失函數(shù)如下:

為了提高多視角向量的均勻性,提出局部均勻性損失,強(qiáng)制將選擇的查詢向量與視角向量更緊密,原理其他其視角向量,如下:

為了進(jìn)一步區(qū)分不同視角向量間的差異,采用了退火溫度,逐步調(diào)整不同視角向量的softmax分布,如下:

其中,為控制退火速度的超參,為模型訓(xùn)練輪數(shù),每訓(xùn)練一輪,溫度更新一次。注意:在全局對比損失和局部均勻損失中,均使用了退火溫度。

實(shí)驗(yàn)

如下表所示,MVR方法對比于其他模型,獲取了更好的效果。

86a9f596-f08c-11ec-ba43-dac502259ad0.png

并且,通過實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)視角個(gè)數(shù)選擇8時(shí),MVR模型效果最佳。

86d99328-f08c-11ec-ba43-dac502259ad0.png

針對Global-Local Loss進(jìn)行消融實(shí)驗(yàn),發(fā)現(xiàn)當(dāng)沒有局部均勻損失和退火溫度時(shí),會使得效果下降;當(dāng)兩者都沒有時(shí),效果下降更加明顯;并且一個(gè)合適退火速度,對訓(xùn)練較為重要。

86ef0b4a-f08c-11ec-ba43-dac502259ad0.png

相比于其他模型來說,在文檔編碼階段和檢索召回階段的速度基本沒有影響,但由于需要存儲多個(gè)視角向量,因此造成存儲空間變大。

8705501c-f08c-11ec-ba43-dac502259ad0.png

并且,對比了簡單的句子切割或者等片段截?cái)喾椒ǐ@取一個(gè)文本的多個(gè)向量表征,發(fā)現(xiàn)其效果均不理想,與DCSR一文觀點(diǎn)一致。

87189046-f08c-11ec-ba43-dac502259ad0.png

總結(jié)

該論文為了對長文檔更好地進(jìn)行向量表征,引入多個(gè)特殊字符,使其生成「多種不同視角的向量表征」,解決了同一個(gè)文檔向量與多個(gè)語義差異較大問題向量語義不匹配的問題。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 編碼器
    +關(guān)注

    關(guān)注

    45

    文章

    4007

    瀏覽量

    143278

原文標(biāo)題:ACL2022 | MVR:面向開放域檢索的多視角文檔表征

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    Token工廠加速兌現(xiàn)!迅策攜手國家級數(shù)據(jù)交易所,深化垂類Token開發(fā)

    當(dāng)中國日均Token消耗突破140萬億,當(dāng)OpenAI每分鐘處理150億Token,當(dāng)中國兩年增長1400倍——Token,這個(gè)兩年前還陌生的技術(shù)術(shù)語,正在成為AI時(shí)代的"新千瓦時(shí)"。 深圳2026
    的頭像 發(fā)表于 04-13 16:26 ?131次閱讀
    <b class='flag-5'>Token</b>工廠加速兌現(xiàn)!迅策攜手國家級數(shù)據(jù)交易所,深化垂類<b class='flag-5'>Token</b>開發(fā)

    Token中文新譯名:「符元」——一文七個(gè)維度講清Token的本質(zhì)定義

    拒絕“智元”走私語義,七維拆解 Token 物理本質(zhì),定義 AI 時(shí)代唯一真名:「符元」。
    的頭像 發(fā)表于 03-27 15:23 ?758次閱讀
    <b class='flag-5'>Token</b>中文新譯名:「符元」——一文七個(gè)維度講清<b class='flag-5'>Token</b>的本質(zhì)定義

    Oracle和NVIDIA合作加速向量搜索和企業(yè)數(shù)據(jù)處理

    Oracle 和 NVIDIA 正在與客戶合作,將 GPU 加速的向量索引構(gòu)建應(yīng)用于實(shí)際工作負(fù)載。Oracle Private AI Services Container 初期支持 CPU 執(zhí)行,現(xiàn)
    的頭像 發(fā)表于 03-23 15:26 ?389次閱讀

    S32K144在IAR下,當(dāng)中斷向量表不在位置0時(shí),仍然可以進(jìn)行調(diào)試,具體的原則和流程是什么?

    在IAR下,當(dāng)中斷向量表不在位置0時(shí),仍然可以進(jìn)行調(diào)試。具體的原則和流程是什么?
    發(fā)表于 03-20 07:01

    KIOXIA單服務(wù)器實(shí)現(xiàn)48億高維向量搜索數(shù)據(jù)庫,借助GPU實(shí)現(xiàn)索引構(gòu)建時(shí)間加速7.8倍

    通過NVIDIA cuVS利用GPU加速,顯著縮短索引構(gòu)建時(shí)間的成果。這兩項(xiàng)成果標(biāo)志著檢索增強(qiáng)生成(RAG)搜索解決方案取得了重大進(jìn)展。目前公司正持續(xù)開發(fā),以支持超過48億向量的更大規(guī)模部署。 大規(guī)模
    的頭像 發(fā)表于 03-18 16:57 ?1036次閱讀

    NVIDIA Blackwell平臺助力企業(yè)實(shí)現(xiàn)token成本的大幅降低

    一次醫(yī)療領(lǐng)域的診斷洞察、一次互動游戲中角色的對話、一次來自客服代理的自主解決方案——這些由 AI 驅(qū)動的交互,皆基于同一智能單元:一個(gè) token。
    的頭像 發(fā)表于 03-02 14:48 ?542次閱讀

    DMA(Direct Memory Access)的具體原理和實(shí)現(xiàn)方法是什么

    RAM,本質(zhì)上就是一種專用 DMA 機(jī)制,用來讓外設(shè)直接讀寫內(nèi)存而不占用 CPU。[EasyDMA 說明; EasyDMA 討論] 2. DMA 的軟件實(shí)現(xiàn)流程(Zephyr API 視角
    發(fā)表于 02-12 10:16

    Cortex-M3工作模式及異常

    。這些地址對應(yīng)的區(qū)域可以是代碼區(qū),但更多是在 RAM 區(qū)。在 RAM 區(qū)就可以修改向量的入口地址了。為了實(shí)現(xiàn)這個(gè)功能, NVIC中有一個(gè)寄存器,稱為“向量表偏移量寄存器”(在地址
    發(fā)表于 01-20 08:24

    在使用CW32L083系列微控制器時(shí)如何配置中斷向量表?

    在使用CW32L083系列微控制器時(shí),如何配置中斷向量表?
    發(fā)表于 12-15 06:17

    如何在CW32F030上實(shí)現(xiàn)IAP功能實(shí)現(xiàn)遠(yuǎn)程升級?

    ? Cortex?-M0+ 內(nèi)核,具有向量表偏移寄存器 VTOR,故其從 Bootloader 中實(shí)現(xiàn)向 APP中跳轉(zhuǎn)較為簡單,僅設(shè)置向量表偏移即可。 參考代碼 int main(void
    發(fā)表于 12-11 06:15

    通過接口獲取攜程酒店詳情數(shù)據(jù)的技術(shù)實(shí)現(xiàn)

    ?技術(shù)分享: 在開發(fā)旅游類應(yīng)用時(shí),整合酒店數(shù)據(jù)是常見需求。本文將以技術(shù)視角探討如何通過接口獲取攜程平臺的酒店詳情數(shù)據(jù)(注:實(shí)際商用需獲得官方授權(quán))。 一、接口調(diào)用基礎(chǔ) 認(rèn)證機(jī)制 通常需要申請
    的頭像 發(fā)表于 11-17 14:15 ?536次閱讀
    <b class='flag-5'>通過</b>接口獲取攜程酒店詳情數(shù)據(jù)的技術(shù)<b class='flag-5'>實(shí)現(xiàn)</b>

    米爾RK3576部署端側(cè)模態(tài)輪對話,6TOPS算力驅(qū)動30億參數(shù)LLM

    輪交互機(jī)制程序會提供預(yù)設(shè)問題供用戶選擇(官方案例中也有輸入序號,可以快速提問),同時(shí)支持用戶自定義輸入,核心交互邏輯通過以下機(jī)制實(shí)現(xiàn): 上下文記憶 通過設(shè)置
    發(fā)表于 09-05 17:25

    在中斷向量表中,數(shù)字較小的中斷向量能否以 larg 中斷中斷向量?

    在中斷向量表中,數(shù)字較小的中斷向量能否以 larg 中斷中斷向量
    發(fā)表于 08-21 08:17

    工業(yè)相機(jī)視角成像 高效解決瓶體檢測難題

    廣角式側(cè)面視角成像系統(tǒng)通過成像和照明一體式設(shè)計(jì),解決了多相機(jī)布局復(fù)雜、反光干擾及異形瓶檢測適應(yīng)性差等痛點(diǎn)。
    的頭像 發(fā)表于 07-17 15:16 ?850次閱讀
    工業(yè)相機(jī)<b class='flag-5'>多</b><b class='flag-5'>視角</b>成像 高效解決瓶體檢測難題

    PLC通過智能網(wǎng)關(guān)實(shí)現(xiàn)HTTP協(xié)議通訊,先取得token后再提交獲取JSON格式的數(shù)據(jù)文件

    組1獲取到的token通過以上任務(wù)組2配置生成的JSON文件,以及接收的JSON文件如下: 從以上配置可以看到,通過‘?dāng)?shù)據(jù)處理/初始值’ 可以實(shí)現(xiàn)簡單的數(shù)據(jù)處理,還可支持更多的數(shù)據(jù)
    發(fā)表于 06-17 16:07
    集安市| 虎林市| 乐业县| 海兴县| 应用必备| 桦川县| 成安县| 彰化县| 仁寿县| 蕉岭县| 连云港市| 巴彦淖尔市| 三明市| 抚宁县| 尼玛县| 宁远县| 桂阳县| 青浦区| 镇巴县| 湘潭市| 柏乡县| 安化县| 托克逊县| 秭归县| 乌鲁木齐县| 富蕴县| 缙云县| 永善县| 乌审旗| 蒲江县| 房产| 阜南县| 自治县| 津南区| 天台县| 县级市| 峨边| 盱眙县| 红安县| 曲靖市| 舟曲县|