哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于e-CARE的因果推理相關任務

深度學習自然語言處理 ? 來源:哈工大SCIR ? 作者:哈工大SCIR ? 2022-05-16 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

論文名稱:e-CARE: a New Dataset for Exploring Explainable Causal Reasoning

論文作者:杜理,丁效,熊凱,劉挺,秦兵原創(chuàng)作者:杜理出處:哈工大SCIR

1. 簡介

因果推理是人類的一項核心認知能力。借助因果推理能力,人類得以理解已觀測到的各種現(xiàn)象,并預測將來可能發(fā)生的事件。然而,盡管當下的各類因果推理模型已經在現(xiàn)有的因果推理數(shù)據(jù)集上取得了令人印象深刻的性能,然而,這些模型與人類的因果推理能力相比仍存在顯著差距。

造成這種差距的原因之一在于,當下的因果推理模型往往僅能夠從數(shù)據(jù)中捕獲到經驗性的因果模式,但是人類則能夠進一步追求于對于因果關系的相對抽象的深入理解。如圖1中例子所示,當觀察到原因事件: 將石頭加入鹽酸造成結果:石頭溶解 之后,人類往往不會停留在經驗性地觀察現(xiàn)象這一層面,而會進一步深入思考,為什么這一現(xiàn)象能夠存在?通過種種手段,最終得到一個概念性的解釋,即酸具有腐蝕性。值得注意的是,這一對于因果現(xiàn)象的概念性解釋是超越具體的現(xiàn)象本身,能夠解釋一系列相關現(xiàn)象的。借助此類解釋信息,模型將可能產生對于因果命題的更加深入的理解。

雖然這種概念性解釋在因果推理過程中具有相當?shù)闹匾?,迄今的因果推理?shù)據(jù)集中尚未具備這一信息以支撐訓練更強的、更接近人類表現(xiàn)的因果推理模型。為此,我們提供了一個人工標注的可解釋因果推理數(shù)據(jù)集( explainable CAusal REasoning dataset, e-CARE)。e-CARE數(shù)據(jù)集包含超過2萬個因果推理問題,這使得e-CARE成為目前最大的因果推理數(shù)據(jù)集。并且對于每個因果推理問題,提供了一個自然語言描述的,有關于因果關系為何能夠成立的解釋。下表提供了一個e-CARE數(shù)據(jù)集的例子。

依托于e-CARE數(shù)據(jù)集,在傳統(tǒng)的多項選擇式的因果推理任務之外,我們還進一步提出了一個因果解釋生成任務,即給定一個因果事件對,模型需要為這個因果事件對生成合理的解釋,并提出了一個新指標衡量解釋生成的質量。

Key Value
Premise Tom holds a copper block by hand and heats it on fire.
Ask-for Effect
Hypothesis 1 His fingers feel burnt immediately. ()
Hypothesis 2 The copper block keeps the same. ()
Conceptual Explanation Copper is a good thermal conductor.

2. 基于e-CARE的因果推理相關任務

基于e-CARE數(shù)據(jù)集,我們提出了兩個任務以評價模型因果推理能力:

  1. 因果推理任務
  2. 解釋生成任務

2.1 因果推理:

這一任務要求模型從給定的兩個候選hypothesis中選出一個,使得其與給定的premise構成一個合理的因果事實。例如,如下例所示,給定premise "Tom holds a copper block by hand and heats it on fire.", hypothesis 1 "His fingers feel burnt immediately."能夠與給定premise構成合理的因果事件對。

{
"index":"train-0",
"premise":"Tomholdsacopperblockbyhandandheatsitonfire.",
"ask-for":"effect",
"hypothesis1":"Hisfingersfeelburntimmediately.",
"hypothesis2":"Thecopperblockkeepsthesame.",
"label":1
}

2.2 解釋生成:

這一任務要求模型為給定的由<原因,結果>構成的因果事件對生成一個合理解釋,以解釋為何該因果事件對能夠存在。例如, 給定因果事件對<原因: Tom holds a copper block by hand and heats it on fire. 結果: His fingers feel burnt immediately.>, 模型需要生成一個合理的解釋,如"Copper is a good thermal conductor."。

{
"index":"train-0",
"cause":"Tomholdsacopperblockbyhandandheatsitonfire.",
"effect":"Hisfingersfeelburntimmediately.",
"conceptual_explanation":"Copperisagoodthermalconductor."
}

3. 數(shù)據(jù)集統(tǒng)計信息

  • 問題類型分布
Ask-for Train Test Dev Total
Cause 7,617 2,176 1,088 10881
Effect 7,311 2,088 1,044 10443
Total 14,928 4,264 2,132 21324
  • 解釋信息數(shù)量
Overall Train Test Dev
13048 10491 3814 2012

4. 解釋生成質量評價指標CEQ Score

當用于評價解釋生成的質量時,經典的生成質量自動評價指標,如BLEU,Rough等僅從自動生成的解釋與給定的人工標注的解釋的文本或語義相似度來評判解釋生成的質量。但是,理想的解釋生成質量評價指標需要能夠直接評價自動生成的解釋是否恰當?shù)亟忉屃私o定的因果事實。為此,我們提出了一個新的解釋生成質量評價指標CEQ Score (Causal Explanation Quality Score)。

簡言之,一個合理的解釋,需要能夠幫助預測模型更好理解因果事實,從而更加合理準確地預測給定事實的因果強度。其中因果強度是一個[0,1]之間的數(shù)值,衡量給定因果事實的合理性。因此,對于確證合理的因果事實,其因果強度應該等于1.

因此,我們可以通過衡量生成的解釋能夠為因果強度的度量帶來何種程度的增益,來衡量解釋生成的質量。因此,我們將CEQ定義為:

756fe008-d460-11ec-bce3-dac502259ad0.png

其中,和分別是原因與結果,是因果強度預測模型度量的原始的因果強度,是給定解釋后,因果預測模型給出的因果強度。

值得注意的是,這一指標依賴于具體的因果強度預測方式的選取,以及如何將解釋信息融入因果強度預測過程。在本文中,我們選擇基于統(tǒng)計的、不依賴具體模型的因果強度預測方式CausalNet[5]。CausalNet能夠依賴大語料上的統(tǒng)計信息,得到給定原因與結果間的因果強度。而為將解釋信息融因果強度預測過程以得到,我們定義(其中+為字符串拼接操作):

7581f644-d460-11ec-bce3-dac502259ad0.png

5. 數(shù)據(jù)集下載與模型性能評價

5.1 數(shù)據(jù)集下載

模型的訓練與開發(fā)集可在以下鏈接下載: https://github.com/Waste-Wood/e-CARE/files/8242580/e-CARE.zip

5.2 模型性能評測

為提升方法結果的可比性,我們提供了leaderboard用以評測模型性能:https://scir-sp.github.io/

6. 實驗結果

6.1 因果推理

表1 因果推理實驗結果

75979e68-d460-11ec-bce3-dac502259ad0.png

針對多項選擇式的因果推理任務,我們利用一系列預訓練語言模型(均為base-sized版本)進行了實驗。我們使用準確率衡量模型性能。其中,ALBERT取得了最高性能,但是和人類表現(xiàn)(92%)仍有較大差距。這顯示e-CARE所提供的因果推理任務仍為一相對具有挑戰(zhàn)性的任務。

6.2 解釋生成

表2 解釋生成實驗結果

75b66c12-d460-11ec-bce3-dac502259ad0.png

為測試模型在給定因果事實后生成合理的解釋的能力,我們利用經典的GRU-Seq2Seq模型以及GPT2進行了解釋生成實驗。其中,我們使用自動評價指標AVG-BLEU、ROUGH-l、PPL,以及人工評價衡量生成質量。由表2可得,雖然相比于GRU-Seq-Seq,GPT2性能有明顯提高,但是和人類生成的解釋質量相比仍存在巨大差距,尤其在人工評價指標上。這顯示,深度理解因果事實,并為此生成合理解釋仍是相當具有挑戰(zhàn)性的任務。而無法深度理解因果事實也可能是阻礙當前的因果推理模型性能進一步提高的主要因素之一。另一方面,這也一定程度顯示所提出的解釋生成質量評價指標CEQ的合理性。

7. 潛在研究方向

7.1 作為因果知識庫

因果知識對于多種NLP任務具有重要意義。因此,e-CARE中包含的因果知識可能能夠提升因果相關任務上的模型性能。為了驗證這一點,我們首先在e-CARE上微調了e-CARE模型,并將微調后的模型(記作BERTE)分別 遷移至因果抽取數(shù)據(jù)集EventStoryLine[1]、兩個因果推理數(shù)據(jù)集BECauSE 2.0[2]和COPA[3],和一個常識推理數(shù)據(jù)集CommonsenseQA[4]上,并觀察模型性能。如下表所示,e-CARE微調后的模型在四個因果相關任務上均表現(xiàn)出了更好性能。這顯示e-CARE能夠提供因果知識以支撐相關任務上的性能。

75d5ae60-d460-11ec-bce3-dac502259ad0.png

表3 知識遷移實驗結果

7.2 支持溯因推理

前期研究將解釋生成過程總結為一個溯因推理過程。并強調了溯因式的解釋生成的重要性,因為它可以與因果推理過程相互作用,促進對因果機制的理解,提高因果推理的效率和可靠性。

例如,如下圖所示,人們可能會觀察到 C1: 將巖石加入鹽酸中 導致 E1: 巖石溶解。通過溯因推理,人們可能會為上述觀察提出一個概念性解釋,即酸具有腐蝕性。之后,可以通過實驗驗證,或者外部資料來確認或糾正解釋。通過這種方式,關于因果關系的知識可以被引入到因果推理過程中。如果解釋得到證實,它可以通過幫助解釋和驗證其他相關的因果事實,來進一步用于支持因果推理過程,例如 C2:將鐵銹加入硫酸可能導致 E2:鐵銹溶解。這顯示了概念解釋在學習和推斷因果關系中的關鍵作用,以及 e-CARE 數(shù)據(jù)集在提供因果解釋并支持未來對更強大的因果推理系統(tǒng)的研究中可能具有的意義。

76396a90-d460-11ec-bce3-dac502259ad0.png

圖1 溯因推理與因果推理關系示意圖

8. 結論

本文關注于因果推理問題中的可解釋性。針對這一點,本文標注了一個可解釋因果推理數(shù)據(jù)集e-CARE,這一數(shù)據(jù)集包含21K因果推理問題,并為每個問題提供了一個解釋因果關系為何能夠成立的自然語言形式的解釋。依托于這一數(shù)據(jù)集,我們進一步提出了一個因果推理和一個因果生成任務。實驗顯示,當前的預訓練語言模型在這兩個任務上仍面臨較大困難。

歡迎大家共同推動因果推理領域的研究進展!

原文標題:ACL'22 | e-CARE: 可解釋的因果推理數(shù)據(jù)集

文章出處:【微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 推理
    +關注

    關注

    0

    文章

    9

    瀏覽量

    7425
  • 數(shù)據(jù)集

    關注

    4

    文章

    1240

    瀏覽量

    26261

原文標題:ACL'22 | e-CARE: 可解釋的因果推理數(shù)據(jù)集

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    新品 | AI Pyramid AI Pyramid-Pro,面向本地推理與智能交互的高性能AI PC

    視覺識別、多模態(tài)交互與大模型本地推理等復雜任務。AIPyramid集成4GBLPDDR4x高帶寬內存,結合硬件級視頻處理引擎,支持8KH.264/H.265編解碼以
    的頭像 發(fā)表于 02-06 17:24 ?3897次閱讀
    新品 | AI Pyramid AI Pyramid-Pro,面向本地<b class='flag-5'>推理</b>與智能交互的高性能AI PC

    商湯開源SenseNova-MARS:突破多模態(tài)搜索推理天花板

    )、GPT-5.2(67.64 分)。 SenseNova-MARS是首個支持動態(tài)視覺推理和圖文搜索深度融合的 Agentic VLM 模型,它能自己規(guī)劃步驟、調用工具,輕松搞定各種復雜任務,讓AI真正具備
    的頭像 發(fā)表于 01-29 23:53 ?257次閱讀
    商湯開源SenseNova-MARS:突破多模態(tài)搜索<b class='flag-5'>推理</b>天花板

    端側推理:FPGA正崛起為“非GPU”陣營的中堅力量

    通信邊緣節(jié)點,推理任務正沿著“靠近數(shù)據(jù)源、貼近業(yè)務閉環(huán)”的路徑持續(xù)下沉,推動端側推理從單一通用形態(tài)向多元化方向演進。這一進程中,GPU并非在所有場景中都具備最優(yōu)解;
    的頭像 發(fā)表于 01-23 17:17 ?3226次閱讀
    端側<b class='flag-5'>推理</b>:FPGA正崛起為“非GPU”陣營的中堅力量

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發(fā)表于 01-19 15:33 ?700次閱讀
    LLM<b class='flag-5'>推理</b>模型是如何<b class='flag-5'>推理</b>的?

    華為數(shù)據(jù)存儲與「DaoCloud 道客」發(fā)布AI推理加速聯(lián)合解決方案

    規(guī)?;l(fā)展的攔路虎。在有限算力下,長序列輸入導致首Token時延(TTFT)增加,甚至超長序列超出模型上下文窗口限制;隨著并發(fā)數(shù)增加,推理吞吐開始下降,任務頻繁卡頓;歷史對話和行業(yè)知識的重復調用造成算力浪費,加大推理成本。如何優(yōu)
    的頭像 發(fā)表于 11-28 10:03 ?482次閱讀
    華為數(shù)據(jù)存儲與「DaoCloud 道客」發(fā)布AI<b class='flag-5'>推理</b>加速聯(lián)合解決方案

    使用NVIDIA Grove簡化Kubernetes上的復雜AI推理

    器 (vision encoders)、鍵值 (KV) 路由器等。此外,完整的代理式管道正在興起,其中多個模型實例協(xié)同工作,執(zhí)行推理、檢索或多模態(tài)任務。
    的頭像 發(fā)表于 11-14 10:25 ?5443次閱讀
    使用NVIDIA Grove簡化Kubernetes上的復雜AI<b class='flag-5'>推理</b>

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標,其構建了多維度的核心實現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1414次閱讀

    Task任務:LuatOS實現(xiàn)“任務級并發(fā)”的核心引擎

    分享sys核心庫Task任務相關函數(shù)及其簡要示例,幫助你更好地理解LuatOS開發(fā)基礎。 一、Task:LuatOS任務功能
    的頭像 發(fā)表于 08-28 13:49 ?640次閱讀
    Task<b class='flag-5'>任務</b>:LuatOS實現(xiàn)“<b class='flag-5'>任務</b>級并發(fā)”的核心引擎

    華為亮相2025金融AI推理應用落地與發(fā)展論壇

    近日,2025金融AI推理應用落地與發(fā)展論壇在上海舉行。中國銀聯(lián)執(zhí)行副總裁涂曉軍、華為數(shù)字金融軍團CEO曹沖出席本次論壇并發(fā)表致辭。論壇上,華為公司副總裁、數(shù)據(jù)存儲產品線總裁周躍峰博士發(fā)布AI推理
    的頭像 發(fā)表于 08-15 09:45 ?1385次閱讀

    今日看點丨華為發(fā)布AI推理創(chuàng)新技術UCM;比亞迪汽車出口暴增130%

    緩存加速算法工具,分級管理推理過程中產生的KV Cache記憶數(shù)據(jù),可擴大推理上下文窗口,實現(xiàn)高吞吐、低時延的推理體驗,降低每Token推理成本。 ? 尤為關鍵的是,UCM技術有望緩解
    發(fā)表于 08-13 09:45 ?5719次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網(wǎng)絡智能診斷邁向 “自愈”時代

    學習、大規(guī)模數(shù)據(jù)分析等前沿技術。DeepSeek-R1具備卓越的邏輯推理、多模態(tài)分析(文本/圖像/語音)和實時交互能力,能夠高效處理代碼生成、復雜問題求解、跨模態(tài)學習等高階任務。憑借其開源、高效、多
    發(fā)表于 07-16 15:29

    Aux-Think打破視覺語言導航任務的常規(guī)推理范式

    視覺語言導航(VLN)任務的核心挑戰(zhàn),是讓機器人在復雜環(huán)境中聽懂指令、看懂世界,并果斷行動。我們系統(tǒng)性地引入推理任務,探索其在導航策略學習中的作用,并首次揭示了VLN中的“推理崩塌”現(xiàn)
    的頭像 發(fā)表于 07-08 10:00 ?744次閱讀
    Aux-Think打破視覺語言導航<b class='flag-5'>任務</b>的常規(guī)<b class='flag-5'>推理</b>范式

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發(fā)展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰(zhàn)。為了解決這一問題,本文將探討大模型推理顯存和計算量的估計
    發(fā)表于 07-03 19:43

    同步任務開發(fā)指導

    同步任務是指在多個線程之間協(xié)調執(zhí)行的任務,其目的是確保多個任務按照一定的順序和規(guī)則執(zhí)行,例如使用鎖來防止數(shù)據(jù)競爭。 同步任務的實現(xiàn)需要考慮多個線程之間的協(xié)作和同步,以確保數(shù)據(jù)的正確性和
    發(fā)表于 06-19 07:57

    使用MicroPython部署中的ocrrec_image.py推理得到的輸出結果很差,如何解決呢?

    使用在線平臺訓練OCR識別任務,測試結果表現(xiàn)很好。 期待結果和實際結果 實際的推理結果很差,推理不出任何信息。
    發(fā)表于 04-29 06:54
    萝北县| 方城县| 葵青区| 曲阳县| 庆城县| 安顺市| 瑞金市| 陈巴尔虎旗| 铜山县| 皋兰县| 八宿县| 顺昌县| 板桥市| 阳谷县| 沙河市| 陆河县| 苏尼特右旗| 墨脱县| 金寨县| 禄丰县| 合肥市| 凤庆县| 海宁市| 武宣县| 晋州市| 宜阳县| 平利县| 公安县| 泸水县| 阳原县| 罗源县| 随州市| 罗平县| 任丘市| 固镇县| 蒙山县| 彭阳县| 襄垣县| 文成县| 武城县| 揭阳市|