哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Facebook AI發(fā)布了一個(gè)包含編碼問(wèn)題和代碼片段答案的數(shù)據(jù)集

倩倩 ? 來(lái)源:新經(jīng)網(wǎng) ? 2020-03-22 16:53 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Facebook AI發(fā)布了一個(gè)包含編碼問(wèn)題和代碼片段答案的數(shù)據(jù)集,旨在評(píng)估基于AI的自然語(yǔ)言代碼搜索系統(tǒng)。該版本還包括Facebook自己的幾種代碼搜索模型的基準(zhǔn)測(cè)試結(jié)果,以及來(lái)自24,000個(gè)GitHub存儲(chǔ)庫(kù)的超過(guò)400萬(wàn)種Java方法的訓(xùn)練語(yǔ)料庫(kù)。

在arXiv上發(fā)表的一篇論文中,研究人員描述了他們收集數(shù)據(jù)的技術(shù)。訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)是從最受歡迎的GitHub Android代碼存儲(chǔ)庫(kù)中收集的,按星數(shù)排序。解析存儲(chǔ)庫(kù)中的每個(gè)Java文件,以標(biāo)識(shí)各個(gè)方法。Facebook在培訓(xùn)代碼搜索系統(tǒng)的研究中使用了所得的語(yǔ)料庫(kù)。為了創(chuàng)建評(píng)估數(shù)據(jù)集,他們從Stack Overflow 的問(wèn)答數(shù)據(jù)轉(zhuǎn)儲(chǔ)開(kāi)始,僅選擇同時(shí)具有“ Java”和“ Android”的問(wèn)題研究人員說(shuō):“其中,他們只保留答案被投票的問(wèn)題,這些問(wèn)題也與訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)中確定的一種方法相匹配。結(jié)果將518個(gè)問(wèn)題手動(dòng)過(guò)濾為最終的287個(gè)問(wèn)題。研究人員表示:

我們的數(shù)據(jù)集不僅是當(dāng)前可用于Java的最大數(shù)據(jù)集,而且還是唯一以自動(dòng)化(一致)方式針對(duì)Stack Overflow的真實(shí)答案進(jìn)行驗(yàn)證的數(shù)據(jù)集。

Facebook最近發(fā)表了幾篇關(guān)于神經(jīng)代碼搜索的論文,這是一種用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)回答“如何”編碼問(wèn)題的機(jī)器學(xué)習(xí)技術(shù)。軟件開(kāi)發(fā)人員通常會(huì)使用Stack Overflow來(lái)學(xué)習(xí)如何解決特定的編碼問(wèn)題,例如,如何解決 Android應(yīng)用程序中的錯(cuò)誤。但是,在處理使用專有API或較不常見(jiàn)的編程語(yǔ)言的代碼時(shí),這不是一個(gè)選擇。在這種情況下,程序員自己的組織之外的專家很少(或沒(méi)有)。相反,F(xiàn)acebook和其他公司探索了使用源代碼本身作為培訓(xùn)數(shù)據(jù)來(lái)產(chǎn)生可以回答編碼問(wèn)題的自然語(yǔ)言處理(NLP)系統(tǒng)的想法。

去年,F(xiàn)acebook發(fā)表了一篇關(guān)于無(wú)監(jiān)督學(xué)習(xí)方法的論文,稱為神經(jīng)代碼搜索(NCS),該方法接受了從GitHub收集的數(shù)據(jù)的培訓(xùn)。該技術(shù)從源代碼中提取單詞,并學(xué)習(xí)將每個(gè)單詞映射到高維空間中的向量的嵌入。嵌入通常具有向量的性質(zhì),向量在向量空間中彼此“接近”,表示具有相似含義的詞,并且詞之間的關(guān)系可用向量算術(shù)表示。一個(gè)例子是在Wikipedia上訓(xùn)練的word2vec模型,當(dāng)給定向量表達(dá)式“ Paris-France + Spain”時(shí),該模型將返回“ Madrid”。

學(xué)習(xí)了嵌入之后,使用“ 詞袋 ”模型將語(yǔ)料庫(kù)中的每個(gè)Java方法轉(zhuǎn)換為嵌入空間中的向量;通過(guò)嵌入將代碼中的每個(gè)單詞轉(zhuǎn)換為向量,并將向量的加權(quán)總和分配給該方法作為其索引。這會(huì)將每個(gè)Java方法映射到嵌入空間中的一個(gè)點(diǎn)。為了回答編碼問(wèn)題,通過(guò)將查詢中的每個(gè)單詞都通過(guò)嵌入轉(zhuǎn)換并產(chǎn)生加權(quán)和,可以將該問(wèn)題類似地映射到嵌入空間中的某個(gè)點(diǎn)。問(wèn)題的“答案”是Java方法,其索引最接近該點(diǎn)。關(guān)鍵思想是查詢和代碼都使用相同的嵌入,并且訓(xùn)練不需要在輸入數(shù)據(jù)中出現(xiàn)任何問(wèn)題;它僅從源代碼中學(xué)習(xí)。

這種技術(shù)的一個(gè)缺點(diǎn)是它不會(huì)學(xué)習(xí)源代碼中沒(méi)有的單詞的嵌入。Facebook研究人員發(fā)現(xiàn),在Stack Overflow上,有問(wèn)題的單詞中也只有不到一半的單詞包含在源代碼中。這促使研究人員通過(guò)監(jiān)督學(xué)習(xí)擴(kuò)展了NCS,“以彌合自然語(yǔ)言單詞和源代碼單詞之間的鴻溝”。產(chǎn)生的系統(tǒng)稱為嵌入統(tǒng)一(UNIF),學(xué)習(xí)查詢?cè)~的單獨(dú)嵌入。在此培訓(xùn)過(guò)程中,團(tuán)隊(duì)使用類似于收集基準(zhǔn)數(shù)據(jù)集的過(guò)程從Stack Overflow中提取了一組問(wèn)題標(biāo)題和代碼段。該訓(xùn)練數(shù)據(jù)集包含451k個(gè)問(wèn)題-答案對(duì),但都不在基準(zhǔn)測(cè)試中。在基準(zhǔn)上進(jìn)行評(píng)估時(shí),對(duì)這一數(shù)據(jù)進(jìn)行培訓(xùn)的聯(lián)合國(guó)系統(tǒng)的性能略優(yōu)于NCS。兩種系統(tǒng)都以大約三分之一的時(shí)間作為最高結(jié)果返回“正確”答案,并以一半的時(shí)間以“前五項(xiàng)”結(jié)果返回“正確”答案。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Facebook
    +關(guān)注

    關(guān)注

    3

    文章

    1432

    瀏覽量

    59354
  • 代碼
    +關(guān)注

    關(guān)注

    30

    文章

    4976

    瀏覽量

    74384
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26261
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【誠(chéng)邀體驗(yàn)】 安利個(gè)AI使用工具!

    已經(jīng)可以幫忙編寫(xiě)代碼、解釋函數(shù)、分析錯(cuò)誤甚至獨(dú)立完成項(xiàng)目,但是在實(shí)際開(kāi)發(fā)中,個(gè)常見(jiàn)的問(wèn)題仍然存在:通用AI雖然能力強(qiáng)大,但在更專業(yè)更細(xì)分的嵌入式領(lǐng)域仍然需要足夠
    的頭像 發(fā)表于 04-10 18:25 ?116次閱讀
    【誠(chéng)邀體驗(yàn)】 安利<b class='flag-5'>一</b><b class='flag-5'>個(gè)</b><b class='flag-5'>AI</b>使用工具!

    AI輔助編程設(shè)計(jì)之道:從Spec到Code工程實(shí)踐

    設(shè)計(jì)、模塊接口定義、數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)等。這些文檔的價(jià)值,在于將模糊的想法逐步細(xì)化,最終形成可供編碼實(shí)現(xiàn)的藍(lán)圖。 AI編程的誤區(qū)在于,很多人試圖用句話替代整個(gè)設(shè)計(jì)過(guò)程,直接跳到
    發(fā)表于 03-16 13:33

    還在手動(dòng)拼接 AI 代碼?你的 IDE 早就該升級(jí)

    : 拼接過(guò)程中,很容易出現(xiàn)代碼片段與硬件平臺(tái)、現(xiàn)有項(xiàng)目架構(gòu)不兼容的問(wèn)題,進(jìn)而引發(fā)系統(tǒng)報(bào)錯(cuò),影響設(shè)備正常運(yùn)行。 ▌ 維護(hù)性風(fēng)險(xiǎn): 不同來(lái)源的 AI 代碼
    發(fā)表于 03-11 10:25

    AI代碼之爭(zhēng)忽略什么

    人工智能的興起讓 COBOL 重新成為話題焦點(diǎn),市場(chǎng)上也涌現(xiàn)出不少號(hào)稱能轉(zhuǎn)換遺留代碼、破解現(xiàn)代化難題的工具。但關(guān)鍵在于厘清這究竟意味著什么,以及它不包含什么。代碼轉(zhuǎn)換是回事,平臺(tái)現(xiàn)代
    的頭像 發(fā)表于 03-02 15:20 ?698次閱讀

    Transformer 入門(mén):從零理解 AI 大模型的核心原理

    : 身高:175cm 體重:70kg 年齡:25歲 我們可以把這些數(shù)字排成排:[175, 70, 25],這就是個(gè)向量! arduino 體驗(yàn)AI
    發(fā)表于 02-10 16:33

    瑞芯微SOC智能視覺(jué)AI處理器

    能力。核心升級(jí): 增加了高規(guī)格的視頻編碼能力,支持H.264/H.265格式的4K@60fps編碼。目標(biāo): 解決RK1126只能“分析”不能“錄制”的短板,成為
    發(fā)表于 12-19 13:44

    risc-v P擴(kuò)展() P指令簡(jiǎn)介

    =17.3333px]二、指令詳細(xì)介紹 [size=17.3333px]P擴(kuò)展包含指令數(shù)量較大,可以按照:SIMD數(shù)據(jù)處理指令、部分SIMD數(shù)據(jù)處理指令、64位
    發(fā)表于 10-23 07:40

    NVIDIA推出多語(yǔ)種語(yǔ)音AI開(kāi)放數(shù)據(jù)與模型

    發(fā)布的 Granary 數(shù)據(jù)包含約 100 萬(wàn)小時(shí)音頻,可用于訓(xùn)練高精度、高吞吐量的 AI 音頻轉(zhuǎn)錄與翻譯模型。
    的頭像 發(fā)表于 09-23 15:34 ?1143次閱讀

    HarmonyOSAI編程智能代碼解讀

    CodeGenie提供智能AI能力對(duì)框選的代碼片段進(jìn)行逐條解釋,總結(jié)代碼段含義,幫助開(kāi)發(fā)者提升閱讀代碼的速度和效率。 選中.ets文件或者.
    發(fā)表于 09-02 16:29

    HarmonyOSAI編程編輯區(qū)代碼續(xù)寫(xiě)

    利用AI大模型分析并理解開(kāi)發(fā)者在代碼編輯區(qū)的上下文信息或自然語(yǔ)言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 使用約束 建議在編輯區(qū)內(nèi)已有較豐富上下文,能夠使模型對(duì)編程場(chǎng)
    發(fā)表于 08-21 15:43

    【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    圖像的快速鑒別,滿足實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的應(yīng)用需求。 3. 數(shù)據(jù)采集 AI圖片數(shù)據(jù),本項(xiàng)目使用gemini生成圖片,使用的是gem來(lái)實(shí)現(xiàn)的。 提示詞如下 你是
    發(fā)表于 08-21 13:59

    AI Cube如何導(dǎo)入數(shù)據(jù)?

    我從在線平臺(tái)標(biāo)注完并且下載數(shù)據(jù),也按照ai cube的要求修改了文件夾名稱,但是導(dǎo)入提示 不知道是什么原因,我該怎么辦? 以下是我修改后的文件夾目錄
    發(fā)表于 08-11 08:12

    HarmonyOS AI輔助編程工具(CodeGenie)代碼智能解讀

    本功能從DevEco CodeGenie 5.1.0 Beta版本開(kāi)始支持。 CodeGenie提供智能AI能力對(duì)框選的代碼片段進(jìn)行逐條解釋,總結(jié)代碼段含義,幫助開(kāi)發(fā)者提升閱讀
    發(fā)表于 07-17 17:02

    HarmonyOS AI輔助編程工具(CodeGenie)代碼續(xù)寫(xiě)

    利用AI大模型分析并理解開(kāi)發(fā)者在代碼編輯區(qū)的上下文信息或自然語(yǔ)言描述信息,智能生成符合上下文的ArkTS或C++代碼片段。 、使用約束 建
    發(fā)表于 07-15 16:15

    【HarmonyOS 5】鴻蒙CodeGenie AI輔助編程工具詳解

    菜單View布局。主界面主要由編碼助手的介紹和知識(shí)問(wèn)答與生成代碼個(gè)入門(mén)組成。 當(dāng)我們點(diǎn)擊兩個(gè)入門(mén)其中
    發(fā)表于 06-11 16:34
    新巴尔虎左旗| 乌鲁木齐市| 滨海县| 柯坪县| 巴楚县| 治多县| 邛崃市| 孟津县| 安图县| 玉龙| 黔江区| 余干县| 屯留县| 勐海县| 即墨市| 江城| 东兴市| 阿城市| 肃宁县| 田林县| 莆田市| 阿克苏市| 彝良县| 永定县| 华池县| 巢湖市| 天水市| 石狮市| 大姚县| 大城县| 临沂市| 澄城县| 呼伦贝尔市| 金川县| 桓仁| 武隆县| 嘉义县| 双辽市| 巴东县| 祥云县| 苗栗县|