哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

布朗大學90后研究生:我們復現(xiàn)了15億參數(shù)GPT-2模型,你也行!

DPVg_AI_era ? 來源:lq ? 2019-09-01 07:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

布朗大學的計算機科學研究畢業(yè)生 Vanya Cohen 近日在 Medium 分享了他復現(xiàn) GPT-2 大模型的全過程。作者復刻了Open-AI 15億參數(shù)模型,允許其他人在其預訓練模型上進行構(gòu)建并進一步改進。

BERT,XLNet,GPT-2和Grover等大型語言模型在生成文本和多個NLP任務方面取得了令人矚目的成果。

本文試圖去復刻GPT-2的15億模型以供研究人員使用。

Google Colab地址:

https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit

單獨提供的模型權(quán)重:

https://drive.google.com/drive/u/1/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1

復刻

之所以采取遲遲不放出模型的安全戰(zhàn)略,是因為這些模型難以復刻并需要高度專業(yè)的領(lǐng)域知識。

但是布朗大學的兩名碩士研究生卻證明了本文的許多結(jié)果復刻起來并不是那么的難。而且不僅他們倆可以,絕大多數(shù)感興趣的人都可以復刻GPT-2。

研究生之一:Vanya Cohen

此外,Zellers等人表明像GPT-2這樣的大型語言模型是一種非常有用的工具,可以抵制使用與文本生成器相同的模型。

兩位研究生經(jīng)過深思熟慮后認為,復刻工作并不是獨一無二的,并且大型語言模型是目前抵制生成文本的最有效手段,因此在對抗未來模型被濫用的可能性方面,發(fā)布本模型是有益的。

本模型的實現(xiàn)基于Grover模型,并修改其代碼庫以匹配GPT-2的語言建模訓練目標。由于他們的模型是在類似的大型語料庫上進行訓練的,因此大部分代碼和超參數(shù)都可以重復使用。本模型沒有從Grover中大幅改變超參數(shù)。

使用本模型代碼從頭開始訓練模型的成本約為5萬美元。要注意這個數(shù)字是云計算的估計值,并不包含所涉及的各種其他細微的內(nèi)部成本。

存在顯著的時間-成本平衡,并且較慢的訓練方法具有相當小的成本,因此降低了使用門檻。

數(shù)據(jù)集

原始文件提供了有關(guān)如何清理數(shù)據(jù)集的最低限度的詳細信息。

與在WebText中一樣,首先從Reddit中解析出超過3個向上投票的所有鏈接。接著,從PushshiftRedditscrape開始。這是一個包含不斷更新的Reddit帖子、評論以及相關(guān)元數(shù)據(jù)集合的數(shù)據(jù)集。

然后過濾一些鏈接以刪除不太可能包含可用文本或HTML(即視頻文件,PDF和CSS樣式文件)的文件類型的直接鏈接。

同時還過濾網(wǎng)頁以刪除維基百科,因為它被各種評估基準和數(shù)據(jù)集使用。目前還無法確定過濾標準是否與OpenAI相匹配,因為此信息從未發(fā)布過。

使用Newspaper Python庫從HTML頁面中提取文本,然后使用fastText Python庫來提取英文文本、過濾掉其他語言。具體來說,使用WhatTheLangpython Wrapper。

使用局部敏感散列(LSH)來去重。然后將文檔散列為5-grams的集合,并且刪除了相似度閾值大于0.5的所有文檔。

使用Heuristic Cleaning算法,從數(shù)據(jù)集中刪除少于128個令牌的文檔。這些較短的文件往往質(zhì)量較低,這是由文本連貫性決定的。最后將此數(shù)據(jù)集作為OpenWebTextCorpus發(fā)布。

使用Radford等人發(fā)布的小型模型和Binary Pattern Encoder對數(shù)據(jù)集進行編碼,并使用OpenWebText web-scrapingcodebase的修改版本作為數(shù)據(jù)集集合的起點。

勘誤表

從公開發(fā)布的來自WebText的260k文檔集合中來看,研究人員發(fā)現(xiàn)所有文件都具有最小字節(jié)對(BPE)編碼,長度為40,最大值為1024.

OpenWebText的不同之處在于為128個令牌設(shè)置文檔長度的下限(而不是BPE代碼),并且不限制最大文檔長度。

原始的WebTextCorpus在這些樣本可用之前發(fā)布,因此沒有使用該信息來生成cleaning heuristics。

研究人員曾多次嘗試聯(lián)系Radford等人,以澄清評估和模型細節(jié),但最終都沒有成功。

結(jié)果

盡管訓練分布存在差異,但確實報告了與大多數(shù)數(shù)據(jù)集相似的困惑。

示例:輸入“Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!”輸出結(jié)果如下:

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    573

    瀏覽量

    11341
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1240

    瀏覽量

    26261

原文標題:布朗大學90后研究生:我們復現(xiàn)了15億參數(shù)GPT-2模型,你也行!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    第九屆中國研究生創(chuàng)芯大賽新思科技賽題發(fā)布

    2026 年,新思科技再度攜手中國研究生創(chuàng) “芯” 大賽,傾力提供賽題。以產(chǎn)業(yè)前沿需求對接科研攻關(guān)方向,賦能高校人才培養(yǎng)。誠邀國內(nèi)外在讀研究生勇攀技術(shù)巔峰。
    的頭像 發(fā)表于 04-14 16:12 ?289次閱讀

    上海交大發(fā)布國產(chǎn)光學大模型Optics GPT

    原理,為科研、設(shè)計與教學提供智能化助力。 ? 目前,通用人工智能模型雖功能多樣,但在光學這類需要深厚專業(yè)知識和精密計算的硬科技領(lǐng)域,往往難以深入理解。上海交通大學“光未來”項目組經(jīng)過深入研究
    的頭像 發(fā)表于 01-26 09:59 ?2194次閱讀
    上海交大發(fā)布國產(chǎn)光學大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    如何在NVIDIA Jetson AGX Thor上部署1200參數(shù)模型

    我們將嘗試能否在 Jetson AGX Thor 上部署并成功運行高達 1,200 參數(shù)量的 gpt-oss-120b 大模型
    的頭像 發(fā)表于 12-26 17:06 ?5239次閱讀
    如何在NVIDIA Jetson AGX Thor上部署1200<b class='flag-5'>億</b><b class='flag-5'>參數(shù)</b>大<b class='flag-5'>模型</b>

    芯華章助力2025中國研究生創(chuàng)“芯”大賽EDA精英挑戰(zhàn)賽圓滿舉辦

    作為深化產(chǎn)教融合的重要載體,中國研究生創(chuàng) “芯” 大賽?EDA 精英挑戰(zhàn)賽為校企協(xié)同育人機制創(chuàng)新提供關(guān)鍵平臺。
    的頭像 發(fā)表于 12-19 09:38 ?556次閱讀
    芯華章助力2025中國<b class='flag-5'>研究生</b>創(chuàng)“芯”大賽EDA精英挑戰(zhàn)賽圓滿舉辦

    紫光同創(chuàng)助力2025中國研究生創(chuàng)“芯”大賽EDA精英挑戰(zhàn)賽圓滿收官

    11月28日-30日,2025中國研究生創(chuàng)“芯”大賽·EDA精英挑戰(zhàn)賽決賽在香港科學園舉辦。自8月啟動以來,共有154所國內(nèi)外高校的674支研究生隊伍報名、1734名學生報名參賽,最終206支隊伍經(jīng)過評選晉級進入總決賽,角逐各類獎項榮譽。
    的頭像 發(fā)表于 12-15 14:11 ?734次閱讀

    2026年NVIDIA研究生獎學金名單公布

    25 年來,NVIDIA 研究生獎學金計劃致力于為在與 NVIDIA 技術(shù)相關(guān)的前沿領(lǐng)域開展研究的碩博研究生提供支持。近日,該計劃公布最新一批獎學金授予結(jié)果:10 位博士
    的頭像 發(fā)表于 12-13 09:44 ?1196次閱讀

    普華基礎(chǔ)軟件走進清華大學研究生課堂

    近日,普華基礎(chǔ)軟件走進清華大學車輛與運載學院,在《車輛控制工程》課堂上開展研究生專題授課和交流。本次授課聚焦智能駕駛汽車基礎(chǔ)軟件發(fā)展與關(guān)鍵技術(shù),旨在搭建校企知識傳遞橋梁,為高校學子帶來產(chǎn)業(yè)前沿視角,助力培養(yǎng)符合行業(yè)需求的復合型人才。
    的頭像 發(fā)表于 11-26 15:53 ?490次閱讀

    谷歌與耶魯大學合作發(fā)布最新C2S-Scale 27B模型

    我們很榮幸發(fā)布與耶魯大學合作研究的 Cell2Sentence-Scale 27B (C2S-Scale),這是一個新的 270
    的頭像 發(fā)表于 11-06 10:35 ?1006次閱讀

    如何在TPU上使用JAX訓練GPT-2模型

    如果您對如何使用 JAX 從頭開始構(gòu)建語言模型感到好奇,那么本文非常適合您。我們在 2025 年 Google Cloud Next 大會上舉辦了一場關(guān)于此主題的研討會,并獲得了一些很好的反饋,我們也為所有無法參會的開發(fā)者編寫了
    的頭像 發(fā)表于 09-03 11:39 ?1813次閱讀
    如何在TPU上使用JAX訓練<b class='flag-5'>GPT-2</b><b class='flag-5'>模型</b>

    新思科技連續(xù)八年助力中國研究生創(chuàng)“芯”大賽

    作為中國研究生創(chuàng) “芯” 大賽的創(chuàng)始合作方,新思科技始終秉持初心,連續(xù)八年全力支持這一賽事,致力于為中國本土集成電路設(shè)計領(lǐng)域培育后備力量,以實際行動推動產(chǎn)業(yè)人才生態(tài)建設(shè)。
    的頭像 發(fā)表于 08-15 15:40 ?1168次閱讀

    Cadence連續(xù)八年助力中國研究生創(chuàng)“芯”大賽

    中國研究生創(chuàng)“芯”大賽是中國研究生創(chuàng)新實踐系列賽事之一,是一項面向全國高等院校和科研院所在讀研究生的團體性集成電路設(shè)計創(chuàng)意實踐活動。大賽以“創(chuàng)芯、選星、育芯”為宗旨,配合國家集成電路產(chǎn)業(yè)發(fā)展戰(zhàn)略,切實提高
    的頭像 發(fā)表于 08-06 15:05 ?1429次閱讀

    OpenAI發(fā)布2款開源模型

    OpenAI開源兩款高性能權(quán)重語言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt
    的頭像 發(fā)表于 08-06 14:25 ?1137次閱讀

    概倫電子助力第八屆中國研究生創(chuàng)“芯”大賽圓滿落幕

    近日,“華為杯”第八屆中國研究生創(chuàng)“芯”大賽決賽在南京大學蘇州校區(qū)圓滿落幕。作為國內(nèi)首家EDA上市公司,關(guān)鍵核心技術(shù)具備國際市場競爭力的EDA領(lǐng)軍企業(yè),概倫電子已連續(xù)多年支持這一賽事,始終將產(chǎn)教融合
    的頭像 發(fā)表于 08-05 17:20 ?1437次閱讀

    3Dfindit 提供的數(shù)字立方體模型研究項目的可視化提供支持

    作為學習項目的一部分,羅伊特林根教育大學的學生們在比辛根集中營紀念地的博物館中使用 3Dfindit 動畫立方體模型進行了學習。作為歷史教學研討會的一部分,學生們研究巴登-符騰堡州
    發(fā)表于 08-01 14:36

    感應電機智能調(diào)速

    內(nèi)容先進,可作為電力傳動專業(yè)特別是感應電機控制專業(yè)方向的大學教師和學生(高年級本科、碩士研究生、博士研究生)學習研究感應電機智能控制的參考
    發(fā)表于 05-28 15:53
    兴山县| 东宁县| 黄浦区| 牟定县| 叶城县| 宣化县| 成武县| 鄂托克旗| 日照市| 临武县| 山阳县| 浦东新区| 冕宁县| 会宁县| 宣武区| 和静县| 台北市| 阜康市| 祁东县| 炎陵县| 龙海市| 界首市| 白城市| 平山县| 西和县| 镇安县| 上虞市| 佳木斯市| 航空| 元阳县| 叙永县| 来宾市| 友谊县| 攀枝花市| 松滋市| 武乡县| 富川| 潢川县| 闽清县| 巨鹿县| 五寨县|