哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何打造中文版 GPT-3?GPT-4 可能如何演化?

如意 ? 來源:品玩 ? 作者:Decode ? 2020-09-02 10:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

既能問答、翻譯、寫文章,也能寫代碼、算公式、畫圖標。..。..OpenAI 2020 年 5 月推出的 GPT-3,因其神奇的通用性而走紅 AI 領域。

GPT-3 是用英文語料做預訓練的,主要應用于英文相關場景,而中文業(yè)界和學術界已經(jīng)出現(xiàn)了期待中文版 GPT-3 的聲音。

“GPT-3 與出門問問的技術基礎緊密相關。雖然現(xiàn)階段 GPT 模型還并非完美,但它是目前我們能看到,通往更加通用的語言智能的重要路徑之一?!睆氖轮形恼Z音交互的 AI 公司出門問問創(chuàng)始人兼 CEO 李志飛告訴品玩。

出門問問一直對更加通用的語言智能很感興趣。團隊正深入理解 GPT-3 的相關論文,推進相關實驗,嘗試提升訓練效率等工作。

如何打造中文版 GPT-3?

那么,如果要打造一個中文版的 GPT-3,該怎么操作?

“與英文相比,中文版 GPT-3 的誕生將經(jīng)歷一個從零到一的過程,可以借鑒英文 GPT-3 技術迭代的相關經(jīng)驗?!崩钪撅w對品玩表示。GPT-3 的技術迭代之路,是一個不斷增大訓練數(shù)據(jù)量和模型參數(shù)規(guī)模的過程。

本質(zhì)上,GPT-3 是一個大規(guī)模預訓練 NLP(自然語言處理) 模型。大規(guī)模預訓練是指,先用大量沒有標注的語料做無監(jiān)督學習,得到一套模型參數(shù),然后再用少量標注語料精調(diào),最后應用于具體的下游 NLP 任務。這種模式已經(jīng)誕生了不少成功的 NLP 模型,如 Google 2018 年推出的 Bert,但其通用性上依然不足。直到 GPT-3 推出,讓這類預訓練模型的通用性上了一個臺階。

從 GPT 第一代到 GPT-3,其模型層面一直都是基于 Transformer(一種領先的提取語義特征方法)做預訓練,沒有什么改變,但訓練數(shù)據(jù)量和模型規(guī)模十倍、千倍地增長。

2018 年 6 月發(fā)布的 GPT 第一代,預訓練數(shù)據(jù)量僅為 5GB。GPT-2 增長為 40GB,GPT-3 更是猛增到 45TB(等于 45000GB)。而模型規(guī)模方面,從 GPT 第一代的 1.17 億參數(shù)量,指數(shù)增長為 1750 億。

隨著數(shù)據(jù)量和模型規(guī)模的增大,GPT 逐漸舍棄了用少數(shù)標注語料精調(diào)這一步,完全基于預訓練得出的參數(shù),去做下游任務,精確度依然有一定保證。

GPT 所需算力也越來越夸張,初代 GPT 在 8 個 GPU 上訓練一個月就行,而 GPT-2 需要在 256 個 Google Cloud TPU v3 上訓練(256 美元每小時),訓練時長未知。到 GPT-3,預估訓練一個模型的費用超過 460 萬美元。

相應地,參與到 GPT 論文的作者從初代的 4 位,增加到第三代的 31 位。并且,31 位作者分工明確,有人負責訓練模型,有人負責收集和過濾數(shù)據(jù),有人負責實施具體的自然語言任務,有人負責開發(fā)更快的 GPU 內(nèi)核。

借鑒 GPT-3 的迭代經(jīng)驗,李志飛認為開展中文 GPT-3 模型訓練比較合理的路徑是:“從中小規(guī)模的模型入手,開展研究及實驗,達到一定效果后再推廣到大模型上進行驗證”。

至于人力方面的配置,他表示 GPT 是一個非常綜合的大系統(tǒng)工程,涉及到學術、工程、商業(yè)等團隊之間的大規(guī)模協(xié)同。一般需要搭建幾十人的團隊,其中包括科學家、工程師、項目經(jīng)理等角色。

雖然可以借鑒英文 GPT-3 技術迭代的相關經(jīng)驗,但是在創(chuàng)建中文版 GPT-3 的過程中,也需要解決很多獨特的問題,如中文訓練數(shù)據(jù)、算力等。

“一方面,我們需要將更多的時間精力,投入在高質(zhì)量、多樣性的訓練文本的獲取上?!崩钪撅w說,“另一方面,計算的效率問題,也是目前大規(guī)模深度學習模型訓練所面臨的共同挑戰(zhàn)?!?/p>

從總體規(guī)模、數(shù)據(jù)質(zhì)量及多樣性上看,目前能夠從互聯(lián)網(wǎng)上獲取到的高質(zhì)量中文數(shù)據(jù),相比英文數(shù)據(jù)要少一些,這可能會影響到中文模型的訓練效果。不過,從已有的研究分析結果來看,數(shù)據(jù)并非越多越好。

“我們可以結合數(shù)據(jù)優(yōu)化、數(shù)據(jù)生成等方式來提高訓練語料的有效性。初步來看,具體訓練語料,主要包括百科問答、新聞資訊、博客電子書類數(shù)據(jù)及其它泛爬數(shù)據(jù),經(jīng)過數(shù)據(jù)處理后其規(guī)模在 500GB 左右?!崩钪撅w說。

GPT-3 模型參數(shù)到達 1750 億,其背后訓練資源的開銷非常龐大,預估訓練一個模型的費用超過 460 萬美元。不過,隨著國內(nèi)外各項研究的推進,預訓練模型的訓練效率將會不斷提升。

“我們可以借鑒其他預訓練語言模型的優(yōu)化經(jīng)驗,在訓練語料、網(wǎng)絡結構、模型壓縮等方面多做工作,預計將模型的單次訓練成本降低一個數(shù)量級。”李志飛說。

看上去,構建中文 GPT-3 是一件很費勁的事情,但這項工作帶來的回報也非常可觀。李志飛對品玩表示,GPT-3 展現(xiàn)出的通用能力,可以將其視為下一代搜索引擎和 AI 助理,所以這項技術本身的商業(yè)應用場景可以很廣闊。

其次,構建 GPT 模型的過程中,將涉及到超算中心和AI算法平臺的建設,這些算力和算法平臺可以為企業(yè)、科研機構、政府提供底層服務,通過開放平臺為產(chǎn)業(yè)賦能,如智能車載、智慧城市、科技金融等領域。

另外,雖然 GPT 本質(zhì)是一個關于語言的時序模型,但語言之外的其它時序問題,如經(jīng)濟、股票、交通等行為預測,也有可能成為潛在應用場景。

GPT-4 可能如何演化?

GPT-3 目前的表現(xiàn)雖然令人震驚,但它本身還存在著很多問題,比如它并不能真正理解文本的含義,只是對詞語進行排列組合。而且,研究員也并未完全了解它的工作機制。李志飛預測,下一個版本 GPT-4 將會在模型規(guī)模、小樣本學習、多模態(tài)、學習反饋機制和與任務執(zhí)行結合方面進行改進。

毫無疑問,GPT-4 模型會更加暴力。李志飛說:“下一代 GPT 模型必然在數(shù)據(jù)規(guī)模、模型參數(shù)、算力等方面都會有很大提升。另外,下一代的 GPT 模型可能不局限于英文,將能處理更多跨語言層面的任務。”

目前的 GPT-3 模型還嚴重依賴小樣本學習機制。雖然 GPT-3 不需要精調(diào),但是在完成具體的 NLP 任務時,還是會把少量和任務相關的實例給模型。在零樣本和單樣本的任務上,GPT-3 退化比較明顯,事實上后面兩個任務才是更普遍遇到的問題。

“下一代 GPT 模型需要加強在理論上的泛化能力,以便更好地處理零樣本和單樣本的任務?!崩钪撅w表示。

下一代的 GPT 模型極有可能是一個多模態(tài)的模型。OpenAI 認為,純文本的自回歸預訓練模型達到當下的規(guī)模,已經(jīng)快接近極限了,需要往多模態(tài)模型方向發(fā)展,把文本、語音、圖像這些內(nèi)容結合起來進行學習。李志飛認為,多模態(tài)模型,一方面可以引入語言之外的更多維度的信息,另外一方面可以促使模型學習完成更通用化的表示,以此加強模型的泛化能力。

另外一個重要的進化,是引入學習反饋機制。目前GPT模型只是能夠在完全無監(jiān)督的條件下,讀取海量互聯(lián)網(wǎng)文本數(shù)據(jù)進行學習,但是人類的學習過程是跟物理世界有交互的,只有這樣才能建立更多物理世界的“常識”,比如說杯子應該在桌子上面而不是下面。如果要到達更加通用的狀態(tài),除了多模態(tài)外,還要在學習過程中引入物理世界的反饋機制。

“當然,這個反饋也是通過數(shù)據(jù)來實現(xiàn)的,而不是讓GPT真正像人一樣去探索物理世界。”李志飛說道,“另外,鑒于 GPT 希望實現(xiàn)完全無監(jiān)督學習的初衷,這個反饋更多是隱式的和延遲的,而不是顯式的和及時的。為了做到這些,需要引入強化學習(re-inforcement learning)之類的機制?!?/p>

李志飛還認為,GPT-4 可能引入任務執(zhí)行能力?,F(xiàn)在的 GPT 主要是一個預測和生成的引擎,而不是一個任務的執(zhí)行器。

比如,你跟GPT說“幫我訂一下明天下午三點左右北京去上海的經(jīng)濟艙的機票”,目前GPT也許能理解這句話的意思,但還沒有能力自動調(diào)取訂票網(wǎng)站的 API(應用程序接口)去執(zhí)行任務。如果不具備這種執(zhí)行能力,GPT的通用性就很有限,因為每一個任務都需要額外增加代碼用以執(zhí)行理解后的任務。所以,GPT 必須學習怎么直接執(zhí)行任務。

總體而言,李志飛對 GPT 的未來發(fā)展非常樂觀:“未來互聯(lián)網(wǎng)上的很多內(nèi)容或知識,都會是由類 GPT 模型產(chǎn)生或加工過的。所以某種程度上,GPT的發(fā)展代表著語言主權的演進,且它將有潛力成為一種生態(tài)系統(tǒng)。”
責編AJX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人機交互
    +關注

    關注

    12

    文章

    1297

    瀏覽量

    58105
  • AI
    AI
    +關注

    關注

    91

    文章

    40968

    瀏覽量

    302533
  • 應用程序
    +關注

    關注

    38

    文章

    3346

    瀏覽量

    60411
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GPT-5震撼發(fā)布:AI領域的重大飛躍

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)2025年8月8日凌晨1點,OpenAI以一場長達1小時的線上發(fā)布會正式推出GPT-5。這場被業(yè)界稱為“AI進化分水嶺”的發(fā)布,終結了長達兩年的技術猜測,更以多維度性能
    的頭像 發(fā)表于 08-09 07:44 ?1w次閱讀
    <b class='flag-5'>GPT</b>-5震撼發(fā)布:AI領域的重大飛躍

    瑞薩RA系列FSP庫開發(fā)實戰(zhàn)指南之使用GPT基本定時功能實驗

    本實驗較為簡單,我們將使用GPT定時器進行定時并產(chǎn)生中斷請求觸發(fā)中斷,然后通過這個中斷,切換LED的電平。
    的頭像 發(fā)表于 04-20 15:23 ?1402次閱讀
    瑞薩RA系列FSP庫開發(fā)實戰(zhàn)指南之使用<b class='flag-5'>GPT</b>基本定時功能實驗

    請教RTD GPT 配置問題

    ) RTD版本如下圖: 我在我的項目中包含一個 GPT。我希望它從 0 到 5000 計數(shù)并重新開始。我面臨的問題是似乎沒有辦法配置這個上限。這是一個 16 位計數(shù)器,SDK 配置器似乎不喜歡
    發(fā)表于 04-15 08:32

    【瑞薩RA6E2】+ 3、使用PWM驅(qū)動舵機

    3.keil5代碼 1.PWM設置代碼: void GPT_PWM_SetDuty(uint8_t duty) { timer_info_t info; R_GPT_InfoGet(&
    發(fā)表于 11-19 08:35

    GPT-5.1發(fā)布 OpenAI開始拼情商

    OpenAI正式上線了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有網(wǎng)友實測發(fā)現(xiàn)OpenAI新發(fā)布的GPT-5.1大模型的指令執(zhí)行能力更強了,可以更可靠地回答用戶
    的頭像 發(fā)表于 11-13 15:49 ?803次閱讀

    請問NucleiStudio有中文版嗎?

    NucleiStudio有中文版嗎?
    發(fā)表于 11-11 06:59

    【RA-Eco-RA6M4開發(fā)板評測】PWM輸出

    開發(fā)環(huán)境: IDE:MKD 5.38a Renesas RA Smart Configurator:v5.9.0 開發(fā)板:RA-Eco-RA6M4開發(fā)板 MCU:R7FA6M4AF3CFP 1
    發(fā)表于 11-09 21:30

    【RA4E2開發(fā)板評測】PWM 驅(qū)動舵機

      本篇使用 RA4E2 的 PWM 輸出,來驅(qū)動舵機轉(zhuǎn)動,使用 RA4E2 驅(qū)動舵機非常方便,只要配置好 GPT PWM 模塊,就能輕松實現(xiàn)角度控制。 硬件準備 1、RA4E2 開發(fā)
    發(fā)表于 09-09 15:13

    【RA4M2-SENSOR】+PWM與調(diào)節(jié)控制

    ;g_timer2_ctrl); // 啟動定時器GPT2 printf(\"RA4M2-SENSOR test : \\\\\\\\r\\\\\\\\n\"); while(1
    發(fā)表于 09-04 09:35

    【RA4M2-SENSOR】3、使用GPT定時器-PWM輸出

    GPT介紹 通用 PWM 定時器(GPT,General PWM Timer)是 RA MCU 的其中一種 32/16 位的定時器外設。 在 GPT 當中,可分為 GPT32 和
    發(fā)表于 09-01 15:20

    【RA-Eco-RA6M4開發(fā)板評測】PWM 驅(qū)動舵機

     本篇使用 RA6M4 的 PWM 輸出,來驅(qū)動舵機轉(zhuǎn)動 硬件準備 1、RA6M4 開發(fā)板 2、舵機 3、杜邦線若干 接線方式 舵機: DuoS 開發(fā)板引腳 舵機引腳 3V3 VCC
    發(fā)表于 09-01 01:10

    OpenAI或在周五凌晨發(fā)布GPT-5 OpenAI以低價向美國政府提供ChatGPT

    外界一直在期待的OpenAI新一代大語言模型GPT-5或?qū)l(fā)布。據(jù)外媒的報道,GPT-5很可能在周五凌晨發(fā)布。這是OpenAI在2023年的3月份推出自然語言處理模型
    的頭像 發(fā)表于 08-07 14:13 ?1.4w次閱讀

    STM32參考手冊——中文版

    STM32參考手冊——中文版,推薦下載!
    發(fā)表于 06-09 22:37

    GPT-5即將面市 性能遠超GPT-4

    行業(yè)芯事
    電子發(fā)燒友網(wǎng)官方
    發(fā)布于 :2025年06月04日 13:38:23

    【RA-Eco-RA4M2開發(fā)板評測】RA-Eco-RA4M2 PWM輸出

    模塊的結構框圖 RA4M2系列共有共 8 個GPT定時器(即8個通道), 其中包括 4 個32位GPT定時器(GPT32n (n=0~
    發(fā)表于 04-28 22:57
    衡阳县| 无锡市| 玛纳斯县| 文水县| 河间市| 泾源县| 麟游县| 通海县| 通山县| 鄱阳县| 勃利县| 徐水县| 博乐市| 阳新县| 灵丘县| 香格里拉县| 兴和县| 香格里拉县| 彭州市| 明溪县| 临夏市| 石阡县| 江西省| 迭部县| 星子县| 长武县| 德清县| 大关县| 和林格尔县| 尚义县| 邵阳县| 清涧县| 绥化市| 莱芜市| 泸西县| 江城| 广昌县| 思茅市| 苏尼特左旗| 剑河县| 和平区|