哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用PyTorch實現(xiàn)了基本的RL算法

DPVg_AI_era ? 來源:lq ? 2019-06-07 15:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今天和大家分享Reddit上的一個熱帖,樓主用PyTorch實現(xiàn)了基本的RL算法,而且每個算法都在一個文件夾中完成,即使沒有GPU,每個算法也可以在30秒內完成訓練。

近日,有開發(fā)人員用PyTorch實現(xiàn)了基本的RL算法,比如REINFORCE, vanilla actor-critic, DDPG, A3C, DQN 和PPO。這個帖子在Reddit論壇上獲得了195個贊并引發(fā)了熱議,一起來看一下吧。

特點如下:

每個算法都在一個文件中完成。

每個算法的長度可達100~150行代碼。

即使沒有GPU,每個算法也可以在30秒內完成訓練。

Envs固定在“CartPole-v1”上,你只需關注執(zhí)行。

minimalRL-pytorch算法:

1. REINFORCE(66行)

2. TD Actor-Critic(97行)

3. DQN(113行,包括重放內存和目標網(wǎng)絡)

4. PPO(116行,包括GAE)

5. DDPG(149行,包括OU噪聲和軟目標更新)

6. A3C(116行)

7. 有什么建議嗎?

依賴配置:

1. PyTorch

2. OpenAI GYM

使用:

# Works only with Python 3.#e.g.python3REINFORCE.pypython3actor_critic.pypython3dqn.pypython3ppo.pypython3ddpg.pypython3 a3c.py

評論中,不少朋友表示了對樓主的認可和感謝:

Dump7留言:“可以!這是我見過的最美的東西之一。我不是一個能用框架編寫NN的人。但我正在努力。這將在很大程度上幫助到我。謝謝你做了這個。但是你能為基本的CNN和RNN制作這樣的單一文件代碼嗎?”

CodeReclaimers表示:“謝謝你分享這個——我知道把代碼簡化到最少是很費事的。特別好的是,你的代碼將依賴配置控制在最低限度。通常都是,我去尋找可以學習的例子,要花至少30多分鐘來收集所有依賴配置,結果發(fā)現(xiàn)我的平臺上少了一些關鍵的東西?!?/p>

Reddit上的討論:

https://www.reddit.com/r/MachineLearning/comments/bt8sap/p_implementations_of_basic_rl_algorithms_with/

Github資源:

https://github.com/seungeunrho/minimalRL

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4805

    瀏覽量

    98562
  • 代碼
    +關注

    關注

    30

    文章

    4976

    瀏覽量

    74384
  • pytorch
    +關注

    關注

    2

    文章

    813

    瀏覽量

    14923

原文標題:6行代碼搞定基本的RL算法,速度圍觀Reddit高贊帖

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RL78/F12微控制器:性能卓越的工業(yè)與汽車應用之選

    78/F12微控制器,看看它有哪些獨特之處,能在工業(yè)和汽車應用中發(fā)揮重要作用。 文件下載: rl78f12.pdf 一、概述 RL78/F12微控制器提供20至64引腳、8至64KB閃存內存的多種選擇,實現(xiàn)
    的頭像 發(fā)表于 04-01 14:25 ?234次閱讀

    PyTorch 中RuntimeError分析

    原生實現(xiàn)。這是一個已知的 PyTorch 限制,常見于 Stable Diffusion、ComfyUI 等使用 interpolate(..., mode=\'nearest\') 的模型中
    發(fā)表于 03-06 06:02

    Pytorch 與 Visionfive2 兼容嗎?

    Pytorch 與 Visionfive2 兼容嗎? $ pip3 install torch torchvision torchaudio --index-url https
    發(fā)表于 02-06 08:28

    PID控制的算法

    語言實現(xiàn)二 PID算法的離散化上一節(jié)中,我論述PID算法的基本形式,并對其控制過程的實現(xiàn)
    發(fā)表于 01-23 08:18

    FS-LCore-M307RL 用戶手冊

    中移物聯(lián)網(wǎng)模塊ML307RL手冊
    發(fā)表于 01-09 10:50 ?4次下載

    SM4算法實現(xiàn)分享(一)算法原理

    ,Xi、Yi、rki為字,i=0,1,2,…,31。則本算法的加密實現(xiàn)為: 本算法的解密實現(xiàn)與加密實現(xiàn)結構是相同的,不同的只是提供的輪
    發(fā)表于 10-30 08:10

    復雜的軟件算法硬件IP核的實現(xiàn)

    具體方法與步驟 通過 C 語言實現(xiàn)軟件算法,并驗證算法的有效性以后,就可以進行算法的 HDL 轉化工作了。通過使用 Altium Des
    發(fā)表于 10-30 07:02

    TCORDIC算法實現(xiàn)正余弦函數(shù)

    TCORDIC算法,由低延遲CORDIC算法和Taylor展開組成。Taylor展開計算作為CORDIC算法的補充,能夠結合CORDIC算法和Taylor展開方式來計算浮點正余弦函數(shù),
    發(fā)表于 10-29 06:30

    查找表與多項式近似算法實現(xiàn)初等函數(shù)

    逼近的定義區(qū)間長度及選取系數(shù)的方式?jīng)Q定。 每個子間隔的系數(shù)存儲在查找表中。Xm來選擇系數(shù),所以方程變成: 使用查找表與多項式近似結合算法實現(xiàn)對數(shù)函數(shù),如下圖所示為指數(shù)函數(shù)的流水線結構: 下圖為仿真結果:
    發(fā)表于 10-28 08:10

    數(shù)據(jù)濾波算法的具體實現(xiàn)步驟是怎樣的?

    ? 數(shù)據(jù)濾波算法在電能質量在線監(jiān)測裝置中的具體實現(xiàn),需圍繞 “ 數(shù)據(jù)采集→預處理→算法執(zhí)行→參數(shù)適配→效果驗證→結果輸出 ” 的全流程展開,核心是結合裝置硬件特性(采樣率、ADC 精度)和干擾類型
    的頭像 發(fā)表于 10-10 16:45 ?1013次閱讀

    CW32L012實現(xiàn)外部flash下載算法

    外部flash或者內置的片上flash,都是編譯器通過調用寫好的FLM文件來實現(xiàn)下載,單片機內部的安裝pack包就會有(官方實現(xiàn)),外部flash的情況比較復雜,例如用的哪種flash,的什么接口,都是不定的,沒有辦法寫好一個
    的頭像 發(fā)表于 10-09 17:38 ?1806次閱讀
    CW32L012<b class='flag-5'>實現(xiàn)</b>外部flash下載<b class='flag-5'>算法</b>

    基于FPGA實現(xiàn)FOC算法之PWM模塊設計

    哈嘍,大家好,從今天開始正式帶領大家從零到一,在FPGA平臺上實現(xiàn)FOC算法,整個算法的框架如下圖所示,如果大家對算法的原理不是特別清楚的話,可以先去百度上學習一下,本教程著重介紹
    的頭像 發(fā)表于 07-17 15:21 ?3712次閱讀
    基于FPGA<b class='flag-5'>實現(xiàn)</b>FOC<b class='flag-5'>算法</b>之PWM模塊設計

    基于Matlab與FPGA的雙邊濾波算法實現(xiàn)

    前面發(fā)過中值、均值、高斯濾波的文章,這些只考慮位置,并沒有考慮相似度。那么雙邊濾波來了,既考慮位置,有考慮相似度,對邊緣的保持比前幾個好很多,當然實現(xiàn)上也是復雜很多。本文將從原理
    的頭像 發(fā)表于 07-10 11:28 ?4829次閱讀
    基于Matlab與FPGA的雙邊濾波<b class='flag-5'>算法</b><b class='flag-5'>實現(xiàn)</b>

    基于FPGA的壓縮算法加速實現(xiàn)

    本設計中,計劃實現(xiàn)對文件的壓縮及解壓,同時優(yōu)化壓縮中所涉及的信號處理和計算密集型功能,實現(xiàn)對其的加速處理。本設計的最終目標是證明在充分并行化的硬件體系結構 FPGA 上實現(xiàn)算法時,可
    的頭像 發(fā)表于 07-10 11:09 ?2595次閱讀
    基于FPGA的壓縮<b class='flag-5'>算法</b>加速<b class='flag-5'>實現(xiàn)</b>

    FT232RL USB 轉串口工業(yè)級替代方案DT232RL公司產(chǎn)品競爭力直線提升

    DT232RL的成本與技術雙突破 摘要 面對進口FT232RL芯片的高成本與供貨風險,本文驗證國產(chǎn)DT232RL方案的工業(yè)級替代可行性。實測表明,該方案較國內同類產(chǎn)品單一個串口芯片成
    的頭像 發(fā)表于 07-03 17:00 ?919次閱讀
    托里县| 灵川县| 来凤县| 北流市| 安化县| 永安市| 满洲里市| 金门县| 饶阳县| 祥云县| 延津县| 东乌珠穆沁旗| 乐昌市| 玉环县| 海晏县| 黄梅县| 壶关县| 筠连县| 海安县| 水城县| 福建省| 水富县| 泉州市| 乃东县| 鹤岗市| 长宁县| 张家口市| 京山县| 尉犁县| 莲花县| 都匀市| 怀仁县| 濮阳县| 五家渠市| 渑池县| 库尔勒市| 湖口县| 珠海市| 酒泉市| 辛集市| 和龙市|