好骚综合AV在线,国产午夜精品福利导航,国产九九久久

強化學習是一種非常重要 AI 技術，它能使用獎勵（或懲罰）來驅(qū)動智能體（agents）朝著特定目標前進，比如它訓練的 AI 系統(tǒng) AlphaGo 擊敗了頂尖圍棋選手，它也是 DeepMind 的深度 Q 網(wǎng)絡（DQN）的核心部分，它可以在多個 workers 之間分步學習，例如，在 Atari 2600 游戲中實現(xiàn)“超人”性能。

麻煩的是，強化學習框架需要花費大量時間來掌握一個目標，而且框架往往是不靈活和不總是穩(wěn)定的。

但不用擔心，Google 近日發(fā)布了一個替代方案：基于 TensorFlow 的開源強化學習框架 Dopamine（多巴胺）。

Google 的博文中提到，這個基于 Tensorflow 的強化學習框架，旨在為 RL 的研究人員提供靈活性，穩(wěn)定性和可重復性的研究。受到大腦中獎勵動機行為的主要成分的啟發(fā)，以及反映神經(jīng)科學與強化學習研究之間強烈的歷史聯(lián)系，該平臺旨在實現(xiàn)可推動激進發(fā)現(xiàn)的思辨研究（speculative research）。此版本還包括一組闡明如何使用整個框架的 colabs。

除了強化學習框架的發(fā)布，谷歌還推出了一個網(wǎng)站（https://google.github.io/dopamine/baselines/plots.html），允許開發(fā)人員快速可視化多個智能體的訓練運行情況。他們希望，這一框架的靈活性和易用性將使研究人員能積極嘗試新的想法，不管是漸進式還是激進式的想法。

引入靈活和可重復的強化學習研究的新框架

強化學習（RL）研究在過去幾年中取得了許多重大進展。這些進步使得智能體可以以超人類級別的能力玩游戲。比如 Atari 游戲中 DeepMind 的 DQN ，AlphaGo ，AlphaGo Zero 以及 Open AI Five。

具體而言，在 DQN 中引入 replay memories 可以利用以前的智能體經(jīng)驗，大規(guī)模的分布式訓練可以在多個 workers 之間分配學習過程，分布式方法允許智能體模擬完整的分布過程，而不僅僅是模擬它們期望值，以學習更完整的圖景。這種類型的進展很重要，因為出現(xiàn)這些進步的算法還適用于其他領域，例如機器人技術。

通常，這種進步都來自于快速迭代設計（通常沒有明確的方向），以及顛覆既定方法的結(jié)構。然而，大多數(shù)現(xiàn)有的 RL 框架并沒有結(jié)合靈活性和穩(wěn)定性以及使研究人員能夠有效地迭代 RL 方法，并因此探索可能沒有直接明顯益處的新研究方向。此外，從現(xiàn)有框架再現(xiàn)結(jié)果通常太耗時，這可能導致科學的再現(xiàn)性問題。

今天，我們推出了一個新的基于 Tensorflow 的框架，旨在為 RL 的研究人員提供靈活性、穩(wěn)定性和可重復性。受到大腦中獎勵動機行為的主要成分的啟發(fā)，以及反映神經(jīng)科學與強化學習研究之間強烈的歷史聯(lián)系，該平臺旨在實現(xiàn)可推動激進發(fā)現(xiàn)的思辨研究（speculative research）。此版本還包括一組闡明如何使用整個框架的 colabs。

易用性

清晰和簡潔是該框架設計中要考慮的兩個關鍵因素。我們提供更精簡的代碼（大約 15 個Python 文件），并且有詳細記錄。這是通過專注于 Arcade 學習環(huán)境（一個成熟的，易于理解的基準）和四個基于 value 的智能體來實現(xiàn)的：DQN，C51，一個精心策劃的 Rainbow 智能體的簡化版本，以及隱式分位數(shù)網(wǎng)絡（Implicit Quantile Network）智能體，這已在上個月的 ICML 大會上已經(jīng)發(fā)表。我們希望這種簡潔性使研究人員能夠輕松了解智能體內(nèi)部的運作狀況，并積極嘗試新的想法。

可重復性

我們對重復性在強化學習研究中的重要性特別敏感。為此，我們?yōu)榇a提供完整的測試覆蓋率，這些測試也可作為其他文檔形式。此外，我們的實驗框架遵循 Machado 等人給出的關于使用 Arcade 學習環(huán)境標準化經(jīng)驗評估的建議。

基準測試

對于新的研究人員來說，能夠根據(jù)既定方法快速對其想法進行基準測試非常重要。因此，我們?yōu)?Arcade 學習環(huán)境支持的 60 個游戲提供四個智能體的完整培訓數(shù)據(jù)，可用作 Python pickle 文件（用于使用我們框架訓練的智能體）和 JSON 數(shù)據(jù)文件（用于與受過其他框架訓練的智能體進行比較）；我們還提供了一個網(wǎng)站，你可以在其中快速查看 60 個游戲中所有智能體的訓練運行情況。

下面展示我們在 Seaquest 上的 4 個代理的訓練情況，這是由 Arcade 學習環(huán)境支持的一種 Atari 2600 游戲。

在 Seaquest 上的 4 名智能體參加了訓練。x 軸表示迭代，其中每次迭代是 100 萬個游戲幀（4.5 小時的實時游戲）；y 軸是每場比賽獲得的平均分數(shù)。陰影區(qū)域顯示的是來自 5 次獨立運行的置信區(qū)間。

我們還提供已經(jīng)訓練好的深度網(wǎng)絡，原始統(tǒng)計日志以及用 Tensorboard 繪圖的 Tensorflow 事件文件。這些都可以在網(wǎng)站的下載部分找到。

希望我們框架的靈活性和易用性將使研究人員敢于嘗試新的想法，包括漸進式和激進式的想法。我們已經(jīng)積極地將它用于我們的研究，并發(fā)現(xiàn)它能夠靈活且快速迭代許多想法。我們很高興可以為更大的社區(qū)做些貢獻。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴