日韩精品一区二区性,中国妇女一区三区

新智元報(bào)道

來(lái)源：DeepMind

編譯：Marvin

【新智元導(dǎo)讀】DeepMind今天發(fā)表博客文章，提出一種稱(chēng)為SAC-X（計(jì)劃輔助控制）的新學(xué)習(xí)范式，旨在解決讓AI以最少的先驗(yàn)知識(shí)，從頭開(kāi)始學(xué)習(xí)復(fù)雜控制問(wèn)題的挑戰(zhàn)。這在真實(shí)環(huán)境中成功讓機(jī)械臂從頭開(kāi)始學(xué)習(xí)拾放物體。研究者認(rèn)為，SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法，未來(lái)可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域。

讓孩子（甚至成年人）在使用物品之后自己收拾可能是頗有挑戰(zhàn)性的事情，但我們面臨一個(gè)更大的挑戰(zhàn)：試圖讓我們的AI也這樣做。成功與否取決于AI是否掌握幾個(gè)核心的視覺(jué)運(yùn)動(dòng)技能：接近一個(gè)物體，抓住并舉起它，然后打開(kāi)一個(gè)盒子并把物體放進(jìn)里面。使事情更復(fù)雜的是，這些技能還必須用正確的順序做。

控制任務(wù)（control tasks），例如整理桌子或堆放物體，要求agent能夠確定如何、何時(shí)以及在哪里協(xié)調(diào)它的模擬手臂和手指的9個(gè)關(guān)節(jié)，以正確地移動(dòng)物體，實(shí)現(xiàn)它的目標(biāo)。在任何給定一段時(shí)間里，可能的運(yùn)動(dòng)組合數(shù)量會(huì)非常龐大，并且需要執(zhí)行一系列正確的操作，這就構(gòu)成了一個(gè)嚴(yán)峻的探索性問(wèn)題——使得這成為強(qiáng)化學(xué)習(xí)研究的一個(gè)特別有趣的領(lǐng)域。

獎(jiǎng)賞塑形（reward shaping）、學(xué)徒學(xué)習(xí)（apprenticeship learning）以及示范學(xué)習(xí)等技巧可以幫助解決這個(gè)問(wèn)題。但是，這些方法依賴于大量的關(guān)于任務(wù)的知識(shí)——以最少的先驗(yàn)知識(shí)，從頭開(kāi)始學(xué)習(xí)復(fù)雜控制問(wèn)題，仍然是一個(gè)公開(kāi)的挑戰(zhàn)。

DeepMind近日發(fā)表的新論文“Learning by Playing - Solving Sparse Reward Tasks from Scratch”提出一種新的學(xué)習(xí)范式，稱(chēng)為“Scheduled Auxiliary Control (SAC-X)”（計(jì)劃輔助控制），旨在解決這個(gè)問(wèn)題。SAC-X的想法是要從頭開(kāi)始學(xué)習(xí)復(fù)雜的任務(wù)，那么agent必須先學(xué)習(xí)探索和掌握一套基本的技能。就像嬰兒在學(xué)會(huì)爬行和走路之前必須先發(fā)展協(xié)調(diào)和平衡的能力一樣，向agent提供一些與簡(jiǎn)單的技能相對(duì)應(yīng)的內(nèi)部（輔助）目標(biāo)可以增加它理解和成功執(zhí)行更復(fù)雜任務(wù)的機(jī)會(huì)。

我們?cè)趲讉€(gè)模擬的和真實(shí)的機(jī)器人任務(wù)中演示了SAC-X的方法，包含各種任務(wù)，例如不同類(lèi)物體的堆疊問(wèn)題，場(chǎng)地整理問(wèn)題（需要將物體放入盒子）。我們定義的輔助任務(wù)遵循一個(gè)總原則：它們鼓勵(lì)agent去探索它的感知空間（ sensor space）。例如，激活它的手指上的觸摸傳感器，感知其手腕受到的力，使其本體感受傳感器（ proprioceptive sensors）中的關(guān)節(jié)角度達(dá)到最大，或強(qiáng)制物體在其視覺(jué)相機(jī)傳感器中移動(dòng)。如果達(dá)到了目標(biāo)，每個(gè)任務(wù)會(huì)關(guān)聯(lián)到一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì)，否則獎(jiǎng)勵(lì)為零。

圖2：agent學(xué)習(xí)的第一件事是激活手指上的觸摸傳感器，并移動(dòng)兩個(gè)物體。

圖3：模擬agent最終掌握了“堆疊”物體這個(gè)復(fù)雜任務(wù)。

然后，agent就可以自行決定它當(dāng)前的“意圖”（intention），即接下來(lái)的目標(biāo)。目標(biāo)可以是輔助任務(wù)或外部定義的目標(biāo)任務(wù)。更重要的是，agent可以通過(guò)充分利用off-policy learning來(lái)檢測(cè)并從其他任務(wù)的獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)。例如，在拾取或移動(dòng)一個(gè)物體時(shí)，agent可能會(huì)順便把它堆疊起來(lái)，從而得到“堆疊”的獎(jiǎng)勵(lì)。由于一系列簡(jiǎn)單的任務(wù)可以導(dǎo)致觀察到罕見(jiàn)的外部獎(jiǎng)勵(lì)，所以將“意圖”進(jìn)行安排（schedule）的能力是至關(guān)重要的。這可以根據(jù)所收集到的所有相關(guān)知識(shí)創(chuàng)建一個(gè)個(gè)性化的學(xué)習(xí)課程。

事實(shí)證明，這是在如此大的一個(gè)領(lǐng)域中充分利用知識(shí)的一種有效方法，而且在只有很少的外部獎(jiǎng)勵(lì)信號(hào)的情況下尤其有用。我們的agent通過(guò)一個(gè) scheduling 模塊來(lái)決定遵循那個(gè)意圖。在訓(xùn)練過(guò)程中，scheduler通過(guò)一個(gè)meta-learning算法進(jìn)行優(yōu)化，該算法試圖使主任務(wù)的進(jìn)度最大化，從而顯著提高數(shù)據(jù)效率。

圖4：在探索了許多內(nèi)部輔助任務(wù)之后，agent學(xué)習(xí)如何堆疊和整理物體。

我們的評(píng)估顯示，SAC-X能夠解決我們從頭設(shè)置的所有任務(wù)——使用相同的底層輔助任務(wù)集。更令人興奮的是，我們?cè)趯?shí)驗(yàn)室的一個(gè)真實(shí)的機(jī)械臂上直接利用SAC-X，成功地從頭開(kāi)始學(xué)會(huì)了拾取和放置任務(wù)。過(guò)去，這一點(diǎn)特別具有挑戰(zhàn)性，因?yàn)檎鎸?shí)世界中機(jī)器人的學(xué)習(xí)需要數(shù)據(jù)效率，所以主流的方法是在模擬環(huán)境中預(yù)訓(xùn)練（pre-train）一個(gè)agent，然后將agent轉(zhuǎn)移到真實(shí)的機(jī)械臂。

圖5：在真正的機(jī)械臂上，SAC-X學(xué)習(xí)如何從頭開(kāi)始拾取和移動(dòng)綠色方塊。它此前從未見(jiàn)過(guò)這一任務(wù)。

我們認(rèn)為SAC-X是從頭開(kāi)始學(xué)習(xí)控制任務(wù)的重要一步，只需指定一個(gè)總體目標(biāo)。SAC-X允許你任意定義輔助任務(wù)：可以基于一般性認(rèn)識(shí)（例如在個(gè)實(shí)驗(yàn)中是故意激活傳感器），但最終可以包含研究人員認(rèn)為重要的任何任務(wù)。從這個(gè)角度看，SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法，不止是控制和機(jī)器人領(lǐng)域，可以廣泛應(yīng)用于一般的稀疏強(qiáng)化學(xué)習(xí)環(huán)境。

這一工作由以下研究者共同完成：Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg.

【2018 新智元 AI 技術(shù)峰會(huì)倒計(jì)時(shí)28天】大會(huì)早鳥(niǎo)票已經(jīng)售罄，現(xiàn)正式進(jìn)入全額票階段。

2017 年，作為人工智能領(lǐng)域最具影響力的產(chǎn)業(yè)服務(wù)平臺(tái)——新智元成功舉辦了「新智元開(kāi)源 · 生態(tài)技術(shù)峰會(huì)」和「2017AIWORLD 世界人工智能大會(huì)」。憑借超高活動(dòng)人氣及行業(yè)影響力，獲得2017 年度活動(dòng)行 “年度最具影響力主辦方”獎(jiǎng)項(xiàng)。

其中「2017AIWORLD 世界人工智能大會(huì)」創(chuàng)人工智能領(lǐng)域活動(dòng)先河，參會(huì)人次超 5000；開(kāi)場(chǎng)視頻在騰訊視頻點(diǎn)播量超 100 萬(wàn)；新華網(wǎng)圖文直播超 1200 萬(wàn)；

2018 年的 3 月 29 日，新智元再匯 AI 之力，共筑產(chǎn)業(yè)躍遷之路，將在北京舉辦 2018 年中國(guó) AI 開(kāi)年盛典——2018 新智元 AI 技術(shù)峰會(huì)。本次峰會(huì)以 “產(chǎn)業(yè) · 躍遷” 為主題，特邀諾貝爾獎(jiǎng)評(píng)委德國(guó)人工智能研究中心創(chuàng)始人兼 CEO Wolfgang Wahlster 親臨現(xiàn)場(chǎng)與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業(yè)重量級(jí)嘉賓，共同研討技術(shù)變革，助力領(lǐng)域融合發(fā)展。

新智元誠(chéng)摯邀請(qǐng)關(guān)心人工智能行業(yè)發(fā)展的各界人士 3 月 29 日親臨峰會(huì)現(xiàn)場(chǎng)，共同參與這一跨領(lǐng)域的思維碰撞。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

人工智能機(jī)器人

人工智能機(jī)器人

+關(guān)注

關(guān)注
0

文章
35

瀏覽量
2430

原文標(biāo)題：【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式，自主機(jī)器人可學(xué)會(huì)任何任務(wù)

文章出處：【微信號(hào)：AI_era，微信公眾號(hào)：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式，自主機(jī)器人可學(xué)會(huì)任何任務(wù)

評(píng)論