哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式,自主機(jī)器人可學(xué)會(huì)任何任務(wù)

DPVg_AI_era ? 來(lái)源:未知 ? 作者:鄧佳佳 ? 2018-03-19 14:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群


新智元報(bào)道

來(lái)源:DeepMind

編譯:Marvin

【新智元導(dǎo)讀】DeepMind今天發(fā)表博客文章,提出一種稱(chēng)為SAC-X(計(jì)劃輔助控制)的新學(xué)習(xí)范式,旨在解決讓AI以最少的先驗(yàn)知識(shí),從頭開(kāi)始學(xué)習(xí)復(fù)雜控制問(wèn)題的挑戰(zhàn)。這在真實(shí)環(huán)境中成功讓機(jī)械臂從頭開(kāi)始學(xué)習(xí)拾放物體。研究者認(rèn)為,SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法,未來(lái)可以應(yīng)用于機(jī)器人以外的更廣泛領(lǐng)域。

讓孩子(甚至成年人)在使用物品之后自己收拾可能是頗有挑戰(zhàn)性的事情,但我們面臨一個(gè)更大的挑戰(zhàn):試圖讓我們的AI也這樣做。成功與否取決于AI是否掌握幾個(gè)核心的視覺(jué)運(yùn)動(dòng)技能:接近一個(gè)物體,抓住并舉起它,然后打開(kāi)一個(gè)盒子并把物體放進(jìn)里面。使事情更復(fù)雜的是,這些技能還必須用正確的順序做。

控制任務(wù)(control tasks),例如整理桌子或堆放物體,要求agent能夠確定如何、何時(shí)以及在哪里協(xié)調(diào)它的模擬手臂和手指的9個(gè)關(guān)節(jié),以正確地移動(dòng)物體,實(shí)現(xiàn)它的目標(biāo)。在任何給定一段時(shí)間里,可能的運(yùn)動(dòng)組合數(shù)量會(huì)非常龐大,并且需要執(zhí)行一系列正確的操作,這就構(gòu)成了一個(gè)嚴(yán)峻的探索性問(wèn)題——使得這成為強(qiáng)化學(xué)習(xí)研究的一個(gè)特別有趣的領(lǐng)域。

獎(jiǎng)賞塑形(reward shaping)、學(xué)徒學(xué)習(xí)(apprenticeship learning)以及示范學(xué)習(xí)等技巧可以幫助解決這個(gè)問(wèn)題。但是,這些方法依賴于大量的關(guān)于任務(wù)的知識(shí)——以最少的先驗(yàn)知識(shí),從頭開(kāi)始學(xué)習(xí)復(fù)雜控制問(wèn)題,仍然是一個(gè)公開(kāi)的挑戰(zhàn)。

DeepMind近日發(fā)表的新論文“Learning by Playing - Solving Sparse Reward Tasks from Scratch”提出一種新的學(xué)習(xí)范式,稱(chēng)為“Scheduled Auxiliary Control (SAC-X)”(計(jì)劃輔助控制),旨在解決這個(gè)問(wèn)題。SAC-X的想法是要從頭開(kāi)始學(xué)習(xí)復(fù)雜的任務(wù),那么agent必須先學(xué)習(xí)探索和掌握一套基本的技能。就像嬰兒在學(xué)會(huì)爬行和走路之前必須先發(fā)展協(xié)調(diào)和平衡的能力一樣,向agent提供一些與簡(jiǎn)單的技能相對(duì)應(yīng)的內(nèi)部(輔助)目標(biāo)可以增加它理解和成功執(zhí)行更復(fù)雜任務(wù)的機(jī)會(huì)。

我們?cè)趲讉€(gè)模擬的和真實(shí)的機(jī)器人任務(wù)中演示了SAC-X的方法,包含各種任務(wù),例如不同類(lèi)物體的堆疊問(wèn)題,場(chǎng)地整理問(wèn)題(需要將物體放入盒子)。 我們定義的輔助任務(wù)遵循一個(gè)總原則:它們鼓勵(lì)agent去探索它的感知空間( sensor space)。 例如,激活它的手指上的觸摸傳感器,感知其手腕受到的力,使其本體感受傳感器( proprioceptive sensors)中的關(guān)節(jié)角度達(dá)到最大,或強(qiáng)制物體在其視覺(jué)相機(jī)傳感器中移動(dòng)。如果達(dá)到了目標(biāo),每個(gè)任務(wù)會(huì)關(guān)聯(lián)到一個(gè)簡(jiǎn)單的獎(jiǎng)勵(lì),否則獎(jiǎng)勵(lì)為零。

圖2:agent學(xué)習(xí)的第一件事是激活手指上的觸摸傳感器,并移動(dòng)兩個(gè)物體。

圖3:模擬agent最終掌握了“堆疊”物體這個(gè)復(fù)雜任務(wù)。

然后,agent就可以自行決定它當(dāng)前的“意圖”(intention),即接下來(lái)的目標(biāo)。目標(biāo)可以是輔助任務(wù)或外部定義的目標(biāo)任務(wù)。更重要的是,agent可以通過(guò)充分利用off-policy learning來(lái)檢測(cè)并從其他任務(wù)的獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)。例如,在拾取或移動(dòng)一個(gè)物體時(shí),agent可能會(huì)順便把它堆疊起來(lái),從而得到“堆疊”的獎(jiǎng)勵(lì)。由于一系列簡(jiǎn)單的任務(wù)可以導(dǎo)致觀察到罕見(jiàn)的外部獎(jiǎng)勵(lì),所以將“意圖”進(jìn)行安排(schedule)的能力是至關(guān)重要的。這可以根據(jù)所收集到的所有相關(guān)知識(shí)創(chuàng)建一個(gè)個(gè)性化的學(xué)習(xí)課程。

事實(shí)證明,這是在如此大的一個(gè)領(lǐng)域中充分利用知識(shí)的一種有效方法,而且在只有很少的外部獎(jiǎng)勵(lì)信號(hào)的情況下尤其有用。我們的agent通過(guò)一個(gè) scheduling 模塊來(lái)決定遵循那個(gè)意圖。在訓(xùn)練過(guò)程中,scheduler通過(guò)一個(gè)meta-learning算法進(jìn)行優(yōu)化,該算法試圖使主任務(wù)的進(jìn)度最大化,從而顯著提高數(shù)據(jù)效率。

圖4:在探索了許多內(nèi)部輔助任務(wù)之后,agent學(xué)習(xí)如何堆疊和整理物體。

我們的評(píng)估顯示,SAC-X能夠解決我們從頭設(shè)置的所有任務(wù)——使用相同的底層輔助任務(wù)集。更令人興奮的是,我們?cè)趯?shí)驗(yàn)室的一個(gè)真實(shí)的機(jī)械臂上直接利用SAC-X,成功地從頭開(kāi)始學(xué)會(huì)了拾取和放置任務(wù)。過(guò)去,這一點(diǎn)特別具有挑戰(zhàn)性,因?yàn)檎鎸?shí)世界中機(jī)器人的學(xué)習(xí)需要數(shù)據(jù)效率,所以主流的方法是在模擬環(huán)境中預(yù)訓(xùn)練(pre-train)一個(gè)agent,然后將agent轉(zhuǎn)移到真實(shí)的機(jī)械臂。

圖5:在真正的機(jī)械臂上,SAC-X學(xué)習(xí)如何從頭開(kāi)始拾取和移動(dòng)綠色方塊。它此前從未見(jiàn)過(guò)這一任務(wù)。

我們認(rèn)為SAC-X是從頭開(kāi)始學(xué)習(xí)控制任務(wù)的重要一步,只需指定一個(gè)總體目標(biāo)。SAC-X允許你任意定義輔助任務(wù):可以基于一般性認(rèn)識(shí)(例如在個(gè)實(shí)驗(yàn)中是故意激活傳感器),但最終可以包含研究人員認(rèn)為重要的任何任務(wù)。從這個(gè)角度看,SAC-X是一種通用的強(qiáng)化學(xué)習(xí)方法,不止是控制和機(jī)器人領(lǐng)域,可以廣泛應(yīng)用于一般的稀疏強(qiáng)化學(xué)習(xí)環(huán)境。

這一工作由以下研究者共同完成:Martin Riedmiller, Roland Hafner, Thomas Lampe, Michael Neunert, Jonas Degrave, Tom Van de Wiele, Volodymyr Mnih, Nicolas Heess and Tobias Springenberg.


【2018 新智元 AI 技術(shù)峰會(huì)倒計(jì)時(shí)28天】大會(huì)早鳥(niǎo)票已經(jīng)售罄,現(xiàn)正式進(jìn)入全額票階段。


2017 年,作為人工智能領(lǐng)域最具影響力的產(chǎn)業(yè)服務(wù)平臺(tái)——新智元成功舉辦了「新智元開(kāi)源 · 生態(tài)技術(shù)峰會(huì)」和「2017AIWORLD 世界人工智能大會(huì)」。憑借超高活動(dòng)人氣及行業(yè)影響力,獲得2017 年度活動(dòng)行 “年度最具影響力主辦方”獎(jiǎng)項(xiàng)。

其中「2017AIWORLD 世界人工智能大會(huì)」創(chuàng)人工智能領(lǐng)域活動(dòng)先河,參會(huì)人次超 5000;開(kāi)場(chǎng)視頻在騰訊視頻點(diǎn)播量超 100 萬(wàn);新華網(wǎng)圖文直播超 1200 萬(wàn);

2018 年的 3 月 29 日,新智元再匯 AI 之力,共筑產(chǎn)業(yè)躍遷之路,將在北京舉辦 2018 年中國(guó) AI 開(kāi)年盛典——2018 新智元 AI 技術(shù)峰會(huì)。本次峰會(huì)以 “產(chǎn)業(yè) · 躍遷” 為主題,特邀諾貝爾獎(jiǎng)評(píng)委 德國(guó)人工智能研究中心創(chuàng)始人兼 CEO Wolfgang Wahlster 親臨現(xiàn)場(chǎng)與谷歌、微軟、亞馬遜、BAT、科大訊飛、京東和華為等企業(yè)重量級(jí)嘉賓,共同研討技術(shù)變革,助力領(lǐng)域融合發(fā)展。

新智元誠(chéng)摯邀請(qǐng)關(guān)心人工智能行業(yè)發(fā)展的各界人士 3 月 29 日親臨峰會(huì)現(xiàn)場(chǎng),共同參與這一跨領(lǐng)域的思維碰撞。


聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:【重磅】DeepMind發(fā)布通用強(qiáng)化學(xué)習(xí)新范式,自主機(jī)器人可學(xué)會(huì)任何任務(wù)

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    北京人形具身天工3.0斬獲全球首個(gè)全自主機(jī)器人勇士挑戰(zhàn)賽冠軍

      4月18日,首屆北京亦莊機(jī)器人勇士挑戰(zhàn)賽圓滿舉行,由優(yōu)必選作為大股東和總經(jīng)理單位牽頭成立的北京人形機(jī)器人創(chuàng)新中心(以下簡(jiǎn)稱(chēng):北京人形)攜具身天工3.0全尺寸通用人形機(jī)器人參賽,以全
    的頭像 發(fā)表于 04-21 17:28 ?949次閱讀

    NVIDIA如何用AI構(gòu)建機(jī)器人

    下一代機(jī)器人將是通用型專(zhuān)家,既能理解指令、學(xué)習(xí)通用技能,又可針對(duì)特定任務(wù)進(jìn)行訓(xùn)練。
    的頭像 發(fā)表于 03-25 09:55 ?878次閱讀

    全球首個(gè)!銀河通用自主人形機(jī)器人打網(wǎng)球火爆全球

    北京2026年3月23日 /美通社/ -- 近日,銀河通用機(jī)器人與真人選手的連續(xù)自主網(wǎng)球?qū)Υ蛞曨l刷爆全網(wǎng)。 這背后是銀河通用機(jī)器人發(fā)布的最新成果—— 全球首個(gè)面向網(wǎng)球?qū)沟娜诵?/div>
    的頭像 發(fā)表于 03-23 11:49 ?174次閱讀
    全球首個(gè)!銀河<b class='flag-5'>通用</b>全<b class='flag-5'>自主</b>人形<b class='flag-5'>機(jī)器人</b>打網(wǎng)球火爆全球

    再談低溫?zé)Y(jié)銀的應(yīng)用:從春晚四家機(jī)器人出鏡的幕后推手說(shuō)起

    ,完成翻跟頭、脖子延伸、互動(dòng)接梗,強(qiáng)調(diào)關(guān)節(jié)靈活+低功率+長(zhǎng)期穩(wěn)定。 銀河通用:《我最難忘的今宵》:Galbot G1具身智能,自主決策、精細(xì)操作,依賴AI芯片+傳感器+高效互連。 2機(jī)器人動(dòng)得穩(wěn)、準(zhǔn)、快
    發(fā)表于 02-17 14:07

    強(qiáng)化學(xué)習(xí)會(huì)讓自動(dòng)駕駛模型學(xué)習(xí)更快嗎?

    是一種讓機(jī)器通過(guò)“試錯(cuò)”學(xué)會(huì)決策的辦法。與監(jiān)督學(xué)習(xí)不同,監(jiān)督學(xué)習(xí)是有人提供示范答案,讓模型去模仿;而強(qiáng)化學(xué)習(xí)不會(huì)把每一步的“正確答案”都告訴
    的頭像 發(fā)表于 01-31 09:34 ?819次閱讀
    <b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>會(huì)讓自動(dòng)駕駛模型<b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    今日看點(diǎn):智元推出真機(jī)強(qiáng)化學(xué)習(xí);美國(guó)軟件公司SAS退出中國(guó)市場(chǎng)

    智元推出真機(jī)強(qiáng)化學(xué)習(xí),機(jī)器人訓(xùn)練周期從“數(shù)周”減至“數(shù)十分鐘” ? 近日,智元機(jī)器人宣布其研發(fā)的真機(jī)強(qiáng)化學(xué)習(xí)技術(shù),已在與龍旗科技合作的驗(yàn)證產(chǎn)線中成功落地。據(jù)介紹,此次落地的真機(jī)
    發(fā)表于 11-05 09:44 ?1155次閱讀

    RK3576機(jī)器人核心:三屏異顯+八路攝像頭,重塑機(jī)器人交互與感知

    機(jī)器人· 應(yīng)用領(lǐng)域:迎賓機(jī)器人、養(yǎng)老機(jī)器人、導(dǎo)覽機(jī)器人· 多攝像頭輸入:同時(shí)實(shí)現(xiàn)人臉識(shí)別(迎賓)、跌倒檢測(cè)(養(yǎng)老)、自主導(dǎo)航避障(導(dǎo)覽)等多
    發(fā)表于 10-29 16:41

    自動(dòng)駕駛中常提的“強(qiáng)化學(xué)習(xí)”是個(gè)啥?

    [首發(fā)于智駕最前沿微信公眾號(hào)]在談及自動(dòng)駕駛時(shí),有些方案中會(huì)提到“強(qiáng)化學(xué)習(xí)(Reinforcement Learning,簡(jiǎn)稱(chēng)RL)”,強(qiáng)化學(xué)習(xí)是一類(lèi)讓機(jī)器通過(guò)試錯(cuò)來(lái)學(xué)會(huì)做決策的技術(shù)。
    的頭像 發(fā)表于 10-23 09:00 ?878次閱讀
    自動(dòng)駕駛中常提的“<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>”是個(gè)啥?

    最新發(fā)布!泰科機(jī)器人發(fā)布首款自研雙足人形機(jī)器人

    泰科機(jī)器人憑借十多年的技術(shù)積淀與持續(xù)創(chuàng)新,已成功推出多款高性能人形機(jī)器人四肢的解決方案。今天,泰科機(jī)器人再次迎來(lái)重大突破——首款自主研發(fā)的雙足人形機(jī)
    的頭像 發(fā)表于 09-02 14:34 ?3649次閱讀
    最新<b class='flag-5'>發(fā)布</b>!泰科<b class='flag-5'>機(jī)器人</b><b class='flag-5'>發(fā)布</b>首款自研雙足人形<b class='flag-5'>機(jī)器人</b>

    智能決策、2厘米級(jí)控制,星燦機(jī)器人發(fā)布割草機(jī)器人

    電子發(fā)燒友網(wǎng)報(bào)道(文/莫婷婷)傳統(tǒng)機(jī)器人泛化性差,智能程度相對(duì)較低。具身智能機(jī)器人具有高通用性,可在各類(lèi)場(chǎng)景完成復(fù)雜任務(wù),包括快速理解復(fù)雜環(huán)境、能夠處理任意物體、
    的頭像 發(fā)表于 08-29 11:30 ?8869次閱讀
    智能決策、2厘米級(jí)控制,星燦<b class='flag-5'>機(jī)器人</b><b class='flag-5'>發(fā)布</b>割草<b class='flag-5'>機(jī)器人</b>

    NVIDIA Isaac Lab可用環(huán)境與強(qiáng)化學(xué)習(xí)腳本使用指南

    Lab 是一個(gè)適用于機(jī)器人學(xué)習(xí)的開(kāi)源模塊化框架,其模塊化高保真仿真適用于各種訓(xùn)練環(huán)境,Isaac Lab 同時(shí)支持模仿學(xué)習(xí)(模仿人類(lèi))和強(qiáng)化學(xué)習(xí)(在嘗試和錯(cuò)誤中進(jìn)行學(xué)習(xí)),為所有
    的頭像 發(fā)表于 07-14 15:29 ?2611次閱讀
    NVIDIA Isaac Lab可用環(huán)境與<b class='flag-5'>強(qiáng)化學(xué)習(xí)</b>腳本使用指南

    盤(pán)點(diǎn)#機(jī)器人開(kāi)發(fā)平臺(tái)

    圖,電子技術(shù)資料網(wǎng)站具身智能機(jī)器人****開(kāi)發(fā)平臺(tái)——Fibot廣和通發(fā)布機(jī)器人開(kāi)發(fā)平臺(tái)-電子發(fā)燒友網(wǎng)NVIDIA Isaac 英偉達(dá)綜合性機(jī)器人開(kāi)發(fā)平臺(tái)NVIDIA Isaac 是英
    發(fā)表于 05-13 15:02

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】視覺(jué)實(shí)現(xiàn)的基礎(chǔ)算法的應(yīng)用

    閱讀心得體會(huì):ROS2機(jī)器人視覺(jué)與地圖構(gòu)建技術(shù) 通過(guò)對(duì)本書(shū)第7章(ROS2視覺(jué)應(yīng)用)和第8章(ROS2地圖構(gòu)建)的學(xué)習(xí),我對(duì)機(jī)器人視覺(jué)感知和自主導(dǎo)航的核心技術(shù)有了更深入的理解。以下是我
    發(fā)表于 05-03 19:41

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】機(jī)器人入門(mén)的引路書(shū)

    ROS的全稱(chēng):Robot Operating System 機(jī)器人操作系統(tǒng) ROS的 目的 :ROS支持通用庫(kù),是通信總線,協(xié)調(diào)多個(gè)傳感器 為了解決機(jī)器人里各廠商模塊不通用的問(wèn)題,讓
    發(fā)表于 04-30 01:05

    【「# ROS 2智能機(jī)器人開(kāi)發(fā)實(shí)踐」閱讀體驗(yàn)】+內(nèi)容初識(shí)

    應(yīng)用案例:書(shū)中提供了多個(gè)機(jī)器人應(yīng)用案例,幫助讀者將所學(xué)的 ROS 2 知識(shí)應(yīng)用到實(shí)際的機(jī)器人項(xiàng)目中。例如,在自主移動(dòng)機(jī)器人案例中,詳細(xì)講解了如何實(shí)現(xiàn)
    發(fā)表于 04-27 11:24
    永吉县| 万年县| 湛江市| 石首市| 泰安市| 内丘县| 八宿县| 丰城市| 河间市| 富民县| 浦城县| 宿松县| 伊吾县| 威海市| 页游| 玉树县| 桃源县| 六安市| 阿勒泰市| 綦江县| 上饶市| 若羌县| 凤翔县| 达拉特旗| 仲巴县| 公主岭市| 东乌珠穆沁旗| 益阳市| 麦盖提县| 新兴县| 虹口区| 化州市| 平山县| 宝清县| 通城县| 福泉市| 容城县| 巨野县| 恩平市| 西充县| 连山|