<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給楊鯉萍
      發(fā)送

      0

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      本文作者: 楊鯉萍 2019-07-23 16:11
      導(dǎo)語:一個專注模塊化和快速原型設(shè)計的深度強化學(xué)習(xí)框架

      雷鋒網(wǎng) AI 科技評論按:近日,Github 上開源的一個專注模塊化和快速原型設(shè)計的深度強化學(xué)習(xí)框架 Huskarl 有了新的進展。該框架除了輕松地跨多個 CPU 內(nèi)核并行計算環(huán)境動態(tài)外,還已經(jīng)成功實現(xiàn)與 OpenAI Gym 環(huán)境的無縫結(jié)合。TensorFlow 發(fā)布了相應(yīng)的文章來報道此研究成果,雷鋒網(wǎng) AI 科技評論將其編譯如下。

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      背景概述

      深度學(xué)習(xí)革命在計算機視覺和自然語言處理等領(lǐng)域取得了許多最新的進展和突破。尤其是在深度強化學(xué)習(xí)這個特別的領(lǐng)域,我們已經(jīng)看到了非凡的進展。2013 年 DeepMind 出版了「用深度強化學(xué)習(xí)來玩 Atari」,這個模型只通過觀看屏幕上的像素,就可以學(xué)習(xí)如何玩 Atari 游戲。三年后,AlphaGo 擊敗了圍棋世界冠軍,這一舉動吸引了全球觀眾的注意。在這之后,AlphaZero 又打破了從人類比賽中學(xué)習(xí)的規(guī)定,將自我學(xué)習(xí)推廣到任何完美的信息游戲,并有效地成為圍棋、國際象棋和日本將棋的世界冠軍。Huskarl 在這樣的深度學(xué)習(xí)熱潮之下,有了更深入的研究進展。

      模型框架

      Huskarl 是一個新的開源框架,用于深度強化學(xué)習(xí)訓(xùn)練,專注于模塊化和快速原型設(shè)計。它基于 TensorFlow 2.0 構(gòu)建,并使用了 tf.keras API 以實現(xiàn)其簡潔性和可讀性。

      Huskarl 最近在 PoweredByTF 2.0 挑戰(zhàn)賽(https://tensorflow.devpost.com/)中獲得第一名,該挑戰(zhàn)賽意在讓研究人員更易于對深度強化學(xué)習(xí)算法進行運行、測試、優(yōu)化和對比的操作。

      Huskarl 與 TensorFlow 抽象出計算圖的管理以及 Keras 創(chuàng)建高級模型的想法類似,它抽象出了智能體與環(huán)境的交互。這便使用戶能夠?qū)W⒂陂_發(fā)和理解算法,同時還可以防止數(shù)據(jù)泄漏。Huskarl 可以做到與 OpenAI Gym 環(huán)境的無縫結(jié)合,其中也包括了 Atari 環(huán)境。下面是創(chuàng)建并可視化深度強化學(xué)習(xí)網(wǎng)絡(luò)(DQN)智能體所需的完整代碼,該智能體將學(xué)習(xí) cartpole 平衡問題。

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      創(chuàng)建并可視化深度強化學(xué)習(xí)網(wǎng)絡(luò)(DQN)智能體的完整代碼

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!


      Huskarl DQN 智能體學(xué)習(xí)平衡 cartpole(完整動態(tài)圖點擊原文鏈接查看)

      目前 Huskarl 支持的一些算法可以在三類可調(diào)智能體上運行。

      第一類是 DQN 智能體,它可以實現(xiàn)深度 Q 學(xué)習(xí)(https://arxiv.org/abs/1509.06461)以及多種增強功能,例如:可變步長跟蹤(variable-step traces)、雙 DQN 和可調(diào)整的對抗架構(gòu)(dueling architecture)。DQN 是一種非策略算法,我們的實現(xiàn)默認(rèn)使用優(yōu)先經(jīng)驗回放(Prioritized experience replay)。DQN 智能體主要處理離散動作空間的問題。

      第二類是 A2C 智能體,它采用了同步、多步的「優(yōu)勢動作-評論」(Advantage Actor-Critic)模型,這是一種基于策略的算法。(有關(guān) A2C 與 A3C 之間差異的更多信息,可參閱此博客文章 https://openai.com/blog/baselines-acktr-a2c/)Huskarl 允許像 A2C 這樣基于策略的算法輕松地同時從多個環(huán)境實例中獲取經(jīng)驗數(shù)據(jù),這有助于數(shù)據(jù)的整理過程變得更加穩(wěn)定,從而更利于學(xué)習(xí)。

      第三類是 DDPG 智能體,它采用了變步長跟蹤的深度確定性策略梯度(Deep Deterministic Policy Gradient)算法,同時在默認(rèn)情況下也使用優(yōu)先經(jīng)驗回放。DDPG 智能體專用于處理連續(xù)動作空間的問題。

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      Huskarl DDPG 智能體學(xué)習(xí)提升鐘擺

      Huskarl 可以輕松地跨多個 CPU 內(nèi)核并行計算環(huán)境動態(tài),這非常很有助于如 A2C 和 PPO 這類策略性(從多個并發(fā)經(jīng)驗源中學(xué)習(xí)數(shù)據(jù))算法的加速。首先,如果要同時使用多個環(huán)境實例,我們只需為基于策略的智能體和模擬器提供所需數(shù)量的環(huán)境實例;然后將環(huán)境實例分布在多個進程上,這些進程將在可用的 CPU 內(nèi)核上自動并行化;之后我們只需在調(diào)用 sim.train()函數(shù)時為 max_subprocesses 參數(shù)提供所需的值即可,詳情如下面的代碼段所示。

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      Huskarl 實現(xiàn)策略性算法加速的代碼段(跳轉(zhuǎn)原文可查看完整代碼)

      另外需要注意的是,為每個環(huán)境實例使用不同的策略非常簡單,無需提供單個策略對象,只需提供策略列表即可。

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      Huskarl A2C 智能體同時學(xué)習(xí) 16 個環(huán)境實例來平衡 cartpole。其中,較粗的藍線表示使用貪婪的目標(biāo)政策獲得的獎勵,當(dāng)在其他 15 個環(huán)境中起作用時使用高斯?-貪婪(gaussian epsilon-greedy)策略,epsilon 均值從 0 變?yōu)?1

      但如果在某些簡單環(huán)境中,如 cartpole 環(huán)境,強行使用多個進程并行會因進程間通信成本增大而減慢訓(xùn)練速度。因此,只有在計算成本較高的環(huán)境下,這種多進程并行才能發(fā)揮有利的作用。

      所有可運行的智能體都會依賴于每個問題規(guī)范,因此,其使用的神經(jīng)網(wǎng)絡(luò)由用戶提供。這些神經(jīng)網(wǎng)絡(luò)是多樣化的(簡單、淺顯、復(fù)雜、富有深度均可)。智能體通常會在內(nèi)部向所提供的神經(jīng)網(wǎng)絡(luò)添加一個或多個層,以便正確地執(zhí)行它們的預(yù)期功能。此外,所有算法都充分利用了自定義 Keras 損失,使其運行能夠盡可能快速與簡潔。目前我們有三個示例(每個智能體一個),這些示例使用了微小的、完全連接的網(wǎng)絡(luò)來展示智能體的功能,甚至是使用簡單模型,結(jié)果也不會改變。

      目前,Huskarl 支持 DQN(Deep Q-Learning Network)、Multi-step DQN、Double DQN、A2C(Advantage Actor-Critic)、DDPG(Deep Deterministic Policy Gradient)等算法,PPO(Proximal Policy Optimization)、Curiosity-Driven Exploration 等算法仍在計劃中。

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      Huskarl 支持算法列表

      未來計劃

      我們計劃加入更新穎的深度強化學(xué)習(xí)算法,例如近端策略優(yōu)化算法(PPO,Proximal Policy Optimization),柔性致動/評價算法(SAC,Soft Actor-Critic)和雙延遲深度確定性策略梯度(TD3,Twin Delayed Deep Deterministic Policy Gradient)。

      此外,我們還計劃引入內(nèi)在的獎勵方法,如好奇心方法(curiosity)和賦權(quán)方法(empowerment)。其目的是希望用戶能夠更輕松地交換和組合深度強化學(xué)習(xí)算法中的不同組件,例如經(jīng)驗回放、輔助獎勵以及像堆疊樂高積木一樣的智能體任務(wù)。同時,我們還計劃在未來開源多智能體環(huán)境和 Unity3D 環(huán)境。

      原文地址

      https://medium.com/@tensorflow/introducing-huskarl-the-modular-deep-reinforcement-learning-framework-e47d4b228dd3 

      Github 地址

      https://github.com/danaugrs/huskarl 

      雷鋒網(wǎng) AI 科技評論

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      Huskarl 最近進展:已支持與 OpenAI Gym 環(huán)境無縫結(jié)合!

      分享:
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 两性午夜刺激性视频| 成年片色大黄全免费网站久久 | 亚洲AV秘?成人久久无码海归| 亚洲av综合av一区| 91在线公开视频| 波多野结衣国产精品| 清徐县| 国产精品乱一区二区三区| 亚洲精品一二三| 18禁超污无遮挡无码免费游戏 | 丝袜一级A片| 国产精品青草久久久久福利| 亚洲熟妇少妇任你躁在线观看无码| 国产九九在线| 国产不卡久久精品影院| av天堂成| 亚洲精品一区二区区别| 国产高潮视频在线观看| 成年无码av片在线| 成人午夜视频在线| 亚洲岛国片| 亚洲中文精品一区二区| 亚洲国产成人超a在线播放| 中文字幕亚洲一区二区va在线| 国产成人精品二三区波多野| 最新精品国偷自产在线下载| 人妻体内射精一区二区三区| av一区二区三区| 国产丝袜剧情演绎| 中文字幕无码成人片| 一边添奶一边添p好爽视频| 揉着我的奶从后面进去视频| 99这里只有精品| 性v天堂| 91青青草视频在线观看| av中文字幕在线二区| 久久精品无码av| 麻豆精品久久久久久久99蜜桃| jjzz国产| 亚洲乱色一区二区三区丝袜| 大地资源网第二页免费观看|