<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發(fā)者 正文
      發(fā)私信給AI研習社-譯站
      發(fā)送

      0

      開源巨獻:27個深度強化學習算法的實例項目

      本文作者: AI研習社-譯站 2020-11-25 10:47
      導語:在這里,您可以找到幾個致力于“深度強化學習”方法的項目。

      譯者:AI研習社(宋怡然

      雙語原文鏈接:Deep Reinforcement Learning Nanodegree Algorithms


      在這里,您可以找到幾個致力于“深度強化學習”方法的項目。 項目以矩陣形式部署:[env x model],其中env是要解決的環(huán)境,而model是解決該環(huán)境的模型/算法。 在某些情況下,可以通過幾種算法來解決同一環(huán)境。 所有項目均以包含培訓日志的Jupyter筆記本的形式呈現(xiàn)。
      支持以下環(huán)境:

      AntBulletEnv, Bipedalwalker, CarRacing, CartPole, Crawler, HalfCheetahBulletEnv, HopperBulletEnv, LunarLander, LunarLanderContinuous, Markov Decision 6x6, Minitaur, Minitaur with Duck, Pong, Navigation, Reacher, Snake, Tennis, Waker2DBulletEnv.

      在Udacity深度強化學習學位計劃的框架內(nèi)解決了四個環(huán)境(導航,爬蟲,到達者,網(wǎng)球)。

      蒙特卡洛方法 

      在蒙特卡洛(MC)中,我們玩游戲的情節(jié)直到到達終點,我們從途中獲得了獎勵然后返回情節(jié)的開始。 我們重復此方法至足夠的次數(shù),然后平均每個狀態(tài)的值。

      時差方法與Q學習

      連續(xù)空間中的強化學習(深度Q網(wǎng)絡)

      函數(shù)逼近和神經(jīng)網(wǎng)絡

      通用逼近定理(UAT)規(guī)定,只要滿足有關激活函數(shù)形式的輕微假設,就可以使用包含具有有限數(shù)量節(jié)點的單個隱藏層的前饋神經(jīng)網(wǎng)絡來近似任何連續(xù)函數(shù)。

      基于策略的方法爬山模擬退火

      在許多情況下,隨機重啟爬山是一種出奇的有效算法。 模擬退火是一種很好的概率技術,因為它不會偶然錯誤地將局部極值作為全局極值。

      策略漸變方法REINFORCEPPO

      定義一個性能指標J(\ theta)以使其最大化。 通過近似梯度上升來學習策略參數(shù)\ theta。

      關鍵行為法A3CA2CDDPGTD3SAC

      A3C與A2C的主要區(qū)別在于異步部分。  A3C由具有權(quán)重的多個獨立代理(網(wǎng)絡)組成,它們與環(huán)境的不同副本并行進行交互。 因此,他們可以在更少的時間內(nèi)探索狀態(tài)-行動空間的更大部分。

      項目,模型和方法

      AntBulletEnvSoft Actor-Critic (SAC)

      BipedalWalker, Twin Delayed DDPG (TD3)

      BipedalWalker, PPO, Vectorized Environment

      BipedalWalker, Soft Actor-Critic (SAC)

      BipedalWalker, A2C, Vectorized Environment

      CarRacing with PPO, Learning from Raw Pixels

      CartPole, Policy Based Methods, Hill Climbing

      CartPole, Policy Gradient Methods, REINFORCE

      Cartpole, DQN

      Cartpole, Double DQN

      HalfCheetahBulletEnv, Twin Delayed DDPG (TD3)

      HopperBulletEnv, Twin Delayed DDPG (TD3)

      HopperBulletEnv, Soft Actor-Critic (SAC)

      LunarLander-v2, DQN

      LunarLanderContinuous-v2, DDPG

      Markov Decision Process, Monte-Carlo, Gridworld 6x6

      MinitaurBulletEnv, Soft Actor-Critic (SAC)

      MinitaurBulletDuckEnv, Soft Actor-Critic (SAC)

      Pong, Policy Gradient Methods, PPO

      Pong, Policy Gradient Methods, REINFORCE

      Snake, DQN, Pygame

      Udacity Project 1: Navigation, DQN, ReplayBuffer

      Udacity Project 2: Continuous Control-Reacher, DDPG, environment Reacher (Double-Jointed-Arm)

      Udacity Project 2: Continuous Control-Crawler, PPO, environment Crawler

      Udacity Project 3: Collaboration_Competition-Tennis, Multi-agent DDPG, environment Tennis

      Walker2DBulletEnv, Twin Delayed DDPG (TD3)

      Walker2DBulletEnv, Soft Actor-Critic (SAC)

      DQN和Double DQN的項目

      PPO的項目

      TD3的項目

      Soft Actor-Critic (SAC) 的項目

      BipedalWalker,與不同模型的混合

      CartPole與不同模型的混合

      更多鏈接

      • 有關Policy-Gradient Methods策略梯度方法,參見 123.

      • 有關 REINFORCE,參見 123.

      • 有關 PPO,參見 12345.

      • 有關 DDPG,參見 12.

      • 有關 Actor-Critic MethodsA3C,參見 1234.

      • 有關 TD3,參見 123

      • 有關 SAC,參見 12345

      • 有關 A2C,參見 12345 

      TowardsDataScience網(wǎng)站上的文章

      貝爾曼方程式在深度強化學習中如何工作?

      深度Q網(wǎng)絡中一對相互關聯(lián)的神經(jīng)網(wǎng)絡

      深度強化學習的三個方面:噪聲,高估和探索

      我在上述項目中開發(fā)的相關視頻


      AI研習社是AI學術青年和AI開發(fā)者技術交流的在線社區(qū)。我們與高校、學術機構(gòu)和產(chǎn)業(yè)界合作,通過提供學習、實戰(zhàn)和求職服務,為AI學術青年和開發(fā)者的交流互助和職業(yè)發(fā)展打造一站式平臺,致力成為中國最大的科技創(chuàng)新人才聚集地。

      如果,你也是位熱愛分享的AI愛好者。歡迎與譯站一起,學習新知,分享成長。

      開源巨獻:27個深度強化學習算法的實例項目

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      開源巨獻:27個深度強化學習算法的實例項目

      分享:
      相關文章

      知情人士

      AI研習社(yanxishe.com)譯站頻道,傳播前沿人工智能知識,讓語言不再成為學習知識的門檻。(原雷鋒字幕組)
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 漂亮的保姆hd完整版免费韩国| 在线观看视频91| 久久精品亚洲| 中文字幕日韩有码| 亚洲国产一区二区三区最新| 国产精品va在线观看无码不卡| 免费无码又爽又刺激高潮的视频 | 亚洲精品国产美女久久久99| 精品亚洲无人区一区二区| 啦啦啦啦www日本在线观看| 国精产品999国精产品官网| 亚洲成人性爱网| 亚洲韩欧美第25集完整版| 丁香婷婷五月| 日本中文字幕在线播放| 久久精品国产久精国产果冻传媒| 男人的天堂av网站一区二区| 无码熟妇人妻av在线影片| 曰本无码人妻丰满熟妇啪啪| 成人综合伊人五月婷久久| 丹寨县| 国产私拍大尺度在线视频 | 艳妇乳肉豪妇荡乳| 国产精品一品二区三区的使用体验 | 99热久久精里都是精品6| 久久久免费精品re6| 国产又色又爽又黄的网站免费| 成熟丰满熟妇高潮xxxxx视频| 亚洲爆乳少妇无码激情| 亚州少妇无套内射激情视频| 无套内谢少妇毛片A片樱花| 国产午夜福利短视频| 黑丝足交在线| 精品免费国产一区二区三区四区介绍| 免费vA片| 亚洲成av人片大线观看| 无码AV在线播放| 亚洲精品理论| 精品综合视频精品| 亚洲国产精品无码久久久蜜芽| 国产一区二区三区禁18|