<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給晟煒
      發送

      0

      如何讓強化學習采樣變得更簡單?劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

      本文作者: 晟煒 編輯:郭奕欣 2017-04-26 09:54 專題:ICLR 2017
      導語:研究人員提出了Q-Prop的方法,將on-policy和off-policy的優點結合起來,大大降低了強化學習方法的采樣復雜度。

      雷鋒網AI科技評論按:ICLR 2017 于4月24-26日在法國土倫舉行,雷鋒網AI科技評論的編輯們近期也在法國帶來一線報道。期間,雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。

      無模型深度增強學習方法在很多模擬領域取得了成功,但將它應用于現實世界的障礙是巨大的采樣復雜度。批策略梯度方法具有穩定性的優勢,但會帶來高方差,需要巨大的批數據。而off-policy的方法如actor-critic和Q-learning雖然采樣效率高,但又帶來偏差。在ICLR 2017會議上,來自劍橋大學的顧世翔(Shixiang Gu)和其他來自谷歌和伯克利的研究者們提出了Q-Prop的方法,將on-policy和off-policy的優點結合起來,大大降低了強化學習方法的采樣復雜度。并發表論文《Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC》。文中介紹了Q-Prop方法,并通過實驗將其與TRPO,DDPG進行比較。實驗結果顯示Q-Prop具有較高的穩定性和采樣效率。這篇論文獲得了oral paper,并于現場進行了演講展示。

      論文摘要

      在解決高獎勵信號和無監督的目標導向序列決策問題時,無模型強化學習被認為是一種前途光明的方法。最近它已被用于大規模神經網絡策略和價值函數,并且在解決很多復雜問題時取得了成功(Mnih et al., 2015; Schulman et al., 2015; Lillicrap et al., 2016; Silver et al., 2016; Gu et al., 2016b; Mnih et al., 2016)。參數化的深度神經網絡將人工操作和策略設計的過程最小化。它能夠將多維輸入,比如圖像,端到端地映射成為具體行為輸出。但是即使如此強大的參數化設計仍然引入了一些實際的問題。深度強化學習對超參數的設定比較敏感,通常需要通過對超參數進行擴展搜索才能找到合適的值。超參數的缺乏將導致學習結果不穩定或者無法收斂。深度強化學習算法的高采樣復雜性使它很難在實際的物理系統上運行。不過最近的一些技術發展減輕了這方面的問題 (Hasselt, 2010; Mnih et al., 2015; Schulman et al., 2015; 2016)。這些方法在提高穩定性和減少采樣復雜度上提供了一些解決方案。

      無模型強化學習包括on-policy和off-policy兩種方法。蒙特卡洛(Monte Carlo)梯度算法(Peters & Schaal, 2006; Schulman et al., 2015)是一種流行的on-policy方法。它可以提供無偏差的(或近似無偏差)梯度估計,但同時會導致高的方差。為了解決高方差的梯度估計,研究人員提出了一些方法,然而這些方法都需要大量的采樣來解決多維神經網絡策略中梯度估計產生高方差的問題。問題癥結在于這樣的梯度方法只能使用on-plolicy的樣本,這就意味著在每次策略更新參數之后需要采集大量的on-policy樣本。這就對采集樣本的強度提出了非常高的要求。而像Q-learning (Watkins & Dayan, 1992; Sutton et al., 1999; Mnih et al., 2015; Gu et al., 2016b)和actor-critic(Lever, 2014; Lillicrap et al., 2016)等off-policy方法則可以用off-policy的樣本來替代。它們可以使用其他學習過程產生的樣本。這樣的方法大大提高了采樣的效率。不過并不能保證非線性函數逼近能夠收斂。實際上收斂和穩定性有賴于廣泛的超參數調優所能夠達到的最好結果。

      為了使強化學習能夠成為在現實世界中能解決實際問題的工具,研究人員必須開發出一種既高效又穩定的方法。研究人員提出的Q-Prop方法就是結合了on-policy梯度方法的優點和off-policy學習高效特點的方法。與之前的要么引入偏差(Sutton et al., 1999; Silver et al., 2014) 要么增加方差(Precup, 2000; Levine & Koltun, 2013; Munos et al., 2016)的off-policy方法不同,Q-Prop能夠在不增加偏差的情況下,降低梯度估計的方差。同時它也與之前需要配合on-policy值函數,基于評價的能降低方差的方法(Schulman et al., 2016)不同,Q-Prop使用off-policy動作值函數(action-value function)。其核心思想是使用一階泰勒展開作為控制變量,這就使解析梯度項用于評價過程,以及包含殘差蒙特卡洛梯度項。這個方法將策略梯度和actor-critc方法結合起來。它既可以被看做使用off-policy的評價過程來減小策略梯度方法帶來的方差,又被看作使用on-policy蒙特卡洛方法來修正評價梯度方法帶來的偏差。研究人員進一步對控制變量進行理論分析,得出Q-Prop另外兩個變體。這種方法可以很容易地用于策略梯度算法。研究人員展示了Q-Prop在使用GAE(generalized advantage estimation ,廣義優勢估計)的TRPO(trust region policy optimization ,信賴區域策略優化算法)過程中帶來的采樣效率的提升,以及在整個連續控制任務中深度確定策略梯度算法上穩定性的提高。

      論文結果展示

      如何讓強化學習采樣變得更簡單?劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

      圖1:OpenAI Gym MuJoCo域(Brockman et al., 2016; Duan et al., 2016): (a) Ant, (b) HalfCheetah, (c) Hopper, (d) Humanoid, (e) Reacher, (f) Swimmer, (g) Walker

      如圖1所示,研究人員使用MuJoCo模擬器,在OpenAI Gym連續控制環境下對Q-Prop和它的變體進行了評估。

      如何讓強化學習采樣變得更簡單?劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

      圖2a 標準 Q-Prop域各變體的比較;圖2b 在不同批大小情況下,保守Q-Prop與TRPO比較

      在Q-Prop各變體和TRPO的比較中可以看出,哪種Q-Prop的變體更加值得信賴。在這一部分,研究人員分析了標準Q-Prop和兩種自適應變體,c-Q-Prop(保守Q-Prop)和a-Q-Prop(積極Q-Prop),并展示了在不同批大小情況下,它們的穩定性。圖2a展示了在HalfCheetah-v1域下Q-Prop和其變體與TRPO超參數的比較結果。其結果與理論一致:保守Q-Prop相對于標準Q-Prop和積極Q-Prop,具有更好的穩定性。同時所有的Q-Prop變體相對于TRPO都具有更高的采樣效率。比如保守Q-Prop達到4000平均獎勵的片段數差不多只有TRPO的十分之一。

      圖2b則展示了在不同批大小情況下保守Q-Prop和TRPO的性能差別。由于梯度估計的高方差,TRPO通常需要很大的批容量,比如為了有良好的表現,需要25000步或每次更新25個片段。而使用Q-Prop的方法,研究人員只需要每次更新1個片段,從而使用小的批容量,大大提高采樣的效率。實驗結果顯示,與之前方法相比,Q-Prop顯著減小了方差。正如前面提到的,穩定性是深度強化學習方法的一大難關,它決定了深度強化學習方法是否能在現實世界使用。

      如何讓強化學習采樣變得更簡單?劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

      圖3a HalfCheetah-v1域下各算法的比較;圖3b Humanoid-v1域下各算法的比較

      接下來研究人員評估了兩個版本的保守Q-Prop方法(使用普通策略梯度的v-c-Q-Prop和使用信賴區域的TR-c-Q-Prop)與其他無模型算法在HalfCheetah-v1域下進行比較。圖3a展示了c-Q-Prop方法相比TRPO和VPG明顯具有優勢。得益于方差的降低,使用普通策略的Q-Prop與TRPO也能取得相近的結果。另一方面,DDPG則顯示了不一致的性能。使用了恰當獎勵標準的DDPG-r0.1取得了比之前的DDPG方法(Duan et al., 2016; Amos et al., 2016)更好的結果。這顯示出DDPG對超參數設置的敏感性。與DDPG相比,Q-Prop顯示了這方面的穩定性。

      如何讓強化學習采樣變得更簡單?劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

      表1:Q-Prop,TRPO,DDPG實驗結果對比

      最后,研究人員將Q-Prop與TRPO,DDPG在跨域條件下進行了評估。當環境趨于運動時,研究人員希望能取得與Lillicrap et al. (2016)相近的實驗結果。表1總結了實驗結果,包括最好的平均獎勵和收斂需要的片段數。在采樣復雜度上Q-Prop始終優于TRPO。有時,在復雜的域中取得的獎勵甚至超過DDPG。在圖3b中一個值得注意的現象是,在Humanoid-v1域中,Q-Prop相比于TRPO可以持續提升采樣效率,而這時DDPG無法找到好的結果。在復雜域中的良好表現顯示了穩定的深度強化學習算法的重要性:那些需要大量處理超參數的算法在處理簡單問題時可能取得較好的結果,但遇到復雜的問題它的不穩定性就會使這種算法毫無用處。

      結論

      研究人員展示了Q-Prop,一種結合了可靠性,一致性的策略梯度算法。它使用控制變量提高了off-policy評價的采樣效率,并且可能使on-policy梯度算法具有無偏差的特性。相比于TRPO等策略梯度算法,這種方法大大提高了采樣效率。另一方面,相比于actor-critic算法,在比如處理人形機器人運動方面,它更具優勢。研究人員希望這種結合了on-policy蒙特卡洛梯度估計算法和高采樣效率的off-policy評價算法的方法可以使強化學習更加穩定和高效,并能更好地用于處理現實世界中的復雜任務。

      ICLR評論

      ICLR委員會最終決定

      評價: 這篇論文對強化學習算法做出了學術貢獻。它找到了高方差(低偏差)的梯度估計的策略優化方法和低方差(高偏差)的梯度估計off-policy actor-critic方法,比如DDPG之間的結合點。它的基本思想(根據我的理解,與下面一位評論者相似),我們可以基于off-policy學習,使用控制依賴基線來降低梯度的方差,認為我們在進行梯度計算時對它進行了修正。試驗清楚地顯示出這種方法的優勢。它很好地結合了兩種增強學習的趨勢(首要目標就是降低采樣復雜度,在這里尤為顯著)。我相信這項成果絕對值得我們接受。作者同時積極答復評論者,并對大家感興趣的問題在手稿中做了調整。

      支持

      使用新穎并且吸引人的算法,對off-policy和on-policy方法很好的貢獻。

      在各種控制任務中進行很好的評估。

      反對

      有些不好理解,有的地方寫的有些繁雜。

      決定:接受(Oral)

      很好的主意,但不是一篇研究論文

      打分:7分:很好的論文,接受

      評論:基于以下的討論,我提出的第二個問題并不正確,我將分數從3分改到7分

      這篇文章做出了一個迷人的嘗試:將控制依賴基線(控制變量)引入強化學習,雖然帶來了偏差,但又使用修正項將偏差消除。由于強化學習更新和控制依賴基線使修正項的方差很小,所以結果還不錯。

      很有趣的嘗試,使用控制變量提高深度強化學習控制的穩定性

      打分:7分:很好的論文,接受

      評論:這篇論文將一階泰勒展開作為策略梯度算法的控制變量。根據理論結果這個算法可以帶來無偏差和低方差,根據世界結果動態控制任務顯示這個算法降低了采樣復雜度。

      控制變量的使用至關重要,這篇論文是在這個方向上有趣的嘗試。我對這種嘗試不完全肯定,因為這其中有太多的可能性,而理論分析有賴于方差的逼近而不是具體的計算。這就使這樣的嘗試少了一些吸引力。但是,這篇論文實在正確的方向上邁出的一步,值得接受。

      使用評估的高效策略梯度算法

      打分:8分:在全部入選論文中排名Top 50%,確定接收

      評論:這篇文章展示了一種用于強化學習的無模型策略梯度算法,它結合了on-policy和off-policy評估。希望連續控制能使用這種高效采樣的方法。這種方法在仿真環境中可以實現低維的連續控制任務。

      這篇論文寫得很好,容易讀懂。文中提供了充足的試驗環境幫助讀者領會它提出的觀點。雖然評論者并不是這方面的專家,但文中提出的方法仍然很新穎。 Q-Prop估算器看起來是一種通用并且有效的策略學習方法。試驗結果也充分支持它所聲明的對采樣效率的提高。而補充材料中引出的細節也非常有用。

      我喜歡這篇文章,對它也沒有更多的評論。不過,我想在以下兩方面進行討論也許可以增加文章的深度:

      1)比較各種方法所產生的計算代價,來代替完成收斂需要的片段數。

      2)討論這種技術的局限性:是否在某些情況下難以收斂。

      via openreview

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      如何讓強化學習采樣變得更簡單?劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

      分享:
      相關文章

      知情人士

      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 久久人妻中文| 亚洲成a人片在线播放| 欧美日韩在线视频一区| 花垣县| 国产成人av免费网址| 五月天成人社区| 两个人的视频全免费观看在线| 国产av剧情无码精品色午夜| 国产精品美女久久久浪潮AV| 少妇做爰免费视看片| 久久婷婷五月综合| 精品综合在线| 99在线小视频| 人妻a?v| 成av免费大片黄在线观看| 精品久久一区| 免费视频成人片在线观看| 韩国18禁啪啪无遮挡免费| 亚洲欧美丝袜精品久久中文字幕| 亚洲人成欧美中文字幕| 绍兴县| 国产盗摄xxxx视频xxxx| 久久国产精品电影| 亚洲天堂区| jizz亚洲| 亚洲区色| 亚洲AV无码破坏版在线观看| 囯产精品久久久久久久久久妞妞 | 久久精品国产亚洲av麻豆不卡 | 亚洲爆乳精品无码一区二区三区| 国产av影院| 人妻色综合| 欧美videos粗暴| 熟女一区| 亚洲精品日本久久久中文字幕| 久久国内精品自在自线91| 国产精品亚洲一区二区| 美国特级A毛片免费网站| 久久亚洲精品中文字幕| 灵台县| 1区2区3区高清视频|