如何讓強化學習采樣變得更簡單？劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

本文作者：晟煒

編輯：郭奕欣

2017-04-26 09:54

專題：ICLR 2017

導語：研究人員提出了Q-Prop的方法，將on-policy和off-policy的優點結合起來，大大降低了強化學習方法的采樣復雜度。

雷鋒網AI科技評論按：ICLR 2017 于4月24-26日在法國土倫舉行，雷鋒網AI科技評論的編輯們近期也在法國帶來一線報道。期間，雷鋒網也將圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道，敬請期待。

無模型深度增強學習方法在很多模擬領域取得了成功，但將它應用于現實世界的障礙是巨大的采樣復雜度。批策略梯度方法具有穩定性的優勢，但會帶來高方差，需要巨大的批數據。而off-policy的方法如actor-critic和Q-learning雖然采樣效率高，但又帶來偏差。在ICLR 2017會議上，來自劍橋大學的顧世翔（Shixiang Gu）和其他來自谷歌和伯克利的研究者們提出了Q-Prop的方法，將on-policy和off-policy的優點結合起來，大大降低了強化學習方法的采樣復雜度。并發表論文《Q-PROP: SAMPLE-EFFICIENT POLICY GRADIENT WITH AN OFF-POLICY CRITIC》。文中介紹了Q-Prop方法，并通過實驗將其與TRPO，DDPG進行比較。實驗結果顯示Q-Prop具有較高的穩定性和采樣效率。這篇論文獲得了oral paper，并于現場進行了演講展示。

論文摘要

在解決高獎勵信號和無監督的目標導向序列決策問題時，無模型強化學習被認為是一種前途光明的方法。最近它已被用于大規模神經網絡策略和價值函數，并且在解決很多復雜問題時取得了成功(Mnih et al., 2015; Schulman et al., 2015; Lillicrap et al., 2016; Silver et al., 2016; Gu et al., 2016b; Mnih et al., 2016)。參數化的深度神經網絡將人工操作和策略設計的過程最小化。它能夠將多維輸入，比如圖像，端到端地映射成為具體行為輸出。但是即使如此強大的參數化設計仍然引入了一些實際的問題。深度強化學習對超參數的設定比較敏感，通常需要通過對超參數進行擴展搜索才能找到合適的值。超參數的缺乏將導致學習結果不穩定或者無法收斂。深度強化學習算法的高采樣復雜性使它很難在實際的物理系統上運行。不過最近的一些技術發展減輕了這方面的問題 (Hasselt, 2010; Mnih et al., 2015; Schulman et al., 2015; 2016)。這些方法在提高穩定性和減少采樣復雜度上提供了一些解決方案。

無模型強化學習包括on-policy和off-policy兩種方法。蒙特卡洛（Monte Carlo）梯度算法(Peters & Schaal, 2006; Schulman et al., 2015)是一種流行的on-policy方法。它可以提供無偏差的（或近似無偏差）梯度估計，但同時會導致高的方差。為了解決高方差的梯度估計，研究人員提出了一些方法，然而這些方法都需要大量的采樣來解決多維神經網絡策略中梯度估計產生高方差的問題。問題癥結在于這樣的梯度方法只能使用on-plolicy的樣本，這就意味著在每次策略更新參數之后需要采集大量的on-policy樣本。這就對采集樣本的強度提出了非常高的要求。而像Q-learning (Watkins & Dayan, 1992; Sutton et al., 1999; Mnih et al., 2015; Gu et al., 2016b)和actor-critic(Lever, 2014; Lillicrap et al., 2016)等off-policy方法則可以用off-policy的樣本來替代。它們可以使用其他學習過程產生的樣本。這樣的方法大大提高了采樣的效率。不過并不能保證非線性函數逼近能夠收斂。實際上收斂和穩定性有賴于廣泛的超參數調優所能夠達到的最好結果。

為了使強化學習能夠成為在現實世界中能解決實際問題的工具，研究人員必須開發出一種既高效又穩定的方法。研究人員提出的Q-Prop方法就是結合了on-policy梯度方法的優點和off-policy學習高效特點的方法。與之前的要么引入偏差(Sutton et al., 1999; Silver et al., 2014) 要么增加方差(Precup, 2000; Levine & Koltun, 2013; Munos et al., 2016)的off-policy方法不同，Q-Prop能夠在不增加偏差的情況下，降低梯度估計的方差。同時它也與之前需要配合on-policy值函數，基于評價的能降低方差的方法(Schulman et al., 2016)不同，Q-Prop使用off-policy動作值函數（action-value function）。其核心思想是使用一階泰勒展開作為控制變量，這就使解析梯度項用于評價過程，以及包含殘差蒙特卡洛梯度項。這個方法將策略梯度和actor-critc方法結合起來。它既可以被看做使用off-policy的評價過程來減小策略梯度方法帶來的方差，又被看作使用on-policy蒙特卡洛方法來修正評價梯度方法帶來的偏差。研究人員進一步對控制變量進行理論分析，得出Q-Prop另外兩個變體。這種方法可以很容易地用于策略梯度算法。研究人員展示了Q-Prop在使用GAE（generalized advantage estimation ，廣義優勢估計）的TRPO（trust region policy optimization ，信賴區域策略優化算法）過程中帶來的采樣效率的提升，以及在整個連續控制任務中深度確定策略梯度算法上穩定性的提高。

論文結果展示

如何讓強化學習采樣變得更簡單？劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

圖1：OpenAI Gym MuJoCo域(Brockman et al., 2016; Duan et al., 2016): (a) Ant, (b) HalfCheetah, (c) Hopper, (d) Humanoid, (e) Reacher, (f) Swimmer, (g) Walker

如圖1所示，研究人員使用MuJoCo模擬器，在OpenAI Gym連續控制環境下對Q-Prop和它的變體進行了評估。

如何讓強化學習采樣變得更簡單？劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

圖2a 標準 Q-Prop域各變體的比較；圖2b 在不同批大小情況下，保守Q-Prop與TRPO比較

在Q-Prop各變體和TRPO的比較中可以看出，哪種Q-Prop的變體更加值得信賴。在這一部分，研究人員分析了標準Q-Prop和兩種自適應變體，c-Q-Prop（保守Q-Prop）和a-Q-Prop（積極Q-Prop），并展示了在不同批大小情況下，它們的穩定性。圖2a展示了在HalfCheetah-v1域下Q-Prop和其變體與TRPO超參數的比較結果。其結果與理論一致：保守Q-Prop相對于標準Q-Prop和積極Q-Prop，具有更好的穩定性。同時所有的Q-Prop變體相對于TRPO都具有更高的采樣效率。比如保守Q-Prop達到4000平均獎勵的片段數差不多只有TRPO的十分之一。

圖2b則展示了在不同批大小情況下保守Q-Prop和TRPO的性能差別。由于梯度估計的高方差，TRPO通常需要很大的批容量，比如為了有良好的表現，需要25000步或每次更新25個片段。而使用Q-Prop的方法，研究人員只需要每次更新1個片段，從而使用小的批容量，大大提高采樣的效率。實驗結果顯示，與之前方法相比，Q-Prop顯著減小了方差。正如前面提到的，穩定性是深度強化學習方法的一大難關，它決定了深度強化學習方法是否能在現實世界使用。

如何讓強化學習采樣變得更簡單？劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

圖3a HalfCheetah-v1域下各算法的比較；圖3b Humanoid-v1域下各算法的比較

接下來研究人員評估了兩個版本的保守Q-Prop方法（使用普通策略梯度的v-c-Q-Prop和使用信賴區域的TR-c-Q-Prop）與其他無模型算法在HalfCheetah-v1域下進行比較。圖3a展示了c-Q-Prop方法相比TRPO和VPG明顯具有優勢。得益于方差的降低，使用普通策略的Q-Prop與TRPO也能取得相近的結果。另一方面，DDPG則顯示了不一致的性能。使用了恰當獎勵標準的DDPG-r0.1取得了比之前的DDPG方法(Duan et al., 2016; Amos et al., 2016)更好的結果。這顯示出DDPG對超參數設置的敏感性。與DDPG相比，Q-Prop顯示了這方面的穩定性。

如何讓強化學習采樣變得更簡單？劍橋大學聯合谷歌伯克利提出 Q-Prop | ICLR 2017

表1：Q-Prop，TRPO，DDPG實驗結果對比

最后，研究人員將Q-Prop與TRPO，DDPG在跨域條件下進行了評估。當環境趨于運動時，研究人員希望能取得與Lillicrap et al. (2016)相近的實驗結果。表1總結了實驗結果，包括最好的平均獎勵和收斂需要的片段數。在采樣復雜度上Q-Prop始終優于TRPO。有時，在復雜的域中取得的獎勵甚至超過DDPG。在圖3b中一個值得注意的現象是，在Humanoid-v1域中，Q-Prop相比于TRPO可以持續提升采樣效率，而這時DDPG無法找到好的結果。在復雜域中的良好表現顯示了穩定的深度強化學習算法的重要性：那些需要大量處理超參數的算法在處理簡單問題時可能取得較好的結果，但遇到復雜的問題它的不穩定性就會使這種算法毫無用處。

結論

研究人員展示了Q-Prop，一種結合了可靠性，一致性的策略梯度算法。它使用控制變量提高了off-policy評價的采樣效率，并且可能使on-policy梯度算法具有無偏差的特性。相比于TRPO等策略梯度算法，這種方法大大提高了采樣效率。另一方面，相比于actor-critic算法，在比如處理人形機器人運動方面，它更具優勢。研究人員希望這種結合了on-policy蒙特卡洛梯度估計算法和高采樣效率的off-policy評價算法的方法可以使強化學習更加穩定和高效，并能更好地用于處理現實世界中的復雜任務。

ICLR評論

ICLR委員會最終決定

評價：這篇論文對強化學習算法做出了學術貢獻。它找到了高方差（低偏差）的梯度估計的策略優化方法和低方差（高偏差）的梯度估計off-policy actor-critic方法，比如DDPG之間的結合點。它的基本思想（根據我的理解，與下面一位評論者相似），我們可以基于off-policy學習，使用控制依賴基線來降低梯度的方差，認為我們在進行梯度計算時對它進行了修正。試驗清楚地顯示出這種方法的優勢。它很好地結合了兩種增強學習的趨勢（首要目標就是降低采樣復雜度，在這里尤為顯著）。我相信這項成果絕對值得我們接受。作者同時積極答復評論者，并對大家感興趣的問題在手稿中做了調整。

支持：

使用新穎并且吸引人的算法，對off-policy和on-policy方法很好的貢獻。

在各種控制任務中進行很好的評估。

反對：

有些不好理解，有的地方寫的有些繁雜。

決定：接受（Oral）