^{<sub id="jgr5k"></sub>}

和谷歌一同探索基于強化學習的長距離機器人導航

本文作者：楊曉凡

2019-03-12 19:05

導語：好的強化學習方法可以大幅改善魯棒性

雷鋒網 AI 科技評論按：可以智能自主導航的機器人其實可以為人類提供很多便利、很多幫助。僅僅在美國就有三百萬人由于殘疾而不便移動，甚至無法踏出自己的家門一步。能進行自主長距離導航、行動的服務機器人可以大大提升他們的獨立生活能力，可以幫他們運送生活物品、藥品、行李等等。目前的研究表明，強化學習這種方法很適合把原始的傳感器輸入映射為機器人的動作，比如學習抓取物體、比如整個機器人的運動控制。然而強化學習智能體通常不具備較大空間的理解能力，但這卻是運動中無需人類幫助、安全穿梭長距離、輕松適應新的空間所必須的。

谷歌的機器人和 AI 研究人員們近期就研究了這個問題，提出了把深度強化學習和長距離運動規劃相結合的機器人自主控制算法，而且它還具有很強的自適應能力。在下面三篇論文中，谷歌 AI 的研究人員們逐步把深度強化學習和長距離運動規劃結合起來，探索了更容易適應新環境的機器人自動控制方案。

首先，他們訓練的本地規劃智能體可以執行基本的導航動作，安全地穿越較短的地形，不和其它的運動物體發生碰撞。這些局部規劃器可以接受來自有噪聲的傳感器的輸入，比如一維激光雷達的深度數據可以提供到障礙物的距離，規劃器可以由此算出機器人控制所需的線速度和角速度。谷歌 AI 的研究人員們在模擬環境中用自動強化學習 AutoRL 訓練局部規劃器，AutoRL 的作用是可以自動搜索強化學習反饋以及神經網絡架構。盡管局部規劃器的訓練距離只有 10~15 米，它們也可以很好地遷移到真實的機器人以及從未見過的環境中。

這樣，這些局部規劃器就可以作為大尺度空間中導航的基礎部件。研究人員們隨后構建了一個路線圖，在這個圖（graph）中，不同的節點是不同的位置，接著，在模仿真實機器人的有噪聲的傳感器和控制條件下訓練出的局部規劃器如果能夠在某兩個節點之間可靠地往來導航，這兩個節點就會用邊連接起來。

雷鋒網 AI 科技評論把這三篇論文的內容簡單介紹如下

Learning Navigation Behaviors End-to-End with AutoRL

通過 AutoRL （自動強化學習）學習端到端的導航行為
論文地址：https://ieeexplore.ieee.org/document/8643443
內容簡介：這篇論文中，研究人員們在小尺寸、靜態的環境中訓練局部規劃智能體。在強化學習框架下，深度確定性策略梯度（DDPG）等標準的深度強化學習算法面對的是一個非常稀疏的反饋“是否到達了終點”，實際使用中會需要大量的迭代嘗試、消耗許多手工調節反饋的人力；此外研究人員們還需要在沒有多少先例可參考的情況下選擇最佳的網絡結構；最后，DDPG 之類的算法不僅學習過程不穩定，還會出現災難性的遺忘癥狀。
所以研究人員們采用了 AutoRL，這是一種圍繞深度強化學習設計的進化性自動化層，它借助大規模參數優化，自動搜索最佳的反饋和網絡結構。并且最終 DDPG 不會再表現出災難性遺忘的癥狀，最終學習到的策略也有更高的質量，對于傳感器、運動器和定位噪聲都更為魯棒，對新環境的泛化能力也更好。不過，AutoRL 也有樣本效率低的問題。
這樣訓練出的智能體只能執行局部導航任務，不過它們對障礙有較好的魯棒性，尤其是，即便是在靜態障礙的環境中訓練的，它們也可以正確應對移動的障礙，還很好地遷移到真實的機器人上。下一步就是探索更長距離的導航。

PRM-RL: Long-Range Robotic Navigation Tasks by Combining Reinforcement Learning and Sampling-based Planning

PRM-RL：通過組合強化學習和基于采樣的規劃，完成長距離機器人導航任務
論文地址：https://ai.google/research/pubs/pub46570
ICRA 2018 最佳論文
內容簡介：基于采樣的規劃器一般用于長距離規劃，它們的工作方式是逼近計算機器人的動作。比如，概率地圖（probabilistic roadmaps，PRMs）方法中就對機器人的姿態采樣，把這些采樣用可行的變換連接起來，最終形成一個包括了機器人在大范圍空間中運動的地圖。在這篇論文中，研究人員們嘗試把手工調節的基于強化學習的局部規劃器（這里并沒有使用 AutoRL）和 PRMs 結合起來，對機器人的訓練目標是，在某個局部訓練，但訓練結束以后就可以適應多種不同的環境。

Long-Range Indoor Navigation with PRM-RL

基于 PRM-RL 的長距離室內導航
論文地址：https://arxiv.org/abs/1902.09458
內容簡介：這篇論文在前一篇的 PRM-RL 基礎上又做出了多項改進。首先，把手工調節的強化學習局部規劃器替換為了 AutoRL 訓練的，這提高了長距離導航的表現。其次，系統中現在加入了 SLAM 地圖，機器人在導航過程中將進行同步的定位和地圖重建，這可以作為運動概率地圖重建的資源。由于 SLAM 地圖是帶有噪聲的，這一變化也補上了模擬環境和真實環境中的機器人由于噪聲程度不同帶來的性能區別，實際上，虛擬環境中導航的成功率和真實機器人上的實驗成功率幾乎相同。最后，研究人員們還增加了分布式地圖構建，這極大增加了機器人最大可以支持的地圖大小，最多可以達到 70 萬個節點。

更具體的介紹可以參見谷歌技術博客 ai.googleblog.com，雷鋒網 AI 科技評論編譯

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

楊曉凡

讀論文為生

日常笑點滴，學術死腦筋

發私信

當月熱門文章