0
| 本文作者: 陳彩嫻 | 2021-09-30 12:02 |
近年來,世界模型(World Model)在機器人、模擬與強化學習中均取得了出色的研究結果。
2018年,Jürgen Schmidhuber 與 David Ha 首次以無監督的方式訓練世界模型,使模型能快速學習環境中的壓縮時空表征,再將世界模型中的特征作為智能體的輸入,訓練出了一個非常壓縮與簡單的策略來解決模擬2D賽車等任務。
今年2月,Google AI 也用世界模型,在 Atari 游戲中實現了達到人類水平的表現。
但是,相比簡單的游戲環境,現實的世界環境要復雜得多。
不久前,在發表于 ICCV 2021 的一篇工作(“Pathdreamer: A World Model for Indoor Navigation”)上,Google AI 團隊提出了一個世界模型,叫作“Pathdreamer”,可以僅基于有限的種子觀察與原先計劃的導航路線,生成一幅智能體“肉眼”不可見的建筑物區域的、360o 高清攝像。

論文鏈接:https://arxiv.org/pdf/2105.08756.pdf
Google AI的團隊將Pathdreamer應用于機器人導航任務中,成功率高達50.4%!僅比ground truth設置低了 8.6%(59%)!
1、什么是世界模型?
世界模型(World Model)首次由 Jürgen Schmidhuber 與 David Ha 在 NeurIPS 2018中提出,主要出發點是打造一個通用強化學習環境的生成神經網絡模型,為強化學習技術的落地提供完美的模擬環境。這篇工作入選了當年 NeurIPS 的 oral paper。

論文地址:https://arxiv.org/pdf/1803.10122.pdf
世界模型的靈感來源于心理學上的“心理世界模型”(mental model of the world)。
在人對世界的理解過程中,我們往往是以有限的感官所能感知到的事物為基礎,形成一個心理世界模型。我們所做的決定和行動都是基于這個模型。雷鋒網
為了處理流經我們日常生活的大量信息,我們的大腦學會了信息的空間域和時域的抽象表示。我們能夠觀察一個場景并記住其中的抽象描述。雷鋒網

圖注 / 世界模型示例,源自 Scott McCloud 的《理解漫畫》一書
證據還表明,我們在任何時刻所感知的,都是由我們的大腦根據我們的內部心理模型對未來的預測所決定的。雷鋒網
心理模型不僅僅是預測未來,而且會根據我們當前的運動行為來預測未來的感官數據。我們能夠在這種預測模型上采取行動,并在我們面臨危險時表現出快速的行為,而不需要有意識地規劃一個行動路線。
以棒球為例,一個棒球運動員只有毫秒級的時間來決定如何揮動球棍,這個時間甚至比視覺信號從眼球傳到大腦的時間還要短。對專業運動員來說,這個動作幾乎是下意識的,他們的肌肉在正確的時間和地點揮動球棍,與他們內部模型的預測一致。他們可以根據他們對未來的預測迅速采取行動,而不需要有意識地推出可行的擊球計劃。

在許多強化學習問題中,智能體既需要一個對過去和現在狀態的良好描述,還需要一個優秀的模型來預測未來的狀態。作為真實世界的一個表征,世界模型采用無監督的方式進行訓練,能取得較好的策略。
2018年,當 Jürgen Schmidhuber 與 David Ha 提出世界模型后,他們將世界模型用于解決一個賽車競速的強化學習任務。

帶有預測能力的世界模型可以有效地提取空域與時域特征,再將這些特征應用于控制模型,然后訓練一個最小的控制模型來完成連續域控制任務,即賽車。
2、Pathdreamer的誕生
受到 Jürgen Schmidhuber 等人的工作啟發,谷歌團隊開始將世界模型的研究思想應用在同樣是智能體控制的機器人導航任務中,使用世界模型來獲取周圍環境的信息,使智能體能夠在特定的環境中預測自己的行為后果。
圖 / 世界模型的工作原理
在了解Pathdreamer之前,我們不妨設想一下:
如果你出去旅游,住進一間完全陌生的民宿,你會如何判斷房子的方位?
一般來說,當我們推開大門,我們會知道首先映入眼前的是客廳,然后順著客廳猜測臥室、廚房、陽臺等等空間的方位。
圖 / 人的導航習慣是依據眼前所見之物來判斷
那么,機器人呢?如果一個機器人來到一個完全陌生的房子里,它會如何導航?
人在判斷方位時,善于利用視覺與常識,通過眼前的事物推理出空間的布局,從而找到自己的目標。但是,對于機器人來說,在一個新的建筑里,要利用語義線索與事物的規律分布來定位,并不是一件容易的事。
此前,針對上述問題,Facebook AI 提出了一個算法,叫“DD-PPO”,主要是:通過無模型強化學習(model-free reinforcement learning),以端到端的方式讓智能體學習辨認一個空間內的線索、并利用這些線索來完成導航的任務。
但是,這種方式的學習成本高,難以檢驗,而且泛化難,另一個智能體必須從頭開始學習同樣的方式、才能掌握依據理解線索來定位的能力。
相比之下,Pathdreamer 模型可以從單一視角合成一幅沉浸式場景圖,預測當智能體移動到一個新的視點、或是移動到一個完全看不見的區域(比如角落)時,智能體可能會看到什么。
這不僅可以用于視頻編輯、使照片看起來栩栩如生,最重要的是,它還可以將人類環境的知識告訴機器智能體,幫助機器人在現實世界中定位導航。
比如,如果我們給機器人一個任務,讓它在一棟陌生的建筑里尋找某個房間或物體,那么它就可以先在世界模型中進行模擬,學習識別物體在空間中可能的位置,減少實際投入后的導航錯誤。
除了模擬導航以外,機器人在Pathdream等世界模型中訓練,還可以增加訓練數據的數量。
3、Pathdreamer的工作原理
Pathdreamer 將原來的一個或多個觀察序列作為輸入,生成通往目標位置的預測路線。預測的路線是事先提供,或由智能體在返回途中接觸到的觀察迭代更新。輸入與預測均包含 RGB、語義分割與深度圖像。
在內部,Pathdreamer 使用了 3D 點云來表示環境的表面。云中的點都標了它們的 RGB 顏色值和它們的語義分割類,比如墻壁、椅子或桌子。
要在新的建筑物里預測即將映入眼前的事物,首先要將點云重新投射到新建筑的 2D 圖像中、以提供“指導”圖像,然后,Pathdreamer 會從中生成逼真的高分辨率 RGB、語義分割和深度。
隨著模型的“移動”,點云會積累新的觀察結果(要么是真實的,要么是預測的)。使用點云來記憶的一個優勢是時序一致性(temporal consistency)——重新訪問的區域會以與先前觀察一致的方式呈現。
為了將指導圖像轉換為合理、真實的圖像輸出,Pathdreamer 分為兩個階段運行:第一階段,用結構生成器生成分割和深度圖像;第二階段,用圖像生成器將分割與深度圖像渲染為 RGB 輸出。
從概念上講,就是第一階段提供了關于場景的合理高級語義表示,第二階段再將其渲染為逼真的彩色圖像。這兩個階段都用到了卷積神經網絡(CNN):

在具有高度不確定性的區域,比如拐角或視線以外的房間,可能會出現許多不同的場景。而Pathdreamer能夠生成滿足區域高度不確定的多樣化結果。
有感于受到紐約大學Rob Fergus與Emily Denton提出的隨機視頻生成思想,Pathdreamer的結構生成器以噪音變量為條件,該變量表示指導圖像中沒有捕獲的下一個導航位置的隨機信息。通過對多個噪音變量進行采樣,Pathdreamer可以合成多個不同場景,允許智能體在一條給定的導航路線中對多個合理的結果進行采樣。
這些不同的輸出不僅反映在第一階段的輸出(語義分割和深度圖像)中,還反映在生成的 RGB 圖像中。
如下圖所示,最左側的一列指導圖像表示智能體先前看到的像素。其中,黑色像素表示智能體原先看不見的區域,對此,Pathdreamer 通過對多個隨機噪聲向量進行采樣,生成了不同的圖像輸出。在實踐中,當智能體在一個環境中定位導航時,它可以通過新的觀察結果來生成輸出圖像。

Pathdreamer 基于來自 Matterport3D 的圖像和 3D 環境重建進行訓練,并且能夠合成逼真的圖像與連續的視頻序列。由于輸出圖像具有高分辨率和 360o 無死角的特征,現有的導航機器人可以輕松地將圖像轉換,以適應機器人配有的相機視野。
4、將Pathdreamer應用于視覺導航任務
他們將 Pathdreamer 應用于視覺與語言導航 (VLN) 任務,其中,機器人必須遵循自然語言的指令定位到真實 3D 環境中的某一個位置。他們使用 Room-to-Room(R2R)數據集進行了一項實驗,讓指令機器人在模擬多條可能的行走軌跡前進行規劃,并根據導航指令對每一條軌跡進行排名,然后選擇排名第一的軌跡進行導航。
實驗考慮了三種設置:
1)地面實況(ground truth)設置:機器人通過與真實的環境互動(比如移動)來進行規劃;
2)基線(Baseline)設置:機器人提前規劃,無需與導航圖交互、對建筑內的導航路線進行編碼,但沒有提供任何視覺觀察;
3)Pathdreamer 設置:機器人提前規劃,無需與導航圖交互,且還能接收到Pathdreamer所生成的對應視覺觀察。
在Pathdreamer設置中,機器人提前三步(大約6米)規劃,導航成功率高達 50.4%,而基線設置的成功率只有 40.6%。這表明,Pathdreamer對現實室內環境中的有用、且可以訪問的視覺、空間與語義知識進行了編碼。
而在地面實況的設置中,機器人通過移動進行規劃,導航成功率達到了 59%。不過,地面實況設置要求機器人花費大量的時間與資源進行多軌跡探索,在現實世界中的代價可能十分高昂。

圖注:VLN機器人在三種設置(地面實況、基線與Pathdreamer)中的表現
實驗結果表明,類似 Pathdreamer 的世界模型在處理復雜的導航任務中具有出色表現。
參考鏈接:
1、https://ai.googleblog.com/2021/09/pathdreamer-world-model-for-indoor.html
2、https://ai.facebook.com/blog/near-perfect-point-goal-navigation-from-25-billion-frames-of-experience/
3、https://ai.googleblog.com/2021/04/model-based-rl-for-decentralized-multi.html
4、https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html
5、https://worldmodels.github.io/
6、https://ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html
7、https://bair.berkeley.edu/blog/2019/12/12/mbpo/
8、https://blog.csdn.net/hhy_csdn/article/details/88207977
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。