馬斯克的AI野心——OpenAI Gym系統深度解析

本文作者：新智元

2016-05-10 09:22

導語：馬斯克創立OpenAI目的何在？分析最近發布的OpenAI Gym，可以找出他的真正動機。

雷鋒網按：本文譯者王婉婷，弗格森。

【導讀】開源人工智能系統OpenAI的成立打破了谷歌、Facebook等巨頭霸占AI領域的格局，但其創始人、特斯拉CEO馬斯克多次發表人工智能威脅論。馬斯克創立OpenAI目的何在？分析最近發布的OpenAI Gym，可以找出他的真正動機。OpenAI Gym是一款用于研發和比較強化學習算法的工具包，它支持訓練智能體（agent）做任何事——從行走到玩Pong或圍棋之類的游戲，都在范圍中。本文其中一位作者是OpenAI內部研究員，你想知道關于這個系統的一切，他都寫在這里了。

2015年12月16日，特斯拉CEO埃隆·馬斯克（Elon Musk）和創業孵化器Y Combinator總裁山姆·奧特曼（Sam Altman）創建了人工智能公司OpenAI，并表示將開源其研究成果分享給研究人工智能的每一個人。國外知名科技媒體《連線》雜志發表評論文章，稱開源的OpenAI的成立將人工智能研究推向高潮，同時也轉變了目前由谷歌、Facebook等巨頭引領的人工智能領域競爭格局。未來，OpenAI有望成為這一領域的監管者，將其引向對人類更為安全的發展軌跡上來。

谷歌和Facebook正在將人工智能推向新的時代，OpenAI至少還可以監督它們，當然還會監督其他人。深度學習初創企業Skymind.io的聯合創始人克里斯·尼科爾森（Chris Nicholson）說：“馬斯克和OpenAI已經看到了人工智能的勢不可擋，他們唯一希望的是改變其發展軌跡。”

2016年4月28日，Open AI對外發布了人工智能一款用于研發和比較強化學習算法的工具包OpenAI Gym，正如Gym這詞所指的意思（健身房）一樣，在這一平臺上，開發者可以把自己開發的AI算法拿出來訓練和展示，獲得專家和其他愛好者的點評，共同探討和研究。不管馬斯克希望把所有AI技術進行開發的夢想多么遠大和浪漫，其背后的真正動機是什么，至少，在OpenAI Gym里，可以看到AI開放化的步伐正在漸漸加快。

如果OpenAI能夠堅守他們的使命，讓所有人都能接觸到新技術理念，那么它至少將是對谷歌、Facebook等巨頭的一次考驗。

最近，OpenAI研究人員John Schulman與NVIDIA的GPU計算軟件首席技術員Mark Harris分享了一些關于這個組織的細節，以及OpenAI Gym將如何讓AI研究者更容易地設計、迭代、優化他們下一代的應用程序。

John在加州理工大學修習物理學，隨后在加州大學伯克利分校繼續深造。在伯克利，繼短暫地學習了神經科學之后，他師從Pieter Abbeel研究機器學習與機器人學，最終將強化學習作為他的主要研究興趣。

馬斯克的AI野心——OpenAI Gym系統深度解析

John Schulman是OpenAI的一位研究員

OpenAI是什么？

OpenAI是一家非盈利性人工智能研究公司。每一天，我們都在致力于進行非監督式學習和強化學習的研究。我們的使命和長期目標是以將最大限度地造福全人類的方式發展人工智能。

強化學習（reinforcement learning，RL）是機器學習的一個分支，它考慮的是做出一系列的決策。它假定有一個智能體（agent）存在于環境中。在每一步中，智能體（agent）采取一個行動，隨后從環境中收到觀察與回報。一個RL算法尋求的是，在一個原先毫無了解的環境中通過一段學習過程——通常包括許多試錯——讓智能體（agent）收到的總體回報最大化。

馬斯克的AI野心——OpenAI Gym系統深度解析

上面說到的強化學習問題——涉及到一個讓回報最大化的智能體（agent）——是非常寬泛的說法，而RL算法已經被應用到了許多不同的領域。它們被用于業務管理問題，比如用來決定一家商店應該持有多少庫存商品、或是應該如何設定商品價格。它們也被應用在機器人控制問題上，這個領域最近有了非常快速的發展。下面這個視頻展示了用OpenAI Gym訓練Hopper（一個二維單腿機器人）來盡可能快速地向前單腳跳躍。

強化學習關注的是做出好決策，而監督式學習和非監督式學習主要關注的是做出預測。然而，這之間有大量相通之處，有一些成為了研究中非常活躍的話題。除了不同的側重點之外，強化學習本質上的序列性也讓它無緣于大部分監督式學習問題。在強化學習中，智能體（agent）的決策會影響到它得到怎樣的輸入數據，也即它的決策最終帶來的效果。這使得強化學習更難發展出穩定的算法，也讓探索成為必須——智能體（agent）需要不停地進入可能會收獲大量回報的未知領域。

OpenAI Gym將怎樣幫助AI的研發？

OpenAI Gym是一款用于研發和比較強化學習算法的工具包，其中包括了各種環境，目前有模擬的機器人學任務、桌面游戲、多位數加法之類的計算任務等等。我們預期工具包中包含的環境將隨時間不斷增多，用戶也會將他們自己創建的環境加入到其中。這些環境都有一個通用交互界面，使用戶能夠編寫可以應用于許多不同環境的通用算法。

OpenAI Gym也有一個網站，人們可以將他們在這些環境中的訓練結果發布到網站上并分享他們的代碼。這個網站的目的是讓人們能簡單地迭代并優化他們的RL算法，并對什么算法才是有效的算法有一個概念。

為了讓你感受一下代碼是什么樣的，下面給出的是創建其中一個環境（經典倒立擺（cart-pole）任務，目標是在一輛移動的小車上讓垂直放置的長桿保持平衡）、模擬一些隨機行為、隨后將結果提交到分數板上的方法（在實際操作中，你只有在應用了一個學習算法以后才可能想要提交結果）。

馬斯克的AI野心——OpenAI Gym系統深度解析

這一小段代碼不包括任何學習或是訓練——學習和訓練會需要更多的代碼。很快我們就會貼出在OpenAI Gym的環境中簡潔實現各種重要算法的展示，如果你感興趣的話，記得關注我們的網站。

神經網絡怎樣用于強化學習？

為了回答這個問題，我需要談一點關于RL算法學習了什么的問題。一些強化學習算法關注的是學習一個策略（policy），這是一個輸入觀察（例如相機照片）、然后輸出行動（例如motor torques）的函數。其他算法關注的是學習估值（value）函數，它衡量的是狀態（也即世界的狀態，the state of the world）以及行動的好壞。鑒于我們通常都無法查知世界的整體狀態（full state），我們一般會使用一個或是更多過去的觀察來作為替代。Q函數（估值函數的一種）衡量的是狀態-行動組(s, a)的好壞，也就是說，Q(s, a)能告訴你“如果我處于狀態s中并選擇行動a，我能獲得多少回報”。有了這個Q函數以后，你就能簡單地選擇出帶來最高預期回報的行動。這也就是說，Q函數定義了策略。下面這個視頻展示了如何在OpenAI Gym上訓練深度Q網絡（Deep Q-Network）來玩Breakout。

基于策略的算法和基于Q函數的算法在核心上非常相似，我們可以用神經網絡來表示策略和Q函數。例如，當玩Atari游戲的時候，向這些網絡輸入的是屏幕上的一個圖像，同時有一組離散的行動，例如{扔套索, 左走, 右走, 開火}。你可以用一個卷積神經網絡將屏幕圖像作為輸入并輸出一個代表四種行動之一的數字，表示出行動的好壞，作為這個任務的Q函數；用一個結構相似、輸出每種行動可能性的卷積神經網絡作為策略。

馬斯克的AI野心——OpenAI Gym系統深度解析

Schulman et al.（2015）使用的結構，上方的結構用于模擬機器人控制，下方的結構用于玩Atari游戲。

OpenAI Gym與眾不同之處在哪里？還有其他類似的開源環境嗎？

有各種各樣的開源環境集成，包括但不限于RL-Glue、RLPy、Arcade LearningEnvironment。我們從這些庫中獲得了靈感與一些代碼。OpenAI Gym也整合了最近加州大學伯克利分校的研究者們在對深度強化學習算法做基準測試時的工作成果。闡述這個基準測試研究的論文可以從ArXiv下載，并且將會在今年的ICML上作展示。

比起之前提到的那些環境集成，OpenAI Gym更為完善，擁有更多種類的任務、更多任務的難度級別（包括在去年之前都無法解決的模擬機器人任務）。不僅如此，OpenAI Gym還獨有在線分數板，讓用戶能夠做比較并分享代碼。

OpenAI Gym的用戶都是誰？AI研究者如何從RL-Gym中獲益？

我們希望讓OpenAI Gym對于擁有不同背景的人來說都能夠使用。對RL毫無了解的用戶可以下載基礎代碼，在短短幾分鐘之內開始實驗這些代碼。他們可以訪問不同環境的分數板并下載其上的解決方案代碼，隨后自行驗證這些解決方案（這是一個非常重要并且實用的功能！）并做修改。

AI研究者將能運用其中包含的環境進行RL研究。每種環境都有規范命名的版本號（semantically versioned），便于在論文中報告結果并易于理解。研究者們也能夠在分數板上將自己的算法的效果與其他人的算法作比較，并找到表現優異的算法的代碼。

你們有計劃用NVIDIA GPU來加速OpenAI Gym嗎？GPU會為你們的工作帶來怎樣的增益？

GPU對于涉及大型神經網絡的學習問題來說正在逐漸變得不可或缺。我們將會使用GPU來為大規模任務訓練神經網絡，并且我們也預期我們的許多用戶也會這么做。

更現實的環境渲染是否有助于讓學習遷移到現實世界？

是的，我相信真實感渲染（photorealistic rendering）能讓機器人在虛擬環境下接受訓練、學習到能夠遷移到現實世界的策略。尚有許多激動人心的可能性等待我們發覺。

OpenAI和OpenAI Gym的下一步是什么？

非監督式學習和強化學習方面，我們很快就會開始發布我們一些持續進行的研究項目的結果。我們很期待看到用戶們用OpenAI Gym來做些什么，并計劃繼續更新它，讓它成為一款對于研究社區和領域內新人來說都很有用的工具。

雷峰網特約稿件，未經授權禁止轉載。詳情見轉載須知。

3人收藏

新智元

產業鏈媒體

「新智元」深度鎖定人工智能及機器人產業鏈，關注產業前沿資訊，聚集學術和產業領袖，共同建構智能 + 產業的新紀元。

掃描關注作者微信

發私信

當月熱門文章