^{<sub id="jgr5k"></sub>}

專訪 Jeff Dean丨谷歌戰(zhàn)神談增強學習和無監(jiān)督學習

本文作者：老王

2016-11-28 19:15

導語：谷歌大腦負責人談人工智能領域的增強學習和無監(jiān)督學習

編者按：近日，谷歌大腦負責人 Jeff Dean 在接受 Fortune 雜志采訪時講述了他對無監(jiān)督學習和增強學習在人工智能領域應用的看法，雷鋒網進行編譯。

下一次你在使用谷歌搜索引擎或者使用地圖導航的時候，你需要記住他們背后有一個很大的大腦為你提供搜索結果，并確保你不會迷路。

當然，它并不是一個真正的大腦，而是谷歌大腦研究團隊?！敦敻弧冯s志的 Roger Parloff 寫到：

在過去幾年中，研究小組已經創(chuàng)造了超過 1000 個深度學習項目將其應用在谷歌現(xiàn)有的產品當中：如 YouTube，谷歌翻譯和谷歌相冊等。研究人員通過深度學習將大量數(shù)據(jù)輸入到神經網路當中，學習比人類識別速度更快的模式。

研究人員推動人工智能面臨的挑戰(zhàn)是什么？

無監(jiān)督學習的不成熟。人類的學習方式可以看作是一種無監(jiān)督學習，即你只需觀察你周圍的世界并理解事物的運行方式來豐富你的認知，無監(jiān)督學習是機器學習非常熱門的一個分支，但是它還未達到監(jiān)督學習能解決任務的那個程度。

無監(jiān)督學習是指如何從觀察和感知當中學習的，如果計算機可以觀察和感知，這是否可以幫助解決更復雜的問題？

沒錯，人的視覺主要通過無監(jiān)督學習的方式獲得訓練。當你還是一個孩子的時候，你在觀察世界時，有時你會得到一個監(jiān)督的信號：比如有人說“這是一只長頸鹿”或者“這是一輛車”的時候，這些少量的監(jiān)督數(shù)據(jù)就是你的心理模型對自然的回應，從而完成你對世界的認知。

我們需要更多地結合監(jiān)督和無監(jiān)督學習，就我們大多數(shù)機器學習的系統(tǒng)工作方式而言，我們還未真正到達那一步。

可否解釋一下增強學習技術？

增強學習背后的邏輯是你未必需要明確你要采取的行動，你只要試探性地做一個你認為不錯的行動，然后觀察“世界”會有怎樣的反應。如同下棋一樣，你可根據(jù)你對手的行動來進行反應。最終在整個序列行為后得到獎賞信號。

增強學習是在你得到獎賞信號的同時，能將“信任”或“過失”分配到你。它在今天的某些領域非常有效。

當你所執(zhí)行的任務狀態(tài)非常寬泛時，此時使用強化學習就會遇到一些挑戰(zhàn)。在現(xiàn)實世界中的某個固定時刻操作一個事項涉及到的執(zhí)行范圍可能非常廣泛。而在棋盤游戲當中，你走的每一步棋都限定在一定的范圍內，而且游戲規(guī)也會對你進行限制，這使得其獎賞信號的邏輯非常簡單：要么贏，要么輸。

如果我的任務是磨一杯咖啡或者其他，整個過程我也許需要采取一系列的動作，而且沒有固定的評判標準，那么這個獎賞信號就不是那么清晰。

但你仍然可以分為很多步驟，如當你在現(xiàn)磨一杯咖啡時，你就會學習到如果沒有在咖啡豆被沖泡之前把它們磨碎就會做出來一杯糟糕的咖啡。

對，我認為增強學習核心地方就是它需要探索。這種探索在物理環(huán)境當中使用有點困難。我們開始嘗試把它應用在計算機當中，當機器人采取一系列行動時，它會被限制在一個指定時間中只可以采取有限數(shù)量動作的集合。然而在計算機模擬中，它更容易使用大量的計算機資源，并得到一百萬個樣本。

谷歌是否將增強學習應用在核心搜索產品中？

我們主要通過 DeepMind 和我們的數(shù)據(jù)中心操作人員之間的合作來將增強學習應用在核心產品中。它們使用強化學習來設置數(shù)據(jù)中心內的空調旋鈕，并實現(xiàn)相同的、安全的冷卻操作和操作條件，大幅降低能耗。他們能夠發(fā)現(xiàn)哪些旋鈕的設置可以起到一定的作用，以及當你以不同的方式轉動旋鈕時，它們會如何反應。

通過增強學習，可以發(fā)現(xiàn)這 18 個旋鈕的設置，或者更多旋鈕并未被操作人員考慮進去。了解這個系統(tǒng)的人會這樣說：這真是一個奇怪的系統(tǒng)。但是事實證明，它們運行得確實不錯。

增強學習更適用于哪些任務？

數(shù)據(jù)中心運行良好因為你一次需要執(zhí)行的不同操作并不多。正像 18 個旋鈕，你在那里可以上下旋轉它們。這樣結果是可以計算出來的。假設你在適當?shù)?、可接受的溫度范圍內工作，你就會得到一個讓能耗降低的獎賞操作。從這個角度看，這差不多是一個理想的增強學習問題。

一個更具挑戰(zhàn)性的強化學習案例是試圖用它來決定我該顯示什么樣的搜索結果。這有一個更廣泛的搜索結果集，我可以展示出不同查詢的反應，并且獎賞信號本身就是一種小范圍的噪音。就像用戶看一個搜索結果，喜歡和不喜歡表現(xiàn)地不是那么明顯。

如何判斷用戶在搜索中不喜歡某一個結果？

這的確是一個很難解決的問題。由于強化學習可能還不夠成熟，以至于在一些極度無約束的環(huán)境中，獎賞信號還不是那么明顯。

將研究成果應用于用戶每天使用的產品時，有哪些比較大的挑戰(zhàn)？

這里面其中一項就是，很多機器學習問題的解決方案和我們對這些解決方案的研究可以在不同的領域中重復使用：我們與地圖團隊合作了一些研究，他們想要讀取出現(xiàn)街頭所有店鋪和 Logo，從而更好地了解世界，比如確定這里是披薩店還是其他。

為了在圖像中找到文本，你可以訓練一個機器學習模型，并給它一些樣本，比如人們在文本周圍畫一個圓圈或者方框。實際上，你可以用它來訓練模型去檢測哪些圖像中包含文本。

這是一個普遍適用的功能，地圖團隊中的不同部門可以重復使用以上模型來完成衛(wèi)星圖像分析任務，比如在美國境內或者世界范圍內找到一個屋頂或者估計在屋頂上的太陽能電池板的安裝位置。

隨后我們發(fā)現(xiàn)，相同類型的模型可協(xié)助我們解決醫(yī)療成像的初步工作。現(xiàn)在你有了醫(yī)學圖像，你可以試圖找到那些與臨床相關圖像的有趣部分。

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

4人收藏

老王

編輯

微信 wangyafeng123456

發(fā)私信

當月熱門文章

專訪 Jeff Dean丨谷歌戰(zhàn)神談增強學習和無監(jiān)督學習

研究人員推動人工智能面臨的挑戰(zhàn)是什么？

無監(jiān)督學習是指如何從觀察和感知當中學習的，如果計算機可以觀察和感知，這是否可以幫助解決更復雜的問題？

可否解釋一下增強學習技術？

但你仍然可以分為很多步驟，如當你在現(xiàn)磨一杯咖啡時，你就會學習到如果沒有在咖啡豆被沖泡之前把它們磨碎就會做出來一杯糟糕的咖啡。

谷歌是否將增強學習應用在核心搜索產品中？

增強學習更適用于哪些任務？

如何判斷用戶在搜索中不喜歡某一個結果？

將研究成果應用于用戶每天使用的產品時，有哪些比較大的挑戰(zhàn)？

研究人員推動人工智能面臨的挑戰(zhàn)是什么？

無監(jiān)督學習是指如何從觀察和感知當中學習的，如果計算機可以觀察和感知，這是否可以幫助解決更復雜的問題？

可否解釋一下增強學習技術？

但你仍然可以分為很多步驟，如當你在現(xiàn)磨一杯咖啡時，你就會學習到如果沒有在咖啡豆被沖泡之前把它們磨碎就會做出來一杯糟糕的咖啡。

谷歌是否將增強學習應用在核心搜索產品中？

增強學習更適用于哪些任務？

將研究成果應用于用戶每天使用的產品時，有哪些比較大的挑戰(zhàn)？