<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      專欄 正文
      發私信給董飛
      發送

      4

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      本文作者: 董飛 2016-03-09 17:43
      導語:人類職業選手世界冠軍李世石九段認輸,第一局AlphaGo贏了,AlphaGo系統是如何下棋的?

      按:本文由董飛編譯于:How AlphaGo Works ,原作者SpinPunch CTO DAN MAAS。作者微信公號“董老師在硅谷”。

      剛剛人類職業選手世界冠軍李世石九段認輸,第一局AlphaGo贏了。

      谷歌DeepMind宣布他們研發的神經網絡圍棋AI,AlphaGo,在2015年10月首次5:0戰勝了人類職業選手歐洲圍棋冠軍Fan Hui二段。這篇論文由David Silver等完成。里面的技術是出于意料的簡單卻又強大。為了方便不熟悉技術的小白理解,這里是我對系統工作原理的解讀。以下是編譯正文:

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      深度學習”是指多層的人工神經網絡和訓練它的方法。一層神經網絡會把大量矩陣數字作為輸入,通過非線性激活方法取權重,再產生另一個數據集合作為輸出。這就像生物神經大腦的工作機理一樣,通過合適的矩陣數量,多層組織鏈接一起,形成神經網絡“大腦”進行精準復雜的處理,就像人們識別物體標注圖片一樣。

      雖然神經網絡在幾十年前就有了,直到最近才形勢明朗。這是因為他們需要大量的“訓練”去發現矩陣中的數字價值。對早期研究者來說,想要獲得不錯效果的最小量訓練都遠遠超過計算能力和能提供的數據的大小。但最近幾年,一些能獲取海量資源的團隊重現挖掘神經網絡,就是通過“大數據”技術來高效訓練。

      兩個大腦

      AlphaGo是通過兩個不同神經網絡“大腦”合作來改進下棋。這些大腦是多層神經網絡跟那些Google圖片搜索引擎識別圖片在結構上是相似的。它們從多層啟發式二維過濾器開始,去處理圍棋棋盤的定位,就像圖片分類器網絡處理圖片一樣。經過過濾,13 個完全連接的神經網絡層產生對它們看到的局面判斷。這些層能夠做分類和邏輯推理。

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      這些網絡通過反復訓練來檢查結果,再去校對調整參數,去讓下次執行更好。這個處理器有大量的隨機性元素,所以我們是不可能精確知道網絡是如何“思考”的,但更多的訓練后能讓它進化到更好。

      第一大腦: 落子選擇器 (Move Picker)

      AlphaGo的第一個神經網絡大腦是“監督學習的策略網絡(Policy Network)” ,觀察棋盤布局企圖找到最佳的下一步。事實上,它預測每一個合法下一步的最佳概率,那么最前面猜測的就是那個概率最高的。你可以理解成“落子選擇器”。

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      (落子選擇器是怎么看到棋盤的?數字表示最強人類選手會下在哪些地方的可能。)

      團隊通過在KGS(網絡圍棋對戰平臺)上最強人類對手,百萬級的對弈落子去訓練大腦。這就是AlphaGo最像人的地方,目標是去學習那些頂尖高手的妙手。這個不是為了去下贏,而是去找一個跟人類高手同樣的下一步落子。AlphaGo落子選擇器能正確符合57%的人類高手。(不符合的不是意味著錯誤,有可能人類自己犯的失誤)

      • 更強的落子選擇器

      AlphaGo系統事實上需要兩個額外落子選擇器的大腦。一個是“強化學習的策略網絡(Policy Network)”,通過百萬級額外的模擬局來完成。你可以稱之為更強的。比起基本的訓練,只是教網絡去模仿單一人類的落子,高級的訓練會與每一個模擬棋局下到底,教網絡最可能贏的下一手。Sliver團隊通過更強的落子選擇器總結了百萬級訓練棋局,比他們之前版本又迭代了不少。

      單單用這種落子選擇器就已經是強大的對手了,可以到業余棋手的水平,或者說跟之前最強的圍棋AI媲美。這里重點是這種落子選擇器不會去“讀”。它就是簡單審視從單一棋盤位置,再提出從那個位置分析出來的落子。它不會去模擬任何未來的走法。這展示了簡單的深度神經網絡學習的力量。

      • 更快的落子選擇器

      AlphaGo當然團隊沒有在這里止步。下面我會闡述是如何將閱讀能力賦予AI的。為了做到這一點,他們需要更快版本的落子選擇器大腦。越強的版本在耗時上越久-為了產生一個不錯的落子也足夠快了,但“閱讀結構”需要去檢查幾千種落子可能性才能做決定。

      Silver團隊建立簡單的落子選擇器去做出“快速閱讀”的版本,他們稱之為“滾動網絡”。簡單版本是不會看整個19*19的棋盤,但會在對手之前下的和新下的棋子中考慮,觀察一個更小的窗口。去掉部分落子選擇器大腦會損失一些實力,但輕量級版本能夠比之前快1000倍,這讓“閱讀結構”成了可能。

      第二大腦:棋局評估器 (Position Evaluator)

      AlphaGo的第二個大腦相對于落子選擇器是回答另一個問題。不是去猜測具體下一步,它預測每一個棋手贏棋的可能,在給定棋子位置情況下。這“局面評估器”就是論文中提到的“價值網絡(Value Network)”,通過整體局面判斷來輔助落子選擇器。這個判斷僅僅是大概的,但對于閱讀速度提高很有幫助。通過分類潛在的未來局面的“好”與“壞”,AlphaGo能夠決定是否通過特殊變種去深入閱讀。如果局面評估器說這個特殊變種不行,那么AI就跳過閱讀在這一條線上的任何更多落子。

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      局面評估器是怎么看這個棋盤的。深藍色表示下一步有利于贏棋的位置。)

      局面評估器也通過百萬級別的棋局做訓練。Silver團隊通過 復制兩個AlphaGo的最強落子選擇器,精心挑選隨機樣本創造了這些局面。這里AI 落子選擇器在高效創建大規模數據集去訓練局面評估器是非常有價值的。這種落子選擇器讓大家去模擬繼續往下走的很多可能,從任意給定棋盤局面去猜測大致的雙方贏棋概率。而人類的棋局還不夠多恐怕難以完成這種訓練。

      • 增加閱讀

      這里做了三個版本的落子選擇大腦,加上局面評估大腦,AlphaGo可以有效去閱讀未來走法和步驟了。閱讀跟大多數圍棋AI一樣,通過蒙特卡洛樹搜索(MCTS)算法來完成。但AlphaGo 比其他AI都要聰明,能夠更加智能的猜測哪個變種去探測,需要多深去探測。

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      (蒙特卡洛樹搜索算法)

      如果擁有無限的計算能力,MCTS可以理論上去計算最佳落子通過探索每一局的可能步驟。但未來走法的搜索空間對于圍棋來說太大了(大到比我們認知宇宙里的粒子還多),實際上AI沒有辦法探索每一個可能的變種。MCTS做法比其他AI有多好的原因是在識別有利的變種,這樣可以跳過一些不利的。

      Silver團隊讓AlphaGo裝上MCTS系統的模塊,這種框架讓設計者去嵌入不同的功能去評估變種。最后馬力全開的AlphaGo系統按如下方式使用了所有這些大腦。

      1. 從當前的棋盤布局,選擇哪些下一步的可能性。他們用基礎的落子選擇器大腦(他們嘗試使用更強的版本,但事實上讓AlphaGo更弱,因為這沒有讓MCTS提供更廣闊的選擇空間)。它集中在“明顯最好”的落子而不是閱讀很多,而不是再去選擇也許對后來有利的下法。

      2. 對于每一個可能的落子,評估質量有兩種方式:要么用棋盤上局面評估器在落子后,要么運行更深入蒙特卡羅模擬器(滾動)去思考未來的落子,使用快速閱讀的落子選擇器去提高搜索速度。AlphaGo使用簡單參數,“混合相關系數”,將每一個猜測取權重。最大馬力的AlphaGo使用 50/50的混合比,使用局面評估器和模擬化滾動去做平衡判斷。

      這篇論文包含一個隨著他們使用插件的不同,AlphaGo的能力變化和上述步驟的模擬。僅使用獨立大腦,AlphaGo跟最好的計算機圍棋AI差不多強,但當使用這些綜合手段,就可能到達職業人類選手水平。

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      (AlphaGo的能力變化與MCTS的插件是否使用有關。)

      這篇論文還詳細講了一些工程優化:分布式計算,網絡計算機去提升MCTS速度,但這些都沒有改變基礎算法。這些算法部中分精確,部分近似。在特別情況下,AlphaGo通過更強的計算能力變的更強,但計算單元的提升率隨著性能變強而減緩。

      優勢和劣勢

      我認為AlphaGo在小規模戰術上會非常厲害。它知道通過很多位置和類型找到人類最好的下法,所以不會在給定小范圍的戰術條件下犯明顯錯誤。

      但是,AlphaGo有個弱點在全局判斷上。它看到棋盤式通過5*5金字塔似的過濾,這樣對于集成戰術小塊變成戰略整體上帶來麻煩,同樣道理,圖片分類神經網絡往往對包含一個東西和另一個的搞不清。比如說圍棋在角落上一個定式造成一個墻或者引征,這會劇烈改變另一個角上的位置估值。

      就像其他的基于MCTS的AI, AlphaGo對于需要很深入閱讀才能解決的大勢判斷上,還是麻煩重重的,比如說大龍生死劫。AlphaGo 對一些故意看起來正常的局也會失去判斷,天元開盤或者少見的定式,因為很多訓練是基于人類的棋局庫。

      我還是很期待看到AlphaGo和李世石9段的對決!我預測是:如果李使用定式,就像跟其他職業棋手的對決,他可能會輸,但如果他讓AlphaGo陷入到不熟悉情形下,他可能就贏。

      參考資料:

      1、Nature 論文

      2、關于 AlphaGo 論文的閱讀筆記

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      第一局李世石認輸,AlphaGo究竟是如何下棋的?

      分享:
      相關文章

      專欄作者

      關注硅谷,關注高科技
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 一区二区三区无效卡| 久久人妻av无码中文专区| 国产电影一区二区三区| 偷拍激情视频一区二区三区| 亚洲精品国产自在现线最新| 在国产线视频A在线视频| 激情综合网激情激情五月天| 国产97色在线 | 日韩| 黑人无码视频| 99久久99久久精品免费看蜜桃| 亚洲成人性爱| 玛纳斯县| 天天躁日日躁狠狠| 免费av网站| 洛宁县| 亚洲另类色综合网站| 欧美精品久久久久久久久46P| 织金县| 国内成人自拍| 开心五月婷婷综合网站| 久久久精品2019中文字幕之3| 色综合久久网| 亚洲男人天堂网| 亚洲AV秘 无码一区二区久| 无尺码精品产品视频| 国产亚洲精品VA片在线播放,国产中年熟女大集合 | 无码精品不卡一区二区三区| 亚洲成在人线av| 久久av老司机精品网站导航| 无码精品人妻中文字幕| 亚洲国产午夜精品福利| 热久久视久久精品2019| 波多野结衣绝顶大高潮| 日本深夜福利在线观看| 久久精品女人天堂av| 内射干少妇亚洲69XXX| 女人爽到高潮免费视频大全| 久久无码人妻丰满熟妇区毛片| 欧美A∨| 欧洲无码av| 久久精品国产77777蜜臀|