從麻將到“農藥”，細數 AI 攻占的游戲領域

本文作者：蔣寶尚

2020-02-03 16:20

導語：不只是圍棋。

（雷鋒網出品）按照傳統，過年需要走親訪友給長輩拜年的。但是今年情況特殊，全國人民正在備戰“新疫情”，相信大家已經不會走街串巷，舉行大型聚會了。

但親朋好友聚仍然可以“云聚會”聊家常、催你結婚。當然線上搓兩把麻將也是不錯的娛樂方式，畢竟這在促進相互交流的同時，還可以發揮你的聰明才智和運氣。

從麻將到“農藥”，細數 AI 攻占的游戲領域

但是要記住，你線上隨機匹配對戰的話，很容易被AI給“伏擊”了。因為這兩年除了圍棋、DOTA之外，AI已經悄無聲息的攻占了些許游戲領域。下面就讓雷鋒網給大家梳理一下已經被AI攻占的娛樂領域，也歡迎讀者文末留言補充。

AI麻將獲人類頂級水平

從麻將到“農藥”，細數 AI 攻占的游戲領域

2019年8月份微軟發布了他們在麻將游戲中取得的重大突破：麻將AI “Suphx”在國際知名專業麻將平臺“天鳳”上榮升十段。

“天鳳”是日本的一個在線麻將競技平臺，創立于2006年。天鳳平臺的“十段”水平意味著Suphx在麻將界擁有了等同于AlphaGo在圍棋界的地位。

Suphx在2019年3月份開始登錄天鳳平臺，經過近三個多月、與人類玩家展開了5000余場四麻對局后，6月份Suphx成功晉級天鳳十段，也是首個晉級十段的AI系統。

技術簡介以及策略

136張麻將牌的排列組合可能性非常多，再加上打牌過程中4位玩家出牌的順序并不是固定的（例如碰杠等），導致游戲樹不僅不規則而且還是動態變化。

這些特點使得麻將AI很難使用AlphaGo那樣的蒙特卡洛樹搜索算法。麻將中每個玩家除了手中的13張牌和已經打出的牌外，其他玩家手中的牌和剩余的底牌都是未知的（最多可以有超過120張未知的牌），由于隱藏信息過多導致游戲樹的寬度非常大，樹搜索算法基本不可行。

對于日本麻將而言，一輪游戲共包含8局，最后根據8局得分總和進行排名，來形成最終影響段位的點數獎懲。所以AI需要審時度勢，把握進攻與防守的時機。

對麻將的這些特點，研究者將整個訓練過程分為三個階段。首先是“初始化”階段，本質上就是用專家數據（天鳳平臺提供的一些公開數據）做有監督學習，得到一個初始模型。隨后在這個初始模型基礎上用自我博弈的方式進行強化學習。

在這個階段，為了克服非完美信息博弈的問題，研究者在訓練階段利用不可見的一些隱藏信息來引導AI模型的訓練方向。此外還利用“全盤預測”技術搭建起每輪比賽和8輪過后的終盤結果之間的橋梁。第三個階段則是在線比賽，通過不斷參與到與人類玩家的對局中，從而不斷得到自我更新和提高。

AI 賭神升級6人局德撲完勝世界冠軍

2017年年初，在卡耐基梅隆大學(CMU)舉行了德州撲克人機大戰，在比賽中4名人類職業玩家組成的人類大腦敗給了人工智能程序Libratus。

如果說當時Libratus擅長的是1V1領域，那么2019年7月份的Pluribus在無限制德州撲克6人局里，戰勝了人類頂尖選手。

從麻將到“農藥”，細數 AI 攻占的游戲領域

Pluribus由Facebook與CMU合作開發，相關論文發表在了《Sicence》上面。據《Superhuman AI for multiplayer poker》這篇論文介紹，Pluribus，每小時能贏1千刀

且只用了8天的訓練時間。

技術簡介以及策略

根據論文介紹，整個AI的設計分為兩個階段，第一階段為藍圖策略，這一階段是為了降低游戲的復雜性，進行游戲抽象。抽象分為兩個部分動作抽象和信息抽象：動作抽象減少了AI需要考慮的不同動作的數量；信息抽象則是把策略上相似的牌局放在一起，并對其進行相同處理。

當然除了抽象之外，這部分所采用的算法是迭代的蒙特卡洛反事實遺憾最小化算法（MCCFR）。在算法的每次迭代中，MCCFR對玩家的某些行為或機會結果進行采樣。在迭代結束時，玩家策略會更新，然后對每個可能發生的情況進行概率統計，通過搜索決策樹來決定下一步的行為。

第二階段是深度限制搜索，這一階段Pluribus會進行實時搜索，制定更精細的策略。

算法假設每個玩家在到達葉子結點時，可以選擇四種不同的策略來進行下面的游戲，其中包括預先計算的藍圖策略，修改后偏向于棄牌的藍圖策略，修改后偏向于跟注的藍圖策略，以及修改后偏向于加注的藍圖策略。這樣的搜索方法能找到一種更平衡的策略，從而產生更強的整體表現。

總的來說，Pluribus通過將類似的情況打包在一起，減少了關于是否跟注(call)、加注(raise)或棄牌(fold)的決策點的數量。使用蒙特卡羅虛擬遺憾最小化(MCCFR)，將撲克游戲中樹搜索的復雜性從一個棘手的問題降低到一個可解決的問題。

從麻將到“農藥”，細數 AI 攻占的游戲領域

AI “絕悟”已達到王者榮耀職業水平

2019 年 8 月 2 日，在吉隆坡舉辦的《王者榮耀》世界冠軍杯（該游戲最高規格的賽事）半決賽的特設環節中，騰訊 AI Lab 策略協作型 AI “絕悟”在與職業選手賽區聯隊的 5v5 競技中獲勝。這表明絕悟 AI 已經達到了《王者榮耀》電競職業水平。

“絕悟”名字寓意絕佳領悟力，其技術研發始于2017年12月，并在2018年12月通過了頂尖業余水平測試（前職業選手與主播聯隊帶來）。

技術簡介以及策略

“絕悟”版本建立了基于“觀察-行動-獎勵”的深度強化學習模型，無需人類數據，從白板學習（Tabula Rasa）開始，讓 AI 自己與自己對戰，一天的訓練強度高達人類 440 年。

AI 從0到1摸索成功經驗，勤學苦練，既學會了如何站位、打野、輔助保護和躲避傷害等游戲常識。更驚喜的是，AI 也探索出了不同于人類常規做法的全新策略。

游戲中的難點，是 AI 要在不完全信息、高度復雜度的情況作出復雜快速的決策。在龐大且信息不完備的地圖上，10位參與者要在策略規劃、英雄選擇、技能應用、路徑探索及團隊協作上面臨大量、不間斷、即時的選擇，這帶來了極為復雜的局面，預計有高達10的20000次方種操作可能性，而整個宇宙原子總數也只是10的80次方。

另外，版本相關的技術論文被頂級學術會議 AAAI 2020 接收。

從麻將到“農藥”，細數 AI 攻占的游戲領域

arxiv 鏈接：https://arxiv.org/abs/1912.09729

寫作AI 跨界下象棋

OpenAI 的 GPT-2在文本生成上有著驚艷的表現，其生成的文本在上下文連貫性和情感表達上都超過了人們對目前階段語言模型的預期。

具體而言這種機器學習算法可以在很多任務上達到了業內最佳水平，還可以根據一小段話自動腦補出大段連貫的文本，如有需要，人們可以通過一些調整讓計算機模擬不同的寫作風格。

然而這個NLP 除了做閱讀理解、問答、生成文章摘要、翻譯之外，還能用來干嘛？好奇心很強的網友便拿OpenAI 的 GPT-2 做了個實驗。它除了能生成文本，竟然還能下象棋、做音樂！

僅僅經過一個小時的訓練，GPT-2 1.5B 模型就表現出了國際象棋“天賦”。雖然在下了幾步棋之后，就會出現無效移動，但這次實驗還是證明了制造 GPT-2 國際象棋引擎并非不可能。

GPT-2 介紹

2018 年 6 月，OpenAI 發表論文介紹了自己的語言模型 GPT，它基于 Transformer 架構，用先在大規模語料上進行無監督預訓練、再在小得多的有監督數據集上為具體任務進行精細調節（fine-tune）的方式，不依賴針對單獨任務的模型設計技巧就一次性在多個任務中取得了很好的表現。

這也是 2018 年中自然語言處理領域的研究趨勢，就像計算機視覺領域流行 ImageNet 預訓練模型一樣。這次的 GPT-2 是 GPT 的直接技術升級版本，有多 10 倍的模型參數，多達 15 億個，并在多 10 倍的數據上進行訓練。

訓練數據是來自互聯網的 40GB 高質量語料，具體來說這些語料來自 Reddit 論壇中出現的高評分外鏈頁面；高評分表示這些頁面中的內容有較高的質量。這樣篩選出的語料內容多達 800 萬個頁面。模型在無監督訓練階段的目標是，給定一組單詞組成的句子之后預測下文的下一個詞。

由于數據庫有足夠高的文本質量和足夠高的多樣性，模型也有很高的容量，即便這樣簡單的訓練目標也得出了驚人的結果：模型不僅可以根據給定的文本流暢地續寫句子，甚至可以形成成篇的文章，就像人類的續寫文章一樣。

模型生成文本有時會出現失敗的現象，比如文字重復、錯誤的世界常識（比如有時候模型會寫到在水下燃燒的火）、不自然地切換話題，但在成功的例子中，模型生成的文本有多樣、全面的敘述，對事件的介紹煞有介事，接近人類的表達質量，而且在段落之間甚至全篇文章之中保持連續一致。

雷鋒網參考文獻：

https://mp.weixin.qq.com/s/vYl0RYagZLN0h5SGZlQ69Q

https://mp.weixin.qq.com/s/QrZwGj7LcxJs5BPowW8lwA

https://tech.sina.com.cn/roll/2019-12-29/doc-iihnzahk0806635.shtml

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

2人收藏

蔣寶尚

編輯

發私信

當月熱門文章