<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給楊曉凡
      發送

      0

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      本文作者: 楊曉凡 2018-12-21 18:16 專題:NeurIPS 2018
      導語:讓強化學習決策系統落地

      雷鋒網 AI 科技評論按:近日,國際人工智能頂級學術會議 NeurIPS 2018 順利落幕。八千多位來自全世界的人工智能研究人員齊聚加拿大蒙特利爾,討論分享過去一年全世界在人工智能的各個領域的最新進展,該會議舉辦了一系列競賽來鼓勵學術界和工業界一起解決最有挑戰性的人工智能難題。作為人工智能領域歷史最悠久的學術會議之一,會議成果被視作人工智能領域的研究「風向標」。(雷鋒網 AI 科技評論正會報道文章見 這里

      其中,由谷歌大腦、Facebook、牛津大學及在游戲AI界久負盛名的紐約大學等機構聯合舉辦的多智能體競賽——炸彈人團隊賽(The NeurIPS 2018 Pommerman Competition)尤其引人矚目。來自中國啟元世界的彭鵬博士、中科院計算所助理研究員龐亮博士和北師大的袁鈺峰組成的賽隊,與美國、歐洲、日本、中國的24支一流隊伍進行了激烈角逐,最終基于啟元決策智能平臺訓練的 Navocado 雙智能體能力穩定提升,奪得了比賽 Learning 組冠軍,展現了來自中國的決策智能團隊具備的世界級技術實力。

      啟元世界是一家2017年成立的以認知決策智能技術為核心的公司,由前阿里、Netflix、IBM 的科學家和高管發起,并擁有伯克利、CMU 等知名機構的特聘顧問。團隊核心能力以深度學習、強化學習、超大規模并行計算為基礎,擁有互聯網、游戲等眾多領域的成功經驗。

      決策智能目前是一個世界級的技術難題,決策過程也是人腦中最復雜的一種功能。由于在游戲、交通、電力等領域具備極大的應用前景,決策智能近年也成為全球人工智能研究的熱點,DeepMind、Facebook、OpenAI、微軟、亞馬遜等科技巨頭都成立了實驗室進行相關研究。相較于單智能體,多智能體博弈的難度更是指數級增加。此次 NeurIPS 多智能體競賽是 NeurIPS 會議上首次開設多智能體競賽,將多智能體協作、非完全信息博弈以及持續學習等關鍵問題濃縮到炸彈人這款游戲中,鼓勵全世界優秀的研發人員一起參加解決技術挑戰

      此次 NeurIPS 多智能體競賽采用激烈雙淘汰機制(Double Elimination),25 支參賽隊分別提供 2 個智能體參加 2v2 對抗賽。參賽隊伍的每個智能體初始都被困在一個封閉的區間中,智能體只有炸開附近的木箱才能進去其他區域;而且智能也只具有整個地區的一部分視野。在幾乎所有障礙物都被清理干凈后,智能體進入到對抗階段,所有智能體都可以自由地在全局活動,這個階段智能體的主要目標就是炸掉對手。

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      圖1:多智能體競賽-炸彈人團隊賽

      競賽過程中需要智能體完成:1)清除障礙物,2)躲避自己的炸彈火焰,3)收集裝備,4)躲避自己和其他人的炸彈火焰,5)放炸彈殺死對手,6) 避免放炸彈殺死隊友。整個過程,對智能體有效甄別和提取有效信息,同時對未知信息進行推理和假設,以及多智能體協作都提出了很高的技術要求。

      啟元決策智能平臺訓練的 Navocado 雙智能體在比賽中的部分表現如下圖:

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      同隊炸彈人聯手,在對手的兩側放炸彈圍堵,將其困在中間地帶后摧毀對手

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      炸彈人通過靈活的移動及時躲避炸彈爆炸

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      炸彈人主動將炸彈朝對手方向踢出,精確擊潰對手

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      炸彈人學會準確的炸箱子,并且通過最短路徑尋路吃增強藥

      每個賽隊線下有 2 個月的時間進行模型訓練。最終基于啟元決策智能平臺訓練的 Navocado 戰勝了來自加拿大的 Skynet,拿下 Learning 組冠軍。Skynet 的團隊來自加拿大近百人規模的科技公司 Borealis.ai。從對戰過程來看,啟元的 Navocado 智能體的主動進攻能力明顯強于對手。從 Skynet 在官網公開的實現方案來看,Skynet 模型在決策過程中加入了很多人工干預(比如限制炸彈人不能往火焰里走),這和 Navocado 模型在整個訓練和決策過程中不加人工干預、自主學會各項技能的方式也有較大的差距

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      圖2:Navocado智能體持續訓練過程中的效果提升曲線

      啟元從 2017 年起打造的決策智能平臺在這次賽事奪冠的智能體訓練中起到了關鍵作用。強化學習作為決策智能的核心技術,也是極具挑戰的一種機器學習方法。由于強化學習涉及到的鏈路很長,而強化學習算法本身對超參十分敏感,學術界中各人不同的實現或配置都很容易導致出現訓練結果不可復現的現象。強化學習技術在可復現性、可復用性和魯棒性方面存在著挑戰。

      借助平臺化的力量,啟元決策智能平臺運用強化學習解決復雜決策問題,證明了強化學習的可行性。啟元決策智能平臺搭建了支持多智能體博弈的基礎架構,能夠通過競技的方式實現多智能體持續學習的能力。平臺還支持包括自動化資源調度和自動調參的元學習,使得模型的訓練更加高效。

      啟元世界彭鵬博士介紹,「啟元團隊對強化學習這個領域都很有 Passion。這次我們在 NeurIPS 多智能體競賽奪冠的智能體,在每個階段的訓練過程沒有人工干預,學習曲線非常漂亮,進一步驗證了這套體系的有效性和魯棒性,驗證了強化學習技術的價值。」

      從平臺架構設計到底層實現上,啟元都做了很多細致的工作,力求在包括環境模擬、模型預估和訓練等各個決策智能相關的環節都做到完美。啟元賽隊基于決策智能平臺分階段設計了獎勵機制以及調整超參。在使用啟元決策智能平臺的過程中,賽隊可以快速地調度所需資源進行任務部署,配置對戰所需的智能體,并且在訓練過程實時觀察不同模型的對戰情況和勝率曲線,從而做出最快的調整。

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      圖3:啟元決策智能平臺架構


      在此次 NeurIPS 多智能體競賽中,啟元決策智能平臺提供了三大助力:

      第一,支持智能體持續學習的能力。

      持續學習的能力是智能體訓練中關鍵的一環。在訓練階段,炸彈人競賽中的智能體需要在學習新技能的過程中保留過去學會的技能,才能達到很高的水平。啟元決策智能平臺通過智能體群體匹配競技的方式實現「自然選擇」,從而達到持續學習的效果。在競技過程中,強者留存,弱者被淘汰。在弱者被淘汰之后,空出來的位置被強者的克隆體代替,而強者的克隆體則根據新的超參設定持續進化。在固定計算資源預算的情況下,啟元決策智能平臺通過這套機制在探索新強者 (exploration) 和深挖舊強者(exploitation)之間平衡對計算資源的使用情況。

      第二,支持復雜場景的多智能體聯合訓練。

      在多智能體博弈問題中,不同智能體之間的相互克制較為常見,其收斂可能性極為復雜。在炸彈人競賽中,不同隊伍的智能體風格迥異,有的善攻,有的善守。基于「鯰魚效應」的思想(指通過引入強者,激發弱者變強的效應),啟元決策智能平臺在訓練初期引入基于規則的高階對手,激發初期較弱的智能體在與強者的對決中學會各種基本技能,迅速提升變強;隨著訓練階段的深入,啟元決策智能平臺同時訓練多個智能體,使其在激烈的相互對抗中完善自我。

      第三,支持基于私有云集群的大規模、高并發的模擬和大規模訓練。

      啟元決策智能平臺將架構圖中所示的多個模塊進行組件化,并封裝到了容器中。通過云端自動化的方式管理數百 CPU 以及 GPU 資源并實現容器編排,降低了調度數十個炸彈人訓練任務的成本。大規模、高并發的模擬計算以及大規模的訓練同時在私有云集群中進行。另外,啟元決策智能平臺提供分布式存儲方案,并配置成共享模型池,為炸彈人智能體模型群體的持久化和共享提供支持。

      啟元決策智能平臺 v0.8 版本目前已用于游戲、網絡智能及仿真等場景中。基于為客戶提供的高附加值服務,啟元世界在 2018 年商業化上小試牛刀,即已取得不錯的營收。2019 年,啟元世界計劃發布第一版啟元決策智能平臺型產品,為更多行業客戶、終端用戶帶去高體驗的服務。

      關于此次競賽方案的更多細節,啟元世界也撰寫了技術報告,感興趣的讀者可以參見 https://arxiv.org/abs/1812.07297

      基于監督學習的智能決策系統常見,但基于強化學習的智能決策系統不常見。雷鋒網 AI 科技評論很感興趣他們是如何看待并應對強化學習固有的一系列技術挑戰的。后續報告請繼續關注我們。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      啟元世界獲 NeurIPS 2018 多智能體競賽Learning組冠軍,決策智能平臺價值凸顯

      分享:

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 996久久国产精品线观看| 国产成人一区免费观看| 国产午夜福利在线机视频| 亚洲AV无码东方伊甸园| 影音先锋男人在线资源资源网| 亚洲中文字幕无码中文字| 97人妻视频| 九九re线精品视频在线观看视频| 亚洲欧美另类久久久精品| 来安县| 国产超碰人人爽人人做人人添| 午夜综合网| 一本色道久久88加勒比—综合 | 国产成人综合日韩亚洲| 乱人伦人妻系列| 国产精品丝袜美女在线观看| 亚洲精品国产精品国自产观看| 亚洲成人在线网站| 亚洲精品国产精品乱码桃花 | 亚洲乱熟女av| 亚洲欧美成人网| 亚洲人成网站在线播放2019| 欧美日韩一区二区三区在线视频| 国产95在线 | 欧美| 国产在线极品美女酒店| 色综合日韩| 一级做a爰片在线播放| 国产精品高清一区二区三区| 久久先锋男人av资源网站| 黄瓜视频91| 久久伊人色| 亚洲欧美色综合影院| 国产免费人成视频网| 亚洲欧美中文日韩v在线观看| 惠州市| 国产精品人人爽人人爽av〖网:?1?7?6.?2?2〗 | 台湾佬中文娱乐网址| 人人肏屄| 亚洲国产制服丝袜先锋| 无码狠狠躁久久久久久久91| 精品伊人久久久大香线蕉欧美|