<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給我在思考中
      發送

      0

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      本文作者: 我在思考中 2022-04-11 10:52
      導語:33%的AI基準被“擱置”,NLP基準正面向高難度的任務。

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      作者 | 維克多

      人工智能(AI)基準為模型提供了衡量和比較的路徑,超越基準,達到SOTA,經常成為頂會論文的標配。同時,有些基準確實推動了AI的發展,例如ImageNet 基準測試對近幾年的熱潮功不可沒。

      如今,ImageNet 基準仍然在研究中發揮核心作用,一些新模型,例如谷歌的Vision Transformer在論文中仍然與ImageNet方法進行比較。

      但,如果某一基準的分數一直占據榜首,后續沒有高質量基準引入,那么這種依靠基準推動發展的“路子”就有問題。

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      近日,維也納醫科大學和牛津大學的研究人員對AI基準圖譜進行了調查,共統計了2013年以來CV和NLP領域的406項任務的1688項基準。發現:很大一部分基準迅速趨于接近飽和,還有一部分基準被擱置;同時,在NLP領域,從2020年開始,新基準的建立減少,方向轉向推理或推理相關的高級任務上。

      在文中,作者呼吁,未來的工作應該著重于大規模的社區合作,以及將基準性能與現實世界效用和影響相聯系。



      1

      33%的AI基準被“擱置”

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      從單個基準出發,如上圖可以看出基準上的SOTA有三種狀態:穩定增長,停滯或飽和,以及停滯后的飛躍。其中,穩定增長代表技術穩定;停滯背后代表缺乏技術進步的能力;而爆發是指技術出現突破。

      事實上,近年來,關鍵領域,如NLP,有相當一部分新基準迅速趨于飽和,或者設計針對特定基準特征過度優化的模型,而這些模型往往無法泛化到其他數據中。

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      目前,這些現象已經蔓延到相同領域的不同基準中,例如上圖,CIFAR-10和CIFAR-100的狀態。

      同時,數量方面也出現了尷尬的局面,例如《2021年的人工智能指數報告》指出,CV基準數量或許能滿足日益增長的任務需求;而NLP模型的增長速度正在超過現有的問答和自然語言理解基準。

      Martínez-Plumed等學者分析了 CIFAR-100 和 SQuAD1.1 等 25 個流行 AI 基準背后“故事”,他們發現“SOTA 前沿”由某些長期協作的社區主導,例如美國或亞洲大學與科技公司共同合作的組織。

      此外,其他學者分析了大量 AI 基準測試工作中數據集使用和再利用的趨勢,他們發現,很大一部分“知名”數據集是由少數高知名度的組織提出,其中一些數據集被越來越多地重新用于新的任務。NLP是個例外,它對新的、特定任務的基準的引入和使用超過了平均水平。

      在這項研究中,維也納醫科大學和牛津大學的研究人員表明:飽和和擱置非常常見。總體看來有以下幾個趨勢:

      1.缺乏研究興趣是導致停滯不前的原因之一;

      2.所有基準中的大多數很快就會達到技術停滯或飽和;

      3.在某些情況下,會出現持續增長,例如在 ImageNet 基準測試中;

      4.性能改進的動態變化并不遵循一個清晰可辨的模式:在某些情況下,停滯階段之后是不可預測的飛躍。

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      圖注:基準有三種發展趨勢:穩定增長,停滯或飽和,以及停滯后的飛躍。

      此外,在1688個基準中,只有66%的基準充分被利用,換言之33%的基準被擱置。同時,基準測試的另一個趨勢是:被某些既定機構和公司的數據集主導。



      2

      NLP基準正面向高難度的任務

      過去幾年,CV領域的基準占據主導地位,但NLP也開始了蓬勃發展。2020年,新基準的數量有所下降,越來越多地集中在難度較高的任務上,例如測試推理的任務,例如BIG-bench和NetHack,前者屬于谷歌,后者來自Facebook。

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      上圖是NLP的基準生命周期展示,可以清晰看出,大多數任務的幾個主流基準是在2011~2015年間建立的,這期間,也只有少數幾個SOTA出現。2016年之后,新基準的建立速度大大加快,在翻譯和自然語言建模方面表現最為突出;2018和2019年,分別都針對各種任務建立了大量的基準;2020年是個轉折點,新基準的建立減少,方向轉向推理或推理相關的高級任務上。

      整體來說,當前AI基準的趨勢是:來自既定機構(包括工業界)的基準的趨勢引起了人們對基準的偏見和代表性的關注;許多基準并不能完全將AI性能與現實世界相匹配,因此,開發少量但有質量保證,涵蓋多種AI能力、場景的基準可能是可取的。

      最后,研究人員展望,在未來,新的基準應該由來自許多機構、知識領域的大型合作團隊開發,如此才能確保建立高質量的基準。

      參考鏈接

      https://mixed-news.com/en/are-we-running-out-of-ai-benchmarks/

      https://arxiv.org/ftp/arxiv/papers/2203/2203.04592.pdf

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      雷峰網(公眾號:雷峰網)

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      牛津大學最新調研:AI面臨基準危機,NLP集中“攻關”推理測試

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 91碰碰| 在线天堂www在线| 色噜噜狠狠色综合成人网| 国产九九在线视频| 国产精品久久久久久熟妇吹潮软件| 亚洲国产成人精品综合| 国产乱子夫妻xx黑人xyx真爽| 男人天堂手机在线| 国产午夜福利精品视频| 国产极品美女高潮无套| 国产一区韩国主播| 国产黄色在线视频| 国产成人做受免费视频| 欧美丰满老妇性猛交| jizz日本大全| 99在线视频网站| 四虎www永久在线精品| 性姿势真人免费视频放| 宁乡县| 少妇50p| 无码国产精品一区二区免费3p| http://国产熟女.com| 亚洲美腿丝袜无码专区| 国产热の有码热の无码视频| 婷婷激情综合| 在线天堂最新版资源| 99久久精品美女高潮喷水| 激情综合网激情综合| 国产成人一区二区三区影院动漫| 精品3p| 91密桃精品国产91久久 | 精品九九视频| 久久午夜av一区二区| 好紧好湿太硬了我太爽了视频| 无码少妇视频| 国产精品午夜福利麻豆| 少妇被爽到高潮喷水久久欧美精品| 一区二区三区精品| 无码精品人妻一区二区三区人妻斩| 中文字幕天天色色干干| 忍着娇喘人妻被中出中文字幕 |