<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給我在思考中
      發(fā)送

      0

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      本文作者: 我在思考中 2022-01-04 11:18
      導(dǎo)語(yǔ):當(dāng)「基準(zhǔn)」越來越「不基準(zhǔn)」時(shí),「基準(zhǔn)」該何去何從?
      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館
      作者 | 杏花
      編輯 | 青暮

      在日常生活中,我們需要一些「標(biāo)準(zhǔn)」來衡量個(gè)人的行為。

      而在科研工作中,研究人員也需要一些「基準(zhǔn)」來評(píng)估模型的性能。

      因此,不管是普遍的「標(biāo)準(zhǔn)」還是特定的「基準(zhǔn)」,它們都有一定的參考意義。

      然而,如果有一天我們發(fā)現(xiàn)這些「參照物」與實(shí)際生活漸行漸遠(yuǎn)時(shí),它們?cè)撏翁幦ィ?/span>

      近日,由加州大學(xué)伯克利分校、華盛頓大學(xué)和谷歌研究院合著的論文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基準(zhǔn)定義的模糊任務(wù)在促進(jìn)智能理解上的局限性,就像用有限的博物館來代表整個(gè)世界一樣。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      論文地址:https://openreview.net/pdf?id=j6NxpQbREA1

      在這篇論文中,研究人員闡述了機(jī)器學(xué)習(xí)(ML)對(duì)通用任務(wù)框架(CTF)的過度依賴,因?yàn)檫@個(gè)框架不恰當(dāng)?shù)匮葑兂晌覀兘裉焖斫獾倪@些聲稱評(píng)估「通用能力」的基準(zhǔn)。值得注意的是,研究團(tuán)隊(duì)并不否認(rèn)這些基準(zhǔn)的實(shí)用性,而是希望指出將其作為框架存在的固有缺陷。



      1

      展示「整個(gè)世界」的博物館 VS ImageNet

      這篇論文最能引起共鳴的一點(diǎn)就是用故事書作為引子,且將情節(jié)貫穿全文,使得論文的研究?jī)?nèi)容更為直白易懂。

      這本書就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》,書中的主人公Grover參觀了一家聲稱展示「整個(gè)世界」的博物館。

      該博物館的每個(gè)展廳都陳列著不同類別的東西,有些類別是隨意和主觀的,比如「你在墻上看到的東西( Things You Find On a Wall )」和「房間里能讓你撓癢癢的東西( The Things that Can Tickle You Room )」;有些類別則非常具體的,例如「胡蘿卜屋( The Carrot Room )」,而另一些則含糊不清,如「高大的廳堂( The Tall Hall )」。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      當(dāng)Grover認(rèn)為自己已經(jīng)參觀完博物館的一切時(shí),他來到寫著「其他東西(Everything Else)」的大門前。打開門后,卻發(fā)現(xiàn)自己置身于外面的世界。

      作為兒童故事,Grover的經(jīng)歷是荒誕的。然而,在實(shí)際的研究中,例如人工智能尤其是ML領(lǐng)域,也存在類似的固有錯(cuò)誤邏輯,其中許多流行的基準(zhǔn)依賴于固有的錯(cuò)誤假設(shè)。

      這篇論文的研究人員認(rèn)為,在諸如「視覺理解」或「語(yǔ)言理解」之類的模糊任務(wù)中,作為衡量一般能力進(jìn)展的基準(zhǔn),與有限的博物館在代表「整個(gè)世界的一切」方面一樣無效,且這兩個(gè)謬論的原因是相似的,即本質(zhì)上是基于特定的、有限的且局限于上下文的環(huán)境。

      GLUE或ImageNet之類的基準(zhǔn)測(cè)試常常被提議為驗(yàn)證任何給定模型性能的基本通用任務(wù)的定義。其結(jié)果是,通過這些基準(zhǔn)數(shù)據(jù)集證明合理的結(jié)論往往遠(yuǎn)遠(yuǎn)超越了它們最初設(shè)計(jì)的任務(wù),甚至超出了最初的開發(fā)目標(biāo)。

      盡管作為邁向「通用目標(biāo)」的標(biāo)志,這些基準(zhǔn)存在明顯的局限性。事實(shí)上,這些基準(zhǔn)的開發(fā)、使用和采用表明了一個(gè)結(jié)構(gòu)有效性的問題,其中涉及的基準(zhǔn)——由于它們?cè)谔囟〝?shù)據(jù)、度量和實(shí)踐中的實(shí)例化——不可能捕獲任何具有代表性的關(guān)于它們的普遍適用性的結(jié)論。

      論文的作者們認(rèn)為測(cè)量通用能力的目標(biāo)(即通用對(duì)象識(shí)別、通用語(yǔ)言理解或領(lǐng)域獨(dú)立推理等目標(biāo))不能充分體現(xiàn)在數(shù)據(jù)定義的基準(zhǔn)中。研究人員注意到,當(dāng)前的趨勢(shì)不恰當(dāng)?shù)財(cái)U(kuò)展了CTF范式,以將其應(yīng)用于與現(xiàn)實(shí)世界目標(biāo)或背景不同的抽象表現(xiàn)任務(wù)。

      從歷史上看,CTF的開發(fā)正是為了引入實(shí)用導(dǎo)向和嚴(yán)格范圍的人工智能任務(wù),即自動(dòng)語(yǔ)音識(shí)別(ASR)或機(jī)器翻譯(MT),其中所需的驗(yàn)證是基準(zhǔn)是否準(zhǔn)確地反映了計(jì)算機(jī)在現(xiàn)實(shí)環(huán)境中所要求的實(shí)際任務(wù)。這一波定義不明確的「通用」目標(biāo)則完全顛覆了其引入的意圖。

      與其把Grover的經(jīng)歷當(dāng)成兒童故事來看,倒不如說這是一則深刻的寓言故事。當(dāng)Grover打開「其他東西」的大門時(shí),卻發(fā)現(xiàn)自己置身于博物館外的大千世界。故事的結(jié)尾或許已經(jīng)預(yù)示了這個(gè)研究的結(jié)論,ImageNet之類的基準(zhǔn)定義必然不能代表適應(yīng)所有現(xiàn)實(shí)世界模糊任務(wù)的「通用目標(biāo)」。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      因此,這篇論文確實(shí)有許多值得討論和深思的地方。ImageNet存在不足,那其他基準(zhǔn)定義就是完美無缺的嗎?除了ImageNet,目前在通用對(duì)象識(shí)別上還有更好的參照基準(zhǔn)嗎?該如何看待以及解決基準(zhǔn)定義越來越「不基準(zhǔn)」這個(gè)問題?

      外行看熱鬧,內(nèi)行看門道,這么頭疼的問題就應(yīng)該交給專業(yè)人士。



      2

      OpenReview官方怎么評(píng)

      迎面向我們走來的是第一位評(píng)委,該評(píng)委發(fā)出了“反對(duì)CV和NLP的“通用”基準(zhǔn)中令人信服的觀點(diǎn)!(A compelling argument against "general" monolithic benchmarks in vision and NLP)”的贊嘆,因?yàn)樗X得這篇論文史料詳實(shí),觀點(diǎn)明確,分析到位,著實(shí)令人信服。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      論文的研究人員先在文中鋪墊了大量的背景知識(shí),向讀者展現(xiàn)了通用人工智能和基準(zhǔn)測(cè)試的相關(guān)研究,并分析了ML的基準(zhǔn)測(cè)試何時(shí)開始作為評(píng)估范圍狹窄的任務(wù)性能的標(biāo)準(zhǔn)化方法。最后,結(jié)論就水到渠成了:通用語(yǔ)言理解和通用對(duì)象識(shí)別的基準(zhǔn)本質(zhì)上是有缺陷的,因?yàn)樗鼈儜?yīng)用于狹窄的范圍。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      最后,這位評(píng)委真誠(chéng)地希望計(jì)算機(jī)視覺和NLP社區(qū)能認(rèn)真對(duì)待這篇論文,因?yàn)樗J(rèn)為該論文對(duì)在這兩個(gè)領(lǐng)域取得更有意義的進(jìn)展做出了寶貴的貢獻(xiàn),而不僅僅是追求最先進(jìn)的技術(shù)。

      但美中不足的是,既然發(fā)現(xiàn)了ImageNet基準(zhǔn)存在局限性,那有什么辦法可以減少對(duì)這些通用標(biāo)準(zhǔn)的過度依賴?看來論文的研究人員也還沒找到這個(gè)問題的答案。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      而第二位評(píng)委對(duì)這篇論文的評(píng)價(jià)是:通用人工智能基準(zhǔn)的謬論(The Fallacy of Benchmarks for General Artificial Intelligence )。因?yàn)檫@篇論文的受眾主要是AI領(lǐng)域的研究人員,所以作者在前文回顧了通用AI的相關(guān)基準(zhǔn),一下拉近了與讀者的距離。此外,引用Grover的故事也使得該論文有趣易懂。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      即使這篇論文的開頭存在表述問題,未能無縫銜接主題,但瑕不掩瑜,評(píng)委二號(hào)高度贊揚(yáng)了這篇論文為ML領(lǐng)域的研究指明了方向。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      接著,評(píng)委三號(hào)也帶著他的觀點(diǎn)款款走來:好論文!但改一下結(jié)構(gòu)就更好了(Well argued paper, with some reorganization suggested)。這位評(píng)委指出,這篇論文最大的亮點(diǎn)是觀點(diǎn)獨(dú)特且論據(jù)充足。但也發(fā)出了和第一位評(píng)委相同的疑惑:所以,有什么解決方案可以減少對(duì)通用標(biāo)準(zhǔn)的過度依賴?

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      不同于前三位評(píng)委的「慷慨」,第四位評(píng)委只給出了5分的評(píng)價(jià),認(rèn)為這篇論文只是:當(dāng)前基準(zhǔn)測(cè)試的簡(jiǎn)史(History of the benchmarks we use today)。從這個(gè)評(píng)語(yǔ)不難看出,這位評(píng)委覺得這篇論文列舉了很多基準(zhǔn)測(cè)試且強(qiáng)調(diào)了它們的局限性,但作者團(tuán)隊(duì)并沒有采取任何立場(chǎng)。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      最后,評(píng)委五號(hào)不見其人,先聞其聲:很棒!但還有上升空間(Great, but improvements needed)。第五位評(píng)委認(rèn)為這篇論文在梳理和總結(jié)相關(guān)工作的方面做得非常好,同時(shí)有大量的研究支撐文中的論點(diǎn),希望這篇論文能引起相關(guān)領(lǐng)域研究人員的重視。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      正因?yàn)閷?duì)這篇論文寄予了極高的期望,因此評(píng)委只給出了6分的評(píng)價(jià),同時(shí)羅列了非常詳細(xì)的修改建議,希望論文的作者能加以改進(jìn)。



      3

      Reddit網(wǎng)友怎么說

      看完五大評(píng)審的官方評(píng)論,總結(jié)起來基本就是:論文不錯(cuò),觀點(diǎn)新穎,論據(jù)充分,要是能提出解決方案就更好了。此外,有三位評(píng)委都不約而同地希望這篇論文能引起相關(guān)領(lǐng)域的重視。

      Reddit上關(guān)于這篇文章的討論熱度也不小,我們來看看神通廣大的網(wǎng)友怎么說。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      某位網(wǎng)友一針見血地指出,雖然ImageNet等基準(zhǔn)測(cè)試像「有限的博物館」一樣存在不足,但卻是目前我們訓(xùn)練模型最有力的工具。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      確實(shí),就像上述評(píng)委提到的,ImageNet是有局限性,但是否有更好的解決方案?因此,有熱心網(wǎng)友為論文的作者修改了摘要:沒有任何數(shù)據(jù)集能夠捕捉所有細(xì)節(jié)的全部復(fù)雜性,就像沒有博物館可以包含整個(gè)世界中所有的事物一樣。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      一些網(wǎng)友則認(rèn)為論文不錯(cuò),尤其是「芝麻街」故事情節(jié)的插入加深了他們對(duì)該論文的理解。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      這些網(wǎng)友覺得,用「無法展示一切的博物館」類比「ImageNet在一些模糊任務(wù)上的局限性」非常恰當(dāng)。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      大概論文的作者們也沒想到,寫個(gè)文章還能為一本書代言,有網(wǎng)友調(diào)侃:宇宙萬物的答案就隱藏在這本「芝麻街」故事書中。

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      更多網(wǎng)友表示贊同論文作者的觀點(diǎn),畢竟相比解決問題,發(fā)現(xiàn)問題太容易了。(狗頭)

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      所以,解決方案究竟在哪?

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      就算博物館「無法展示一切」,也沒有人能否定其價(jià)值。同理,ImageNet這類基準(zhǔn)定義的存在意義也不容置喙。不斷發(fā)現(xiàn)問題并解決問題,歷史的車輪才會(huì)滾滾向前(狗頭)。

      參考鏈接:

      1. https://openreview.net/forum?id=j6NxpQbREA1

      2. https://www.reddit.com/r/MachineLearning/comments/r45wdo/r_ai_and_the_everything_in_the_whole_wide_world/


      雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      谷歌等揭露「AI任務(wù)疑難」:存在局限的ImageNet等基準(zhǔn),就像無法代表「整個(gè)世界」的博物館

      分享:
      相關(guān)文章

      運(yùn)營(yíng)

      當(dāng)月熱門文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 国产剧情一区二区| 日本乱码伦在线观看| 女人张开让男人桶出水视频免费版| 成黄色片视频日本秘书丝袜| 伊人97| 熟妇人妻午夜寂寞影院| 97av在线| 国产suv精品一区二区883| 施秉县| 五月丁香六月综合激情在线观看| 天堂网亚洲综合在线| 婷婷亚洲五月花视频| 沙坪坝区| 亚色网站| 中文字幕乱码无遮挡精品视频| 蜜臀精品国产高清在线观看| 国产免费AV网站| 91热| 成人免费xxxxx在线观看| 亚州中文字幕无码| 开心五月色婷婷综合开心网| 国产精品一区二区三乱码| 丰满岳乱妇一区二区三区| 亚洲精品熟女| 亚洲乱码国产乱码精品精大量 | 久久综合88中文色鬼| 亚洲另类激情专区小说婷婷久| 亚洲色婷婷一区二区| 欧美日本在线| 爱3P| 国产精品无码一区二区在线| 在线看免费无码的av天堂| 欧美3P视频| 亚洲性爱在线| 免费看美女毛片| 1024国产基地| 午夜久久精品国产亚洲av| 秋霞国产在线| 亚洲精品中文字幕制| 国产亚洲日韩欧美一区二区三区| 桃色综合网站|