谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

本文作者：我在思考中

2022-01-04 11:18

導(dǎo)語(yǔ)：當(dāng)「基準(zhǔn)」越來越「不基準(zhǔn)」時(shí)，「基準(zhǔn)」該何去何從？

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

作者 | 杏花

編輯 | 青暮

在日常生活中，我們需要一些「標(biāo)準(zhǔn)」來衡量個(gè)人的行為。

而在科研工作中，研究人員也需要一些「基準(zhǔn)」來評(píng)估模型的性能。

因此，不管是普遍的「標(biāo)準(zhǔn)」還是特定的「基準(zhǔn)」，它們都有一定的參考意義。

然而，如果有一天我們發(fā)現(xiàn)這些「參照物」與實(shí)際生活漸行漸遠(yuǎn)時(shí)，它們?cè)撏翁幦ィ?/span>

近日，由加州大學(xué)伯克利分校、華盛頓大學(xué)和谷歌研究院合著的論文《AI and the Everything in the Whole Wide World Benchmark》指出ImageNet等基準(zhǔn)定義的模糊任務(wù)在促進(jìn)智能理解上的局限性，就像用有限的博物館來代表整個(gè)世界一樣。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

論文地址：https://openreview.net/pdf?id=j6NxpQbREA1

在這篇論文中，研究人員闡述了機(jī)器學(xué)習(xí)（ML）對(duì)通用任務(wù)框架（CTF）的過度依賴，因?yàn)檫@個(gè)框架不恰當(dāng)?shù)匮葑兂晌覀兘裉焖斫獾倪@些聲稱評(píng)估「通用能力」的基準(zhǔn)。值得注意的是，研究團(tuán)隊(duì)并不否認(rèn)這些基準(zhǔn)的實(shí)用性，而是希望指出將其作為框架存在的固有缺陷。

展示「整個(gè)世界」的博物館 VS ImageNet

這篇論文最能引起共鳴的一點(diǎn)就是用故事書作為引子，且將情節(jié)貫穿全文，使得論文的研究?jī)?nèi)容更為直白易懂。

這本書就是1974年出版的《Grover and the Everything In the Whole Wide World Museum》，書中的主人公Grover參觀了一家聲稱展示「整個(gè)世界」的博物館。

該博物館的每個(gè)展廳都陳列著不同類別的東西，有些類別是隨意和主觀的，比如「你在墻上看到的東西（ Things You Find On a Wall ）」和「房間里能讓你撓癢癢的東西（ The Things that Can Tickle You Room ）」；有些類別則非常具體的，例如「胡蘿卜屋（ The Carrot Room ）」，而另一些則含糊不清，如「高大的廳堂（ The Tall Hall ）」。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

當(dāng)Grover認(rèn)為自己已經(jīng)參觀完博物館的一切時(shí)，他來到寫著「其他東西（Everything Else）」的大門前。打開門后，卻發(fā)現(xiàn)自己置身于外面的世界。

作為兒童故事，Grover的經(jīng)歷是荒誕的。然而，在實(shí)際的研究中，例如人工智能尤其是ML領(lǐng)域，也存在類似的固有錯(cuò)誤邏輯，其中許多流行的基準(zhǔn)依賴于固有的錯(cuò)誤假設(shè)。

這篇論文的研究人員認(rèn)為，在諸如「視覺理解」或「語(yǔ)言理解」之類的模糊任務(wù)中，作為衡量一般能力進(jìn)展的基準(zhǔn)，與有限的博物館在代表「整個(gè)世界的一切」方面一樣無效，且這兩個(gè)謬論的原因是相似的，即本質(zhì)上是基于特定的、有限的且局限于上下文的環(huán)境。

GLUE或ImageNet之類的基準(zhǔn)測(cè)試常常被提議為驗(yàn)證任何給定模型性能的基本通用任務(wù)的定義。其結(jié)果是，通過這些基準(zhǔn)數(shù)據(jù)集證明合理的結(jié)論往往遠(yuǎn)遠(yuǎn)超越了它們最初設(shè)計(jì)的任務(wù)，甚至超出了最初的開發(fā)目標(biāo)。

盡管作為邁向「通用目標(biāo)」的標(biāo)志，這些基準(zhǔn)存在明顯的局限性。事實(shí)上，這些基準(zhǔn)的開發(fā)、使用和采用表明了一個(gè)結(jié)構(gòu)有效性的問題，其中涉及的基準(zhǔn)——由于它們?cè)谔囟〝?shù)據(jù)、度量和實(shí)踐中的實(shí)例化——不可能捕獲任何具有代表性的關(guān)于它們的普遍適用性的結(jié)論。

論文的作者們認(rèn)為測(cè)量通用能力的目標(biāo)（即通用對(duì)象識(shí)別、通用語(yǔ)言理解或領(lǐng)域獨(dú)立推理等目標(biāo)）不能充分體現(xiàn)在數(shù)據(jù)定義的基準(zhǔn)中。研究人員注意到，當(dāng)前的趨勢(shì)不恰當(dāng)?shù)財(cái)U(kuò)展了CTF范式，以將其應(yīng)用于與現(xiàn)實(shí)世界目標(biāo)或背景不同的抽象表現(xiàn)任務(wù)。

從歷史上看，CTF的開發(fā)正是為了引入實(shí)用導(dǎo)向和嚴(yán)格范圍的人工智能任務(wù)，即自動(dòng)語(yǔ)音識(shí)別（ASR）或機(jī)器翻譯（MT），其中所需的驗(yàn)證是基準(zhǔn)是否準(zhǔn)確地反映了計(jì)算機(jī)在現(xiàn)實(shí)環(huán)境中所要求的實(shí)際任務(wù)。這一波定義不明確的「通用」目標(biāo)則完全顛覆了其引入的意圖。

與其把Grover的經(jīng)歷當(dāng)成兒童故事來看，倒不如說這是一則深刻的寓言故事。當(dāng)Grover打開「其他東西」的大門時(shí)，卻發(fā)現(xiàn)自己置身于博物館外的大千世界。故事的結(jié)尾或許已經(jīng)預(yù)示了這個(gè)研究的結(jié)論，ImageNet之類的基準(zhǔn)定義必然不能代表適應(yīng)所有現(xiàn)實(shí)世界模糊任務(wù)的「通用目標(biāo)」。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

因此，這篇論文確實(shí)有許多值得討論和深思的地方。ImageNet存在不足，那其他基準(zhǔn)定義就是完美無缺的嗎？除了ImageNet，目前在通用對(duì)象識(shí)別上還有更好的參照基準(zhǔn)嗎？該如何看待以及解決基準(zhǔn)定義越來越「不基準(zhǔn)」這個(gè)問題？

外行看熱鬧，內(nèi)行看門道，這么頭疼的問題就應(yīng)該交給專業(yè)人士。

OpenReview官方怎么評(píng)

迎面向我們走來的是第一位評(píng)委，該評(píng)委發(fā)出了“反對(duì)CV和NLP的“通用”基準(zhǔn)中令人信服的觀點(diǎn)！（A compelling argument against "general" monolithic benchmarks in vision and NLP）”的贊嘆，因?yàn)樗X得這篇論文史料詳實(shí)，觀點(diǎn)明確，分析到位，著實(shí)令人信服。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

論文的研究人員先在文中鋪墊了大量的背景知識(shí)，向讀者展現(xiàn)了通用人工智能和基準(zhǔn)測(cè)試的相關(guān)研究，并分析了ML的基準(zhǔn)測(cè)試何時(shí)開始作為評(píng)估范圍狹窄的任務(wù)性能的標(biāo)準(zhǔn)化方法。最后，結(jié)論就水到渠成了：通用語(yǔ)言理解和通用對(duì)象識(shí)別的基準(zhǔn)本質(zhì)上是有缺陷的，因?yàn)樗鼈儜?yīng)用于狹窄的范圍。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

最后，這位評(píng)委真誠(chéng)地希望計(jì)算機(jī)視覺和NLP社區(qū)能認(rèn)真對(duì)待這篇論文，因?yàn)樗J(rèn)為該論文對(duì)在這兩個(gè)領(lǐng)域取得更有意義的進(jìn)展做出了寶貴的貢獻(xiàn)，而不僅僅是追求最先進(jìn)的技術(shù)。

但美中不足的是，既然發(fā)現(xiàn)了ImageNet基準(zhǔn)存在局限性，那有什么辦法可以減少對(duì)這些通用標(biāo)準(zhǔn)的過度依賴？看來論文的研究人員也還沒找到這個(gè)問題的答案。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

而第二位評(píng)委對(duì)這篇論文的評(píng)價(jià)是：通用人工智能基準(zhǔn)的謬論（The Fallacy of Benchmarks for General Artificial Intelligence ）。因?yàn)檫@篇論文的受眾主要是AI領(lǐng)域的研究人員，所以作者在前文回顧了通用AI的相關(guān)基準(zhǔn)，一下拉近了與讀者的距離。此外，引用Grover的故事也使得該論文有趣易懂。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

即使這篇論文的開頭存在表述問題，未能無縫銜接主題，但瑕不掩瑜，評(píng)委二號(hào)高度贊揚(yáng)了這篇論文為ML領(lǐng)域的研究指明了方向。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

接著，評(píng)委三號(hào)也帶著他的觀點(diǎn)款款走來：好論文！但改一下結(jié)構(gòu)就更好了（Well argued paper, with some reorganization suggested）。這位評(píng)委指出，這篇論文最大的亮點(diǎn)是觀點(diǎn)獨(dú)特且論據(jù)充足。但也發(fā)出了和第一位評(píng)委相同的疑惑：所以，有什么解決方案可以減少對(duì)通用標(biāo)準(zhǔn)的過度依賴？

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

不同于前三位評(píng)委的「慷慨」，第四位評(píng)委只給出了5分的評(píng)價(jià)，認(rèn)為這篇論文只是：當(dāng)前基準(zhǔn)測(cè)試的簡(jiǎn)史（History of the benchmarks we use today）。從這個(gè)評(píng)語(yǔ)不難看出，這位評(píng)委覺得這篇論文列舉了很多基準(zhǔn)測(cè)試且強(qiáng)調(diào)了它們的局限性，但作者團(tuán)隊(duì)并沒有采取任何立場(chǎng)。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館

最后，評(píng)委五號(hào)不見其人，先聞其聲：很棒！但還有上升空間（Great, but improvements needed）。第五位評(píng)委認(rèn)為這篇論文在梳理和總結(jié)相關(guān)工作的方面做得非常好，同時(shí)有大量的研究支撐文中的論點(diǎn)，希望這篇論文能引起相關(guān)領(lǐng)域研究人員的重視。

谷歌等揭露「AI任務(wù)疑難」：存在局限的ImageNet等基準(zhǔn)，就像無法代表「整個(gè)世界」的博物館