<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給蔣寶尚
      發(fā)送

      0

      貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

      本文作者: 蔣寶尚 2020-01-19 15:49
      導(dǎo)語:道理,不辨析不明朗;學(xué)問,不爭論不清晰

      貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

      作者 | 雷鋒網(wǎng) AI 科技評論 

      編輯 | 雷鋒網(wǎng) Camel

      最近Twitter、Reddit上有一股爭論的熱潮涌動,先是有 Fran?ois Chollet 、Yann LeCun 等人隔空辨析「到底什么是深度學(xué)習(xí)」,后是有一大批研究者爭論「貝葉斯神經(jīng)網(wǎng)絡(luò)到底有沒有意義」。新的一年,火藥味十足,這是否也意味著深度學(xué)習(xí)的研究正進(jìn)入一個混亂的時期?道理,不辨析不明朗;學(xué)問,不爭論不清晰。

      所謂貝葉斯神經(jīng)網(wǎng)絡(luò),簡單來說便是將一般神經(jīng)網(wǎng)絡(luò)中的權(quán)重和偏置由確定的數(shù)值變?yōu)橐粋€分布。

      貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

      按照一般理解,這種將參數(shù)以概率分布的形式表示,可以為網(wǎng)絡(luò)推理提供不確定性估計;此外,通過使用先驗概率分布的形式來表示參數(shù),訓(xùn)練期間在許多模型上計算平均值,可以給網(wǎng)絡(luò)提供正則化效果,從而防止過度擬合。然后,在大約一個月前,OpenAI 研究員Carles Gelada發(fā)布了一個系列Twitter:


      貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

      他指出,或許貝葉斯神經(jīng)網(wǎng)絡(luò)并沒有多大用處。大致觀點為:1)只有當(dāng)具有合理的參數(shù)先驗時,我們才會去使用貝葉斯規(guī)則,但沒有人知道先驗對神經(jīng)網(wǎng)絡(luò)權(quán)重的編碼會是什么,那么為什么我們還要使用這種先驗?zāi)兀?)許多正則化都可以用貝葉斯解釋,但事實上每個人都能夠?qū)φ齽t化給出一個解釋。那么我們用貝葉斯理論來解釋正則化,有什么意義呢?3)或許有人會說BNNs可以讓我們直接用經(jīng)驗來找到正則化。但誰來保證BNNs找到的這種正則化空間就是最優(yōu)的呢?4)BNNs可以用在貝葉斯元學(xué)習(xí)框架當(dāng)中。但沒有理由相信這種應(yīng)用會比其他元學(xué)習(xí)框架更好。針對Carles提出的這些反對意見,在Twitter上迅速吸引了大批的研究人員加入討論。多數(shù)引經(jīng)據(jù)典,從歷史發(fā)展、當(dāng)前研究、實踐經(jīng)驗等各種角度進(jìn)行辯論,或贊同,或反對,不一而足。

      貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

      一、貝葉斯神經(jīng)網(wǎng)絡(luò)有用嗎?

      為了更加明晰“貝葉斯網(wǎng)絡(luò)沒啥用”的立場,近期Carles Gelada 和 Jacob Buckman重新梳理了他們的思路,專門寫了一篇博客,從貝葉斯網(wǎng)絡(luò)的原理入手,詳細(xì)闡述了“BNNs需要先驗信息豐富的先驗知識才能處理不確定性”的觀點,并指出泛化的代價不容忽視。

      1、貝葉斯神經(jīng)網(wǎng)絡(luò)具有不確定性的原因:泛化不可知先驗

      為了說明先驗在貝葉斯網(wǎng)絡(luò)中的重要意義,Buckman在博客中引入了泛化不可知先驗(generalization-agnostic priors),用這種“不可知的先驗”進(jìn)行貝葉斯推理并不能減少模型的不確定性。Carles和Buckman認(rèn)為,要想在深度學(xué)習(xí)中使用貝葉斯框架,只有讓先驗與神經(jīng)網(wǎng)絡(luò)的泛化特性相聯(lián)系,才能達(dá)到好的效果,方法是給泛化能力良好的函數(shù)以更高的概率。但是目前學(xué)術(shù)界還沒有足夠的能力(作者猜測)來證明哪種先驗的情況能夠滿足條件。另外,Buckman在博客中作者舉了一個具體的例子:當(dāng)一個數(shù)據(jù)集C

      里面包含兩種數(shù)據(jù)對:一種是給定輸入,輸出正確;另一種是給定輸入,輸出錯誤。訓(xùn)練神經(jīng)網(wǎng)絡(luò)所得到的參數(shù) 貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!必須讓神經(jīng)網(wǎng)絡(luò)既能夠表達(dá)正確輸出,也能夠表達(dá)錯誤的輸出。即使模型在數(shù)據(jù)集上訓(xùn)練后,能夠得到條件概率p(f|c)=1,但在測試集上模型也可能表現(xiàn)很差。另外,定義一種先驗概率Q,可以讓 Q(f*)=Q(fθ)這意味著如果泛化良好的函數(shù)與泛化不好的函數(shù)得到的分配概率是相同的。但這種先驗是有問題的:由于f*和fθ的數(shù)據(jù)的可能性為1,并且由于先驗概率相似,這意味著后驗概率也是相似的(如下公式)。

      貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

      注:實際上對于某些數(shù)據(jù),fθ可以產(chǎn)生錯誤的輸出,即Q(f*)不等于Q(fθ)

      綜上,Carles和Buckman認(rèn)為在泛化不可知的先驗條件下,無論數(shù)據(jù)集如何,都無法降低模型的不確定性。即貝葉斯神經(jīng)網(wǎng)絡(luò)起作用的關(guān)鍵因素是:先驗?zāi)軌騾^(qū)分泛化良好的函數(shù)和泛化不好的函數(shù)。

      2、當(dāng)前貝葉斯網(wǎng)絡(luò)的泛化能力不可知

      在構(gòu)建貝葉斯神經(jīng)網(wǎng)絡(luò)時,大家的共識是用比較簡單的概率先驗,即假設(shè)參數(shù)服從獨立的高斯分布。但是高斯先驗顯然會導(dǎo)致結(jié)構(gòu)先驗,而這些先驗并無泛化能力,原因有兩點:1.高斯先驗平滑分配概率。2.在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時候,無論數(shù)據(jù)集如何,最合理的策略似乎是給不同的泛化函數(shù)以相同的權(quán)重。還有一點是計算問題也不容忽視,實際上如何對貝葉斯推理q(F|D)進(jìn)行計算可能是貝葉斯神經(jīng)網(wǎng)絡(luò)(具有先驗泛化不可知)能夠有合理效果的關(guān)鍵因素。

      3、理性批判BNNs

      Carles和Buckman也在博客中表示上面的理由有猜測的成分,因為無法得知何種因素決定神經(jīng)網(wǎng)絡(luò)泛化能力,所以定義執(zhí)行貝葉斯推理的先驗具有不確定性。貝葉斯神經(jīng)網(wǎng)絡(luò)只是一個神經(jīng)網(wǎng)絡(luò),先驗只是里面的一個超參數(shù)。Carles和Buckman認(rèn)為當(dāng)前在網(wǎng)絡(luò)中加入貝葉斯不會帶來任何好處,只有當(dāng)能夠找到一個好的先驗,并且能夠驗證推理的準(zhǔn)確性才能有所幫助。另外,他們還提到:作為一個領(lǐng)域,先驗在貝葉斯框架里扮演著重要的角色,這一點毋容置疑,所以對于貝葉斯網(wǎng)絡(luò)需要理性的批判,不能讓“不具信息性的先驗在不確定性下表現(xiàn)良好”(uninformative priors are good under uncertainty)這種無腦觀點所左右。

      二、反駁與批評:Twitter、Reddit雙戰(zhàn)場

      這篇博客同步發(fā)在了推特和 Reddit 上,自然也就在兩個平臺上都引來了反駁的聲音。

      1、Twitter 戰(zhàn)場:存在技術(shù)錯誤

      在Twitter上,紐約大學(xué)數(shù)學(xué)和數(shù)據(jù)科學(xué)教授Andrew Gordon Wilson就表示他們的觀點存在錯誤:這篇博客中存在錯誤。

      1,如果數(shù)據(jù)是來自我們想要擬合的分布的,那么隨著我們使用的數(shù)據(jù)的規(guī)模增大,似然性會收縮到那個“好的函數(shù)”上,因為不好的函數(shù)會越來越少出現(xiàn),這也和我們的觀測值一致。

      2,能擬合噪聲的模型并沒有什么出奇之處,而且也和“存在歸納偏倚,更傾向于選擇有噪聲的解”是兩碼事。在函數(shù)上簡單增加一個標(biāo)準(zhǔn)的GP-RBF先驗就可以支持噪聲了,但它仍然更善于建模有結(jié)構(gòu)的解。

      3,對于通常會使用神經(jīng)網(wǎng)絡(luò)來解決的問題,好的解的數(shù)量通常都會比不好的解的數(shù)量更多。神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中就含有幫助帶來更好的泛化性的歸納偏倚。神經(jīng)網(wǎng)絡(luò)函數(shù)“與泛化性無關(guān)”的說法有點不負(fù)責(zé)任。

      4,實際上,想要在函數(shù)空間創(chuàng)造許多不同的“泛化性無關(guān)”的先驗是很簡單的事,而它們的行為會和神經(jīng)網(wǎng)絡(luò)非常不同。它們可以由平凡的結(jié)構(gòu)組成,而且也肯定不會具有任何泛化能力。

      5,缺少理想的后驗收縮會在這么幾種情況下發(fā)生:

      • 假想空間中并不包含好的解;

      • 先驗對某個壞的解太過自信(比如給任意的 x 都分配同一個標(biāo)簽 p)。

      但神經(jīng)網(wǎng)絡(luò)有很強(qiáng)的表達(dá)能力,這里的b情況根本就和“有模糊的權(quán)重先驗”完全相反!除了技術(shù)討論之外,我建議兩位可以多提問、多學(xué)習(xí),以及對貝葉斯深度學(xué)習(xí)抱有開放的心態(tài)。

      也許是你們的“貝葉斯神經(jīng)網(wǎng)絡(luò)不合理”的先驗太強(qiáng)了才覺得理解不了(微笑)。

      Carles Gelada 對這份質(zhì)疑的回應(yīng)是:

      如果情況是像你說的這樣,那么證明這件事是貝葉斯支持的責(zé)任(而不是我們質(zhì)疑者的),尤其是當(dāng)他們聲稱模型可以提供好的不確定性的時候。實際上我們提出質(zhì)疑的理由就是,每個初始值附近都同時有好的和壞的泛化函數(shù),那么他們聲稱的東西也就值得懷疑了。

      另外,關(guān)于“擬合損壞的樣本”的討論不應(yīng)該和“擬合噪聲”混為一談。我們在討論中假設(shè)了分類任務(wù)中不存在噪聲,但即便是有噪聲的分類任務(wù),我們的觀點也是成立的。用簡單的測試就可以說明目前使用的先驗不是泛化無關(guān)的:訓(xùn)練一個好的函數(shù)、訓(xùn)練一個壞的函數(shù),然后看看先驗是否會給好的函數(shù)更高的概率。我懷疑狀況不是這樣的,但這里需要貝葉斯的支持者向我證明他們的先驗是好的。

      2、Reddit 回帖:水平不足+雙重標(biāo)準(zhǔn)

      Reddit上網(wǎng)友們的回應(yīng)更激烈、更情緒性一些,甚至得到最多贊同意見的帖子就含有辛辣的批評和嘲諷。

      adversary_argument:

      由于博客作者們對貝葉斯推理中的真正的先驗缺乏了解,所以我覺得這個討論很沒意思,甚至有一股雙重標(biāo)準(zhǔn)的味道。

      全體深度學(xué)習(xí)研究人員(以及作者們自己)都已經(jīng)接受了神經(jīng)網(wǎng)絡(luò)的大規(guī)模使用,即便我們還沒有找到明確的泛化邊界,也對神經(jīng)網(wǎng)絡(luò)的理論理解甚少。但是既然神經(jīng)網(wǎng)絡(luò)運行起來令人滿意,這些問題就一股腦地被視而不見 —— 神經(jīng)網(wǎng)絡(luò)就是好的、正義的。然而,現(xiàn)在作者們要求貝葉斯神經(jīng)網(wǎng)絡(luò)必須在先驗方面提供很強(qiáng)的理論保證,雖然他們同時也承認(rèn)貝葉斯神經(jīng)網(wǎng)絡(luò)是有效的…… emmm,你們覺得這像不像賊喊捉賊?

      做深度學(xué)習(xí)的人挺能散布負(fù)面言論的啊……尤其是,我覺得他們的討論方式,針對某個任意的、損壞的測試集 C 的討論,只不過是在攻擊他們自己造出來的一個靶子而已。

      我解釋給你們看看:他們沒有給出被損壞的數(shù)據(jù)的數(shù)量,但是他們就聲稱 f_theta 肯定在 D_test 上會有糟糕的表現(xiàn)?他們的依據(jù)是什么?那比如 D 是一百萬個好的數(shù)據(jù)點組成的數(shù)據(jù)集,C 是 D 加上一個損壞的數(shù)據(jù)點,所以按照他們的理論,D_test 上的測試誤差肯定會特別糟糕?

      他們洋洋灑灑了一大堆,最后只證明了損壞訓(xùn)練數(shù)據(jù)會降低貝葉斯神經(jīng)網(wǎng)絡(luò)的測試準(zhǔn)確率而已…… 呃…… 所以這有什么好奇怪的嗎……

      博客作者回應(yīng):

      可能我們在博客里寫得不夠清楚。我們考慮含有損壞數(shù)據(jù)的數(shù)據(jù)集,不是為了說明只要有損壞數(shù)據(jù)就會有糟糕的預(yù)測表現(xiàn)(尤其對于一百萬比一這種情況),而是想說明有損壞數(shù)據(jù)的、神經(jīng)網(wǎng)絡(luò)擬合之后會有糟糕的泛化表現(xiàn)的數(shù)據(jù)集是存在的。我們是為了說明存在性。如果先驗對這樣的網(wǎng)絡(luò)分配很高的概率,那么貝葉斯推理就沒有什么好處。我們的博客也不是為了表達(dá)貝葉斯神經(jīng)網(wǎng)絡(luò)沒用,而是想表示“如果沒有好的先驗,貝葉斯神經(jīng)網(wǎng)絡(luò)就無法帶來好的不確定性估計”,“關(guān)于非信息性的先驗的標(biāo)準(zhǔn)討論方式是有問題的”,以及“想要有好的不確定性估計,我們需要先理解神經(jīng)網(wǎng)絡(luò)的泛化性”。除此之外,其它多篇Reddit 的網(wǎng)友回帖也認(rèn)為原博客兩人的討論態(tài)度有問題,立場很難稱得上是“冷靜看待”,有些簡單的實驗也完全可以自己先嘗試。

      雷鋒網(wǎng)報道。

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      貝葉斯神經(jīng)網(wǎng)絡(luò)毫無意義嗎?Twitter、Reddit雙戰(zhàn)場辯論,火藥味十足!

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 亚洲夜夜欢一区二区三区| 久久精品国产亚洲av忘忧草18| 另类专区一区二区三区| 婷婷五月综合激情| 一级AV韩国| 爱做久久久久久| 男人天堂网址| 俄罗斯xxxx性全过程| 中文字幕在线日韩| 日韩视频在线免费观看| 一本加勒比hezyo无码资源网| 久久成人亚洲香蕉草草| 婷婷五月综合激情| 中方县| 国产偷人妻精品一区二区在线| 丁香久久婷婷| 日韩第一页浮力| 亚洲综合社区| 手机AV网址| 久久天天躁狠狠躁夜夜躁| 国产一区二区三区在线播| 亚洲伊人精品久视频国产| 奇米网777色在线精品| 97久久爽无码人妻AⅤ精品牛牛| 国产精品日韩av在线播放| 亚洲三级香港三级久久| 亚洲av伊人久久青青草原| 天堂av在线男女av| 久99久精品视频免费观看v| 国产偷倩视频| 亚洲日韩在线中文字幕第一页| 亚洲天堂免费看片资源| 成人+国产+高清| 人妻人人澡人人添人人爽国产一区| 日韩精品无码一区二区三区av| 亚洲a免费| 大地资源网视频观看免费高清| 精品无人乱码一区二区三区的优势| a视频在线免费观看| 美女视频黄频大全免费| 少妇人妻14页_麻花色|