<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給汪思穎
      發(fā)送

      0

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      本文作者: 汪思穎 2019-06-18 14:10 專題:ICML 2019
      導(dǎo)語(yǔ):針對(duì)不同自然語(yǔ)言應(yīng)用的神經(jīng)網(wǎng)絡(luò),尋找恰當(dāng)?shù)臄?shù)學(xué)工具去建模其中層特征所建模的信息量,并可視化其中層特征的信息分布,進(jìn)而解釋不同模型的性能差異。

      雷鋒網(wǎng) AI 科技評(píng)論按,本文作者張拳石,上海交通大學(xué)副教授,研究方向?yàn)闄C(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺(jué),本文首發(fā)于知乎,雷鋒網(wǎng) AI 科技評(píng)論獲其授權(quán)轉(zhuǎn)載。以下為正文內(nèi)容。

      本來(lái)想把題目取為「從煉丹到化學(xué)」,但是這樣的題目太言過(guò)其實(shí),遠(yuǎn)不是近期可以做到的,學(xué)術(shù)研究需要嚴(yán)謹(jǐn)。但是,尋找適當(dāng)?shù)臄?shù)學(xué)工具去建模深度神經(jīng)網(wǎng)絡(luò)表達(dá)能力和訓(xùn)練能力,將基于經(jīng)驗(yàn)主義的調(diào)參式深度學(xué)習(xí),逐漸過(guò)渡為基于一些評(píng)測(cè)指標(biāo)定量指導(dǎo)的深度學(xué)習(xí),是新一代人工智能需要面對(duì)的課題,也是在當(dāng)前深度學(xué)習(xí)渾渾噩噩的大背景中的一些新的希望。

      這篇短文旨在介紹團(tuán)隊(duì)近期的 ICML 工作——「Towards a Deep and Unified Understanding of Deep Neural Models in NLP」(這篇先介紹 NLP 領(lǐng)域,以后有時(shí)間再介紹類似思想解釋 CV 網(wǎng)絡(luò)的論文)。這是我與微軟亞洲研究院合作的一篇論文。其中,微軟研究院的王希廷研究員在 NLP 方向有豐富經(jīng)驗(yàn),王老師和關(guān)超宇同學(xué)在這個(gè)課題上做出了非常巨大的貢獻(xiàn),這里再三感謝。

      大家說(shuō)神經(jīng)網(wǎng)絡(luò)是「黑箱」,其含義至少有以下兩個(gè)方面:一、神經(jīng)網(wǎng)絡(luò)特征或決策邏輯在語(yǔ)義層面難以理解;二、缺少數(shù)學(xué)工具去診斷與評(píng)測(cè)網(wǎng)絡(luò)的特征表達(dá)能力(比如,去解釋深度模型所建模的知識(shí)量、其泛化能力和收斂速度),進(jìn)而解釋目前不同神經(jīng)網(wǎng)絡(luò)模型的信息處理特點(diǎn)。

      過(guò)去我的研究一直關(guān)注第一個(gè)方面,而這篇 ICML 論文同時(shí)關(guān)注以上兩個(gè)方面——針對(duì)不同自然語(yǔ)言應(yīng)用的神經(jīng)網(wǎng)絡(luò),尋找恰當(dāng)?shù)臄?shù)學(xué)工具去建模其中層特征所建模的信息量,并可視化其中層特征的信息分布,進(jìn)而解釋不同模型的性能差異。

      其實(shí),我一直希望去建模神經(jīng)網(wǎng)絡(luò)的特征表達(dá)能力,但是又一直遲遲不愿意下手去做。究其原因,無(wú)非是找不到一套優(yōu)美的數(shù)學(xué)建模方法。深度學(xué)習(xí)研究及其應(yīng)用很多已經(jīng)被人詬病為「經(jīng)驗(yàn)主義」與「拍腦袋」,我不能讓其解釋性算法也淪為經(jīng)驗(yàn)主義式的拍腦袋——不然解釋性工作還有什么意義。

      研究的難點(diǎn)在于對(duì)神經(jīng)網(wǎng)絡(luò)表達(dá)能力的評(píng)測(cè)指標(biāo)需要具備「普適性」和「一貫性」。首先,這里「普適性」是指解釋性指標(biāo)需要定義在某種通用的數(shù)學(xué)概念之上,保證與既有數(shù)學(xué)體系有盡可能多的連接,而與此同時(shí),解釋性指標(biāo)需要建立在盡可能少的條件假設(shè)之上,指標(biāo)的計(jì)算算法盡可能獨(dú)立于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)任務(wù)的選擇。

      其次,這里的「一貫性」指評(píng)測(cè)指標(biāo)需要客觀的反應(yīng)特征表達(dá)能力,并實(shí)現(xiàn)廣泛的比較,比如

      1. 診斷與比較同一神經(jīng)網(wǎng)絡(luò)中不同層之間語(yǔ)義信息的繼承與遺忘;

      2. 診斷與比較針對(duì)同一任務(wù)的不同神經(jīng)網(wǎng)絡(luò)的任意層之間的語(yǔ)義信息分布;

      3. 比較針對(duì)不同任務(wù)的不同神經(jīng)網(wǎng)絡(luò)的信息處理特點(diǎn)。

      具體來(lái)說(shuō),在某個(gè) NLP 應(yīng)用中,當(dāng)輸入某句話 x=[x1,x2,…,xn] 到目標(biāo)神經(jīng)網(wǎng)絡(luò)時(shí),我們可以把神經(jīng)網(wǎng)絡(luò)的信息處理過(guò)程,看成對(duì)輸入單詞信息的逐層遺忘的過(guò)程。即,網(wǎng)絡(luò)特征每經(jīng)過(guò)一層傳遞,就會(huì)損失一些信息,而神經(jīng)網(wǎng)絡(luò)的作用就是盡可能多的遺忘與目標(biāo)任務(wù)無(wú)關(guān)的信息,而保留與目標(biāo)任務(wù)相關(guān)的信息。于是,相對(duì)于目標(biāo)任務(wù)的信噪比會(huì)逐層上升,保證了目標(biāo)任務(wù)的分類性能。

      我們提出一套算法,測(cè)量每一中層特征 f 中所包含的輸入句子的信息量,即 H(X|F=f)。當(dāng)假設(shè)各單詞信息相互獨(dú)立時(shí),我們可以把句子層面的信息量分解為各個(gè)單詞的信息量 H(X|F=f) = H(X1=x1|F=f) + H(X2=x2|F=f) + … + H(Xn=xn|F=f). 這評(píng)測(cè)指標(biāo)在形式上是不是與信息瓶頸理論相關(guān)?但其實(shí)兩者還是有明顯的區(qū)別的。信息瓶頸理論關(guān)注全部樣本上的輸入特征與中層特征的互信息,而我們僅針對(duì)某一特定輸入,細(xì)粒度地研究每個(gè)單詞的信息遺忘程度。

      其實(shí),我們可以從兩個(gè)不同的角度,計(jì)算出兩組不同的熵 H(X|F=f)。

      (1)如果我們只關(guān)注真實(shí)自然語(yǔ)言的低維流形,那么 p(X=x|F=f) 的計(jì)算比較容易,可以將 p 建模為一個(gè) decoder,即用中層特征 f 去重建輸入句子 x。(2)在這篇文章中,我們其實(shí)選取了第二個(gè)角度:我們不關(guān)注真實(shí)語(yǔ)言的分布,而考慮整個(gè)特征空間的分布,即 x 可以取值為噪聲。在計(jì)算 p(X=x,F=f) = p(X=x) p(F=f|X=x) 時(shí),我們需要考慮「哪些噪聲輸入也可以生成同樣的特征 f」。舉個(gè) toy example,當(dāng)輸入句子是「How are you?」時(shí),明顯「are」是廢話,可以從「How XXX you?」中猜得。這時(shí),如果僅從真實(shí)句子分布出發(fā),考慮句子重建,那些話佐料(「are」「is」「an」)將被很好的重建。而真實(shí)研究選取了第二個(gè)角度,即我們關(guān)注的是哪些單詞被神經(jīng)網(wǎng)絡(luò)遺忘了,發(fā)現(xiàn)原來(lái)「How XYZ you?」也可以生成與「How are you?」一樣的特征。

      這時(shí),H(X|F=f) 所體現(xiàn)的是,在中層特征 f 的計(jì)算過(guò)程中,哪些單詞的信息在層間傳遞的過(guò)程中逐漸被神經(jīng)網(wǎng)絡(luò)所忽略——將這些單詞的信息替換為噪聲,也不會(huì)影響其中層特征。這種情況下,信息量 H(X|F=f) 不是直接就可以求出來(lái)的,如何計(jì)算信息量也是這個(gè)課題的難點(diǎn)。具體求解的公式推導(dǎo)可以看論文,知乎上只放文字,不談公式。

      首先,從「普適性」的角度來(lái)看,中層特征中輸入句子的信息量(輸入句子的信息的遺忘程度)是信息論中基本定義,它只關(guān)注中層特征背后的「知識(shí)量」,而不受網(wǎng)絡(luò)模型參數(shù)大小、中層特征值的大小、中層卷積核順序影響。其次,從「一貫性」的角度來(lái)看,「信息量」可以客觀反映層間信息快遞能力,實(shí)現(xiàn)穩(wěn)定的跨層比較。如下圖所示,基于梯度的評(píng)測(cè)標(biāo)準(zhǔn),無(wú)法為不同中間層給出一貫的穩(wěn)定的評(píng)測(cè)。

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      下圖比較了不同可視化方法在分析「reverse sequence」神經(jīng)網(wǎng)絡(luò)中層特征關(guān)注點(diǎn)的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡(luò)內(nèi)部信息處理邏輯。

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      下圖分析比較了不同可視化方法在診斷「情感語(yǔ)義分類」應(yīng)用的神經(jīng)網(wǎng)絡(luò)中層特征關(guān)注點(diǎn)的區(qū)別。我們基于輸入單詞信息量的方法,可以更加平滑自然的顯示神經(jīng)網(wǎng)絡(luò)內(nèi)部信息處理邏輯。

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      基于神經(jīng)網(wǎng)絡(luò)中層信息量指標(biāo),分析不同神經(jīng)網(wǎng)絡(luò)模型的處理能力。我們分析比較了四種在 NLP 中常用的深度學(xué)習(xí)模型,即 BERT, Transformer, LSTM, 和 CNN。在各 NLP 任務(wù)中,BERT 模型往往表現(xiàn)最好,Transformer 模型次之。

      如下圖所示,我們發(fā)現(xiàn)相比于 LSTM 和 CNN,基于預(yù)訓(xùn)練參數(shù)的 BERT 模型和 Transformer 模型往往可以更加精確地找到與任務(wù)相關(guān)的目標(biāo)單詞,而 CNN 和 LSTM 往往使用大范圍的鄰接單詞去做預(yù)測(cè)。

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      進(jìn)一步,如下圖所示,BERT 模型在預(yù)測(cè)過(guò)程中往往使用具有實(shí)際意義的單詞作為分類依據(jù),而其他模型把更多的注意力放在了 and the is 等缺少實(shí)際意義的單詞上。

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      如下圖所示,BERT 模型在 L3-L4 層就已經(jīng)遺忘了 EOS 單詞,往往在第 5 到 12 層逐漸遺忘其他與情感語(yǔ)義分析無(wú)關(guān)的單詞。相比于其他模型,BERT 模型在單詞選擇上更有針對(duì)性。

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      我們的方法可以進(jìn)一步細(xì)粒度地分析,各個(gè)單詞的信息遺忘。BERT 模型對(duì)各種細(xì)粒度信息保留的效果最好。

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      十多年前剛剛接觸 AI 時(shí)總感覺(jué)最難的是獨(dú)立找課題,后來(lái)發(fā)現(xiàn)追著熱點(diǎn)還是很容易拍腦袋想出一堆新題目,再后來(lái)發(fā)現(xiàn)真正想做的課題越來(lái)越少,雖然 AI 領(lǐng)域中學(xué)者們的投稿量一直指數(shù)增長(zhǎng)。

      回國(guó)以后,身份從博后變成了老師,帶的學(xué)生增加了不少,工作量也翻倍了,所以一直沒(méi)有時(shí)間寫(xiě)文章與大家分享一些新的工作,如果有時(shí)間還會(huì)與大家分享更多的研究,包括這篇文章后續(xù)的眾多算法。信息量在 CV 方向應(yīng)用的論文,以及基于這些技術(shù)衍生出的課題,我稍后有空再寫(xiě)。

      順便做個(gè)廣告,歡迎有能力的學(xué)生來(lái)實(shí)驗(yàn)室實(shí)習(xí),同時(shí)也招博后。目前我的團(tuán)隊(duì)有 30 余人,其中不少同學(xué)是外校全職訪問(wèn)實(shí)習(xí)生。我一般會(huì)安排每三四人為一個(gè)團(tuán)隊(duì)做一個(gè)課題,由于訪問(wèn)實(shí)習(xí)生往往不用為上課而分心,可以全天候做實(shí)驗(yàn)室工作,在經(jīng)過(guò)一定訓(xùn)練之后往往會(huì)擔(dān)任團(tuán)隊(duì)領(lǐng)導(dǎo)。

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

      ICML 2019 | 神經(jīng)網(wǎng)絡(luò)的可解釋性,從經(jīng)驗(yàn)主義到數(shù)學(xué)建模

      分享:

      編輯

      關(guān)注AI學(xué)術(shù),例如論文
      當(dāng)月熱門(mén)文章
      最新文章
      請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 欧美一道本| 亚洲乱码国产乱码精品精大量| 人妻无码| 大香焦一区二区三区| 国产v亚洲v天堂a无码99 | 国产偷国产偷亚洲高清app| 成人av免费| 亚洲精品熟女| 国产精品视频一区二区猎奇| 色综合综合天天成人网| 亚洲人成网站在线在线观看| 欧美日韩国产码高清| 免费看无码毛视频成片| 午夜福利92国语| 国产欧美一区二区精品性色超碰| 亚洲乱熟女av| 阳曲县| 玩朋友的丰满人妻| 国产69精品久久久久999小说| 久久另类小说| 国产欧美亚洲精品a| 白嫩少妇bbw撒尿视频| 日本丶国产丶欧美色综合| 午夜精品视频在线看| 亚洲综合图| 九寨沟县| 国产天堂亚洲国产碰碰| 亚洲第一视频区| 无码天堂成人| 国产精品自在线拍国产手青青机版| 亚洲成av人片在一线观看| 人人摸人人搞人人透| 成人免费无码视频在线网站| 欧美视频免费一区二区三区 | 国产又粗又猛又爽又黄AV| 无码人妻精品一区二区三区夜夜嗨| 亚洲日韩Av中文字幕无码| 人妻熟妇乱又伦精品视频无广告 | 国产综合久久久久鬼色| 97人人模人人爽人人少妇| 中文人妻熟妇乱又伦精品 |