0
| 本文作者: 雪莉?休斯敦 | 編輯:郭奕欣 | 2017-04-25 10:23 | 專題:ICLR 2017 |
雷鋒網AI科技評論按:ICLR 2017 于4月24-26日在法國土倫舉行,雷鋒網AI科技評論的編輯們也于法國帶來一線報道。在這個深度學習會議舉辦之際,雷鋒網也圍繞會議議程及論文介紹展開一系列的覆蓋和專題報道,敬請期待。

由西北大學(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特爾的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期發表的論文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,當選 ICLR 2017的oral paper。文章描述了在傳統神經網絡訓練時,大的 batch size(如,超過512)會導致網絡模型泛化能力下降的問題,并通過實驗證明其原因是泛化誤差和尖銳收斂,并提出了一些解決方案。
很多深度學習過程中都在算法上應用了隨機梯度下降的方法或隨機梯度下降的衍生方法。但是這種方法一般適用于小批量(樣本數量在32-512之間)的計算。觀察數據顯示,當大批量計算時(樣品數量超過512),如果用泛化能力作為標準的話,模型的計算質量就會下降。Intel與西北大學研究的這篇文章,就這個問題進行了討論,并提出了大量的證據證明大批量的方法會傾向于將模型和函數歸一化,從而導致尖銳收斂,并最終生成了比較差的泛化效果。
論文分析了在小批量情況下結果不同的原因,并提出這種不同來自于在梯度預測時內部噪聲的差異。如下圖片,在這個案例中,隨機的選擇一組小批量(SB)和大批量(LB)的最小值,可以發現,LB極小值比SB極小值更加尖銳。因此,泛化能力則更低一些。同時,論文還就減小泛化間隙的問題提出了在大批量計算中適用的幾種策略,開放性的預留了未來的討論點,包括在大批量計算中可進行的尖銳收斂和可能的優化方案。

論文鏈接:https://openreview.net/pdf?id=H1oyRlYgg
原文鏈接:https://openreview.net/forum?id=H1oyRlYgg¬eId=H1oyRlYgg
對這篇論文的評論普遍非常正面,這說明了這篇論文映射了一個在工程應用領域普遍存在的問題。我相信整個研究環境會通過閱讀這篇論文得到一些建設性的解決問題的新思路。
決定:接受(Oral)
評分:8分,Top 50%,明確接受
評論:這是一篇很有趣的文章,就為什么大批量訓練效果變差的原因進行了分析,這對整個深度學習的社區有著重要的意義。
評論:我想這篇文章明確了一點,大批量計算時,泛化效果就會變差。并通過對比分析大批量和小批量的失真函數進行了很好的闡釋。
評分:10分,Top 5%,這是一篇研討會文章
評分:6分,剛好及格
評價:我覺得這篇文章還不錯,很有趣也很有用,但是如果增加更多的論證,比如增加一些高斯噪聲梯度的分析。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。
本專題其他文章