<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給不靈叔
      發送

      2

      拋棄Learning Rate Decay吧!

      本文作者: 不靈叔 2018-01-24 09:47
      導語:祝大家煉丹愉快!

      雷鋒網AI科技評論按:本文為浙江大學吳騫為雷鋒網 AI 科技評論撰寫的獨家稿件,未經雷鋒網許可不得轉載。  

      論文題目: DON’T DECAY THE LEARNING RATE, INCREASE THE BATCH SIZE 

      論文地址:https://arxiv.org/abs/1711.00489 

      真的是生命不息,打臉不止。前幾天剛剛總結了常見的 learning rate decay 方法,最近又看到這篇正在投 ICLR2018 的盲審,求我現在的心理陰影的面積。。。 

      拋棄Learning Rate Decay吧!

      然后上 arxiv 一查,哦,Google 爸爸的,干貨滿滿,簡直不容反駁。。。 

      拋棄Learning Rate Decay吧!

      先點題: 

       不用衰減學習率啦,只要增大 Batch Size 就可以啦!

      摘要:  

      • 實際上作者在衰減學習率的時候同時也降低了SGD中隨機波動拋棄Learning Rate Decay吧!的值;衰減學習率類似于模擬退火;

      • 不同于衰減學習率,作者提出了在增加 Batch Size 的同時保持學習率的策略,既可以保證不掉點,還可以減少參數更新的次數;  

      • 作者還可以即增加學習率又增大 Batch Size,如此可以基本保持test中不掉點又進一步減少參數更新次數;  

      • 作者對比了自己的模型和另一篇著名論文(Accurate, large minibatch SGD: Training imagenet in 1 hour)中的模型,Batch Size:65536 - 8192;正確率:77% - 76%;參數更新次數:2500 - 14000; 

      隨即梯度下降法與曲線優化

      傳統的學習率遵循以下兩個約束: 

       拋棄Learning Rate Decay吧!(1)

      拋棄Learning Rate Decay吧! (2)

      直觀來看,公式1約束最小值優化的參數一定存在,公式2保證了衰減學習率有助于快速收斂至最小值處,而不是由于噪聲在震蕩。  

      然而以上結論是給予 Batch Size 不變推導出的。作者基于前作(A BAYESIAN PERSPECTIVE ON GENERALIZATION AND STOCHASTIC GRADIENT DESCENT)推導出另一個解釋優化過程的模型,并指出可以通過找到某個最優化的隨機波動值拋棄Learning Rate Decay吧!  (其中拋棄Learning Rate Decay吧!為學習率 , 拋棄Learning Rate Decay吧!為訓練數據集大小,  拋棄Learning Rate Decay吧!為 Batch Size 大小),使得模型達到最優值。

      模擬退火法和泛化能力下降

      廣泛的研究結果指出小 Batch Size 訓練的模型在 test 中的泛化能力比大 Batch Size 的要好。前作中還得出了固定學習率下的最大 Batch Size 優化值 拋棄Learning Rate Decay吧!,并驗證了拋棄Learning Rate Decay吧!與隨機噪聲值拋棄Learning Rate Decay吧!有關。

      研究者認為小 Batch 中的隨機誤差有助于 SGD 的收斂,尤其是在非凸曲線優化問題上。噪聲可以幫助 SGD 收斂至所謂平滑最小值(flat minima)而不是尖銳最小值(sharp minima)以保證 test 的泛化特性。

      作者發現大部分研究者在訓練過程中都使用了「early stop 」的方法(當驗證集的點數不再增高時停止訓練),因此作者實際上有意的阻止了網絡到達最小值。衰減學習率的成功是經驗式的。具體過程可以類比于模擬退火法中,較大的初始噪音有助于探索更大范圍內的參數空間而不是很快地陷入局部最優值;一旦作者找到了可能的最優區域后開始減少噪聲來 finetune 到最優值。

      而這也能解釋為什么近來越來越多的研究者開始使用 cosine 式衰減學習率或階梯形的衰減——物理退火法中,緩慢衰減溫度是系統收斂到某些銳利的全局最小值;而離散地降低溫度則有利于收斂到不是最低但足夠魯棒的區域。

      有效的學習率和累積變量

      許多研究者開始使用帶 momentum 的 SGD 下降法,其噪聲值與原始 SGD 稍有不同:

       拋棄Learning Rate Decay吧!(3)  

      拋棄Learning Rate Decay吧!時該噪聲將退化為原始 SGD 噪聲。對比兩種 SGD 可以得出帶 momentum 的 SGD 方拋棄Learning Rate Decay吧!法的有效學習率應為  。

      對比原始 SGD,作者可以推導:成比例的放大拋棄Learning Rate Decay吧!可以保持模型性能。然而,作者發現若成比例的縮放學習率拋棄Learning Rate Decay吧!和 Batch Size 表現良好,但是若按照拋棄Learning Rate Decay吧!倍縮放 Batch Size 和沖量系數拋棄Learning Rate Decay吧!的話則會導致 test 性能下降。這是因為沖量式的更新在時間上是累積的,因此當拋棄Learning Rate Decay吧!設置較大時需要額外的訓練次數才能保證模型處于相同水平,原文的補充材料中有較詳細的分析,此處不作解釋。  

      隨著沖量系數拋棄Learning Rate Decay吧!的增大,還會增加網絡忘記舊的梯度的時間(該時間和拋棄Learning Rate Decay吧!成正比),一旦時間跨度達到幾個 epoch 以上時,損失空間將會變得不利調整從而阻礙訓練。這種情況在學習率衰減的時候尤其明顯。這也是為什么有些論文推薦在初始的若干 epoch 時提升學習率。然而,在作者的大 Batch Size 實驗中,這種做法卻會帶來系統不穩定性。  

      實驗對比

      實驗中使用的網絡是「16-4」寬型殘差網絡結構(wide ResNet architecture),使用了 ghost batch norm 方法來保證平均梯度與 Batch Size 不相關。

      實驗中使用的對比策略是階梯形的,學習率階梯形下降,對應的,Batch Size 階梯形上升。

      拋棄Learning Rate Decay吧!

      圖中,藍線代表常見的保持 Batch Size,逐步衰減學習率的方法;紅線代表與之相反的,保持學習率,相應的上升 Batch Size 的策略;綠線模擬真實條件下,上升 Batch Size 達到顯存上限的時候,再開始下降學習率的策略。

      該實驗可以驗證兩個問題:

      學習率下降是否是必須的——若是則三條曲線應不同;

      是否是因為隨機噪聲的變化導致結果不同——若是則三條曲線相同;

      實驗結果如下(a)所示,并驗證了隨機噪聲與訓練曲線的相關性。

      拋棄Learning Rate Decay吧!

      實驗結果(b)進一步顯示增大 Batch Size 的好處,觀察損失值與參數更新次數的關系,顯然,增大 Batch Size 的方法中參數更新的次數遠少于衰減學習率的策略。

      下圖是兩種不同的梯度下降策略的 test 結果,顯然效果相差不大。

      拋棄Learning Rate Decay吧!

      增大學習率策略

      作者準備了四組實驗:  

      • Original training schedule:初始學習率設為 0.1,momentum 為 0.9,Batch Size 為 128,采用衰減學習率策略,每階段減少 5 倍;  

      • Increasing batch size:初始學習率設為 0.1,momentum 為 0.9,Batch Size 為 128,采用增大 Batch Size 策略,每階段增加 5 倍; 

      • Increased initial learning rate:初始學習率設為 0.5,momentum 為 0.9,Batch Size 為 640,采用增大 Batch Size 策略,每階段增加 5 倍;  

      • Increased momentum coefficient:初始學習率設為 0.5,momentum 為 0.98,Batch Size 為 3200,采用增大 Batch Size 策略,每階段增加 5 倍; 

      當 Batch Size 增加到最大值拋棄Learning Rate Decay吧!后即不再增加,以保證拋棄Learning Rate Decay吧!,并相應的開始減少學習率。 

      結果如下所示,結論與上文相同,方法4的結果稍差也在章節有效的學習率和累積變量中有所解釋。 

      訓練 IMAGENET 只用更新 2500 次參數

      論文 Accurate, large minibatch SGD: Training imagenet in 1 hour 中的參數與試驗參數設置和結果對比如下: 

      拋棄Learning Rate Decay吧!

       上述論文中的 Batch Size 已經達到了保持網絡穩定的最大值,為了進一步擴大 Batch Size 可以適當增大 momentum 的值。最終,作者的網絡達到了顯存的上限拋棄Learning Rate Decay吧!并保證了拋棄Learning Rate Decay吧! 。其參數設置與結果如下所示,可以看到準確率下降不大但是有效減少了參數的更新次數。 

      拋棄Learning Rate Decay吧!

       增大 Batch Size 就可以不用衰減學習率了,emmm,聽起來很有道理,但是總感覺哪里不對...

      拋棄Learning Rate Decay吧!

       最后,祝大家煉丹愉快!      

      雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知

      拋棄Learning Rate Decay吧!

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 精品国产成人A区在线观看| 性色av无码久久一区二区三区| av一区二区三区| 国产女人18毛片水真多1| 无码天堂| 国模吧双双大尺度炮交gogo | 乳源| 国产精品成| 国产在视频线精品视频| 国产成人小视频| 人妻丰满熟妇无码区免费| 精品无码av无码专区| 国产精品原创av片国产日韩| 中文无码高潮到痉挛在线视频| 欧产日产国产精品精品| 老司机夜间福利| 狠狠干奇米| 亚洲欧美综合精品成人网| 69精品国产久热在线观看| 久久人妻无码AⅤ毛片评价| 亚洲日韩日本中文在线| 天堂网www在线资源网| 国产精品久久777777| 国产精品亚洲精品日韩已满十八小| 极品虎白一线天馒头最新消息| 撸色网| 无码午夜福利免费区久久| www.伊人五月天| 日韩精品人妻中文字幕| 亚洲色成人网站www永久男男| 最新精品国偷自产在线| 欧美人妖性爱| 99热国产在线精品99| aaa少妇高潮大片免费看| 群交射精白浆视频| 蜜桃av多人一区二区三区| 亚洲精品国产第一页第二页_久久精品国产亚洲a片无码_国产精品乱码一区二区三 | 亚洲熟妇丰满大屁股熟妇| 国产精品香港三级国产av| 九一九色国产| 亚洲第一极品精品无码久久|