<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給skura
      發送

      0

      用特別設計的損失處理非均衡數據

      本文作者: skura 2019-09-22 08:47
      導語:CVPR 2019論文點評

      本文是對 CVPR 2019 論文「Class-Balanced Loss Based on Effective Number of Samples」的一篇點評,全文如下:

      這篇論文針對最常用的損耗(softmax 交叉熵、focal loss 等)提出了一種按類重新加權的方案,以快速提高精度,特別是在處理類高度不平衡的數據時尤其有用。

      本文的實現方法(PyTorch)的 github 地址為:https://github.com/vandit15/Class-balanced-loss-pytorch

      有效樣本數

      在處理長尾數據集(一個數據集的大多數樣本屬于少數類,而其它許多類的數據很少)時,決定如何權衡不同類的損失是很棘手的。通常,權重設置為類支持的逆或類支持的平方根的逆。

      用特別設計的損失處理非均衡數據

      傳統重加權與這里提到的重加權

      然而,如上圖所示,這種現象是因為隨著樣本數的增加,新數據點帶來的額外好處減少了。在訓練神經網絡時使用重數據增強(如重縮放、隨機裁剪、翻轉等)時,新添加的樣本很可能是現有樣本的近似副本。用有效樣本數重新加權得到了較好的結果。

      有效樣本數可以想象為 n 個樣本覆蓋的實際體積,其中總體積 N 由總樣本數表示。

      用特別設計的損失處理非均衡數據

      有效樣本數

      我們寫出其公式:

      用特別設計的損失處理非均衡數據

      有效樣本數

      這里,我們假設一個新的樣本將只以兩種方式與先前采樣的數據交互:完全覆蓋或完全沒有交集(如上圖所示)。在這種假設下,用歸納法可以很容易地證明上述表達式(請參閱本文的證明)。

      我們也可以像下面這樣寫:

      用特別設計的損失處理非均衡數據

      每個樣本的貢獻

      這意味著第 j 個樣本對有效樣本數貢獻為 β^(j-1)。

      上述方程的另一個含義是,如果 β=0,則 En=1。同時,En=n 則 β=1。后者可以很容易地用 L'Hopital's 法則證明。這意味著當 N 很大時,有效樣本數與樣本數相同。在這種情況下,唯一原型數 N 很大,每個樣本都是唯一的。然而,如果 N=1,這意味著所有數據都可以用一個原型表示。

      類平衡損失

      如果沒有額外的信息,我們不能為每個類設置單獨的 β 值,因此,使用整個數據,我們會將其設置為特定值(通常設置為0.9、0.99、0.999、0.9999 之一的數值)。

      因此,類平衡損失可以寫成:

      用特別設計的損失處理非均衡數據

      CB 損失

      這里,L(p,y)  可以是任何損失函數。

      類平衡 focal loss

      用特別設計的損失處理非均衡數據

      類平衡 focal loss

      原始版本的 focal loss 有一個 alpha 平衡變量。相反,我們將使用每個類的有效樣本數對其重新加權。

      類似地,這種重新加權項也可以應用于其他著名的損失(sigmoid 交叉熵、softmax 交叉熵等)。

      應用

      在開始應用之前,在使用基于 sigmoid 的損耗進行訓練時要注意一點:用 b=-log(c-1)初始化最后一層的偏差,其中類的數量是 c,而不是 0。這是因為設置 b=0 在訓練開始時會導致巨大的損失——每個類的輸出概率接近 0.5。因此,我們可以假設類 prior 是 1/c,并相應地設置值 b。

      類的權重計算

      用特別設計的損失處理非均衡數據

      計算標準化權重

      上面的代碼行是一個簡單的實現,獲取權重并將其標準化。

      用特別設計的損失處理非均衡數據

      獲取 one-hot 標簽的 PyTorch 張量

      在這里,我們得到權重的 one hot 值,這樣它們就可以分別與每個類的損失值相乘。

      實驗

      用特別設計的損失處理非均衡數據

      類平衡提供了顯著的優勢,特別是當數據集高度不平衡時(不平衡=200100)。

      結論

      利用有效樣本數的概念,可以解決數據重合的問題。由于我們沒有對數據集本身做任何假設,因此重新加權項通常適用于多個數據集和多個損失函數。因此,類不平衡的問題可以用一個更合適的結構來解決,這一點很重要,因為現實世界中的大多數數據集都存在大量的數據不平衡。

      參考

      [1] Class-Balanced Loss Based on Effective Number of Samples: https://arxiv.org/abs/1901.05555 

      via:https://towardsdatascience.com/handling-class-imbalanced-data-using-a-loss-specifically-made-for-it-6e58fd65ffab

      雷鋒網雷鋒網雷鋒網

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      用特別設計的損失處理非均衡數據

      分享:
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 人妻丰满熟妇av无码区| 免费看视频的网站| 久久久www成人免费精品| 日韩高清在线中文字带字幕| 亚洲羞羞| 亚洲欧洲AV| 三级国产在线观看| 秋霞无码久久一区二区| 在线天堂最新版资源| 锡林郭勒盟| 国产69精品久久久久人妻刘玥| 无码簧片| 国产3p视频| 美女毛片| 爆乳熟妇一区二区三区| 精品中文人妻在线不卡| 成人国产一区二区三区| 亚洲精品无码永久中文字幕| 日韩新无码精品毛片| 亚洲国产精品久久一线不卡| 成人三级精品| 久久久久亚洲精品中文字幕| 亚洲综合无码| 日韩精品人妻中文字幕不卡乱码| 日本一区二区三区在线播放| 欧美激情中文字幕在线一区二区| 人妻无码vs中文字幕久久av爆| 天天爽夜夜爽天天做夜夜做| 日本不卡一区二区三区| 国产国模一区二区三区四区| 狠狠综合久久久久综合网址| 铜山县| 久久国产精品久久久久久| 香蕉av在线| 国产色婷婷精品综合在线| 五月综合视频| 日韩人妻中文字幕一区| 日韩在线天堂| 中文字幕亚洲有码| 国产乱子伦真实精品!| 中国普通话特级毛片|