0
| 本文作者: 我在思考中 | 2021-08-26 10:30 |

作者 | 盧治合
編輯 | 王曄
本文是對發表于計算機視覺領域的頂級會議 ICCV 2021的論文“Simpler is Better: Few-shot Semantic Segmentation with Classifier Weight Transformer(簡而優:用分類器變換器進行小樣本語義分割)”的解讀。
該論文由英國薩里大學Centre for Vision, Speech and Signal Processing (CVSSP)發表,針對小樣本語義分割問題,提出一種更加簡潔的元學習范式,即只對分類器進行元學習,對特征編碼解碼器采用常規分割模型訓練方式。元學習訓練后的Classifier Weight Transformer使分類器可以動態地適應測試樣本,從而提高分割準確率。
論文:https://arxiv.org/pdf/2108.03032.pdf
背景
得益于大型的標簽數據和深度學習算法的發展,語義分割方法近幾年取得了很大的進步。但這些方法有兩個局限:
1)過度依賴帶標簽數據,而這些數據的獲得通常消耗大量人力物力;
2)訓練好的模型并不能處理訓練過程中未見的新類別。
面對這些局限,小樣本語義分割被提出來,它的目的是通過對少量樣本的學習來分割新類別。一般來說,小樣本語義分割方法是通過用訓練數據模擬測試環境進行元學習使得訓練的模型有很好的泛化能力,從而在測試時可以僅僅利用幾個樣本的信息來迭代模型完成對新類別的分割。具體地,小樣本分割模型是在大量的模擬任務上進行訓練,每個模擬任務有兩個數據組:Support set and Query set。Support set 是有標簽的K-shot樣本,而Query set只在訓練的時候有標簽。這樣的模擬任務可以有效地模擬測試環境。
方法
一個小樣本分類系統一般由三部分構成:編碼器,解碼器和分類器。其中,前兩個模塊模型比較復雜,最后一個分類器結構簡單。我們發現現存的小樣本分類方法通常在元學習的過程中更新所有模塊或者除編碼器外的模塊,而所利用更新模塊的數據僅僅有幾個樣本。在這樣的情況下,我們認為模型更新的參數量相比于數據提供的信息量過多,從而不足以優化模型參數。基于此分析,我們提出了一個全新的元學習訓練范式,即只對分類器進行元學習。為了方便讀者更好的理解,我們給出了兩種方式的對比,如圖1。

具體地,我們采用常規的分割方法對編碼器和解碼器進行訓練,訓練后在元學習的過程中不在更新。這是基于我們的假設:在大量標簽數據訓練下的模型可以提取有辨別性的特征,對一些新類別也有效,這也可以解釋很多方法直接使用ImageNet預訓練的模型進行特征提取。在分析數據的時候,我們發現Support set和Query set的數據有時有較大的類內差異,如圖2。同樣的類別,不同的角度即可產生很大的區別。這就使得利用Support set迭代的模型不能很好地作用在Query set上。

為了解決這個問題,我們提出了Classifier Weight Transformer來動態地利用Query set的特征信息來進一步更新分類器模塊,從而提升分割任務性能。我們的模型框架如圖3。

具體的算法細節請參考原文。
實驗
在兩個標準小樣本分割數據集PASCAL和COCO上,我們的方法在大多數情況下取得了最優的結果。

此外,我們在一種跨數據集的情景下測試了我們模型的性能,可以看出我們的方法展示了很好的魯棒性。

可視化結果也進一步支持我們的實驗結果。

更多的對比結果請參考文章。
結語
我們提出了一種新的元學習訓練范式來解決小樣本語義分割問題。相比于現有的方法,這種方法更加簡潔有效,只對分類器進行元學習。為了解決類內差異問題,我們提出Classifier Weight Transformer來利用Query特征信息來迭代分類器,從而獲得更加魯棒的分割效果。通過大量的實驗,我們證明了方法的有效性。
加入ICCV2021交流群:添加小助手微信(AIyanxishe3),備注ICCV2021拉你進群。
雷鋒網雷鋒網雷鋒網
雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知。