0
| 本文作者: 汪思穎 | 2018-06-21 09:40 |
雷鋒網 AI 研習社按,在 CVPR 2018 機器學習圖像壓縮挑戰賽(CLIC)上,圖鴨科技壓縮團隊獲得壓縮算法 MOS 和 MS-SSIM 值第一名的成績,這是中國企業在該賽事上取得的最高名次。(圖鴨科技憑借在 CLIC 中 MOS 和 MS-SSIM 指標第一,在雷鋒網學術頻道 AI 科技評論旗下數據庫項目「AI 影響因子」中增加 10 分。)
CVPR 作為計算機視覺領域的全球頂級會議,其一直關注計算機視覺領域的發展,為了促進計算機視覺領域圖片壓縮的發展,Google 聯合 twitter、Netflix 等聯合贊助了機器學習圖像壓縮挑戰賽(CLIC)。本次挑戰賽中有來自全球各地的圖片壓縮團隊,主要從 PSNR、MOS、MS-SSIM 這三個業界通用的圖像質量評估(Image Quality Assessment,IQA)標準和解碼速度(評分較高的隊伍里解碼速度最快)四個方面進行評比。
賽后,圖鴨科技圖片壓縮團隊提交了自己關于深度學習圖片壓縮方向的論文,他們為雷鋒網 AI 研習社撰寫了關于這篇論文的獨家解讀。
摘要:
最近機器學習的方法被廣泛應用到有損圖像壓縮設計中,基于自編碼網絡的算法取得了非常好的算法性能。一個典型的基于神經網絡的圖像壓縮框架包括:自編碼網絡結構、量化、先驗概率模型、碼率估計和率-失真優化等幾個模塊。本文中我們提出了一種可用于低碼率圖像壓縮,并可進行端到端優化的圖像壓縮框架。在驗證集和測試集上的實驗結果均表明,當使用主觀測評標準作為損失函數,在 MS-SSIM 和 MOS 等主觀性能指標上能取得最優的性能。
問題建模:
自編碼網絡的作用是將數據從圖像空間
x 轉換到數據編碼空間 y,它包含一個編碼器
fe 和解碼器
fd。編碼器的作用是將圖像像素值 x
轉換為壓縮變量
。然后通過量化函數
,生成離散向量。然后使用算術編碼等熵編碼技術將量化后的離散數據進行無損壓縮,然后壓縮后的比特流被用于傳輸。在接收端,接收到比特流后,然后使用解碼器從量化后的變量中重建出原圖
,碼率可用熵的結構進行建模
。我們可使用先驗分布
對
進行估計。可以使用帶參數的方式對先驗分布進行擬合,然后用數據驅動的方式對先驗概率模型進行學習。在壓縮模型中,失真 D 能用均方誤差
進行表示,或使用如 MS-SSIM 之類的主觀失真進行計算。對碼率和失真進行加權的損失函數
用以對自編碼壓縮算法進行端到端的優化。在整個系統中,對先驗模型
和量化的聯合優化是設計高效壓縮算法最需要考慮的技術。
方法介紹:
(1) 編碼器和解碼器
我們的壓縮自編碼網絡使用了如圖 1 所示的非對稱結構,它包括卷積和非線性單元等模塊。

圖 1:編碼器和解碼器結構示意圖
(2) 量化:
在訓練過程中,使用加性均勻噪聲設計量化器,表示方式為
,其中
是隨機噪聲。其中變量
的熵能用變量
的熵進行估計,因此在測量過程中,我們能使用
作為量化操作。這樣一種方式下,也能對碼率進行準確的估計。
(3) 先驗概率和碼率估計
自然圖像的數據分布一般被認為是符合高斯分布,所以我們用零均值,方差表示為
的拉普拉斯分布

,對特征
的概率分布進行建模,概率的公式如下所示:
其中設計了一個自編碼網絡對方差進行學習,自編碼網絡的結構如圖 2 所示

圖 2:用于方差超參數學習的自編碼網絡
壓縮表示
作為超參數自編碼網絡的輸入,對標準差分布進行學習。在超參自編碼網絡中,變量 Z 的學習公式表示為
,然后使用如上介紹的方式進行量化,量化公式為
,然后被量化后的表示可作為附加變量進行傳輸。

圖 3:后處理算法結構示意圖
(4) 后處理
低碼率壓縮算法重建圖最顯著的缺點是存在偽影,并且很多紋理細節會丟失。為了改進在低碼率條件下重建圖的質量,我們設計一個有效的后處理模塊,后處理模塊的具體細節如圖 3 所示。
(5) 優化碼率控制
率-失真優化是很多算法,如 HEVC 算法或 JPEG2000 算法中經常使用的策略。考慮到碼字約束,我們構建了一個進行碼率有效分配的優化算法,目的是在碼率約束的條件下,為每張圖選擇最優的模型。每張圖的最優配置,通過優化以下的優化問題進行選擇。

(6) 實驗結果
我們的方法參加了 CVPR 2018 CLIC 圖像壓縮挑戰賽,在相應的驗證集和測試集上的結果如表 1 所示。我們的算法 tucodecTNGcnn4p 取得了 MS-SSIM 和 MOS 兩項指標排名第一,算法 tucodecTNG 取得了 PSNR 指標排名第二的成績。在驗證集和測試集上的實驗結果如表 1 所示。

表 1:在驗證集和測試集上的實驗結果
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。