0
雷鋒網 AI 科技評論按:隨著 ICCV 2019 發榜,許多學者已經開始公開以及傳播自己的 ICCV 錄用論文。計算機視覺領域重磅大佬、UC 伯克利 Jitendra Malik 和南京大學合作的一篇論文引發了我們的注意。我們也一同回顧一下與它相關的幾篇論文。
通過條件 IMLE 從語義布局圖中生成多樣的圖像
作者:Ke Li(UC 伯克利), Tianhao Zhang(南京大學), Jitendra Malik(UC 伯克利)
ICCV 2019 錄用論文
論文項目頁面:https://people.eecs.berkeley.edu/~ke.li/projects/imle/scene_layouts/

在對應白天-黑夜的隱含噪聲向量控制下,圖像內容可以在白天和黑夜之間進行連續的變化
亮點簡介:對于不使用 GANs 的,也就是基于端對端網絡的條件圖像生成以及圖像轉換任務來說,大多數現有方法都只能生成一張或者有限張好的圖像;甚至于,使用 GANs 的方法雖然理論上可以不受數量限制,但實際上也需要想辦法克服模式崩潰(mode collapse)問題,不然生成的圖像都大同小異。這篇論文就是 Jitendra Malik 等人對模式崩潰問題提出的解決方案,目標是能根據語義分割圖像生成任意多張對應的真實圖像,在保留同樣的語義布局的同時,可以有無限多的外觀變化。
他們的方法是使用了最近提出的 Implicit Maximum Likelihood Estimation (隱式最大似然估計,IMLE) 框架,在網絡中用隱含向量對應圖像外觀的不同因素,從而通過隱含向量的變化,控制圖像的外觀變化;這樣,對圖像風格的變化有了更多控制,通過不同向量的值的組合也就能讓得到的結果更多樣、不重復。另外,即便使用同樣的模型架構,他們的方法生成的圖像也瑕疵更少。雖然學習到的隱含空間缺乏監督,但是能夠學習到一些合理的結構,就能夠幫助讓模型發揮出很多的表現。
這篇論文的方法同時讓我們想起 ICCV 2017 論文 《Photographic Image Synthesis with Cascaded Refinement Networks》 和 CVPR 2019 論文 《A Style-Based Generator Architecture for Generative Adversarial Networks》。雷鋒網 AI 科技評論下面也做簡單介紹。
用級聯優化網絡生成照片級圖像
作者:斯坦福大學博士陳啟峰,英特爾實驗室視覺組主管 Vladlen Koltun
ICCV 2017 錄用論文

亮點簡介:在這篇論文發表時,用 GANs 生成大尺寸、高精度、高真實度圖像的方法尚未出現,這篇論文的成果可以說是一大突破;而且論文只用了端到端的網絡就達到了這個目標。
具體來說,「從一張真實世界的圖像生成語義分割布局圖像」這一監督學習任務已經得到了較好的解決,那么反過來,從「從語義布局圖像生成照片級圖像」也就是完全有可能的,這就為生成大尺寸、高精度、高真實度圖像打開了一扇窗戶。當然了,真的做到這一點還是需要一些技巧的,作者們通過大量實驗,總結出模型需要兼顧全局協調性、高分辨率、記憶力三個特點才能達到好的效果,并設計了對應的逐級提高分辨率的級聯優化網絡 CRN。另外,他們也采取了一些手段,首先讓模型生成多張不同的圖像,然后從多張圖像中選擇最真實的部分進行拼接。最終達到了非常好的效果。
一個基于風格的 GANs 圖像生成架構
論文作者:NVIDIA 實驗室 Tero Karras, Samuli Laine, Timo Aila
CVPR 2019 最佳論文之一
人臉生成公開 Demo:https://thispersondoesnotexist.com/
論文亮點:我們都知道,GANs 生成圖像都是從一個隨機種子開始的,然后我們就只能期盼這是一個好的隨機種子,可以帶來好的圖像 —— 說白了我們對中間的生成過程完全沒有控制。在條件圖像生成的論文中人們對這個問題有一些研究,但是沒有大的突破。
這篇論文提出的新架構從圖像風格遷移論文中得到了啟發。他們的模型架構可以自動地、無監督地學習到不同的高級別屬性(比如在人臉上訓練時可以學習到姿態和膚色),而且在生成的圖像中有足夠的隨機變化。他們方法的關鍵在于,對控制圖像中變化的隱含變量進行了解耦,這樣我們就得以具體地控制不同高級別屬性的取值以及它們的變化。他們提出的兩種新方法也可以用在任意的生成器架構中。
這三篇論文中,第一篇、第二篇論文都有「從語義布局圖生成圖像」,而第一篇和第三篇論文都有「學習隱含變量空間、嘗試隱含變量解耦」。這三篇論文值得放在一起讀一讀,仔細揣摩對比一下他們的做法。
雷鋒網 AI 科技評論報道。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。