朋克學術大牛上演“換頭術”，原來深度學習還能這樣玩！（附論文下載）｜SIGGRAPH ASIA 2016

本文作者：奕欣

2016-12-05 21:00

導語：今天早上的主題分享為“geometric deep learning”（幾何深度學習），主要介紹了目前在深度學習技術下目前的3D圖像分析研究進展。

電影及視頻游戲行業的新興及發展，無疑是計算機圖像研究領域的一劑催化劑。SIGGRAPH ASIA 2016 的學術主席，倫敦學院教授 Niloy Mitra 在開幕式上表示，「計算機圖像技術正在對實體產業產生影響，比如為產品視覺化及圖像優化提供工具。這項技術源于視覺效果及游戲產業的計算機圖像需求，并為數學、物理、藝術及計算機科學提供一座融合的橋梁。」

而作為 A 類會議的 SIGGNRAPH ASIA 2016，又怎能錯過這一領域的學術交流及分享？今天早上的主題分享為「geometric deep learning」（幾何深度學習），主要介紹了目前在深度學習技術下目前的 3D 圖像分析研究進展，并圍繞（非）歐幾里得數據進行探討。

在介紹中，主辦方特地提到這個課程是為零基礎的聽眾而準備的，雷鋒網整理了兩個普適性及認知度較強的演講與大家分享。

意大利大學計算機科學教授 Michael M. Bronstein 是今天上臺的第一位嘉賓，雷鋒網了解到，Bronstein 的上一次公開分享是去年九月份的 ICIP，而就在本次的學術課程上，他分享了上個月剛提交在 arxiv 的論文《幾何深度學習：超越歐幾里德數據》，主要涉及的是計算機視覺及模式識別的分享。

本文除了這位大神外，還有 Facebook 前人工智能團隊博士后成員 Joan Bruna 和現人工智能負責人 Yann LeCun 的加持，難怪成為了本次學術分享打頭陣的研究論文。

Bronstein 認為，許多信號處理問題涉及其基礎結構是非歐幾里得的數據，但可以通過建模來實現。使用最近鄰圖在高維歐幾里德空間中作為點給出的建模數據是數據科學中日益流行的趨勢，允許從業者訪問數據的內在結構。而鑒于幾何數據的復雜性和非常大的數據集的可用性（在社交網絡的情況下，數十億級），機器學習技術就成為了（幾乎）唯一可取的方法，因為深度學習能夠用于解決具有基礎歐幾里得結構的大數據集的問題。

例如：

在社交網絡中，用戶的特征可以被建模為社交圖的信號。
在傳感器網絡中，圖像模型由分布式互連傳感器構成，其讀數則被建模為頂點上的時間信號。
在遺傳學中，基因表達數據被建模為在調節網絡上定義的信號。
在神經科學中，圖形模型用于表示大腦的解剖和功能結構。

Bronstein 的分享稍顯拘謹和嚴肅，而隨后上臺分享的 USC 視覺及圖像實驗室兼南加州大學的助理教授黎灝則以一種輕松詼諧的方式讓大家了解他的研究進展。染著一頭黃毛，留著朋克發型的黎灝是德國出生的臺灣人，憑借他對 3D 圖像技術所做的貢獻，2013 年當選 MIT TR 35 創新者。

他長這樣：

朋克學術大牛上演“換頭術”，原來深度學習還能這樣玩！（附論文下載）｜SIGGRAPH ASIA 2016

來自臺灣的訪問學者程昱林（音譯，YuLen Chung）向雷鋒網提起黎灝的時候帶著一臉自豪和崇敬，他表示在整個早上的幾位講者中，對黎灝的演講印象最為深刻。「他的研究可以說代表了深度學習在視覺圖像上的應用成果，雖然還處于早期階段，但如果數據足夠多的話，相信這對整個動畫界有著巨大影響。」

在會上，黎灝首先展示了他理想中的圖像處理狀態：

只憑借一張 Matt Furniss 、川普、希拉里、或是馬云爸爸的正面照片，計算機就能夠「腦補」出他們頭部的 3D 模型（甚至還有美顏功能，能把皺紋都給抹掉）。

自然這一切都要通過人工智能才能實現，基于大數據的深度學習無疑為研究者們提供了絕佳的素材。

黎灝隨即在會上邀請 Bronstein 上臺做了個「換頭」小實驗。通過攝像頭拍攝正面視頻，計算機能夠在短短幾秒鐘內生成 Bronstein 的 3D 頭像，并且在黎灝回到臺前對著視頻演講時，大屏幕上依然呈現的是 Bronstein 的頭像，但動作卻與黎灝的進行同步。

一個小小的演示很快讓在場的觀眾們了解到臉部替換（face replacement）的含義，實際上這與最近非常流行的人臉識別自拍軟件的原理是一致的，主要都是通過「識別人臉——判斷五官位置——添加與五官匹配的素材——完成『換頭』／『美顏』」來實現，

在鏡頭前，一名研究人員對著鏡頭做出戴眼鏡、轉頭、喝水、抓耳撓腮等動作，隨后計算機對人臉進行識別和判斷，剔除掉遮擋住面部的無關參數（眼睛、杯子、手臂等），最后把設計好的一些素材添加到原有圖片上。

朋克學術大牛上演“換頭術”，原來深度學習還能這樣玩！（附論文下載）｜SIGGRAPH ASIA 2016

不過，目前用于娛樂的自拍軟件不過是小打小鬧，黎灝的研究已經將使用范圍擴大到全頭，并延展到全身。而為了讓機器學習實現更為準確的面部識別，除了將參數點細化之外，增加「干擾項」也同樣是研究所需要的。日常的訓練素材包括了正面清晰的面部照片外，還有用各種顏色的方框遮擋住面部局部五官的一些照片，此外，因為手和人臉的膚色非常接近，且離人臉最近，因此研究團隊也提供了大量各類手臂的局部照片，并把它們「P」到人臉上，供計算機進行甄別和學習。

朋克學術大牛上演“換頭術”，原來深度學習還能這樣玩！（附論文下載）｜SIGGRAPH ASIA 2016

除了上述方式外，以前其他研究團隊也做過大量實驗，提供了更為細化的部位特寫照片（如靜態的嘴巴圖片或動態的說話視頻）。

接下來，黎灝介紹了目前兩種主流的 3D 對象分類方式。

一為普林斯頓大學研究的基于三維數據的「立體柵格化」（volumetric representation），將對象的 3D 數據表示為 30*30*30 的立體數據，并在上面直接進行卷積網絡的訓練。
二為馬薩諸塞大學在 2015 ICCV 發表的「多重視角下的神經網絡構建 3D 圖像識別」，該方法主要從多個角度對進行二維圖像拍攝作為訓練數據，隨后進行卷積訓練。

黎灝表示，這兩種圖像訓練方式的結果不盡相同，相對而言第二種方式的處理度稍好一些，能達到 90.1%，而第一種為 77.3%。但他表示，在同一像素級別的前提下，第一種方式的分類準確度能達到 86% 以上，而后者低了近 10 個百分點。

因此黎灝團隊參考的是第二種模式，采用 Kinect 傳感收集數據，提升全身的 3D 影像在建模方式上的優化，并已實現動態實時傳輸的效果。

除此之外，目前學術圈已經有不少基于的人體 3D 建模，不過黎灝的研究實現了身著衣服也能實現建模。由于衣服對計算機識別的干擾性較大，如何排除這些可能存在的因素也是一個突破性的進展。

不過它還存在兩個缺點：

首先是硬件限制。對數據進行計算誠然需要高精度的 GPU 加速，如何在處理速度和質量上實現平衡，目前團隊還沒有實現這一點。
其次是暫時團隊只能處理人體建模，尚未將識別領域延展到其他物體上。

在會后，程昱林向雷鋒網表示，這一局限性可能會讓動畫產業的應用受到局限，因為只能捕捉人體圖像的話，范圍還是窄了一些。但他也表示，「這算得上是一個很不錯的突破了，至少可以穿著衣服實現建模，在動畫造型就有了更多的可能性。」

深度學習在計算機圖像研究領域已經有了如此多突破，相信很快能夠真正實現產業化的應用。雷鋒網記者今天在采訪 Polygon Picture 制作人，本次計算機動畫節的聯合主席 Shuzo John Shiota 時，他也談到了產學研的結合同樣有利于動畫效果的提高，「SIGGRAPH 與計算機動畫節的聯系非常緊密，可以說后者是最受歡迎和關注的內容之一。本次的大賽評選可以說是科技在藝術界的一個結合，而 Polygon 可能會在未來尋求感興趣的相關研究所團隊一起合作，讓技術能夠順利落地。」

第一天的 SIGGRAPH ASIA 2016 的相關介紹還有很多，雷鋒網所列舉的學術領域只是一管窺豹。更多詳細報道還請關注 SIGGRAPH ASIA 2016 專題，雷鋒網將持續帶來前線報道。

論文下載地址：

Geometric deep learning: going beyond Euclidean data：

https://arxiv.org/abs/1611.08097

Real-Time Facial Segmentation and Performance Capture from RGB Input：

https://arxiv.org/abs/1604.02647

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。