深度學習在人臉識別中的應用——優圖祖母模型的“進化”

本文作者：陳圳

2016-08-01 20:39

導語：本文著重以人臉識別為例介紹深度學習技術在其中的應用，以及優圖團隊經過近五年的積累對人臉識別技術乃至整個人工智能領域的一些認識和分享。

雷鋒網按：本文轉自騰訊優圖，著重介紹了深度學習在人臉識別中的應用，首先回顧了人臉識別的歷史，接著介紹優圖在人臉識別中的優勢，及其“進化過程”。

說到人工智能（Artificial Intelligence, AI）人們總是很容易和全知、全能這樣的詞聯系起來。大量關于AI的科幻電影更給人工智能蒙上一層神秘的色彩。強如《黑客帝國》、《機械公敵》中的AI要翻身做主人統治全人類。稍弱點的《機械姬》里EVA懂得利用美貌欺騙中二程序員，殺死主人逃出升天。最不濟也可以蠢萌蠢萌的像WALL·E能陪玩、送禮物還能談個戀愛。

其實人工智能這個詞在1956年達特茅斯會議上正式誕生時，目標就是想要讓機器的行為看起來像是人所表現出的智能行為一樣的“強”人工智能。然而人工智能的研究是高度技術性和專業性的，各分支領域都是深入且各不相通的，因而涉及范圍極廣。正是這種復雜屬性，導致人們對人工智能的研究進程總是磕磕碰碰，反復地經歷過分樂觀的浪潮與極度悲觀的寒冬。時至今日，想要完成全知、全能的強人工智能仍然只是一個長遠目標。

雖然目前的技術水平還遠不能實現強人工智能，但在一些非常特定的領域里，弱人工智能技術正在經歷前所未有的迅猛發展，達到或已超越人類的最高水平。例如深藍、Alpha Go分別在國際象棋和圍棋領域擊敗世界冠軍。例如自然語言理解、語音識別和人臉識別接近、達到甚至超越普通人的識別水平。雖然這些弱人工智能技術并不能真正地推理、理解和解決問題，但是面對特定的任務它們所給出的“判斷”看起來是具有智能的。而正是這些看似“弱弱”的人工智能技術，在悄悄的改變人類生活的方方面面。它們以點帶面完成越來越多的“簡單任務”，為人們提供更加簡潔、方便和安全的服務。

人臉識別正是眾多“弱弱”的人工智能技術之一。通過看人的面孔識別其身份，對每一個正常的人來說都是再簡單不過的。如果強行將人臉識別的難度和下圍棋來比，應該沒有人會覺得人臉識別更難。然而從計算機的角度來看，至少在輸入數據的復雜度上人臉識別是遠超圍棋單步走子決策的。如圖1(a)所示，一張Angelababy的圖像在計算機看來，其實就是一個數字矩陣如圖1(b)。數字矩陣的每個元素取值范圍是0-255的整數。通常人臉識別算法所需的輸入圖像至少在以上，大的可能達到。理論上不同的可能輸入共有種（每個像素的取值范圍為0-255）。而圍棋任意單步走子的可能局面上限為(每個棋盤格只能有黑子，白子，無子三種情況)，遠遠小于人臉識別。無論是圍棋還是人臉識別，通過遍歷完整的輸入空間來做出最優的決策，就計算復雜度而言都是完全無法接受的。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖1：數字化的人臉識別 VS. 圍棋單步決策

其實對幾乎所有人工智能問題，如何通過更高層次的抽象來理解輸入從而更快速的做出決策都是解決問題的關鍵所在。近十年來引領新一波人工智能浪潮的核心技術“深度學習”就是這樣一種方法，它通過少則近幾層多則上百層人工神經網絡不斷地對高維的輸入數據塊進行抽象與理解并最終做出“智能”的決策。單憑深度學習技術可能仍然難以完成全知全能的“強”人工智能，但它卻是完成任何特定“弱”智能任務的一把牛刀。正是看到深度學習技術如此巨大的潛力，國際互聯網巨頭Google，Facebook，Microsoft紛紛搶先布局，國內互聯網領袖BAT也不惜資源進行技術儲備，作為騰訊內部頂級的機器學習研發團隊，優圖也投入精英人力專注于深度學習技術的研發與產品落地。

本文著重以人臉識別為例介紹深度學習技術在其中的應用，以及優圖團隊經過近五年的積累對人臉識別技術乃至整個人工智能領域的一些認識和分享。

回顧——人臉識別的“淺”時代

在介紹深度學習技術在人臉識別中的應用之前，我們先看看深度學習技術興起前的“淺”時代人臉識別技術。前面提到高維輸入是所有類人工智能問題的一個普遍難題，學界稱之為“維數災難”（The curse of dimensionality）。其實在機器自動人臉識別技術研究的早期研究者們嘗試過用一些非常簡單的幾何特征來進行人臉識別, 如圖2所示（請原諒圖片的質量，摘自93年的一篇人臉識別領域奠基之作[1]）。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖2：基于幾何特征的人臉識別

這樣的樸素想法具有特征維數少的優點，所以不會遭遇維數災難問題。然而由于穩定性差、區分能力弱和難以自動化等原因，這種做法很早就被拋棄。研究人員們發現，設計各種幾何特征，折騰大半天還不如直接比較像素區域的差別準確，也就是所謂的模板匹配技術。然而，直接比對像素誤差有個很容易想到的缺點，不同人臉區域對區分人的身份的重要性并不一樣。事實上研究[2]表明眉毛和眼睛是區分人身份最重要的區域，其次是嘴巴，而大片臉頰區域所包含的身份信息是有限的。如圖3所示，人類最難鑒別身份的是去掉眉毛和眼睛的人臉。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖3：不同區域對人臉識別的重要性

為了解決這樣的問題，很長時間人臉識別都非常依賴于判別性特征的學習，最有代表性的工作莫過于fisherfaces[3]，所謂判別性信息就是那種獨一無二特征，就好像圖4中所示，成龍的大鼻子，姚晨的大嘴，李勇的招牌馬臉，姚明的魔性笑容。總而言之，只要能找到你獨特的“氣質”就能更好的認識你。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖4：具有判別性的人臉

判別性特征的想法非常直觀有效也取得了一定成功，但是由于人臉的像素特征非常不穩定，不同拍攝設備和拍攝場景、不同的光照條件和拍攝角度等都會造成相同人臉的像素差異巨大。想要在各種復雜影響因素下找到一張人臉穩定且獨特的特征就很難了。為了解決這些問題，研究人員開始研究比簡單像素值更加穩定的圖像描述子。其中比較主流的一種描述子Gabor描述子借鑒了人類大腦的視覺皮層中對視覺信息進行預處理的過程。大腦皮層中對視覺信息加工處理的操作主要有兩種，一種是在簡單細胞中進行的線性操作，一種是在復雜細胞中進行的非線性匯聚。如圖5所示的是MIT大腦和認知科學學院人工智能實驗室的主任Poggio教授提出的一個叫HMAX[4]的類腦視覺信息處理流程：

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖5： HMAX圖像信息處理過程

這其中的簡單單元“S1 units”和“S2 units”進行了一種叫做Gabor小波濾波的操作。而復雜單元“C1 units”和“C2 units”進行了一種叫做Max Pooling的取局部區域最大值的操作。事實上除卻直接使用事先設定的Gabor濾波器，HMAX等價于一個四層的神經網絡，實際上已經初步具備了現代深度模型的雛形。

在深度學習誕生前的“淺”時代，人臉識別研究人員不斷改進預處理過程、使用更好的描述子，提取更有判別性的特征，這些都在慢慢的提高計算機識別人臉的能力。然而直到深度學習橫空出世前，“淺”時代的各種人臉識別方法，對人類本身所具有的人臉識別能力仍然望塵莫及。

擁抱——人臉識別的“深”時代

要賦予計算機完整的人臉識別能力，除了能認識人外其實還有幾步非常重要的預處理過程。如圖6所示，完整的人臉自動識別算法需要能自己從圖像里找到哪有人臉，學界稱之為人臉檢測？哪里是眼睛鼻子嘴，學界稱之為人臉特征點定位？最后才是提取前面說到的具有判別性的特征進行身份的識別，即狹義上的人臉識別。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖6：完整的自動人臉識別流程

在深度學習出現以前關于人臉檢測、特征點定位和人臉識別這三個子任務的研究都是相對獨立的展開的。從上個世紀90年代開始到2010年左右，經過不斷的摸索，研究人員們對每個子任務都發現了一些比較有效的特征與方法的組合來解決問題如圖7所示。然而由于研究人員需要根據每個子任務本身的特點設計不同的特征，選擇不同的機器學習方法，因此技術的發展相對緩慢。

從2012年左右，受深度學習在整個機器視覺領域迅猛發展的影響，人臉識別的“深”時代正式拉開序幕。短短的四年時間里，基于深度卷積神經網絡的方法不斷在這三個子任務中刷新人工智能算法的世界記錄。人臉識別“淺”時代讓人眼花繚亂的各種技術和方法仿佛一頁之間成為歷史。人臉識別研究人員，不需要在挖空心思的設計特征，也不需要擔心后面需要什么樣的學習算法。所有的經驗的積累過程轉換為了深度神經網路算法自動學習過程。這正式深度學習算法最大的優點：自動學習對特定任務最有用的特征！

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖7：人臉識別

考察一個單項的“弱”人工智能技術是否成熟，達到乃至超過人類的平均水平應該是一個比較通用的準則。說到這里不得不提一個人臉識別的標準評測數據庫LFW（Labeled Face in the Wild）數據庫。在2014年，Facebook使用一個叫做DeepFace的深度學習方法，第一次在LFW數據庫上接近人類的識別水平（DeepFace: 97.35% VS. Human: 97.53%）,其結果如圖8所示：

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖8： DeepFace深度學習網絡

“Talk is cheap, show me the code”,自從DeepFace在人臉識別領域一戰成名，讓研究人員們看到了超越人類識別能力的曙光。隨著幾大開源深度學習項目（例如CAFFE，TORCH, TensorFlow）的發展壯大，基于深度學習的方法真正如雨后春筍般席卷整個人臉識別領域。事實也證明深度學習確實能夠做到，短短一年以后就有很多基于深度學習的方法在LFW數據庫上超過人類的識別能力，例如優圖的人臉識別算法就在15年取得當時世界第一的99.65%準確率。

深度學習為什么如此神奇，能在短短的幾年時間里一統江湖呢？拋開技術細節不談，原理上來說最為關鍵的兩個因素就是：層級式抽象和端到端可學習。

在回顧“淺”時代人臉識別方法歷史時曾經介紹了基于幾何特征的方法（圖2）和基于判別性特征的方法（圖4）。下圖這些特征無疑都是針對人臉的某種抽象。由于原始圖像輸入的搜索空間巨大，只有通過恰當的抽象縮小搜索范圍，才能最終做出合理的決策。對一個復雜的概念想要通過一層的抽象就將所有結構梳理清楚會是很難甚至不可能的，而深度神經網絡這種多層結構給自底向上的逐級抽象提供了天然的模具。只要將足夠多的數據輸入到具有多層結構的深度神經網絡并告知它你想要的輸出結果，網絡可以自動的學習中間層的抽象概念，如圖9所示，好奇的研究人員將一個能夠識別1000類物體的神經網絡中的特征進行了可視化：

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖9：深度神經網絡特征可視化結果

從圖中可以看到在深度神經網絡的第一層有點類似人類科學家積累多年經驗找到的Gabor特征。第二層學習到的是更復雜的紋理特征。第三層的特征更加復雜，已經開始出現一些簡單的結構，例如車輪、蜂窩、人頭。到了第四、五層機器輸出的表現已經足以讓人誤以為它具備一定的智能，能夠對一些明確的抽象概念例如狗、花、鐘表、甚至鍵盤做出特別的響應。研究人員們積累幾年甚至十幾年設計出來的特征例如Gabor、SIFT，其實可以通過深度神經網絡自動的學習出來（如圖9中“Layer 1”），甚至自動學習出它的人類“爸爸”難以言喻的更高層次抽象。從某種意義上來說，人工智能科學家就是機器的父母，需要“教”機器寶寶認識這個世界。誰都希望自己有個聰明寶寶，只用教它“知其然”，它自己慢慢總結消化然后“知其所以然”。深度神經網絡就像個聰明的機器寶寶自己會學習、會抽象、會總結。

端到端可學習，乍一聽這個名詞可能覺得頭有點“方”，其實可以簡單理解為全局最優。圖7中總結了在“淺”時代，人臉識別的各個子問題都需要通過兩個甚至更多個步驟來完成，而多個步驟之間完全獨立的進行優化。這是典型貪心規則，很難達到全局最優。事實上，受限于優化算法深度神經網絡也很難達到全局最優解，但是它的優化目標是全局最優的。近幾年深度學習在各種任務上的成功經驗，表明機器寶寶也是需要有夢想的，直接對準“遠方”的全局最優目標進行學習，即使得不到最優解也也遠遠好過小碎步的局部貪心算法。想要達到真正的“強”人工智能，深度神經網絡還有很長的路要走，星爺的名言對神經寶寶同樣適用，做人沒有夢想和咸魚有什么分別？

進擊——優圖祖母模型的“進化”

隨著深度神經網絡的機器學習技術的發展，在LFW人臉數據庫上,三、四年前讓所有機器學習算法寶寶們望塵莫及的人類識別能力早已被超越。雖然優圖也曾在LFW上取得99.65%超越人類平均水平的好成績，但是我們清楚的明白刷庫還遠遠不夠，在實際場景中的應用更重要也更具挑戰性，在實踐中優圖已經根據落地需求對各種應用場景和應用類型做出了細分，以便實現各種場景下人臉識別任務的各個擊破。目前在落地應用中，常見的照片場景類型有生活照，自拍照、監控視頻、門禁閘機、西方人及其他人種照片，如圖10所示。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖10：常見人臉識別場景類型

互聯網上有海量的人臉照片，通過搜索引擎優圖也積累了海量帶身份標注的互聯網人臉數據。這部分數據無論從人數，圖像數、數據多樣性上都是最好的，為優圖人臉識別技術的研發提供了基礎條件。隨著人臉識別技術的日漸成熟，實際業務中涌現出大量新場景下的應用需求，例如微眾銀行的核身業務，會議簽到業務都涉及證件照和手機自拍照的比對，公安的監控需要視頻監控數據與證件照的比對。不同場景下獲取的人臉圖像存在巨大差異，如何對人臉識別模型進行快速調整，在各個不同場景下快速落地就成為一個非常具有挑戰性的問題。

為了在日趨白熱化的市場競爭中占得先機，優圖在三年深耕人臉識別和深度學習的基礎上建立了自己在場景遷移與適應上的一整套方法論。這個方法論可以用一句話來概括：祖母模型的“進化”。這句話有兩個關鍵點。首先我們需要建立適用于一般場景的、功能強大的人臉識別模型，也就是祖母模型。其次祖母模型通過“進化”來適應新場景下的人臉識別。

建立祖母模型家族

祖母模型并不特指一個深度神經網絡模型，而是具有某種結構特點的一類神經網絡模型，因此更為合適的叫法應該是祖母模型族。不同業務場景下的應用，用戶對人臉識別的速度和精度可能有不一樣的需求。祖母模型族必須像一個兵器庫，既包含能夠快速發射的機關槍也需要殺傷力強大冷卻時間長的原子彈。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖11：深度神經網絡局部結構分類

目前最為流行的深度神經網絡結構大致可以歸為三類：1.直線型（如AlexNet，VGGNet）；2.局部雙分支型（ResNet）；3.局部多分支型（GoogleNet）。其中直線型網絡結構設計最為簡單，但是當網絡深度超過20后這種結構的網絡將變的難以優化。局部多分支型網絡模型能力強，計算效率更高，但是設計也最為復雜。在建立祖母模型家族的初期，我們選擇了模型能力相對較強設計又相對簡單的局部雙分支型網絡ResNet來構建優圖人臉識別的祖母模型族。一方面ResNet本身具有強大的學習能力，是去年深度學習領域最新的研究進展。MSRA憑借一個152 層的ResNet深度網絡摘取了圖像識別領域最具影響力的ImageNet2015競賽多個單項的第一名。另一方面ResNet設計相對簡單，一個最大的特點就是識別能力基本與神經網絡深度成正比。神經網絡的深度又與計算復雜度直接相關，這就為訓練不同識別精度與運行速度的多個模型從而建立祖母模型族提供了極大的方便。當選定了祖母模型的網絡結構后，我們將其在數據量最大的互聯網生活照數據集上訓練，以保證祖母模型的通用人臉識別能力，圖12所示。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖12：優圖人臉識別祖母模型

在基于局部雙分支模型族建立完成后，我們也開始嘗試使用更復雜的局部多分支組件來進一步提高模型效率，豐富我們的祖母模型族。

祖母模型的“進化”

遷移學習是近些年來在人工智能領域提出的處理不同場景下識別問題的主流方法。相比于淺時代的簡單方法，深度神經網絡模型具備更加優秀的遷移學習能力。并有一套簡單有效的遷移方法，概括來說就是在復雜任務上進行基礎模型的預訓練（pre-train），在特定任務上對模型進行精細化調整（fine-tune）。套用在人臉識別問題上，只需要將訓練好的優圖祖母模型在新場景的新數據上進行精細化調整。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”

圖13：優圖祖母模型的進化

這種傳統的遷移學習方法確實能幫助祖母模型更好的完成新場景下的人臉識別任務。但這只能算特異化，無法將遷移學習中學到的新信息反饋給祖母模型。遷移之后的特異化模型只能應用在特定場景，在原集合上的性能甚至可能會大幅下降。在沒有深度學習的“淺”時代，模型沒有同時處理多個場景的能力，這可能是最好的適應新場景的方法。然而在實踐中我們發現，由于深度神經網絡的強大表達能力，完全可以在遷移學習過程中保持祖母模型的通用性能。采用增量學習的方式進行新場景的適應，在完成新場景下識別的同時也能保持其他場景下的能力，從而得到通用性更好的優圖祖母模型，即優圖祖母模型的“進化”。

深度學習在人臉識別中的應用——優圖祖母模型的“進化”