從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

本文作者： AI科技評論

2016-06-07 21:53

導語：“dadada”當然不行，未來身份驗證也許是說一句“OK Google”。

今天，全世界最不可能被盜號的人被盜號了，他就是世界最大社交網站Facebook的CEO扎克伯格。不僅如此，扎克伯格的密碼還簡單得讓人大跌眼鏡——“dadada”。這個沒有任何大小寫區分、沒有數字和其他符號的密碼，黑客只要不到25秒就能破解。

笑談之余，這個新聞讓人們再次思考，未來更加安全的網絡身份驗證技術是什么？也許，正如未來人工智能語音交互將代替現在的APP交互，身份驗證也會采用人工智能語音驗證。谷歌的研究讓我們看到，未來登錄社交網站，也許只要說一句：“OK Google！”

谷歌Brain的研究人員們在一篇名為《端到端基于文本的語音驗證》的論文中，介紹了一種神經網絡架構，能為高精度、容易維護的小型大數據應用（例如谷歌的應用），提供用戶語音驗證。這篇論文發表于 IEEE 2016 聲學、語音和信號處理國際大會（ICASSP）上。

今年8月，谷歌DeepMind CEO Demis Hassabis也將參加雷鋒網舉辦的人工智能與機器人創新大會。在此，雷鋒網分享論文全文內容。

論文作者簡介

George Heigold 在加入谷歌前，在德國亞琛工業大學計算機學院任教，2010年成為谷歌研究科學家，研究領域包括自動語音識別、語音識別中的區分性訓練和對數線性模型等。

Samy Bengio 2007年加入谷歌擔任研究科學家，之前在瑞士IDIAP研究院擔任高級研究員并培養PhD博士生及博士后研究員。同時，他還是《機器學習研究期刊》編輯、IEEE信號處理神經網絡工作室項目主席以及IJCAI等知名學術期刊的項目委員。他的研究領域覆蓋機器學習的許多方面。

Noam Shazeer 畢業于杜克大學，一直在谷歌擔任研究科學家。研究領域包括語音學、自然語言處理和計算機科學。

Ignacio Lopez-Moreno 是谷歌軟件工程師，正在攻讀博士學位，曾獲IBM研究最佳論文等獎項。他的研究領域包括語音識別、模式識別等。

論文摘要

這篇論文中我們將呈現一種數據驅動的整合方法，來解決用戶語音驗證問題。我們將一個測試發音與幾個參考發音進行比較，直接生成一個配對分數進行驗證，并在測試時使用相同的評估協議和維度來優化系統部件。這樣的方法可以創造簡單、高效的系統，不需要了解領域特定的語言，也不需要進行模型假設。我們將概念落地，將問題表達為一個單個神經網絡架構，包括只用幾個發音來評估一個語音模型，并且用我們內部的“OK Google”基準來評估基于文本的語音驗證。對于類似谷歌這樣要求高精度、系統容易維護的小型大數據應用來說，我們提出的方法非常有效。

1、簡介

語音驗證指的是基于已知的用戶發音，來驗證一個發音是否屬于該用戶的驗證過程。當在所有用戶中，發音中的詞匯僅限于一個單詞或詞組，這個過程稱為基于文本的通用密碼語音驗證。通過限制詞匯，基于文本的語音驗證可以彌補發音的不同變化，發音是語音驗證中的一個重大挑戰。在谷歌，我們想用這個通用密碼“OK Google”來研究基于文本的語音驗證。之所以選擇這個特別短、大約費時0.6秒的通用密碼，是與谷歌關鍵字辨認系統和谷歌語音搜索有關，能夠幫助我們把這幾個系統結合起來。

這篇論文中，我們提出直接將一個測試發音和幾個發音匹配，建立用戶的模型，用一個分數來進行驗證。所有部件是遵循標準語音驗證協議，進行聯合優化。與現有的辦法相比，這樣一種端到端的辦法有幾個優勢，包括發音的直接建模，這樣可以理解更大的語境、減少復雜度（每次發音是一個或多個幀的評估），以及直接且聯合的預估，能夠創建更好、更簡潔的模型。而且，這種方法創建的系統經常要間接得多，所需的概念和方法都更少。

更具體地來說，這篇論文的貢獻主要包括：

建立了一個端到端語音認證架構，包括基于若干個發音預估用戶模型（第4部分）；
端到端語音驗證的實證評估，包括幀（i-矢量與d-矢量）和發音層面表征的比較（第5.2部分），以及端到端損失的分析（第5.3部分）。
前饋控制和循環神經網絡之間的實證比較（第5.4部分）。

這篇論文集中討論基于文本語音驗證在小型系統上的應用。但是這種方法可以普遍應用，也可以用在無關文本的語音驗證上。

在之前的研究中，驗證問題被分解為更容易處理的子問題，但是子問題之間關聯較為松散。舉個例子，在無關文本的語音驗證和基于文本的語音驗證中，i-矢量和概率線性判別分析（PLDA）的結合一直都是主流方法。另外，也有研究證明混合方法（包括基于深度學習的部件）有助于無關文本的語音識別。然而，對于小型系統來說，一個更直接的深度學習模型可能更好。據我們所知，循環神經網絡在其他相關問題上已經有了應用，例如語音識別和語言識別，但是還未曾用于語音驗證任務。我們提出的神經網絡架構可以看作是一個生成模型-判別模型混合體的聯合優化，與適應的深度展開類似。

這篇論文其余部分的結構如下：第2部分提供了語音驗證的簡短綜述。第3部分描述了d-矢量方法。第4部分介紹了我們提出的端到端語音驗證方法。第5部分你可以看到實驗評估和分析。第6部分是論文的總結。

2、語音驗證協議

標準語音驗證協議可以被分為三個步驟：訓練、注冊和評估，我們接下來會詳細介紹。

訓練：

在訓練階段，我們從發音中找到一個合適的內部語音表征，這樣能有一個簡單的打分功能。總的來說，這種表征取決于模型的類型（例如，子空間高斯混合模型或者深度神經網絡）、表征層級（幀或發音）以及模型訓練損失（例如，最大可能性或者softmax）。最好的表征是幀層級信息的總結，例如i-矢量和d-矢量（第3部分）。

注冊：

在注冊階段，用戶提供了若干個發音（見表格1），用來預估用戶模型。常見的辦法是取這些發音中i-矢量或者d-矢量的平均值。

評估：

在評估階段，我們進行驗證任務，系統也進行評估。為了驗證，發音 X 的打分函數值和測試用戶 spk， S(X, spk）,與一個預先定義的閾值進行比較。如果分數超過閾值我們就接受，也就是說，判斷發音 X 來自用戶 spk，反之，如果沒有超過閾值我們就拒絕，判斷發音 X 不來自于用戶 spk 。在這個設定中可能會出現兩種類型的錯誤：錯誤拒絕和錯誤接受。顯然，錯誤拒絕率和錯誤接受率取決于閾值。當這兩項比率相同時，這項值稱為相等錯誤率（EER）。

一個簡單的打分函數，是發音 X 評估結果的用戶表征 f(X)，與用戶模型 m_spk 之間的余弦相似度。

S(X, spk) = [ f(X)^T m_spk] / [ ||f(X)|| ||m_spk|| ]

我們提出 PLDA 作為一種更加精確、數據驅動的打分方法。

3、D-向量基準方法

D-向量是從一個深度神經網絡（DNN）中而來的，作為一個發音的用戶表征。一個DNN包括了若干個非線性函數的連續應用，從而將用戶發音轉化為矢量，這樣可以輕松進行決策。下面的圖表1描繪了我們基準DNN的拓撲學。它包括一個本地聯接的層，以及若干個完全聯接的層。所有層都使用 ReLU 啟動，除了最后一個線性層。在訓練階段，DNN的參數使用 softmax 來最優化，為了方便起見，我們的定義包含一個線性轉化，有一個權重矢量 w_spk 和偏差 b_spk，后面加上一個 softmax 函數和叉熵損失函數：

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

最后一個隱藏層的啟動矢量標記為 y，正確用戶標記為 spk。

訓練階段完成后，DNN的參數就確定了。發音d-矢量的獲取方法是，發音所有幀的最后一個隱藏層的啟動矢量的平均值。每個發音生成一個d-矢量。為了進行注冊，對注冊發音的d-矢量進行平均，就獲得了用戶模型。最后，在評估階段，打分函數是用戶模型d-矢量和測試發音d-矢量之間的余弦相似度。

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

圖表1

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

圖表2

對這項基準方法有一些批評，包括從幀而來的d-矢量的情景局限以及損失的類型。softmax 損失函數有望從所有用戶中區分出真正的用戶，但是在第2部分沒有遵守標準驗證協議。這樣的結果是，必須要有方法和評分標準化技術來彌補不一致性。而且，softmax 損失函數沒法很好地擴大化，因為計算復雜度是線性的，每個用戶必須有最少量的數據來評估具體用戶的權重和偏差。可以用候選人取樣方法來減輕復雜度問題（而非預估問題）。

對于其他的語音驗證方法我們也可以指出同樣的問題，其中一些部件塊要不是聯系松散，要不就是沒有遵循語音驗證協議直接優化。舉個例子，GMM-UBM 或者 i-矢量模型沒有直接優化驗證問題。或者比較長的情景特征可能被基于幀的 GMM-UBM 模型忽視。

4、端到端用戶驗證

在這個部分，我們將用戶驗證協議的各個步驟整合為一個單一的網絡（見圖表2）。這個網絡的輸入由一個“評估”發音和一小組“注冊”發音組成。輸出是一個單一的節，指明是接受還是拒絕。我們使用DistBelief 來聯合優化這個端到端架構，它是 TensorFlow 的一個早期版本。用這兩種工具，復雜的計算圖表（例如我們端到端拓撲學定義的那個圖標）可以分解為一系列操作，具有簡單的梯度，例如總和、分區和矢量的交叉產品。在訓練步驟之后，所有網絡權重保持不變，除了一維邏輯回歸的偏差（圖表2）是根據注冊數據手動調試的。除此以外，注冊步驟什么也沒有做，因為用戶模型預估是網絡的一部分。在測試的時候，我們在網絡中輸入一個評估發音和要測試的用戶的注冊發音，網絡直接輸出判斷結果。

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

圖表3

我們使用神經網絡來獲取發音的用戶表征。我們在研究中使用的兩種網絡類型，在圖表1和圖表3中：一個深度神經網絡（DNN），帶有本地聯接和完全聯接的層作為我們第3部分的基準DNN，以及一個長短時記憶循環神經網絡（LSTM），和一個單一輸出。DNN假設輸入長度固定。為了符合這項限制，我們將一個固定長度、足夠時長的幀疊加到發音上，作為輸入。對LSTM就不需要這招了，但是我們為了更好的可比性，使用同樣的幀時長。與具有多個輸出的LSTM不同，我們只連接最后一個輸入到損失函數，來獲得單一的、發音層級的用戶表征。

用戶模型是一些“注冊”表征的平均。我們使用相同的網絡來計算“測試”發音和用戶模型發音的內部表征。通常，實際的每個用戶發音數量（幾百個或更多）比在注冊階段（十個以內）多得多。為了避免錯誤配對，每一個訓練發音，我們只從同一個用戶獲取幾個樣本發音，來在訓練階段創建用戶模型。總體來說，我們沒法假設每個用戶有N個發音。為實現可變的發音數量，我們在發音上加入權重來指明是否要使用這個發音。

最終，我們計算出用戶表征和用戶模型 S ( X, spk）之間的余弦相似度，把它輸入一個包括有偏差線性層的邏輯回歸。架構是使用端到端損失函數 le2e = ? log p(target) 來最優化，其中二維變量target ∈ {accept, reject}, p(accept) = (1+exp(?wS(X, spk)?b))?1，以及p(reject) = 1?p(accept)。-b/w 的值相當于驗證閾值。

端到端架構的輸入是 1+N 個發音，例如，一個要測試的發音，和最多N個不同的用戶發音，來預估用戶模型。為了實現數據處理和內存之間的平衡，輸入層維護一個發音庫來為每一個訓練步驟獲取1+N個發音樣本，并經常更新以實現更好的數據處理。由于用戶模型需要同一個用戶特定數量的發音，數據的呈現方式是同一個用戶的一小組發音。

5、實驗評估

我們使用內部的“OK Google”基準來評估我們提出的端到端方法。

5.1. 數據組合基本設定

我們用一組從匿名的語音搜索記錄中收集來的“OK Google”發音，來測試我們提出的端到端方法。我們實行了多種風格的訓練，來提升噪音強度。我們人工加入了汽車和餐廳噪音來增強數據，并模擬用戶發言時與麥克風的不同距離。注冊和評估數據只包括真實數據。表格1展示了一些數據組的統計數據。

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

表格1

發音強制統一起來，從而獲取“OK Google”的片段。這些片段的平均長度大約是80幀，幀率是100Hz。基于這項觀察結果，我們從每一個片段抽取最后的80幀，有可能在片段的最初和最后增減了一些幀。每一幀由40個濾波器組日志組成。

對DNN來說，我們將80輸入幀連接起來，這樣有了一個 80x40 維度的特征矢量。除非另外說明，DNN由4個隱藏層組成。DNN里所有隱藏層有504個節，使用 ReLU 啟動，除了最后一個線性層。DNN中本地連接層的區塊大小是 10x10。對 LSTM，我們將40維度的特征矢量一幀一幀地輸入。我們使用一個有504個節的單個 LSTM 層，沒有投影層。所有試驗中的批量大小都是32。

結果是按相等錯誤率（ERR）來匯報的，包括沒有及有t分數標準化的兩個類別。

5.2. 幀層面 vs 發音層面的表征

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

表格2

首先，我們比較幀層面和發音層面的用戶表征（見表格2）。這里，我們使用了一個圖表1中所描述的DNN 和一個 softmax 層，使用 train_2M （見表格1）來進行訓練，在線性層面有50%的丟失。發音層面的方法比幀層面的方法更好，超出30%。在每一種方法中，分數標準化技術帶來了重大的運行提升（相對提升了20%）。為了比較，這里展示了兩個i-矢量基準。第一個基準是基于表格2中的6，使用13 PLP以及一階和二階導數、1024高斯和300維度的i-矢量。第二個基準是基于表格2中的27，有150個本征音。i-矢量+PLDA基準應該還得打些折扣，因為 PLDA 模型的訓練只使用了 2M_train 數據庫的一個子集（4k用戶、每個用戶50個發音），這是因為我們目前實施方面的局限（不過，這與每個用戶只用30個發音訓練的結果幾乎是一樣的）。另外，這個基準沒有包括其他的改善技術，例如“不確定性測試”，這項測試已經證實在特定情況下可以給出很多額外增量。我們已經大大提升了我們的d-矢量。

5.3 Softmax函數 vs 端到端損失函數

接下來，為了訓練發音層級的用戶表征，我們比較了 softmax 損失函數（第2部分）和端到端損失函數（第4部分）。表格3顯示了圖表1中的 DNN 的同等錯誤率。它用了一個小訓練庫來訓練（train_2M），原始分數的錯誤了可以和不同的損失函數相比。雖然損失讓 softmax 函數獲得了1%的絕對增益，對于端到端損失函數我們沒有觀察到損失帶來任何增益。類似的，t標準化對 softmanx 函數有20%的幫助，但是對端到端損失函數沒有任何幫助。這項結果符合訓練損失和評估維度之間的一致度。尤其是端到端方法在訓練中假設了一個通用閾值，可以不經意地學會標準化分數，標準化分數在不同的噪音情況下維持不變、讓分數標準顯得多余。當我們為啟動端到端訓練而使用 softmax DNN，錯誤率從 2.86% 減少到了2.25%，意味著存在預估問題。

如果用更大的訓練組（train_22M）來訓練，端到端損失函數明顯比 softmax 函數更好，見表格3。為了合理地將 softmax 層擴大到80k個用戶標簽，我們使用了候選人取樣方法。這次，t標準化也為 softmax函數帶來了20%的幫助，softmax 可以跟得上其他損失函數，它們從t標準化中沒有什么獲益。端到端訓練的啟動（隨機 vs “預先訓練”的softmax DNN）在這種情況下沒有什么影響。

雖然用了候選人取樣，端到端方法的步驟時間比 softmax 方法更長，因為用戶模型是運行中計算出來的，總體收斂時間還是相當的。

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

表格3

訓練中預估用戶模型的發音數量被稱為用戶模型大小，最佳的選擇要看注冊發音的（平均）數量。但是，實際上更小的用戶模型大小反而可能更好，更能縮短訓練時間、并讓訓練更難。圖表4展現了測試同等錯誤率對用戶模型大小的依賴性。最適宜范圍相對較寬，模型大小大約為5，同等錯誤率為2.04%，相比之下，模型大小為1時有2.25%的同等錯誤率。這個模型大小近似于真實的平均模型大小，對我們的注冊組來說大小是6。這篇論文中的其他配置（未展示）也看到了類似的趨勢。這意味著，我們提出的訓練算法與驗證協議之間有一致性，意味著針對具體任務的訓練會更好。

5.4. 前饋控制 vs 循環神經網絡

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

圖表4

目前為止，我們集中討論圖表1中的“小型”DNN，帶有一個本地聯接層和三個完全聯接的隱藏層。接下來，我們探索更大的、不同的網絡架構，與它們的大小和計算復雜度無關。結果總結在圖表4中。與小型DNN相比，“最好”的DNN使用一個額外的隱藏層，有10%的相對增益。圖表3中的 LSTM 在最佳DNN的基礎上又增加了30%的增益。參數數量與DNN的相似，但是 LSTM 多了10倍的乘法和加法。更多的超級參數調試有望降低計算復雜度，增加可用性。使用 softmax 損失函數（運用t標準化、候選人取樣以及可能提早暫停，這些技術在端到端方法中都是不需要的）。在 train_2M 中，我們觀察到錯誤率在相應的DNN基準上有相似的相對增益。

從扎克伯格賬號被黑說起，谷歌神經網絡如何實現“更安全”的驗證

表格4

6、總結

我們提出了一個新的端到端方法，來解決用戶的語音驗證問題，直接將發音配對打分，并用訓練和評估相同的損失函數來聯合優化內在的用戶表征和用戶模型。假如有足夠的訓練數據，使用我們的內部基準“OK Google”，我們提出的方法可以將小型DNN基準的錯誤率從3%改善為2%。大部分增益來源于發音層級 vs 幀層級建模。與其他損失函數相比，端到端損失函數使用了更少的額外概念，卻實現了同樣的、或者略微更好的結果。例如在 softmax 的情況中，我們只有在運行中使用分數標準化、候選人取樣讓訓練變得可行，才能獲得同等的錯誤率。而且，我們展示了使用循環神經網絡而非一個簡單的深度神經網絡，可以進一步將錯誤率減少到1.4%，雖然計算運行時間成本更高了。相比之下，一個合理但不是最佳的 i-矢量/PLDA系統的錯誤率是4.7%。顯然，我們還需要更多的比較研究。不過，我們相信我們的方法為大數據驗證應用，展現了一種大有前途的新方向。

via Google Research

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

AI科技評論

編輯

發私信

當月熱門文章