<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      業(yè)界 正文
      發(fā)私信給彭鵬
      發(fā)送

      0

      百度發(fā)布Deep Speaker:大規(guī)模聲紋識別的端對端系統(tǒng)

      本文作者: 彭鵬 編輯:郭奕欣 2017-05-11 17:53
      導語:日前,百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明:利用深度學習的方法比傳統(tǒng)的i-vector方法在識別準確率上獲得了顯著的提高。

      雷鋒網(wǎng)按:此前雷鋒網(wǎng)曾經(jīng)報道過百度在語音技術(shù)上的進展。日前,百度美研院宣布了其在聲紋識別上所取得的突破性成果。研究表明:利用深度學習的方法比傳統(tǒng)的i-vector方法在識別準確率上獲得了顯著的提高。

      聲紋識別算法尋求從音頻中識別說話者的身份。兩個常見的識別任務(wù)是確認(說話者是不是他宣稱的那個人)和說話者身份識別(在一群未知的說話者中確認聲音的來源)。

      該項技術(shù)已經(jīng)有了各種應(yīng)用。例如,聲紋可以用來登錄設(shè)備。說話者確認也可以作為金融交易的額外安全措施。此外,類似于智能家居助手之類的共享設(shè)備也可以利用這項技術(shù)來提供個性化的服務(wù)。

      最近使用神經(jīng)網(wǎng)絡(luò)來進行聲紋識別的論文已經(jīng)改進了傳統(tǒng)的i-vector方法(參考Interspeech教程的原始論文或者幻燈片)。i-vector方法認為說話內(nèi)容可以被分為兩個部分,一個部分依賴于說話者和信道可變性,另一個部分依賴于其它的相關(guān)因素。i-vector聲紋識別是一個多步過程,其涉及到使用不同說話者的數(shù)據(jù)來估計一個通用的背景模型(通常是高斯混合模型),收集充分的統(tǒng)計數(shù)據(jù),提取i-vector,最后使用一個分類器來進行識別任務(wù)。

       一些論文用神經(jīng)網(wǎng)絡(luò)代替了i-vector流水線的方法。其它研究者要么訓練了一個文本相關(guān)(使用者必須說同樣的話)的端對端語者識別系統(tǒng),要么訓練了文本獨立(這個模型與說話內(nèi)容不相關(guān))的端對端語者識別系統(tǒng)。我們介紹Deep Speaker:一個端對端的神經(jīng)聲紋識別系統(tǒng),它在文本相關(guān)和文本獨立的場景下都取得了良好的效果。這意味這個系統(tǒng)可以被訓練來識別誰在說話,無論是當你對你的家庭助手說“wake”或者你在會議中發(fā)言。

      Deep Speaker由深度神經(jīng)網(wǎng)絡(luò)層組成,從音頻中提取特征,基于余弦相似性的時間池和三元組損失(triplet loss)。百度美研院探究了ResNet激活的卷積模型和現(xiàn)有模型在提取聲學特征上的效果。

      百度發(fā)布Deep Speaker:大規(guī)模聲紋識別的端對端系統(tǒng)

      說明:在這里百度美研院使用了人臉識別中采用的三元組損失。在訓練過程中,他們選擇了一個說話者的話語,然后計算一個嵌入(標記為“Anchor”)。再產(chǎn)生兩個嵌入,一個來自相同的演講者(標記為“Positive”),一個來自于不同的演講者(標記為“Negative”)。在訓練過程中,其目標是讓Anchor與positive嵌入之間的余弦相似度高于Anchor與negative嵌入之間的余弦相似度。

      百度美研院展示了Deep Speaker在三個不同數(shù)據(jù)集上的有效性,包括文本相關(guān)和文本獨立的任務(wù)。其中之一的UIDs數(shù)據(jù)集包括大約250000名說話者,是知識文獻中最大的數(shù)據(jù)集。實驗結(jié)果表明:Deep Speaker要明顯優(yōu)于基于DNN 的i-vector方法。例如,在一個文本獨立的數(shù)據(jù)集中隨機挑選出100個演講者,Deep Speaker在說話者身份確認任務(wù)上的錯誤率是1.83%,正確率是92.58%。相比于基于DNN 的i-vector方法,它降低了50%的錯誤率,提高了60%的正確率。

      百度發(fā)布Deep Speaker:大規(guī)模聲紋識別的端對端系統(tǒng)

      說明:在實驗中百度美研院所使用的數(shù)據(jù)集是 UIDs,XiaoDu,和Mandarin。UIDs和XiaoDu是普通話數(shù)據(jù)集,Mturk是英語數(shù)據(jù)集。UIDs和Mturk是文本獨立的數(shù)據(jù)集,XiaoDu是文本相關(guān)的數(shù)據(jù)集,其基于百度的喚醒字(wake word)。為了在不同大小的訓練集上做實驗,他們用了全部的UIDs數(shù)據(jù)集(250,000)和它的一個子集(50,000)。在評估階段,他們選擇了一個Anchor,然后再從測試部分隨機地選擇1個Anchor positive樣本和99個Anchor negatives樣本。

      團隊還發(fā)現(xiàn)Deep Speaker學習到了與語言無關(guān)的特征。當在普通話語境下訓練時,Deep Speaker卻能在英文確認和識別的任務(wù)上達到5.57%的錯誤率和88%的正確率。此外,先用普通話再用英文訓練可相比于只用英文訓練,提高了英文識別的準確率。這些結(jié)果都顯示出盡管不同的語言聽起來非常不同,深度語者卻學習到了跨語言的聲音特征。這些結(jié)果與Deep Speech 2的結(jié)果類似,同樣的架構(gòu)都可以用來辨認不同語言的聲紋識別。

      關(guān)于Deep Speaker模型的更多細節(jié),訓練技巧和實驗結(jié)果都可以在論文中找到。

      論文地址:https://arxiv.org/abs/1705.02304

      via research.baidu,雷鋒網(wǎng)翻譯

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

      分享:
      相關(guān)文章
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 日韩新无码精品毛片| 且末县| 一本色道久久99精品综合| 久久成人国产精品免费软件| 99久久精品久久久久久婷婷| 欧美人与物videos另类xxxxx| 无套内谢少妇毛片A片樱花| 中文性爱片| 九九国产视频| 国产午夜福利一区二区三区| 国产精品无码专区| 少妇无码一区二区三区免费| 久久精品天天中文字幕人妻| 久久综合国产| 大陆一区视频观看| 成人九九| 久久精品人成免费| 91视频入口| 国产人妇三级视频在线观看| 88国产精品视频一区二区三区| 五月综合视频| 377p欧洲日本亚洲大胆| 2024男人天堂| 91丨国产丨白浆秘?网站| 亚洲精品电影院| 亚洲永久网址在线观看| 中文字幕av免费专区| a国产精品| 99国产精品久久久久久久日本竹| 99精品久久久久久无码| 成人无码中出| 人妻熟女在线网址| 99久久老司机免费精品免费| 女人腿张开让男人桶爽 | 亚洲制服无码一区二区三区| 中文字幕亚洲一区二区va在线| 亚洲成人黄色| 国产女高清在线看免费观看| 人妻综合网| 天堂а最新版中文在线| 女人与牲口性恔配视频免费|