<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發(fā)私信給奕欣
      發(fā)送

      1

      從SwiftScribe說起,回顧百度在語音技術(shù)的七年積累

      本文作者: 奕欣 2017-03-15 21:45
      導語:語音技術(shù)主要分為識別與合成兩大領域,對于百度而言,歷年來的研究院技術(shù)突破也讓識別性能有了重大的提升。

      從SwiftScribe說起,回顧百度在語音技術(shù)的七年積累

      人與機器的自然交互一直是人類孜孜不倦的奮斗目標。隨著移動互聯(lián)網(wǎng)時代的發(fā)展,聲音與圖片成為了人機交互更為自然的表達方式。作為最核心的入口,語音技術(shù)就成為了科技巨頭們爭相攻下的堡壘。而人工智能的進步與發(fā)展也讓語音技術(shù)的識別率突飛猛進,也使其有了產(chǎn)品化的機會。

      李彥宏曾在劍橋名家講堂等多個公開場合說過,百度大腦涉及百度最為核心的人工智能內(nèi)容,具體包括語音、圖像、自然語言理解和用戶畫像等四個核心能力,此外還有機器學習平臺;吳恩達也在公開場合演講時表達了同樣的觀點。

      3 月 14 日,百度硅谷研究院于推出了一款基于人工智能的轉(zhuǎn)錄應用 SwiftScribe 。基于百度于 2015 年年底推出的語音識別產(chǎn)品 Deep Speech 2,其神經(jīng)網(wǎng)絡通過輸入數(shù)千小時的標記音頻數(shù)據(jù),從中學習特定的單詞與詞組。百度推出 SwiftScribe 主要面向經(jīng)常需要使用轉(zhuǎn)錄功能的企業(yè)及個人,甚于它的使用廣泛性,SwiftScribe認為能夠讓一大批用戶受益,包括醫(yī)學健康、法律部門、商業(yè)媒體等領域。

      語音技術(shù)主要分為識別與合成兩大領域,對于百度而言,歷年來的研究院技術(shù)突破也讓識別性能有了重大的提升。雷鋒網(wǎng)整理了百度在語音技術(shù)的相關研究成果,借此拋磚引玉,得以一窺百度在語音領域的技術(shù)積累。

      語音識別

      從SwiftScribe說起,回顧百度在語音技術(shù)的七年積累

      via yuyin.baidu

      早在 2010 年,百度開始進行智能語音及相關技術(shù)研發(fā),并于同年 10 月在掌上百度上推出語音搜索,當時的宣傳語是這樣說的:「語音搜索就用掌上百度」,這也是第一代基于云端識別的互聯(lián)網(wǎng)應用。

      在 2012 年左右,研究者們開始采用 DNN 進行語音識別的相關研究。經(jīng)過近兩年的發(fā)酵,2012 年 11 月百度上線了第一款基于 DNN 的漢語語音搜索系統(tǒng),這讓百度成為最早采用 DNN 技術(shù)進行商業(yè)語音服務的公司之一。研究顯示百度在當時就呈現(xiàn)了優(yōu)秀的語音識別能力,「在安靜情況下,百度的普通話識別率已達到 95% 以上」。

      在 2013 年 1 月,李彥宏提出百度成立深度學習研究院,并于同年 4 月設立了硅谷人工智能實驗室,彼時雷鋒網(wǎng)也做過相關覆蓋與報道。而隔年百度硅谷人工智能實驗室(SVAIL)正式成立,加上吳恩達的加盟,更多的研究與投入也讓百度開始在語音技術(shù)上展露頭角。

      根據(jù)吳恩達在百度語音開放平臺三周年大會上的演講,百度于 2014 年采用 Sequence Discriminative Training(序列區(qū)分度訓練),當時的識別準確率為 91.5%。

      在同年年底,吳恩達帶領團隊發(fā)布了第一代深度語音識別系統(tǒng) Deep Speech 的研究論文,系統(tǒng)采用了端對端的深度學習技術(shù),也就是說,系統(tǒng)不需要人工設計組件對噪聲、混響或揚聲器波動進行建模,而是直接從語料中進行學習。

      從SwiftScribe說起,回顧百度在語音技術(shù)的七年積累

      團隊采用 7000 小時的干凈語音語料,通過添加人工噪音的方法生成 10 萬小時的合成語音語料,并在 SWITCHBOARD(沿用近20年的標準語料庫,被視為識別的“試金石”) 上獲得了 16.5% 的 WER(詞錯誤率,是一項語音識別的通用評估標準)。當時的實驗顯示,百度的語音識別效果比起谷歌、Bing 與 Apple API 而言優(yōu)勢明顯。

      雷鋒網(wǎng)AI科技評論了解到,近年來在 ImageNet 的競賽中,CNN 的網(wǎng)絡結(jié)構(gòu)在不斷加深(比如微軟亞洲研究院的 152 層深度殘差網(wǎng)絡),錯誤率則逐步下降。百度通過借鑒這一研究進展,將深度學習在圖像識別領域的進展應用于語音識別,嘗試將 Deep CNN 架構(gòu)配合 HMM (隱含馬爾科夫模型)語音識別系統(tǒng),也呈現(xiàn)出很好的表現(xiàn)。

      而 2015 年初基于 LSTM-HMM 的語音識別技術(shù)也逐步發(fā)展為基于 LSTM-CTC (Connectionist Temporal Classification)的端對端語音識別技術(shù),通過將機器學習領域的 LSTM 建模與 CTC 訓練引入傳統(tǒng)的語音識別框架里,提出了具有創(chuàng)新性的漢字語音識別方法。

      2015 年 8 月,百度研究院新增了漢語的識別能力,準確率高達 94%。這也讓端到端的深度學習算法成為語音識別提升最重要的手段之一。在 2015 年 9 月份的百度世界大會上,吳恩達也在較為嘈雜的情況下,驗證了機器的語音識別已經(jīng)超過人類;而李彥宏彼時也宣布,百度語音識別的準確率能夠達到 97%。

      而在 2015 年年底,百度 SVAIL 推出了 Deep Speech 2,它能夠通過深度學習網(wǎng)絡識別嘈雜環(huán)境下的兩種完全不同的語言——英語與普通話,而端到端的學習能夠使系統(tǒng)處理各種條件下的語音,包括嘈雜環(huán)境、口音及區(qū)別不同語種。而在 Deep Speech 2 中,百度應用了 HPC 技術(shù)識別縮短了訓練時間,使得以往在幾個星期才能完成的實驗只需要幾天就能完成。在基準測試時,系統(tǒng)能夠呈現(xiàn)與人類具有競爭力的結(jié)果。(雷鋒網(wǎng)按:HPC 指的是使用多處理器或某一集群中的數(shù)臺計算機搭建的計算系統(tǒng)與環(huán)境,百度所應用的 HPC 技術(shù)實際上是 OpenMPI Ring Allreduce的修改版本。)

      得益于在語音交互的突破,百度的深度語音識別技術(shù)在 2016 年入選 MIT 十大突破技術(shù)。

      根據(jù)研究院的官方消息,百度 SVAIL 已于 2017 年 2 月成功將 HPC 技術(shù)移植到深度學習平臺,借此加速 GPU 之間的數(shù)據(jù)傳輸速率。該算法以庫和 Tensorflow 補丁的形式向開發(fā)者開源,分別為 baidu-allreduce 和 tensorflow-allreduce,目前已在 GitHub 上線。

      3 月 14 日,百度硅谷研究院也推出了一款基于 Deep Speech2 的 AI 轉(zhuǎn)錄應用 SwiftScribe,其神經(jīng)網(wǎng)絡通過輸入數(shù)千小時的標記音頻數(shù)據(jù),從中學習特定的單詞與詞組。

      語音合成

      從SwiftScribe說起,回顧百度在語音技術(shù)的七年積累

      via yuyin.baidu

      如果說語音識別是讓機器聽懂人類的語言,那么語音合成便是讓機器開口說話。

      語音合成即文本轉(zhuǎn)換技術(shù)(TTS),根據(jù)百度官網(wǎng)的介紹,它是“實現(xiàn)人機語音交互,建立一個有聽和講能力的交互系統(tǒng)所必需的關鍵技術(shù),是將計算機自己產(chǎn)生的、或外部輸入的文字信息轉(zhuǎn)變?yōu)榭梢月牭枚?、流利的口語輸出的技術(shù)”。

      早期的語音合成做法是機械地將預先錄制好的聲音拼接在一起,也就是我們經(jīng)常聽到的拼接式合成(concatenative TTS),采用語音編碼技術(shù)存儲合適的語音單元,在合成時通過解碼與波形編輯拼接處理后生成相應的語句,一般合成的內(nèi)容也比較有限,比如自動報時或報站等相對固定的內(nèi)容,便適合采用這樣的方法。

      而參數(shù)合成法(parametric TTS)則相對復雜,涉及對語音信號的分析并提取參數(shù),再由人工控制參數(shù)的合成。但實現(xiàn)合成的全過程可謂兼具高難度與強工作量:首先需要涵蓋語音在合成出所有可能出現(xiàn)的聲音;隨后根據(jù)文本的內(nèi)容選擇對應的聲學參數(shù),再實現(xiàn)合成。

      在 2015 年,手機百度小說頻道上線了情感語音合成模塊,系統(tǒng)可提供「磁性男聲」的朗讀版本;而百度新聞也支持語音播報。實際上這兩個技術(shù)都涉及語音合成技術(shù)(TTS)。此外,百度還采用此技術(shù)復原了張國榮的聲音,目前可達到接近真人的發(fā)聲效果。

      百度 SVAIL 在今年正式推出了 Deep Voice,即一個實時語音合成的神經(jīng)網(wǎng)絡系統(tǒng)(Real-Time Neural Text-to-Speech for Production),目前論文已經(jīng)投遞 ICML 2017。實驗顯示,在同樣的 CPU 與 GPU 上,系統(tǒng)比起谷歌 DeepMind 在去年 9 月發(fā)布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。

      在去年年末的百度語音開放平臺三周年大會上,吳恩達就已經(jīng)表示,「現(xiàn)在百度在中國語音合成的能力已經(jīng)達到業(yè)界領先的水平?!箍梢姲俣仍谡Z音合成領域已經(jīng)是胸有成竹了。

      兩大應用方向

      目前百度的語音技術(shù)分為兩大應用方向:語音識別(及語音喚醒)還有語音合成。

      在語音識別領域,結(jié)合自然語言處理技術(shù),百度能夠提供高精度的語音識別服務,實現(xiàn)多場景的智能語音交互:

      • 手機百度和百度輸入法自不必說,它們能夠直接通過語音輸入匹配搜索結(jié)果,提升輸入效率。

      • 主要合作伙伴:艾米智能行車助手;樂視語音助手;海爾智能家居;陌陌;神武游戲等。

      而百度的語音喚醒則支持自定義設置語音指令,為應用提供流暢對話。比如:

      • 通過百度語音喚醒技術(shù)可以喚醒度秘,滿足用戶真人化的需求;

      • 在百度 Carlife 、 百度CoDriver 及百度地圖中,語音喚醒技術(shù)能夠幫助駕駛員實現(xiàn)撥打電話、播放音樂、導航等多項操作。

      在語音合成領域,最典型的例子莫過于人聲朗讀了。

      • 百度地圖利用合成技術(shù)生成導航語音,能夠幫助用戶實現(xiàn)流暢的人機交互;

      • iReader 也采用了百度語音合成技術(shù)實現(xiàn)語音朗讀效果,目前支持中文普通話播報、中英文混讀播報,音色支持男聲和女聲。

      • 主要合作伙伴:塔讀文學、AA拼車等。

      吳恩達在接受華爾街日報采訪時表示了對語音技術(shù)的信心與期待:「至少在中國,我們會在接下來幾年時間普及語音識別應用,讓人機溝通成為一件非常自然的事。你會很快習慣與機器流暢交流的時光,而忘記以前是如何與機器交互的。」雷鋒網(wǎng)也相信,百度未來會在語音技術(shù)上取得更大突破,并讓人們獲得良好的人機交互體驗。

      相關閱讀:

      雷鋒網(wǎng)報道:

      [1] 李彥宏:人工智能的四個核心能力是語音、圖像、自然語言理解和用戶畫像

      [2] 百度首席科學家吳恩達演講:語音技術(shù)能為什么帶來巨大改變

      [3] 百度首席科學家吳恩達:大腦能在一秒內(nèi)完成的任何工作,都會被AI取代

      論文:

      [4] Deep Speech: Scaling up end-to-end speech recognition

      [5] Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      從SwiftScribe說起,回顧百度在語音技術(shù)的七年積累

      分享:
      相關文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 精品无码日韩国产不卡av| 柠檬福利第一导航在线| WWW免费视频| 肏屄视频在线播放| 精品熟女日韩中文十区| 亚洲人成在线免费观看| 欧美性猛少妇xxxxx免费| 宁国市| 爆乳2把你榨干哦ova在线观看 | 人与兽XXX| 国产二区精品久久| www.99| 亚洲AV无码成人精品区网页| 无码人妻精品一区二| 国产一区二区av天堂热| 国产三区在线成人av| 亚洲福利黄色片深爱网| 亚洲日韩精品一区二区三区| 女同av在线| 乱码午夜-极国产极内射| 99视频精品| 最近中文字幕免费mv在线| 亚洲精品一区久久久久一品av | 一本色道久久爱88av| 国产亚洲日韩在线播放更多| 看全色黄大色黄大片 视频| 江陵县| 全黄h全肉边做边吃奶视频| 婷婷久久久久| 国产乱人伦av在线无码| 最大的成人网亚洲| 色噜噜人妻丝袜AⅤ资源| 国产做受???高潮素材喷水合集| 99精品久久99久久久久| 性视频一区| 亚洲一区精品无码色成人| 国产一级精品毛片基地| 国产熟妇勾子乱视频| 国产对白老熟女正在播放| 亚洲欧洲无码av电影在线观看| 亚洲国产精品一区二区www|