<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給奕欣
      發送

      1

      從SwiftScribe說起,回顧百度在語音技術的七年積累

      本文作者: 奕欣 2017-03-15 21:45
      導語:語音技術主要分為識別與合成兩大領域,對于百度而言,歷年來的研究院技術突破也讓識別性能有了重大的提升。

      從SwiftScribe說起,回顧百度在語音技術的七年積累

      人與機器的自然交互一直是人類孜孜不倦的奮斗目標。隨著移動互聯網時代的發展,聲音與圖片成為了人機交互更為自然的表達方式。作為最核心的入口,語音技術就成為了科技巨頭們爭相攻下的堡壘。而人工智能的進步與發展也讓語音技術的識別率突飛猛進,也使其有了產品化的機會。

      李彥宏曾在劍橋名家講堂等多個公開場合說過,百度大腦涉及百度最為核心的人工智能內容,具體包括語音、圖像、自然語言理解和用戶畫像等四個核心能力,此外還有機器學習平臺;吳恩達也在公開場合演講時表達了同樣的觀點。

      3 月 14 日,百度硅谷研究院于推出了一款基于人工智能的轉錄應用 SwiftScribe 。基于百度于 2015 年年底推出的語音識別產品 Deep Speech 2,其神經網絡通過輸入數千小時的標記音頻數據,從中學習特定的單詞與詞組。百度推出 SwiftScribe 主要面向經常需要使用轉錄功能的企業及個人,甚于它的使用廣泛性,SwiftScribe認為能夠讓一大批用戶受益,包括醫學健康、法律部門、商業媒體等領域。

      語音技術主要分為識別與合成兩大領域,對于百度而言,歷年來的研究院技術突破也讓識別性能有了重大的提升。雷鋒網整理了百度在語音技術的相關研究成果,借此拋磚引玉,得以一窺百度在語音領域的技術積累。

      語音識別

      從SwiftScribe說起,回顧百度在語音技術的七年積累

      via yuyin.baidu

      早在 2010 年,百度開始進行智能語音及相關技術研發,并于同年 10 月在掌上百度上推出語音搜索,當時的宣傳語是這樣說的:「語音搜索就用掌上百度」,這也是第一代基于云端識別的互聯網應用。

      在 2012 年左右,研究者們開始采用 DNN 進行語音識別的相關研究。經過近兩年的發酵,2012 年 11 月百度上線了第一款基于 DNN 的漢語語音搜索系統,這讓百度成為最早采用 DNN 技術進行商業語音服務的公司之一。研究顯示百度在當時就呈現了優秀的語音識別能力,「在安靜情況下,百度的普通話識別率已達到 95% 以上」。

      在 2013 年 1 月,李彥宏提出百度成立深度學習研究院,并于同年 4 月設立了硅谷人工智能實驗室,彼時雷鋒網也做過相關覆蓋與報道。而隔年百度硅谷人工智能實驗室(SVAIL)正式成立,加上吳恩達的加盟,更多的研究與投入也讓百度開始在語音技術上展露頭角。

      根據吳恩達在百度語音開放平臺三周年大會上的演講,百度于 2014 年采用 Sequence Discriminative Training(序列區分度訓練),當時的識別準確率為 91.5%。

      在同年年底,吳恩達帶領團隊發布了第一代深度語音識別系統 Deep Speech 的研究論文,系統采用了端對端的深度學習技術,也就是說,系統不需要人工設計組件對噪聲、混響或揚聲器波動進行建模,而是直接從語料中進行學習。

      從SwiftScribe說起,回顧百度在語音技術的七年積累

      團隊采用 7000 小時的干凈語音語料,通過添加人工噪音的方法生成 10 萬小時的合成語音語料,并在 SWITCHBOARD(沿用近20年的標準語料庫,被視為識別的“試金石”) 上獲得了 16.5% 的 WER(詞錯誤率,是一項語音識別的通用評估標準)。當時的實驗顯示,百度的語音識別效果比起谷歌、Bing 與 Apple API 而言優勢明顯。

      雷鋒網AI科技評論了解到,近年來在 ImageNet 的競賽中,CNN 的網絡結構在不斷加深(比如微軟亞洲研究院的 152 層深度殘差網絡),錯誤率則逐步下降。百度通過借鑒這一研究進展,將深度學習在圖像識別領域的進展應用于語音識別,嘗試將 Deep CNN 架構配合 HMM (隱含馬爾科夫模型)語音識別系統,也呈現出很好的表現。

      而 2015 年初基于 LSTM-HMM 的語音識別技術也逐步發展為基于 LSTM-CTC (Connectionist Temporal Classification)的端對端語音識別技術,通過將機器學習領域的 LSTM 建模與 CTC 訓練引入傳統的語音識別框架里,提出了具有創新性的漢字語音識別方法。

      2015 年 8 月,百度研究院新增了漢語的識別能力,準確率高達 94%。這也讓端到端的深度學習算法成為語音識別提升最重要的手段之一。在 2015 年 9 月份的百度世界大會上,吳恩達也在較為嘈雜的情況下,驗證了機器的語音識別已經超過人類;而李彥宏彼時也宣布,百度語音識別的準確率能夠達到 97%。

      而在 2015 年年底,百度 SVAIL 推出了 Deep Speech 2,它能夠通過深度學習網絡識別嘈雜環境下的兩種完全不同的語言——英語與普通話,而端到端的學習能夠使系統處理各種條件下的語音,包括嘈雜環境、口音及區別不同語種。而在 Deep Speech 2 中,百度應用了 HPC 技術識別縮短了訓練時間,使得以往在幾個星期才能完成的實驗只需要幾天就能完成。在基準測試時,系統能夠呈現與人類具有競爭力的結果。(雷鋒網按:HPC 指的是使用多處理器或某一集群中的數臺計算機搭建的計算系統與環境,百度所應用的 HPC 技術實際上是 OpenMPI Ring Allreduce的修改版本。)

      得益于在語音交互的突破,百度的深度語音識別技術在 2016 年入選 MIT 十大突破技術。

      根據研究院的官方消息,百度 SVAIL 已于 2017 年 2 月成功將 HPC 技術移植到深度學習平臺,借此加速 GPU 之間的數據傳輸速率。該算法以庫和 Tensorflow 補丁的形式向開發者開源,分別為 baidu-allreduce 和 tensorflow-allreduce,目前已在 GitHub 上線。

      3 月 14 日,百度硅谷研究院也推出了一款基于 Deep Speech2 的 AI 轉錄應用 SwiftScribe,其神經網絡通過輸入數千小時的標記音頻數據,從中學習特定的單詞與詞組。

      語音合成

      從SwiftScribe說起,回顧百度在語音技術的七年積累

      via yuyin.baidu

      如果說語音識別是讓機器聽懂人類的語言,那么語音合成便是讓機器開口說話。

      語音合成即文本轉換技術(TTS),根據百度官網的介紹,它是“實現人機語音交互,建立一個有聽和講能力的交互系統所必需的關鍵技術,是將計算機自己產生的、或外部輸入的文字信息轉變為可以聽得懂的、流利的口語輸出的技術”。

      早期的語音合成做法是機械地將預先錄制好的聲音拼接在一起,也就是我們經常聽到的拼接式合成(concatenative TTS),采用語音編碼技術存儲合適的語音單元,在合成時通過解碼與波形編輯拼接處理后生成相應的語句,一般合成的內容也比較有限,比如自動報時或報站等相對固定的內容,便適合采用這樣的方法。

      而參數合成法(parametric TTS)則相對復雜,涉及對語音信號的分析并提取參數,再由人工控制參數的合成。但實現合成的全過程可謂兼具高難度與強工作量:首先需要涵蓋語音在合成出所有可能出現的聲音;隨后根據文本的內容選擇對應的聲學參數,再實現合成。

      在 2015 年,手機百度小說頻道上線了情感語音合成模塊,系統可提供「磁性男聲」的朗讀版本;而百度新聞也支持語音播報。實際上這兩個技術都涉及語音合成技術(TTS)。此外,百度還采用此技術復原了張國榮的聲音,目前可達到接近真人的發聲效果。

      百度 SVAIL 在今年正式推出了 Deep Voice,即一個實時語音合成的神經網絡系統(Real-Time Neural Text-to-Speech for Production),目前論文已經投遞 ICML 2017。實驗顯示,在同樣的 CPU 與 GPU 上,系統比起谷歌 DeepMind 在去年 9 月發布的原始音頻波形深度生成模型 WaveNet 要快上 400 倍。

      在去年年末的百度語音開放平臺三周年大會上,吳恩達就已經表示,「現在百度在中國語音合成的能力已經達到業界領先的水平。」可見百度在語音合成領域已經是胸有成竹了。

      兩大應用方向

      目前百度的語音技術分為兩大應用方向:語音識別(及語音喚醒)還有語音合成。

      在語音識別領域,結合自然語言處理技術,百度能夠提供高精度的語音識別服務,實現多場景的智能語音交互:

      • 手機百度和百度輸入法自不必說,它們能夠直接通過語音輸入匹配搜索結果,提升輸入效率。

      • 主要合作伙伴:艾米智能行車助手;樂視語音助手;海爾智能家居;陌陌;神武游戲等。

      而百度的語音喚醒則支持自定義設置語音指令,為應用提供流暢對話。比如:

      • 通過百度語音喚醒技術可以喚醒度秘,滿足用戶真人化的需求;

      • 在百度 Carlife 、 百度CoDriver 及百度地圖中,語音喚醒技術能夠幫助駕駛員實現撥打電話、播放音樂、導航等多項操作。

      在語音合成領域,最典型的例子莫過于人聲朗讀了。

      • 百度地圖利用合成技術生成導航語音,能夠幫助用戶實現流暢的人機交互;

      • iReader 也采用了百度語音合成技術實現語音朗讀效果,目前支持中文普通話播報、中英文混讀播報,音色支持男聲和女聲。

      • 主要合作伙伴:塔讀文學、AA拼車等。

      吳恩達在接受華爾街日報采訪時表示了對語音技術的信心與期待:「至少在中國,我們會在接下來幾年時間普及語音識別應用,讓人機溝通成為一件非常自然的事。你會很快習慣與機器流暢交流的時光,而忘記以前是如何與機器交互的。」雷鋒網也相信,百度未來會在語音技術上取得更大突破,并讓人們獲得良好的人機交互體驗。

      相關閱讀:

      雷鋒網報道:

      [1] 李彥宏:人工智能的四個核心能力是語音、圖像、自然語言理解和用戶畫像

      [2] 百度首席科學家吳恩達演講:語音技術能為什么帶來巨大改變

      [3] 百度首席科學家吳恩達:大腦能在一秒內完成的任何工作,都會被AI取代

      論文:

      [4] Deep Speech: Scaling up end-to-end speech recognition

      [5] Deep Speech 2: End-to-End Speech Recognition in English and Mandarin

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      從SwiftScribe說起,回顧百度在語音技術的七年積累

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲欧洲av无码专区| 爱3P| 97色婷婷| 久久久久久av无码免费看大片| 口爆少妇在线视频免费观看| 蜜臀98精品国产免费观看| 在线v片免费观看视频| 静海县| 先锋影音男人av资源| 免费在线3A级| 超碰777| 日韩成人一区二区三区在线观看| 人妻av一区二区三区av免费| 蜜臀久久99精品久久久久久小说| 蜜臀av在线播放一区二区三区| 黄龙县| 国产乱人伦无无码视频试看| 国产V片免费A片视频| 国产九九视频在线播放| 日韩一级视频| 亚洲日本乱码熟妇色精品| 久久99久国产麻精品66| 精品久久精品久久99| 天堂中文8资源在线8| 午夜av高清在线观看| 亚洲人成网网址在线看 | 日日夜夜噜噜| 欧洲成人综合| 久久久久久AV无码免费网站动漫| 午夜视频在线观看区二区| 国产精品久久久久影院色| 亚洲欧洲精品成人久久av| 亚洲成av人片色午夜乱码| 精品无码国产自产拍在线观看 | 91亚洲色图| 97人妻人人揉人人躁人人| 拳交av| 国产高清一区二区三区视频| 操碰网| 天堂人妻熟妇一区二区不卡| 精品综合视频精品|