<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給李智勇
      發送

      0

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      本文作者: 李智勇 編輯:谷磊 2017-05-11 18:34
      導語:李智勇老師的這篇文章不僅揭示了遠場語音交互的核心技術,還對商業化落地的路徑進行了深入的解讀,無論是語音交互的技術人員,還是產品經理,都值得一讀。

      雷鋒網按:本文作者李智勇,聲智科技聯合創始人,十年棧道程序員,有一個好玩的公號:zuomoshi(琢磨事)。本文為雷鋒網首發文章。

      關于遠場語音交互,聲智科技 CEO 陳孝良告訴雷鋒網:“語音是最簡單、最自然的人機交互方式,同時也是技術難度最大的交互方式,特別是語音交互從近場走向遠場落地到真實場景,必須考慮噪聲、混響、回聲等聲學問題,以及數據差異引入的機器學習模型問題,這些都是保證自由人機交互的核心技術。”


      但是網絡上橫跨聲學和計算機學科的教育資源太少,李智勇老師的這篇文章不僅揭示了遠場語音交互的核心技術,還對商業化落地的路徑進行了深入的解讀,無論是語音交互的技術人員,還是產品經理,都值得一讀。

      手機之后國外各大巨頭非常罕見的步調一致的在做同一件事情:智能音箱。而這一切最初的驅動力來自于Amazon Echo,但有意思的事情是Amazon Echo這產品根本沒做任何的功能上的創新,聽歌、看新聞、設鬧鐘、說笑話、控制家電等所有東西都可以在手機上找到替代品,它唯一的變化只是把語音交互的方式從近場升級為遠場,并把精度和速度打磨到非常優秀的程度。只是這么一點點變化,似乎就要創造一個無比巨大的行業,那遠場語音交互為什么有這么大的威力?

      語音交互等價于遠場語音交互

      極端的講法是世界上并不存在一種方式叫近場語音交互,語音交互基本等價于遠場語音交互。事實證明過去很多年里各種近場語音交互的嘗試(比如Siri)并沒獲得很好的進展,甚至簡單實用的語音輸入法也沒能成為主流。從應用場景來看遠場和近場的核心差別是拉開和語音設備的距離后,雙手再也沒用了。這樣和觸屏就可以徹底的差異化,可以徹底的發揮語音的快捷優勢。想象下面的場景:

      在微信里給一個人打視頻電話,如果用手機那是下面這樣的過程

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      如果變成遠場語音,那核心步驟會變成兩個

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      顯然在這兩種場景下便利程度是完全不一樣的,這種便利理論上講在近場的情形下同樣存在,但核心點在于近場時就需要挑戰用戶根深蒂固的觸屏習慣,這很難。觸屏雖然大流行,但顯然并沒能在筆記本上挑戰鍵盤鼠標的既有地位。這不單是偏好問題,也與各種應用與特定交互方式的綁定有關。觸屏雖然好用,但并不能完全在Office上用起來,所以如果Office根深蒂固,那么鍵盤鼠標就根深蒂固。所以我們說,語音交互基本等價于遠場語音交互,一旦它真的成為主流交互方式,培養了用戶習慣,那反過來才可能在近場的場景(比如近場的Siri)下占有一席之地。

      遠場語音交互的核心技術

      遠場語音交互如果變的無處不在,那Amazon Alexa(以及同類產品)會變成新一代的Android,那個時候整個生態會像下面這樣:

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      這個時候Alexa這樣的系統同時覆蓋了傳統上Android和應用商店的角色,在其上面則會有新的今日頭條、新的O2O等。而如果要把Alexa所依托的技術進行細分的話,那么基本上是三層:

      • 前端的聲學部分(算法+陣列)

      • 識別

      • NLU

      這樣一來遠場語音交互就正好面臨一大一小兩個瓶頸:

       亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      • 第一個瓶頸是眼下就要解決的問題,即在語義仍然有限制的條件下,打造偏命令控制的產品,這個時候產品的ID很難擬人化(想想Echo,Airpods這些產品),一旦擬人用戶的潛在期望就會無限拔高,你也就不可能做出非常滿足用戶體驗的產品。

      • 第二個瓶頸則具有一定的不確定性,具有探索性質,我們仍然還不知道什么時候自然語言理解中可以體現出真的智能,但確實只有這點做了突破,并且同計算機視覺進行融合才能真的做好擬人的機器人。

      而為了解決第一個瓶頸事實上需要做好的事情有兩個:

      • 一個是前端聲學算法軟硬件的持續優化

      • 一個是通過獲取的數據重新訓練云端的ASR

      這個過程可以用下圖橙色的部分來概括。

       亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      上述這個看著并不太長的鏈條其實復雜度非常高,它即跨越不同的學科(聲學部分屬于經典物理,識別部分則屬于CS),也需要打穿軟硬件。

      在算法層面只是前端就需要處理大量經典問題,比如降噪、去混響、回聲抵消、Beamforming等。加不加這些算法的音頻信號差異極大,如:

       亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度   亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      (具體效果試聽可以參照http://soundai.com/demo.html)

      而我們經常說的麥克風陣列即使拋開算法不論,單只在硬件層次上也遠不是標準品:

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      上圖是一款強調通用性的麥克風陣列,通過USB連接可以隨便連接到筆記本、PAD、手機上進行使用。同樣的陣列還可以做成線性、L型、球形,最終的目的都是匹配特定的場景,讓最終遠場交互的精度最優。

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      如果進一步下探,那就會出現更為底層的選擇,比如是用駐極體麥克風還是用MEMS的,是用數字的還是用模擬的。

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      再進一步挖掘,麥克風從特性上還可以進一步細分,比如:

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      所有上面這些點如果不能一一理順,那就沒法給用戶輸出一種綜合性的體驗,單點最優在遠場語音交互這里價值很小,相當于必要不充分條件。只有能夠綜合,并且能夠優化單點才真的能夠解決當前產品落地中的實際問題。

      (編輯友情提醒:聲智科技即將推出的“遠場語音交互課程”中,將會對Echo進行拆解并做技術剖析,有興趣深入了解的,可以關注一下。傳送門:實戰特訓:遠場語音交互技術

      技術和商業上的正反饋

      幾乎所有大公司都感受到了遠場語音交互背后的價值,所以紛紛試水:繼亞馬遜、Google之后,微軟宣布了自己的智能音箱產品,預計蘋果也會宣布自己的相似產品。但是遠場語音交互的落地卻可能比大家期望的要慢。核心點就在于技術-商業上的正反饋需要一定的啟動周期。顯然的技術不好用,產品體驗就不好;而反過來產品沒銷量技術就缺乏打磨的場景,內容配套也就不會跟上。這種互鎖狀態就會形成一個冷啟動周期,在這個周期里做技術的公司打磨自己的技術,在沒那么大量的產品上落地,產品公司則接受技術現實,打磨自己的產品。這樣一來整個遠場語音交互很可能會跑下面的曲線:

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      這個過程是可以和過去很多商業現實驗證的,比如2007年iPhone發布,小米手機則要遲到2011年,這期間的4年可以看成是智能手機的啟動期,一旦這個市場啟動后則進入一個高速增長期,小米手機的銷量迅速從2012的700多萬臺增加到2014年的6000多萬臺。

      遠場語音交互的這個技術-商業正反饋當前還處在非常初期的階段,亞馬遜的Echo(各種型號)如果2017年的銷量真的逼近2000萬臺,那基本上可以認為在美國,技術-商業的正反饋第一回合完成。而在國內,同品類產品銷量都還處在幾萬、十幾萬量級的水平,這個技術-商業的正反饋遠未完成。

      當然這并非壞事,在格局已定的市場上,后來者是沒有機會的;只有在這種充滿未知的領域上,創業者才真的有顛覆性的機會。如果回退到20年前,聯想、門戶相對于現在的BAT都是巨無霸型公司,要資源有資源,要渠道有渠道,要人有人但很有意思的事情是BAT最終崛起了。

      小結

      手機的觸屏把很多人塑造成了低頭族,遠場語音交互估計會塑造出許多和機器說話的人。那時候語言不再只是人和人的交互手段。

      雷鋒網注:現在雷鋒網 mooc.ai 已推出了遠場語音交互技術的實戰特訓班,由語音交互專家、聲智科技 CTO 馮大航主講,為你剖析語音信號處理,麥克風陣列信號處理,語音識別中的關鍵技術及實用技巧。為了鼓勵更多人投入語音領域,聲智科技提供價值1999元的 SAI_MICA_41T-UI、USB 版本的開發版給學員,增強實操練習。5月17日即將開課,感興趣的同學可點擊鏈接報名。

      (完)

      雷峰網特約稿件,未經授權禁止轉載。詳情見轉載須知

      亞馬遜 Echo大獲成功,遠場語音交互技術在其中究竟扮演了什么角色? | 深度

      分享:
      相關文章

      專欄作者

      十年棧道程序員,有一個好玩的公號:zuomoshi(琢磨事)
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 2021无码最新国产在线观看| 国产xxxxxxx| 狠狠色成人| 久久96热在精品国产高清| 国产精品自在在线午夜区app| 18禁免费观看网站| 太仓市| 日本妇人成熟免费| 桃色综合网站| 亚洲精品一品| 99热精品国产三级在线观看| 国产成人精品97| 加勒比无码人妻东京热| 91久久精品国产| 韩国精品一区二区三区四区| 玛纳斯县| 激情综合色五月丁香六月亚洲| 黄色A片网址| 日韩欧美2| 亚洲一区二区av| 亚洲精品国产电影午夜在线观看| 高清免费毛片| 日本一卡2卡3卡4卡无卡免费 | 日韩毛片在线视频x| 日本中文字幕一区二区视频| 国产成人无码av一区二区在线观看 | 国产成人精品手机在线观看| 丰满白嫩大屁股ass| 永久免费AV无码网站大全| 久久久久久毛片免费播放| 91亚洲色图| 又爽又黄无遮挡高潮视频网站| 国产熟女真品久| 精品99视频| 内射干少妇亚洲69XXX| 日韩一级亚洲一午夜免费观看中文版国语版 | 欧洲美熟女乱又伦免费视频| 在线a人片免费观看| 娇妻玩4p被三个男人伺候 | 福利所第一导航福利| 我想看一级毛片免费的|