語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

本文作者：黃楠

2023-10-16 14:31

導語：吳軍、徐鵬、李志飛、陳果果、姚旭晨……這是一個有志青年從約翰霍普金斯大學離開之后，用 AI 改變世界的故事。

這是一個，一群人用語言和語音技術探索前路、希望改變世界的故事。

一通特殊的電話，開啟徐鵬的 CLSP 之旅

1999年，徐鵬接到了一個從未設想過的電話。

24年后，已經成為了螞蟻集團副總裁、執掌螞蟻基礎大模型，徐鵬仍然無法忘記那一通電話——而也是這一通電話，讓他的人生發生了重大的改變。

彼時的徐鵬，剛剛結束在中科院自動化所三年的研究生項目，告別導師黃泰翼，來到了大洋彼岸的布朗大學進修，研究語音識別和麥克風陣列。

而電話另一頭的人一說話，就讓徐鵬吃了一驚，給他打來電話的，是約翰霍普金斯大學（以下簡稱“JHU”）語言和語音處理中心（CLSP）的負責人 Frederick Jelinek。

布朗大學雖是藤校，但在語音識別領域里的名聲，卻難望 JHU CLSP 的項背。而真正令徐鵬印象深刻的，是世界級語音大牛——Jelinek 的親自致電。

一年前，徐鵬就曾經申請過 Jelinek 的博士，但最終沒能如愿，然而去往JHU、在 Jelinek 手下工作的想法，一直沒在他心中熄滅。于是在布朗大學就讀一年后，徐鵬再次申請了CLSP 電子工程系的項目，這才終于等來了 Jelinek 的電話。

行家一出手，便知有沒有。兩人只是短暫交流，Jelinek 便給了徐鵬 Offer，只是希望徐鵬能夠早點來到學校，進入 CLSP 的狀態。

于是，在布朗大學的第一年讀完，剛放暑假，徐鵬就帶著行李從羅得島離開，去往位于美國東部、馬里蘭州巴爾的摩里的 JHU。

巴爾的摩是世界著名的港口之一，這里四季分明，氣候溫和潮濕，比起紐約、洛杉磯等發達且“時髦”的城市，稍顯樸素。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

JHU 的 Gilman Hall

有些人會將 JHU 的某些特質和中科大進行對比——地處二線城市，學風淳樸。

“跟老師交流時，他們關注的重心不是你能發多少篇文章，而是這個工作的原創性、能給領域帶來什么新的方向和思考，”畢業于 JHU 生物醫學工程專業的醫療 AI 創業者馬駿回憶道，“學生們也是，大家對學術是出于真心的喜歡，平時聊天、討論的內容都是學術方向和學術大牛，跟今天大家討論明星八卦一樣，是他們的樂趣所在。”

事實上，在哈佛、耶魯等教會學校大行其道的當時，JHU 第一任校長 Daniel Coite Gilman（卡內基-梅隆大學的前身卡內基學院創始人），特意遠渡重洋招徠了六名知名教授，并引入德國的大學教育體系，成立了北美第一所研究型大學 JHU，分專業錄取本科生、以討論班形式授課，意在將學術體系更細分化、專業化。

然而，能讓徐鵬放棄藤校的學位，最重要的，還是在 JHU CLSP 的學術領軍人物、美國工程院院士 Jelinek。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

Frederick Jelinek

Jelinek 來自捷克，麻省理工畢業后，他曾在康奈爾教書十載，后加入 IBM 研究院，于 1972 年帶領 IBM 華生實驗室，提出了基于統計的語音識別框架，以提升語音識別的準確率和識別范圍。

看山不是山，Jelinek 將語音的問題看作一個通信問題，使用聲學和語言兩個概率模型，精準地概括了語音識別，將 IBM 的語音識別率從 70% 提升至 90%，單詞識別的規模也從數百上升到了兩萬——此后，語音識別技術有了初步應用落地的可能性。

而沒過幾年，Jelinek 在 IBM 又有了一項新的成果：基于語料庫 n-gram 語言模型的大詞表連續語音識別方法。簡單來說，把語音識別的單位從“單詞”拓展到了“整句”，不僅讓語音識別的性能大大提升，也深遠的影響了未來20年左右的語音識別和機器翻譯技術發展進程。

對 IBM 當時的語音工作，黃學東對雷峰網如此評價：“做語音最早的就是 IBM，如果從歷史的維度講述，IBM 內部將做語音的方法應用至機器翻譯、改寫了歷史，也影響了后面的 Transformer。IBM 對語音領域的研究做出了巨大的貢獻。”

而彼時，前沿的語音研究，中心仍然在高校。Jelinek 從 IBM 來到 JHU，并且主掌 CLSP 的研究和人才招募。

研究和行政之外，Jelinek 也會親自帶博士，而徐鵬則是他的第四號博士。

Jelinek 素來以嚴格治學聞名，他的想法明確、學術視角毒辣，即使已是學術領軍，仍然與學生交流緊密。講課并非他最突出的能力，來到 CLSP，Jelinek 就已經是花甲之年，也不會親自寫代碼。于是，徐鵬必須得把每一個實驗的肌理分析得足夠清楚細致、追根問底，還得能夠把成果匯報給 Jelinek 。

對徐鵬，Jelinek 常常一次性給他20個問題，讓他寫出代碼實現驗證。徐鵬和其他學生辦公的地方，是一個狹長的長條形房間，而 Jelinek 的辦公室就在門外，常常給出問題沒多久，Jelinek 就會親自來到徐鵬桌前詢問進度，或干脆把徐鵬叫進辦公室討論。

Jelinek 的嚴格，由此可見一斑。

另外，在批改論文時，Jelinek 甚至會標出文中的英文語法錯誤。在中國學生越來越多的時候，Jelinek 還還專門讓他秘書在辦公室掛了一個“只能說英文”的牌子，甚至還出錢雇老師給徐鵬他們上英文課。

在 Jelinek 初到美國時，他的夢想本是研修法律，只愁捷克口音太重，英文發音稍遜一籌，便不得已選擇了麻省理工的電子工程系——他之所以如此，也是怕學生再吃語言的虧，重蹈他的“覆轍”。

每年暑期，CLSP 也會聯合各大高校開展 workshop。不同院校的學生、老師、企業的研究院都來到 JHU ，申報課題后，一起完成兩三個月的研究工作。

90年代末，正是統計方法開始被語音識別學界所重視起來的時候。在這個方向，當時涌現出了一批重要學者。從Michael Collins、斯坦福的Christopher Manning 和他的學生等等，Jelinek 也經常邀請他們來到CLSP訪問交流，一時 CLSP 稱得上“談笑有鴻儒，往來無白丁”。

而 Daniel Povey 主創的語音識別開源工具 Kaldi，也正是誕生于 CLSP的 workshop。不過這是后話，先按下不表。

在學術之外，Jelinek 的生活作風相當簡樸，沒有什么做派。他開一輛老豐田開了20年，啟動時的聲音像飛機發動機一樣，別人問起，他只說：“我要像用我的人一樣，用我的車。”老車報廢之后，Jelinek 只是花了幾千美金，買了一輛很舊的二手車。

2001年，徐鵬跟 Jelinek 一起，去意大利參加一場重要的活動。從米蘭落地，Jelinek 租了一輛車，載著徐鵬在米蘭的山路上近乎狂飆，抓住一切機會超車，絕不落人后，把副駕駛上的徐鵬驚出一身冷汗。

也正是在那場活動上，當時臺上不少語音領域的大牛，都在討論語音識別該怎么做、往哪個方向走，但各說各話，爭論不下。

在臺下，Jelinek 再看不下去了，于是站起來，對著臺上說：“在這里爭論這么久，仿佛這個事情是我們能決定的，我們就是各個政府的奴隸，他們給我們錢、讓我們干什么就得干什么，不要講得這么冠冕堂皇，實際上我們也影響不了研究方向。”

是時，臺下數百觀者，臺上一眾嘉賓，無不瞠目結舌，Jelinek 也不愿退讓，最后還是有人圓場，尷尬的氣氛才緩解了幾分。

“我覺得，他（Jelinek）看事情時，更希望看到本質——能做什么就做什么，不能做的事情干脆放棄，沒必要粉飾太平，說話直接，常常直戳痛點。”談到恩師 Jelinek 時，徐鵬如此評價道。

Jelinek 最出名，也最令人咋舌的一句名言——“Every time I fire a linguist, the performance of the speech recognizer goes up.”（我每開掉一個語言學家，我語音識別的效果就能上升一點）也曾在業界掀起軒然大波。

即使外界一片爭議和誤解之下，Jelinek 也只和身邊親近的人解釋過。其實，Jelinek 很希望能夠將語法的解析，和語音識別、語音模型結合起來。

當時徐鵬和一個師兄一起，在這個領域做過嘗試，而最后結果證明是，語法解析對模型效果確實能夠起到一定作用，只是跟 Jelinek 的想象相差甚遠。

而 Jelinek 反對的，是用規則的方式做語音，他認為語法應該跟統計結合起來，加上他本就是做信息論出身，相較之下，更欣賞用概率論統計的方法去做研究。

而實際上，規則學習的方式，也在世紀之交時遇到了瓶頸——只用語法規則無法完全解釋語言，而語言學家標注出的規則又無法窮盡使用者的語言使用；而就在這時，Jelinek 所一貫主張的統計學習，則一舉登上了語音領域機器學習的主流舞臺。

早期在 Jelinek 治下，徐鵬的研究談不上有什么自由度，直到做出成果讓導師信服后，才得以逐漸開展自己感興趣的的研究。

對 Random Forest（隨機森林）算法效果提升的研究，是徐鵬心中，自己在 CLSP 時比較有新意的一個工作。這種機器學習算法，基于集成學習理論，根據隨機選擇的特征訓練一棵一棵的“決策樹”，再根據多數投票的方式，把每棵樹的預測結果合并為最終的預測結果。

欣賞徐鵬的研究，Jelinek 特意將隨機森林算法的創始人之一——Leo Breiman 請到了實驗室，讓徐鵬把自己的工作給他匯報。比起 Jelinek ，利奧·布雷曼還要大上四歲，已經幾近古稀，特意從西海岸趕來巴爾的摩，稱贊了徐鵬的工作。

而在 JHU 進修數年之后，徐鵬以親身領略到了最前沿的語音技術。而和不少心懷天下的 AI 探索者一樣，他不想把一身本領留在象牙塔——他的夢想是長風破浪，直濟滄海，用語音 AI 改變世界。

PhD畢業后，徐鵬的下一站，選擇了一家年輕的公司——創始于硅谷山景城的谷歌。

谷歌：CLSPer 從學術界走向工業界

“我認為，谷歌對 AI 的貢獻，今天很多人都沒有看到——其中最核心的一件事，就是在 2004、05 年左右，用分布式、云計算的方式來做語音識別和機器翻譯，把技術變成了一項實打實的產品。”李志飛——徐鵬在 CLSP 的師弟，后來出門問問的創始人——如是說道。

21 世紀初，語音 AI 正有從高校向工業界轉移的趨勢。谷歌的不斷壯大，也吸引著越來越多華人 AI 新星的加入。而其中，同樣來自 JHU CLSP 的吳軍，就是谷歌最早一批的貢獻者。

吳軍比徐鵬大三屆，算得上是徐鵬的師兄，由于都是華人，兩人時常在實驗室一起吃飯，吳軍時不時會請徐鵬來家里吃飯，徐鵬也幫吳軍搬過家。

徐鵬 2005 年畢業，就直接加入了谷歌，成為了當時谷歌為數不多的華人員工。當年谷歌來到巴爾的摩，在 JHU 校招，吳軍還親自作為宣講的一員隨隊前往。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

徐鵬

然而，招收徐鵬進入谷歌的，并不是吳軍。

事實上，一年前的谷歌校招，吳軍就鼓動徐鵬來試試，彼時徐鵬正讀到博士最后一年，到了面試才發現自己準備得并不完備，發揮不盡人意，面試階段被刷了下去。

一個寒暑過去，再有兩天徐鵬就要畢業。或許是命運的安排，在一次會議上，徐鵬遇上了執掌谷歌機器翻譯的 Franz Och。

兩人簡單交流，Och 十分賞識面前的這位年輕人，便問徐鵬，為什么沒有申請谷歌的工作。而徐鵬仍在一年前面試失敗的陰影之下，感覺希望渺茫——谷歌當時四五千人的規模，研究崗只有寥寥數十人。而 Och 卻想要給予徐鵬一個機會，當時谷歌的機器翻譯組也急需科研人才，便為徐鵬安排了一次線上面試。

這次，徐鵬沒有浪費機會，過五關斬六將，一周后就拿到了 Och 發來的 Offer。

5 月進入谷歌，徐鵬便開始享受著相當自由的工作氛圍：研究主要依靠研究員的自驅；地點也十分自由，只需要提報一個簡單的差旅手續，就可以想去哪里去哪里；甚至有一次，徐鵬因為專注工作，錯過了 Peter Norvig（徐鵬在谷歌的第一個 director）的年末績效匯報，遲到了足足 20 分鐘，盡管是兩人的第一次會面，諾維格也只是輕飄飄一句：“做事去吧”。

在谷歌期間，徐鵬所在的機器翻譯組，是谷歌最早一批將統計方法機器學習做進產品中的人。最早期，機器翻譯組只有十人不到，研究和產品化都有專人負責。徐鵬則被歸入了產品化團隊中，從前端到后端、工程到產品均有涉獵。

幾年時間過去，谷歌的機器翻譯組也越發壯大，徐鵬也作為面試官，面試過大量的人才，其中也包括 Samy Bengio（Yoshua Bengio 的弟弟）

2013年，深度學習的風潮興起，AI 的風向再次變天。

硅谷的谷歌內部，也清晰地感受到了這種變化，機器翻譯組的 Och 也被深度學習技術的發展所震撼，想要從底層研究到落地實現大包大攬；而徐鵬和 Och 的理解并不一致，他認為，和谷歌大腦協作能更加集中公司內部的資源，各取所長。

彼時，谷歌大腦的辦公室就在機器翻譯組的斜對面，門牌也只是貼在門上，一張寫著“谷歌大腦”的打印紙。而在那里，今天 OpenAI 的首席科學家、創始人之一——Ilya 和組員正在完成的卻是改變世界的研究：

在徐鵬的幫助下，谷歌大腦完成了 LSTM 在機器翻譯領域上技術研究，以及paper sequence to sequence translation背后數據的預處理等工作——Ilya 做的是模型和方法，徐鵬則用自己的模型和統計方法與 Ilya 方案對比，統計方法給基于LSTM的深度學習方法提供了很好的驗證，讓深度學習模型更容易看到當時的不足，并最終得以改進，取得了比統計模型更好的效果。

而和谷歌大腦的合作，讓徐鵬意識到繼續進行統計方法研究的局限，在 Och 主導的翻譯團隊進行深度學習探索的自由度也受到了一定的限制。雖然徐鵬已經是組里的manager，主管工程和部分研究，但是他還是提出了轉組，想去機器翻譯之外的地方嘗試。

再三思索，徐鵬沒有去 Ilya 的谷歌大腦——因為 Ilya 對深度學習執念很深，意圖把研究方向全部攬到深度學習中來；而徐鵬更愿意做落地的工作，關注實際的效果，兩人最終也是道不同，不相為謀。

于是，徐鵬去了谷歌廣告，是第一個把深度學習做到線上系統的人，給公司帶來了幾個億的營收。而在徐鵬離開機器翻譯組后不久，Och 就選擇了離開谷歌，去往了 Human Longevity 開始新的探索。

時間拉回2010年，徐鵬面試了另一個來自 CLSP 的年輕人，他比徐鵬小5屆，與徐鵬同樣分屬電子工程系，也正是書生意氣的年紀。當時，正是谷歌機器翻譯組決定在語音版圖上開始擴張的時機，徐鵬面試了不少在語音領域有所成就的技術大牛，而面前這位年輕人就是其中之一。

年輕人名叫李志飛，2004 年入學，和吳軍一樣，拜在Sanjeev Khudanpur 門下。

Sanjeev，常常被中國學生戲稱為“三姐夫”，是 Jelinek 在早期招募進入 CLSP 的學術精英，研究方向和 Jelinek 一脈相承，Sanjeev 也是一位“神人”。傳說每次有人來參加研討會，Sanjeev 總能一眼看出對方數學公式中的錯漏。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

Sanjeev Khudanpur

原先也曾在 CLSP 讀書的云啟資本合伙人陳昱回憶，Sanjeev 對學生要求極嚴——不僅編程技術需要過關，數學水平也要足夠高。開課時，教室里還滿滿當當坐了幾十號人，而隨著課業進行，學生便變得越來越少。

在電子工程系，李志飛的獎學金是 Sanjeev 幫忙出的；而帶他做事情的導師，是一位叫 Jason Eisner 的計算機科學教授。

初到 JHU，李志飛最開始做的是分布式網絡系統——不同于語音、NLP ，這并不是 CLSP 的主要研究方向。而他當時的導師是一個來自 MIT 的猶太人，對學生主動性要求比較高。在上算法課時，常常公式寫了兩條，就停下來看自己的股票是漲是跌，李志飛深感如果在他手下恐難畢業，于是才跳槽到了 Jason Eisner 的手下。

Jason Eisner 也是 JHU 強大師資中的一員，他不僅是計算機科學系的教授、編程語言 Dyna 的首席設計師，也執掌著微軟 Semantic Machines （2015年 Dan Klein 和華裔科學家 Percy Liang 的 NLP 項目，后被微軟收購）研究，在解析算法、機器翻譯和加權有限狀態機等多個領域建樹頗深，并且獲得了 ACL2017 最佳長論文獎。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

Jason Einser

而在李志飛眼中，Jason 是一位超級聰明的 NLP 大神。他說話語速極快，腦子轉得也快——在 CLSP 辦的會上，受邀參加演講的嘉賓，不少都是帶著不懂的問題來找到 Jason，來請他幫忙解答。

而在教書育人的角度，Jason 也有自己的一套風格。在課堂上，他每年都會根據業界最新的動態，來增刪課程的內容，以讓課堂能夠跟上科技發展的前沿。

除了有 Jason Einser 傳道解惑，李志飛在 JHU 里也和另一位 NLP 大神——David Yarowsky 有過合作，一起完成過一篇有關中文縮略語翻譯的論文。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

David Yarowsky

David Yarowsky，和剛剛提到的 Jason Eisner、以及哥倫比亞大學的 Michael Collins 都師承于賓夕法尼亞大學的 Mitchell Marcus 教授。而 Mitchell 也正是“賓州樹庫”（Penn Treebank）的作者，為后世的 NLP 研究提供了一套成熟的句法分析數據集。

師出名門，David Yarowsky 在研究詞義消歧、跨語言學習等領域成果斐然。他性格有些可愛的古怪，被李志飛等一眾學生稱為“上帝”——David 從來不回復郵件，常常窩在四面都被書籍包圍的辦公室里，但幾乎對天下事無所不知，頗有當年康德的風范。

早年間，吳軍也曾在他門下學習。對同樣酷愛讀書的 David，吳軍評價道：“他的藏書量和讀書量可能都是我的十倍，但是他 95% 的書都只是瀏覽過。按照他的觀點，絕大多數的書都不值得仔細讀，但是閱讀量大是有好處的，除了拓寬知識面，更重要的是能夠讓自己的想法保持客觀中立。”

在 CLSP ，李志飛一個主要成就，是開源統計型機器翻譯工具包 Joshua 的開發。使用并行和分布式計算技術，Joshua 的可拓展性很強，并且在 WMT09 的法-英轉譯上，實現了當時最先進的翻譯性能和翻譯任務，給后世留下了很深遠的影響。

2010 年，李志飛也順利從 JHU 博士畢業。5 年過去，谷歌的規模增長了十倍左右；僅 2009 年前后，谷歌在一年內就招收了 8000 名新人，甚至總部專門為此發函，談“如何在增加招聘人數的情況下，不影響招聘質量”。

當時的谷歌，對李志飛也有足夠的吸引力，為此，他還與陳昱通過電話，交流過谷歌的情況。

盡管都是谷歌，陳昱待過的地方是谷歌紐約，后來又去往上海；李志飛則是一頭扎向了位于硅谷的谷歌總部，并且在那里一直待到回國創業出門問問。

彼時，谷歌研究院在硅谷的華人幾乎鳳毛麟角，除了李志飛，雷欣、趙勇、和李志飛在 CLSP 的學長徐鵬，加在一起不超過十個人。

在谷歌，李志飛的故事人盡皆知，他在谷歌總部主導機器翻譯和語音識別的相關工作，與他在 JHU CLSP 的研究一脈相承，在谷歌的手機離線翻譯的開發工作上，完成了很多貢獻。

盡管風光正好，但李志飛并未在硅谷做過多停留。僅僅兩年后，他就決定回到中國創業，這才有了后來的出門問問。

有人說，李志飛早在谷歌期間，就有了創業的念頭。當時適逢中國移動互聯網的大發展開端，回國的決定是天時和地利的融合。也是同年，吳軍也從谷歌回國，加入了騰訊的搜索部門，與當時家大業大的百度、銳意進取的搜狗形成犄角之勢。

而李楠——一位大致同時期也在谷歌工作的業內人士，卻對雷峰網(公眾號：雷峰網)表示，李志飛離開，歸根結底還是語音和翻譯業務，在谷歌并非如搜索、廣告一般的核心業務，整體受重視程度不足，是比較邊緣的一塊領土。

“和服務大客戶的 IBM 不一樣，谷歌的基礎架構當年的確是最好的——基礎設施搭得好，上層應用可以很快速地迭代，這也讓我們在很長一段時間里有競爭優勢。”李楠評價道，“但難以直接轉化成實際的營收和用戶增長，對于 To C 的谷歌來說，語音還是很難站到主導的地位上。”

而另一位谷歌前員工安舍也表示：因為翻譯的項目不賺錢，所以谷歌當時也沒有投資源，算作一個純粹研究性質的項目——而谷歌又想把它做得更大，所以在前兩年，機器翻譯組做的事情每年都要上公司的OKR，Och 要親自向高層匯報進展，其中一項就是機器翻譯要做到什么程度。

在谷歌離線翻譯的項目上，李志飛和 Och 也曾經有過一些想法上的摩擦。Och 認為這個項目很難做出實際用途——他認為，只需三年，所有終端都可以完成聯網，到了那時，離線包也就再也沒了用途。

而同樣在 Och 手下工作的徐鵬，知道前者是個“個人色彩濃烈”的領導，也更理解李志飛的處境，于是給了李志飛不少支持，也讓李完成了第一版谷歌翻譯的離線包。

直到今天，這個離線包都支持用戶下載。

在象牙塔，李志飛多年的心血全部投入在機器翻譯上，來到谷歌，卻發現自己的專攻難有用武之地，肯定心里難受。技術先進和商業成果的矛盾，也是不少進入大廠的科學家們，所共有的一個命門。

在這個角度，出門問問的誕生也就成了必然。

2010年，除了谷歌退出中國，李志飛加入谷歌，CLSP 還發生了另外一件大事——徐鵬的導師，CLSP 的扛鼎之人，Frederick Jelinek 在一個普通的星期二，在實驗室工作時突然伏案不起，倒在了工作崗位上，終年78歲。

失去了先驅的引領，CLSP 和卻并未停步，未來的十年，隨著一批又一批的人才加入，仍然群星薈萃，引領著 AI 語音語義技術的前進方向。

語音 AI 浪潮下的創業青年

Jelinek 溘然長逝，一顆引領著語音識別技術發展、為后世留下了諸多成就的啟明星隕落。在當年 IEEE 悼念 Jelinek 的文章中，劍橋大學皇家工程院院士 Steve Young 評價他“He was not a pioneer of speech recognition, he was the pioneer of speech recognition.（是語音識別的先驅。）”

而此前，純粹的技術至上主義、淳樸的學風，在 Jelinek 影響下的 CLSP 風格獨特，許多青年學者慕名前來，Jelinek 的離去，不僅是語音識別領域發展的損失，對 CLSP 而言更是莫大的打擊。

陳果果便是受到過 Jelinek 直接影響的學生之一。

陳果果是 2006 年紹興市的高考狀元，本科就讀于清華大學電子工程系。

2010 年春節前后，陳果果還在讀大四，這是他在紹興老家度過的最后一個寒假。兩個月前，陳果果向 JHU 遞交了博士申請，如果通過，錄取通知的時間正是這幾天。

他打開網站，郵箱自動登錄跳轉到首頁，在幾條未讀消息中，陳果果一眼看到了來自 CLSP 的郵件、通知他已被錄取。Offer 落款處寫著 Jelinek ，郵件內容簡潔，只寫了三件事：

第一、承諾給充足的研究資金；

第二、提供獎學金和生活費；

第三、在博士第一年結束時，可以去 IBM、Google 等大公司實習，做產學研結合。

對從事語音識別處理研究的學生而言，CLSP 是頂級學府、在語音、NLP 和分布存儲系統領域極具話語權，可以接觸到最前沿的技術；更不用說 Jelinek 親自邀請，陳果果幾乎受寵若驚，欣然接下了 Offer。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

陳果果

同年 8 月末，陳果果乘上了飛往美國馬里蘭州的航班；也是那時，李志飛剛剛好畢業離開，橫跨美國飛往硅谷，二人幾乎擦肩而過。

但在陳果果入學不到半個月的時間，Jelinek 突發意外，陳果果也就此痛失了人生的導師。

隨后兩年里，陳果果跟隨 Sanjeev 學習。那時候，CLSP 整個實驗室的中國學生為數并不多，而陳果果驚喜地發現，和自己同年入學的姚旭晨，同樣有著一顆“不安分”、喜歡折騰的心，因此兩人早早便相約畢業以后一起創業。

姚旭晨本科就讀于南京大學，在格羅寧根大學和薩爾蘭德大學讀的碩士。有兩位 NLP 領域宗師級別的人此前都曾在薩爾蘭德大學教書，一位是歐洲科學院院士、北京深知無限人工智能研究院院長 Hans Uszkoreit，另一位則是他的妻子、聯想集團前副總裁徐飛玉。

陳果果在電子系做語音，姚旭晨則是計算機系 NLP 方向。由于 JHU 電子系和計算機系均歸屬于工程學院，因此，陳果果和姚旭晨雖然專業不同，但使用的是同一個實驗室，兩個人性情相投，經常一起玩耍。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

姚旭晨

這段時期，Sanjeev 也在不停地為實驗室物色新的教授人選。CLSP 研討會的發展，對優秀師資的納新起到了至關重要的作用。而前面提到的，開源語音識別工具Kaldi的主要開發者Daniel Povey就在這個時候登場了。

2012 年，陳果果迎來了他的另一位導師，語音識別大牛——Daniel Povey、現任小米語音首席科學家。

Daniel 的故事，世間流傳不少。他最主要的成就，莫過于他在 2009 年一個 JHU Summer Workshop 發起的，語音識別開源工具 Kaldi。集成了隱馬爾可夫等多種語音識別模型，Kaldi 自推出以來下載量多達 2 萬余次。在 JHU 期間，陳果果也深度參與了 Kaldi 的工作，在上面貢獻過大量代碼。

但鮮少人知，Kaldi 最早被提出，正是 Dan 此前在一次 CLSP 研討會上啟動的項目。

20 世紀 90 年代，得益于基于 GMM-HMM 聲學模型的區分性訓練準則和模型自適應方法的提出，語音識別迎來了第一次產業應用的小高潮。為了降低研究門檻，劍橋大學發布 HTK（Hidden Markov Model Toolkit）開源工具包，彼時還在劍橋大學讀書的 Dan 也深度參與了這項工作。

但到了 2010 年前后，HTK 開發步入停滯期，市面上幾乎找不出第二個專門為語音識別而生的開源工具。那時候的 Dan 已經離開了 IBM、加入微軟研究院工作。

覺察到開發者對產品內部維護的迫切需求，Dan 決心要為語音識別再做一個工作、類似于谷歌或微軟用于內部維護的代碼庫，并以開源工具包的方式呈現。

這一想法受到了普遍開發者和企業的追捧。Kaldi 推出后，很快便在開源社區中占據了一席之地。

Dan 將 Kaldi 的成功歸功于“除了 HTK 之外沒有任何真正的競爭對手”，雖然 Kaldi 取得了階段性的勝利，不過在 ASR （Automatic Speech Recognition，自動語音識別）軟件包領域，仍舊沒有能免費使用的替代方案。降低 WER（語音識別詞錯率）、給大家提供免費的語音識別工具，這是 Dan 的畢生所求。

但是，受限于自己在微軟研究院的員工身份，早年想要在企業里做開源并非易事，微軟的內部律師要求 Dan 不許更新 Kaldi 的新版本。

這意味著，如果想繼續做開源，留給他的只有大學一個選擇。

由于此前 Kaldi 和 CLSP 研討會的淵源，因此，Dan 也自然而然地選擇了加入 JHU。

JHU 期間，Dan 的研究工作主要由四部分組成，包括 Kaldi 的項目推廣，關于無網格 MMI 訓練和時延神經網絡 (TDNN，這也是當時許多開源項目中具有前沿性的工作，與學生、開發者合作研究用于說話人識別的 d-vector，之后又與 Vassil Panayotov、陳果果以及 Sanjeev 合作完成了 Librispeech 數據集。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

Daniel Povey

陳果果是 Dan 的第一個博士畢業生。兩個人的第一次見面，Dan 就跟他說：“Send me emails whenever you have questions, I'm almost always online.（不管什么時候你有問題都可以給我發郵件，我隨時在線。）”

話音剛落，陳果果起初根本不相信，他心想：怎么可能有誰會一直在線呢？但沒過多久，這個想法就被事實打臉了。

在陳果果整個博士期間，無論是工作日或周末，他發給 Dan 的絕大部分郵件，都會在 5 分種內收到回復。對于 Kaldi 論壇上的問題郵件，Dan 也是如此，幾乎每個問題他都會回答。即便后來端到端開始流行、原本的 Kaldi 版本落后，Dan 在加入小米后仍一直沖在前線、帶隊做出了 Next-gen Kaldi，到今天，Dan 每天還會自己寫代碼，在 Github 上的狀態永遠是綠。

可以說，“工作狂人”是刻在 Dan 身上最顯著的標簽之一。

遇上研究任務緊迫的時候，陳果果會被 Dan 喊到辦公室里一起寫代碼。與 Dan 共處的兩年多里，陳果果最大的感觸便是：決不能浪費一點寫代碼的時間。甚至，有時候 Dan 還會不惜推掉一切社交，只為了能呆在辦公室里工作。

有一次，實驗室到華盛頓哥倫比亞特區附近參加一個 Babel 的項目會，會議結束時是下午三點多，即將開始下班高峰期。為了避免被堵在路上，Dan 便慫恿陳果果和自己先撤退。臨出發時，因為陳果果倒車速度比較慢，Dan 主動要求自己來開車。

于是，陳果果目睹了 Dan 敲代碼的雙手迅速轉動方向盤、飄逸倒車，一路飛奔往 JHU 的方向開，直到踏進 CLSP 的辦公室才松了口氣，開心地工作起來。

而除了對時間的嚴格外，另一個不能被 Dan 接受的，便是服務器不穩定。陳果果回憶，Dan 在很多事情上都比較寬容，但如果出現誰亂用服務器資源，則會受到他非常嚴厲的警告。在 Dan 看來，數據和計算資源對整個 CLSP 而言是極其重要的資產，要隨時保證 CLSP 的每一個人都可以使用。由此可以推測，或許這也是為什么 Dan 在 2019 年“學生抗議”事件中，他毅然選擇前往 JHU 行政樓試圖奪回服務器的原因。這是后話。

說回陳果果。跟他的許多師兄弟一樣，陳果果在讀博期間也曾在谷歌實習過。

那時候深度學習剛剛興起，而谷歌的語音團隊也開始逐漸擁抱DNN（Deep Neural Networks）技術。2013 年 6 月，陳果果進入谷歌，也是在這里，他初次感受到了一項技術走出實驗室、從研究到落地的產品魅力。

在谷歌期間，“Okay Google”的熱詞檢測系統，是陳果果完成的最具代表性的工作。在此后的十多年間，“Okay Google”作為 Google Assistant 的標志性交互方式之一，進入了數以億計的安卓設備，并讓其他的語音助手如亞馬遜的Alexa、蘋果的Siri也都采用類似的語音交互方案。可以說，陳果果當時在谷歌的工作從某種程度上定義了接下來十多年間絕大部分主流語音助手以熱詞（又稱為喚醒詞）為主的交互方式。

“Okay Google”是一個熱詞檢測系統。傳統的語音識別交互方式中，如果用戶想要使用語音功能，意味著麥克風功能必須保持長期在線，并對語音做持續識別轉寫，這種方法不僅功耗大、同時還會出現許多噪聲引起的錯誤識別。為了改善這個問題，早期的語音助手一般采用 Push-to-Talk（隨按即說）的方式，也即用戶需要和語音助手進行交互的時候，需要首先點擊一個說話按鈕，再進行交互，這意味著和語音助手的交流依然離不開手的幫助。

陳果果提出的想法是，可否通過定義一個熱詞，算法隨時監控該熱詞，當熱詞被觸發之后喚醒麥克風來接受后續的用戶信息，這便是“Okay Google”提出的初衷。這個不經意間的想法無意之中改變了主流語音助手的交互方式，比如 2014 年亞馬遜推出的 Alexa 即采用了此種交互方式，2015 年蘋果也給其語音助手“Siri”添加了“Hey Siri”熱詞喚醒。

有了清晰的思路后，陳果果說干便干，不到 1 個月的時間便將模型寫了出來。但隨后的性能提升以及產品化卻并沒有那么順利。經過兩個多月的日夜奮斗，陳果果終于在實習結束之前將熱詞系統的性能調至上線可用，該系統也在隨后的 11 月份順利進入安卓的正式系統。

陳果果在谷歌期間的另外一個重要收獲是找到了自己此后的創業伙伴。彼時姚旭晨正好也在谷歌實習，兩人在工作間隙便經常一起打球以及暢聊人生。兩人驚喜的發現，不同于大多數人的選擇，兩人都希望在畢業之后可以做出一個屬于自己的公司，而不是加入一個大公司。于是一拍即合，相約在畢業之后一起創業。

時間來到 2014 年，姚旭晨率先畢業，信守承諾單槍匹馬前往西雅圖創業。陳果果也緊鑼密鼓地開始博士論文的撰寫，準備一畢業即一起加入創業。

同一時期選擇了創業的，還有已經回國的李志飛。

2012 年，李志飛手握紅杉資本和真格基金的天使投資，回國創立出門問問，他的目標只有一個：探索下一代人機交互。

過去在谷歌的兩年里，李志飛專攻 NLP，軟件、硬件都做過，而李志飛當年的 demo 是有個簡陋的交互界面的，就和搜索引擎一樣，有個文本輸入框，用戶輸入一句話，它在網上把答案找出來

值得一提的是，在早期開發階段，出門問問正是圍繞著 Kaldi 來做的。由此可見 Kaldi 在當時的影響力之大。

后來，李志飛帶著團隊做語音搜索，在費勁心思地拿到微信接口后，其產品賬號入選了騰訊“十大公共賬號”；又試水 APP，并在 2014 年將 APP 成功嵌入到 Google Glass 當中；此后還推出操作系統 Ticwear，發布智能手表 Ticwatch、闖蕩硬件賽道……期間，出門問問的團隊規模也在不斷擴大，到 2015 年，出門問問已經成為以一家規模 230 余人、專注語音搜索應用的科技公司。

對陳果果和姚旭晨來說，2015 年也是至關重要的一年。

2014 年 9 月，姚旭晨單槍匹馬來到西雅圖創立公司，以一個艾倫人工智能研究所（AllenInstitute for Artificial Intelligence，簡稱 AI2）內部孵化項目的形式跑了一段時間，效益還不錯。期間，姚旭晨和陳果果頻繁電話，一方面更新自己在西雅圖的進展，另一方面也希望陳果果可以盡快畢業，一起加入。孵化器的薪資收入并不豐厚，但姚旭晨卻愿意將自己在孵化器的收入平分給陳果果。

兩人隨后將公司命名為 KITT.AI，并很快就開發了對話引擎 ChatFlow，可集成開發聊天機器人的各個模塊。

語音 AI 之路：約翰霍普金斯大學 CLSP 群英譜

姚旭晨（左）和陳果果（右）在 KITT.AI 辦公室

而即便是今天，博士生畢業即創業，冒著沒有綠卡的風險，拿到微軟前聯合創始人保羅·阿蘭以及亞馬遜Alexa Fund的投資，并在不到三年時間內順利被國內頭部企業收購，這其實是一件不可思議的事情。

但 2017 年，這樣一件小概率事件突然降臨到了陳果果和姚旭晨身上。“我們是屬于比較幸運的一批人，趕上了 AI 的第一波浪潮。”陳果果說。

2017 年 7 月 5 日，百度第一屆 AI 開發者大會在北京的國家會議中心里召開。會上，時任百度度秘事業部總經理景鯤宣布，百度全資收購語音技術公司 KITT.AI。

一時間，國內語音識別領域的從業者都關注起了這家遠在美國西雅圖、規模不足十人的 AI Startup。

在投資者看來，KITT.AI 的資本背書極為優越。它是全球唯一一家獲得亞馬遜 Alexa Fund 和微軟聯合創始人 Paul Allen 投資的創業公司，曾入選 CB Insights人工智能創業 TOP 100。

但令人驚訝的是，KITT.AI 的兩位創始人卻如此年輕。

主導收購 KITT.AI 的，是時任百度集團總裁兼首席運營官陸奇。西雅圖被視為創業“圣地”、恰如今天大模型下的新加坡，許多國內投資人紛紛奔波海外，用敏銳的嗅覺，把握著信息和風向。KITT.AI 背靠亞馬遜資本，有技術、又有業務，自然成為投資人眼中的香餑餑。在百度之外，姚旭晨也見了不少其他的潛在收購方。但百度戰投的投資總監Peter Fang及其團隊給他印象最深刻交流也最通暢。

最終選定百度，一方面是其開價足夠有誠意，另一方面，也與百度在帶屏音箱的布局有一定的關系。被收購后，KITT.AI 團隊三個中國博士——姚旭晨、陳果果，以及曹原，一起加入了度秘事業部。

曹原也是 CLSP 的博士，主攻 NLP，畢業后參與開發了谷歌第一代基于神經網絡的翻譯（Google’s Neural Machine Translation System）系統，是其論文作者之一。之后加入 KITT.AI 任首席科學家，他性格低調沉穩，屬于喜歡默默鉆研技術的人。

KITT.AI 被收購后，姚旭晨、陳果果和曹原加入百度景鯤麾下，一起參與了百度音箱的開發，當時的團隊也是今天小度科技最早的雛形。百度最早的智能音箱設有喚醒詞，喚醒后可提供各種各樣的技能，還設置了內容頻道，主要是為了增加用戶的使用頻次。

不過，有著雄心壯志的青年往往并不止步于短暫的勝利，持續創造、并改變世界是他們前行的坐標。

就在陳果果和姚旭晨還考慮是否二次創業時，2019 年，由于“學生抗議”事件，Daniel Povey 考慮離開歐美“政治正確”的輿論環境，Dan 想到了遙遠東方大陸上一個正冉冉升起的國家——中國。

Dan 對中國雖然并不了解，但 Kaldi 在中國可謂名聲大震。一時間，Dan 的中國追捧者并不少。在一眾擁躉中間，Dan 最終答應了時任小米集團副總裁、技術委員會主席——崔寶秋的邀請，來到小米重新開始，也成就了中國科技圈里的一樁美談。

那些有過短暫交匯、散落世界各地的 CLSPer 們，最終在中國得以匯聚。他們的到來，也深深地影響了中國語音 AI 發展。

永不止步

今天的大模型賽道，徐鵬與之也有頗深的淵源：在谷歌時期，他就用統計方法做過 N-gram，調用了四五千臺服務器，做到了三千億的參數規模。

在當時，把模型做到線上，對系統功能的挑戰很大。于是，徐鵬當時與 Jeff Dean 合作很多——徐鵬負責使用 map reduce 做語言模型，Jeff Dean 主做 survey。

多年后，在中國崛起的螞蟻把眼光放到了海外，意圖在灣區建立一個團隊，漆遠就找到了彼時正在谷歌的徐鵬。

2014 年，漆遠就想過拉徐鵬加入，而當時，徐鵬剛剛擼起袖子加入谷歌廣告，意欲在公司最賺錢的部門大展宏圖，就拒絕了漆遠的邀約。

而 2 年過去，徐鵬在谷歌的日子過得也并不舒坦。一個七八十億美元盈利的項目，本來是徐鵬主導的開發，卻因為公司內繁瑣冗雜的跨團隊溝通協同影響，比預期的進展慢了很多——這讓徐鵬的心中也萌生了退意。

而螞蟻給出的 Offer 則誠意滿滿：徐鵬加入即 P10，而螞蟻在國內也挖到了李小龍、萬昊、蔣松，在硅谷找來了宋樂，一同在灣區建設團隊。當時，螞蟻的 AI 路徑還并不明確，徐鵬就保持了一個十人左右的小團隊規模，只做對話機器人。

而此時，Tranformer 也正讓越來越多的學界、業界前沿，關注到了 AI 走向下一個時代的可能性。在諸多遠見者中，李志飛也是其中之一。

2020 年，已經成立了 8 年的出門問問，開始琢磨進軍深圳。在深圳，李志飛在機緣巧合之下，見到了中國工程院院士、彼時已是 ACM Fellow 的高文，兩人見面短暫探討，話里就談到了大模型。但高文當時行程擁擠，急著趕往下一個會，話并沒有談透。

當晚，高文組局，請李志飛吃飯，便不提大模型，只是希望李志飛幫他做機器翻譯的老本行，有關大模型的事情，也就不了了之。

沒有 ChatGPT 引爆市場，資本對大模型往往并不青睞。李志飛的團隊，就在沒有大筆外來資金注入的情況下，先訓出了一個 7B 規模的模型。

繼續尋找支持自己做大模型的人，李志飛又輾轉跑了南京、北京等幾個城市的經信委，當時能聽懂大模型人的并不多。反而上海經信委的人，有關 GPT-3 更加看好，來過出門問問幾趟探清虛實，最終決定支持，只是錢打來的時候，已經是 2022 年的 10 月份。

同是 2020 年，陳果果和姚旭晨兩位好友又再度攜手，在西雅圖共同成立 Seasalt.ai，瞄準了云端通信方案及 AI 技術方向，推出了全渠道客戶體驗平臺 SeaX，生成式AI自動化工具 SeaChat 以及對話智能平臺 SeaMeet。目前 Seasalt.ai 以美國市場為主，在新加坡和臺灣也有客戶，類型涵蓋了出海電商、旅游、銀行等等。

按姚旭晨的規劃，接下來 Seasalt.ai 的主戰場還是會更聚焦在北美，一方面夯實東南亞基礎，把大企業級應用做深做透，另一方面，此前 KITT.AI 創業時就是在北美，面對北美市場的客戶自己也更有經驗，聚焦 SaaS 企業服務。

而元旦剛過，2021 年 1 月的陳昱，在云啟資本上海辦公室附近的咖啡廳內，正在招待一位 JHU 女校友——贠燁祎。燁祎年紀輕輕，小陳昱十幾屆，卻在談吐中顯露出了一眾同年齡女性所難以具備的成熟和老練。

中國的科技圈，從不缺“千里馬與伯樂”的故事。聽過項目，陳昱的心動了——早對大模型有意的他，也曾在科技圈尋尋覓覓，但一個看得上的應用公司也沒找到。

良機難得，陳昱敲定了這位 JHU 師妹帶來的項目。短短三年過去，這家名叫 MiniMax 的 AI 公司，估值翻了 8 倍左右，也成為了在大模型賽道競逐中的一號“種子選手”。

從 CLSP 走出的 AI 精英們，是彼時最具硅谷精神的一批人：他們接受了學界最前沿的教育，親眼見證過語音、語言 AI 科學的發展和演進；

在象牙塔取得了成就，他們卻不甘止步于實驗室，偏要學以致用，把技術帶向工業界。

懷著熱忱，盡管經歷風雨，他們改變世界的少年之心仍然火熱地跳動，牽動著 AI 時代的每一次脈搏。

在語音 AI 崛起的浪潮之中，吳軍、徐鵬、李志飛、陳果果、姚旭晨等這一批華人學者深度參與其中，成為推動中國語音技術進步和產業落地的重要力量。也期待他們在大模型時代書寫出新故事。

（雷峰網雷峰網）

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

黃楠

主筆

傾聽科技和商業的故事，關注AI人物、技術變革。｜微信：finfl26est

發私信

當月熱門文章