0
編者按:你一定聽過Google Brain,也一定使用過Google Photos和Gmail等產品,并且贊嘆這些軟件竟然能讀懂自己的照片,理解自己的語言。其實在它們背后都有人工智能技術的影子。Google曾經是一家搜索公司,但現在的它更像是一家人工智能公司。這其中的轉變是如何發生的,又有怎么樣的故事呢?
本文編譯自Backchannel.com,作者為Steven Levy。
如果你想把人工智能注入你的每一個產品中,你需要培訓一支精于此道的程序員團隊。
每一個Googler都會機器學習?
聽說,Google 工程師 Carson Holgate 最近在練習做一名忍者。
當然,這不是軍事方面的訓練,今年 26 歲的 Holgate 擁有跆拳道黑帶段位,武藝不凡。她所謂的忍術,指的是算數邏輯上的概念。Holgate 幾周前加入了這個項目,借此她學到了比體術更具威力的技術——機器學習。作為一名 Android 開發部門的工程師,Holgate 同時也是今年參加“編程忍者”機器學習項目的 18 名主要程序員之一。這個項目的工程師來自 Google 各個部門的天才,按計劃,會有專家教導他們如何運用機器學習是各自的產品變得更加聰明,更懂人性。但代價就是,項目將因此變的更加復雜。

“忍者” Carson Holgate
“我們內部代號是,你想成為一名精通機器學習的忍者嗎?”Christine Robson 是谷歌機器學習小組產品經理,負責代碼的管理,對我說。“所以我們在谷歌的每一個團隊都抽調了人手,并花了六個月的時間教授他們機器學習應用課程,通過項目實訓,幫助他們在工程項目中運用機器學習提升用戶體驗。
四年前 Holgate 作為一名計算機科學及數學雙學位博士來到了 Google,對于她來說這,是一次絕佳的機會學習世界上最火爆的技術:使用學習算法,并通過大量的數據“教會”算法更好地完成任務。多年以來,機器學習被認為是一個高端科研項目,只有極少數的精英科學家才有可能學會。那個時代已經過去了,新一代基于神經網絡的深度學習,模仿碳基生物的大腦,用一套統一的方法論把機器學習的門檻大幅降低了,這套方法論被普遍認為是機器學習的“真理”,是把計算機改造成超級大腦的唯一可行途徑。Google 承諾將擴大這類精英人群的數量,使它成為提升用戶體驗的普遍措施。對于像 Holgate 這樣的工程師,忍者計劃是她們走在技術最前沿的絕佳機會,通過這項計劃, 他們將學習到最先進的機器學習技術。“這些人都在開發不可思議的模型,并借此獲得了博士學位”。她的語言中掩飾不住敬畏及敬仰之情。這個項目把所有的學員都稱呼為忍者,這一點讓她起初覺得不舒服,但后來,她還是克服了心理障礙。“一開始我感覺很難接受,但一旦接受了這個設定,覺得還挺好玩的”。
考慮到 Google 龐大的員工數量—— 6 萬名員工中大約有一半是工程師,忍者計劃似乎是一個影響相當小的項目。但這個項目象征著公司對于機器學習認識的改變。盡管機器學習在很久前就成為了 Google 的重要研究方向,并且在這方面,Google 十分熱衷于聘請各類專家——但公司直到 2016 年才真正被機器學習的魅力吸引。去年,CEO Sundar Pichai 宣布:“機器學習是核心技術,我們要把這項技術融入到我們的每一件產品中,甚至重新設計產品。經過深思熟慮,我們決定在包括搜索,廣告推薦,YouTube,及 Play 商店等產品中廣泛運用機器學習。盡管這項計劃目前還處于早期階段,但你會看到我們建立系統性的工程,將之融匯于產品中”。
顯然,如果 Google 決意把機器學習應用于所有的產品中,那么,每一個產品都必須有對于這些技術有深刻見解的工程師參與開發,這與傳統的編程范式有著顯著的區別。Pedor Domingos 在其機器學習著作 The Master Algorithm (《算法大師》)中寫道,“機器學習是太陽底下的新鮮事,一項能夠不斷改進自身的技術”。開發出一套機器學習系統,需要辨別出有效的信息,設計針對性的算法,并確保你的所有條件可控且正確。然后(對于程序員來說很難)充分信任你的這套系統,將其投入實際工作環境中。
“當有越來越多的人用這種方式解決問題,我們對此的改進速度就會越快”。
目前,他估計整個 Google 的 2.5 萬名工程師當中,只有數千人精通機器學習。大約占到總數的十分之一,他希望在不久的將來,這個數字將達到接近百分之百。“如果每一名工程師都至少對于機器學習有一定程度的理解,這是極好的”, 他說。
但是這可能嗎?“我們盡量試試”,他說。
數年以來,John Giannandrea 在 Google 內部都扮演著機器學習重要推動者的角色,如今他成為了搜索部門的主管。但在他剛剛進公司的 2010 年(他是在谷歌收購 MetaWeb 時隨之一同加入谷歌的,那家公司的龐大數據庫已經以知識圖譜的形式整合到搜索業務中),他對于機器學習及神經網絡的認識還停留在最初級階段。在 2011 年期間,他被一條介紹神經信息處理系統(NIPS,一個研究機器學習的組織)的新聞震撼到了。每一年,NIPS 的團隊成員都會宣布最新的機器學習研究成果,包括聲音識別,圖像處理等方面的應用。常常會出現很多驚人的效果。“當我第一次看 NIPS 時,上面討論的那些艱深晦澀的問題讓我費解。”他說,“但這是最近三年學術界及工業領域都大熱的領域,去年大約有 6000 人加入了這個組織”。

John Giannandrea
這些不斷改進的神經網絡算法,以及摩爾定律帶來不斷倍增的計算能力,在 Facebook 和 Google 等公司海量數據的驅動下變得越來越聰明,學習能力呈指數提升,成為機器學習的主流研究方向。Giannandrea 把那些對此擁有極大熱情,并相信機器學習將是公司核心的工程師招致麾下。這群天才中包括 Google Brain 聯合創始人 Dean,Google Brain 隸屬于 Google X 研究室,研究神經網絡科學。
谷歌對于機器學習的熱情擁抱并不僅僅代表了編程技術的轉變。換句話說,機器學習帶來的,將是用戶體驗的質變而非量變。機器學習的前沿是一種基于神經網絡的深度學習算法,這種算法的靈感來源于人的大腦神經結構。Google Brain 就是一個深度學習研究項目,而最近宣布市值達到 5 億美金的人工智能公司 Deepmind 也是這個領域的佼佼者,這個公司在前年被 Google 以 4 億美金收入囊中,旗下產品包括著名的AlphaGo,打破了人工智能不能在圍棋方面打敗人類的迷思。
盡管 Gianandrea 對于各類媒體及預言家們“人工智能將毀滅人類”的論調嗤之以鼻,但是他也不贊成“人工智能要改變包括醫療,交通等一切事物”的論調。機器學習并不會取代人類,但會改變人類。
Giannandrea 經常喜歡把 Google Photos 作為機器學習的正面例子證明其學習能力。這個產品的圖像識別功能不可思議,甚至有時候會令人感到不安。
“搜索一些邊境牧羊犬的圖片”。當用戶第一次發現 Photos 能把手機照片中的寵物狗識別出來時,感受絕對是震撼的。這和傳統的搜索業務不同,Photos 通過理解你照片中的物體,從而找出牧羊犬從幼年時期到老年期的各種照片。這對于人類來說當然不難,但機器可以在看過數千萬張照片之后越來越精準地識別目標,這是人類無法做到的。只要它學會了識別一種物體,就可以通過同樣的辦法識別其他 999 種物體,“這就是它的創新之處,”Giannandrea 對我說,“在各種細分領域,你都將看到機器學習大放異彩,展現出超越人類的學習能力。”
可以肯定的是,機器學習的概念在 google 內部早已流傳甚廣,Google 的創始人們對于人工智能的癡迷是從始至終的。機器學習在 Google 的眾多產品線中早已得到了廣泛的應用,盡管不是以機器學習的形式。(早期的機器學習往往使用的是一套較為簡單的統計方法。)
事實上,近十年以來,Google 都在公司內部對工程師進行著持續的機器學習教育。在 2005 年初,時任搜索主管的 Peter Norvig 受到了一名搜索算法科學家 David Pablo Cohn 的建議,嘗試讓卡耐基梅隆大學的教授承擔內部機器學習教學任務。但最終的結論是,只有 Google 的內部專家有能力教好這項前沿技術(也許還有國防部可以)。所以他在 43 號建筑(搜索部門的總部)里挑了一個足夠大的房間,在每周三晚上花兩個小時的時間開辦教學班。“這是世界上最好的教學”,Cohn 說,“這幫工程師的水平比我高出太多了!”這個課程受到了熱捧,事實上,這個課程的火爆程度超過了所有人的預料。很多工程師在兩小時的課程結束后還不肯離去,討論問題直到深夜。多年以后,有些谷歌工程師把課程錄成了段視頻,放到網上供人學習。Cohn 相信這些資料足以稱為 Mooc 的優質資源。在接下來的幾年里,Google 都在機器學習的內部培訓方面做了不少努力,但沒有以往那樣有組織,系統的培訓。Chon 在 2013 年離開 Google 之前,說,“機器學習在谷歌突然成了最重要的事情”。
這種情況持續到了 2012 年,Giannandrea 突發奇想,希望能把 Google 內部的所有機器學習專家聚集起來,看看能夠做出什么很酷的東西。 于是,Google Brain 項目就此成立,這是 Google X 實驗室里最引人矚目,且匯集最多高端人才的項目。“我們把這幫人挑出來,圈到同一棟樓里,奉上大量咖啡飲料,這幫人以前都在做著機器感知方面的工作,例如聲音識別及自然語言識別等等,我們決定把工作重心放在語言方面”。

Greg Corrado,Brain 聯合創始人
逐漸的,機器學習的研究成果在越來越多的 Google 大眾產品中被公眾所享用。自從機器學習的研究領域轉向了翻譯,聲音,視覺及自然語言的識別,機器學習在 VoiceSearch ,Translate,Photos 等Google 重要產品線得到廣泛應用也就不足為奇了。Jeff Dean 說,他和他的團隊對于機器學習的本質理解的越深刻,更加傾向于野心勃勃地利用它。“以前,我們可能會在整個應用中使用一小部分機器學習的組件,但現在,我們使用機器學習的方式重構了整個應用程序,而不是不斷改進機器學習模塊。Dean 說,如果現在要他把Google 的整個架構重寫一遍,他會使用 MapReduce 和 Big Table 的架構,使整個體系擁有自主學習能力。
機器學習還使得產品擁有以前無法想象的新功能。一個典型例子就是 Gmail 里的 SmartReply(智能回復)功能,這個功能最早在 2015 年十一月上線。這個功能的創意來自于 Google Brain 聯合創始人 Greg Corrado 及 Gmail 工程師 Bálint Miklós 的一段對話。Corrado 先前與 Gmail 團隊合作,利用機器學習處理垃圾郵件問題,以及給郵件分類,Miklós 給出了一個更加激進的建議。為什么不利用機器學習增加一個自動回復功能,方便鍵盤狹窄的智能手機用戶呢? “我當時被這個創意震驚到了,因為這個想法太瘋狂了,Corrado 說,但我想到我們研發的預測神經網絡,感覺又有成功的可能。我們意識到這是一個絕佳的炫技機會,我們想挑戰一下自我。
Google 讓 Corrado 和他的團隊長期呆在 Gmail 部門中,結果就是機器學習在Gmail 產品中越來越普遍的運用及效率的不斷提升。與其說機器學習是科學,不如說它是一門藝術。Corrado 說,就像烹飪一樣,化學反應讓一切充滿不確定性,你要不斷試錯,才能找到最適合你的原材料及烹飪方法。
傳統的人工智能方法依賴于把語言規則構建成體系,但在這個項目中,就像所有現代機器學習一樣,這套系統只需要足夠多的數據“喂養”,就能不斷成長,進化自身,就像幼童一樣。“我說話的技能并不是從語言學家身上學到的,而是通過傾聽別人講話學的。”Corrado 對我說。但使只能回復功能變得切實可行的,是智能回復的成功率很容易定義——如果人們使用智能回復的功能很頻繁,那么這個功能就成功了,而且根據人們點擊的選項概率,可以不斷改進智能回復的算法。
去年十一月,智能回復功能推出時引起一陣轟動。現在,Inbox 里面,智能回復每次會提供三個選項,每個選項都是一句話,用戶只需輕點選項,就可以免去在小屏幕上打字的痛苦。根據后臺數據,在移動設備上發出的郵件,有十分之一是機器學習生成的自動回復。“當它每次出現時,生成的結果往往還是會令我驚訝和贊嘆。”Corrado 笑著對我說。
智能回復功能只是 Google 機器學習網絡的一個小小節點,也許當轉折點終于到來時,機器學習會真正稱為搜索的必要組成,眾所周知,搜索是 Google 的主營業務也是其大部分的收入來源。從某些角度說,搜索功能一直在一定程度上使用人工智能。多年以來,由于搜索引擎對谷歌過于重要,所以始終沒有融入機器學習算法。“由于搜索在公司內部占據的份額巨大,高級管理者深度參與其中,所以很多人都懷疑我們無法真正取得進展”,Giannandrea 說。
其中部分阻力源自文化因素——必須要讓那些有極強控制欲的程序員適應帶有禪意和玄學意味的機器學習模式。長期掌管谷歌搜索業務的 Amit Singhal 曾是傳奇計算機科學家 Gerald Salton 的助手。Salton在文檔檢索方面的開創性工作啟迪 Singhal 幫助 Sergey Brin 和 Larry Page 把研究生時期編寫的代碼,擴展成了可以適應當今網絡時代的程序。(這使得他成為了“檢索派”的一員。)他從20世紀的方法中梳理出了令人驚訝的結果,但如果要將機器學習系統整合到關系谷歌命脈的復雜系統中,他卻持懷疑態度。“進入 Google 的前兩年,我負責搜索質量,試圖用機器學習來改進排名”,David Pablo Cohn 說,“結果發現 Amit 的團隊是全世界最優秀的,我們把 Amit 腦海中的所有內容都當成真理寫死到程序里,他是這個領域的宗師級人物”。
到2014年初,谷歌的機器學習大師們認為需要改變現狀。“我們與排名團隊展開了一系列討論”,Dean 說,“我們認為至少應該嘗試一下,看看能不能有一些收獲。” 他的團隊所設想的那個實驗最終成為了搜索的核心:文件排名與搜索請求的匹配程度有多高(需要以用戶的點擊為衡量標準)。“我們跟他們說,可以用神經網絡計算額外的分數,看看到底有沒有用”。
答案是肯定的。這套系統如今已經成為谷歌搜索的一部分,被稱作 RankBrain。它于2015年4月上線。Google 還是像以往一樣對如何改進搜索諱莫如深(究竟是與長尾理論有關?還是更好地解讀了模糊不清的搜索請求?),但 Dean 表示,RankBrain“融入到每一個搜索請求中”,雖然未必會影響所有的排名,但的確對很多搜索請求的排名都產生了影響。另外,實際的影響幅度也很大。在谷歌計算排名時所使用的數百個信號中(這些信號可能包括用戶所在的地理位置,或者頁面標題是否與搜索請求匹配),RankBrain現在的用途排名第三。
“我們成功利用機器學習改進了搜索結果,這對公司來說意義重大”。Giannandrea 說,“這引發了很多人的關注”。 華盛頓大學教授 Pedro Domingos 則給出了另外一種說法:“檢索派與機器學習派始終都存在斗爭。機器學習最終贏得了勝利”。
Google 面臨的新挑戰是如何讓所有工程師都熟悉機器學習。還有很多公司也都秉承著相同的目標,其中最引人關注的當屬 Facebook,該公司與 Google 一樣著迷于機器學習和深度學習。這一領域的畢業生變得非常搶手,而 Google 正在努力保持對畢業生的吸引力:學術圈多年以來都流傳著一個玩笑:即使不需要頂尖學生,谷歌也會招聘他們,避免人才被競爭對手搶走。(這并不準確,因為另一方面,Google 也確實需要這些預備人才。) “我的學生無一例外都得到了 Google 的錄用通知。” Domingos 說。目前看來,競爭的激烈程度有增無減:就在上周,Google 宣布將在蘇黎世開設一個新的機器學習實驗室,有很多工作崗位有待填補。
但由于學術項目尚未培養大量機器學習專家,為員工提供在職培訓面成為了必要措施。但這卻并非易事,尤其是對于 Google 這樣的公司而言。這里有很多世界頂尖工程師,他們一生都在研究傳統的編程方式。機器學習卻需要截然不同的思維模式,精通編碼的工程師之所以能有如今的成就,往往是因為他們希望完全控制一套編碼系統。機器學習還需要掌握一些數學和統計學知識,這即便對于很多資深黑客來說,也是很少了解的新領域。

Christine Robson
同時,這還需要有一定的耐心,“機器學習模型不是一段段靜態的代碼——隨著你不斷‘喂’給它數據,它會不斷地動態變化”,Robson 說。“我們一直在不停地更新模型,而且還要不斷學習,增加更多數據,調整預測方式。它就像是一個有生命的東西,這是一種截然不同的開發模式”。
“這是一個使用不同的算法進行實驗的學科,需要挑選那些真正適合使用場景的訓練數據。”Giannandrea 說。盡管他也是新的搜索業務主管,但卻仍然把在谷歌內部傳播機器學習理念作為自己工作的一部分。“計算機科學那一部分不會消失,但需要更加關注數學和統計學,而對數十萬行代碼的關注度則需要相應地降低。”
至于 Google 所擔心的新編程范式未能被廣泛接受問題,完全可以通過精細設置的上崗培訓解決。“歸根結底,這些模型中使用的數學原理并不那么復雜”,Dean 說,“Google 多數軟件工程師都可以掌握。”
為了進一步幫助不斷擴容的機器學習專家團隊,Google 開發了一系列強大的工具,幫助他們選擇合適的算法訓練模型,加快培訓和提煉過程。其中最強大的是 TensorFlow,它可以加速神經網絡的構建過程。TensorFlow 源自 Google Brain 項目,由 Dean 和他的同事 Rajat Monga 共同發明。它能把構建系統過程中涉及的晦澀難懂的細節變成標準化的內容——尤其是在谷歌 2015 年 11 月開始將其開放給公眾后,這種做法的效果更加得以顯現。
盡管谷歌煞費苦心地將這種行為描述為一種無私的舉動,但該公司也承認,如果新一代程序員都能熟悉該公司內部的機器學習工具,那對谷歌未來的招聘活動將會起到莫大的幫助。(質疑者甚至指出,Google 的 TensorFlow 開源項目是為了追趕 Facebook,后者已經在 2015 年 6 月公布了早期機器學習系統的深度學習模塊 Torch。)不過,TensorFlow 的功能以及谷歌的開源模式很快受到了程序員的歡迎。
Giannandrea 表示,當谷歌首次提供 TensorFlow 課程時,共有 7.5 萬人報名參加。
當然,作為一家商業公司,Google 還是把某些好東西藏了起來,留給自家用。該公司在內部擁有一套定制化的機器學習硬件——Tensor Processing Unit (張量處理單元,以下簡稱“TPU”)。他們雖然使用這項創新已經多年時間,但直到最近才對外宣布。這是一種針對機器學習程序優化的芯片,就像 GPU 是專門針對圖形處理優化的芯片一樣。該公司的龐大數據中心里使用了數以千計的 TPU (具體有多少恐怕只有上帝和 Larry Page 才知道)。通過賦予神經網絡這種超級計算能力,TPU 為谷歌帶來了巨大優勢。“如果沒有它,我們就無法實現 RankBrain”,Dean 說。
但由于 Google 最需要的還是設計還提煉這些系統的人才,他們也在不斷嘗試各種方式來為工程師提供機器學習方面的培訓。這些培訓的規模各異,其中也包括為期兩天的速成班。Google 希望這只是初步嘗試,工程師隨后還會尋找更多資源來深入學習。“已經有數千人報名參加下一次課程”,Dean 說。
該公司還在通過其他一些措施,為外部人才提供機器學習培訓。今年初春,Google 啟動了 Brain Residency 項目,利用 Google Brain 項目為有潛力的外部人才提供了為期一年的集訓。“我們稱之為你的深度學習職業生涯的開端。”Robson 說,他負責協助管理這個項目。盡管這 27 名來自不同學科的機器學習學員中,有些可能會跳槽到其他公司,但他表示,該公司的目的是讓他們自行發展,利用自己掌握的先進知識在世界各地傳播先進的機器學習技術。
所以,從某種意義上講,Carson Holgate 學習的忍者項目正是 Google 維持其在人工智能領域領導地位的核心。
她的課程最初是一個為期 4 周的新兵訓練營,由 Google 最先進的人工智能項目產品負責人提供指導,教給他們如何將機器學習融入項目中。“我們把忍者帶進會議室,Greg Corrado 站在白板前解釋 LSTM(長短期記憶,神經網絡模型的一種)。他做著夸張的手勢,講述這種系統的工作方式、利用何種數學原理、如何應用于實際。”Robson 說,“在最初的4個星期里,我們幾乎用到了我們的所有技術和所有工具,為的是給他們帶來切身體會”。
如今,Holgate 從新兵訓練營畢業了,她現在正在使用機器學習工具開發一款 Android 通訊工具,幫助谷歌員工彼此交流。她正在調整超參數,清理輸入數據,去掉停止詞。經歷了這一切,她已經不再回頭,因為前面是人工智能的光明大道,這是 Google 的未來,是一切的技術核心,甚至決定了公司的一切。
“機器學習”,她說,“這個領域大有可為”。
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。