<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給何忞
      發送

      3

      谷歌大腦是如何煉成的:萬字無刪減版全解密(三)

      本文作者: 何忞 2016-12-20 07:10
      導語:這是一個非常少見的故事,尤其是因為它與我們慣常對硅谷的印象相悖。

      雷鋒網按:如果說到在機器學習領域領先的公司,想必你不會忽略谷歌。從谷歌翻譯到從機器視覺,谷歌一直努力將機器學習應用于可能想象的任何地方。本文會講三個故事,它們在 Google 翻譯向 AI 的成功轉型中整合在了一起:一個技術故事,一個制度故事和一個關于思想演變的故事。本文源自紐約時報,作者 Gideon Lewis-Kraus,雷鋒網編譯,未經許可不得轉載。

      如果對前情不太熟悉的讀者,歡迎點擊閱讀《谷歌大腦是如何煉成的:萬字無刪減版全解密》系列:(一)(二)

      第二部分:語言機器

      5.語言的十字路口

      谷歌大腦團隊現在大約有 100 個成員,他們經常覺得自己不是在一個有等級區分的部門,而是在一個俱樂部、一個學術社區或是一個小酒吧,這個谷歌公司中最自由的部門經常受到其他部門羨慕的眼光。谷歌大腦被安排在公司園區西北邊緣的一個兩層的蛋殼結構的炭灰色建筑中,巨大的窗戶可以看到遠處的山景。他們的小廚房里有一個游戲足球桌,一個搖滾樂隊游戲機,一個 Go Kit,但是都很少有人使用這些。(但是我有次看到一個年輕的助理研究員在向他的同事介紹如何把一個菠蘿蜜像切火雞一樣切開)

      六月份我在谷歌大腦的辦公室時,看到一些空桌子,但是其中的大部分都有便利貼寫著諸如“Jesse,6/27”的字眼,到現在幾乎所有位置都滿了。當我第一次訪問他們的時候,停車還很方便,最近的位置提供給孕婦和特斯拉汽車,其他空閑的位置還很多。但是十月份的時候,如果我 9:30 以后才來,就不得不在馬路對面找車位了。

      谷歌大腦部門的增長讓 Dean 有點擔心公司是否可以滿足這樣的需求。他想避免發生所謂的“成功災難”——即公司的理論容量超過了實踐中執行任務的能力,人手不夠。所以某天他進行了一些簡單計算后,給經理做了一個兩頁 PPT 的展示:“如果未來每個人每天對自己的安卓手機說三分鐘的話,那我們得需要多少機器啊!我們可能得將我們的計算空間加倍甚至加三倍。”Dean 用夸張的表情說,“這聽起來很恐怖,但是我們不得不這么做。”他猶豫了一下,結果是“需要建立新的架構”。

      但是,他們還有另一個選擇:設計、批量生產一種新的芯片,安裝進分散式數據中心,加快運算速度,這種新的芯片叫做 T.P.U.(tensor processing units)。并且一反常態地主張使用比普通芯片精確度更低的芯片。他們不再計算 12.236 乘以 54.392,而是給出近似的 12 乘以 54 的答案。在數學的角度看,神經網絡就是一種結構化的成百上千上億的矩陣乘法的連續結果,所以過程的速度比精確度更重要。Dean 說道:“通常專用硬件不是個好想法,它經常只能加速一個東西,但是因為神經網絡的一般性,你可以使用專有硬件來加速很多東西。”

      就在芯片設計階段即將完成的時候,Le 和其他兩個同事終于證明了神經網絡可以通過設定來解決語言結構問題,他提出了一個想法,叫做“放棄詞向量”(word embeddings)。這個想法耗費了他超過 10 年的時間。當你概括一個圖像的時候,你可以預測出圖像概述的每一個階段,比如一條邊,一個圓,等等。當你用同樣的方法去概括一種語言的時候,實質上你是基于日常用法,建立出一個詞與其他的詞之間的多維距離地圖。而機器不像我們使用語言學規則去分析數據,不是將詞語分成名詞、動詞等,機器會將詞語平移、扭曲、變形后放進那個地圖中。

      其實在二維中,這個地圖并沒有用。比如說,你想要將“貓”放在“狗”附近,但是你也想把“貓”放在“尾巴”、“高傲”和“喵喵”附近,因為你想把跟“貓”有關的不管距離遠近的詞語全部囊括在內。只有這些詞在不同維度上與一個詞相關時,我們才可以同時將他們關聯在一起。當然,你無法輕易地做出一個 160,000 個維度的地圖,但是你卻可以很好地掌握一門擁有一千個維度的語言。換句話說,語言就是一個用包含一千個數字的表格指派每一個詞語的過程。想象這種多維地圖其實很困難,因為我們真的很難再一個三維空間中看到一個一千維的向量。

      接著,特定的維度就可以表示人類顯性的分類,比如性別、身材。如果你用 1000 個表示“國王”的數字,減去 1000 個表示“王后”的數字,得到的結果應該和“男人”減去“女人”一樣。如果你可以獲得英語語言的全部空間和法語語言的全部空間,理論上,你可以訓練一個網絡如何將一種語言等價地放入另一種語言。你只需要給機器無數的英文句子作為輸入,相對應的法語句子作為輸出,經過一些時間的學習,機器就會識別出詞語的模式,就如同圖像分類器在像素水平上分辨圖像一樣。最終,你就可以給機器一個英文句子,命令他輸出匹配最佳的法語句子。

      但是,詞語和像素的主要區別在于,所有圖像里的像素只出現一次,但詞語卻會隨著時間連續出現。網絡需要一個方法來“存儲”這個時間序列的連續過程,即從第一個詞到最后一個詞的路徑。2014年9月的一周,Le 和兩個來自加拿大和德國的學者發表了三篇論文,最終提供了解決這一問題的必要理論工具。他們的研究說明了端口開放項目(如谷歌大腦的 Magenta)如何生產藝術和音樂。也為工具性任務,如機器翻譯指明了道路。Hinton 告訴我說,他認為這些后續工作可以至少還需要5年以上的時間。

      6.伏擊者

      Le 的論文說明了神經網絡翻譯似乎是合理的,但是他只使用了一個小的相關公共數據集(只是對谷歌而言比較小,它其實是世界上最大的公共數據集。但是舊翻譯器在十年間收集的生產數據比這個數據集大 100 到 1000 倍)。更重要的是,Le 的模型在超過 7 個詞語的長句中表現不佳。

      彼時的谷歌大腦科學家 Mike Schuster 接過了接力棒。他知道,如果谷歌沒有找到將理論轉化為產品的方法,其他人就會搶先找到。這個項目花費了他兩年時間。Schuster 說:“你想當然地以為,翻譯無非是將數據輸入,運行程序,輸出結果,但實際上并不是這樣。”

      Schuster 是一個嚴謹專注,似乎歲月并沒有在他身上留下痕跡。他的頭又黑又小,肩膀很窄,常常穿著一條迷彩短褲和一雙 Nike 運動鞋。他看起來就像是那種剛剛從打坐中醒來,戴上他小小的橢圓無邊框眼鏡,隨便吃點堅果,然后順便在上班路上完成了沙漠十項全能的人。他告訴我說,從家到公司騎自行車“只有” 18 英里的路程。Schuster 在前西德的杜伊斯堡長大,學習的專業是電子工程,后來又搬到日本京都從事早期的神經網絡工作。90 年代,他在一個跟會議室一樣大的神經網絡機器上做實驗,這個機器造價百萬美元,并且需要經過數周的訓練才能完成如今只需要在筆記本上訓練一小時就能實現的任務。他在1997年發表過一篇論文,15 年來很少有人引用,但今年卻被引用了 150 次左右。Schuster 并不是沒有幽默感,但是他的對話經常帶有一些粗暴感,我覺得這是他身上一種標志性的德國式和日本式克制精神的結合。

      Schuster 要解決的問題非常復雜。一方面,Le 的代碼是自定義編寫的,與谷歌的開源機器學習平臺(后來發展成 TensorFlow)不兼容。2015年秋天,Dean 給 Schuster 介紹了另外兩個工程師:Yonghui Wu 和 Zhifeng Chen。他們花了兩個月時間在新系統中重新復寫了Le 的結果。Le 其實也在旁邊,但是即是是他自己也不能弄清楚他們所做的工作。正如 Schuster 所說,“有些東西我們也沒有完全理解,他們自己也不知道為什么這樣做。”

      今年二月,谷歌的研究組織(公司的一個非正式組織,大約有1000人)在豪華的舊金山聯合廣場圣弗蘭西斯威斯汀酒店舉行了一場“靜修會”。會議的上午進行了多輪閃電會談,快速地更新了研究前沿問題,下午則進行了跨部門的促進討論,會議希望這種靜修可以提供一個機會,讓這種無法預測的、貝爾實驗室式的交流幫助一個成熟的公司保持高產。

      午飯的時候,Corrado 和 Dean 在找Google Translate 的主管 Macduff Hughes,當時 Hughes 正在獨自一人吃飯,然后這兩個谷歌大腦的成員突然就坐在了他的兩邊,就像 Corrado 說的,“我們伏擊了他”。“其實,” Corrado 對警惕的 Hughes 說,“我們有些事情想告訴你。”他們告訴 Hughes,考慮到有超過10年的數百個工程師的程序代碼和一個神經網絡,2016年對 Google Translate來說似乎是一個徹底大翻修的好時機。原有的機器翻譯系統已經工作了30年,它隔離每一個連續的句子片段,在一個大型統計派生詞匯表中查詢所有單詞,然后使用后處理原則加上合適的后綴,再重新組合使句意明確。這種方法叫做“基于短語的統計機器翻譯法”。因為系統是一個一個部分進行翻譯,所以它并不知道哪個是最后一個,因此很多時候你會覺得翻譯的句子結構混亂。谷歌大腦替代原有翻譯機器后,可以直接一次翻譯整個句子,把握句子內容,理解句子意思。

      這個賭注可能很低:翻譯產生的利潤甚微,并且可能永遠如此。對于大多數英語母語使用者而言,相比于一個期待的漸進式進步,服務產品性能上即使是一個巨大的更新,也很難激起人們的贊賞。但是發明一個能與人類媲美的機器翻譯并不只有短期內的必要性,更多的是長遠角度的轉型式發展。在不久的將來,這對公司戰略發展來說至關重要。谷歌估計 50% 的網絡顯示的是世界上 20% 的人使用的英語語言。如果谷歌想要在中國市場(該市場中搜索引擎絕的大多數市場份額屬于其競爭對手百度),或在印度市場競爭,合適的機器翻譯是基礎設施中不可或缺的部分。百度也在2015年7月發布了一個關于神經機器翻譯可能性的突破性文章

      并且在更遠的未來,我們可以推理出,機器翻譯可能是在通用計算機設備上使用人類語言的第一步。這也許代表著一個巨大的轉折點——科技的發展中可能出現了真正的人工智能。

      硅谷中的大多數人都認為機器學習的發展快要接近地平線了,所以 Hughes 看到了這個伏擊點的到來,他對此保持懷疑態度。Hughes,一個的溫和的強壯的中年男人,他的頭發是雜亂的棕色,鬢角也有些灰白,是一個典型的線路工程師,在1970年的波音公司里,絕不會離開他的繪圖臺。他的牛仔褲口袋里感覺裝滿了笨拙而奇怪的工具,就好像他正在用卷尺和電熱偶繪制電路。他跟年輕人不一樣,他明白谷歌里很多人在很多部門都嘗試過神經網絡翻譯的工作,想要把實驗結果變為實際產品,但是很多年來,大多數結果都是徒勞無功。

      Hughes 聽了他們的想法,最后非常謹慎地說,“聽起來這件事好像能在三年內完成。”

      但是 Dean 的想法不同:“如果我們全神貫注,可以在今年內完成它。”人們喜歡、贊賞 Dean 的一個原因就是他可以長時間地全神貫注在一件事情上,另一個原因就是他在說“如果我們全神貫注于此”的時候真誠得一點也不尷尬。

      Hughes 確信這個轉變不會很快發生,但是他本人也不在乎真的“全神貫注于此”。所以他轉身對他的團隊說,“讓我們為2016年做準備吧,我不想成為那個說 Jeff Dean 不能保證速度的人。”

      一個月以后,他們終于做出了一個 Schuster 的新系統和 Hughes 的舊系統的對比試驗。Schuster 想要實驗英法互譯,但是 Hughes 建議他試試別的。他說,“英語—法語互譯的過程已經很完善了,系統的改進不會太明顯。”

      有一個困難 Schuster 無法克服。評價機器翻譯的基準度量叫做 BLEU 分數,方法是比較機器翻譯和平均水平的人工翻譯的結果。當時,英法互譯的最高 BLEU 分數是20。1分的進步被視為非常好,2分的的進步被視為非常杰出。神經網絡在英法互譯對中比原有系統提升了7分。Hughes 告訴 Schuster 的團隊說,他們的系統在過去四年中的進步都沒有這次的一半多。為了確定這不是測量上的一些巧合,他們也讓一些讀者來做對比試驗。讀者感知分數(0—6分)也顯示出平均進步0.4分——這差不多是原有系統整個生命周期內的進步分數。

      三月中旬,Hughes 給他的團隊發了一封電子郵件,寫道:舊系統的所有項目立即暫停。

      谷歌大腦是如何煉成的:萬字無刪減版全解密(三)

      (圖中右邊的是Quoc Le,左邊的是 Mike Schuster)

       這是本文的第三部分,敬請期待雷鋒網出品的第四部分。

      via nytimes

      【招聘】雷鋒網堅持在人工智能、無人駕駛、VR/AR、Fintech、未來醫療等領域第一時間提供海外科技動態與資訊。我們需要若干關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優良的外翻編輯加入。 

      簡歷投遞至 wudexin@leiphone.com,工作地 北京。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      谷歌大腦是如何煉成的:萬字無刪減版全解密(三)

      分享:
      相關文章

      編輯

      站在博士路的路口。
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 成人网站免费大全日韩国产| 天天操天天干视频| 丰满人妻被黑人猛烈进入| 玩弄放荡人妇系列av在线网站| 国产私拍大尺度在线视频| av在线无码| 婷婷色在线视频中文字幕| 久久综合色之久久综合| 香港三日本8a三级少妇三级99 | jlzzjlzz欧美大全| 精品无码一区二区三区的天堂| 1024欧美日韩| 久久久一本精品99久久精品66直播| 亚洲国产长腿丝袜av天堂| 亚州九九久久| 国产福利日本一区二区三区| 国产av激情无码久久| 成人精品九九| 在线天堂最新版资源| 亚欧乱色国产精品免费九库| 日本一区二区久久精品亚洲中文无| 精品?一区?卡| 国产v综合v亚洲欧美大天堂| 国产高在线精品亚洲三区| 国产精品欧美亚洲韩国日本久久 | 中文字幕无码A片| 亚洲中文字幕无码中文字在线| 亚洲欧洲av无码专区| 久久996re热这里只有精品无码| 97久久精品人人澡人人爽| 大地资源在线高清| 免费成人av| 涟源市| 午夜dv内射一区二区| 超碰人人干| 鲁一鲁AV| 国产旡码高清一区二区三区| 亚洲欧美人成人让影院| 无码成人A| 欧美交换配乱吟粗大25p| 夜夜欢夜夜干|