0
今年8月,雷鋒網將在深圳舉辦盛況空前的“全球人工智能與機器人峰會”,屆時雷鋒網將發布“人工智能&機器人Top25創新企業榜”榜單。目前,我們正在拜訪人工智能、機器人領域的相關公司,從中篩選最終入選榜單的公司名單。
如果你也想加入我們的榜單之中,請聯系:2020@leiphone.com。

編者按:Ariel Fuxman是谷歌研究科學家,他于2006年從多倫多大學獲得計算機科學博士學位。他2015年加入谷歌,之前的8年時間在微軟擔任高級研究員。本文中他介紹了谷歌在I/O大會上新推出的智能聊天應用Allo,到底有怎樣神奇的智能回復功能,以及這些功能是如何通過圖像識別技術實現。
谷歌今天發布了智能聊天應用Allo。從開發Allo的第一天起,我們就想打造一個真正特殊的產品,通過機器智能的力量,讓聊天變得更加簡單、更加高效、更有表達力。Allo的一些特殊功能Photo Reply。我們利用了機器學習來理解分享的圖片到底有什么內容,從而給用戶提出豐富的自然語言回復建議,用戶只要簡單點擊就能發送,省去了打字的麻煩。這讓用戶使用手機小鍵盤的時候,也可以非常方便地讓聊天對話比較有料。
舉個栗子,當你的朋友升級成為父母,難免會非常激動地給你發來(你并不感興趣的)小娃照片。 
圖片來自Google Research Blog。
此時Allo就給你提供了幾個快捷回復的建議:
選項一:哇啊啊啊!
選項二:好可愛!
選項三:可愛的寶寶!
(這完全是對曬娃無感的我,一向慣用的敷衍方式。)隨手一點,再也不擔心友誼的小船說翻就翻。
今年冬天的時候,谷歌產品經理Patrick McGregor和Ryan Cassidy給了我們一個挑戰:敢不敢做一個簡化媒體分享的聊天軟件,并且同時讓用戶玩得開心、獲得很好的谷歌體驗。我與Vivek Ramavajjala、Sergey Nazarov和Sujith Ravi等幾位同事一起,接受挑戰,開始打造Photo Reply。
我們利用了由機器感知團隊開發的谷歌圖像識別技術,來將圖像和語義個體聯系起來——人、動物、汽車等等。然后,我們應用了一個機器學習模型,將識別出來的語義個體與自然語言回復聯系起來。我們的系統為幾千個個體類型生成了回復,這些類型是從谷歌知識圖表的一個分類學子集中取出,并且有可能在不同的粒度等級上。舉個例子,當你收到一張小狗的照片時,系統可能會監測出這條狗實際上是一條拉布拉多犬,并建議你回復“超愛拉布拉多!”或者當有人給你發了一張意大利面的照片,系統會監測出意面的類型,然后說:“意大利扁面超好吃!”甚至不一定是關注細類,可以上升到美食文化的層面,回復說:“我超愛意大利美食!”

面對上圖中的意大利面,系統建議回復:“意大利扁面超好吃!”“我超愛意大利美食!”圖片來源Google Research Blog。

面對玫瑰的圖片,系統建議回復:“好漂亮!”“好愛玫瑰!” 圖片來源Google Research Blog。
我們發現系統有一項功能特別有用,就是它不僅能針對具體的物體建議回復,還能針對抽象的概念。它可以針對事件(生日聚會、婚禮等等)、自然風景(日出、遠山等等)、娛樂活動(登山、露營等等)以及更多的類別來建議回復。另外,系統還可以基于與圖片內容有關的情緒,來進行回復建議,例如“開心”。下面的兩個例子,是針對抽象概念的回復:

針對畢業典禮的圖片,系統建議回復:“恭喜!”“你成功了!”圖片來源Google Research Blog。

針對跳傘活動的圖片,系統建議回復:“太刺激了!”“膽子太大了!”圖片來源Google Research Blog。
Photo Reply在運行的時候可以識別分享照片中的語義個體,觸發針對性的回復。這項模型將語義個體與自然語言回復聯系起來,而模型是通過Expander離線學會的,Expander是谷歌一項基于圖片的大規模半監督學習平臺。我們打造了一個很大的圖表,節點對應圖片、語義個體以及文本回應。圖像的邊界指明了圖片中的語義個體何時被識別、針對一張圖片的具體回復何時確定以及照片之間的視覺相似點。有一些節點被“標記”了,我們通過在圖表中傳播標記信息,來學會未標記節點之間的關聯。
為了說得明白一點,我們可以看看下面這張圖表。這里有兩張表:紅色標記對應“好吃”回復,藍色標記對應“美味”回復。“意粉”和“扁面”這兩個節點沒有標記,但是因為他們與紅藍兩種標記都很近,算法可以學會這兩個節點應該與“好吃”和“美味”回復聯系起來。注意,通過這種方式,我們將“扁面”語義個體與“好吃”回復聯系了起來,即便是圖表中的所有扁面圖片都沒有直接與該回復有聯系。Expander可以以超大的數量來進行此類學習,搞定包含幾十億個節點、幾千億個邊界的圖表。

圖表例子。圖片來自Google Research Blog。
Photo Reply是多模式學習的一個很棒的例子,在這種學習模式中,計算機視覺和自然語言處理結合起來,從而創造出一種非常好的用戶體驗。今年夏天晚些時候,Allo就會正式上線安卓和IOS平臺。到時候記得用Allo發發照片,看看谷歌的人工智能到底會如何回復呢?
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。