<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給奕欣
      發送

      0

      阿里巴巴年度技術總結:人工智能在搜索的應用和實踐

      本文作者: 奕欣 2018-01-01 10:52
      導語:阿里梳理了過去一年多搜索在深度學習方向上的探索,概要的介紹了在深度學習系統、深度學習算法和搜索應用落地的進展和思考

      AI 科技評論按:本文作者為阿里巴巴搜索事業部總監歐文武,經阿里巴巴授權發布。

      以深度學習為代表的人工智能在圖像、語音和 NLP 領域帶來了突破性的進展,在信息檢索和個性化領域近幾年也有不少公開文獻,比如 wide & deep 實現了深度模型和淺層模型的結合,dssm 用于計算語義相關性,deepfm 增加了特征組合的能力,deep CF 用深度學習實現協同過濾,rnn recommender 采用行為序列預估實現個性化推薦等。工業級的信息檢索或個性化系統是一個復雜的系統工程,深度學習的工業級應用需要具備三個條件:強大的系統計算能力,優秀的模型設計能力和合適的應用場景,我們梳理了過去一年多搜索在深度學習方向上的探索,概要的介紹了我們在深度學習系統、深度學習算法和搜索應用落地的進展和思考,希望對大家有所啟發。

      深度學習在搜索的應用概括起來包括 4 個方面:

      • 首先是系統,強大的深度學習訓練平臺和在線預測系統是深度學習應用的必要條件,目前我們的離線深度學習框架、在線深度學習框架和在線預測框架統一到 tf,并實現了日志處理,特征抽取,模型訓練和在線服務部署端到端的流程,極大提升了算法迭代效率;

      • 其次是搜索應用,包括智能交互,語義搜索,智能匹配和智能決策四個技術方向,這四個方向的協同創新實現了搜索全鏈路的深度學習技術升級,并具備從傳統的單場景單目標優化到多場景多目標聯合優化的能力;

      • 再次是在性能優化上做的工作,包括模型壓縮、量化、低秩分解再到二值網絡,大量的技術調研和論證,為未來提高深度模型預測性能和軟硬件協同優化做了很好的技術鋪墊;

      • 最后是排序平臺化,實現了 PC 商品搜索、無線商品搜索、店鋪內搜索搜索和店鋪搜索的搜索服務統一,通過特征和模型復用,實現了多條業務線技術的快速升級。下面我會簡要的概括下在四個方向上取得的主要進展和背后的思考。

      下面是搜索系統和算法的簡圖。系統包括: 

      a. 離線數據平臺 ODPS,負責離線日志 join、特征抽取和離線模型預估產出排序特征,時效性不強的特征都是通過離線數據平臺產出的,比如用戶性別標簽,商品關鍵字等; 

      b. 離線機器學習平臺 PAI,底層是主流的 parameter server 和 TF 深度學習框架,平臺實現了大部分機器學習算法模型的并行訓練和預測,在搜索應用中主要作用是離線模型訓練產出離線排序特征模型;

      c. 流式計算和在線學習平臺 Porsche,流式計算是基于 blink 負責實時日志解析和特征 join 生成實時排序特征,在線學習和離線學習底層框架可以相同,差別主要是依賴數據源和部分優化方法不同,由于用戶行為和市場環境變化快,流式計算和在線學習在搜索應用非常廣泛,并積累了不少在線學習和強化學習算法;

      d. 在線服務平臺,包括引擎、排序服務和搜索平臺組成,負責在線的服務分發、索引查詢、排序服務和結果合并等功能,搜索的排序策略、相關性、個性化等模型主要通過在線預測服務生效。經過多年發展我們已經具備了非常完善的商品搜索排序算法體系,包括知識圖譜、分詞、tagging、類目預測、意圖預測、拼寫糾錯、query 推薦、query 語義改寫、相關性、商品標簽、商品質量、店鋪分層、用戶 profile、用戶偏好、用戶感知、召回策略、個性化模型、多樣性策略、異構服務混排策略、多目標聯合優化策略、多場景聯合排序策略等,并平臺化的方式賦能相關業務團隊。

      阿里巴巴年度技術總結:人工智能在搜索的應用和實踐

      搜索系統和算法簡圖

       系統進展包括機器學習平臺和在線預測平臺

       機器學習平臺。搜索訓練樣本主要來自用戶行為,由于用戶行為是流式數據,適合做在線深度學習,但當模型參數非常龐大需要海量的樣本時在線學習需要很長的時間才能收斂,這時一般是先做離線預訓練再結合增量或在線學習,另外有些模型離線預訓練后在線只需要對接近輸出層的網絡做 fine-tuning。搜索在實際應用的有離線機器學習平臺 PAI 和在線機器學習平臺 Porsche,兩個平臺深度學習框架目前都統一到了 tf-pai,tf-pai 對原生 tf 做了一些優化,比如底層通訊,稀疏參數存儲、優化方法、GPU 顯存優化等,比原生 tf 訓練深度有較大的提升,訓練上千億樣本和上百億參數的深度模型毫無壓力。雖然 Porsche 和 PAI 都支持 GPU,但在搜索應用中 CPU 依然是主流,GPU 應用比較少,原因主要是個性化相對圖像或語音簡單,特征抽取網絡比較淺,維度相對較低,GPU 的稠密矩陣計算能力得不到充分發揮,同時離在線混布后流量低谷期間騰出了大量的在線服務閑置 CPU,把臨時閑置的 CPU 利用起來做深度學習訓練是一個非常好的思路。 

      在線預估 RTP,搜索排序算分服務。由于每次搜索請求有上千個商品需要計算排序分數,深度模型應用對 RTP 服務的壓力是非常大的,RTP 通過采用異構計算,計算算子化和模型分片等方式解決了深度模型 inference 計算和存儲問題,深度模型用 GPU,淺層模型用 CPU,今年雙 11 期間搜索 RTP 服務用到了 550 張 GPU 卡。另外,RTP 還實現了離線/在線訓練模型/數據和在線預測服務部署的無縫銜接,算法訓練好的模型或數據可以很輕松的部署都在線服務,提升了算法迭代效率。

      算法包括智能交互、語義搜索、智能匹配和搜索策略四個方向

      智能交互。商品搜索就是帶交互的商品推薦,用戶通過關鍵字輸入搜索意圖,引擎返回和搜索意圖匹配的個性化推薦結果,好的交互技術能夠幫助到用戶更好的使用搜索引擎,目前搜索的交互主要是主動關鍵字輸入和關鍵字推薦,比如搜索框中的默認查詢詞和搜索結果中的文字鏈等,推薦引擎根據用戶搜索歷史、上下文、行為和狀態推薦關鍵字。

      和商品推薦的區別是,關鍵字推薦是搜索鏈路的中間環節,關鍵字推薦的收益除了關鍵字的點擊行為外,還需要考慮對整個購物鏈路的影響,包括在推薦關鍵字的后續行為中是否有商品點擊、加購和成交或跳轉到另外一個關鍵字的后繼行為,這是一個典型的強化學習問題,action 是推薦的關鍵字候選集合,狀態是用戶當前搜索關鍵詞、上下文等,收益是搜索引導的成交。除了被動的關鍵字推薦,我們也在思考搜索中更加主動的交互方式,能夠做到像導購員一樣的雙向互動,主動詢問用戶需求,挑選個性化的商品和給出個性化的推薦理由,目前阿里搜索團隊已經在做智能導購和智能內容方向的技術原型及論證,智能導購在技術上主要是借鑒對話系統,通過引導用戶和引擎對話與關鍵字推薦方式互為補充,包括自然語言理解,對話策略,對話生成,知識推理、知識問答和商品搜索等模塊,功能主要包括:

      a. 根據用戶搜索上下文生成引導用戶主動交互的文本,比如搜索「奶粉」時,會生成「您寶寶多大?0~6 個月,6 個月到 1 歲….」引導文案,提示用戶細化搜索意圖,如果用戶輸入「3 個月」后,會召回相應段位的奶粉,并在后續的搜索中會記住對話狀態「3 個月」寶寶和提示用戶「以下是適合 3 個月寶寶的奶粉」。

      b. 知識導購,包含提高售前知識問答或知識提示,比如「3 個月寶寶吃什么奶粉」回答「1 段」。目前對話技術正在提高中,尤其是在多輪對話狀態跟蹤、知識問答和自動評價幾個方面,但隨著深度學習、強化學習和生成對抗學習等技術在 NLP、對話策略、閱讀理解等領域的應用,越來越多的訓練數據和應用場景,domain specific 的對話技術未來幾年應該會突飛猛進。智能內容生成,包括生成或輔助人工生成商品和清單的「賣點」,短標題和文本摘要等,讓淘寶商品表達更加個性化和多元化。

      語義搜索。語義搜索主要是解決關鍵字和商品內容之間的語義鴻溝,比如搜索「2~3 周歲寶寶外套」,如果按照關鍵字匹配召回結果會遠小于實際語義匹配的商品。

      語義搜索的范圍主要包括:

      a. query tagging 和改寫,比如新品,年齡,尺碼,店鋪名,屬性,類目等搜索意圖識別和歸一化,query tagging 模型是用的經典的序列標注模型 bi-lstm + CRF,而標簽分類(歸一化)作為模型另外一個任務,將序列標注和分類融合在一起學習。

      b. query 改寫,主要是計算 query 之間相似度,把一個 query 改寫成多個語義相似的 query,通常做法是先用不同改寫策略生成改寫候選 query 集合,比如詞替換、向量化后 top k、點擊商品相似度等,然后在用 ltr 對后續集合排序找出合適的改寫集合,模型設計和訓練相對簡單,比較難的是如何構建高質量的訓練樣本集合,線上我們用 bandit 的方法探測部分 query 改寫結果的優劣,離線則用規則和生成對抗網絡生成一批質量較高的樣本。

      c. 商品內容理解和語義標簽,通過商品圖片,詳情頁,評價和同義詞,上下位詞等給商品打標簽或擴充商品索引內容,比如用 image tagging 技術生成圖片的文本標簽豐富商品內容,或者更進一步用直接用圖片向量和文本向量融合,實現富媒體的檢索和查詢。

      d. 語義匹配,經典的 DSSM 模型技術把 query 和商品變成向量,用向量內積表達語義相似度,在問答或閱讀理解中大量用到多層 LSTM + attention 做語義匹配,同樣高質量樣本,特別是高質量負樣本很大程度上決定了模型的質量,我們沒有采樣效率很低的隨機負采樣,而是基于電商知識圖譜,通過生成字面相似但不相關的 query 及相關文檔的方法生成負樣本。

      從上面可以看到 query tagging、query 相似度、語義匹配和語義相關性是多個目標不同但關聯程度非常高的任務。下一步計劃用統一的語義計算框架支持不同的語義計算任務,具體包括

      1. 開發基于商品內容的商品表征學習框架,為商品內容理解,內容生成,商品召回和相關性提供統一的商品表征學習框架,重點包括商品標題,屬性,詳情頁和評價等文本信息抽取,圖像特征抽取和多模信號融合。

      2. query 表征學習框架,為 query 類目預測,query 改寫,query 推薦等提供統一的表征學習框架,重點通過多個 query 相似任務訓練統一的 query 表征學習模型。

      3. 語義召回,語義相關性等業務應用模型框架。語義搜索除了增加搜索結果相關性,提升用戶體驗外,也可以一定程度上遏制淘寶商品標題堆砌熱門關鍵詞的問題。

      智能匹配。這里主要是指個性化和排序。內容包括:

      a. ibrain (深度用戶感知網絡),搜索或推薦中個性化的重點是用戶的理解與表達,基于淘寶的用戶畫像靜態特征和用戶行為動態特征,我們基于 multi-modals learning、multi-task representation learning 以及 LSTM 的相關技術,從海量用戶行為日志中直接學習用戶的通用表達,該學習方法善于「總結經驗」、「觸類旁通」,使得到的用戶表達更基礎且更全面,能夠直接用于用戶行為識別、偏好預估、個性化召回、個性化排序等任務,在搜索、推薦和廣告等個性化業務中有廣泛的應用場景,感知網絡超過 10B 個參數,已經學習了幾千億次的用戶行為,并且會保持不間斷的增量學習越來越聰明。

      b. 多模學習,淘寶商品有文本、圖像、標簽、id 、品牌、類目、店鋪及統計特征,這些特征彼此有一定程度的冗余和互補,我們利用多模學習通過多模聯合學習方法把多維度特征融合在一起形成統一的商品標準,并多模聯合學習中引入 self-attention 實現特征維度在不同場景下的差異,比如女裝下圖片特征比較重要,3C 下文本比較重要等。

      c. deepfm,相對 wide & deep 模型,deepfm 增加了特征組合能力,基于先驗知識的組合特征能夠應用到深度學習模型中,提升模型預測精度。

      d. 在線深度排序模型,由于行為類型和商品重要性差異,每個樣本學習權重不同,通過樣本池對大權重樣本重復 copy 分批學習,有效的提升了模型學習穩定性,同時通過融合用戶狀態深度 ltr 模型實現了千人千面的排序模型學習。

      e. 全局排序,ltr 只對單個文檔打分然后按照 ltr 分數和打散規則排序,容易導致搜索結果同質化,影響總頁效率,全局排序通過已知排序結果做為上下文預測下一個位置的商品點擊概率,有效提升了總頁排序效率。

      f. 另外工程還實現了基于用戶和商品向量的向量召回引擎,相對倒排索引,向量化召回泛化能力更強,對語義搜索和提高個性化匹配深度是非常有價值的。以上實現了搜索從召回、排序特征、排序模型、個性化和重排的深度學習升級,在雙 11 無線商品搜索中帶來超過 10% (AB-Test) 的搜索指標提升。


      多智能體協同學習實現智能決策

      搜索中個性化產品都是成交最大化,導致的問題是搜索結果趨同,浪費曝光,今年做的一個重要工作是利用多智能體協同學習技術,實現了搜索多個異構場景間的環境感知、場景通信、單獨決策和聯合學習,實現聯合收益最大化,而不是此消彼長,在今年雙 11 中聯合優化版本帶來的店鋪內和無線搜索綜合指標提升 12% (AB-Test),比非聯合優化版本高 3% (AB-Test)。

       性能優化。在深度學習剛起步的時候,我們意識到深度模型 inference 性能會是一個瓶頸,所以在這方面做了大量的調研和實驗,包括模型壓縮 (剪枝),低秩分解,量化和二值網絡。

      通過以上技術,今年雙 11 期間在手淘默認搜索、店鋪內搜索、店鋪搜索等均取得了 10% (AB-Test) 以上的搜索指標提升。

      阿里巴巴人工智能搜索應用的未來計劃

       通用用戶表征學習。前面介紹的 DUPN 是一個非常不錯的用戶表征學習模型,但基于 query 的 attention 只適合搜索,同時缺少基于日志來源的 attention,難以推廣到其他業務,在思考做一個能夠適合多個業務場景的用戶表征模型,非搜索業務做些簡單 fine tuning 就能取得比較好的效果;同時用戶購物偏好受季節和周期等影響,時間跨度非常大,最近 K 個行為序列假設太簡單,我們在思考能夠做 life-long learning 的模型,能夠學習用戶過去幾年的行為序列;

       搜索鏈路聯合優化。從用戶進入搜索到離開搜索鏈路中的整體優化,比如 搜索前的 query 引導(底紋),搜索中的商品和內容排序,搜索后的 query 推薦(錦囊)等場景;

       跨場景聯合優化。今年搜索內部主搜索和店鋪內搜索聯合優化取得了很好的結果,未來希望能夠拓展在更多大流量場景,提高手淘的整體購物體驗;

      多目標聯合優化。搜索除了成交外,還需要承擔賣家多樣性,流量公平性,流量商業化等居多平臺和賣家的訴求,搜索產品中除了商品搜索外還有「穹頂」,「主題搜索」,「錦囊」,「內容搜索」等非商品搜索內容,不同搜索目標和不同內容(物種)之間的聯合優化未來很值得深挖。

      智能交互。「搜索排序做的再好搜索也只是一個工具」,如何把搜索從工具做成私人導購助手,能夠聽懂你的語言,了解你的情緒,能夠對話和多輪交互,解決售前售后困惑,推薦更加個性化的商品應該是搜索未來的另外一個主要發展方向。

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      阿里巴巴年度技術總結:人工智能在搜索的應用和實踐

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产美女高潮流白浆视频| 人妻少妇精品一区二区三区| 开心五月激情综合婷婷| 寿宁县| 成人毛片一区二区| 国产真实乱人偷精品视频| 嫩草国产福利视频一区二区| 亚洲中文字幕无码av永久| 国精品无码一区二区三区在线看| 日本人妻巨大乳挤奶水| 商水县| 国偷自产av一区二区三区| 国产偷窥熟妇高潮呻吟| 丰满岳乱妇一区二区三区| jizzjizz视频| 最新中文字幕av无码专区| 日韩中文字幕一区二区| 亚洲av永久无码天堂影院| 日本一本免费一二区| 久久久无码精品国产一区| 日本中文字幕一区二区三| 无码中文av有码中文av| 精品福利一区| 大肉大捧一进一出视频| 91日韩在线| 好硬好湿好爽好深视频| 91免费高清| 少妇被粗大的猛进69视频| 日本久久综合| 久肏| 中文字幕av久久波多野结| 国产a网站| 亚洲精品国产AV| 成人免费A级毛片无码片2022| 亚洲综合色婷婷中文字幕| 老司机亚洲精品影院| 无码电影在线观看一区二区三区| 日本中文字幕一区二区三| 亚洲熟妇av午夜无码不卡| 亚洲欧美综合精品成人网| 国产精品久久无码一区二区三区网|