<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能學(xué)術(shù) 正文
      發(fā)私信給我在思考中
      發(fā)送

      0

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      本文作者: 我在思考中 2022-02-08 15:22
      導(dǎo)語:大規(guī)模預(yù)訓(xùn)練模型相關(guān)研究的進展如何?還有哪些問題需要進一步探索?

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      作者丨鄒月嫻

      整理 | 維克多

      編輯 | 青暮

      預(yù)訓(xùn)練模型在自然語言處理和計算機視覺領(lǐng)域引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注。利用大規(guī)模無監(jiān)督數(shù)據(jù)進行訓(xùn)練的預(yù)訓(xùn)練模型有著非常好的泛化性,只需在小規(guī)模標注數(shù)據(jù)上進行微調(diào),就可以在相應(yīng)任務(wù)上有所提高。但相關(guān)研究的進展如何?還有哪些問題需要進一步探索?

      2021年12月16日,北京大學(xué)深圳研究生院黨委副書記、教授、博士生導(dǎo)師、北京大學(xué)現(xiàn)代信號與數(shù)據(jù)處理實驗室主任鄒月嫻在中國計算機大會(CNCC 2021)“產(chǎn)業(yè)共話:大型預(yù)訓(xùn)練模型的商業(yè)應(yīng)用及技術(shù)發(fā)展方向”論壇上,做了《視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用》的報告,討論了圍繞大規(guī)模預(yù)訓(xùn)練模型的爭議、最新進展以及研究思路,并給出了未來展望。

      例如她提到:

      “‘視覺-語言’的子任務(wù)非常多,有各自的數(shù)據(jù)集,這使得解決NLP任務(wù)的進展非常快,但預(yù)訓(xùn)練模型方法在視覺領(lǐng)域卻遇到了非常大的問題:數(shù)據(jù)標記成本很高。MSCOCO數(shù)據(jù)集只標記了12萬張圖片,每張圖片給出5個標記,總共花費了10.8W美金。”

      “當(dāng)前的幾個主流VL-PTMs的技術(shù)路線很相似,都采用單一 Transformer架構(gòu)建模視覺和文本輸入;視覺輸入為 Region-of- Interests (Rols) 或者 Patches,缺失全局或者其他高級視覺語義信息……”

      而后者表明,主流視覺-語言預(yù)訓(xùn)練模型存在很多局限,導(dǎo)致在遷移至下游任務(wù)時,只適用于分類任務(wù),而不適用生成任務(wù)。

      以下是演講全文,AI科技評論做了不改變原意的整理。

      今天演講的題目是《視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用》,主要結(jié)合團隊工作以及本人感悟探討人工智能發(fā)展目前展現(xiàn)的趨勢。本次演講分為4個部分:背景介紹、視覺-語言預(yù)訓(xùn)練模型、視覺-語言預(yù)訓(xùn)練模型及應(yīng)用研究以及未來展望。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      人工智能已經(jīng)有六十多年的發(fā)展歷程,自2017年以來,Transformer和BERT(2018年)相繼提出,開啟了大數(shù)據(jù)、預(yù)訓(xùn)練與遷移學(xué)習(xí)新篇章,將其定義為新時代也毫不夸張。目前,不同于前幾十年的工作已成定論,該領(lǐng)域尚待進一步深入探索。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      以自然語言處理(NLP)為例,其演化過程如上圖所示,OpenAI在2018年發(fā)布第一代GPT模型,短短幾年時間“大模型”已經(jīng)初具規(guī)模。這里的“大”有兩層含義:模型訓(xùn)練使用的數(shù)據(jù)量大,模型蘊含的參數(shù)規(guī)模大。中國在這方面也有出色的工作,2021年的悟道2.0更是達到了萬億參數(shù)規(guī)模。

      目前關(guān)于大規(guī)模預(yù)訓(xùn)練模型還有一些爭議,主要的爭論點在于:

      1.超大模型學(xué)到了什么?如何驗證?

      2.如何從超大模型遷移“知識”,提升下游任務(wù)的性能?

      3.更好的預(yù)訓(xùn)練任務(wù)設(shè)計、模型架構(gòu)設(shè)計和訓(xùn)練方法?

      4.選擇單模態(tài)預(yù)訓(xùn)練模型還是多模態(tài)訓(xùn)練模型?

      雖然有爭議,但不得不承認 “暴力美學(xué)”確實有獨到之處,例如百度ERNIE3.0曾經(jīng)刷新了50多個NLP任務(wù)基準。要知道,在業(yè)界,無數(shù)學(xué)生、學(xué)者為一個SOTA就絞盡腦汁了,但大規(guī)模預(yù)訓(xùn)練模型卻能批量“生產(chǎn)”SOTA。另一方面,50多個SOTA也說明,這不是偶然。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      目前學(xué)界已經(jīng)公認AI的發(fā)展離不開借鑒人類大腦的研究成果,因此多模態(tài)預(yù)訓(xùn)練模型這條集成類腦機制和機器學(xué)習(xí)的路徑,自然也成為關(guān)注的焦點。

      但仍然有許多腦科學(xué)發(fā)現(xiàn)的機理未能弄清楚,例如多層抽象、注意力機制、多模態(tài)聚合機制、多模態(tài)代償機制、多線索機制、協(xié)同機制等等。

      人類約有70%的信息依靠視覺獲得,剩余約20%~30%的信息依靠聽覺和觸覺。關(guān)于人類智能,語言具備真正高階的語義。例如,當(dāng)說到“蘋果”一詞的時候,腦子 “浮現(xiàn)”的是一張“可以吃”的蘋果圖片;當(dāng)說到 “蘋果手機”的時候,大腦則會出現(xiàn)蘋果牌手機的概念。

      因此,大腦這種“視覺參與聽覺感知”的機制、“視覺概念與語言概念一致性”的認知機制是我們機器學(xué)習(xí)采取多模態(tài)預(yù)訓(xùn)練模型的可靠性依據(jù)之一。

      “視覺-語言模型”開發(fā)是否可行?中國人民大學(xué)的一項研究表明,互聯(lián)網(wǎng)提供了90%的圖文大數(shù)據(jù),而文本數(shù)據(jù)只占了10%。在大量數(shù)據(jù)源的加持下,視覺-語言預(yù)訓(xùn)練模型也成了2021年的研究熱點。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      視覺-語言,英文名稱是“Vision and Language,VL”。VL預(yù)訓(xùn)練模型旨在讓機器處理涉及到“理解視覺內(nèi)容和文本內(nèi)容”的任務(wù)。VL任務(wù)可以分成VL生成任務(wù)和VL分類任務(wù)。

      這兩類任務(wù)解決的問題不一樣,難度也不一樣。對于VL生成任務(wù),不僅需要對視覺信息進行理解,還需要生成相應(yīng)的語言描述,既涉及編碼,又涉及解碼;而VL分類任務(wù)只需要理解信息。顯然,生成任務(wù)的難度較大。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      VL生成任務(wù)的技術(shù)難點在于需要理解視覺的高階語義,建立視覺-文本的語義關(guān)聯(lián)。例如,視頻描述(Video Captioning)任務(wù)需要“概括”視頻內(nèi)容,圖像描述(Image Captioning)任務(wù)需要對每一幀圖像生成描述。

      目前,視覺問答(VQA)是熱門的VL分類任務(wù)之一,可以理解為:給定一張圖像,讓模型回答任何形式的基于自然語言的問題。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      如上(左)圖所示,如果你詢問機器“What is she eating?”,VL分類器就會理解圖片信息,然后給出正確的回答“hamburger”。

      當(dāng)前“視覺-語言”的子任務(wù)非常多,各有數(shù)據(jù)集,例如VQA、VCR、NLVR2等等。我們注意到,由于NLP任務(wù)有大數(shù)據(jù)集支持,其預(yù)訓(xùn)練模型技術(shù)發(fā)展迅猛。但對于視覺-語言任務(wù),由于標注大規(guī)模數(shù)據(jù)集需要極高的成本,導(dǎo)致VL模型的性能提升緩慢。

      以圖像描述任務(wù)為例,MSCOCO數(shù)據(jù)集只標記了12萬張圖片,每張圖片給出5個標記,總共花費了10.8W美金。因此,不同的VL任務(wù)依賴于不同的模型框架+不同的標注數(shù)據(jù)集,標注代價昂貴,性能尚未滿足應(yīng)用需求。

      因此,探索新的VL預(yù)訓(xùn)練代理任務(wù),減少對數(shù)標注的依賴,是一個很有意義的研究方向。2019年學(xué)術(shù)界開啟了VL-PTMs的研究工作。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用



      1

      視覺-語言預(yù)訓(xùn)練模型的演進

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      關(guān)于VL預(yù)訓(xùn)練模型,從2019年開始就出現(xiàn)了非常多的出色工作,例如“開山”的ViLBERT,2020年的UNITER以及2021年的CLIP。隨著時間的推移,模型包含的數(shù)據(jù)量也越來越大,能力越來越“出眾”。整體的技術(shù)路線可以分為兩大類:單塔模型和雙塔模型。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      UNITER是2020年由微軟提出的,它用了4個代理任務(wù)訓(xùn)練模型,在4個下游任務(wù)進行了測試,獲得了性能提升。上述研究都是采用預(yù)訓(xùn)練模型加 “微調(diào)”的研究范式。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      2021年OpenAI用雙流框架開發(fā)了CLIP,CLIP的出現(xiàn)就技驚四座。其原理非常簡單,分為編碼和解碼兩個部分,編碼器選用典型的Transformer。CLIP模型的驚艷之處在于,CLIP預(yù)訓(xùn)練模型直接能夠擁有零樣本學(xué)習(xí)(Zero-Shot Learning)能力, OpenAI在20多個不同粒度的分類任務(wù)中測試發(fā)現(xiàn),CLIP預(yù)訓(xùn)練模型具有良好的零樣本遷移性能,能學(xué)到更通用的視覺表征。



      2

      視覺-語言預(yù)訓(xùn)練模型及應(yīng)用研究

      我們對上述主流VL預(yù)訓(xùn)練模型,從基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)、視覺輸入、文本輸入、主流數(shù)據(jù)集、訓(xùn)練策略以及下游任務(wù)六個方面進行了分析。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      分析發(fā)現(xiàn),主流VL-PTMs的技術(shù)路線很相似:

      1. 采用單一Transformer架構(gòu)建模視覺和文本輸入;

      2. 視覺輸入為 Region-of- Interests(Rols)或者 Patches,缺失全局或者其他高級視覺語義信息;

      3.大多采用的代理任務(wù)是BLM(雙向語言模型)、S2SLM(單向語言模型)、ISPR(圖文匹配)、MOP(掩蔽物體預(yù)測)等等。

      因此,已提出的視覺-語言預(yù)訓(xùn)練模型更適合遷移到下游分類任務(wù),例如VQA。對于下游生成任務(wù),例如圖像描述,視覺-語言預(yù)訓(xùn)練模型并不適合。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      我們團隊也開展了探索性研究,研究思路是堆疊Transformer+自注意力機制,其中創(chuàng)新地提出自注意力模型區(qū)別地處理視覺模態(tài)和文本模態(tài),即采用不同的QKV變換參數(shù),分別對視覺和文本模態(tài)建模。

      同時,引入視覺概念信息,緩解視覺語義鴻溝。經(jīng)過驗證發(fā)現(xiàn),我們提出的基于注意力模態(tài)解耦的VL-PTM: DIMBERT(2020),可以同時適用于分類任務(wù)和生成任務(wù)。

      相比當(dāng)年(2020年)的最新SOTA, DIMBERT模型更小(隱形雙塔),僅僅在 Conceptual Captions任務(wù)上進行預(yù)訓(xùn)練,具有數(shù)據(jù)量需求優(yōu)勢,在測試的下游任務(wù)都達到SOTA,在沒有decoder的架構(gòu)下,可以遷移至下游生成任務(wù)。

      這項工作也給我們兩點啟示

      1.從信息表征視角來看,視覺信息和文本信息需要不同的表達方法,畢竟文本擁有相對更加高階的語義信息。

      2.盡量引入人類高階語義信息,人類對物體有非常明確的定義,蘋果就是蘋果,梨就是梨,因此定義物體屬性,用語言信息緩解語義鴻溝非常有必要。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      2021年10月份,F(xiàn)acebook發(fā)布了Video CLIP相關(guān)工作,屬于視頻VL預(yù)訓(xùn)練模型。從這個模型可以看出,Video CLIP頗具野心,期待對于下游任務(wù)不需要任務(wù)相關(guān)訓(xùn)練數(shù)據(jù)集,不需要進行微調(diào),直接基于Video CLIP進行零樣本遷移。

      具體而言,它基于對比學(xué)習(xí)結(jié)合Transformer框架,試圖搭建視覺-文本聯(lián)合預(yù)訓(xùn)練模型,期望能夠關(guān)注更細粒度的結(jié)構(gòu)。

      Video CLIP的核心工作聚焦于對比學(xué)習(xí)框架結(jié)合訓(xùn)練數(shù)據(jù)樣本的構(gòu)造,其正樣本的構(gòu)造是視頻段-匹配文本描述對。此外,通過對正樣本進行近鄰搜索,獲得困難負樣本,從而構(gòu)建出視頻-非匹配文本對。

      更為具體,該模型采用對比損失,學(xué)習(xí)匹配視頻-文本對之間的細粒度相似性;通過對比學(xué)習(xí)方式拉近具有相似語義的視頻-文本表征。這個工作從研究的創(chuàng)新性來看并不突出,但模型性能令人驚訝。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      我們認為,借鑒Video CLIP的研究思路,可以在更細粒度層面進行提升,我們提出了一個幀級別文本細粒度匹配方法。

      實驗結(jié)果表明,細粒度匹配能獲得更加準確、具有完整的空間建模能力。我們在 ActivityNet數(shù)據(jù)集上進行了視頻檢索的召回率測試,發(fā)現(xiàn)在所有 epoch下,我們提出的基于細粒度匹配策略的預(yù)訓(xùn)練模型性能都優(yōu)于基于全局匹配策略的預(yù)訓(xùn)練模型;此外,我們發(fā)現(xiàn),當(dāng)獲得同一性能,我們提出的基于細粒度匹配的模型其訓(xùn)練速度是基于全局匹配方法的四倍

      綜上,預(yù)訓(xùn)練模型、跨模態(tài)預(yù)訓(xùn)練模型方面的研究是非常值得探索的,無論是模型結(jié)構(gòu)、訓(xùn)練策略還是預(yù)訓(xùn)練任務(wù)的設(shè)計都尚有非常大的潛力。

      未來,AI社區(qū)或許會探索更多的模態(tài),例如多語言、運動、音頻以及文字;更多的下游任務(wù),例如視頻描述、視頻摘要;更多的遷移學(xué)習(xí)機制,例如參數(shù)遷移、提示學(xué)習(xí)、知識遷移等等。

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      北大鄒月嫻:視覺-語言預(yù)訓(xùn)練模型演進及應(yīng)用

      分享:
      相關(guān)文章
      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 国产熟女真品久| 在线播放91| 国产无遮挡又黄又爽又色| 亚洲国产日韩a在线播放| 久久国产精品一国产精品| 专干老熟女视频在线观看| 清纯校花的被脔日常h动漫| 欧美无人区码suv| 亚洲熟妇色自偷自拍另类| 国产无套粉嫩白浆在线| 日韩AV中文字幕在线| 欧洲无码AV| 日本亚洲色大成网站www久久| 少妇被爽到高潮喷水久久欧美精品| 国产亚洲av嫩草久久| 国产性猛交XXXX免费看| 欧美黑吊大战白妞| 国产精品美女久久久久久久| 少妇特黄a一区二区三区| 亚州成人在线| 国产网红主播精品一区| 69国产精品久久久久久人| 怡春院AV| 国产家庭乱伦| 久久人妻少妇嫩草av蜜桃| 久久精品中文字幕少妇| 亚洲av成人精品一区二区三区| 久久亚洲私人国产精品va | 国产成人精品A视频| www.啪啪白浆| 亚洲日韩精品欧美一区二区一 | 人妻av中文系列| 人妻丝袜| 久久亚洲人妻| 久久国模| 亚洲成人A√| 男女性高爱潮免费网站| 最新无码专区在线视频动态| 午夜福利92国语| 99久久精品免费看国产| 成人av免费|