<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發(fā)私信給楊曉凡
      發(fā)送

      0

      文本+視覺,多篇 Visual/Video BERT 論文介紹

      本文作者: 楊曉凡 2019-08-30 17:42
      導語:比看圖說話更多

      雷鋒網(wǎng) AI 科技評論按:繼 2018 年谷歌的 BERT 模型獲得巨大成功之后,在純文本之外的任務上也有越來越多的研究人員借鑒了 BERT 的思維,開發(fā)出各種視覺/視頻(Visual/Video)融合的 BERT 模型。這里雷鋒網(wǎng) AI 科技評論介紹最初的 VideoBERT 論文以及近期的 6 篇其它 V-BERT 論文(按時間先后順序排序)。

      VideoBERT

      VideoBERT: A Joint Model for Video and Language Representation Learning

      VideoBERT:一個視頻和語言表征的聯(lián)合學習模型

      論文地址:https://arxiv.org/abs/1904.01766

      論文摘要:為了利用 YouTube 之類的公眾媒體平臺上的大規(guī)模無標簽數(shù)據(jù),自監(jiān)督學習如今變得越來越重要。目前的大多數(shù)方法都是學習一些低階表征,而這篇論文中作者們提出了一個視覺和語意的聯(lián)合模型,在沒有額外顯式監(jiān)督的條件下學習高階特征。具體來說,作者們借鑒了語言建模中十分成功的 BERT 模型,在它的基礎上進行改進,從視頻數(shù)據(jù)的向量量化和現(xiàn)有的語音識別輸出結果上分別導出視覺 token 和語言學 token,然后在這些 token 的序列上學習雙向聯(lián)合分布。作者們在多項任務中測試了這個模型,包括動作分類和視頻描述。作者們表明了這個模型可以直接用于開放詞匯庫的分類任務,也確認了大規(guī)模訓練數(shù)據(jù)以及跨模態(tài)信息都對模型的表現(xiàn)有重大影響。除此之外,這個模型的表現(xiàn)超過了最優(yōu)秀的視頻描述模型,作者們也通過量化結果驗證了這個模型確實學習到了高階語義特征。

      ViLBERT

      ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

      ViLBERT:為視覺-語言任務訓練非任務專用的視覺語言表征

      論文地址:https://arxiv.org/abs/1908.02265

      論文摘要:這篇論文中作者們提出了 ViLBERT(視覺和語言 BERT),一個學習任務無關的圖像內(nèi)容與自然語言聯(lián)合表征的模型。作者們把熱門的 BERT 架構拓展為一個支持兩個流輸入的多模態(tài)模型,它在這兩個流中分別預處理視覺和文本輸入,并在聯(lián)合注意力 transformer 層中進行交互。作者們先在大規(guī)模自動采集數(shù)據(jù)集 Conceptual Captions 上通過兩個代理任務預訓練模型,然后把它遷移到多個現(xiàn)有的視覺-語言任務上,包括視覺問答、視覺常識推理、代指詞、基于說明的圖像檢索,過程中也只對基礎架構做很小的調(diào)整。相比于目前的任務專用模型,作者們的做法帶來了巨大的表現(xiàn)提升,在所有 4 個任務上都得到了最好的成績。作者們的成果也代表了學習視覺和語言之間聯(lián)系的一種新思路,不再局限于某個具體任務訓練過程中的學習,而是把視覺-語言聯(lián)系作為一個可預訓練、可轉(zhuǎn)移的模型能力。

      VisualBERT

      VisualBERT: A Simple and Performant Baseline for Vision and Language

      VisualBERT:一個簡單有效的視覺和語言基準線模型

      論文地址:https://arxiv.org/abs/1908.03557

      論文摘要:這篇論文里作者們提出了 VisualBERT,這是一個可以對一系列不同的視覺-語言任務進行建模的框架,而且簡單靈活。VisualBERT 包含了一組層疊的 Transformer 層,借助自我注意力把輸入一段文本中的元素和一張相關的輸入圖像中的區(qū)域隱式地對齊起來。除此之外,作者們還提出了兩個在圖像描述數(shù)據(jù)上的視覺-語言關聯(lián)學習目標,用于 VisualBERT 的預訓練。作者們在 VQA、VCR、NLVR2 以及 Flickr30K 這四個視覺-語言任務上進行了實驗,結果表明 VisualBERT 以明顯更簡單的架構在所有任務中都達到了做好的表現(xiàn)或者和競爭者相當?shù)谋憩F(xiàn)。作者們的進一步分析表明 VisualBERT 可以在沒有任何顯式監(jiān)督的情況下建立語言元素和圖像中區(qū)域之間的聯(lián)系,而且也對句法關系和追蹤(根據(jù)描述建立動詞和圖像區(qū)域之間的關系)有一定的敏感性。

      B2T2

      Fusion of Detected Objects in Text for Visual Question Answering

      視覺問答中的檢測到物體的文本融合

      論文地址:https://arxiv.org/abs/1908.05054

      論文摘要:論文作者們開發(fā)了一種簡單但強有力的神經(jīng)網(wǎng)絡,它可以合并處理視覺和自然語言數(shù)據(jù),作為多模態(tài)模型的持續(xù)改進。模型的名字是 B2T2(Bounding Boxes in Text Transformer,文本 Transformer 中的邊界框),它也在同一個統(tǒng)一架構中利用了把單詞指向圖像中的一部分的參考信息。B2T2 在視覺常識推理(http://visualcommonsense.com/)數(shù)據(jù)集上有優(yōu)秀的表現(xiàn),相比此前公開的基準模型降低了 25% 錯誤率,也是公共排行榜上目前表現(xiàn)最好的模型。作者們進行了詳細的對照試驗,表明在早期就把視覺特征和文本分析相結合是這個新架構發(fā)揮出好效果的重要原因。

      Unicoder-VL

      Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training

      Unicoder-VL:一個通過跨模態(tài)預訓練生成的語言和視覺通用編碼器

      論文地址:https://arxiv.org/abs/1908.06066

      論文摘要:作者們提出了 Unicoder-VL,這是一個以預訓練的方式學習視覺和語言的聯(lián)合表征的通用編碼器。這個模型借鑒了 XLM 和 Unicoder 等跨語言、預訓練模型的設計思路,視覺和語言內(nèi)容都會被傳入一個多層 transformer 中,作為跨模態(tài)預訓練階段;預訓練階段使用三個任務,包括掩蔽語言建模、掩蔽對象標簽預測以及視覺-語言匹配。前兩個任務會讓模型學習從基于語言和視覺內(nèi)容輸入的聯(lián)合 token 學習到內(nèi)容相關的表征;后一個任務嘗試預測一張圖像和一段文本描述之間是否相符。在大量的圖像-描述對上預訓練之后,作者們把 Unicoder-VL 遷移到了圖像-文本檢索任務上,只添加了一個額外的輸出層,就在 MSCOCO 和 Flicker30K 兩個數(shù)據(jù)集上都取得了目前最佳的表現(xiàn)。

      LXMERT

      LXMERT: Learning Cross-Modality Encoder Representations from Transformers

      LXMERT:從 Transformers 中學習跨模態(tài)編碼器表征

      論文地址:https://arxiv.org/abs/1908.07490

      論文摘要:視覺-語言推理需要對視覺概念、語言語義有一定的理解,尤其還需要能在這兩個模態(tài)之間進行對齊、找到關系。作者們提出了 LXMERT 框架來學習這些語言和視覺的聯(lián)系。在 LXMERT 中,作者們構建了一個大規(guī)模 Transformer 模型,它含有三個編碼器:一個對象關系編碼器、一個語言編碼器和一個跨模態(tài)編碼器。接著,為了讓模型具備聯(lián)系視覺和語言語義的能力,作者們用大量的圖像和句子對進行了模型預訓練,使用了 5 個不同的、有代表性的預訓練任務:掩蔽語言建模、掩蔽對象預測(特征回歸和標簽檢測)、跨模態(tài)對齊以及圖像問答。這些任務既可以幫助學習同一個模態(tài)內(nèi)的聯(lián)系,也可以幫助學習跨模態(tài)的聯(lián)系。在預訓練的參數(shù)基礎上進行精細調(diào)節(jié)之后,模型在 VQG 和 GQA 兩個視覺問答數(shù)據(jù)集上都取得了最好成績。作者們還把這個預訓練跨模態(tài)模型適配到了一個有挑戰(zhàn)的視覺推理任務 NLVR2 上,把最好成績從此前的 54% 正確率一舉提升到了 76%,表明了模型有良好的泛化性。最后,作者們通過對照試驗證明了他們新設計的模型部件和預訓練策略都對結果有很大的幫助。代碼和預訓練模型可以參見 https://github.com/airsplay/lxmert 

      VL-BERT

      VL-BERT: Pre-training of Generic Visual-Linguistic Representations

      VL-BERT:通用視覺-語言表征預訓練

      論文地址:https://arxiv.org/abs/1908.08530

      論文摘要:作者們設計了一種新的用于視覺-語言任務的可預訓練的通用表征,名為 VL-BERT。VL-BERT 把簡單有效的 Transformer 模型作為主干并進行拓展,視覺和語言嵌入特征可以同時作為輸入。輸入中的每個元素可以是來自句子的一個單詞,也可以是輸入圖像中的一個感興趣區(qū)域。模型的設計也為了能夠和所有視覺-語言的下游任務兼容。作者們在大規(guī)模的 Conceptual Captions 上對模型進行預訓練,三個預訓練任務為:帶有視覺線索的掩蔽文字建模、帶有語言線索的感興趣區(qū)域分類、句子-圖像關系預測。作者們通過大量的實證分析表明預訓練階段可以更好地對齊視覺-語言線索,并為視覺問答、視覺常識推理、代指詞匯理解等下游任務帶來收益。值得一提的是 VL-BERT 在 VCR 排行榜上取得了單一模型的最好成績。


      全部 7 篇論文打包下載:https://ai.yanxishe.com/page/resourceDetail/984

      雷鋒網(wǎng) AI 科技評論整理

      雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      文本+視覺,多篇 Visual/Video BERT 論文介紹

      分享:
      相關文章

      讀論文為生

      日常笑點滴,學術死腦筋
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲精品一区久久久久一品av| 亚洲乱码av中文一区二区| 國產尤物AV尤物在線觀看| 啦啦啦视频在线观看免费播放高清 | 少妇做爰免费视频了| 免费在线3A级| 无码国产精成人午夜视频不卡| 亚洲色欲久久久综合网东京热| 一本无码人妻在中文字幕免费| 亚洲成人AV在线观看| 成熟了的熟妇毛茸茸| 国产欧美日韩一区二区加勒比| 精品国内自产拍在线观看| 东京热一精品无码av| ..真实国产乱子伦毛片| 九九三级影视| 泰和县| 久久国产一区二区日韩av| 安远县| 黄石市| 男人一边吃奶一边做爰免费视频| 久久97| 熟妇的奶头又大又长奶水视频| 日韩精品亚洲精品第一页| 亚洲精品综合网站| 四虎影视在线影院在线观看免费视频 | 一本大道无码人妻| 无码人妻专区一区二区三区| 色综合久久网| 色偷偷色噜噜狠狠成人免费视频| 亚洲五月婷婷久久综合| 91视频观看| 97精品| 亚洲又粗又大| 日屄屄| 久久久2019精品视频中文字幕 | 亚洲AV第一页国产精品| 一区二区中文字幕久久| 久久综合综合久久综合| 亚洲精品字幕| 欧亚av|