ECCV 2018 | 3 篇論文+兩項賽事奪冠，ECCV 見證京東 AI 技術新進展

本文作者：叢末

2018-09-19 18:02

導語： ECCV 2018 大會上，京東 AI 研究院的表現不錯哦~

京東AI研究院

+48

AI影響因子

論文

名稱：ECCV

時間：2018

企業：京東

比賽

比賽名稱：VISDA

年份：2018

企業：京東

操作：競賽

名次：1

比賽

比賽名稱：Wider face&pedestrian

年份：2018

企業：京東

操作：競賽

名次：2

更多相關

雷鋒網 AI 科技評論消息，9 月 8 日至14 日，兩年一度的歐洲計算機視覺大會（ECCV 2018）在德國慕尼黑召開。作為與 CVPR、ICCV 共稱為計算機視覺領域三大頂級學術會議，ECCV 今年的火爆程度驚人。據悉，ECCV 2018 有近 3200 人參加，接收論文 776 篇（ 2016 年為 415 篇）；另有 43 場 Workshops 和 11 場 Tutorials。京東 AI 研究院在副院長、計算機視覺與多媒體實驗室主任梅濤博士的帶領下赴會，在本次 ECCV 2018 大會上取得了亮眼的成績。

雷鋒網獲悉，本次京東 AI 研究院不僅有 3 篇論文被 ECCV 2018 收錄，還在 ECCV 大會舉辦的視覺領域遷移學習挑戰賽奪得兩項冠軍、視覺領域 Wider face&pedestrian 挑戰賽（行人檢測任務）中獲得第二名。憑借以上成績，京東 AI 研究院在雷鋒網旗下學術頻道 AI 科技評論數據庫產品「AI 影響因子」中有相應加分。

3 篇收錄論文，從圖像描述、視頻動作檢測、視覺問答三個方面創新算法

京東 AI 研究院被 ECCV 2018 收錄的 3 篇論文，分別是在圖像描述、視頻動作檢測、視覺問答等課題上取得的重大算法創新。

《探索圖像描述的視覺關系》（Exploring Visual Relationship for Image Captioning）

對于人類而言，當他看到一幅圖像時不僅能知道圖像中包含的物體場景等，同時還能捕捉到物體之間的聯系，圖像描述的核心任務是研究便是讓計算機像人一樣看圖說話，即對圖像內容進行深層次的理解并自動生成和圖像內容相關的描述語句，然而業界目前還沒有相對應的工作來探索物體間聯系對圖像描述的作用。

基于此，京東 AI 研究院設計了一個基于圖卷積網絡（Graph Convolutional Networks）和長短時記憶網絡（LongShort-Term Memory）的編碼器-解碼器系統來將物體間的語義關系和空間關系融入到圖像描述的生成過程中，其結構圖如下：

ECCV 2018 | 3 篇論文+兩項賽事奪冠，ECCV 見證京東 AI 技術新進展

圖 1. 本文提出的基于物體間聯系的圖像描述模型整體框架圖

該編碼器-解碼器圖像描述系統可分為三個步驟：

（1）對于輸入的圖像，物體檢測模塊首先檢測圖像中包含的物體，并獲得每個物體對應的區域級別的特征。然后，針對檢測出來的多個物體，京東 AI 研究院團隊會構建出物體間的語義關系圖和空間關系圖；

（2）接著在基于圖卷積網絡的圖像編碼器模塊中，圖卷積網絡會分別作用于物體間的語義關系圖和空間關系圖上，將兩兩物體間的語義關系和空間關系融入到對應物體的區域級別的特征，實現對物體區域級別特征的進一步編碼；

（3）在獲得了來自于語義關系圖或者空間關系圖上蘊含有物體間關系的區域級別特征后，我們將這一組編碼后的物體區域級別特征輸入基于長短時記憶網絡的解碼器模塊，主要利用兩層的長短時記憶網絡來將輸入的圖像區域級別特征解碼為對應的文本描述。

該系統在圖像描述基準數據集 COCO 上驗證了物體間聯系對圖像描述的促進作用，并獲得了目前業界單模型最優的效果。

《動作檢測的循環定位和識別網絡》（Recurrent Tubelet Proposal and Recognition Networks for ActionDetection）

視頻動作檢測任務要求識別出視頻中人物的動作并確定其在視頻中的時空位置。現有方法大部分都是為每個單獨的幀或固定長度的片段獨立地生成動作定位，往往忽略了幀與幀或片段與片段之間的上下文關系。然而，一個動作本身就是由一系列連續的移動構成的，這種上下文關系對視頻動作檢測而言非常重要。

京東 AI 研究院提出了一種基于視頻中的時間上下文信息來進行動作檢測的深度模型。此深度模型主要分為兩部分：

循環動作定位網絡：它首先用傳統的區域生成網絡對視頻中第一幀的動作進行定位，然后通過估計當前幀的動作在下一幀的位移來得到下一幀中動作的位置。隨后利用維特比算法將所有幀的動作定位連成動作序列。

循環動作識別網絡：該網絡采用多通道架構來識別動作序列。團隊在每一個通道中都使用了 LSTM 網絡結構來捕捉視頻中的時間信息，并在四個公開數據集上驗證了模型的有效性并實現了目前為止最好的檢測性能（在 UCF-Sports, J-HMDB, UCF-101 和 AVA 上分別取得了 2.9%，4.3%，0.7% 和 3.9% 的性能提升）。

ECCV 2018 | 3 篇論文+兩項賽事奪冠，ECCV 見證京東 AI 技術新進展

圖 2. 本文提出的視頻動作檢測模型整體框架圖。此模型主要由循環動作定位網絡和循環動作識別網絡構成。循環動作定位網絡通過當前幀的動作在下一幀的位移來得到下一幀中動作的位置。隨后所有幀的動作定位被連成動作序列。循環動作識別網絡采用多通道架構來識別動作序列。

《視覺問答的深度注意力張量神經網絡》（Deep Attention Neural Tensor Network for Visual Question Answering）

視覺問答任務要求在給定一幅圖像與問句之后要求預測出與之對應的答案。近年來關于該任務的研究工作主要關注于視覺特征與文本特征的多模態融合學習。絕大多數相關研究工作是直接將視覺特征表示與文本特征表示融合之后訓練分類器的方式來完成視覺問答的，然而這些方法卻把圖像—問句—答案這個三元組之間隱含的相互關系忽略了。

本文提出一種基于張量神經網絡對圖像—問句—答案三元組之間的關系進行建模的方法。考慮到在大多數情況下，三元組之間的相互關系與問句的類型息息相關，因此該論文提出了由問句類型和答案類型指導的注意力模型來幫助三元組選擇合適的相互關系和自適應推理過程，最后采用一種基于回歸的訓練方式解決開放性視覺問答任務。

最后的實驗結果證明，本文提出的方法不但可以有效的對圖像—問句—答案之間的隱含關系進行建模（在 VQA-1.0 和 VQA-2.0 數據上分別基于 MUTAN 和 MLB 視覺問答模型取得了 1.70% 和 1.98% 的相對性能提升），而且對于不同的問題類型，可以自適應的選擇與之對應的推理過程，同時基于視覺問答任務的監督信息可以學習得到具有視覺區分能力的答案特征表示。

ECCV 2018 | 3 篇論文+兩項賽事奪冠，ECCV 見證京東 AI 技術新進展圖 3. 本文提出的視覺問答系統整體框架圖。紅框的部分是用來生成問句特征以及圖像-問句融合特征的基本模型。兩個藍框是本文提出的基于注意力模型的張量神經網絡的兩個組成部分，即面向圖像-問句-答案三元組關系的張量神經網絡以及面向自適應推理的注意力模型。

大家可移步社區（http://www.gair.link/page/resourceDetail/553）下載京東 AI 研究院 ECCV 2018 收錄論文資料包。

ECCV 2018 視覺領域遷移學習挑戰賽摘下雙桂冠

此次 ECCV 2018 大會舉辦的視覺領域遷移學習挑戰賽，具體任務場景分為開放式圖像分類（openset classification）和物體檢測（detection）兩種, 京東 AI 研究院在此項賽事的兩個任務中均以大比分優勢摘下桂冠。

ECCV 2018 | 3 篇論文+兩項賽事奪冠，ECCV 見證京東 AI 技術新進展

挑戰賽中，京東 AI 研究院計算機視覺與多媒體團隊針對數據分布差異較大的源域和目標域，設計了一套通用于圖像分類和物體檢測的遷移學習系統，其主要思想是賦予目標域圖像相對應的偽標簽，并在基于聯合聚類的篩選之后將帶有偽標簽的目標域圖像加入到分類器或者檢測器的學習中，從而進一步地調整模型。通過實驗可以發現，這樣基于偽標簽的方法可以有效地將源域中的知識遷移到目標域中。

在 ECCV 2018 大會舉辦的另一賽事——視覺領域 Wider face&pedestrian 挑戰賽中，京東 AI 研究院計算機視覺與多媒體團隊則在行人檢測任務中獲得了第二名，并受邀在 Wider face&pedestrian Challenge Workshop 上介紹了該團隊在人體檢測方面的最新研究進展。

在該比賽中，京東 AI 研究院使用了基于 Faster R-CNN 的檢測框架，加入了特征金字塔、組標準化、級聯 R-CNN 以及多通道特征注意力模型等方法，并在不同級聯階段設計了可以自適應平衡分類與回歸誤差的新損失函數。實驗證明，該研究團隊所提出的這一方法能夠有效地處理復雜場景下的小目標行人檢測問題。

值得一提的是，在剛剛過去的中國多媒體大會 ChinaMM 上，京東 AI 還主辦了 JD AI Fashion Challenge 技術競賽，吸引了 212 支來自國內外高校、企業的隊伍報名參加。這一賽事同樣讓京東 AI 研究院在「AI 影響因子」獲得加分。據悉，明年年初京東將啟動新一輪的國際時尚大賽。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

3人收藏

叢末

編輯

發私信

當月熱門文章