【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為？

本文作者：林天威SJTU

2017-09-14 16:44

專題：ICCV 2017

導(dǎo)語：這篇論文并沒有提出或改進(jìn)任何方法，而是通過各種小實(shí)驗(yàn)，對(duì)目前視頻行為理解的各種數(shù)據(jù)庫和方法進(jìn)行了細(xì)致的討論和思考。

雷鋒網(wǎng)按：本文出自知乎專欄CV論文筆記及其它，作者林天威。

最近ICCV 2017公布了論文錄用的情況，我照例掃了一遍論文列表尋找感興趣的文章。“What Actions are Needed for Understanding Human Actions in Videos?” 一文應(yīng)該是我覺得最有趣的一篇文章。這篇論文并沒有提出或改進(jìn)任何方法，而是通過各種小實(shí)驗(yàn)，對(duì)目前視頻行為理解的各種數(shù)據(jù)庫和方法進(jìn)行了細(xì)致的討論和思考。其中許多觀點(diǎn)和結(jié)論我覺得對(duì)于做視頻行為理解的研究人員是有不少啟發(fā)的。這篇筆記里我簡(jiǎn)單的進(jìn)行一些記錄，供自己和大家參考。感興趣的話還是推薦閱讀論文原文，從論文寫作角度來看這是一篇寫的非常好的論文。

背景介紹

該文主要對(duì)視頻行為理解中的行為分類( Action Recognition) 和時(shí)序行為檢測(cè)( Temporal Action Detection) 兩個(gè)問題進(jìn)行了討論，這兩個(gè)領(lǐng)域及相關(guān)工作的具體介紹可見我之前的文章【https://zhuanlan.zhihu.com/p/26460437】，【https://zhuanlan.zhihu.com/p/26603387】。簡(jiǎn)單來說，行為分類是要給一段分割好的短視頻（通常只包含一段人類動(dòng)作）進(jìn)行動(dòng)作種類的分類，而時(shí)序行為檢測(cè)則主要針對(duì)較長(zhǎng)的未分割視頻，除了要對(duì)視頻中人類行為的種類進(jìn)行分類外，還需要定位動(dòng)作的時(shí)序邊界。在這兩個(gè)方向中，該文則更注重對(duì)行為分類問題的討論。

深度學(xué)習(xí)（或者說數(shù)據(jù)驅(qū)動(dòng)的方法）在各個(gè)領(lǐng)域的發(fā)展離不開各個(gè)領(lǐng)域中數(shù)據(jù)庫的發(fā)展，視頻行為理解領(lǐng)域亦然。從最早的非常簡(jiǎn)單的KTH數(shù)據(jù)庫，到包含各類運(yùn)動(dòng)，簡(jiǎn)單日常行為的UCF101, THUMOS, HMDB-51等數(shù)據(jù)庫，再到這兩年類別數(shù)量更大，視頻數(shù)目也更多的ActivityNet, Charades等數(shù)據(jù)庫，數(shù)據(jù)庫的發(fā)展也一步一步推動(dòng)著視頻行為理解方法的發(fā)展。本文主要針對(duì)Charades數(shù)據(jù)庫進(jìn)行了分析，原因大概是因?yàn)樵摂?shù)據(jù)庫就是本文作者提出的。實(shí)際中，這兩年相關(guān)的論文在Charades數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)的似乎并不多見。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為？

本文的結(jié)構(gòu)主要是以幾個(gè)問句為主，通過對(duì)疑問進(jìn)行分析來將討論逐步推進(jìn)，每個(gè)大問題下還包含一些小問題。本文主要的問題/章節(jié)包括以下幾個(gè)。

What are the right questions to ask?
What are existing approaches learning?
Where should we look next?

這幾個(gè)問題從現(xiàn)有數(shù)據(jù)庫及任務(wù)本身的分析，到算法的分析，最后到未來發(fā)展方向的展望，可以說是層層遞進(jìn)。下面就開始對(duì)各個(gè)部分進(jìn)行簡(jiǎn)單的介紹。

What are the right questions to ask?

這部分內(nèi)容對(duì)視頻行為理解任務(wù)本身進(jìn)行了一些基礎(chǔ)的探討，主要的出發(fā)點(diǎn)是研究人類本身如何理解視頻中的人類行為。主要包括兩個(gè)子問題。

(1) What are the right activity categories?

對(duì)于圖像中的物體，其語義的類別通常是非常明確的，一般不存在混淆。然而，用動(dòng)詞來定義的人類動(dòng)作其數(shù)目則要少很多，且常常存在一定的歧義性。舉例來說，“跑”，“跳” 這些動(dòng)作本身含有比較明確的定義，而 “拿“，”取“ 這些動(dòng)作則模糊的多，需要和名詞結(jié)合才能明確其意義，比如”拿衣服“，”取藥“等。因此，動(dòng)詞或是動(dòng)詞和名詞的組合構(gòu)成了一個(gè)動(dòng)作的最基本定義。

該文召集了一些志愿者，在Charades數(shù)據(jù)集上進(jìn)行了一些人類學(xué)習(xí)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明人類對(duì)于動(dòng)詞比起名詞更容易感到混淆。進(jìn)一步的實(shí)驗(yàn)也表明了單獨(dú)的動(dòng)詞不能夠?qū)?dòng)作進(jìn)行足夠清晰的描述。因此，動(dòng)詞和名詞的組合在對(duì)動(dòng)作的描述上是更加清晰的。

(2) Do Activities have temporal extents?

對(duì)于圖像中的物體來說，其邊界通常是非常明確的，對(duì)應(yīng)的學(xué)習(xí)任務(wù)包括目標(biāo)檢測(cè)以及目標(biāo)分割。然而，人類行為的時(shí)序邊界則常常是不夠明確的。

該文同樣進(jìn)行了一些人類學(xué)習(xí)實(shí)驗(yàn)，實(shí)驗(yàn)的內(nèi)容為讓人類標(biāo)記者重新來對(duì)視頻中的行為邊界進(jìn)行標(biāo)定，并與數(shù)據(jù)庫的真值進(jìn)行比較。實(shí)驗(yàn)主要有以下幾點(diǎn)觀察：

在Charades上，人類平均只能達(dá)到72.5%的重疊率（IoU），在Multi-THUMOS數(shù)據(jù)集中，則只能達(dá)到58.7%。可見即便對(duì)于人類，視頻中行為的時(shí)序邊界也是比較模糊的。
動(dòng)作的結(jié)束時(shí)間點(diǎn)比起開始時(shí)間點(diǎn)存在更多混淆
時(shí)間更長(zhǎng)的行為其邊界對(duì)于人類來說混淆更小。這表明時(shí)間較短的動(dòng)作需要更小心的標(biāo)注
時(shí)序邊界的模糊性在各種動(dòng)作種類中是廣泛存在的

那么關(guān)于時(shí)序邊界，可以進(jìn)一步的問以下的問題：

Can we evaluate temporal localization?

即在時(shí)序動(dòng)作邊界模糊的情況下，我們是否能夠來評(píng)估時(shí)序動(dòng)作定位（時(shí)序動(dòng)作檢測(cè)）呢？略去實(shí)驗(yàn)，該文給出的結(jié)論是：盡管時(shí)序邊界存在模糊性，目前的數(shù)據(jù)集還是允許我們對(duì)動(dòng)作的時(shí)序邊界進(jìn)行理解，學(xué)習(xí)以及評(píng)估的。

Should we evaluate temporal localization?

這是該部分的最后一個(gè)問題，即時(shí)序動(dòng)作檢測(cè)/定位是否值得我們?nèi)プ觥Ｔ撐暮饬苛艘粋€(gè)假定的完美的行為分類器，在行為檢測(cè)任務(wù)上進(jìn)行實(shí)驗(yàn)，在Charades數(shù)據(jù)集上達(dá)到了為56.9%，大約五倍于該數(shù)據(jù)集上的state-of-the-art的精度。這部分作者講的很不清楚，此處作者應(yīng)該是用某種方法生成了時(shí)序動(dòng)作的proposal，再用完美分類器對(duì)這些proposal進(jìn)行分類，從而實(shí)現(xiàn)檢測(cè)的效果。

基于這一點(diǎn)，作者認(rèn)為對(duì)于較短的視頻，專注于行為分類任務(wù)比起行為檢測(cè)任務(wù)能夠帶來更多的檢測(cè)精度提升。所以該文的后面部分主要對(duì)行為分類任務(wù)進(jìn)行討論。注意此處作者的觀點(diǎn)，是認(rèn)為在“短視頻”情況下（此處使用的是Charades數(shù)據(jù)集），提高分類器的精度更容易帶來檢測(cè)精度的提高。但我認(rèn)為這個(gè)僅為該數(shù)據(jù)集的情況。對(duì)于其他一些數(shù)據(jù)集，如ActivityNet，其分類精度已經(jīng)相當(dāng)高了（91%左右），此時(shí)比起繼續(xù)提高分類器的精度，提高時(shí)序動(dòng)作邊界的定位質(zhì)量，能夠帶來更多檢測(cè)精度的提高。

What are existing approaches learning?

該部分則主要討論了現(xiàn)有的模型在學(xué)習(xí)行為分類的過程中到底學(xué)到了什么。這部分采用了幾種目前比較主流的行為分類算法，以Charades數(shù)據(jù)集為主進(jìn)行了實(shí)驗(yàn)分析。

(1) Analyzing correct and incorrect detections

該文首先給出了一個(gè)例子，即Two-Stream方法在Charades數(shù)據(jù)集上的測(cè)試結(jié)果，第一行為正確的檢測(cè)，后面幾行為不同的錯(cuò)誤檢測(cè)例子。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為？

從這張圖片中，我們可以對(duì)模型的缺陷進(jìn)行如下的分析

模型需要學(xué)習(xí)區(qū)分相似的行為種類，具體討論見(2)
模型需要發(fā)展時(shí)序理解的能力，具體討論見(3)
模型需要理解人本身的存在，具體討論見(4)

該圖則表現(xiàn)了不同算法的預(yù)測(cè)結(jié)果的分析。可以看出對(duì)于動(dòng)詞和名詞，均存在顯著的混淆情況。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為？

該圖表現(xiàn)了不同的混淆程度對(duì)精度的影響。此處的復(fù)雜度，如動(dòng)詞復(fù)雜度指同一個(gè)動(dòng)詞，不同名詞組合的數(shù)量。數(shù)量越多表明混淆情況比較嚴(yán)重。大體上可以得出，混淆情況越高，所能達(dá)到的精度一般越低。

(2) Training Data

該部分主要分析了訓(xùn)練數(shù)據(jù)以及動(dòng)作類別的影響。在訓(xùn)練模型時(shí)，使用更多的數(shù)據(jù)通常能獲得更好的效果，但具體而言如何增加數(shù)據(jù)才能有效的提高效果呢？本節(jié)對(duì)樣本數(shù)量較多與較少的動(dòng)作類別分別進(jìn)行了分析

小樣本數(shù)量的動(dòng)作類別

作者發(fā)現(xiàn)，對(duì)于大部分動(dòng)作種類能夠獲益于增加訓(xùn)練數(shù)據(jù)數(shù)量，即便是其他種類的樣本數(shù)量
若將數(shù)據(jù)集中所有種類的動(dòng)作的樣本數(shù)量限制到100，作者發(fā)現(xiàn)擁有更多相似動(dòng)作的動(dòng)作類別會(huì)有更大的精度下降。這個(gè)觀察有一個(gè)重要的啟示，即不考慮動(dòng)作相似性的情況下，進(jìn)行樣本數(shù)量的平衡可能是無益的。

大樣本數(shù)量的動(dòng)作類別

大樣本數(shù)量的動(dòng)作可能更難學(xué)習(xí)，因?yàn)闃颖緮?shù)量多，其類內(nèi)的姿態(tài)多樣性會(huì)更大。此外，與其共享名詞（即有相同的交互對(duì)象，這點(diǎn)我認(rèn)為可能是該數(shù)據(jù)集特性）的動(dòng)作也更多，使其更易被混淆
作者發(fā)現(xiàn)，現(xiàn)在很多方法的精度提高，常常是以為在小樣本數(shù)目的動(dòng)作類別上做的更好了，而非是大樣本數(shù)量的動(dòng)作種類。或許將大樣本數(shù)量的動(dòng)作進(jìn)行細(xì)分是不錯(cuò)的方法

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為？

(3) Temporal reasoning

這部分主要討論時(shí)序上的動(dòng)作理解。

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為？

從該圖可以看出，在分類任務(wù)上，現(xiàn)在的方法能更好的處理時(shí)間較長(zhǎng)的動(dòng)作，較短的動(dòng)作因?yàn)闀r(shí)序信息較少所以更難。此外，作者認(rèn)為結(jié)合時(shí)序上的預(yù)測(cè)結(jié)果是non-trivial problem, 即一個(gè)有意義的問題。實(shí)際上今年有不少工作都是通過時(shí)序結(jié)果的編碼來提高分類的精度。

(4) Person-based Reasoning

這一部分作者主要有幾點(diǎn)觀點(diǎn)/結(jié)論

基于人的理解會(huì)有助于提高目前算法的精度
人的姿態(tài)在人類行為識(shí)別中起到很大的作用

Where should we look next?

最后一部分中，作者對(duì)可以提高的方向進(jìn)行了一些分析。主要的方式是提供一些額外的信息，觀察在擁有額外信息的情況下，模型能夠多大的提高。主要包括以下幾種。

名詞，即已知交互物體
動(dòng)詞，即已知?jiǎng)幼黝愋?/p>
意圖，即對(duì)行為進(jìn)行聚類，幾種相似的行為作為一種意圖，或許可以認(rèn)為是一大類吧
時(shí)間，對(duì)于每幀視頻，其距離動(dòng)作開始和結(jié)束時(shí)間的時(shí)序距離給出
姿態(tài)，將所有姿態(tài)聚類成500類，提供姿態(tài)類別信息

【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為？

實(shí)驗(yàn)結(jié)果主要是對(duì)模型所應(yīng)該側(cè)重的發(fā)展方向起一定的啟示作用。

小結(jié)

在做視頻行為分析的研究工作時(shí)，很多時(shí)候會(huì)忽略掉一些基礎(chǔ)的信息，而是埋頭于模型調(diào)參。而讀完這篇文章我最大的感受是，在解決一個(gè)具體問題的時(shí)候，對(duì)問題進(jìn)行細(xì)致的思考和分析非常重要，能夠使得自己在設(shè)計(jì)方法是更有針對(duì)性，也更有效率。上面的比較內(nèi)容比起原文很簡(jiǎn)略，若看完后有興趣還是非常推薦閱讀原文。

雷峰網(wǎng)特約稿件，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

8人收藏

專題

ICCV 2017

本專題其他文章

林天威SJTU

知情人士

發(fā)私信

當(dāng)月熱門文章