<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能開發(fā)者 正文
      發(fā)私信給林天威SJTU
      發(fā)送

      0

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      本文作者: 林天威SJTU 2017-09-14 16:44 專題:ICCV 2017
      導(dǎo)語:這篇論文并沒有提出或改進(jìn)任何方法,而是通過各種小實(shí)驗(yàn),對(duì)目前視頻行為理解的各種數(shù)據(jù)庫和方法進(jìn)行了細(xì)致的討論和思考。

      雷鋒網(wǎng)按:本文出自知乎專欄CV論文筆記及其它,作者林天威。

      最近ICCV 2017公布了論文錄用的情況,我照例掃了一遍論文列表尋找感興趣的文章。“What Actions are Needed for Understanding Human Actions in Videos?” 一文應(yīng)該是我覺得最有趣的一篇文章。這篇論文并沒有提出或改進(jìn)任何方法,而是通過各種小實(shí)驗(yàn),對(duì)目前視頻行為理解的各種數(shù)據(jù)庫和方法進(jìn)行了細(xì)致的討論和思考。其中許多觀點(diǎn)和結(jié)論我覺得對(duì)于做視頻行為理解的研究人員是有不少啟發(fā)的。這篇筆記里我簡(jiǎn)單的進(jìn)行一些記錄,供自己和大家參考。感興趣的話還是推薦閱讀論文原文,從論文寫作角度來看這是一篇寫的非常好的論文。

      背景介紹

      該文主要對(duì)視頻行為理解中的行為分類( Action Recognition) 和時(shí)序行為檢測(cè)( Temporal Action Detection) 兩個(gè)問題進(jìn)行了討論,這兩個(gè)領(lǐng)域及相關(guān)工作的具體介紹可見我之前的文章【https://zhuanlan.zhihu.com/p/26460437】,【https://zhuanlan.zhihu.com/p/26603387】。簡(jiǎn)單來說,行為分類是要給一段分割好的短視頻(通常只包含一段人類動(dòng)作)進(jìn)行動(dòng)作種類的分類,而時(shí)序行為檢測(cè)則主要針對(duì)較長(zhǎng)的未分割視頻,除了要對(duì)視頻中人類行為的種類進(jìn)行分類外,還需要定位動(dòng)作的時(shí)序邊界。在這兩個(gè)方向中,該文則更注重對(duì)行為分類問題的討論。

      深度學(xué)習(xí)(或者說數(shù)據(jù)驅(qū)動(dòng)的方法)在各個(gè)領(lǐng)域的發(fā)展離不開各個(gè)領(lǐng)域中數(shù)據(jù)庫的發(fā)展,視頻行為理解領(lǐng)域亦然。從最早的非常簡(jiǎn)單的KTH數(shù)據(jù)庫,到包含各類運(yùn)動(dòng),簡(jiǎn)單日常行為的UCF101, THUMOS, HMDB-51等數(shù)據(jù)庫,再到這兩年類別數(shù)量更大,視頻數(shù)目也更多的ActivityNet, Charades等數(shù)據(jù)庫,數(shù)據(jù)庫的發(fā)展也一步一步推動(dòng)著視頻行為理解方法的發(fā)展。本文主要針對(duì)Charades數(shù)據(jù)庫進(jìn)行了分析,原因大概是因?yàn)樵摂?shù)據(jù)庫就是本文作者提出的。實(shí)際中,這兩年相關(guān)的論文在Charades數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)的似乎并不多見。

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      本文的結(jié)構(gòu)主要是以幾個(gè)問句為主,通過對(duì)疑問進(jìn)行分析來將討論逐步推進(jìn),每個(gè)大問題下還包含一些小問題。本文主要的問題/章節(jié)包括以下幾個(gè)。

      • What are the right questions to ask?

      • What are existing approaches learning?

      • Where should we look next?

      這幾個(gè)問題從現(xiàn)有數(shù)據(jù)庫及任務(wù)本身的分析,到算法的分析,最后到未來發(fā)展方向的展望,可以說是層層遞進(jìn)。下面就開始對(duì)各個(gè)部分進(jìn)行簡(jiǎn)單的介紹。

      What are the right questions to ask?

      這部分內(nèi)容對(duì)視頻行為理解任務(wù)本身進(jìn)行了一些基礎(chǔ)的探討,主要的出發(fā)點(diǎn)是研究人類本身如何理解視頻中的人類行為。主要包括兩個(gè)子問題。

      (1)  What are the right activity categories?

      對(duì)于圖像中的物體,其語義的類別通常是非常明確的,一般不存在混淆。然而,用動(dòng)詞來定義的人類動(dòng)作其數(shù)目則要少很多,且常常存在一定的歧義性。舉例來說,“跑”,“跳” 這些動(dòng)作本身含有比較明確的定義,而 “拿“,”取“ 這些動(dòng)作則模糊的多,需要和名詞結(jié)合才能明確其意義,比如”拿衣服“,”取藥“等。因此,動(dòng)詞或是動(dòng)詞和名詞的組合構(gòu)成了一個(gè)動(dòng)作的最基本定義。

      該文召集了一些志愿者,在Charades數(shù)據(jù)集上進(jìn)行了一些人類學(xué)習(xí)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明人類對(duì)于動(dòng)詞比起名詞更容易感到混淆。進(jìn)一步的實(shí)驗(yàn)也表明了單獨(dú)的動(dòng)詞不能夠?qū)?dòng)作進(jìn)行足夠清晰的描述。因此,動(dòng)詞和名詞的組合在對(duì)動(dòng)作的描述上是更加清晰的。

      (2)  Do Activities have temporal extents?

      對(duì)于圖像中的物體來說,其邊界通常是非常明確的,對(duì)應(yīng)的學(xué)習(xí)任務(wù)包括目標(biāo)檢測(cè)以及目標(biāo)分割。然而,人類行為的時(shí)序邊界則常常是不夠明確的。

      該文同樣進(jìn)行了一些人類學(xué)習(xí)實(shí)驗(yàn),實(shí)驗(yàn)的內(nèi)容為讓人類標(biāo)記者重新來對(duì)視頻中的行為邊界進(jìn)行標(biāo)定,并與數(shù)據(jù)庫的真值進(jìn)行比較。實(shí)驗(yàn)主要有以下幾點(diǎn)觀察:

      • 在Charades上,人類平均只能達(dá)到72.5%的重疊率(IoU),在Multi-THUMOS數(shù)據(jù)集中,則只能達(dá)到58.7%。可見即便對(duì)于人類,視頻中行為的時(shí)序邊界也是比較模糊的。

      • 動(dòng)作的結(jié)束時(shí)間點(diǎn)比起開始時(shí)間點(diǎn)存在更多混淆

      • 時(shí)間更長(zhǎng)的行為其邊界對(duì)于人類來說混淆更小。這表明時(shí)間較短的動(dòng)作需要更小心的標(biāo)注

      • 時(shí)序邊界的模糊性在各種動(dòng)作種類中是廣泛存在的

      那么關(guān)于時(shí)序邊界,可以進(jìn)一步的問以下的問題:

      Can we evaluate temporal localization?

      即在時(shí)序動(dòng)作邊界模糊的情況下,我們是否能夠來評(píng)估時(shí)序動(dòng)作定位(時(shí)序動(dòng)作檢測(cè))呢?略去實(shí)驗(yàn),該文給出的結(jié)論是:盡管時(shí)序邊界存在模糊性,目前的數(shù)據(jù)集還是允許我們對(duì)動(dòng)作的時(shí)序邊界進(jìn)行理解,學(xué)習(xí)以及評(píng)估的。

      Should we evaluate temporal localization?

      這是該部分的最后一個(gè)問題,即時(shí)序動(dòng)作檢測(cè)/定位是否值得我們?nèi)プ觥T撐暮饬苛艘粋€(gè)假定的完美的行為分類器,在行為檢測(cè)任務(wù)上進(jìn)行實(shí)驗(yàn),在Charades數(shù)據(jù)集上達(dá)到了為56.9%,大約五倍于該數(shù)據(jù)集上的state-of-the-art的精度。這部分作者講的很不清楚,此處作者應(yīng)該是用某種方法生成了時(shí)序動(dòng)作的proposal,再用完美分類器對(duì)這些proposal進(jìn)行分類,從而實(shí)現(xiàn)檢測(cè)的效果。

      基于這一點(diǎn),作者認(rèn)為對(duì)于較短的視頻,專注于行為分類任務(wù)比起行為檢測(cè)任務(wù)能夠帶來更多的檢測(cè)精度提升。所以該文的后面部分主要對(duì)行為分類任務(wù)進(jìn)行討論。注意此處作者的觀點(diǎn),是認(rèn)為在“短視頻”情況下(此處使用的是Charades數(shù)據(jù)集),提高分類器的精度更容易帶來檢測(cè)精度的提高。但我認(rèn)為這個(gè)僅為該數(shù)據(jù)集的情況。對(duì)于其他一些數(shù)據(jù)集,如ActivityNet,其分類精度已經(jīng)相當(dāng)高了(91%左右),此時(shí)比起繼續(xù)提高分類器的精度,提高時(shí)序動(dòng)作邊界的定位質(zhì)量,能夠帶來更多檢測(cè)精度的提高。

      What are existing approaches learning?

      該部分則主要討論了現(xiàn)有的模型在學(xué)習(xí)行為分類的過程中到底學(xué)到了什么。這部分采用了幾種目前比較主流的行為分類算法,以Charades數(shù)據(jù)集為主進(jìn)行了實(shí)驗(yàn)分析。

      (1)  Analyzing correct and incorrect detections

      該文首先給出了一個(gè)例子,即Two-Stream方法在Charades數(shù)據(jù)集上的測(cè)試結(jié)果,第一行為正確的檢測(cè),后面幾行為不同的錯(cuò)誤檢測(cè)例子。

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      從這張圖片中,我們可以對(duì)模型的缺陷進(jìn)行如下的分析

      • 模型需要學(xué)習(xí)區(qū)分相似的行為種類,具體討論見(2)

      • 模型需要發(fā)展時(shí)序理解的能力,具體討論見(3)

      • 模型需要理解人本身的存在,具體討論見(4)【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      該圖則表現(xiàn)了不同算法的預(yù)測(cè)結(jié)果的分析。可以看出對(duì)于動(dòng)詞和名詞,均存在顯著的混淆情況。

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      該圖表現(xiàn)了不同的混淆程度對(duì)精度的影響。此處的復(fù)雜度,如動(dòng)詞復(fù)雜度指同一個(gè)動(dòng)詞,不同名詞組合的數(shù)量。數(shù)量越多表明混淆情況比較嚴(yán)重。大體上可以得出,混淆情況越高,所能達(dá)到的精度一般越低。

      (2)  Training Data

      該部分主要分析了訓(xùn)練數(shù)據(jù)以及動(dòng)作類別的影響。在訓(xùn)練模型時(shí),使用更多的數(shù)據(jù)通常能獲得更好的效果,但具體而言如何增加數(shù)據(jù)才能有效的提高效果呢?本節(jié)對(duì)樣本數(shù)量較多與較少的動(dòng)作類別分別進(jìn)行了分析

      小樣本數(shù)量的動(dòng)作類別

      • 作者發(fā)現(xiàn),對(duì)于大部分動(dòng)作種類能夠獲益于增加訓(xùn)練數(shù)據(jù)數(shù)量,即便是其他種類的樣本數(shù)量

      • 若將數(shù)據(jù)集中所有種類的動(dòng)作的樣本數(shù)量限制到100,作者發(fā)現(xiàn)擁有更多相似動(dòng)作的動(dòng)作類別會(huì)有更大的精度下降。這個(gè)觀察有一個(gè)重要的啟示,即不考慮動(dòng)作相似性的情況下,進(jìn)行樣本數(shù)量的平衡可能是無益的。

      大樣本數(shù)量的動(dòng)作類別

      • 大樣本數(shù)量的動(dòng)作可能更難學(xué)習(xí),因?yàn)闃颖緮?shù)量多,其類內(nèi)的姿態(tài)多樣性會(huì)更大。此外,與其共享名詞(即有相同的交互對(duì)象,這點(diǎn)我認(rèn)為可能是該數(shù)據(jù)集特性)的動(dòng)作也更多,使其更易被混淆

      • 作者發(fā)現(xiàn),現(xiàn)在很多方法的精度提高,常常是以為在小樣本數(shù)目的動(dòng)作類別上做的更好了,而非是大樣本數(shù)量的動(dòng)作種類。或許將大樣本數(shù)量的動(dòng)作進(jìn)行細(xì)分是不錯(cuò)的方法

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      (3)  Temporal reasoning

      這部分主要討論時(shí)序上的動(dòng)作理解。

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      從該圖可以看出,在分類任務(wù)上,現(xiàn)在的方法能更好的處理時(shí)間較長(zhǎng)的動(dòng)作,較短的動(dòng)作因?yàn)闀r(shí)序信息較少所以更難。此外,作者認(rèn)為結(jié)合時(shí)序上的預(yù)測(cè)結(jié)果是non-trivial problem, 即一個(gè)有意義的問題。實(shí)際上今年有不少工作都是通過時(shí)序結(jié)果的編碼來提高分類的精度。

      (4)  Person-based Reasoning

      這一部分作者主要有幾點(diǎn)觀點(diǎn)/結(jié)論

      • 基于人的理解會(huì)有助于提高目前算法的精度

      • 人的姿態(tài)在人類行為識(shí)別中起到很大的作用

      Where should we look next?

      最后一部分中,作者對(duì)可以提高的方向進(jìn)行了一些分析。主要的方式是提供一些額外的信息,觀察在擁有額外信息的情況下,模型能夠多大的提高。主要包括以下幾種。


      • 名詞,即已知交互物體

      • 動(dòng)詞,即已知?jiǎng)幼黝愋?/p>

      • 意圖,即對(duì)行為進(jìn)行聚類,幾種相似的行為作為一種意圖,或許可以認(rèn)為是一大類吧

      • 時(shí)間,對(duì)于每幀視頻,其距離動(dòng)作開始和結(jié)束時(shí)間的時(shí)序距離給出

      • 姿態(tài),將所有姿態(tài)聚類成500類,提供姿態(tài)類別信息

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      實(shí)驗(yàn)結(jié)果主要是對(duì)模型所應(yīng)該側(cè)重的發(fā)展方向起一定的啟示作用。

      小結(jié)

      在做視頻行為分析的研究工作時(shí),很多時(shí)候會(huì)忽略掉一些基礎(chǔ)的信息,而是埋頭于模型調(diào)參。而讀完這篇文章我最大的感受是,在解決一個(gè)具體問題的時(shí)候,對(duì)問題進(jìn)行細(xì)致的思考和分析非常重要,能夠使得自己在設(shè)計(jì)方法是更有針對(duì)性,也更有效率。上面的比較內(nèi)容比起原文很簡(jiǎn)略,若看完后有興趣還是非常推薦閱讀原文。

      雷峰網(wǎng)特約稿件,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      【ICCV 2017論文筆記】我們應(yīng)當(dāng)如何理解視頻中的人類行為?

      分享:
      當(dāng)月熱門文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 日本三级香港三级三级人妇久| 最新亚洲春色AV无码专区| 亚洲最大福利视频网| 成人午夜福利视频后入| 色五月丁香六月欧美综合| 蜜桃麻豆www久久囤产精品| 7777精品久久久大香线蕉| 无码色综合| 国产乱码精品一区二区三区中文 | 亚洲韩欧美第25集完整版| 国产蜜臀av在线一区尤物| 性欧美三级在线观看| 91香蕉视频下载网站| 亚洲口爆| 色噜噜av亚洲色一区二区| 国产精品国产高清国产av| 女同av在线| 国产熟妇勾子乱视频| 一本色道av| 国产精品无码av天天爽| 最近免费中文字幕大全免费版视频| 成人午夜免费无码视频在线观看| 麻豆A∨在线| 制服丝袜在线云霸| 午夜精品久久久影院av| 阜阳市| 大香伊蕉在人线国产最新2005 | 铜山县| 色中色综合一区| 先锋影音av最新资源| 国产一区二区内射最近更新 | 在线无码| 日韩AV无遮挡污污在线播放| 亚洲第一福利网站在线观看| 国产精品漂亮美女在线观看| 女人被爽到高潮视频免费国产 | 日本三级香港三级三级人!妇久 | 平邑县| 人人妻人人澡人人爽久久av| 亚洲精品一二三四| 韩国一级毛片中文字幕|