<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      國際 正文
      發私信給李尊
      發送

      0

      斯坦福AI實驗室又一力作:深度學習還能進一步擴展 | CVPR2016最佳學生論文詳解

      本文作者: 李尊 2016-07-01 15:11
      導語:最新CVPR2016最佳學生論文,深度學習還能進一步拓展? 斯坦福AI實驗室又一力作

      結構遞歸神經網絡: 時空領域圖像中的深度學習

      聯合編譯:陳圳、章敏、Blake

      摘要

      雖然相當適合用來進行序列建模,但深度遞歸神經網絡體系結構缺乏直觀的高階時空架構。計算機視覺領域的許多問題都固有存在高階架構,所以我們思考從這方面進行提高。在解決現實世界中的高階直覺計算方面,時空領域圖像是一個相當流行的工具。在本文中,我們提出了一種結合高階時空圖像和遞歸神經網絡的方法。我們開發了一種可隨意擴展時空圖像的辦法,這是一種正反饋、差異化高、可同步訓練的RNN混合網絡。這種方法是通用的,通過一系列設定好的步驟可以將任意時空圖像進行轉化。這種估值計算能解決一系列不同的問題,從人類運動建模到物體迭代,比目前最佳的解決方案還要好一大截。我們希望這種通過高階時空圖像和遞歸神經網絡的方法能夠提供新的解決方案。

       1.引言

      我們生活的世界本質上是結構化的。它包括與在空間和時間上彼此相互作用的組分,形成了一個時空結合物。在這類問題上使用這種結構可以將高階信息注入學習框架。這一直是計算機視覺和機器學習努力的原因,比如邏輯網、圖片模型和結構化SVMs。這跨越了空間和時間(時空)的結構,在計算機視覺和機器人技術社區相當流行。首先,在現實世界中的人類和環境之間的相互作用是固有時空性的。例如,在烹飪的時候人類既和空間,又和時間中多個對象進行交互。同樣,人的身體(胳膊,腿等)有單獨的功能,但在實際行動中又互相合作。因此,對許多應用來說高階的時空結構和豐富的序列建模能力協同作用是相當重要的。

      RNNs的顯著的成功已經證明它們能應用到對許多端對端學習任務。雖然它們已被證明能夠對長序列成功建模,但它們缺乏高階的和直觀的時空結構。時空圖(ST-圖)是一種流行的用來表示這種高階的時空結構的通用工具。圖的節點通常代表該問題的組件,并且邊緣捕捉他們時空相互作用。為了實現上述目標,我們開發用于轉化任意ST-圖形成RNNs的前饋混合物,命名結構-RNN(S-RNN)的通用工具,見圖1所示。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖1

      在高階步驟中,給定一個任意的ST-圖,我們先推出它的時間分解成一組因素組件。因素共同確定一個決定,并從ST-圖形的兩邊緣和節點所來源的獨立組件。我們然后語義組因子部件和表示使用一個RNN,這導致所需RNN混合物。這種轉變問題的主要挑戰是:1)使RNN混合盡可能豐富,學習復雜的功能,2)相對于輸入ST-圖的大小保持RNN混合可擴展,為了使所得RNN混合物豐富,我們代表每個時空因子(包括節點的因素,邊的因素,和時空邊緣因子)利用每一個RNN。在另一方面,為了保持整體的混合物可擴展,但不能失去必要的學習能力,我們利用“因素共享”,并允許類似語義的功能要素共享一個RNN。這導致RNNs的前饋混合物豐富且可擴展,它等效于在輸入、輸出和時空關系方面所提供的ST-曲線圖。該混合物也完全差異化的,可以共同作為一個實體和擴展的構筑。

      該方法是原則性通用的,它是適用于可以配制為ST-圖。以前幾個工作已經試圖解決在使用RNNs的集合,但是它們幾乎一致沒有任務特定的具體問題。為了分解或要素共享機制,也沒有利用在制定他們的架構,以確保豐富性和可擴展性相似。

      S-RNN也是模型化的,它的根本也是一個高階架構。

      本文的主要貢獻在于:

      l 提出一個通用處理辦法,對于時空圖設計了豐富、可拓展、可同步訓練的RNN混合網絡。

      l S-RNN比未架構RNN的表現要顯著提高。

      l 為了和RNN進行比較,針對幾個時空圖像問題對S-RNN的表現與無深度構架網絡進行對比,S-RNN表現優異。

      2. 相關工作

      我們對相關內容進行分類概述。大體來說,我們的工作與現有的科技有三個主要區別:第一是我們是通用不限制與某個特定問題的,第二是提供了一個為了豐富RNN轉移的一個方法。

      時空問題

      在機器人和計算機視覺領域,需要時間和空間推理來解決的問題非常普遍。包括人類互動視頻,模擬人類運動等。事實上,大多數我們的日常活動在本質上是時空之間。隨著豐富的交互和機器人技術不斷增長,這種形式的推理將變得更加重要。我們評估三個時空問題,:(一)人體運動模擬(二)人體對象交互理解(三)驅動預期。

      深度構架混合

      以前的工作大多基于建立多個網絡和以捕捉,如活動檢測,場景標簽,圖像字幕和目標檢測等。然而,這樣的架構大多是設計來處理具體問題,雖然他們展示采用模型深度架構也十分受益。在另一方面,遞歸神經網絡是通用的前饋結構。我們的工作是為時空圖問題提供補救措施。

      深度圖像模型學習

      針對架構預測任務,許多工作都將圖像模型添加到深度網絡中。Bengio等人將CNNs和HMM結合起來用來進行手寫識別。Tomposon等人主要將CNN和MRF用來人類姿勢預估。Chen等人使用和MRF差不多的相似圖像分類。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖2:人類活動的時空圖像。(a)時空圖像記錄人與物體之間的互動。(b)通過邊緣展開時空圖像,節點和邊緣都由與其相關的特征向量進行標注。(c)時空圖的因子圖參數化。

      最近的一些研究通過完全連接的CRF模式解決了端對端圖像分割。一些研究則使用兩步走的方法及在CRF中減弱深度網絡。這些方法曾用于解決多種問題如圖像分割,姿勢評價及文件分析。所有的研究都提倡也展示了在有深層結構中探索有問題的結構。但是,他們不解決時空問題,并且認為結構問題是有具體任務指向的。

      條件隨機場模式(CRF)通過學習共同的分布,其附屬領域位于輸入之間。他們被運用于許多應用程序,包括通常被作為用于時空CRF模式的時空圖像。在我們的方法中,我們采用時空圖像作為一般圖像的表示方法,并使用RNN復合結構進行具像化。與CRF不同的是,我們的方法是有概率性的,并且也不會在輸出之間的共同分布進行建模。S-RNN通過RNNs在輸出之間的結構分享學習輸出之間的相關性。

      3.S-RNN結構

      在本段,我們會描述建立S-RNN(Structual RNN)的方法。我們首先以時間空間圖像開始,然后用RNN代表每一個因子。RNN模式是通過能捕捉時間空間圖像構造和相互聯系的結構聯系起來的。

      3.1 時間空間圖像的表現。

      許多運用程序要求時空圖像推理過程是使用時空圖像建模的。圖2a展示了在活動中人與物之間相互聯系的時空圖片。圖2b展示的是按照時間順序展開的時空圖像。在人與物的互動中,節點的特征能通過物體和人的姿勢進行表示,邊緣能確定他們的方向。節點標簽表示人的活動以及功能可見性。標簽yvt 會受到節點及節點之間的互動影響,從而導致系統混亂。此類互動會參數化成因子圖,進而能把時空圖的復雜函數參數化成簡單的函數。我們能從時空圖的因子圖表示中得出S-RNN模式。圖2c展示的是圖2a相對應的因子圖。

      分享節點之間的因子

      在時空圖中的每一個因子都有參數,且需要我們了解。不是通過學習每一個節點的特征,語義上相似的節點能隨意地分享因子。例如所有在時空圖中的“物體節點”{v, w}都能分享共同的節點因子和參數。這一建模選擇能加強相似節點之間的分享。同時也能在不增加參數的情況下,進一步加強通過節點處理時空圖片的靈活性。

      根據語義分割節點會導致自然語義的邊緣分割。在所有“人與物的邊緣”{(v, w),(v, w)}是通過相同的邊緣因子建模的。基于語義的分享因子能讓參數化更緊密。實際上,分享參數對于解決節點是基于實際情況的應用十分關鍵。例如,在所有的人與物之間的互動中物體節點的數量會隨著環境的變化而發生改變。因此在沒有節點之間的參數情況下,模式不能適應有更多物體的環境。對于建模的靈活性,邊緣因子不會跨邊緣分享。

      我們將節點因子和邊緣因子定義為鄰居,因為它們能共同影響時空圖像中的節點標簽。我們將會在構建S-RNN中使用這一定義,因為它能在時空圖像中捕捉相互互動。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖3.S-RNN的時空圖片。(a)圖2的時空圖用彩色重新進行了繪制,暗示節點因子和邊緣因子之間的分享。相同顏色之間的節點因子和邊緣因子會進行分享。所有的因子一共有6種,2種節點因子和4種邊緣因子。(b)S-RNN結構中的每一個因子都有一個RNN。節點RNNs和邊緣RNNs 會連接起來形成一個雙向圖。

      3.2 來自時空圖片的S-RNN

      我們從時空圖的因子圖片中能得出S-RNN結構。時空圖中的因子會按照時間順序運行,且每一步因子都會觀察(節點和邊緣)的特征,并且會在這些特征上進行運算。在S-RNN中,我們會用一個RNN代表一個因子。我們會把從節點因子得到的RNNs指代為nodeRNNs,把從邊緣因子中得出的RNNs指代為edgeRNNs。由時空圖表示的相互互動是通過nodeRNNs和edgeRNNs之間的聯系進行記錄的。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      在算法1中,我們能看到建立S-RNN的方法。圖3b展示了用于表示人類活動的S-RNN通過圖3b再一次進行展示。節點S-RNN聯合邊緣S-RNN的輸出,而這些輸出是用于預測節點標簽的。節點RNNs的預測能通過邊緣RNNs相互發生作用。每一個邊緣RNN能處理在時空圖中有聯系的節點之間的一個特殊語義關系。

      3.3 訓練S-RNN模式

      為訓練S-RNN模式,每一個時空圖節點的特征都與節點連接起來進入S-RNN結構中。在訓練時,在預測中的錯誤能通過向前傳播的節點RNN和邊緣RNN進行反向傳播。在此方法中,為預測節點標簽,S-RNN會對節點和邊緣的特征進行非線性連接。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖4:向前傳播的人類節點v展示了與圖3相對應的結構分布。

      圖3展示的是通過S-RNN向前傳播的人類節點。圖4展示的是相同向前傳播的結構細節。特征的集合與連接相反,對于解決有易變但卻有固定結構的物體節點十分重要。因為物體節點計算會隨著環境變化而發生變化,所以用固定長度的向量特征表示可變環境極具挑戰性。依經驗來看,增加特征比合并均值更有用。我們推測增加部分會維持目標計算和時空圖像特征,而合并均值會平衡邊緣數。

      參數共享及構建的特征空間。S-RNN模式的一個重要方面是跨越節點標簽的參數分享。當RNN在向前傳播時,節點標簽之間的會進行參數分享。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖5。不同的時空人物。我們使用S-RNN去跟蹤3種不同的時空問題。

       

      4.實驗

      為保證S-RNN的通用性,我們展示了三個不同的時空問題,如圖5所示。這一運用包括:(i)基于活動數據對人類活動進行建模;(ii)人類活動的探測和預測;(iii)基于現實世界數據進行預期假設。

      4.1 對人類活動進行建模和預測

      人類的身體是分開但卻聯系緊密部分的典型代表。人類活動包括不同部分(如胳膊,腿,脊椎)之間復雜的時空作用,而這會導致可見的移動,如走路,吃飯等。在此實驗中,我們用復雜的時空圖片代表人的活動,并試著用S-RNN進行建模。從活動中收集數據再進行活動預測這一方面,我們建模方法超過其他未進行建模的深層結構。此外一些方法曾基于高斯法,玻爾茲曼法(RNMs)和RNN對人類活動進行過探索。最近,Fragkiadaki等其他人提議進行編碼—RNN—解碼方法進行探索,因為此方法曾取得較好的預測數據。

      用于人類活動的S-RNN結構

      S-RNN結構是按照圖5的時空圖流程運行的,見圖5a。據圖可是,脊椎是身體所有部分的相互作用,胳膊和腿相互作用。時空圖會自動轉化為S-RNN結構,見3.2部分。S-RNN對身體的每一個部分(胳膊,腿,脊椎)標上3個節點RNN,對于時空圖之間的相互作用建模會標上4個邊緣節點,而他們之間的時空聯系會標上3個邊緣RNN。對于邊緣RNN和節點RNN我們分別使用FC(256)-FC(256)-LSTM(512)和LSTM(512)-FC(256)-FC(100)-FC(·)結構,并且跳過了輸入和輸出之間的關系。節點RNN是不同身體部分的框架連接。為在訓練時在動作捕捉時增加噪音。而這會刺激課程學習并能幫助預測動作與人類動作相符。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖6:預測測試對象的飲食活動。在非周期性行為中,ERD和LSTM-3LR努力的模仿人類行為。S-RNN,另一方面,在短期內模擬地面實況,并且長期產生類似人類的行為 。在沒有(w/o)edgeRNNs情況下,行為在一些預定站著的位置上凍結了。見視頻。

      我們聯合訓練RNNs,以便最小化預測捕獲幀和地面實況之間的歐幾里得幾何學的損耗。訓練的細節見項目網頁補充材料。

      評估體系

      我們在H3.6m動作捕捉數據集中將S-RNN和最先進的ERD結構進行了對比。同時也與3層LSTM架構進行了比較(LSTM-3LR),這被用來作基線。為了預測運動,我們遵循[ 14 ]中的實驗設置。兩次向下采樣H3.6,并且在項目6中訓練,在項目S5中測試。為了預測,我們首先將初始捕獲幀注入結構中,然后預測未來的幀。緊接著,我們考慮了行走,飲食,和抽煙行為。除了這三個,還考慮了討論行為。

      預測人類非周期性的行為是非常具有挑戰性的任務

      在H3.6數據集中,飲食、吸煙和討論作為的重要組成部分是非周期性的,而行走行為大部分是周期性的。我們在三個方面表明了擁有一個基礎結構的好處:(i)對于復雜的非周期性運動,我們提出了可視化和定量化的結果。(ii)我們預測人類行為的時間比最高的水準還要長兩倍。對于非周期性活動,這非常具有挑戰性的;(iii)我們展現了S-RNN非常有趣的學習語義概念,并且通過混合人體行為展示其模塊性。非結構化的深層結構,如[ 14 ]不具備這樣的模塊化。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      表1運動預測角度誤差。初始運動1毫秒后。平均結果超過了8個測試項目上,每個活動的初始運動序列。

      運動預測的定性結果

      圖6顯示了預測1000ms內人類“飲食”的行為——散步時喝飲料的項目。S-RNN短期內保持近似地面實況,并長期產生類似人類行為。移除edgernns,人體身體部分變得獨立,并通過參數停止相互作用。因此,沒有edgRNN的骨架,在一些預定的位置會凍結。LSTM-3LR面臨漂移問題。在很多測試實例中它漂移到了人類行走的平均位置。ERD產生的行為在短時間內保持類似于人類,但在長時間時,它漂移到不像人類的行為。與S-RNN不同,在復雜的非周期性活動中,這是ERD常見的結果。此外,在許多測試實例中ERD產生的人類行為并不流暢。更多實例見項目網頁。

      定量評價

      我們遵循Fragkiadaki等人的評價指標,并在表1的預測捕獲幀和地面實況之間提出了3D角度誤差。ERD模擬人類運動在質量方面比LSTM-3LR要好。然而在短期內,它模仿地面的實況沒有LSTM-3LR效果好。Fragkiadaki 等人同樣注意到了ERD和LSTM-3LR之間的權衡。另一方面,S-RNN在短期內預測行為的效果比LSTM-3LR和ERD都要好。所以S-RNN在短時間內模擬地面實況,并在長時間內產生人類的行為。以這種方式,它能夠很好地處理短期和長期預測。由于人體行為的隨機性、根據地面實況的長期預測(>500ms)會變得顯著不同,但它仍然可以描繪人類的行為。鑒于這個原因,表1中的長期預測數據并不能有效的代表算法的建模能力。同時,我們也觀察到討論對于算法來說是最具挑戰性的非周期運動。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖7S-RNN記憶細胞可視化。當腿向前運動時,(左)腿部nodeRNN的一個細胞激勵。(右)將手靠近臉時,手臂nodeRNN的一個細胞激勵。我們在飲食和抽煙活動中假設了相同的細胞(見視頻)。

      用戶研究

      我們要求用戶動的速率運在1至3李克特量表之間。據用戶研究,S-RNN表現的最好。結果見補充材料。

      總結

      非結構化方法如LSTM-3LR和ERD,努力在復雜的行為方面,模擬更長時間的人類運動。S-RNN的良好性能,歸功于它的結構是通過底層st-圖模擬人類的行為。S-RNN用nodeRNN分別模擬身體的每一個部分,并且用edgeRNNs捕獲它們之間的相互運動,以便產生相干運動。

      4.2.深入RNN結構

      我們現在展示幾個S-RNN結構的內部視圖,并演示結構的模塊化,確保它能夠產生混合的人體運動。

      記憶細胞的可視化 。我們研究了S-RNN記憶細胞是否能夠代表有意義的語義替代運動。有人在更早的問題中研究了語義細胞。圖7中展示了,腿部nodeRNN的一個細胞學習向前移動的語義行為。腿向前移動時細胞積極的激勵(紅色)和向后運動時消極的激勵(藍色)。當主體先前運動時,細胞選擇左腿和右腿的激勵。右腿更長時間的運動,對應了右腿需要更長執行的步驟。同樣的,圖7中展示了,手臂nodeRNN的一個細胞學習把手靠近臉概念的過程。主體在飲食或者抽煙時將手靠近臉細胞激勵是一樣的。只要手緊貼臉部,細胞就保持活躍。見視頻。

      生成混合人體運動

      我們通過生成新的尚未有意義,而且不在數據集中的行為。展示模塊化架構的靈活性,這種模塊化是有趣的,而且它已被探討用于產生不同的行為風格。由于存在一個潛在的高層結構,我們的方法允許在RNNs和S-RNN之間,交換不同運動風格的訓練結構。利用該優勢,我們創建了一個新的S-RNN結構,它產生了人類用單腳先前跳躍的混合行為,如圖8所示。為了該試驗,我們使用了不同的nodeRNNS模擬左腿和右腿。我們訓練了兩個獨立的S-RNN模型–一個更慢的和一個更快的模型(通過向下采樣數據)–然后換左腿nodeRNN訓練模型。由此產生一個有著更慢的左腿卻更快的人,用左腳向前跳躍,以便跟上比它快兩倍的右腿。非結構化的結構如ERD,不具備這種靈活性。

      圖8(右)用迭代次數檢查了測試和訓練誤差。S-RNN和ERD都收斂到了相似的訓練誤差,然而,S-RNN推廣的更好,因為進行下一步預測時它有著更小的測試誤差。補充中進行了討論。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖8(左)生成混合行為(見視頻)我們通過“人單腳向前跳躍”的混合行為,展示了S-RNN的靈活性。(右)訓練和測試誤差。由于有著更小的測試誤差,S-RNN比ERD推廣的更好。

      4.3 人類活動檢測與預測

      在該部分提出了S-RNN用于模擬人類行為。我們考慮了CAD-120數據集,它涉及豐富的人類對象相互作用活動。每個活動包括一系列的子活動(如運動、飲酒等)和對象功能可視性(例如,可觸性,飲用性等),它能隨著活動進程而演變。檢測和預測的子活動及功能可見性確保了私人機器人去幫助人類。然而,這問題是具有挑戰性的,因為它涉及復雜的相互作用——在活動過程中人類與多個對象相互影響,對象之間也相互作用(例如,將水從“玻璃”倒進一個“容器”),這使得它非常適合來評估我們的方法。Koppula等人用ST圖表示了這種豐富的時空相互作用,如圖5b所示的,并且用時空CRF模擬它。在實驗中,我們展示了用S-RNN收益量模擬相同的st圖會產生卓越的結果。其中,我們使用了[29]中的節點和邊緣功能。

      圖3b顯示了我們的S-RNN結構模擬st圖。由于對象的數目隨環境變化,對象節點和人類的物體邊緣之間的因子共享變得至關重要。在S-RNN中,Rv2和RE1分別處理所有的對象節點和人類對像邊緣。這使得固定S-RNN架構可以處理不同大小的ST圖。對于edgeRNNs,我們使用了一個大小為128的單獨層LSTM。每一步,人類nodeRNN都會輸出子活動標簽(10級),并且項目nodeRNN會輸出功能的可見性(12級)。觀察ST圖至時間t,我們的目標是檢測在目前時間t的子活動和可見性功能標簽。并預測他們在時間步長為T + 1的標簽。為了檢測,我們在當前時間步長的標簽訓練S-RNN。給定觀測點為當前時間,為了預測,我們訓練結構預測下一步的標簽 。我們還培養了多任務版本的S-RNN,在每個nodeRNN中加入了兩個softmax層,并且聯合訓練以便預測和檢測。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      表2:真實世界中1100英里預測的移動數據。S-RNN來自圖5c中顯示的ST圖。Jain等人使用了相同的st圖,但他們是在AIO-HMM的概率框架中進行模擬。這個表格顯示了平均精度,召回和時間-動作。時間-動作區間在算法預測時間和行動開始時間之間。算法的特征比較來自于[22].

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      表3。CAD-120的結果。S-RNN結構來自圖5b的st圖,它優于Koppula等人的結構,在概率框架中模擬了相同的st圖。S-RNN在多任務設置(聯合檢測和預期)中進一步提高了性能。

       斯坦福AI實驗室又一力作:深度學習還能進一步擴展  | CVPR2016最佳學生論文詳解

      圖9:CAD-120中飲食活動的定性結果。顯示了多任務S-RNN的檢測和預期結果。為了使子活動在時間t,標簽的預測是在時間t- 1。(放大以便看清圖像)

      表3顯示檢測和預期的F1平均分數超過了所有的級。S-RNN在預測和檢測兩方面顯著的提高超越了Koppula等人。在預測對象可見性功能方面S-RNN的F1分數比[31]多44%,在檢測方面多7%。S-RNN沒有任何像時空CRF的馬爾科夫假設,因此,它能更好的模擬預測所需的長期依賴。該表還展示了edGERNNs在處理時空組件方面的重要性。EdgeRNN在人和物體之間傳輸信息,這有助于預測對象標簽。因此,沒有edgeRNNs的S-RNN很難模擬物體。這意味著edgeRNNs的重要性,同時也驗證了我們的設計。最后,在大多數案例中,以多任務的方式訓練S-RNN,效果是最好的。圖9中我們展示了飲食活動的可視化。我們從在每個子活動和相對應的預測中展示了一個代表性的幀。

      S-RNN的復雜性

      在復雜性方面,我們討論了兩點作為基礎st圖的函數:(i)混合中RNNs的數量。(ii)向前-通過的復雜性。RNNs的數量取決于st圖中相似的語義點數量。S-RNN的整體結構是緊湊的,因為edgeRNNs和nodeRNNs是共享的,而且在內容豐富的應用中,語義的種類通常很少。此外,由于因素共享,如果在st圖中加入了更多相似的語義點,RNNs的數量并不會增加。向前-通過的復雜性取決于RNNs的數量。由于向前-通過貫穿了整個edgeRNNs,并且nodeRNNS能夠平行發生,實踐中的復雜度僅僅取決于兩個神經網絡的級聯(nodeRNN緊隨edgeRNN)。

      4.4司機行動預測

      我們最后提出了S-RNN的另一個應用,它涉及在行為發生之前,預測幾秒鐘后的行動。Jain等人用圖5c中的st圖代表了該問題。他們將st圖模擬成一個概率貝葉斯網絡(AIO-HMM [ 22 ])。St圖代表了車外的觀察資料(例如路的特征),司機的行動,和車內的觀察資料(例如司機的面部特征)之間的相互作用。我們使用了從Jain等人獲得的點和邊緣特征,模擬相同S-RNN結構的st圖。表2顯示了該任務中不同算法的性能。在每任何設定下,S-RNN的性能都好于最先進的AIO-HMM。討論和細節見補充材料。

      5.總結

      本文提出了一個通用的原則性方法,用來結合高層次時空圖和序列成功建模RNNs。我們利用因子圖,和因子共享以獲得一個RNN混合物。它是可擴展的,并且適用于任何st圖問題的表達。我們的RNN混合在底層的st圖中,捕獲了豐富的相互作用。而且在三個不同的時空問題中,我們的S-RNN表現了出顯著的改善:(i) 人類行為模擬。(ii)人類-物體相互作用。(iii)司機行動預測。我們通過可視化記憶細胞,展示S-RNN學習特定語義子運動,并且通過生成新的人類行為,展示其模塊化。

       via CVPR2016

      題圖來自 ExtemeTech

      PS : 本文由雷鋒網(搜索“雷鋒網”公眾號關注)獨家編譯,未經許可拒絕轉載!

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 极品虎白女一线天在线看| 日韩成人无码毛片| 亚洲国产精彩中文乱码av| 影音先锋资源在线| 成人毛片无码一区二区三区 | 欧美性猛交xxxx乱大交丰满| 国产精品自在线拍国产手机版| 97精品国产一区二区三区| 广平县| 欧美成aⅴ人高清免费| 最新在线中文字幕| 无码日韩AV一区二区三区| 国产美女久久久亚洲综合| 国产导航在线| 国产爆乳无码av在线播放| 99啪啪| 欧美精品在线观看| 女人天堂久久| 亚洲国产色图| 苍井空大战黑人| 青青草啪啪啪网站在线观看| 美女被张开双腿日出白浆| 欧美综合自拍亚洲综合区| 欧美性受xxxx白人性爽| 制服丝袜亚洲无码| 一本色道久久亚洲综合精品| 综合一区二区三区| 三上悠亚ssⅰn939无码播放| 大伊香蕉在线精品视频75| 亚洲女同精品久久女同| 又爽又黄又无遮挡的激情视频| 在线精品视频一区二区三区| 揭东县| 久久本道综合久久伊人| 91人人干| 日韩高清无码一卡二卡| 中文字幕在线亚洲| 亚州Av无码| 国产日韩精品欧美一区灰| 色婷婷综合激情视频免费看| 黄页网站视频|