騰訊 ARC Lab 胡文博：“如何實現三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

本文作者：齊鋮湧

2025-12-31 15:44

導語：我們正在努力創建一個具備三維感知能力的視頻世界模型。

作者丨齊鋮湧

編輯丨馬曉寧

世界模型的研究尚處于起步階段，共識尚未形成，有關該領域的研究形成了無數支流，過去一年多，Sora為代表的視頻生成模型，成為繼大語言模型（LLM）后新的學術熱點。本質上講，當下火爆的視頻生成模型，是一種世界模型，其核心目的是生成一段逼真、連貫的視頻。

要達到這樣的目的，模型必須在一定程度上理解這個世界的運作方式（比如水往低處流、物體碰撞后的運動、人的合理動作等）。

胡文博正是世界模型研究領域近兩年的絕對新銳。

在剛剛結束的 GAIR 2025，騰訊ARC Lab高級研究員胡文博，在雷峰網舉辦的GAIR大會現場帶來了非常有見解的演講：《邁向三維感知的視頻世界模型》（Towards 3D-aware Video World Models ）。

以下是具體內容，AI科技評論做了不改變原意的編輯和整理。

感謝邀請和介紹，我今天分享的題目是《邁向三維感知的視頻世界模型》（Towards 3D-aware Video World Models）。

之所以講這個，是因為Sora在2024年初出來時，給大家帶來很大震撼。比如它生成的視頻，雖然看起來是二維的，但已經具備一定的3D一致性。不過從我們做三維重建的角度看，比如嘗試把它重建出來，會發現墻面與地面的垂直性、平整度等都還不夠好。

騰訊 ARC Lab 胡文博：“如何實現三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

基于這個觀察，領域內認為視頻擴散模型有潛力作為世界模型的一種表示方式，但視頻本身仍是二維的，而我們的世界是三維的。

所以我們思考：如何實現一個具備三維感知能力的視頻世界模型？

為了實現這種三維感知，我們主要做了兩方面工作，今天重點講第二方面。

第一方面是如何從二維觀測中重建三維信息，這部分和前面彭老師講的內容比較接近。第二方面是如何將重建得到的三維信息融入到生成過程中，使二維空間的視頻擴散模型具備三維感知特性。

我先簡單介紹一下第一方面的工作：如何在開放世界環境中，從二維視頻中重建三維信息。

我們做了一系列工作，例如video depth (DepthCrafter)（2024年10月掛在arXiv上，現在效果可能已經不是最新的了）。

除了video depth (DepthCrafter)，我們進一步思考：既然video depth還是2.5維的信息，能否直接從視頻中估計點云。這就是GeometryCrafter，有了點云，我們就能做類似4D重建的任務，把各幀融合到同一坐標系中。

再進一步，我們還估計了運動信息，這部分我們最新的工作叫Holi4D，可以從單目視頻中重建運動。最后一塊是表面法線估計NormalCrafter，與前幾項相比，法線包含更多高頻細節，因為它是位置的一階偏導數。基于法線我們可以做重打光、材質編輯等任務。

騰訊 ARC Lab 胡文博：“如何實現三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

總的來說，目前從任意開放世界二維視頻中重建三維信息的技術已經發展得不錯，我們能得到比較好的三維重建結果了。

接下來重點講第二方面：如何將三維信息用在視頻擴散過程中，使模型具備三維感知能力。我們首先探索了靜態場景下的生成任務：輸入一張單圖，希望模型能根據任意指定的相機位姿，生成對應的觀測圖像。這樣我們就能像玩游戲一樣，通過控制相機，實現對靜態場景的探索。

這個工作叫ViewCrafter，2024年10月公開，后來被PAMI接收。方法上，我們借助重建能力：給定一張圖，先重建出一個粗糙的三維點云，形成場景的“骨架”。然后基于這個點云進行漫游渲染，渲染結果雖然粗糙（可能有空洞），但視角變換關系非常準確。（雷峰網）

這些空洞正好由擅長內容生成的視頻擴散模型來填補。我們將渲染的點云作為條件，控制視頻擴散過程，從而生成既逼真又符合指定視角變換的圖像。

更重要的是，生成的新圖像可以反過來用于多視角重建，更新點云，從而實現迭代式、更大范圍的場景探索。這其實與世界模型中的記憶機制相關：三維點云作為一種記憶，通過新探索內容更新點云，再中查詢信息作為條件，支持更遠的探索。

騰訊 ARC Lab 胡文博：“如何實現三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

我們展示一些結果：左側是指定的相機軌跡，右側是從單圖出發生成的探索結果。

效果還不錯，不僅支持單圖輸入，也支持稀疏多視圖輸入。從兩張圖出發的話，探索范圍會大很多。探索得到的多視圖圖像可以直接用于重建三維高斯潑濺模型（3D Gaussian Splatting），實現實時渲染。

騰訊 ARC Lab 胡文博：“如何實現三維感知的視頻世界模型，這非常值得探索”｜GAIR 2025

剛才講的是靜態場景探索，接下來是如何對動態場景進行探索。這是我們發表在ICCV 2025上的Oral工作TrajectoryCrafter。

核心思想是：用戶輸入一段單目視頻（它是四維世界的二維投影），模型應允許用戶對其背后的四維世界進行探索，即同時指定相機位姿和時間點，生成對應的動態觀測。

方法延續之前的思路：核心是如何將重建的三維信息注入生成過程。輸入是一段視頻，我們通過視頻重建方法將其提升為三維空間中的動態點云。然后像ViewCrafter一樣，基于指定位姿渲染點云。

不同之處在于，動態探索對生成質量要求更高，因此我們除了注入點云信息外，還將原始視頻（質量最高）也作為條件注入擴散模型，從而在精準控制相機位姿的同時實現高質量生成。

結果展示：左側是原始動態視頻，右側是依據新指定相機位姿生成的動態視頻。例如左上角第一個例子，甚至可以繞到人物背后觀看，光影反射效果也不錯。（雷峰網）

模型還能實現“子彈時間”特效：固定時間點，旋轉相機。另外也能模擬“Dolly Zoom”特效（電影常用手法：邊推移相機邊調整焦距，使主體大小不變而背景變化），我們的模型可以從原始固定相機視頻出發，同時修改相機內參和外參，復現這種效果。

以上兩個工作分別實現了對靜態和動態場景的探索。

對于世界模型，除了探索，下一步是實現交互：如何對場景中多個物體進行交互？這是我們最新工作VerseCrafter（即將公開）。

仍從單圖輸入出發，重建幾何信息，并將可移動物體用高斯球標注出來。相機和物體軌跡可在Blender中編輯：用戶可以交互式設計相機和每個物體的運動軌跡。然后，我們的模型能根據這些交互結果，生成逼真的觀測視頻。也就是說，相機和所有物體的運動都是可交互的。（雷峰網(公眾號：雷峰網)）

實現方案上，我們構建了一個“4D控制視頻世界模型”：從單圖出發，基于重建和分割方法，重建出部分三維場景，并標注可移動物體。這樣就在Blender中得到一個粗糙的、可交互的三維（或四維）世界。雖然粗糙，但易于交互。交互結果作為條件，輸入到我們設計的視頻擴散模型中，生成最終逼真的觀測。

這個方案的關鍵在于如何構建訓練數據。我們建立了一套完整的訓練數據標注流程，核心基于重建算法和視覺語言模型（VLM）進行標注與過濾。最終我們獲得了約35K個高質量視頻片段的數據集。

基于這個模型，我們可以做很多事情：固定相機只移動物體、固定物體只移動相機、同時移動相機和物體。我們對比了現有方案，很多方法只能處理特定類別（如僅限人體），而我們的方法在運動符合度和生成質量上都有不錯表現。我們還測試了多玩家聯機探索場景的能力：用兩個人各自拍攝的照片作為Player A和Player B的視角，讓他們在同一個場景中同時探索與交互，模型能分別生成各自的視角視頻。

總結一下，今天主要關注第二方面——三維感知視頻世界模型，但這部分非常依賴第一方面的開放世界三維重建技術（包括深度、點云、運動、法線等重建）。

在三維感知視頻世界模型方面，我們實現了靜態場景探索模型、動態場景探索模型，以及支持在四維場景中同時進行探索與交互的模型。

這就是今天想和大家分享的內容，謝謝。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

齊鋮湧

編輯

發私信

當月熱門文章