0
雷峰網(公眾號:雷峰網)訊 從工廠、礦區的封閉路段到更加開放的世界,自動駕駛技術面臨著來自真實交通環境的多重挑戰。變道超車的車輛、突然打開的車門、橫穿馬路的行人……當自動駕駛系統學著給這些動態對象進行4D建模、重建和再仿真時,大多數解決方案仍然依賴于每場景優化、已知的相機校準或短幀窗口,這使得它們變得緩慢且不實用。
能否快速、低成本獲得動態駕駛場景下的仿真數據,決定了自動駕駛系統在開放世界中的進化速度。在這一背景下,長期深耕神經渲染與仿真技術的趙昊老師團隊,提出了首個面向大型動態駕駛場景的無姿態(pose-free) 前饋三維重建框架——DGGT(Driving Gaussian Grounded Transformer)。
趙昊現任清華大學智能產業研究院(AIR)助理教授,智源學者(BAAI Scholar)。他的研究聚焦計算機視覺領域,在三維場景理解、生成式仿真與神經渲染等方向深耕多年,研究成果對于自動駕駛及具身智能仿真具有重要意義。
值得關注的是,趙昊老師將以組委會主席的身份,出席2025年GAIR全球人工智能與機器人大會,并主持世界模型分論壇,分享他在世界模型方面的最新探索。
GAIR大會聚焦人工智能的核心技術、前沿趨勢與產業落地,長期吸引來自全球的技術領袖和科研人士。本屆大會將于2025年12月12-13日在深圳·博林天瑞喜來登酒店舉行,與產業界和學術界的嘉賓共同研討人工智能的下一步發展。

論文地址: https://arxiv.org/abs/2512.03004
01自動駕駛仿真新 SOTA
DGGT最大的突破,是擺脫了傳統方案對逐場景優化、相機標定以及短幀窗口的依賴。通過多頭聯合預測結構,DGGT只需稀疏、無標定圖像,單次前向即可同時輸出相機位姿、深度、動態實例與場景表示,重建長序列三維場景。
且該場景表示可直接在Gaussian層面進行編輯,如移除或移動車輛,插入其他場景的新汽車或騎行者等實例。DGGT的高度可編輯性支持擴散精修自動補洞,輸出可用于仿真與數據合成。
實驗結果表明,DGGT在Waymo上達到了 27.41 PSNR,每場景推斷 0.39 秒(3 個視角,20 幀),超過了作為優化基線的EmerNeRF、DeformableGS方案和前饋方法,同時保持了速度競爭力。換言之,DGGT比優化類方案更迅速,比前饋方案更保真。
同樣令人驚喜的還有泛化性。DGGT將相機位姿從輸入轉為模型輸出,通過端到端預測內外參并融入場景表示的方法,打破了跨數據集部署的校準壁壘。DGGT模型在 Waymo 上訓練,卻能在 nuScenes 與 Argoverse2 上實現強勁的零樣本泛化,在關鍵感知指標上相比STORM提升超過50%。如在nuScenes上LPIPS從0.394降至0.152(下降 61.4%),在 Argoverse2上從0.326降至0.155(下降52.5%)。
值得注意的是,研究團隊在nuScenes 和 Argoverse2 數據集上分別進行了零樣本和從頭訓練兩種設置的實驗評估。在這兩種情況下,DGGT均表現出了SOTA級性能。
此外,系統通過lifespan head建模場景隨時間的外觀演變,并配合單步擴散精修,可有效抑制運動插值偽影,提升時空一致性與渲染自然度。在保證仿真質量的前提下,DGGT為自動駕駛仿真推開了一扇邁向高速、可擴展新階段的大門。
02一次前向,完整 4D 場景
DGGT的核心設計理念,是一次性預測完整的4D場景狀態,同時清晰地將靜態背景與動態實體分離,并保持時間上的連貫性。
具體來說,研究團隊將相機位姿從輸入轉為模型輸出,每幀生成像素對齊的高斯映射,并添加一個壽命參數,隨時間調制可見性以捕捉變化的外觀,隨后使用動態頭生成密集動態映射,使用運動頭估計三維運動,用于稀疏時間戳間插值,同時插入單步擴散細化,抑制重影/遮蔽偽影并恢復細節。
這產生了單遍、無姿態的算法,能夠從未擺拍圖像重建動態驅動場景,自然支持高斯層級的實例級編輯。
在系統結構上,DGGT 采用 ViT 編碼器融合 DINO 先驗,通過交替注意力得到共享特征,再由多個預測頭并行輸出:
相機頭估計每一幀內外參數;
Gaussian 頭給出逐像素顏色/位置/旋轉/尺度/不透明度參數;
lifespan 頭控制時間可見度;
動態頭輸出運動遮罩;
運動頭顯式估計動態物體的三維位移;
天空頭穩定建模遠景背景。
03動態駕駛場景仿真新路徑
長期以來,高精度標定設備和固定路線采集方案,一直限制著動態駕駛場景訓練數據的成本和采集效率,DGGT則提出了一種規避上述限制的全新方案。
將相機位姿轉為模型輸出的設計使DGGT具有了在真實、開放世界中的高度靈活性,同時其多頭聯合預測結構支持任意數量的輸入視圖和長序列處理,克服了現有前饋方法在時序擴展性上的瓶頸,為處理大規模自動駕駛日志提供了可行路徑。
更可貴的是,DGGT能在Waymo、nuScenes等大規模數據集上實現SOTA級重建質量的同時,仍然保持亞秒級的推理速度。這種既快又好的特性,平衡滿足了工業界對速度與質量的雙重需求,使其具有作為實時的預處理模塊,集成到自動駕駛系統的訓練、仿真與評估流程中的潛力。
總體來看,0.4秒即可完成支持實例級編輯的4D重建,速度與質量兼顧的動態場景建模,以及對跨數據集泛化瓶頸的突破,無一不意味著低成本生成動態駕駛場景訓練數據的新范式,已經距離我們更近一步。
雷峰網文章
雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。