<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給齊鋮湧
      發送

      0

      圓桌論壇:關于“世界模型”突破方向的六個猜想 | GAIR 2025

      本文作者: 齊鋮湧   2025-12-31 15:50
      導語:單打獨斗已觸及天花板,是時候團結力量推進世界模型了。

      “世界模型”是今年超級熱門的話題和方向,但整體來看相關研究尚處于起步階段,共識尚未形成。

      在12月13日舉行的第八屆GAIR全球人工智能與機器人大會“世界模型”圓桌上,浙江大學研究員彭思達、騰訊ARC Lab高級研究員胡文博、中山大學計算機學院青年研究員,拓元智慧首席科學家王廣潤博士、香港中文大學(深圳)助理教授韓曉光、西湖大學助理教授修宇亮齊聚一堂。

      五位年輕的學者在清華大學智能產業研究院(AIR)助理教授,智源學者(BAAI Scholar)趙昊的主持下,圍繞著世界模型、數字人重建,新技術范式展望等展開了一場非常輕松但嚴肅的學術圓桌。

      以下是具體內容,AI科技評論做了不改變原意的編輯和整理。


      01

      關于世界模型,哪些技術突破值得期待?

      趙昊:感謝各位。世界模型無疑是未來幾年最重要的技術方向之一。今天我們聊得會比較技術。先從彭老師開始,彭老師剛才介紹了Match Anything和Detector Free的Structure from Motion工作,我自己在用它們解決一些反光嚴重場景的重建,位姿估計問題,無論傳統方法還是VGGT等都不奏效。您認為,未來純粹的、前饋式的匹配方法會徹底取代現有方案,還是最終會走向融合?

      彭思達:這取決于具體問題。在觀測足夠稠密的情況下,現有的COLMAP等方法已經足夠精確;但在稀疏視角下,就必須依賴VGGT這類方法。目前VGGT的精度還有提升空間。我的一個觀點是,我們不僅要看算法進步,也要關注硬件發展。比如20年前的IMU精度很差,現在則很準。我們完全可以將IMU、激光雷達等其他傳感器信息融合進來,不必局限于純視覺的VGGT。

      趙昊:有道理。另一個方向是運動估計,最近arXiv上也有很多新工作,效果超過了SpatialTrackerV2。您覺得這個領域發展到什么程度了?明年(2026年)會被徹底解決嗎?

      彭思達:肯定不會被解決,這領域才剛剛開始,精度還遠遠不夠。但最近有一個重大突破,就是谷歌DeepMind團隊的新工作 D4RT。這個工作非常優雅,它摒棄了以往基于特征相關性進行迭代優化的主流范式,而是將整段視頻編碼為一組全局Token,然后可以直接查詢時空中任意點的信息。這是一個巨大的突破,我相信接下來會有一系列改進。明年不會是終點,而會是一個蓬勃發展期,可能到2027年才會逐漸收斂。

      趙昊:所以總結一下,我大膽預測,基于查詢的幾何基礎模型會成為2026年的一個主題。不僅是D4RT,像修老師的Human3R也是查詢式的。我個人賭2026年幾何基礎模型會走向基于查詢的范式。彭老師,您2026年想bet什么方向?

      彭思達:我賭自監督學習能有重大突破。現有的自監督學習大多集中在語義和二維層面,缺乏面向空間智能的自監督學習。我希望谷歌、DeepMind這些擁有龐大資源的研究機構能在這方面做出成果,讓我們也能用上。

      趙昊:我持類似觀點。這也是為什么當年自監督深度估計研究了很久卻不太成功,現在轉向了模仿學習。我在想,明年是不是該把自監督深度估計重新撿起來,用于幾何基礎模型的后訓練?

      趙昊:接下來問問胡老師。2026年您bet什么方向?今年我們看到了你們的一系列4D AIGC工作和我們的Light-X這種5D AIGC工作,今天看了VerseCrafter之后,我覺得又增加了一個物體運動的維度。我們內部一直在探討“6D AIGC”是什么,還有哪些可控維度?您的研究思路是怎樣的?

      胡文博:我們之前的一系列工作,屬于韓老師總結的技術路線中的第三類——將3D信息注入擴散模型。但未來一年,我們可能不會繼續沿著這條路線深入了。我認為它的上限可能不夠高,因為重建技術無論發展多快,總存在瑕疵,難以達到完美真值的級別。因此,我們想探索一條全新的、上限更高的路線來融入3D信息,但目標依然是構建世界模型。我個人肯定會賭世界模型這個方向。

      特別是今年8月Google DeepMind發布的Genie 3,對我們這些領域內的人來說非常震撼。我認為它可能達到了大語言模型中GPT-3的級別,雖然離ChatGPT還有距離,但已經非常驚人。

      彭思達:我有個問題,現在的世界模型或者說視頻世界模型,學到的特征對于空間感知和理解似乎沒什么用。這與“建模三維空間”的初衷有些矛盾。您認為這里缺失了什么?

      胡文博:首先,我想對這個前提打個問號。它對于空間智能是否有用,我并不確定。但一些證據表明,從圖像或視頻擴散模型出發,用少量數據就能微調出幾何估計模型,這可能說明它是有用的。不過,我更想說的是,我們對世界模型的定義和要求是什么?如果我們要求它精確理解3D空間,那可能需要探索。但我更認同韓老師的定義,我想做的是一個給個人用的世界模型,讓人們能體驗未知的、他人的或虛構的世界。

      這件事本身就很有意義。人類感知世界最主要的方式就是視覺,眼睛接收的就是視頻信號。如果我們能在視頻模態上實現優秀的探索、交互,并且其物理規則符合現實(或自定義),那將非常有價值。至于它對空間智能是否有幫助,我暫時存疑。

      彭思達:你剛才說的讓我想到一個應用,也許可以叫“魔法相冊”。現在的相冊只是靜態記錄,未來能否按一個按鈕,就讓照片里的內容動起來,而且每次動得都不一樣?比如記錄孩子的成長,這絕對是剛需。

      胡文博:這更像是讓圖像動起來。但對我來說,世界模型更吸引人的場景是:打開任意一張照片,你都能“進入”那個場景進行探索,與其中的物體交互,并且你的交互和更改能被永久保存,下次可以繼續。這更像是一個活的世界。

      趙昊:看來我們形成了兩個初步共識:一是基于查詢的基礎模型是趨勢;二是當前3D范式存在上限,需要自監督等新范式來突破。

      趙昊:接下來請王老師分享一下,您對2026年有什么樣的展望或bet?

      王廣潤:我先接續剛才的話題。世界模型有什么用?在我看來,一個核心應用在具身智能和VLA領域。簡單來說,輸入圖像,輸出未來的動作序列,這些動作本質包含了3D坐標向量。所以,VLA任務在我看來,也包含著預測未來的3D點云(可能是只有一個點的點云)。我認為世界模型可能是一個可泛化的、快速進行3D重建與預測的引擎。對于明年,我的期待是能看到 Physical Intelligence的“π 1”版本 發布,并希望其中包含更多對世界模型的建模。這是我對明年的一大期待。

      趙昊:一個靈魂拷問:為什么π0還沒有接入深度圖或點云預測?這很讓人期待。

      王廣潤:VLA領域目前主要缺的是數據。有種觀點認為未來只需堆數據即可。但要訓練您說的那種模型,需要大量特定的3D標注數據,采集非常困難。


      02

      “可交互性是世界模型的關鍵”

      “數字人如何提供情緒價值”

      趙昊:謝謝王老師。最后請韓老師。第二次聽您的演講,我在想我們是否可以把“3D對于可解釋性和安全性至關重要”這個觀點理論化,聯合國內外學界寫一篇立場論文?

      韓曉光:說實話,我雖然激情澎湃地講3D, partly是因為我沒有足夠資源去做視頻模型。我看到很多做3D的人轉向了視頻模型,包括文博也說3D看不到性能盡頭了。我講3D的重要性,也是想“煽動”大家繼續深耕3D領域,這樣我才有安全感。

      關于2026年要做什么,我認為可交互性是世界模型的關鍵。我個人更偏向于做仿真環境中的可交互,比如生成一把剪刀,機器人拿起來真的能用;生成一個物體,可以被拆卸或操作。這是我主要想做的方向。

      修宇亮:我一直在思考數字人領域中一個長期以來被忽略,但又很有趣的點。無論是做具身智能還是3D,大家最終都落腳到機器人能干活。但人與人交往,除了“有用”,“快樂”也是很重更要的一個維度,而一個人給另一個人帶來的快樂,往往不是對方給自己干了多少活,而是對方給我提供了多少情緒價值。

      如果2026年有什么新方向,我特別想探索如何讓數字人提供情緒價值的問題。這很綜合,涉及音容笑貌、舉手投足。拿做飯舉例,做飯的快樂不僅在于炒菜本身,更在于一家人坐在一起享用時的愉悅的反饋。物理層面的問題,操作、抓取、移動,在不久的將來,會隨著智能水平的提升、硬件的迭代、運營上ROI 的打平,一個接一個落地,那么之后呢?溫飽之后,人很自然就有更高的精神上的追求。落實到數字人,我們需要將語音、語調、表情、動作等多模態統一協調,形成一種能打動人心的整體感覺。就像趙昊老師做的靈巧臉的demo,技術上是領先的,但目前仍有恐怖谷效應,無法有效傳遞情緒價值。所以我認為可以先在數字世界中探索如何讓數字人的多種感官傳遞都“活靈活現”起來,形成協調一致的感覺,最終目標是讓人產生情感共鳴。

      大模型也是如此。比如最近很火的那個 prompt:

      我是一名智力低下的研究生,毫無基礎,我將在明天組會上做ppt文獻匯報,請你解讀一下這篇文獻,讓我能達到徹底看到這篇文獻的效果,注意我是智障!!!一定要幫我講明白,最好是翻譯出來,因為我對英語一竅不通,我只會中文,你要先給我規劃一下怎么向你提問最合適,一步步引導我看懂這篇文獻,并完成最終的ppt匯報稿

      如果問這個話的是一個真人,那么理想的交互應該是什么樣子呢,他應該先說,“你已經考上研究生了,你的智力已經是極優異的那一撮了,我想你只是需要一種更落地的對論文的解釋,這篇論文是關于……”,先給予情緒支持,再解決問題。這是人機交互中很重要的一點,這是我從我老婆身上學到的,一種比我之前三下五除二的溝通方式,更宜人的一種溝通方式。

      趙昊:如果我們研究情緒價值,學術界面臨的最大問題是如何量化評估。沒有基準測試。我們明年是否可以先著手定義一些基準?就像MMMU對于多模態理解那樣。

      修宇亮:這確實是個難題。情緒非常個人化。但并非無法量化,例如脫口秀可以用“罐頭笑聲”標記笑點。我們可以定義何時引發了何種情緒,盡管要建立一個普適、有說服力的基準非常困難。這可能需要新的技術手段。

      趙昊:另一個問題:為什么3D數字人的發展似乎比通用3D物體慢?是數據問題嗎?難道不能用Trellis那樣的技術范式大幅提升精度嗎?

      修宇亮:數據不足是一個問題。但更根本的是,數字人有一個“恐怖谷”效應:通用3D物體做到90%逼真度可能就很好了,甚至如果依賴于深度相機或者雷達感知,通用物體的操作,都未必需要紋理信息,但數字人這個領域,從誕生第一天,“保真度”就是毋庸置疑的事情,而且容錯率極低,做不到99分或100分,就是0分。人臉或者動作只要有一點點假,有一點點僵硬,就會令人不適。這也是為什么許多公司轉向卡通風格——預期管理更容易。卡通擬人化,比數字人擬真化,技術要求低很多,從用戶的角度,也會更容易接受。擬真數字人需要極高的技術門檻和資金投入,短期內難突破。雷峰網(公眾號:雷峰網)

      韓曉光:我補充一點,除了真實感,動態驅動也是巨大挑戰。一個靜態的3D數字人用處有限(除了3D打印),必須讓它動起來。而讓物體或人動起來,并且動得自然,目前都很難。


      03

      視頻生成模型是否面臨范式天花板?

      情緒價值的本質是語言,還是外觀?

      彭思達:我有個問題給宇亮。您認為情緒價值的本質是研究語言,還是外觀?如果要排序,哪個優先級更高?

      修宇亮:這不是非此即彼的問題。但如果排序,我認為語言(包括語調)本身可能更重要,其次是表情和體態。即使遮住臉或綁住手,我們也能通過語言傳達大量情緒,你如果有聽過氣泡音的深夜電臺主播,你就知道我在說什么。雷峰網)

      彭思達:接著一個更技術的問題:當前視頻生成模型是否也面臨范式天花板?例如圖像生成,StableDiffusion曾如火如荼,但如今被Nano Banana等基于語言-圖像統一建模的新范式超越。現在似乎還沒有論文很好地將視頻與文本/語言在高層語義上進行統一建模。要讓你設想的數字人有“靈魂”,必然需要這種深度融合。您怎么看?

      修宇亮:現在確實有一些視頻模型能根據音頻生成口型,但還不是真正的“形神兼備”。這種靈魂感往往體現在高頻細節上,比如微表情、語調的微妙變化,這些細節在像素層面可能都難以捕捉,在損失函數中也作用忽微,你看《建國大業》里面,老蔣聽到李宗仁當選總統的時候的那個微表情變化,這樣像素級的情感傳遞,能用 AI 準確生成嗎?建模這種極致的逼真度本身就是最后一公里的巨大挑戰。

      韓曉光:關于情緒價值,我甚至覺得,有時不提供具體形象可能更好。越具體、越真實,有時越會限制想象力。一個未知形象但聲音溫柔的角色,可能給人更多想象空間和情緒價值。

      修宇亮:情緒價值常常來自“反差感”和“預期違背”,而這與當前大模型“準確預測下一個詞”的訓練目標是相反的,語言模型是要準確預測下一個詞是什么,但脫口秀的工作邏輯不是這樣,要更高一級,他得在知道下一個詞最可能是什么的前提下,給出一個最不可能但又合理的輸出,這就是脫口秀的預期違背。如何讓以“捕捉人類直覺”聞名的大模型,去學習生成這種“反直覺但細想想又很合理”的內容,是我感興趣的,我甚至認為幽默本身,就是人類智能的一種體現,人類就是在預期違背中,去忤逆去突破,打破成見形成集體對事物全新的認知,脫口秀演員和科學家,本質上是一類人。

      趙昊:這或許是個好方向,比如讓數字人講脫口秀。另外,回到統一生成與理解的問題,像Nano Banana那樣的工作,將其擴展到視頻需要多少計算資源?

      彭思達:這需要一些基礎算法,比如視頻的Tokenization目前可能都沒做得很好。視頻理解和生成的需求也不同,一個可能需要處理一小時長視頻,另一個可能只生成5-10秒。如果Tokenization問題沒解決好,以目前的規模,上萬張GPU卡可能是起步。(雷峰網)

      趙昊:視頻的Tokenizer正是我2026年想賭的方向之一。最后,我正式向在座的各位,以及產業界、學術界的朋友發出倡議:我們是否可以共同建立一個世界模型的技術聯盟或發布一份倡議書? 當前單打獨斗似乎已觸及天花板,是時候團結力量,共同推進真正的世界模型了。

      今天的討論就到這里,感謝各位!(講座完整視頻,詳見鏈接:https://youtu.be/jqKVErw8CAI?si=eIgRaQwxuoSdcyWQ)



      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      圓桌論壇:關于“世界模型”突破方向的六個猜想 | GAIR 2025

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 國产一二三内射在线看片| 中文字幕在线播放| 肉色网站| 国产人妻人伦精品1国产丝袜| 久久久这里只有精品10| 人妻少妇精品一区二区三区| 亚洲自国产拍揄拍| 巴塘县| 精品无码一区二区三区水蜜桃| 中文字幕日本有码| 日韩无码人妻中文| 久久99精品久久久久久青青| 精品国产一区二区三区无码| 狠狠色噜噜狠狠狠狠97俺也去| 国产精品福利自产拍在线观看| av无码精品一区二区三区四区 | 国产免费永久精品无码| 寻乌县| 国产精品久久久国产盗摄| FUCK老富婆HD| 九月婷婷人人澡人人添人人爽| 69精品人人人人人| 色小说综合网| 免费国产高清在线精品一区| 日本免费人成视频播放试看| 2020久久国产综合精品swag| 亚洲不卡视频一区二区三区| 日本免费精品一区二区三区| 少妇被黑人到高潮喷出白浆| 亚洲欧美成人一区二区三区| 久久青草亚洲AV无码麻豆| 中国丰满少妇人妻xxx性董鑫洁 | 久久久久无码精品国产AV| 免费看视频的网站| 日本熟妇浓毛| 国产精品综合一区二区三区| 久久99热这里只有精品8| 国产成人精品久久综合| 伊人丁香五月天久久综合| 无码av免费精品一区二区三区 | 亚洲熟妇网|