<label id="jgr5k"></label>

<legend id="jgr5k"><track id="jgr5k"></track></legend>

^{<sub id="jgr5k"></sub>}

<u id="jgr5k"></u>

久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线

<abbr id="010a8"></abbr>

<table id="010a8"></table>

<nobr id="010a8"><optgroup id="010a8"></optgroup></nobr>

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發私信給鄭佳美

發送

0

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

本文作者：鄭佳美

2025-12-17 11:09

導語：港中文岳翔宇教授團隊提出統一多模態推理模型 OneThinker，驗證任務泛化能力。

在大模型邁向通用視覺智能的浪潮中，單一任務或單一模態的方法正面臨瓶頸。現實世界的視覺理解系統不僅要回答問題，還要理解動態視頻、定位事件、跟蹤目標、生成描述乃至進行復雜的邏輯推理，這要求模型具備綜合的跨任務和跨模態能力。

然而，現有方法多數依賴任務專化模型，難以實現不同視覺任務間的協同與知識共享，這不僅導致系統復雜度高，也限制了模型在綜合推理場景中的表現。

在這樣的行業背景下，香港中文大學多媒體實驗室（MMLab）與美團的聯合研究團隊提出了 OneThinker 多模態統一推理模型，并在論文中系統性地給出了答案。

不同于為每個視覺任務單獨設計模型，OneThinker 選擇了一條更激進的路線：將圖像與視頻中的問答、描述、時空定位、跟蹤和分割等任務統一抽象為“先推理、后作答”的通用形式，并通過多任務強化學習對模型進行整體優化。

這項工作不僅關注模型在單一基準上的性能提升，更試圖驗證一個更根本的問題，“是否可以通過統一的推理機制，讓一個模型同時具備多種視覺理解與推理能力，而不犧牲任何單項任務的表現？”

圍繞這一問題，研究團隊構建了大規模多任務數據集，引入改進的強化學習算法，并在圖像與視頻兩種模態上進行了系統而全面的實驗評測，為通用視覺推理模型的設計提供了具有參考價值的實證結果。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

論文地址：https://arxiv.org/pdf/2512.03043v2

從任務割裂到統一推理

為驗證 OneThinker 模型在多模態、多任務場景下的有效性，研究團隊在圖像與視頻兩種模態上，對多類典型視覺理解任務進行了系統評測。實驗內容涵蓋問答、描述、定位、跟蹤和分割等多個方向，旨在全面評估模型在不同任務類型和不同模態下的整體表現。

從整體實驗結果來看，OneThinker 在絕大多數視覺理解任務中均優于基礎模型以及多種現有開源方法，表現出較為穩定的性能優勢。這一結果表明，通過統一建模并引入多任務強化學習機制，模型能夠在不犧牲單任務性能的前提下，有效提升其綜合推理能力和跨任務適應性。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在圖像問答任務中，OneThinker 需要同時處理視覺內容理解、數學推理、邏輯推斷以及跨模態信息融合等多種復雜能力。實驗結果顯示，該模型在多項高難度圖像問答任務中均取得了明顯優于對比模型的表現，尤其在涉及數學推理、科學推理和多步驟邏輯推斷的問題上優勢更加突出。

上述結果表明，統一的推理框架不僅未削弱模型在復雜問答任務中的表現，反而通過多任務聯合訓練，使模型獲得了更強的抽象推理能力和跨領域泛化能力。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在視頻問答任務中，模型不僅需要理解單幀視覺信息，還需有效建模時間順序、事件演變以及長程依賴關系。實驗結果表明，OneThinker 在多項視頻問答任務中整體性能優于專門針對視頻推理設計的模型，尤其在長視頻推理和視頻數學推理等任務中表現更為突出。

這一結果說明，在統一訓練框架下，OneThinker 成功學習到了穩定而有效的時間建模能力，從而能夠在復雜視頻場景中進行連續推理和事件級理解。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在圖像和視頻描述任務中，OneThinker 需要生成與視覺內容高度一致、語義連貫且信息完整的自然語言描述。實驗結果表明，該模型在圖像描述和視頻描述任務中均取得了較為領先的性能，生成文本在準確性、完整性和語言質量等方面均有明顯提升。

這進一步說明，推理能力的增強有助于模型更有效地組織和整合視覺信息，從而生成結構更加清晰、邏輯更加合理的描述文本。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在時間定位任務中，模型需要準確判斷事件在視頻中發生的起止時間；而在空間定位任務中，則需要精確預測目標在圖像中的空間位置。實驗結果顯示，OneThinker 在這兩類任務中均取得了顯著性能提升，能夠更準確地理解事件發生的時間范圍以及目標的空間分布特征。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

進一步地，在同時涉及時間與空間信息的聯合定位任務中，OneThinker 同樣表現出較強的綜合建模能力，表明該模型能夠在統一框架下同時處理“何時發生”和“發生在哪里”這兩個關鍵問題。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在目標跟蹤任務中，OneThinker 需要在視頻序列中持續、穩定地定位同一目標。實驗結果顯示，該模型在跟蹤精度和整體穩定性方面均明顯優于對比方法，尤其在長時間序列中表現更加穩健。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在圖像與視頻分割任務中，OneThinker 能夠結合推理過程生成結構化提示，從而有效引導分割模型獲得更加精確的目標區域。實驗結果表明，該模型在細粒度視覺理解任務中同樣具備較強競爭力，說明推理機制能夠對感知類任務形成有效補充。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

此外，通過消融實驗可以發現，僅采用監督微調而不引入強化學習，會導致模型在多項任務上的性能明顯下降；同時，用傳統強化學習方法替代論文提出的 EMA-GRPO 算法，也會引起整體性能的退化。這進一步驗證了強化學習策略及其改進方法在統一多任務訓練中的重要作用。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

最后，在未參與訓練的新任務上，OneThinker 依然表現出較好的零樣本泛化能力，說明統一多任務訓練有助于模型學習更加通用和可遷移的視覺推理知識。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

讓推理成為訓練的核心

為支持統一多模態推理模型的訓練，研究中構建了一個大規模、多任務的數據集，覆蓋圖像和視頻兩種模態。這個數據集包含問答、描述、時間定位、空間定位、時空定位、目標跟蹤以及分割等多種視覺理解任務，數據來源廣泛，涵蓋多個應用領域和不同難度層級，從而為模型學習多樣化的視覺推理能力提供了充分支撐。

在此基礎上，研究團隊還進一步構建了一個帶有推理過程標注的子數據集，用于模型的監督微調階段。該子數據集中的推理過程由性能較強的模型自動生成，并經過嚴格的篩選與校驗，以保證推理鏈條在邏輯正確性和表達一致性方面的可靠性，為后續強化學習階段奠定了良好的初始化基礎。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在訓練過程中，所有任務均被統一表示為“先推理、后作答”的形式，即模型首先生成內部推理過程，再輸出最終答案或結構化結果。這種統一的任務表達方式使不同類型的任務能夠在同一訓練框架下進行聯合優化，同時也便于獎勵函數的自動計算與評估。雷峰網

對于感知類任務，模型需要輸出符合預定義格式的結構化結果，以確保評估過程具有良好的可重復性和穩定性，從而避免因輸出格式差異帶來的評價偏差。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

在完成監督微調之后，研究團隊引入強化學習進一步提升模型的推理能力。在訓練過程中，模型根據不同任務類型獲得相應的準確性獎勵和格式獎勵，從而引導模型生成既符合任務目標又滿足輸出規范的結果。

港中文 MMlab×美團新研究：僅用一個模型，應對多種視覺推理任務

針對多任務訓練中不同任務獎勵分布差異較大的問題，研究中提出了一種基于指數滑動平均的歸一化方法，使各類任務在訓練過程中能夠獲得相對平衡的優化信號，從而有效避免模型過度偏向少數獎勵分布較強的任務。

模型訓練在大規模 GPU 集群上完成，整體訓練流程分為監督微調和強化學習兩個階段。通過合理設置學習率、批大小以及視頻幀數上限，在保證訓練效率的同時，實現了穩定而有效的多任務聯合優化。

讓推理跨越任務邊界

從實驗結果可以看出，統一的多模態推理模型在性能層面具有良好的可行性和有效性。這一發現表明，將不同視覺任務整合到同一模型中進行建模，并不會削弱模型在單一任務上的表現，反而能夠在整體上提升其推理能力。雷峰網(公眾號：雷峰網)

同時，實驗也顯示，強化學習并非只適用于語言推理任務，在引入合適的建模方式后，同樣可以有效作用于視覺感知和時序理解等多模態場景。

在這一背景下，OneThinker 所采用的模型設計思路展現出一定的普適性。通過統一接口、統一訓練流程以及統一優化策略，不同任務和不同模態之間得以共享推理能力和結構性知識，從而減少了重復建模的需求。這種設計范式為通用視覺推理模型的構建提供了一條相對清晰且具有復用價值的技術路徑。

從應用層面來看，統一的多模態推理模型也更貼近真實場景的實際需求。在諸如自動駕駛、智能監控以及機器人感知與決策等任務中，系統往往需要在同一框架下同時完成理解、推理和定位等多種功能。相比依賴多個獨立模型的方案，統一模型在系統復雜度控制和任務協同方面具有更大的潛在優勢。

總體而言，這些實驗結果提示，多模態通用模型的發展方向不應僅停留在模型規模的擴展上，而更值得關注的是任務建模方式的統一、推理機制的合理設計以及訓練策略的協同優化。

這些方面的探索為后續多模態通用智能系統的研究提供了有益的參考。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

分享：

相關文章

鄭佳美

編輯

發私信

當月熱門文章

最新文章

熱門搜索

谷歌 AI 馬斯克移動應用喬布斯印度增強現實硬創公開課共享單車奔馳 Nexus 7

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

主站蜘蛛池模板：精品美女少妇内射毛片| 色姑娘综合网| 制服丝袜另类专区制服| 内射夜晚在线观看| 新干县| 久久久久久久人妻丝袜| 婷婷综合亚洲| 亚洲av国产成人精品区| 久久精品国产99国产精品导航| 九九热色| 肥女五十路| 久久久熟妇熟女| 国产精品人成视频免| 精品人伦一区二区三区潘金莲| 霞浦县| 一个人在线观看免费中文www| 国产精品被熟女| 亚洲色鬼| 超碰成人人人做人人爽| 国产内射性高湖| 亚洲国产成人字幕久久| 久久综合五月丁香六月丁香| 国产乱人对白| 国产野战AV| 东京热A?V无码| 巨乳无码| 欧美久久久久中文字幕| 国产jlzzjlzz视频免费看| 亚洲综合一区二区国产精品| 久久久噜噜噜久久| 97人人模人人爽人人| 国产愉拍精品手机| 人妻人人操| 国产在线精品一区二区三区| 久久福利影院| 亚洲人一区| 亚洲精品乱码| 亚洲午夜香蕉久久精品| 亚洲国产成熟视频在线多多| 国产成人精品白浆免费视频试看| 久久久久成人网站|

<cite id="tpucq"></cite>