^{<sub id="jgr5k"></sub>}

美團上線首個開源并可體驗的“重思考”模型，工具調用能力登頂開源SOTA

本文作者：徐咪

2026-01-16 14:32

導語：作為LongCat-Flash-Thinking模型的升級版，LongCat-Flash-Thinking-2601現已開源。

1月16日，美團LongCat官微消息，作為LongCat-Flash-Thinking模型的升級版，LongCat-Flash-Thinking-2601現已開源。新模型在Agentic Search（智能體搜索）、Agentic Tool Use（智能體工具調用）、TIR（工具交互推理）等核心評測基準上，均達到開源模型SOTA水平。

值得一提的是，該模型在工具調用的泛化能力上優勢尤其明顯，在依賴工具調用的隨機復雜任務中，性能表現超越了Claude-Opus-4.5-Thinking，可大幅度降低真實場景下新工具的適配訓練成本；同時，新模型支持“重思考”模式，可同時啟動8個“大腦”執行任務，確保思考周全、決策可靠。

目前，該功能可在 https://longcat.ai網站免費體驗。

“重思考”功能全新上線智能體工具調用能力登頂開源 SOTA

據介紹，全新推出的“重思考”模式，已讓“龍貓”學會了“深思熟慮”再行動。

具體來看，當遇到高難度問題時，新模型會把思考過程拆分成“并行思考”和“總結歸納”兩步進行：

并行思考階段，與人類面對難題會同時嘗試多種解法相似，“重思考”模式下的模型，會在保證思路多樣性的同時，獨立梳理出多條推理路徑尋找最優解；總結歸納階段，則會對多條路徑進行梳理、優化與合成，并將優化結果重新輸入，形成閉環迭代推理，推動思考持續深化。

除此之外，LongCat團隊在新模型中加入了額外的強化學習環節，針對性打磨模型的總結歸納能力，從而讓LongCat-Flash-Thinking-2601實現了“想清楚再行動”的結果。

經過全面嚴謹的評估，LongCat-Flash-Thinking-2601模型在編程、數學推理、智能體工具調用、智能體搜索等維度表現優異：

美團上線首個開源并可體驗的“重思考”模型，工具調用能力登頂開源SOTA LongCat-Flash-Thinking-2601的平均性能比較（資料圖）

· 編程能力：LongCat-Flash-Thinking-2601在LCB評測中取得82.8分，OIBench EN 評測獲47.7分，成績處于同類模型第一梯隊，代碼基礎能力扎實。

· 數學推理能力：在開啟“重思考”模式后表現突出，LongCat-Flash-Thinking-2601在 AIME-25 評測中獲100.0分（滿分），IMO-AnswerBench中以86.8分達到當前SOTA。

· 智能體工具調用能力：在τ2-Bench評測中拿到88.2分，VitaBench評測中獲得29.3分，均獲得開源SOTA水平，在多領域工具調用場景下表現優異，適配實際應用需求。

· 智能體搜索能力：在BrowseComp任務中取得73.1分（全模型最優），RW Search 評測獲79.5分，LongCat-Flash-Thinking-2601具備強勁的信息檢索與場景適配能力，達到開源領先水平。

為了更好測試智能體模型的泛化能力，團隊還提出了一種全新的評測方法——通過構建一套自動化任務合成流程，支持用戶基于給定關鍵詞，為任意場景隨機生成復雜任務，并為每個生成的任務配備對應的工具集與可執行環境。由于這類環境中的工具配置具有高度隨機性，該方法可通過評估模型在該類環境中的性能表現，衡量其泛化能力。

實驗結果表明，LongCat-Flash-Thinking-2601在絕大多數任務中保持領先性能，印證了其在智能體場景下優秀的泛化能力。

技術解密：從“靶場”到“實戰”的訓練哲學

對于新模型的技術思路，LongCat團隊解釋稱，傳統智能體往往僅在數個簡單模擬環境里訓練，這帶來的問題就像只在靶場訓練的士兵，到了真實“戰場”可能會掉鏈子。而基于“環境擴展+多環境強化學習”核心技術，團隊為模型打造了多樣化的“高強度練兵場”，構建了多套高質量訓練環境，并在每套環境中集成60余種工具形成密集依賴關系圖譜與復雜聯動，支撐起高度復雜的任務場景。實驗也證明，訓練環境越豐富，模型在未知場景中的泛化能力越強。

得益于這套方案，LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調用等核心基準測試中穩居前列。尤其在復雜隨機的分布外任務中，性能優于 Claude-Opus-4.5-Thinking。

此外，LongCat團隊針對性擴展自研強化學習基礎設施，在保留原有高效異步訓練特性的基礎上，實現大規模多環境智能體的穩定并行訓練，通過均衡搭配多環境任務、按難度與訓練進度智能分配算力，最大化提升訓練效率與資源利用率；該團隊還從復雜度、多樣性雙維度嚴控訓練任務，配套專屬數據庫及優化方案，杜絕模型“偏科”與訓練漏洞，讓這套全流程方案持續賦能模型，使其穩居智能體能力第一梯隊。

該團隊還表示，現實世界的智能體環境充滿不確定性，API調用失敗、返回異常信息、觀測數據不完整等“噪聲”問題，極易導致模型決策失誤。為此，團隊在訓練數據的過程中主動注入多類噪聲，模擬API的調用失敗、返回錯誤信息、數據缺失等場景，并用課程學習的方式循序漸進地進行模型訓練，在訓練過程中逐步增加噪聲的類型與強度——類比教新手騎車，首先會讓其在平坦路面做練習，等技能成熟后再逐步增加路面的復雜度。

美團上線首個開源并可體驗的“重思考”模型，工具調用能力登頂開源SOTA 帶噪聲/無噪聲評測集下的模型表現對比（資料圖）

經過系統化的抗干擾訓練，LongCat-Flash-Thinking-2601（Training w/Noise組）擁有了極強的環境適應能力，在復雜場景中，也能穩定發揮、高效完成任務。

雷峰網版權文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

徐咪

編輯

發私信

當月熱門文章