<label id="jgr5k"></label>

<legend id="jgr5k"><track id="jgr5k"></track></legend>

^{<sub id="jgr5k"></sub>}

<u id="jgr5k"></u>

久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线

您正在使用IE低版瀏覽器，為了您的雷峰網賬號安全和更好的產品體驗，強烈建議使用更快更安全的瀏覽器

此為臨時鏈接，僅用于文章預覽，將在時失效

人工智能正文

發私信給鄭佳美

發送

0

強化學習之于 AI Agent，是靈魂、還是包袱？

本文作者：鄭佳美

2025-04-23 10:57

導語：從 Workflow 到通用智能，還差著代際距離。

自主決策能力是 Agent 受到重視，并被稱為 AI 時代“新基建”原因。從這個角度看，Workflow 似乎做不出真正的通用 Agent。

而要談真正具備決策能力和自我意識的 Agent，其實要從 AlphaGo 的問世說起。這是 AI 首次展示出非模板化、非規則驅動的智能行為。而 AlphaGo 也靠著深度神經網絡與 RL，進行自我對弈與自我優化，最終擊敗人類頂級棋手，敲響了 Agent 時代的第一聲鑼。

強化學習之于 AI Agent，是靈魂、還是包袱？

從某種程度上說，Devin 可以算是通用 Agent 的濫觴。它首次把 AI 的編碼能力、任務執行與反饋機制整合成一個完整的閉環，為后續產品提供了清晰的范例。

后來，Manus 延續了 Devin 的工作流思路，并提出 “More Intelligence” 的理念，不再滿足于簡單地串聯工具，而是試圖通過任務拆解、自我反思、模型調度等方式，讓 Agent 具備更強的理解力和適應能力。而 Genspark 則走了一條更加模塊化的路線，把每個任務步驟都變成一個可組合的部分，讓開發者可以像拼樂高一樣，快速搭建出屬于自己的 Agent 系統。

但在當前主流關于“如何構建 Agent”的技術路徑中，有兩個被廣泛認可的共識：一是擁有基礎模型是構建 Agent 的起點，二是 RL 是賦予 Agent 連貫行為和目標感的“靈魂”。它決定了 Agent 如何理解環境反饋、進行長期規劃，并作為連接 Perception 與行動 Action 的關鍵橋梁。

反觀 Manus，由于缺乏底層模型能力和算法能力的支撐，它的系統結構相對開放，十分容易被模仿，甚至有團隊在三天內就實現了復制，也因此被一些批評者視為“套殼”。不過從 AI 科技評論的角度看，這種批評也有失公允，畢竟 Manus 在產品設計和任務編排上依然有不少可圈可點的創新。

但“Agent 不能僅靠 Workflow 搭建”的看法，已經逐漸成為業內的共識。正是在這樣的主流認知下，那些始終堅持深耕強化學習的團隊，反而在新一輪技術演進中走到了更前沿的位置。

沒有 RL 的 Agent，只是在演戲

Pokee AI 創始人、前 Meta AI應用強化學習團隊負責人朱哲清，就是一位對 RL 始終堅定信仰的“長期主義者”。

朱哲清曾向 AI 科技評論表示，RL 的核心優勢在于目標驅動，它不是簡單地響應輸入，而是圍繞一個清晰目標，進行策略規劃和任務執行。而一旦缺少了 RL 的參與，Agent 就容易陷入“走一步看一步”的模式，缺乏內在驅動力，最終難以真正勝任復雜任務的完成。

他認為真正的 Agent 的核心在于其執行能力與影響力。如果一個系統只是單純地生成內容或文件，那它更像是一個普通的工具，而非真正的 Agent。而當它能夠對環境產生不可逆的影響時，它才具備了真正的執行性?？偟膩碚f，只有與環境發生深度交互，且產生的影響不可逆，才能稱之為真正的 Agent。

強化學習之于 AI Agent，是靈魂、還是包袱？

他表示帶有 Workflow 的產品，實際上是發展的初期形態。雖然它有明確的目標和流程，但仍需要人為干預，這樣的系統仍處于早期階段。真正的 Agent 不僅僅是按照預設的工具來操作，而是能夠根據給定目標，自主選擇和使用工具完成任務。

在他的認知中，Agent 的發展可以分為多個階段。早期的例子，比如 Zapier 的工作流系統，更多是模擬人的決策行為，但并非真正智能的 AI Agent。之后又有了像 LangChain 這種類拖拽流的可組合型的任務執行模式，逐步向系統化過渡。到了現在，用 Claude 去做 MCP 的時候雖然工具的調用和規劃能力都比較有限，但已經開始向更高水平的 Agent 演進。

而下一階段的 Agent，將不再需要用戶或開發者了解具體的工具或技術細節。用戶只需簡單提出任務要求，Agent 就能夠根據目標自動選擇工具，并規劃解決路徑。此時，整個過程的自主性與智能性將達到前所未有的水平，Agent 也將真正實現從工具到智能體的轉變。

他坦言，RL 算法確實存在諸多挑戰。比如線下訓練時，使用的數據集與真實世界往往存在巨大差異，導致模型一旦從線下遷移到線上，就可能“水土不服”，再比如操作動作空間過大時，RL 系統很難穩定泛化，效率與穩定性之間的平衡始終是個難題。

但即便如此，朱哲清仍然堅持自己的判斷：無論是 o1 還是 Rule-based reward model等模型范式的出現，RL 始終是站在技術舞臺上的“隱形主角”。雖然它未必是 AGI 的唯一通路，但在邁向真正 “Superhuman Intelligence” 的過程中，RL 是一個無法繞開的技術節點。

在他看來，相比那些過于模糊、甚至略顯理想化的 AGI 概念，能夠超越人類在某些任務上的智能體，才是一個更實際、可度量的目標。RL，就是驅動這一目標落地的關鍵引擎。

強化學習之于 AI Agent，是靈魂、還是包袱？

沒有 RL 的 Agent，也能往前走

然而，凡事都有兩面。有人堅信 RL 是 Agent 的核心驅動力，也有人對這個觀點提出質疑。

香港科技大學（廣州）博士生，DeepWisdom 研究員張佳釔就屬于對 RL 持保留態度的那一派。他追求跨環境的智能體，在與 AI 科技評論對話時表示： DeepWisdom研究員張佳釔認為，現有RL技術雖能在特定環境中提升Agent能力，但這本質上是“任務特化”而非真正的智能泛化。在實現跨環境數據的有效統一表征之前，RL面臨的跨環境學習困境難以突破。

他認為利用 RL 對語言模型進行環境內優化本身沒有問題，但問題在于，目前很多研究使用的仍是能力較弱的基礎模型（base model），即便訓練到“最優”，也只是對單一環境的適配，缺乏跨環境的泛化能力。在他看來，“使用 RL 訓出一個適應某個環境的 Agent 已經很近，但距離訓出通用跨環境的 Agent 還有很長的一段路要走?！?/p>

同時他也并不完全認同“沒有 RL 就沒有 Agent”這一觀點。他表示業界對 RL 的“過度崇拜”掩蓋了一個關鍵事實：OpenAI Deep Research 的成功更多依賴于其強大的基礎模型 o3 早期版本提供的先驗知識，而非只有 RL 本身。

雖然近期的學術研究表明RL確實能提升較弱基礎模型的能力，但提升幅度有限，這也正是學術界和初創公司面臨的核心挑戰——如何在缺乏頂級基礎模型的情況下，通過建立持續有效的 RL 數據收集流程來縮小與巨頭的差距。

強化學習之于 AI Agent，是靈魂、還是包袱？

不過，張佳釔也并不全盤否定 RL。他表示 RL 的局限性更多是技術階段的產物，且目前尚未出現一個能夠有效解決泛化問題的算法。因此，RL 的問題不完全是方法論本身，而是當前技術仍處于早期階段。

除此之外，他還向 AI 科技評論表示，更期待能夠看到一個跨環境泛化的模型（比如 UI-TARS-1.5） —— 在任何環境下都能執行不同任務，而不是針對某個環境進行“定制化適配”。在他看來，這樣的模型可能在未來出現。一旦實現，“Agent 就只需要在模型上做個簡單系統就可以了?！?/p>

在整體架構上，他也給出了他對 Agent 演化路徑的劃分 —— 他將 Agent 的發展過程分為六個階段：

第一階段：構成 Agent 系統的最底層節點，語言模型被調用來執行基本任務；

第二階段：在底層調用節點基礎上，構建出固定的 agentic workflow，每個節點的角色與職責預設明確；

第三階段：底層組件演化為具有自身邏輯和動作空間的 autonomous agent；

第四階段：多個 autonomous agents 通過主動交流機制構建系統，形成 Multi Autonomous Agent Systems（MAS）；

第五階段：底層組件擁有與人類一致的環境空間，成為Foundation Agent，開始協助人類跨環境完成任務；

第六階段：Foundation Agent 基于人類目標與其他 Agent 產生聯系，演化出具備自主協作能力的Foundation Agents 網絡。真正實現以人類目標為核心的多智能體社會，達到Agent與人類共生的范式。

而目前大多數 Agent 產品公司仍停留在第二到第三階段之間，尚未邁過第四階段的門檻，而“最大的瓶頸在于當前 Agent 仍嚴重依賴人類預設的 workflow 節點，缺乏真正的自主性?！?/p>

在張佳釔看來，當前大多數 Agent 產品仍停留在第二到第三階段之間，尚未邁過第四階段的門檻。突破當前瓶頸的關鍵在于使 Agent 擺脫人類預設經驗的束縛，通過自主探索獲取跨環境經驗并學會與各類專業 Agent 協作。

強化學習之于 AI Agent，是靈魂、還是包袱？

但在 Follou 創始人謝揚來看，這個問題又有所不同。

他認為 Agent 和工作流自動化是可以組合起來的。在他眼中，Agent 應該是一些可以協助人類提升生產力的工具，而并非一個獨立的個體。它的價值不在于模擬人類，而在于高效協助人類，把復雜的任務拆解、執行，并最終完成目標。

在謝揚看來，很多人過于執著于“Agent 是否像人”這個問題，而忽略了它真正的應用意義。他更關心的是，Agent 是否真的能在現實中幫人把一件事做完，無論是搜索信息、分析數據，還是調度工具，Agent 也不應該成為一個新的“入口”或者“平臺”，而應該成為一種嵌入式能力，真正融入人類的工作流程之中，成為“能執行的思考”和“能學習的工具”。

在這個過程中，他并不否認“自主性”的重要性，尤其是在環境感知和情境理解上的價值。但在他看來，衡量一個 Agent 是否真正有生命力，更關鍵的標準在于它是否“可組合”“可調度”。只有當 Agent 能夠被靈活地組織在不同的垂直任務中，支持模塊化的能力組合，并與人類實現高效協同，它才真正具備長期應用的可能性。

基于這樣的理念，Follou 也構建了一整套融合 Agent 與工作流的架構體系，他們將瀏覽器（Browser）、智能體（Agent）和工作流自動化（Workflow Automation）等核心組件融合在一起，瀏覽器負責訪問和渲染 Web 內容，智能體負責基于 LLM 理解上下文和做出決策，而工作流自動化則執行具體任務，調用 API、插件或腳本。

在謝揚看來，這種結構并不是技術炫技，而是一種“實用主義”的選擇。他更關心的是，Agent 是否真正能在現實中把一件事做完，而不是停留在看起來很聰明的幻覺里。

強化學習之于 AI Agent，是靈魂、還是包袱？

在 RL 信徒與質疑者的觀點交鋒中，我們能看到一個逐漸清晰的趨勢：Agent 的演化已不再是單一范式的勝利，而是多種技術路線的協同博弈。歸根到底，構建 Agent 從來不是拼哪一種技術最炫，而是拼能不能把每一塊基礎能力連接成一個真正可運行的系統。

從理解指令，到規劃路徑、感知反饋，再到調用外部工具完成任務，每一環都需要精密協作、形成穩定閉環。模型能力再強，如果沒有目標規劃和執行機制，也只能停留在“懂你在說什么，但卻做不了任何事”的階段，而即便策略再優秀，如果基礎模型跟不上、感知不準確，也會陷入“會動但不聰明”的窘境。

所以，構建 Agent 不是“拼模型”或“賭范式”的零和游戲，而是一次工程能力、系統設計和認知理解力的多維較量。

RL 可以塑造目標感，模型提供理解力，外部接口延展執行力，三者缺一不可。而如何把這些能力組合在一起，真正打造成一個可泛化、可遷移甚至是可迭代的系統，才是 Agent 走向通用市場的重要一步。

一個新的未來

而現在每天被人們掛在嘴邊的 Agent，其實最早在人工智能領域是一個非常寬泛的概念：只要一個系統具備感知和決策能力，它就可以被稱為 Agent。

但隨著 Copilot 類產品的興起，Agent 的概念又被重新定義：是否需要人介入決策，成為劃定 Agent 邊界的關鍵標準。如果一個系統可以在沒有人參與的前提下獨立完成決策和執行，那它就屬于真正意義上的 Agent。

在這個標準下，其實我們今天看到的大部分 AI 應用都可以被視為某種形式的 Agent。比如在編程領域，一個 AI 模型可以完成代碼生成、編譯、測試、修改的循環；在游戲中，AI 控制的角色可以自主應對環境變化，失敗也不會造成真實世界的損失。這些任務雖然復雜，但由于風險較低、反饋明確，所以系統即使出錯，問題也不大。

強化學習之于 AI Agent，是靈魂、還是包袱？

但如果朝著通用 Agent 的方向發展的話，那么最大的衡量標準，就不再是語言生成的能力或者執行速度，而是任務解決的成功率。從系統架構上來看，著往往取決于兩種關鍵的設計：

如果是串行的 Agent 架構，即由一個上層 Agent 發出決策，再調度多個下層 Agent 執行子任務。如果是在這種模式下，調度層的指揮能力和下層的配合能力就直接決定了任務是否能夠高效完成。

而如果是并行的 Agent 架構的話，則是需要多個智能體在同一時間共同協作完成任務，這就需要系統從頭到尾都不能出錯，因為就算每個環節的成功率都能夠達到七八成，但最后的整體成功率也會指數級下降。

因此，雷峰網認為，要構建真正強大、可落地的通用 Agent，必須確保系統的穩定性、容錯機制和跨模塊協同能力，否則就難以勝任復雜任務。這便是目前通用 Agent 面臨的主要問題。

而通用 Agent 一旦能夠落地，它將會讓大家的邊際成本顯著下降，同時望成為繼 PC 操作系統和手機系統之后的新一代人機交互入口。這一點類似于當年微軟和英特爾組成的“Wintel 模式”，即操作系統帶來人機交互，芯片提供計算能力，二者結合直接引爆整個生態。同理，今天的蘋果也憑借自研的 iOS 和芯片稱霸移動端，而安卓陣營與高通的配合也形成了另一套強大體系。

雷峰網(公眾號：雷峰網)認為，順著這個思路去想，在通用 Agent 的未來中，很可能會誕生類似的生態閉環：AI 操作系統 + 模型原生芯片，進而催生出下一代 Wintel 模式。到時候，我們或許將看到專為 Agent 設計的模型級芯片，亦或者是 AIPC 的興起，共同見證整個智能交互方式的范式躍遷。

雷峰網原創文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

分享：

相關文章

鄭佳美

編輯

發私信

當月熱門文章

最新文章

熱門搜索

小米雷軍游戲 AlphaGo ADAS Kindle 華為云新基建谷歌眼鏡大眾博世

為了您的賬戶安全，請驗證郵箱

您的郵箱還未驗證,完成可獲20積分喲！

重發郵箱修改郵箱

請驗證您的郵箱

立即驗證

完善賬號信息

您的賬號已經綁定，現在您可以設置密碼以方便用郵箱登錄

立即設置 以后再說

主站蜘蛛池模板：鲜嫩高中生无套进入| 人人妻人人爽人人澡av| 日韩精品久久久久久久电影蜜臀 | 亚洲AV综合色区无码另类小说| 无码专区人妻系列日韩精品| 使劲快高潮了国语对白在线| 成人av一区二区三区| free性开放小少妇| 日本熟妇浓毛hdsex| 亚洲人午夜精品射精日韩| 日本国产制服丝袜一区| 国产欧美精品aaaaaa片| 夜夜欢天天干| 99久久国产综合精品1| 门国产乱子视频观看| 乱色熟女综合一区二区三区 | 国产精品永久免费成人av| 亚洲一区二区无码影院| 欧美乱子伦xxxx12| xxx综合网| 妇女性内射冈站hdwww000| 高清久久精品亚洲日韩Av| 国产麻豆精品在线观看| 中文字幕熟妇无码专区| 欧洲AV在线| 国产在线观看网址不卡一区| 天天综合网网欲色| 成人午夜福利视频后入| 国产精品久久久久影院老司| 中文人妻无码一区二区三区在线 | 日本久久久久| 簧片无码| 国产第99页| 亚洲第一成人会所| 欧美日韩另类国产| 69视频免费看| 天堂v亚洲国产v第一次| 男人天堂2024手机在线| 久久精品国产亚洲AⅤ无码| 久久人精品| 婷婷综合久久|

<ruby id="bfrl8"></ruby>

<ruby id="bfrl8"></ruby>

^{<blockquote id="bfrl8"></blockquote>}