<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給劉欣
      發送

      0

      汪軍對話 Rich Sutton:大模型在一定程度上分散了我們對智能理解的注意力

      本文作者: 劉欣   2025-09-28 11:10
      導語:大模型缺乏目標和獎勵,RL 才能驅動智能理解。


      在剛剛落幕的 RL China 2025 開幕式上,倫敦大學學院(UCL)汪軍教授與圖靈獎得主、“強化學習之父” Richard Sutton 展開了一場跨越地域的思想對話,從強化學習(RL)的學科根基出發,共探智能的本質與未來方向。

      汪軍教授深耕智能信息系統領域多年,現任 UCL 計算機系教授,Turing Fellow,是華人強化學習社區 RL China 的聯合發起人。RL China 是由全球華人學者與強化學習相關從業者共同發起的非盈利性學術與技術交流平臺,致力于推動強化學習及決策智能領域的研究、應用與教育。

      Richard Sutton 是強化學習領域的奠基者,這位美國計算機科學家現任阿爾伯塔大學計算機學教授,因提出時序差分學習、策略梯度方法等核心理論,被公認為 “現代強化學習之父”。2024 年,他斬獲計算機領域最高榮譽——圖靈獎,這一獎項不僅是對其在算法創新與基礎研究中突出貢獻的認可,更標志著強化學習作為 AI 核心分支的價值與影響力,以及整個 RL 研究社區為人工智能發展奠定的基礎。

      Richard 在對話中坦言:當前人工智能行業的快速擴張雖改變了人們從事的工作與生活感知,卻也在一定程度上分散了對基礎科學的關注,這對科學發展來說并非真正有益。我們必須對此進行反擊,努力將目光投向理解思維如何運作、智能如何運作這一重大目標。

      在他看來,大模型并非真正理解智能的途徑。LLM 確實很有用,但它們在運行過程中是沒有學習能力的,一旦模型被訓練完成,它們就不再學習了。事實上,它們也無法學習,因為它們沒有目標,沒有獎勵。它們只是在模仿人類,而人類是有目標的,但 LLM 本身沒有目標,也無法判斷自己說的話是對是錯。

      人類語境中的目標與意圖一般被理解為:對一種名為 “獎勵” 的標量信號的累積和的期望值進行最大化,這是對智能問題一項極具價值的簡化與提煉。要知道,智能就是與世界交互以達成目標,而你需要某種方式來定義這個目標。所以,在強化學習的框架下,Richard 建議:所有目標都可以被解讀為 “獎勵”,一種單一的標量數值。

      正因如此, Richard 非常重視從經驗中學習,他認為,從某種意義上來說,RL 的核心在于,它最強大的思維方式來自于從經驗中學習的理念。而且既希望直接從經驗中學習,也希望間接從經驗中學習,讓自己的經驗能形成一個世界模型,然后利用這個模型來規劃行為上的改進。這種規劃就類似于推理,人們僅憑對世界的認知就能想清楚該做什么。

      而且智能的基本原則有限,梯度下降在其中至關重要。但行業熟練后很容易陷入只用梯度下降,而忽視其他可能性的局限中。實際上梯度下降、時序差分學習、搜索都是智能的基本原則的其中之一,其中搜索尤為關鍵。隨機權重是搜索的核心要素,它能讓模型探索更多可能性。因此,梯度下降算法中需要融入這種搜索成分,把搜索和梯度下降結合起來,其威力會遠大于梯度下降單獨使用。

      以下是此次對話的精彩分享,AI 科技評論進行了不改原意的編輯整理:

      01 對智能的思考

      汪軍:可以簡單介紹一下你 2023 年創建 Openmind Research Institute(開放思維研究所)的背景嗎?以及你想要實現的使命是什么?

      Richard Sutton:Openmind  Research Institute 的使命是理解智能,并與世界分享這種理解。嘗試與世界分享的原因是,人工智能已經變得有點地緣政治化,各個國家都在試圖主導這個領域。當然,許多不同的政治陣營之間存在競爭,尤其是中美。任何一方都不應該占據主導地位。

      理解智能是對人類思維理解的根本性探索,每個人都應該參與其中。這主要是一項科學探索,而不是為了追求產業發展。大家都應該嘗試面對思維的根本問題,以及如何理解它、如何讓它更好地運作,這樣我們才能更好地運作,才能理解我們是什么,以及我們在宇宙中扮演什么角色。

      Openmind Research Institute 肯定是從小事做起,它是一個實驗室,中心在加拿大阿爾伯塔省,但之后還會啟動一個以新加坡為中心的新實驗室。這樣一來,研究范圍就遍布全球了,每個實驗室都會有一定數量的研究員,通常是剛獲得博士學位但想要從事基礎研究和人工智能的年輕人。

      汪軍:這是要必須做的,而且非常及時,因為現在有些研究社區甚至不發表論文。這談不上絕對的好壞,這些算法本質上是特定時期的研究成果,問題在于,我們似乎已經丟失了當初驅動其誕生的發展勢頭,這種狀態對整個研究學界來說是極不健康的。(Openmind Research Institute)這個想法讓一切都變得開放和獨立,讓科學回歸到純粹的科學好奇心,這很關鍵。我很高興現在一些基礎模型開始開源或開放參數,情況變得越來越好了,希望 Openmind  Research Institute 能在中國設立分支機構,鼓勵年輕人,讓年輕的研究人員回歸真正的科學追求,而不只是追求產業進步。

      我在 RL China 舉辦過一些會議研討會,已經舉辦了好幾年,還有這次夏令營。大多數參會者都是年輕的研究員,尤其是在 RL 領域,以及從機器人技術到多智能體(Multi-Agent)系統,再到核心領域。你對年輕的研究人員有什么想說的嗎?或者認為他們應該思考的根本問題是什么?

      Richard Sutton:有一點很關鍵:要著眼于長遠目標

      人工智能不是今年或明年就能實現的,它可能會在這個十年或下個十年完成,所以這是一個長遠目標,它就像一場馬拉松,而不是短跑比賽。尤其在人工智能的 RL 領域中,情況比較特殊:一方面,我們面臨著一個基礎性的科學難題;但另一方面,這個領域又已經形成了龐大的產業,有巨額資金源源不斷地投入到各類應用中。單看人工智能這個行業的確十分龐大,它也確實改變了人們的感受以及人們可以從事的工作,但同時也在某種程度上減少了對基礎科學的關注

      它更像是一場快速的游戲,你可以很快就賺點錢退出。這對科學發展來說并非真正有益。

      從宏觀角度來看,科學取得如此大的成功是件好事,這為該領域帶來了大量資金。但作為一門科學,它在某種程度上改變了這個領域的性質,我們必須對此進行反擊,努力將目光投向理解思維如何運作、智能如何運作這一重大目標,并不斷解決問題。既要著手解決那些我們已經知道該怎么做的問題,更要持續關注那些我們還不知道該如何解決的問題。工業界傾向于關注我們已知的、我們今天能做什么;而科學界則關注我們尚不知道如何做的事情,是什么阻礙了我們深入理解。

      汪軍:沒錯,我認為在中國也有類似的情況。產業方的參與在某些方面確實非常有益,但另一方面,它在某種程度上會推動甚至是迫使研究 (尤其是學術研究)聚焦于一些短期問題,這未必是好事。比如大模型(LLM),需要進行預訓練,還需要大量的計算資源。這確實是一部分人能做的事,但對于整個研究界來說,可能無法都投入其中。我們真正應該關注的是超越 Transformer 的東西,超越你之前提出并研究過的重要學習領域。

      Richard Sutton:讓我再次強調一下關于 LLM 的討論,LLM 在人工智能產業中占據主導地位,但我確實覺得它對科學造成了巨大的干擾。

      所以我想對各位說的是,雖然 RL 可以作為 LLM 的一部分——這沒問題,而且 LLM 確實是一種與互聯網所有知識進行交互的有效方式,它有很多優點——但它在很大程度上分散了我們對理解智能問題的注意力。

      我們必須把它放在一邊,不要走這條路。學生們對 LLM 的關注和熱情,很難不想在此基礎上繼續研究,但它(大模型)并非真正理解智能的途徑。雖然 LLM 確實很有用,但它們在運行過程中是沒有學習能力的,機器學習確實被用于創建它們,但一旦模型被訓練完成,它們就不再學習了。

      事實上,它們也無法學習,因為它們沒有目標,沒有獎勵。它們只是在模仿人類,而人類是有目標的,但 LLM 本身沒有目標,也無法判斷自己說的話是對是錯。

      我有一句用于人工智能研究的口號,如果在網上搜索“Rich's slogan”之類的詞,就可以找到。其中一個核心口號就是:你不應該要求你的人工智能知道一些它自己都無法判斷正確的事情。Agent(智能體)必須能夠驗證它的知識,LLM 無法驗證它們的任何知識,除了人類會說它正確之外,但這種正確沒有任何意義。

      那么該如何驗證你的知識呢?可能有一種行為方式:如果它沒有得到獎勵,你就知道這不是一個好的行為方式,這就給了你獎勵,給了你一個目標,或者你可能有一個世界的預測模型,你可能會預測某事會發生,然后從經驗中看到它確實發生了。但 LLM 不會這樣做,它們可能會說我預測了某事,但大模型無法將其與實際發生的事情進行比較,因為大模型沒有持續的經驗流。

      所以我非常重視從經驗中學習,從某種意義上來說,RL 的核心在于,它最強大的思維方式來自于從經驗中學習的理念,這種理念實際上可以追溯到人工智能誕生之初

      艾倫·圖靈有一篇書面演講提到:我們想要的是一個能夠在1947年、甚至在人工智能出現之前,從經驗中學習的機器。我們現在依然渴望這樣的機器,這仍然是核心,也是我們應該努力的方向,這就是 RL 的意義所在,而這一點正是 LLM 所完全缺乏的。

      02 強化學習的突破路徑

      汪軍:你對經驗(experience)的定義是什么?我認為圖靈在撰寫那篇論文時有著他自己對經驗的理解;另外,像 AlphaGo 那樣,通過自我對弈生成一系列軌跡數據,這也算一種經驗,而現在情況發生了什么變化呢?你認為如今的經驗和過去一樣還是有所不同了?

      Richard Sutton: 我認為經驗這一概念非常自然,并且隨著時間推移一直以來都是如此。你的經驗并非某種怪異、模糊或難以捉摸的東西,它就是你在世界中生存時接收到的真實數據。你采取行動、做各種事情,然后看到結果——這些就是你的觀察,同時你也會感受到獎勵。這三組時間序列共同構成了你的經驗。

      實際上,至少從 agent 的視角以及在 RL 的思維框架下,除了你接收和生成的數據之外,再無其他東西。而且,你無法先驗地去談論空間、物體、物理規律或幾何概念,因為你無法直接接觸到這些東西;你能直接接觸的,只有你的觀察和行動。而那些概念,不過是你為了解釋自身經驗、為經驗建立模型而編造的故事罷了。

      經驗是根本性的,它是智能的核心。我們有時會說從經驗中學習,但同樣重要的是,你的知識本身就與經驗相關。比如,當你相信某件事時,這個信念本質上是關于未來你會接收到哪些觀察的預判。說到底,它就是一種理論:關于你未來會收到什么數據、會擁有怎樣的經驗的理論。

      汪軍:你覺得樣本復雜度是人工智能領域里我們需要解決的一個問題嗎?還是說,你其實并不認為這是個問題?

      Richard Sutton:我們的算法學習效率確實不夠高,但我并不覺得這是 RL 獨有的問題。實際上,我們所有的算法學習效率都很低,所以必須解決這個問題。說到底,或許整個研究的核心就是要從經驗中高效學習——這正是我們研究者正在做的事,我們在努力尋找能讓我們從經驗中盡可能高效學習的算法。

      在某種意義上,從獎勵中學習比從指令中學習更困難,如果世界直接告訴你該做什么,學習起來會簡單得多。但顯然,世界不會直接給出指令,世界只會給你拋出一個問題,你得自己弄明白該怎么做,所以這才是真正的問題所在。因此,我不會把這種問題看作是一種困難,而是一項挑戰。

      汪軍:這兩個單一的獎勵會是這個標量嗎?要知道,獎勵本身也分不同種類的

      Richard Sutton:這就是我們所說的“獎勵假設”了。我們所說的目標與意圖,都可以被很好地理解為:對一種名為 “獎勵” 的標量信號的累積和的期望值進行最大化,這是對智能問題一項極具價值的簡化與提煉。要知道,智能就是與世界交互以達成目標,而你需要某種方式來定義這個目標。

      在強化學習中,我們建議:所有目標都可以被解讀為 “獎勵”,一種單一的標量數值

      在你們看來,這樣認為可能顯得有些淺薄,甚至格局不大。但我認為,這恰恰是它極具智慧的部分——它非常清晰,高度簡化,卻又似乎足夠完備。事實上,像風險考量、多目標這類更復雜的設定,未必能讓系統變得更強大。阿爾伯塔大學(也就是我所在的大學)的幾位研究者發表過一篇很棒的論文,名為《Settling the Reward Hypothesis》,這篇論文深入探討了這一假說,論證了我們并不需要多目標、風險等復雜設定,單一獎勵信號已足夠。

      汪軍對話 Rich Sutton:大模型在一定程度上分散了我們對智能理解的注意力

      論文鏈接:https://arxiv.org/pdf/2212.10420

      我還記得自己最初真正接受這一假設時的情景,它確實顯得有些格局不大。畢竟,我們的人生似乎承載著更宏大的目標:比如拯救世界、積累財富、保護生態,或者養育家庭。我們有許多目標,而且它們似乎都與現實世界緊密相關、具體可感。但要打造算法、構建智能,就必須將問題轉化為一種標準形式。獎勵假設正是這樣一個極具價值的核心思想,它非常深刻,極大地幫助我們理解了智能究竟是什么。

      汪軍:這種整合方式能否解決“獎勵難以定義”或“獎勵定義得非常模糊”的問題呢?你認為,明確獎勵是否已成為人工智能或任何學習算法的一種先決條件?

      Richard Sutton:首先,我們先回歸自然、動物和人類本身。沒人需要為我們制定獎勵,我們的獎勵是進化的產物。那我們的獎勵到底是什么?并沒有一根線從外部接入我們的大腦,獎勵究竟存在于何處呢?實際上,獎勵是在你的顱骨內部計算產生的。大腦中有一個區域,我認為是下丘腦,它會計算一系列狀態:你的身體狀況是否良好?血液中是否含有足夠的營養?你是否脫離了痛苦?是否感到不適?體溫是否適宜?所有這些因素都會影響你的獎勵信號。

      所以,獎勵信號存在于你的顱骨之內,它是你大腦(實際上也是你身體)的一部分。但我們不會把身體視為環境的一部分,而大腦中這個負責計算獎勵的小區域,卻屬于環境的范疇。我們必須將其歸為環境的一部分,這樣它才不會受到 agent 的直接控制,agent 無法隨心所欲地將自身獎勵調至高位,要讓獎勵升高,它必須采取行動:比如避免痛苦、獲取食物以維持血糖在滿意水平,它必須通過行動影響周圍的世界,這些影響再通過身體反饋,最終產生高獎勵信號。

      在那之后,當我們打造工程化系統、希望人工智能完成特定任務時,作為設計者,我們必須想清楚、明確自己真正希望達成的目標是什么,并且得找到方法,將這個目標轉化為獎勵信號傳遞給 agent。這一步有時頗具挑戰,有時又比較簡單。比如,下國際象棋,贏得比賽你會得到獎勵;下圍棋,贏得比賽也會得到獎勵。如果是企業想要盈利,你可以為成功賺錢的人提供獎勵。能作為獎勵的東西有很多,有時很簡單,有時卻真的很難。難點部分在于,我們自己往往都難以確定最想讓人工智能完成的到底是什么

      我想說的是:人們常常有一種強烈的傾向,就是把問題的解決方案直接塞進獎勵里。比如,想讓 AI 下圍棋,你可能會忍不住在過程中設置一些額外獎勵,比如控制棋盤的特定區域或做出眼位就給獎勵,但這幾乎是錯誤的。你應該為自己真正想要的結果設置獎勵,對于圍棋而言,真正想要的就是贏棋,做出眼位只是通向贏棋的一條路徑。盡管你可能是想幫人工智能一把,這種嘗試也非常普遍,但這樣實際上改變了問題本身,而我們并不想改變問題。如果你想贏,就應該只為贏設置獎勵。

      汪軍:你之前提到過要保持開放的心態,并且也鼓勵那些剛拿到博士學位的年輕研究者這樣做,我最近看了一些研究提案,其中關于持續學習的一些想法我很喜歡,所以你能不能進一步講講?

      Richard Sutton:無論是阿爾伯塔省還是新加坡的研究項目都是從 RL 開始的,尤其是“阿爾伯塔人工智能研究計劃”(The Alberta Plan for AI Research),這是一份文件,你可以在 arXiv 上找到它。這份文件由 Michael Bowling、Patrick Plarskin 和我自己共同撰寫。在其中,我們試圖盡可能清晰地勾勒出從當前階段邁向 full intelligent agent,即 the full AI 所需的步驟。這是一個包含 12 個步驟的計劃,這些步驟并非必須按順序執行,但我目前正致力于第一步,并且熱切期待完成第一步后能開始著手第二步。

      汪軍對話 Rich Sutton:大模型在一定程度上分散了我們對智能理解的注意力

      鏈接:https://arxiv.org/pdf/2208.11173

      計劃的前期步驟都與使用函數近似(function approximation)進行高效學習相關,實際上也都圍繞 RL 展開,涉及持續學習(continual learning)、元學習(meta-learning)等方向——真正聚焦 RL 本身的內容其實從第三步才開始。但歸根結底,整個計劃的目標是打造一個 RL agent:一個具備推理、規劃與學習能力的完整 agent。

      此外,該計劃完全以獎勵為核心基礎,但在實踐過程中,會衍生出子目標或輔助任務,這些子目標可以是我們日常會考慮的事情,比如拿起一個物體可能成為一個子任務,高效行走是一個目標,下圍棋也可以是一個需要達成的子目標,甚至獲得學位。基本上你一整天做的所有事,步行去大學、喝杯水、找洗手間,這些都可以成為你努力達成并學習相關技能的目標。而所有這些子目標和技能,最終都服務于那一個核心目標,例如完成工作,這就是阿爾伯塔人工智能研究計劃的一部分內容。

      03 通用智能體的認知轉向

      汪軍:你提到了元學習,關于如何讓 RL 在跨任務場景下更具通用性,你的看法是什么?如何讓它不僅能解決雅達利圍棋游戲這類特定任務,還能具備更廣泛的通用性?你認為元學習會是打造通用 agent 的有力候選方向嗎?還是說,我們需要其他完全不同的方法?

      Richard Sutton:我們當然想要打造通用 agent,但并不認同“task”(任務)這個概念。說實話,我覺得我們只是生活而已,我不覺得我有什么任務是需要單獨獎勵的,我有自己的人生,有自己的獎勵信號,它會一直持續下去,雖然并非永恒,但會延續很長時間。

      每次聽到人們談論“task”,我其實都不太清楚他們具體指什么,但我很清楚“skill”(技能)是什么。比如,我有熟練行走的技能,有找到去銀行路線的技能,還有做其他各種事情的技能。這些就像我之前提到的輔助性問題:拿起一個物體、找到去不同地方的路,等等。我會學習如何完成所有這些事,然后思考如何將這些技能組合起來,以獲得屬于自己的獎勵。

      通用性至關重要,我們確實追求通用性,但我們不想在“task”之間追求通用。因為“task”并非這一框架的組成部分,也不屬于 RL 的范疇,并不存在“task”這種概念,這里只有單一的獎勵信號,僅此而已。但我們確實需要探討泛化(generalization)。這里的泛化指的是狀態之間的泛化,在這個狀態下學會了該做什么,這會影響我對在另一個狀態下該做什么才正確的判斷。所以,泛化是在不同狀態間發生的,這正是泛化的核心價值所在,而這種泛化能力也將助力我們打造出通用 agent。

      我們說的元學習是指:當存在一個基礎學習過程,然后我們在這個基礎之上再做一些操作時,談論元學習才是恰當的。我認為最主要的例子是這樣的:比如我們通過調整模型權重來解決某個基礎學習任務,不管這個基礎任務是監督學習(supervised learning)還是 RL,在這個過程中,我們會涉及步長(step sizes)以及其他超參數的設置。所以,這些步長的調整就屬于元學習的一個例子。

      我們的整個網絡都應該設置步長,每個權重都該有自己專屬的步長,這些步長必須通過自動化流程來單獨調整,而不是由人工操作。這樣一來,如果你能調整這些步長,就能從中得知:這些權重不想調整,那些權重想調整。而當你決定調整哪些權重時,這些權重正是你要進行泛化的依據。打個比方,你有很多特征,該基于哪些特征進行泛化呢?答案就是那些步長較高的特征。因此,這就把研究焦點引向了學習算法本身,也就是用于學習所有權重對應步長的元學習算法。

      在所有算法中,我最愛的算法當然是時序差分學習(Temporal Difference Learning),第二愛的算法是專門用來設置步長的,它叫 Incremental Delta-Bar-Delta,簡稱 IDBD。這是個1992年的老算法了,它的用途非常明確,就是用來設置步長,進而決定泛化是如何發生的。再來聊聊 RL 中的偏置(bias),這篇論文提出了類似通過梯度下降(gradient descent)學習偏置的思路。也就是說,我們不再由人工編寫程序來設定偏置,而是讓系統自主學習如何泛化,這本質上就是在學習偏置。IDBD 算法雖然是個老算法,但它已經過一些改進,我們目前也在對它進行更新,還在嘗試將其擴展到深度學習領域,只是這項工作仍在進行中,它有很大的潛力。

      汪軍:之前我們聊到過學習效率,你也說過效率當然是越高越好,而且這是機器學習領域的普遍問題,所以梯度下降在過去確實推動了人工智能的發展。但另一方面,它或許并不是學習神經網絡函數映射的高效方法。你認為這是我們需要突破的瓶頸嗎?還是說,你覺得梯度下降仍是未來的發展方向?

      Richard Sutton:如果我們試著提煉智能與學習的幾條基本原則,梯度下降一定是其中之一,它的威力強大且至關重要。問題在于,當我們熟練掌握梯度下降后,就開始覺得它無比出色,甚至可能認為一切學習問題都能用梯度下降解決。而這恰恰是錯誤所在,我們陷入了只用梯度下降,而排除所有其他可能性的局限中。

      所以如果要列舉智能的基本原則,我認為梯度下降、時序差分學習、搜索都是其中之一,此外還有其他原則,但不會太多了。而搜索尤其重要,其實搜索的影子已經存在于反向傳播中了,訓練開始時,我們會給模型設置隨機的小權重,但也僅僅是在開始時這樣做。從那之后,模型就只會完全確定性地沿著梯度方向更新。

      在過去幾年里,我們在持續學習領域取得了一點突破,我們對反向傳播進行了改進,提出了持續反向傳播。這種方法下,模型不再是一直只沿著梯度更新,也不再只在初始階段設置隨機權重,而是在整個訓練過程中持續重新注入隨機權重。也就是說,隨機化不再只發生在開頭,而是貫穿始終,這樣就是完全連續的。隨機權重正是搜索的核心要素,它能將模型推向隨機的方向,從而探索更多可能性。因此,我們的梯度下降算法中需要融入這種搜索成分,把搜索和梯度下降結合起來,其威力會遠大于梯度下降單獨使用。

      汪軍:你之前提到了時序差分學習,你是如何發明時序差分學習的?這種決策—行動的邏輯與整個控制領域息息相關,他們一直在研究貝爾曼方程優化等問題,而 RL 正是從這些基礎上發展而來的,時序差分學習是其中的關鍵。還有我之前提到過,你的一篇早期論文總是被我用作案例,這篇論文從心理學中的經典條件反射、神經科學等領域切入,然后將思路延伸到了計算機科學領域,這篇論文非常出色,能和我們多講講這篇論文以及背后的故事嗎?

      Richard Sutton:時序差分學習的確源于經典條件反射,它脫胎于心理學,以及上世紀早期所有關于動物學習的先驅性實驗。經典條件反射是巴甫洛夫在 19 世紀 90 年代左右提出的概念。我本科時學的就是心理學,但我還是一直都在研究人工智能,只是在 70 年代,本科階段還沒法主修計算機科學,必須選其他專業,我很樂意主修心理學,因為在學習領域,尤其是在探索學習的基本原理方面,心理學家的思考是最深入的,他們為此付出了巨大努力,提出了許多重要的觀點,其中有一些觀點雖然沒有直接催生時序差分學習,但已經非常接近了。如果你仔細梳理所有的動物實驗,試著從中提煉規律,就必然會走向時序差分學習,它就是這樣誕生的。

      直到后來我們才意識到,從動態規劃和控制理論的角度來看,時序差分學習同樣說得通,但時序差分學習最初是源于經驗的產物。可以這樣理解二者的關系:動態規劃的前提是,你已經完全了解整個世界,你就能計算出最優解;而時序差分學習則不同,即便我不知道世界是如何運作的,我也能通過經驗而非知識達成與動態規劃相同的目標。

      這一點太美妙了,因為它意味著所有研究智能與學習的學科實現了統一,時序差分學習的影響力非常深遠。回到神經科學領域,它為研究者們觀察到的許多動物學習新結果、新數據提供了合理解釋,如今已成為大腦獎勵系統研究中占主導地位的標準模型與理論。我們能看到,人工智能、控制理論、神經科學這些原本截然不同的學科,正成功地走向融合與交匯。我對此感到非常欣慰,這就像終于觸碰到了智能最根本的東西。

      汪軍:我注意到的一點區別也就是無模型(model-free)和基于模型(model-based)的概念,你能再詳細解釋一下這個嗎?

      Richard Sutton:首先,我們得明確一點,我們兩者都需要兼顧。我們既希望直接從經驗中學習,也希望間接從經驗中學習,我們希望自己的經驗能形成一個世界模型,然后利用這個模型來規劃行為上的改進。這種規劃就類似于推理,我們僅憑對世界的認知就能想清楚該做什么。這兩者我們都需要,而實現二者在某種意義上的統一,正是我們追求的“The Holy Grail”(圣杯),就是能夠同時進行規劃和學習,并在某種意義上將它們統一起來。

      這種統一的開端是“dyna system”(動力系統),在這個系統中,規劃的過程本身就帶有學習的屬性,不過這種學習是通過想象自己可能采取的行動來完成的,這一點在心理學文獻中也有很好的體現,RL 的目標正是成為一種涵蓋所有智能形式的宏大理論。

      汪軍:您有什么想對中國的 RL 社區說的嗎?您認為這與您正在開展的 Openmind 使命有什么聯系?

      Richard Sutton:我想補充一點我們尚未談及的核心內容,得益于摩爾定律以及計算能力的日益普及,當下正是宇宙中一個極其特殊的時代,在未來的一二十年里,我們將得以弄明白思維是如何運作的。能生活在這樣一個時代,實在太令人驚嘆了。我曾將對智能的理解比作地球上生命的起源,我認為這是一件具有同等重大意義的事件。我們將能夠設計出與人類自身一樣強大、甚至可能更強大的 agent,這真的是一件無比激動人心的大事。如果說我最想表達什么,那就是我對此抱有極大的樂觀,我認為一切都會變得非常好,這不僅將實現歷史上知識分子乃至普通人一直以來追尋的偉大探索目標,還將對世界的經濟發展產生巨大的積極影響。

      未來并非全都是一帆風順的,肯定會面臨諸多挑戰,但這并非因為人工智能會帶來什么糟糕的結果,總的來說,它是一件極具積極意義的事。它將為我們帶來更深入的科學研究、更透徹的自我認知,甚至有可能幫助我們更好地和平共處,而這正是 Openmind 使命的一部分。

      每個人都能參與到這份理解中來,我們會展開合作,共同去探索人工智能的奧秘,共同收獲它帶來的成果,共同加深對自我的認知,而且要明白,并非只有機器會變得智能,我們人類自身也會通過增強手段變得更聰明。其實我們已經在被增強了,電話在增強我們的溝通,眼鏡在增強我們的視力,一支鉛筆、一門能讓彼此交流的語言,這些都是對我們能力的增強,人工智能實際上就是這一增強過程的延續,所以人工智能的發展前景會非常好。我們應當為從事這項工作而感到由衷的喜悅,并為了全人類的福祉去推進它的發展。

      (雷峰網(公眾號:雷峰網)

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      汪軍對話 Rich Sutton:大模型在一定程度上分散了我們對智能理解的注意力

      分享:
      相關文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 内射中出高清晰| 亚洲人成网站在线播放小说| 尤物yw午夜国产精品视频 | 成在线人午夜剧场免费无码| 99久久久无码国产精品免费 | 天天综合天天色| 亚洲国产成人久久综合电影| 夜夜躁狠狠躁日日躁av| 成人1区2区| 麻豆国产成人AV在线播放| 三级三级三级a级全黄| 国产成人+综合亚洲+天堂| 一区二区久久不射av| 日本japanese丰满白浆| 岛国AV网站| 无吗人妻一区二区| 国产午夜一区二区在线观看| 国产亚洲精品第一综合| 亚洲成人精品| 国内精品视频一区二区三区 | 999久久久| 色婷婷亚洲精品天天综合| 国产精品久久久影院色| 国产成人精彩在线视频| 国产又大又黑又粗免费视频| 欧美日韩在线第一页免费观看| 免费人欧美成又黄又爽的视频| 国产老熟女伦老熟妇露脸| 柳林县| 中文字幕视频在线看| 精品国产一区二区三区av性色| 成年女人午夜毛片免费视频| 久久精品国产精品亚洲色婷婷 | 亚洲精品久久久久久久蜜桃臀| 咸阳市| 天天躁日日摸久久久精品| 亚洲色涩| 欧美色日本| 国产综合AV| 美女大bxxxxn内射| 亚洲精品不卡av在线播放|