<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給我在思考中
      發送

      0

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      本文作者: 我在思考中 2022-03-09 15:52
      導語:該研究或許也可以改變你的思考方式。

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      不久前,劍橋高級機器學習講師 Ferenc Huszár 在個人博客上力薦斯坦福馬騰宇與 Percy Liang 團隊的工作《將上下文學習視作隱式貝葉斯推理的闡釋》(被 ICLR 2022 接收),稱其改變了他“對上下文學習以及將語言模型訓練成小樣本學習工具的思考方式”。

      對一項工作的深入思考與精彩點評,同樣是科學進步的源泉。同行切磋,堪比華山論劍。為此,AI科技評論將馬騰宇團隊的新作進行簡單介紹,并整理了 Ferenc Huszár 的評論筆記,希望對該領域的研究者有所啟發。

      作者 | 叢末

      編輯 | 陳彩嫻



      1

      從隱式貝葉斯推理看上下文學習

      根據 Ferenc Huszár 的介紹,他是在 ICLR 審稿期間閱讀到馬騰宇等人的這篇工作,覺得該論文所取得的成果十分引人入勝,并進行了深入思考。

      ICLR 2022 在去年11月公布初審結果,馬騰宇團隊有3篇工作入選,《將上下文學習視作隱式貝葉斯推理的闡釋》(An Explanation of In-Context Learning as Implicit Bayesian Inference)便是其中之一。

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      作者:Sang Michael Xie, Aditi Raghunathan, Percy Liang,馬騰宇

      論文地址:https://arxiv.org/pdf/2111.02080.pdf

      馬騰宇與Percy Liang分別為斯坦福大學計算機系的助理教授與副教授,是人工智能領域的著名新秀,都曾獲得斯隆研究獎,其研究工作受到同行關注。

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      圖注:馬騰宇

      如AI科技評論此前對馬騰宇的專訪介紹,馬騰宇主要從事人工智能基礎理論的研究工作,課題覆蓋非凸優化、深度學習及理論等等。這篇被 ICLR 2022 接收的工作也是從理論出發,研究上下文學習/境學習(In-Context Learning)與隱式貝葉斯推理之間的關系。

      當前,GPT-3等大規模預訓練語言模型進行上下文學習的表現驚人:模型只需基于由輸入—輸出示例組成的提示進行訓練,學習完成下游任務。在沒有明確經過這種預訓練的情況下,語言模型會在正向傳播過程中學習這些示例,而不會基于“分布外”提示更新參數。

      但研究者尚不清楚是什么機制讓上下文學習得以實現。

      在這篇論文中,馬騰宇等人研究了在預訓練文本具有遠程連貫性的數學設置下,預訓練分布對上下文學習的實現所起到的作用。在該研究中,對語言模型進行預訓練需要從條件文本中推斷出潛在的文檔級別概念,以生成有連貫性的下一個標記。在測試時,該機制通過推斷提示示例之間共享的潛在概念,并應用該概念對測試示例進行預測,從而實現上下文學習。

      他們證明了:當預訓練分布是混合隱馬爾可夫模型時,上下文學習是通過對潛在概念進行貝葉斯推理隱式地產生的。即便提示和預訓練數據之間的分布不匹配,這種情況依舊成立。

      與自然語言中用于上下文學習的混亂的大規模預訓練數據集不同,他們生成了一系列小規模合成數據集(GINC),在這個過程中,Transformer 和 LSTM 語言模型都使用了上下文學習。除了聚焦預訓練分布效果的理論之外,他們還實證發現,當預訓練損失相同時,縮放模型的大小能夠提高上下文(預測)的準確性。



      2

      Ferenc Huszár 的評價

      Ferenc Huszár 是劍橋大學計算機系的高級機器學習講師,對貝葉斯機器學習有深入的研究。2016年與2017年,他在基于深度學習的圖像超分辨率與壓縮技術上取得兩大突破(如下),谷歌學術引用了超過1萬4。

      • Photo-realistic single image super-resolution using a generative adversarial network(谷歌學術引用7.5k+)

      • Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network(3.5k+)

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      圖注:Ferenc Huszár

      Ferenc Huszár 對馬騰宇等人的工作給予了高度評價。AI科技評論對 Ferenc 的點評做了不改原意的整理:

      我喜歡這篇論文,因為它與可交換性(exchangeability)相關,這是我最喜歡的概念和想法之一。它讓我想起了我在2015年(當時還處于深度學習的發展早期)的想法——利用可交換序列模型實現大規模通用學習機。在那篇舊博文中,我對可交換模型做了如下思考:

      如果我們有一個可交換的循環神經網絡(RNN),我們就可以在同一輸入空間的多個無監督學習問題上對它進行訓練。這個系統其實就學會了學習。如果想在一個新的數據集上使用該系統,只需將它輸入到循環神經網絡中,它就能夠輸出貝葉斯預測概率,無需任何額外的計算。所以,它就是一個終極通用推理機。
      實際上,終極通用推理機(很慶幸我給它注冊了商標)跟 OpenAI 的 GPT-3 有時給人呈現的樣子和使用的方式并沒有太大區別。實踐顯示,使用者可以在多種多樣的任務中將它們重新調整為小樣本(或在某些情況下為零樣本)學習工具。語言模型的這種通過輸入精心設計的提示來解決不同任務的能力,有時候被稱為“提示黑客”(prompt-hacking)或“上下文學習”。

      老實說,在我讀到馬騰宇等人發表的這篇論文之前,我從來沒有把大型可交換序列模型視作通用學習工具的動機和使用GPT-3進行上下文學習的最新趨勢聯系起來。事實上,我對后者深表懷疑,認為它本質上就是必然存在根本缺陷的另一種黑客行為。但是這篇論文將這些點都聯系起來了,這也是它為什么如此吸引我的原因,因為我永遠無法想到“提示黑客行為”和上下文學習竟然完全一樣。

      1)將可交換序列作為隱式學習機

      在探討這篇論文前,讓我們先來溫習下關于可交換序列和隱式學習的已有概念。

      可交換序列模型是一個序列概率分布劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式,在序列劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式中,對于任意一個置換 π,該分布都是對標記的置換不變量。

      de Finetti 定理將這些序列模型與貝葉斯推理聯系在一起,假設任意分布都可以分解成混合獨立同分布(I.I.D.)序列模型:

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      因此,前一步的預測分布(用來預測序列的下一個標記)總能分解成貝葉斯積分:

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      其中,劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式是由先驗劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式計算得到的貝葉斯后驗,計算的貝葉斯公式為:

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      在這種情況下,如果我們有一個可交換序列模型,就可以將這些前一步的預測分布視作隱式執行的貝葉斯推理。關鍵是,即便我們并不知道θ個 π 是什么,以及可能性劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式是什么,也能實現這一操作。我們不必明確指出公式的這些組成部分是什么,de Finetti 定理都能夠確保這些組成部分都存在,而只需要讓預測劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式與可交換序列模型保持一致。

      這一想法驅使我通過構建這一模型,來嘗試設計總是能夠產生可變換分布的循環神經網絡(當時Transformer 還沒有出現)。最終證明這種想法很難實現,不過這一想法最后衍生出了 BRUNO(名字取自Bruno de Finetti)這一工作。

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      論文地址:https://arxiv.org/pdf/1802.07535.pdf

      BRUNO 是一個用于可交換數據的靈活的元訓練模型,擁有小樣本概念學習能力。這個想法后來在 Ira Korshunova 的博士論文中得到多種方式的拓展。

      2)從可交換序列到混合隱馬爾可夫模型(HMM)

      但GPT-3是一個語言模型,很明顯語言標記是不可交換的,所以兩者聯系是什么?

      伴隨著de Finetti 型定理出現了一些引人關注的泛化成果,可交換性的概念也出現了一些有趣的擴展。Diaconis、Freedman(1980)等人定義,偏導可交換性(Partial exchangeability),指的是能確保序列可被分別為混合馬爾可夫鏈的序列分布的不變屬性。因此,可以說,使用偏導可交換過程對馬爾可夫鏈進行貝葉斯推理,與使用可交換過程對獨立同分布(I.I.D.)數據生成過程進行推理的方式非常相似。

      馬騰宇等人在這篇論文中,假設使用的序列模型是混合隱馬爾可夫模型。這比 Diaconis 和Freedman 提出的偏導可交換混合馬爾可夫鏈更具泛化性。

      我不知道是否混合隱馬爾可夫模型能用可交換性此類的不變性來表征,但這不打緊。實際上這篇論文根本沒有提及可交換性,其關于隱式貝葉斯推理的核心論點是:每當使用由簡單分布組成的序列模型時,可以將前一步的預測闡釋為“對一些參數隱式地進行貝葉斯推理”。雖然互聯網上人類語言的分布不太可能遵循多觀察隱馬爾可夫模型(Multi Observation Hidden Markov Model,MoHMM)分布,但假設GPT-3輸出的序列可能是混合隱馬爾可夫模型的某些部分,這種說法就是合理的。并且如果真是這樣,預測下一個標記就會對一些參數(作者所指的“概念”)隱式地進行貝葉斯推理。

      3)上下文學習和隱式貝葉斯推理

      這篇論文的核心思想是,也許上下文推理能夠利用這種與語言統計模型密切相關的隱式貝葉斯推理來解決問題。語言模型能夠學習隱式地對任何概念進行概率推理,因為要想在預測下一個標記的任務上表現得好,就必須進行這種推理。如果模型具備這種隱式學習能力,那它就能夠操縱這種能力去執行其他同樣需要這種推理的任務,包括小樣本分類等等。

      我認為這是一個非常有意思的泛化想法。但令我稍感遺憾的是,作者聚焦的關鍵問題是特定性和人為性:雖然多觀察隱馬爾可夫模型可以用來“補全”從某個特定的隱馬爾可夫模型(混合組成部分的其中一個)中提取的序列,但如果讓多觀察隱馬爾可夫模型補全它們根本無法直接生成的序列,例如一個人為構建的嵌入了小樣本分類任務的序列,會發生什么?這就變成了一個分布不匹配的問題。

      論文關鍵的發現在于,即便這種分布不匹配,多觀察隱馬爾可夫模型中的隱式推理機制也能夠識別正確的概念,并且能在小樣本任務中使用這種分布來做出正確的預測。

      這一分析為嵌入序列中的上下文學習任務與多觀察隱馬爾可夫模型分布的相關性,做出了強有力的假設(具體細節請閱讀原論文)。從某種程度上來說,作者研究的上下文任務,與其說是一個分類任務,不如說是一個小樣本序列補全任務。

      總而言之,這是一篇值得思考的、有意思的論文,它顯著地改變了我對整個上下文學習以及將語言模型訓練成小樣本學習工具的研究方向的思考方式。

      大家怎么看?

      參考鏈接:

      1.https://www.inference.vc/implicit-bayesian-inference-in-sequence-models/

      2.https://www.inference.vc/exchangeable-processes-via-neural-networks/

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      雷峰網(公眾號:雷峰網)

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      劍橋高級機器學習講師Ferenc Huszár評馬騰宇新作:它改變了我對上下文學習的思考方式

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 熟妇人妻无码xxx视频| 一本综合久久| 自拍 另类 综合 欧美小说| 中文字幕丰满孑伦无码精品| 国产va影院| 天天爽夜夜爽夜夜爽| 国语精品国内自产视频| 日本免费有码中文字幕| 亚洲欧美在线一区中文字幕| 国产精品手机视频一区二区| 无码精品国产va在线观看dvd| 无码中文字幕网| 3751色视频| 日本三级成本人网站| 男女做爰猛烈吃奶啪啪喷水网站 | 成人AV一区二区三区在线观看| 三级欧美在线| 久久精品人成免费| 国产午夜精品久久久久免费视| 中文有码无码人妻在线| 欧美最猛性xxxxx大叫| 国产精品一区二区av片| 给我播放片在线观看| 亚洲精品福利| 色综合久久夜色精品国产| 香蕉av777xxx色综合一区| 97色频道| 天天干干强奸| 国产av影院| 中文字幕一区二区三区乱码| 国产美女被遭强高潮免费网站| 江孜县| 香港经典a毛片免费观看播放| av狼友| 国内精品人妻色欲无码久久久| 国产va免费精品观看| 国产人妖视频一区在线观看| 东京热一精品无码av| 无码a∨高潮抽搐流白浆| 亚洲成人动漫在线| 97se亚洲综合自在线|