<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給叢末
      發送

      0

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      本文作者: 叢末 2020-02-03 09:45
      導語:這是計算機科學和物理、生物等傳統科學的不同點之一。

      本科畢業于清華姚班、博士畢業于普林斯頓大學,師從 Sanjeev Arora 教授,馬騰宇作為 AI 學界一顆冉冉升起的新星,如今已在國際頂級會議和期刊上發表了 20 篇高質量的論文,曾拿下 2018 ACM 博士論文獎等諸多重量級的學術榮譽。

      日前,在北京智源人工智能研究院主辦的海外學者報告會上,馬騰宇帶來了一場干貨味十足的報告,不僅基于近期聚焦的研究工作“設計顯式的正則化器”分享了理解深度學習的方法,還基于自己的研究經驗分享了不少研究方法論和觀點。

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      他指出,現在用來理解深度學習的常用方法是隱式的正則化方法,然而他們在研究中發現,顯式的正則化方法可能是更好的選擇。

      同時,他強調,計算機科學跟物理、生物等傳統科學的不同之處在于:可以不斷地設計新的算法。“雖然我們無法理解現有的深度學習算法,但我們可以設計我們既能理解又能保證有效的新算法。”

      我們下面來看馬騰宇的報告內容:

      一、為什么過參數化的深度學習模型能實現泛化?

      深度學習是馬騰宇研究組的重要研究方向,他們的主要研究思路是從方法論層面,通過一些數學或理論的分析從技術的角度提高深度學習模型的性能。

      他指出,從方法論的層面來看,深度學習當前存在的一個非常核心的挑戰就在于需要很大規模的數據才能實現泛化,并且數據量的規模需要大到非??鋸埖牡夭?,以至于他認為學術界很難完全收集這么多數據,往往只有工業界能做到。

      因此,如果希望深度學習模型減少對數據的依賴,就需要理解如何能用更少的數據來實現深度學習模型的泛化。

      那為什么現在過參數化(Overparametrized)的深度學習模型能夠泛化呢?

      這是因為現在的深度學習模型與之前的模型相比,一個核心區別就在于:此前的傳統觀點認為,當數據數量遠超過參數數量時,模型才能泛化;而在深度學習時代,觀點則相反,認為成功的模型應該有更多的參數、更少的數據量。所以現在深度學習模型要實現泛化,需要的參數多于數據量。

      然而在深度學習的時代,模型的泛化都非常難以解釋,原因就是很多傳統的觀點并不再適用了。其中有一些傳統的觀點還是有效的,比如說奧卡姆剃刀定律(Occam's Razor),指的是低復雜度的模型也可能泛化得很好。

      不過這種「低復雜度」其實是很難定義的,因此更核心的問題是如何正確定義模型復雜度,以及我們可以通過什么方法能衡量并找到正確定義的復雜度。這是他們希望通過一些理論研究來解決的問題。

      常見的方法是隱式的正則化方法,分析該方法可以聚焦于兩個方面:第一,算法更偏好低復雜度的方案;第二,低復雜度的模型泛化得很好。分析好這兩個方面,就可以理解現有的算法,同時探索新的度量復雜度的方法——因為算法偏好的復雜度基本就是正確的復雜度度量方法。

      馬騰宇以其團隊開展的一些工作為例闡述了一些發現:

      • 第一,在模型訓練和收斂方面,學習率至關重要。例如在他們最近的一篇 NeurIPS 論文中證明了,一個使用了大學習率的兩層神經網絡,只能表示線性的函數,因而即使使用了很復雜的模型,在有噪聲的情況下也只能表示一些非常簡單的解,從而使得模型要比想象中更簡單些,這實際上是噪聲在深度學習中起到了正則化的作用。

      • 第二,初始化方法對模型的復雜度,也有同樣的效果。例如 Chizat Bach 在 2019 年發表了一篇論文,證明了大的初始化狀態更容易得到最小的神經切線核范數解。而他們自己的一些工作,則證明了小的初始化更偏向于得到更加「豐富」的狀態,會比核狀態更有意思,比如說最小的 L1 解或者原子核范數解。Woodworth 等人有一項工作基本上就說明:一個較小的初始化的模型,會收斂到一個最小的 L1 解而不是 L2 解上。

      這些工作的核心思想是,不同的算法有不同的偏好,而不同的偏好則會有不同的復雜度量,學習率會有偏好,初始化狀態也有偏好。

      二、隱式/算法的正則化是理解深度學習的唯一方法嗎?

      如果想要理解深度學習,是不是只有理解隱式/算法的正則化這一種方法呢?

      對此,馬騰宇認為應該要重新回顧一下經典的方法——理解顯式的正則化方法。他表示,顯式的正則化方法確實也值得被大家關注,而且從短期來講,它可能是一個更有成效的方法。

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      隱式/算法的正則化方法,為了達到要求,需要對算法進行正則化,算法會傾向于得出低復雜度的解。然而從很多算法正則化相關的論文中,他們發現在說明「算法傾向于得出低復雜度的解」方面遭遇瓶頸,而在說明「低復雜度的解泛化得更好」方面則比較簡單。

      因此,顯式的正則化方法可能是理解深度學習更好的選擇。

      在這種經典的機器學習范式下,重點關注的則是研究怎樣的復雜度可以讓模型實現更好的泛化性能。而對于「算法傾向于得出低復雜度的解」這一研究瓶頸,則「全看運氣」。

      顯式的正則化方法的不足點是需要改變算法,因為正則化復雜度勢必就會改變算法。然而其優勢在于,不僅僅能夠理解現有的算法,還可以設計一些新的復雜度度量或正則器,設計一些新的算法,并將優化和統計數據分離開來。

      他指出,最近機器學習領域的一個很火的話題是「雙重下降」(Double Descent)現象,就是說測試誤差并不是單一下降的,而是雙重下降。而最近他們在一項工作中,嘗試展示的則是在將算法正則化之后,可能就不會再出現雙重下降現象。

      2019 年 Nagarajan 等人的一篇 NeurIPS 最佳論文獎展示了一致收斂無法說明深度學習中發生的現象。他們舉出了一個反例來說明這一點,雖然這個反例非常令人信服,但是僅僅是針對現有算法成立的一個反例。即算法加入正則化之后,這些反例很有可能就不再成立了。

      那如何檢驗是否做到了將優化和統計數據分離呢?

      方法則是,模型在正則化目標函數后,不管使用什么算法都能實現同樣的泛化能力,這就能說明優化和統計數據分離了。

      馬騰宇表示,他們現在也證明了能夠使用顯式的正則化方法來替代隱式的正則化方法,雖然還無法完全替代,但他相信正在朝著這個方向前進。

      三、無法理解現有的深度學習算法?那就設計一個能理解的!

      在當下 AI 界的普遍認知中,深度學習的內在機理無法理解,本質上變成了一個科學問題。對此,馬騰宇指出,計算機科學跟物理、生物等傳統科學的不同之處在于:可以不斷地設計新的算法。

      科學研究的內容更多的是世界上已經發生或存在的客觀現象(比如黑洞),而在計算機科學中,研究者可以不研究發什么什么,而是去研究任何想要研究的事情。

      他呼吁道:「雖然我們無法理解現有的深度學習算法,但我們可以設計我們既能理解又能保證有效的新算法。我認為計算機科學領域的研究者可以把研究做得更主動一些。」

      報告中,馬騰宇還基于自己近期的研究工作,事無巨細地分享了顯式正則化的具體研究示例,雷鋒網 AI 科技評論在這里附上馬博士 PPT 的相關內容:雷鋒網雷鋒網

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      雷鋒網 AI 科技評論報道。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知。

      斯坦福大學馬騰宇:無法理解現有的深度學習算法?那就設計一個能理解的!

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 国产精品毛片一区二区三区| 少妇特殊按摩高潮惨叫无码| 五月天成人社区| AV最新高清无码专区| 99视频在线精品免费观看6| 咸宁市| 国产精品国产三级国快看| 日本熟女人妻| 中文字幕无线码一区二区| 亚洲精品国偷拍自产在线观看蜜臀| 久久人人妻人人爽人人爽| 欧美自拍嘿咻内射在线观看 | 日本少妇高潮喷水xxxxxxx| 午夜免费视频| 国产高清在线精品一区二区三区| 躁躁躁日日躁| A片A级毛片| 一卡二卡三卡无码| 国产精品自在自线免费观看| 大伊香蕉精品一区二区| 最新的国产成人精品2020| 国产jizzjizz视频| 狠狠亚洲婷婷综合色香五月| 777米奇色狠狠俺去啦| 又大又长粗又爽又黄少妇视频| 合江县| 熟妇人妻不卡中文字幕| 国产精品a久久久久| 中国av网| 成人AV天堂| 日韩成人电影一区| 久久天堂无码av网站| 精品亚洲男人一区二区三区| 在线a级毛片免费视频| 浪漫樱花免费播放高清版在线观看| 一个人看的www视频在线播放| 国产亚洲精品超碰热| 国产精品夜间视频香蕉| 色综合久久网| 国产欧美一区二区精品久久久| 上林县|