斯坦福大學馬騰宇：無法理解現有的深度學習算法？那就設計一個能理解的！

本文作者：叢末

2020-02-03 09:45

導語：這是計算機科學和物理、生物等傳統科學的不同點之一。

本科畢業于清華姚班、博士畢業于普林斯頓大學，師從 Sanjeev Arora 教授，馬騰宇作為 AI 學界一顆冉冉升起的新星，如今已在國際頂級會議和期刊上發表了 20 篇高質量的論文，曾拿下 2018 ACM 博士論文獎等諸多重量級的學術榮譽。

日前，在北京智源人工智能研究院主辦的海外學者報告會上，馬騰宇帶來了一場干貨味十足的報告，不僅基于近期聚焦的研究工作“設計顯式的正則化器”分享了理解深度學習的方法，還基于自己的研究經驗分享了不少研究方法論和觀點。

斯坦福大學馬騰宇：無法理解現有的深度學習算法？那就設計一個能理解的！

他指出，現在用來理解深度學習的常用方法是隱式的正則化方法，然而他們在研究中發現，顯式的正則化方法可能是更好的選擇。

同時，他強調，計算機科學跟物理、生物等傳統科學的不同之處在于：可以不斷地設計新的算法。“雖然我們無法理解現有的深度學習算法，但我們可以設計我們既能理解又能保證有效的新算法。”

我們下面來看馬騰宇的報告內容：

深度學習是馬騰宇研究組的重要研究方向，他們的主要研究思路是從方法論層面，通過一些數學或理論的分析從技術的角度提高深度學習模型的性能。

他指出，從方法論的層面來看，深度學習當前存在的一個非常核心的挑戰就在于需要很大規模的數據才能實現泛化，并且數據量的規模需要大到非?？鋸埖牡夭?，以至于他認為學術界很難完全收集這么多數據，往往只有工業界能做到。

因此，如果希望深度學習模型減少對數據的依賴，就需要理解如何能用更少的數據來實現深度學習模型的泛化。

那為什么現在過參數化（Overparametrized）的深度學習模型能夠泛化呢？

這是因為現在的深度學習模型與之前的模型相比，一個核心區別就在于：此前的傳統觀點認為，當數據數量遠超過參數數量時，模型才能泛化；而在深度學習時代，觀點則相反，認為成功的模型應該有更多的參數、更少的數據量。所以現在深度學習模型要實現泛化，需要的參數多于數據量。

然而在深度學習的時代，模型的泛化都非常難以解釋，原因就是很多傳統的觀點并不再適用了。其中有一些傳統的觀點還是有效的，比如說奧卡姆剃刀定律（Occam's Razor），指的是低復雜度的模型也可能泛化得很好。

不過這種「低復雜度」其實是很難定義的，因此更核心的問題是如何正確定義模型復雜度，以及我們可以通過什么方法能衡量并找到正確定義的復雜度。這是他們希望通過一些理論研究來解決的問題。

常見的方法是隱式的正則化方法，分析該方法可以聚焦于兩個方面：第一，算法更偏好低復雜度的方案；第二，低復雜度的模型泛化得很好。分析好這兩個方面，就可以理解現有的算法，同時探索新的度量復雜度的方法——因為算法偏好的復雜度基本就是正確的復雜度度量方法。

馬騰宇以其團隊開展的一些工作為例闡述了一些發現：

第一，在模型訓練和收斂方面，學習率至關重要。例如在他們最近的一篇 NeurIPS 論文中證明了，一個使用了大學習率的兩層神經網絡，只能表示線性的函數，因而即使使用了很復雜的模型，在有噪聲的情況下也只能表示一些非常簡單的解，從而使得模型要比想象中更簡單些，這實際上是噪聲在深度學習中起到了正則化的作用。
第二，初始化方法對模型的復雜度，也有同樣的效果。例如 Chizat Bach 在 2019 年發表了一篇論文，證明了大的初始化狀態更容易得到最小的神經切線核范數解。而他們自己的一些工作，則證明了小的初始化更偏向于得到更加「豐富」的狀態，會比核狀態更有意思，比如說最小的 L1 解或者原子核范數解。Woodworth 等人有一項工作基本上就說明：一個較小的初始化的模型，會收斂到一個最小的 L1 解而不是 L2 解上。

這些工作的核心思想是，不同的算法有不同的偏好，而不同的偏好則會有不同的復雜度量，學習率會有偏好，初始化狀態也有偏好。