理清神經網絡中的數學知識

本文作者： AI研習社

編輯：賈智龍

2017-08-31 11:44

導語：首先我想在這里聲明的是，本篇文章針對的是一些已經具備一定神經網絡知識的人。意在幫助大家梳理神經網絡中涉及的數學知識，以及理解其物理含義。

雷鋒網按：本文原作者Aaron Yang，原載于知乎專欄。雷鋒網已獲得作者授權。

導讀：首先我想在這里聲明的是，本篇文章針對的是一些已經具備一定神經網絡知識的人。意在幫助大家梳理神經網絡中涉及的數學知識，以及理解其物理含義。希望大家讀過之后，可以使大家對于神經網絡有更多角度的理解，幫助大家推導以及理解其中的數學公式。（本篇文章在敘述方式上多以白話為主，意在讓大多數人有形象的概念，所以在嚴謹性與通俗性上難免會出現失衡問題，希望大家理解。分享的目的即分享，非教授?。?/p>

1. 線性代數

矩陣乘以向量的物理含義

矩陣乘法我更喜歡稱作線性轉換。一個矩陣乘以向量中，矩陣相當于一個轉換函數，而向量是一個輸入，已知了輸入和函數，我們就可以知道輸出。這里需要強調的是，向量共有兩種形式，一種為列向量，一種為行向量。在默認情況下，向量是指列向量。大部分的國內教材中，并沒有特意提到這一點。很多人接觸到編寫代碼時，都是以行向量的形式開始學習，導致后續有很多概念產生混淆。在本文中，若無特殊說明，向量的形式默認為列向量。

首先我們先看以下的 2 道熱身題：

1. 假設讀者并不知道矩陣乘法的運算準則，能否在假想的幾何空間中，快速地反應出答案是多少呢？給大家 30s。（記住，不可以通過運算法則來進行計算）

$理清神經網絡中的數學知識$

2. 同樣地，利用假想的幾何空間想象，是否可以立即解答出矩陣 $理清神經網絡中的數學知識$ 是什么？

$理清神經網絡中的數學知識$

如果讀者可以快速解答出上面的問題，那么恭喜您，您已經了解了線性代數空間轉換的本質；如果沒有解答出，那就是我寫這篇文章的意義。

先拋開上面兩道題，這里來介紹一下矩陣。

線性代數與空間幾何是存在緊密的聯系的。基本所有的線性代數都有其對應的幾何表示方法。理解幾何，是理解線性代數的核心所在。以二維空間作為例子， $理清神經網絡中的數學知識$ 與 $理清神經網絡中的數學知識$ 是二維空間的單位基向量。任何的向量都是由這兩個單位基向量線性組合而成，并表示出來，例如 $理清神經網絡中的數學知識$ 。

現在，我們來看一張動圖：

理清神經網絡中的數學知識

更多動圖的信息請關注 3Blue1Brown主頁，里面有大量沖破你數學世界觀的知識。3Blue1Brown 還有視頻集。B 站有做了很贊的漢化，不過更鼓勵大家去看英文原版視頻。
YouTube 視頻集鏈接
 B 站漢化視頻集鏈接

在這張動圖的開始的階段，綠色向量代表 $理清神經網絡中的數學知識$ ，而紅色向量代表 $理清神經網絡中的數學知識$ 。我們盯住這兩個基向量，觀察到在動圖的末尾，這兩個向量分別落在了 $理清神經網絡中的數學知識$ 與 $理清神經網絡中的數學知識$ ，那么，這兩個基向量組成的坐標系也隨著這兩個基向量的變換而線性變換，形成了動圖末尾中藍色直線組成的二維坐標。假設經歷了上圖的坐標變換，原來的向量 $理清神經網絡中的數學知識$ ，現在到了何處呢？

通過仔細觀察動圖 (一點一點數格子) 我們可以看到，原來的向量 $理清神經網絡中的數學知識$ 變換為向量 $理清神經網絡中的數學知識$ 。

我們來繼續看看表示方法：

原來： $理清神經網絡中的數學知識$ ，變換后： $理清神經網絡中的數學知識$ 。

這其中的區別就是基向量不一樣了，而線性組合的系數 $理清神經網絡中的數學知識$ 與 $理清神經網絡中的數學知識$ 保持固定不變。

我們把變換后的基向量放在一起，變為矩陣：

$理清神經網絡中的數學知識$ $理清神經網絡中的數學知識$ $理清神經網絡中的數學知識$

這就是矩陣的由來，其實質就是將坐標整體線性變換。向量 $理清神經網絡中的數學知識$ 在經過線性變換 $理清神經網絡中的數學知識$ 變為向量 $理清神經網絡中的數學知識$ 表示形式為：

$理清神經網絡中的數學知識$ (注意：這里的表示順序為變換矩陣在左，向量為列向量在右側。)

我們在來看另一幅動圖來實踐一下，找到這幅動圖的線性變換矩陣是什么？

理清神經網絡中的數學知識

根據上面的方法，鎖定綠色與紅色基向量末尾的位置，這幅動圖的線性變換矩陣為： $理清神經網絡中的數學知識$ $理清神經網絡中的數學知識$ $理清神經網絡中的數學知識$

而其原來所有坐標系上的向量都隨之變換發生改變。

現在再回頭看看上面的兩道題？是否能夠通過想象的空間去快速找到答案？

上面我們講的是方陣，那么如果不是方陣呢？比如一個 $理清神經網絡中的數學知識$ 的矩陣，或者一個 $理清神經網絡中的數學知識$ 的矩陣呢？ (以下我們只用中括號來代表具體矩陣的形狀，具體數字并不重要。)

我們來以 $理清神經網絡中的數學知識$ 矩陣形式舉例，如下所示：

$理清神經網絡中的數學知識$

$理清神經網絡中的數學知識$ 的矩陣的物理含義就是把一個向量從二維表示方法轉換到三維表示。而轉換矩陣的每一列就代表：將二維空間對應的基向量轉換到三維的樣子。將這種變換規律映射到其他變換的二維向量；同樣地， $理清神經網絡中的數學知識$ 矩陣物理含義就是將一個向量從三維表示轉換成二維表示。轉換矩陣每一列代表：三維空間的基向量映射到二維空間之后的樣子。將這種變換規律映射到其他變換的三維向量。

現在，我們再進行下一步操作。如果我們假設讓一個 4 維向量，先轉化為 3 維向量，在轉化為二維向量，那么它的形式是什么樣子的呢？

第一步： $理清神經網絡中的數學知識$ 第二步： $理清神經網絡中的數學知識$

將兩步合并到一起為： $理清神經網絡中的數學知識$

通過以上形式，我們可以發現如果將一個列向量經過多次線性轉換，他的順序應該是從右至左的順序。這就是標準的線性代數書中所講到的連續線性變換的形式，從右至左也是線性代數數學家習慣的順序。

但是，在很多神經網絡包括深度學習網絡的課程中我們可以看到，更符合我們閱讀的順序是將一個輸入數據拿進來之后經過一次矩陣轉換，從左至右得到輸出結果。他們之間有什么聯系呢？

通過觀察我們可以知道，這其中最大的原因在于數據的形式，也就是上文中提到的每一個樣本表示方法是列向量還是行向量。如果是列向量，變換的順序就是從右至左；如果是行向量，變換順序就是從左至右。而相應的矩陣形狀也發生反轉。

$理清神經網絡中的數學知識$ 對比 $理清神經網絡中的數學知識$

所有形式為矩陣乘以矩陣

神經網絡中，大家都希望最終的形式為矩陣乘以矩陣，不希望中間有任何向量的存在，這樣顯得更酷，實際上計算也更快。這很簡單，現在我們只差最后一步。當我們把所有數據放在一起，還是如上方有 $理清神經網絡中的數學知識$ 個 $理清神經網絡中的數學知識$ 維行向量形式的數據，我們將這些行向量數據堆疊在一起形成 $理清神經網絡中的數學知識$ 的矩陣，經過多個矩陣的變換之后輸出為一個 $理清神經網絡中的數學知識$ 的矩陣。這樣，在計算過程中，全部為不同形狀的矩陣。當然，大家也可以想想如果是列向量該是什么形式。

以上內容想說明的就是，無論是上方哪一種形式，都是正確的。關鍵看輸入的數據是什么形式，形式決定了數據變換的順序，以及設計矩陣的形狀。

通過以上的形式，其實神經網絡前向傳導和向量在不同維度間的連續線性變換及其相似。唯一不同的一點就在于，在每次線性轉換后，神經網絡可以加一個非線性激活函數，使線性轉換變為非線性轉換。實際上，也就這么點區別。而非線性激活函數并不會改變數據的形狀，對后續矩陣乘法不造成任何影響。

小結一下上面線性代數部分我們發現了什么：

線性代數中的向量默認形式是列向量。
矩陣的實質就是將坐標整體線性變換。
矩陣的組合以列向量組合在一起，其代表各自的基向量變換之后的新向量是什么。
矩陣與向量相乘，矩陣與矩陣相乘，順序很重要，其決定權在于實際問題中樣本的表達形式，是行向量還是列向量。
神經網絡的前向傳導與線性代數中連續對于向量的線性變換過程極其相似，只是在層與層之間多了非線性激活函數。

神經網絡求的是什么？其實就是上方這么多矩陣中每一個位置的數字是多少？這就是我們最終的目的。那么如何求？這就需要微積分中鏈式法則的知識了。

2. 微積分

鏈式反向推導之所以很頭大，很大原因在于它將微積分求導和矩陣知識揉在一起。我盡量用盡量少的公式，記住極少的關鍵點，幫助大家去順利的推導神經網絡中運用到的鏈式推導。這樣對于公司的面試，還是實際科研過程中均不會發蒙。

明確目標

我們都知道，神經網絡的目的是訓練網絡中的參數，即矩陣中每一個位置的數值。我們通過構建對于這些參數的損失函數，最終找到損失函數 $理清神經網絡中的數學知識$ 最小值時的參數。最初的想法就是高中學習的求導的思路，只要導數等于 $理清神經網絡中的數學知識$ (這里涉及矩陣求導)，就找到了極值，也就找到了答案。但是由于網絡巨大（輸入數據維度大，每層網絡節點多，網絡層數多），計算資源消耗的也巨大（涉及矩陣求逆），以現在的設備，我們并不能一步到位的求出最小值，這也是為什么我們在神經網絡中使用梯度下降法一步一步逼近最小值的原因。其公式如下：

$理清神經網絡中的數學知識$

這就是梯度下降的公式。 $理清神經網絡中的數學知識$ 就是我們要所求的參數，它是一個轉換矩陣。而 $理清神經網絡中的數學知識$ 是一個標量，即一個數字（以下用 $理清神經網絡中的數學知識$ 來表示）。 $理清神經網絡中的數學知識$ 是通過迭代一步一步優化出來的，在初始的時候隨機賦值。所以我們的目標就是搞清楚 $理清神經網絡中的數學知識$ 是如何求出來的。

細化在神經網絡每一層，目標就是： $理清神經網絡中的數學知識$

目標明確了，那么我們是如何牽扯到鏈式求導呢？

明確幾個定義

先上圖，一個前饋神經網絡如下所示：

理清神經網絡中的數學知識

這里展示了一個非常簡單的三層神經網絡，更多的層次大家可以開腦洞。圖中的的公式大家應該已經非常熟悉。 $理清神經網絡中的數學知識$ 代表神將網絡每層的輸出值，是一個向量（一般是行向量）；第一層的輸出值就是輸入值 $理清神經網絡中的數學知識$ ； $理清神經網絡中的數學知識$ 代表線性輸出； $理清神經網絡中的數學知識$ 代表激活函數； $理清神經網絡中的數學知識$ 為最終的輸出值；每一個字符的上表代表其層數。

這里需要特別注意地是對于不同變量的上標層數對應關系一定不要弄混淆。比如 $理清神經網絡中的數學知識$ 是神經網絡第 $理清神經網絡中的數學知識$ 層與第 $理清神經網絡中的數學知識$ 層之間的轉換矩陣，即 $理清神經網絡中的數學知識$ 為第 $理清神經網絡中的數學知識$ 層與第 $理清神經網絡中的數學知識$ 層的轉換矩陣。

接下來，主角登場。我們要想知道神經網絡如何反向推導，只需記住這里的唯一定義的變量 $理清神經網絡中的數學知識$ 即可。

定義： $理清神經網絡中的數學知識$

$理清神經網絡中的數學知識$ 在一些翻譯的變量名中叫做 “殘差”。但是它是什么名字并不重要，但建議不要根據這個名字去揣測它的物理含義。如果想明白了那當然很好，但是若想不透徹很容易與其他概念弄混淆，最后云里霧里地以為自己懂了，但是自己推的時候仍然會錯?？偠灾?，只把它當做一個定義就好，背下來了就是了。而且，在鏈式推導中，只需要記住這個，其他的都好推。（注意： $理清神經網絡中的數學知識$ 也是向量，其形狀與 $理清神經網絡中的數學知識$ 一致。）

開始真正的推導

我們的目標：逐層計算出 $理清神經網絡中的數學知識$

將目標展開： $理清神經網絡中的數學知識$

我們看到，我們把目標分為前后兩部分。

第一部分，根據 $理清神經網絡中的數學知識$ 的定義可得到 $理清神經網絡中的數學知識$

第二部分，根據 $理清神經網絡中的數學知識$ 的定義可以得到 $理清神經網絡中的數學知識$

所以，我們的目標 $理清神經網絡中的數學知識$ 或者 $理清神經網絡中的數學知識$

到這里，我們很輕松地導出了我們目標的通項公式，是不是很簡單？就是做了個分解，然后分別求導，再組合在一起，就可以了。在這里，我們可以得到另外一條很有意思的結論，那就是我們求每一層轉換矩陣的導數（參數的導數）與最終目標函數 $理清神經網絡中的數學知識$ 的具體形式無關，這點是不是很神奇？

（注意：我們需要驗證分解的兩項是否可以進行矩陣乘法運算，并且最終矩陣的形狀符合規定。這里又與變量自身的形狀有關。我們觀察發現，在分解的第一部分中，最后一項多出了一個字符 $理清神經網絡中的數學知識$ ，這里代表轉置。這個是矩陣求導的法則，通過最后公式的法則也可以驗證。這部分有些復雜。但是，我們可以完全繞過去這樣復雜的關系。這里有個小技巧：若記不住這兩項矩陣相乘誰在前，誰在后，誰轉置，誰不動。只要記住 $理清神經網絡中的數學知識$ 與 $理清神經網絡中的數學知識$ 的形狀是一致的，在求出 $理清神經網絡中的數學知識$ 與 $理清神經網絡中的數學知識$ 之后，根據矩陣乘法的法則，隨便試出最后相乘的形狀符合 $理清神經網絡中的數學知識$ 的形狀即可，很快就可以試出正確答案。）

只剩最后一步

所謂反向推導，就是根據后一項的結果去計算前一項。我們 “通項公式” 搞到手了，那么最后一層的 “殘差” 是多少呢？

我們用 $理清神經網絡中的數學知識$ 來代表最后一層。根據 $理清神經網絡中的數學知識$ 的公式，我們可以依然進行如下分解：

$理清神經網絡中的數學知識$

從這個公式中我們可以看出我們將最后一層 “殘差” 又分解為兩部分。下面，我們分別看看在一般的回歸問題與二分類問題中 $理清神經網絡中的數學知識$ 到底長什么樣子。

1. 回歸問題

損失函數： $理清神經網絡中的數學知識$

求解分解后的第一部分：因為在回歸問題中，最后一層是沒有激活函數的，或者說激活函數為 $理清神經網絡中的數學知識$ 乘以其輸入值。所以，激活函數的導數就為 $理清神經網絡中的數學知識$ 。則有： $理清神經網絡中的數學知識$

求解分解后的第二部分： $理清神經網絡中的數學知識$

所以最終，我們求得： $理清神經網絡中的數學知識$

2. 二分類問題

損失函數： $理清神經網絡中的數學知識$

求解分解后的第一部分：二分類問題中，激活函數 $理清神經網絡中的數學知識$ ，其導數為 $理清神經網絡中的數學知識$ 。則有： $理清神經網絡中的數學知識$

求解分解后的第二部分： $理清神經網絡中的數學知識$

所以最終，我們求得： $理清神經網絡中的數學知識$

我們驚奇地發現，在對于回歸問題與二分類問題中，雖然損失函數與最后一層的激活函數均不一樣，但是其結果居然是同一個值。這是否是巧合？也許只有深入了解為何這樣設計損失函數與激活函數之后，我們才會知道答案。大家還可以想想，多分類問題的結果呢？

上述的推導中，我們也可以得到結論：在最后一層 “殘差” $理清神經網絡中的數學知識$ 中，是與損失函數 $理清神經網絡中的數學知識$ 和最后一層的激活函數 $理清神經網絡中的數學知識$ 兩項有關的。

小結一下神經網絡部分的一些要點：

記住前饋網絡中各個變量上標層數表達方式。各個教科書上表達可能會存在不同，一定要認真觀察清楚。
牢記 $理清神經網絡中的數學知識$ 的定義，是推導整個鏈式推導中最重要的一環。
在神經網絡 $理清神經網絡中的數學知識$ 層的鏈式推導中，我們的目標是 $理清神經網絡中的數學知識$ ，將其利用帶有 $理清神經網絡中的數學知識$ 項進行展開；而在最后一層 $理清神經網絡中的數學知識$ 層中我們主要推導的目標是 $理清神經網絡中的數學知識$ ，利用其定義將其展開。
在經典的回歸與二分類問題中，其 $理清神經網絡中的數學知識$ 結果完全相同，但計算過程卻完全不同。