0
雷鋒網 AI科技評論按,本文作者Frankenstein,首發于知乎專欄閑敲棋子落燈花,雷鋒網 AI科技評論獲其授權轉載。
本文接模式識別與機器學習第一講(上)。關鍵詞:隨機變量、條件概率、邊際概率、sum rule、product rule、貝葉斯公式、先驗概率、后驗概率、獨立、概率質量函數、概率密度函數、累計分布函數、多元分布、換元、期望、條件期望、方差、協方差。
1.2 Probability Theory
動機:模式識別里的一個關鍵概念是不確定性。不確定性的來源有兩個:測量的噪聲以及數據集大小有限。概率論提供了一種量化和操作不確定性的工具,是模式識別的根基之一。當我們同時運用概率論和決策論,我們可以基于給定信息做出最優預測,無論信息是否完整、明確。
如沒有特別強調,以下均表示隨機變量。嚴格地說一個隨機變量
是一個從樣本空間(sample space, 潛在結果的集合)
到可測空間(measurable space)
的可測函數(measurable function)。這涉及到測度論的知識,遠遠超出了本書對讀者數學知識的假設。鑒于我們這里不追求嚴格的定義,可以認為一個隨機變量是一個可以從一個集合中取不同值的變量。
條件概率:表示已知
的情況下,
發生的概率,被稱為給定
,
的條件概率。我們可以把這一定義拓展到給定多于一個條件的情況下如
。
sum rule: , 這里的
常被稱為邊際概率(marginal probability),因為它可經由取便其它變量(如
)的所有可能值時,計算
與它們的聯合分布的概率的總和來得到。
product rule:
symmetry property:
基于product rule和symmetry property,我們可以得到大名鼎鼎的貝葉斯定理/公式(Bayes' theorem):。由sum rule, product rule和symmetry property可得
。
。因此上式中
可被看做使左邊取所有可能
值的條件概率之和為1 的歸一化常數。
sum rule,product rule以及symmetry property像條件概率一樣可以被拓展到多于兩個隨機變量的情況。
貝葉斯定理的一個重要解釋涉及先驗概率(prior probability)和后驗概率(posterior probability)。通俗地講,先驗概率是我們一無所知的情況下根據經驗、常規情況計算的,后驗概率是在我們得到了新的信息情況下對先驗概率進行的修正,更加準確。我們可以考慮為
的先驗概率而
為知道
后
的后驗概率。
獨立:為兩個隨機變量,如果
,我們稱
獨立于
且
獨立于
或者
彼此獨立。注意這種情況下
。我們還會經常見到兩兩獨立(pairwise independence,一個隨機變量的集合中任取兩個隨機變量都彼此獨立)和彼此獨立(mutually independence,對于一個隨機變量的集合
,它們一起的聯合分布概率等于它們各自的分布概率之積:
)。
1.2.1 Probability densities
隨機變量有離散型和連續性兩種。離散型隨機變量定義在事件的離散集合上(如篩子的點數,硬幣的正反等等),連續型隨機變量定義在事件的連續集合上(如區間)。就像離散型隨機變量與概率質量函數(probability mass function)相關聯一樣,連續型隨機變量與概率密度函數(probability density function)相關聯。
a. 概率密度函數具有以下特點:
;
;
在
的概率為
。
b. 換元/變量選擇
給定的概率密度函數
,令
,則有
。一個相關的結果是概率密度函數的最大值取決于變量的選擇。
c. 累積分布函數(cumulative distribution function)
的概率為
,
被稱為累積分布函數。
。
d.多元分布
考慮多個連續型隨機變量的聯合分布。假設我們有個連續型隨機變量
,我們可以用一個向量把它們“封裝”起來:
使得
。如此得到的概率密度函數仍然要滿足 a 部分的特點。我們同樣也可以考慮離散型隨機變量和連續型隨機變量的聯合分布。
1.2.2 期望(expectation)和協方差(covariance)
期望:函數在概率分布
下的平均值被稱為
的期望,用
表示。
對于離散型隨機變量,;
對于連續型隨機變量,。
給定概率分布采集到的個數據點:
,我們可以近似計算
的值為
。由大數定理可知,隨著
,這一近似逼近
。
當我們考慮多變量函數的期望時,我們可以在右下角加一個下標表示關于哪個隨機變量取期望,如
表示
關于
的期望。
條件期望(conditional expectation):在條件概率分布
下的平均值被稱為
的條件期望,用
表示。
對于離散型隨機變量,;
對于連續型隨機變量,。
方差(variance):的方差為
。可以認為方差衡量了
在
附近的變化性。
協方差(covariance):對于任意兩個隨機變量,它們之間的協方差定義為
,它反映了
一起變化的程度。
一個隨機變量與其本身之間的協方差等于其方差。
當彼此獨立時,
。
當為兩個隨機變量的向量時,設
含有
個元素,
含有
個元素
,此時
實際上是一個
的矩陣,并且矩陣中第
行的第
個元素代表了
和
之間的協方差。
對于任意一個隨機變量的向量,
。
1.2.3 Bayesian probabilities
這一節可以用一個問題來概括:什么是概率?之前知乎上也有類似的討論:概率(Probability)的本質是什么? - 知乎
龐加萊說,“概率僅僅是我們無知程度的度量,據定義,我們不曉得其定律的現象,都是偶然現象”。
不少數學家說,概率是定義在-代數上,值域為[0, 1]的測度。
頻率論者(frequentist古典統計學者)說,概率是隨機、可重復事件的出現頻率。
貝葉斯論者(Bayesian)說,概率提供了一種對不確定性的量化。
其它參考內容:
DS-GA 1003關于L1, L2正則化的slides:https://davidrosenberg.github.io/mlcourse/Lectures/2b.L1L2-regularization.pdf
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。