<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給汪思穎
      發送

      0

      模式識別與機器學習第一講(上)

      本文作者: 汪思穎 2017-09-30 17:37
      導語:本文主要涉及機器學習的分類,以及一些基礎定義,如誤差函數、正則化等。

      雷鋒網 AI科技評論按,本文作者Frankenstein,首發于知乎專欄閑敲棋子落燈花,雷鋒網 AI科技評論獲其授權轉載。

      關鍵詞:有監督學習、無監督學習、強化學習、回歸、分類、誤差函數、泛化、正則化、超參數、驗證集。

      序言

      從去年5月入坑以來,線上線下都上過機器學習的課(線上是看了Coursera的課入門,線下上了DS-GA 1003 Machine Learning and Computational Statistics),但從沒有完整讀過一本書。

      暑假和小伙伴們約好一起讀Pattern Recognition and Machine Learning(模式識別與機器學習,下簡稱PRML)。初步打算每周讀一章,大家輪流主講。開了專欄以后一直沒寫過東西,第一部分內容就準備貢獻給PRML了。

      可能有用的鏈接:

      1. Christopher Bishop at Microsoft Research (https://www.microsoft.com/en-us/research/people/cmbishop/)在這里可以找到部分章節的PPT、書的勘誤、部分答案。

      2. PRML/PRMLT (https://github.com/PRML/PRMLT)陳默(他也上知乎,沒關注的可以關注一發)用MATLAB給出了書里的所有模型實現。

      3. scikit-learn/scikit-learn (https://github.com/scikit-learn/scikit-learn)視情況我可能會給出少量代碼,但大部分內容還是會更加側重模型的理論和動機,結合適當的數學推導。如果想要了解一些代碼的實現的話,scikit-learn應該還是現在最常用的實現,可以考慮學習一下它的模型源代碼。

      書的完整答案理論上是只對教師開放的,但由于大家都可以想見的原因搜一下就可以搜到了。

      華盛頓大學的Pedro Domingos教授認為機器學習有以下幾個門派:

      • 基于邏輯、哲學,出發點為填補現存知識中空白的符號學派

      • 基于神經科學,出發點為模擬大腦的聯結學派

      • 基于進化生物學,出發點為模擬進化的進化學派

      • 基于統計,出發點為系統的降低不確定性的貝葉斯學派

      • 基于心理學,出發點為發現新舊事物之間相似度的類推學派

      在這之外還有基于動物學習、最優控制、動態規劃的強化學習以及更加接近傳統頻率學派的期望最大化。Domingos的slides(https://learning.acm.org/webinar_pdfs/PedroDomingos_FTFML_WebinarSlides.pdf)里有更多這方面的內容。他的《終極算法--機器學習和人工智能如何重塑世界》一書詳細科普了五個學派,挺有意思的,感興趣的可以去看一下(提醒:翻譯的不怎么樣)。

      PRML就是貝葉斯學派的一本經典教科書,從貝葉斯學派的視角系統梳理了機器學習的知識,給人一種萬物皆可貝葉斯化的感覺。

      在這一系列筆記里,我希望梳理每一章節里比較重要的內容,并結合一些我到目前為止對機器學習的理解做一些適當的拓展和探究。這些內容基本假設讀者上過一節機器學習入門課,可能不是self-contained的,可能不適合完全不了解的人閱讀,但希望對有一些初步了解的讀者能有幫助,也歡迎大家不吝指正。

      如無另外點明,每一講內容都有參考PRML,每一講其余的參考內容會列在文章末尾。

      第一章節(1. Introduction)內容始于多項式曲線擬合的例子,終于信息論。

      從機器學習里主流的三類問題——有監督學習、無監督學習、強化學習的定義開始,Bishop用一個有監督學習里的回歸問題引出了對誤差函數、泛化、模型復雜度、正則化、過擬合、驗證集等核心概念。PRML這本書號稱是self-contained的,只假設讀者具備多元微積分、線性代數水準的數學能力,因此不嚴格地介紹了概率論里的基本知識以保證讀者具備讀完余下內容的基礎知識。當然還是存在一些小的問題,比如隨機變量到底是什么?誤差條又是什么?當然瑕不掩瑜,在大部分情況下,本書很好展現了方法和問題的動機。

      正文

      1. Introduction

      機器學習問題可以做如下分類:

      1. 有監督學習(supervised learning): Applications in which the training data comprises examples of the input vectors along with their corresponding target vectors.

        1. 分類(classification): to assign each input vector to one of finite number of discrete categories.

          1. 例子:識別手寫數字并將其標記為0~9這10個數字中的一個。

        2. 回歸(regression): the desired output consists of one or more continuous variables.

          1. 例子:基于反應物、溫度、壓力預測化學制造過程的產出。

      2. 無監督學習(unsupervised learning): Pattern recognition problems in which the training data consists of a set of input vectors 模式識別與機器學習第一講(上) without any corresponding target values.

        1. 聚類(clustering): to discover groups of similar examples within the data

        2. 密度估計(density estimation): to determine the distribution of data within the input space

        3. 降維(dimensionality reduction): to project the data from a high-dimensional space down to two or three dimensions

        4. 數據點/樣本生成(data point/sample generation): to obtain new samples from the probability distribution that is close to the underlying probability distribution of the data points/samples

      3. 強化學習(reinforcement learning): Problems about finding suitable actions to take in a given situation in order to maximize a reward, where optimal outputs are unknown.

        1. 例子:Play the game of backgammon to a high standard with a neural network using appropriate reinforcement learning techniques (Tesauro, 1994). (這可能是深度強化學習最早成功的案例之一了。)

        2. 上面的案例也可作為credit assignment的一個例子。具體地說,在一局游戲結束后,勝利或失敗被以某種形式歸因于游戲中采取的所有行動。個人認為這里credit assignment是指在一個episodic task結束后,如何恰當的給特定行動,或者在某個特定狀態采取特定行動賦予合適的reward。

        3. 這里也有提到explore v.s. exploit和trial and error的思想。但總的來說因為本書基本沒怎么觸及強化學習,講的不是特別好。如果要比較好了解強化學習的話還是應該看Sutton & Barto (http://incompleteideas.net/sutton/book/bookdraft2016sep.pdf)那本書。

      本章主要介紹了一些最重要的概念和一些簡單的例子。在這之中包括將貫穿全書的三個工具:概率論、決策論以及信息論。

      1.1 Example: Polynomial Curve Fitting

      Example/Motivation: (a simple regression problem)

      Given a real-valued target variable t, we wish to use this observation to predict the value of a real-valued target variable t. In particular, given N observations of x written as模式識別與機器學習第一講(上) together with corresponding observations of t written as 模式識別與機器學習第一講(上), can we fit the data so that we can make predictions of the value 模式識別與機器學習第一講(上) of the target variable for some new value 模式識別與機器學習第一講(上) of the input variable?

      這是一個典型的二維回歸問題。上過Andrew Ng Coursera 公開課的朋友們應該還記得一上來遇到的那個給定住宅面積預測住宅價格的問題。Bishop這里給的訓練數據則是 模式識別與機器學習第一講(上)模式識別與機器學習第一講(上)模式識別與機器學習第一講(上)個均勻分布點上的取值加以基于同一高斯分布產生的隨機噪聲。如下圖是模式識別與機器學習第一講(上) 時的情況。

      模式識別與機器學習第一講(上)

      首先我們考慮用一個模式識別與機器學習第一講(上)階多項式擬合數據,

      模式識別與機器學習第一講(上) , 模式識別與機器學習第一講(上) (1.1)

      模式識別與機器學習第一講(上) 是一個關于 模式識別與機器學習第一講(上) 的線性方程。

      定義:關于未知參數的線性方程被稱為線性模型(linear models)。

      我們基于訓練數據決定模式識別與機器學習第一講(上)的取值,一個潛在的假設是我們需要預測的模式識別與機器學習第一講(上) 和訓練數據來自同一分布或兩者分布非常接近,否則就沒有意義了。

      a. 誤差函數

      怎樣的模式識別與機器學習第一講(上) 取值是好的呢?我們需要一把尺子來度量,這就是誤差函數(error function)。通過累加每一個訓練數據的預測目標變量模式識別與機器學習第一講(上)相對真實目標變量模式識別與機器學習第一講(上)的偏移程度,誤差函數負責衡量訓練好的模型,即模式識別與機器學習第一講(上) 和訓練數據分布之間的相似程度,其取值一般為非負。誤差函數的值越大,對于訓練數據而言模型越糟。

      例子:模式識別與機器學習第一講(上)(平方誤差函數)

      很自然地,在回歸問題中,當模型完美擬合訓練數據時,誤差一般會降到0。但值得注意的是在分類問題中,即便分類完美無缺誤差也可能不為0。

      以下圖為例,我們有一個二元分類問題。在二維平面上有一個紅色類和一個藍色類。假設我們想用一條直線(在第二講里我們會提到,它們被稱為決策邊界)來把它們分開。圖中同樣①和②都完美進行了分類,但我們會更希望模型訓練得到的是①而不是②因為①離兩個類最短距離之和要大于②。直覺來說當我們有更多數據樣本而不只是眼前6個的時候①成功的可能性更高。這個問題的正式名稱是泛化,我們在后面會提到。因此我們可能設計一個誤差函數使得②的誤差高于①。因此同樣①、②在數據上都能沒有錯誤地進行分類,②的誤差可能仍然不為0。

      模式識別與機器學習第一講(上)

      訓練模型的過程中,我們希望調整模式識別與機器學習第一講(上) 來減少誤差函數的值,可以說是面向減少誤差建模,故用模式識別與機器學習第一講(上)來表示誤差的值。

      對于某些誤差函數(涉及函數的convexity,凸性),如平方誤差,我們可以通過對表達式關于未知參數(如模式識別與機器學習第一講(上)之于模式識別與機器學習第一講(上))進行求導,令求導后的表達式等于0來得到最優參數模式識別與機器學習第一講(上),這樣得到的參數有閉型(有限次常見運算組合給出的表達式)。

      b. 由泛化而來的模型選擇問題

      現在我們知道了對于一個給定的正整數M,如何擬合訓練數據。一個接踵而來的問題是我們要如何決定M的取值。

      考慮模式識別與機器學習第一講(上)的四種情況,對于每一種情況,我們都基于平方誤差找到擬合訓練數據最好的多項式,如下圖。紅線為多項式圖形,綠線為模式識別與機器學習第一講(上)的圖形。

      模式識別與機器學習第一講(上)

      由上圖可知,模式識別與機器學習第一講(上)越大,多項式擬合數據的能力越強。當模式識別與機器學習第一講(上)時,多項式甚至完美擬合了所有數據。然而我們從形狀上可以發現此時多項式的形狀與模式識別與機器學習第一講(上)相去甚遠。可以預見當我們在模式識別與機器學習第一講(上)上取新的數據點的話,多項式很難較好擬合這些新的數據點。相較之下,模式識別與機器學習第一講(上)時我們得到的多項式形狀則相當接近模式識別與機器學習第一講(上)的形狀。像模式識別與機器學習第一講(上)時我們得到的模型這樣能很好擬合訓練數據卻對于從同一概率分布得到的新數據擬合能力極差的情況,被稱為過擬合。像模式識別與機器學習第一講(上)時這樣模型連訓練數據都無法很好擬合的情況被稱為欠擬合。

      回到問題的出發點,我們希望訓練出的模型能盡可能學習到數據的原始分布(或者不妨稱之為數據的生成器),使得模型能精準預測來自該分布的新數據。模型不光需要在訓練數據上有好的表現,在新的數據上也應如此。正確預測新數據標簽(即模式識別與機器學習第一講(上)里的模式識別與機器學習第一講(上))的能力被稱為泛化。

      由此,我們可以提出一種衡量模型泛化能力的量化方法。除了訓練數據外,我們另外取一組測試數據。在知道數據真實分布的情況下(如例子中的模式識別與機器學習第一講(上)),我們直接從數據分布里采集新的數據點。否則我們可以預先把手頭的數據集劃分成訓練數據和測試數據。在訓練模型(擬合訓練數據)的過程中,擬合僅僅基于訓練數據。在訓練完后,我們用測試數據檢測模型的泛化能力,計算誤差函數的數值。

      當我們用這一方法應用到多項式模型上時,我們會發現模式識別與機器學習第一講(上)時模型在測試數據上的表現相比模式識別與機器學習第一講(上)時所有模型的表現都要糟糕的多。回到式1.1,當模式識別與機器學習第一講(上)時,考慮標量的話,我們有十個未知參數模式識別與機器學習第一講(上)。當我們有十個線性獨立的數據點時,我們可以精確得到每個未知參數的唯一解,因而得到的多項式模型完全依賴于訓練數據點。事實上我們應該可以通過插值法得到近乎完全一樣(考慮到可能存在數值誤差)的多項式。我們注意到模式識別與機器學習第一講(上)時多項式對訓練數據的擬合其實已經相當不錯了。一個由此而生的想法是在數據擬合改進有限的情況下,我們應該盡可能選擇簡單的模型,在多項式模型里就是選擇盡可能小的模式識別與機器學習第一講(上)。上述原則也可以被概括為“如無必要,勿增實體”,即是著名的奧卡姆剃刀原理。當然不同人對于這個問題可能存在不同看法(https://www.quora.com/Does-Occams-Razor-apply-in-machine-learning)。有人就認為我們在考慮泛化能力的前提下還是要盡可能選擇復雜的模型從而盡可能避免關于數據分布信息的丟失。

      對于某一特定模型,避免過擬合還有一種方法是使用盡可能多的訓練數據。同樣在模式識別與機器學習第一講(上)的情況下,當我們取15個數據點乃至100個數據點時,隨著訓練數據集越來越大,我們曲線擬合的結果也越來越好。

      模式識別與機器學習第一講(上)

      在這100個數據點上,模式識別與機器學習第一講(上)時得到的模型很可能不如模式識別與機器學習第一講(上)來得好。通常數據集越大,我們所能擬合的模型的復雜程度或表示能力越高,因此得到的模型可能更接近于數據的真實分布。一種粗略的機制是訓練數據的樣本數量應當不小于未知參數數量的某一固定倍數(如5倍或10倍)。值得一提的是未知參數的數量并不能完全衡量模型的復雜度,在第三章我們會接觸到更多這方面的內容。

      c. 正則化(regularization)

      動機:復雜的模型擁有更強的表示能力,有沒有可能在無法隨意增加數據集的情況下,避免或改善過擬合的問題呢?

      回到之前的回歸問題,當模式識別與機器學習第一講(上)時,如果我們具體寫出擬合得到多項式的系數值的話會發現系數的絕對值非常大。系數越大,模型上下起伏越厲害。而系數越小,模型的形狀越平滑。我們希望能在擬合訓練數據程度和模型波動程度之間達成一個平衡,并寄希望于這種平衡能在一定程度上反映出模型對于真實數據分布的學習程度。我們引入一種叫正則化的方法。

      具體地,我們給原本的誤差函數加上一個正則項,令模式識別與機器學習第一講(上)(或者在更一般的情況下我們考慮模式識別與機器學習第一講(上),預測函數的復雜度),模式識別與機器學習第一講(上) 決定了正則項的權重,模式識別與機器學習第一講(上)可以看做是一個衡量模型復雜度的函數。最常見的模式識別與機器學習第一講(上)就是模式識別與機器學習第一講(上)范數(模式識別與機器學習第一講(上)-norm),模式識別與機器學習第一講(上)。上述正則化采取的是Tikhonov形式(form),另外一種正則化的形式是Ivanov形式:模式識別與機器學習第一講(上)使得模式識別與機器學習第一講(上)模式識別與機器學習第一講(上)一般由交叉驗證(cross validation)決定。

      我們定義Tikhonov形式和Ivanov形式等價,如果:

      • 模式識別與機器學習第一講(上), Ivanov解,模式識別與機器學習第一講(上) 使得模式識別與機器學習第一講(上),對于某些模式識別與機器學習第一講(上)也是一個Tikhonov解:模式識別與機器學習第一講(上)模式識別與機器學習第一講(上)

      • 反過來,模式識別與機器學習第一講(上)模式識別與機器學習第一講(上)使得與模式識別與機器學習第一講(上)對應的Tikhonov解為一個與模式識別與機器學習第一講(上)對應的Ivanov解。

      換言之,兩者的解空間相同。

      兩種形式是否滿足上述等價的定義要根據具體的誤差函數和模型復雜函數模式識別與機器學習第一講(上)來決定。

      模式識別與機器學習第一講(上)范數可能是最常見的正則項了:模式識別與機器學習第一講(上), 模式識別與機器學習第一講(上) (1.4)。值得注意的是通常我們不選擇把模式識別與機器學習第一講(上)納入正則項,因為這會導致結果取決于對目標變量/標簽的原點的選擇。

      加入正則項這樣的技巧在統計里被稱為收縮(shrinkage),因為他們降低了系數的數值。在神經網絡里,這種途徑被稱為權重下降(weight decay)。

      在式1.4中,我們選擇了一個二階正則式。當模式識別與機器學習第一講(上)為平方誤差函數時,目標函數為式1.4的回歸問題被稱為ridge regression。如果我們選擇了一個一階正則項,即 模式識別與機器學習第一講(上)時,模式識別與機器學習第一講(上)代表的回歸問題被稱為lasso(least absolute shrinkage and selection operator) regression,在3.1.4我們會更深入地學習這個問題。

      d.訓練集,驗證集,測試集

      我們往往通過超參數(hyperparameter),一類由我們預先選擇而不是模型從數據習得的參數,來決定模型的復雜度(如之前提到的模式識別與機器學習第一講(上)以及模式識別與機器學習第一講(上))。我們不應該基于測試集(測試數據的集合)來決定模型復雜度,否則模型可能會直接對測試集過擬合,這無異于作弊。同樣由于過擬合的考慮,我們也不能基于訓練集(訓練數據的集合)來選擇超參數。我們取一個新的數據集,驗證集,來選擇模型超參數。當我們知道數據的真實分布時,我們可以直接從分布采集驗證集,否則我們可以把手上的數據集分成訓練集、驗證集或者訓練集、驗證集、測試集。

        雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

        模式識別與機器學習第一講(上)

        分享:
        相關文章

        編輯

        關注AI學術,例如論文
        當月熱門文章
        最新文章
        請填寫申請人資料
        姓名
        電話
        郵箱
        微信號
        作品鏈接
        個人簡介
        為了您的賬戶安全,請驗證郵箱
        您的郵箱還未驗證,完成可獲20積分喲!
        請驗證您的郵箱
        立即驗證
        完善賬號信息
        您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
        立即設置 以后再說
        主站蜘蛛池模板: 狠狠爱无码一区二区三区| 香蕉久久精品日日躁夜夜躁夏| 99免费视频| 亚洲国产成人精品激情资源9| 成人AV影视| 视频一区视频二区日韩专区| 热re99久久精品国产99热| 激情图区| 精品久久久久久国产| 国产XXXX| 亚洲欧美综合人成在线| 久久国产乱子伦免费精品无码| 一本一本久久aa综合精品| 色婷婷久久久swag精品| 亚洲欧美日韩国产精品一区| 国产又大又黑又粗免费视频| 91亚洲色图| 丰满少妇人妻久久久久久| 洋洋av| 国产91人妻人伦a8198v久| 国产精品久久久久影院色| 国产91无毒不卡在线观看| 亚洲国产精品乱码一区二区| 国产顶级熟妇高潮xxxxx| 国产蜜臀av在线一区尤物| 罗定市| 丝袜人妻一区二区三区网站| 岛国无码av| 377人体粉嫩噜噜噜| 丁香久久婷婷| 欧洲AV在线| 亚洲天堂无码| 九九免费成年人在线观看| 人妻精品| 伊人色亚洲| 国产免费自拍视频| 原味小视频在线www国产| 欧美福利在线| 99久久久国产精品免费牛牛| 人妻少妇不满足中文字幕| 午夜福利精品在线观看|