<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給AI研習社
      發送

      0

      大白話解釋模型產生過擬合的原因!

      本文作者: AI研習社 編輯:賈智龍 2017-05-22 17:20
      導語:究竟是什么原因導致的過擬合?了解了原因才好避免。

      今天郭江師兄在實驗室講解了全體機器學習會第一章的知識,大家討論了一下過擬合的知識,這里我根據自己的理解,整理了一下原因,力求同最通俗的語言來描述,可能不是太嚴謹,但是總體思想能保證正確!

      一、過擬合的概念?

      首先我們來解釋一下過擬合的概念?

      過擬合就是訓練出來的模型在訓練集上表現很好,但是在測試集上表現較差的一種現象!下圖給出例子:

      大白話解釋模型產生過擬合的原因!

      我們將上圖第三個模型解釋為出現了過擬合現象,過度的擬合了訓練數據,而沒有考慮到泛化能力。在訓練集上的準確率和在開發集上的準確率畫在一個圖上如下

      大白話解釋模型產生過擬合的原因!

      從圖中我們能夠看出,模型在訓練集上表現很好,但是在交叉驗證集上表現先好后差。這也正是過擬合的特征!

      二、模型出現過擬合現象的原因

      發生過擬合的主要原因可以有以下三點:

      (1)數據有噪聲

      (2)訓練數據不足,有限的訓練數據

      (3)訓練模型過度導致模型非常復雜

      下面我將分別解釋這三種情況(這里按自己的理解解釋,歡迎大家交流):

      (1)數據有噪聲

      為什么數據有噪聲,就可能導致模型出現過擬合現象呢?

      所有的機器學習過程都是一個 search 假設空間的過程!我們是在模型參數空間搜索一組參數,使得我們的損失函數最小,也就是不斷的接近我們的真實假設模型,而真實模型只有知道了所有的數據分布,才能得到。

      往往我們的模型是在訓練數據有限的情況下,找出使損失函數最小的最優模型,然后將該模型泛化于所有數據的其它部分。這是機器學習的本質!

      那好,假設我們的總體數據如下圖所示:

      大白話解釋模型產生過擬合的原因!

      (我這里就假設總體數據分布滿足一個線性模型 y = kx+b, 現實中肯定不會這么簡單,數據量也不會這么少,至少也是多少億級別,但是不影響解釋。反正總體數據滿足模型 y)

      此時我們得到的部分數據,還有噪聲的話,如圖所示:

      大白話解釋模型產生過擬合的原因!

      (紅色數據點為噪聲)

      那么由上面訓練數據點訓練出來的模型肯定不是線性模型(總體數據分布下滿足的標準模型),比如訓練出來的模型如下:

      大白話解釋模型產生過擬合的原因!

      那么我拿著這個有噪聲訓練的模型,在訓練集合上通過不斷訓練,可以做到損失函數值為 0,但是拿著這個模型,到真實總體數據分布中(滿足線性模型)去泛化,效果會非常差,因為你拿著一個非線性模型去預測線性模型的真實分布,顯而易得效果是非常差的,也就產生了過擬合現象!

      (2)訓練數據不足,有限的訓練數據

      當我們訓練數據不足的時候,即使得到的訓練數據沒有噪聲,訓練出來的模型也可能產生過擬合現象,解釋如下:

      假設我們的總體數據分布如下:

      大白話解釋模型產生過擬合的原因!

      (為了容易理解,假設我們的總體數據分布滿足的模型是一個二次函數模型)

      我們得到的訓練數據由于是有限的,比如是下面這個:

      大白話解釋模型產生過擬合的原因!

      (我只得到了 A,B 兩個訓練數據)

      那么由這個訓練數據,我得到的模型是一個線性模型,通過訓練較多的次數,我可以得到在訓練數據使得損失函數為 0 的線性模型,拿這個模型我去泛化真實的總體分布數據(實際上是滿足二次函數模型),很顯然,泛化能力是非常差的,也就出現了過擬合現象!

      (3)訓練模型過度導致模型非常復雜

      訓練模型過度導致模型非常復雜,也會導致過擬合現象!這點和第一點倆點原因結合起來其實非常好理解,當我們在訓練數據訓練的時候,如果訓練過度,導致完全擬合了訓練數據的話,得到的模型不一定是可靠的。

      比如說,在有噪聲的訓練數據中,我們要是訓練過度,會讓模型學習到噪聲的特征,無疑是會造成在沒有噪聲的真實測試集上準確率下降!

      好了,到這里本文要講的內容已經講完了,我根據自己的理解,試圖通俗的講解產生過擬合的原因,希望能夠讓更多的人有一個直觀的理解~ 真心希望對大家有幫助,歡迎大家指錯交流~

      雷鋒網按:本文原作者憶臻,原載于作者的知乎專欄


      深度學習之神經網絡特訓班

      20年清華大學神經網絡授課導師鄧志東教授,帶你系統學習人工智能之神經網絡理論及應用!

      課程鏈接:http://www.mooc.ai/course/65

      加入AI慕課學院人工智能學習交流QQ群:624413030,與AI同行一起交流成長


      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      大白話解釋模型產生過擬合的原因!

      分享:
      相關文章

      編輯

      聚焦數據科學,連接 AI 開發者。更多精彩內容,請訪問:yanxishe.com
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 金华市| 国产在线你懂| 伊人九九网香蕉精品| 久久久噜噜噜久久| 欧美三级午夜理伦三级| 亚洲国产精品成人网站| 中文字幕天天躁日日躁狠狠躁免费| 无码人妻丰满熟妇精品区| 7777久久亚洲中文字幕蜜桃| 人妻丰满熟妇无码区免费| 中文字幕亚洲精品第一页| 成人做受黄大片| 绥化市| 日韩亚洲国产中文字幕欧美| 大色综合| 在线观看国产午夜福利片| 免费av网站| 亚洲色欲久久久久综合网| 免费国产好深啊好涨好硬视频| 久久熟妇| 国产精品亚洲综合色区韩国| 艳妇臀荡乳欲伦交换h在线观看| 无码人妻丰满熟妇区五十路百度| 乱子轮熟睡1区| 久久99国产精品久久| 日日噜噜夜夜久久亚洲一区二区| 国产精品久久久久影院嫩草| 久久99嫩草熟妇人妻蜜臀| 中国不卡一区| 极品无码国模国产在线观看| 国产caonila在线观看| 免费视频一区二区三区亚洲激情| 国产九色AV刺激露脸对白| 亚洲欧洲AV| 成人h动漫精品一区二区樱花动漫| 久久婷婷五月综合97色直播| 阳江市| 永久免费无码av网站在线观看| 91在线小视频| 日韩亚洲精品一卡二卡| 2024男人天堂|