<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發者 正文
      發私信給汪思穎
      發送

      3

      Kaggle機器學習之模型融合(stacking)心得

      本文作者: 汪思穎 2017-09-29 19:22
      導語:本文適用于被stacking折磨的死去活來的新手

      雷鋒網 AI科技評論按,本文作者吉他手,雷鋒網 AI科技評論獲其授權發布。

      此文道出了本人學習Stacking入門級應用的心路歷程。

      在學習過程中感謝@貝爾塔模型融合方法,以及如何在 Kaggle 首戰中進入前 10%這篇文章(作者是章凌豪)。對于兩位提供的信息,感激不盡。同時還有Kaggle上一些關于ensemble的文章和代碼,比如這篇(https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python)。

      本文適用于被stacking折磨的死去活來的新手,在網上為數不多的stacking內容里,我已經假設你早已經看過了上述所提到的那幾篇有用的文章了。但是,看完之后內心還是臥槽的。我希望下面的內容能成為,你在學習stacking的曲折道路上的一個小火把,給你提供一些微弱的光亮。

      本文以Kaggle的Titanic(泰坦尼克預測)入門比賽來講解stacking的應用(兩層!)。

      數據的行數:train.csv有890行,也就是890個人,test.csv有418行(418個人)。

      而數據的列數就看你保留了多少個feature了,因人而異。我自己的train保留了 7+1(1是預測列)。

      在網上為數不多的stacking內容里,相信你早看過了這張圖:Kaggle機器學習之模型融合(stacking)心得

      這張圖,如果你能一下子就能看懂,那就OK。

      如果一下子看不懂,就麻煩了,在接下來的一段時間內,你就會臥槽臥槽地持續懵逼......

      因為這張圖極具‘誤導性’。(注意!我沒說這圖是錯的,盡管它就是錯的!!!但是在網上為數不多教學里有張無碼圖就不錯啦,感恩吧,我這個小弱雞)。

      我把圖改了一下:

      Kaggle機器學習之模型融合(stacking)心得對于每一輪的 5-fold,Model 1都要做滿5次的訓練和預測。

      Titanic 栗子:

      Train Data有890行。(請對應圖中的上層部分)

      每1次的fold,都會生成 713行 小train, 178行 小test。我們用Model 1來訓練 713行的小train,然后預測 178行 小test。預測的結果是長度為 178 的預測值。

      這樣的動作走5次! 長度為178 的預測值 X 5 = 890 預測值,剛好和Train data長度吻合。這個890預測值是Model 1產生的,我們先存著,因為,一會讓它將是第二層模型的訓練來源。

      重點:這一步產生的預測值我們可以轉成 890 X 1 (890 行,1列),記作 P1 (大寫P)

      接著說 Test Data 有 418 行。(請對應圖中的下層部分,對對對,綠綠的那些框框)

      每1次的fold,713行 小train訓練出來的Model 1要去預測我們全部的Test Data(全部!因為Test Data沒有加入5-fold,所以每次都是全部!)。此時,Model 1的預測結果是長度為418的預測值。

      這樣的動作走5次!我們可以得到一個 5 X 418 的預測值矩陣。然后我們根據行來就平均值,最后得到一個 1 X 418 的平均預測值。

      重點:這一步產生的預測值我們可以轉成 418 X 1 (418行,1列),記作 p1 (小寫p)

      走到這里,你的第一層的Model 1完成了它的使命。

      第一層還會有其他Model的,比如Model 2,同樣的走一遍, 我們有可以得到  890 X 1  (P2) 和  418 X 1 (p2) 列預測值。

      這樣吧,假設你第一層有3個模型,這樣你就會得到:

      來自5-fold的預測值矩陣 890 X 3,(P1,P2, P3)  和 來自Test Data預測值矩陣 418 X 3, (p1, p2, p3)。

      -----------------------------------------

      到第二層了..................

      來自5-fold的預測值矩陣 890 X 3 作為你的Train Data,訓練第二層的模型
      來自Test Data預測值矩陣 418 X 3 就是你的Test Data,用訓練好的模型來預測他們吧。

      ---------------------------------------

      最后 ,放出一張Python的Code,在網上為數不多的stacking內容里, 這個幾行的code你也早就看過了吧,我之前一直卡在這里,現在加上一點點注解,希望對你有幫助:

      Kaggle機器學習之模型融合(stacking)心得

      雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知

      Kaggle機器學習之模型融合(stacking)心得

      分享:
      相關文章

      編輯

      關注AI學術,例如論文
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 日屄自拍| 亚洲AV成人无码久久精品黑人| 亚洲男女羞羞无遮挡久久丫| 丰满少妇人妻无码专区| 沈丘县| 摸丰满大乳奶水www免费| 五月天成人社区| 午夜视频a| 久久综合色之久久综合色| 成人免费亚洲av在线| 中文字幕美人妻亅u乚一596| 北碚区| 妇女性内射冈站hdwww000| 另类天堂天堂av| 在线无码免费的毛片视频| 国产亚洲欧美精品久久久| 久久精品国产亚洲av电影 | 色综合一区| 亚洲成a人无码av波多野| 欧美mv日韩mv国产mv网站 | 在线A级毛片无码免费真人| 美女裸体18禁免费网站| 无码丰满熟妇| 久久露脸国产精品| 五月丁香六月综合缴情在线 | 亚洲熟妇在线视频观看| 日本午夜精品一区二区三区电影| 成人免费av| 国产线播放免费人成视频播放 | 亚洲国产高清第一第二区| 久久精品成人无码观看不卡| 亚洲熟妇av乱码在线观看| 尤物193在线人妻精品免费| 夜夜爽日日澡人人添| 建宁县| 国产成人免费ā片在线观看| av无码免费| 99国产欧美久久久精品蜜芽| 精品熟女| 国产成人无码a区在线观看视频app| 久久久久久久久久8888|