<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能開發(fā)者 正文
      發(fā)私信給汪思穎
      發(fā)送

      0

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      本文作者: 汪思穎 2017-10-23 09:52
      導(dǎo)語:來看看冠軍選手的經(jīng)驗(yàn)分享

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      雷鋒網(wǎng) AI科技評(píng)論消息,近日,Kaggle Blog上刊登了對(duì)「Planet: Understanding the Amazon from Space」比賽冠軍的專訪,在訪問中,我們了解到了冠軍選手bestfitting的一些基礎(chǔ)信息,他在比賽中所用的一些技術(shù)細(xì)節(jié),以及給大家的建議。雷鋒網(wǎng) AI科技評(píng)論將采訪原文編譯整理如下:

      在最近舉辦的「Planet: Understanding the Amazon from Space」比賽中,主辦方Planet為了更好地追蹤和了解到森林被砍伐的原因,想要讓Kaggle上的參賽選手為亞馬遜盆地中的衛(wèi)星圖像打上標(biāo)簽。

      主辦方提供40000多張訓(xùn)練圖像,每張圖像都涵蓋多個(gè)標(biāo)簽,標(biāo)簽總體分為如下幾組:

      大氣情況:晴朗、局部多云、多云、起霧

      常見的土地覆蓋和使用類型:雨林、農(nóng)業(yè)、河流、城鎮(zhèn)/城市、道路、耕地、裸地

      罕見的土地覆蓋和使用類型:砍伐并燃燒、選擇性砍伐、種植、傳統(tǒng)采礦、手工采礦、吹毀。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      近日,我們采訪到本次比賽的冠軍選手bestfitting,在訪談中,他為我們?cè)敿?xì)講述了他是如何集成11個(gè)精細(xì)調(diào)節(jié)的卷積網(wǎng)絡(luò)以及怎樣利用標(biāo)簽相關(guān)性結(jié)構(gòu)的,此外,他也談到為了避免過擬合的一些想法。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      基礎(chǔ)信息

      能談下你參加比賽之前的專業(yè)背景嗎?

      我的專業(yè)是計(jì)算機(jī)科學(xué),有超過十年的Java編程經(jīng)驗(yàn),目前工作方向是大規(guī)模數(shù)據(jù)處理、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)。

      在這次比賽中,你用到了之前的哪些經(jīng)驗(yàn)和專業(yè)知識(shí)呢?

      今年我參加了kaggle上的不少關(guān)于深度學(xué)習(xí)的比賽,在比賽中獲得的經(jīng)驗(yàn)和直覺讓我受益匪淺。

      你開始在Kaggle上參加比賽是基于什么契機(jī)?

      從2010年開始,我就在看很多關(guān)于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的書和論文了,但是很難將我學(xué)習(xí)到的算法應(yīng)用到那些可用的小數(shù)據(jù)集上。而與此同時(shí),我發(fā)現(xiàn)Kaggle上有很多有意思的數(shù)據(jù)集、kernel以及不錯(cuò)的討論,因此,就在去年,我迫不及待地參加了Kaggle上的“Predicting Red Hat Business Value”比賽。

      參加這次比賽的原因是什么?

      有兩個(gè)原因。

      一是我對(duì)自然保護(hù)很感興趣,我認(rèn)為要是自己的經(jīng)驗(yàn)?zāi)茏尩厍蚝腿藗兊纳罡用篮茫@很酷。另外,亞馬遜雨林經(jīng)常在電影和故事中出現(xiàn),我對(duì)它很感興趣。

      另外,我參加了kaggle上各種各樣關(guān)于深度學(xué)習(xí)的比賽,比賽中都用到了分割和檢測(cè)等算法,這次我希望能參加分類比賽,嘗試一些不一樣的東西。

      技術(shù)討論

      能簡(jiǎn)單地介紹一下你的方案嗎?

      這是一場(chǎng)多標(biāo)簽分類比賽,并且標(biāo)簽是失衡的。

      比賽競(jìng)爭(zhēng)很激烈,因?yàn)檫@兩年已經(jīng)有很多使用比較廣泛的圖像分類算法,并且也出現(xiàn)了很多新算法,另外,也有很多極具經(jīng)驗(yàn)的計(jì)算機(jī)視覺方面的參賽選手。

      我嘗試了很多種我認(rèn)為可能會(huì)有用的流行分類算法,基于對(duì)標(biāo)簽關(guān)系和模型能力的認(rèn)真分析,我構(gòu)建了一種集成方法并贏得了比賽的第一名。

      下面是模型結(jié)構(gòu):

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      • 首先,對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理(改變圖像大小、去霧)并用到一些標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)技術(shù)。

      • 下一步,在模型階段,我精細(xì)調(diào)節(jié)了11個(gè)卷積神經(jīng)網(wǎng)絡(luò)(CNN),得到每個(gè)CNN的類別標(biāo)簽概率。比賽中我用到了一些流行的、高性能的CNN,例如ResNets、DenseNets、Inception和SimpleNet等。

      • 然后,我通過每個(gè)CNN的嶺回歸模型來傳遞類標(biāo)簽概率,這是為了利用標(biāo)簽相關(guān)性來調(diào)整概率。

      • 最后,我利用另一個(gè)嶺回歸模型將這11個(gè)CNN集成到一起。

      • 同樣值得注意的是,這次比賽中,我沒有使用標(biāo)準(zhǔn)log函數(shù)作為損失函數(shù),而是使用了一個(gè)特殊的柔性F2損失函數(shù)(special soft F2-loss),這是為了得到更高的F2分?jǐn)?shù)。

      在預(yù)處理和特征工程階段,你具體做了哪些操作?

      預(yù)處理和數(shù)據(jù)增強(qiáng)步驟如下:

      • 首先是調(diào)整圖像大小。

      • 另外,在訓(xùn)練集和測(cè)試集中我也做了一些數(shù)據(jù)增強(qiáng),例如對(duì)圖像進(jìn)行翻轉(zhuǎn)、旋轉(zhuǎn)、置換以及一些彈性變換等。

      • 我也用到了一種去霧技術(shù),這種技術(shù)可以讓網(wǎng)絡(luò)“看到”更清晰的圖像。關(guān)于這項(xiàng)技術(shù),在論文Single Image Haze Removal using Dark Channel Prior中有詳細(xì)描述。

      下面是在數(shù)據(jù)集中進(jìn)行去霧處理的一些實(shí)例:

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      從下圖中可以看到,進(jìn)行去霧處理后,一些標(biāo)簽(例如水、裸地)的F2分?jǐn)?shù)會(huì)升高,但同時(shí)另一些標(biāo)簽的F2分?jǐn)?shù)(例如霧天和晴天等)會(huì)降低。不過不用擔(dān)心,集成操作能為每個(gè)標(biāo)簽選擇最強(qiáng)大的模型,總的來說去霧處理會(huì)讓整體分?jǐn)?shù)得到提升。

       Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      你用了哪些監(jiān)督學(xué)習(xí)方法?

      比賽模型集成了包括11種當(dāng)前流行的卷積網(wǎng)絡(luò):融合了不同數(shù)量的參數(shù)、層數(shù)的ResNet和DenseNet,另外還有Inception和SimpleNet模型。在替換了最后的輸出層以滿足比賽的輸出之后,我微調(diào)了這些預(yù)訓(xùn)練過的CNN的所有層,并且沒有凍結(jié)任何層。

      訓(xùn)練集包括4萬多張圖片,這個(gè)量足夠滿足我從頭開始訓(xùn)練一些CNN的架構(gòu),例如resnet_34和resnet_50。不過我發(fā)現(xiàn),對(duì)預(yù)訓(xùn)練過的網(wǎng)絡(luò)的權(quán)重進(jìn)行微調(diào)會(huì)得到更好的表現(xiàn)。

      為了讓F2分?jǐn)?shù)更高,你有用到一些特別的技巧嗎?

      主辦方會(huì)評(píng)估提交結(jié)果的F2分?jǐn)?shù),這個(gè)分?jǐn)?shù)結(jié)合了精確度和召回率,有點(diǎn)類似于F1分?jǐn)?shù),但召回率的權(quán)重比精確度要高。因此,我們不僅要訓(xùn)練模型來預(yù)測(cè)標(biāo)簽概率,還要選擇出最佳閾值,通過標(biāo)簽的概率值來決定是否給圖片打上這個(gè)標(biāo)簽。

      最初,和許多其他參賽者一樣,我使用的是log損失作為損失函數(shù),但如下表所示,F(xiàn)2分?jǐn)?shù)不會(huì)隨著log損失值的降低而升高。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      這意味著需要找到另一種損失函數(shù),將模型的注意力更多的集中在優(yōu)化標(biāo)簽的召回率上。從比賽論壇的代碼上受到啟發(fā),我寫了一個(gè)柔性F2損失函數(shù)(Soft F2-Loss function)。

      這個(gè)函數(shù)確實(shí)提高了整體F2分?jǐn)?shù),對(duì)農(nóng)業(yè)、多云和耕地這三個(gè)標(biāo)簽的作用尤為明顯。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      你對(duì)數(shù)據(jù)和模型有什么深刻見解?

      我分析了標(biāo)簽之間的相關(guān)性,發(fā)現(xiàn)某幾個(gè)標(biāo)簽經(jīng)常共存,但其他標(biāo)簽沒有這種情況。例如,晴朗、局部多云、多云和起霧這幾個(gè)標(biāo)簽不會(huì)共存,但是住所和農(nóng)業(yè)標(biāo)簽經(jīng)常出現(xiàn)在一起。這意味著使用這種關(guān)聯(lián)結(jié)構(gòu)可能會(huì)使模型得到改進(jìn)。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      舉個(gè)例子,來看一下resnet-101模型,它會(huì)預(yù)測(cè)出17個(gè)標(biāo)簽中每一個(gè)出現(xiàn)的概率。為了能利用到標(biāo)簽相關(guān)性,我增加了另外一個(gè)嶺正則化層,來重新校準(zhǔn)所有模型中每一個(gè)標(biāo)簽的概率。

      換言之,為了預(yù)測(cè)晴朗這個(gè)標(biāo)簽的最終概率(利用resnet-101模型),有一個(gè)特殊的晴朗嶺回歸模型會(huì)接收resnet-101模型對(duì)所有17個(gè)標(biāo)簽的預(yù)測(cè)情況。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      如何進(jìn)行模型集成?

      當(dāng)?shù)玫剿蠳個(gè)模型的預(yù)測(cè)之后,我們有了來自于N個(gè)不同的模型對(duì)晴朗標(biāo)簽的概率。我們可以利用這些概率,通過另一個(gè)嶺回歸來預(yù)測(cè)最終晴朗標(biāo)簽的概率。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      這種兩層嶺回歸有兩個(gè)作用:

      一是它能讓我們利用不同標(biāo)簽之間的關(guān)聯(lián)信息。

      二是它能讓我們選擇最強(qiáng)的模型來預(yù)測(cè)每個(gè)標(biāo)簽出現(xiàn)的概率。

      你有哪些讓自己也嚇一跳的發(fā)現(xiàn)嗎?

      即使我已經(jīng)預(yù)知到排行榜最后的大變動(dòng)(公共排行榜和私人排行榜的分?jǐn)?shù)有很大的不同),但我仍然感到驚訝。

      在比賽的最后階段(離結(jié)束還有10天),我發(fā)現(xiàn)公共排行榜上分?jǐn)?shù)都非常接近,但我在交叉驗(yàn)證和分?jǐn)?shù)上完全不能取得任何優(yōu)化和提升了,因此我告誡自己要小心,避免在可能只是噪音標(biāo)簽的情況下出現(xiàn)過擬合。

      為了在最后階段不出錯(cuò),我用不同的隨機(jī)種子,選擇了訓(xùn)練集中一半的圖片作為新的訓(xùn)練集,來模擬出公共和私人排行榜。

      我發(fā)現(xiàn)隨著種子的改變,我模擬的公共排行榜分?jǐn)?shù)和私人排行榜分?jǐn)?shù)之間的差距可能會(huì)擴(kuò)大到0.0025。但在公共排行榜上,第一名和第十名的差距比這一數(shù)值要小。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      這意味著在比賽中可能會(huì)發(fā)生非常大的變動(dòng)。

      經(jīng)過仔細(xì)分析后,我發(fā)現(xiàn)這種差異出現(xiàn)在一些比較有難度的圖片上,人們也極易對(duì)圖片中的標(biāo)簽產(chǎn)生混淆,比如一張圖是該被標(biāo)記為霧還是多云,道路還是積水,種植或是選擇性砍伐。

      正因?yàn)槿绱?,我說服自己公眾排行榜的分?jǐn)?shù)并不能完美的衡量模型能力。

      這是意料之外的:因?yàn)楣矞y(cè)試集中包含4萬多張圖片,看起來排行榜應(yīng)該是相當(dāng)穩(wěn)定的。

      因此,我調(diào)整了目標(biāo),只是讓自己能保持在前10名之內(nèi),并決定在最后一周不用關(guān)心自己在公開排行榜上的確切名次。此外,我試圖找到一種最穩(wěn)定的方式來進(jìn)行模型集成,我丟棄掉了任何可能導(dǎo)致過擬合的模型,最后我使用了投票制和嶺回歸。

      為什么用這么多模型?

      答案很簡(jiǎn)單:多樣性。

      我認(rèn)為模型數(shù)量不會(huì)引發(fā)大的問題,原因如下:

      • 首先,如果我們想要一個(gè)簡(jiǎn)單的模型,可以只從這些模型中選擇1-2個(gè),并且仍然可以在公共和私人排行榜上都獲得不錯(cuò)的分?jǐn)?shù)(排名前20)。

      • 其次,這次比賽有17個(gè)標(biāo)簽,不同模型對(duì)標(biāo)簽的識(shí)別能力也不同。

      • 另外,這個(gè)解決方案可以用來替換或簡(jiǎn)化人工標(biāo)記工作。由于計(jì)算資源相對(duì)來說比人力成本要便宜,我們可以通過使用強(qiáng)大的模型來預(yù)測(cè)未標(biāo)記的圖像,修正被錯(cuò)誤預(yù)測(cè)的圖像,然后使用擴(kuò)展后的數(shù)據(jù)集不斷迭代,訓(xùn)練出更強(qiáng)大、更簡(jiǎn)單的模型。

      你用了什么工具?

      Python 3.6、PyTorch、PyCharm

      硬件設(shè)置呢?

      配置4個(gè)英偉達(dá)GTX TITAN X Maxwell GPU的服務(wù)器。

      經(jīng)驗(yàn)之談

      這次比賽你有哪些收獲?

      正如上面提到的,我發(fā)現(xiàn)使用柔和F2損失函數(shù)(soft F2-loss function)、增加去霧算法、應(yīng)用兩層嶺回歸對(duì)取得高分至關(guān)重要。

      另外,由于會(huì)有噪音標(biāo)簽,我們必須對(duì)自己的交叉驗(yàn)證方法充滿信心。

      對(duì)剛剛開始進(jìn)行數(shù)據(jù)科學(xué)研究的人來說,你有哪些建議?

      • 從一些優(yōu)秀的課程中學(xué)習(xí),例如斯坦福CS229和CS231n。

      • 從Kaggle比賽、kernel和starter script中學(xué)習(xí)。

      • 參加kaggle比賽,在比賽中得到經(jīng)驗(yàn)和收獲。

      • 每天堅(jiān)持閱讀論文,對(duì)于一些論文中的方法,可以著手實(shí)踐下。

      雷鋒網(wǎng) AI科技評(píng)論編輯整理。

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

      Kaggle亞馬遜比賽冠軍專訪:利用標(biāo)簽相關(guān)性來處理分類問題

      分享:
      相關(guān)文章

      編輯

      關(guān)注AI學(xué)術(shù),例如論文
      當(dāng)月熱門文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 真实的单亲乱自拍对白免费| 亚洲国产精品一区二区第一页| 2048国产精品原创综合在线| 狠狠色丁香婷婷综合| 97成人精品一区二区三区狼人| 久久综合网色| 亚洲男人的天堂久久香蕉| 国产综合久久久久鬼色| 国产又大又硬又粗| 阜阳市| 亚洲肥老太bbw中国熟女| 爱色影网| 色欲色香天天天综| 久久人妻无码一区二区三区av| 麻豆精品久久久久久中文字幕无码| 日本不卡一区二区三区 | 国产成人AV在线| 米奇777超碰欧美日韩亚洲| 欧美日韩国产码高清| 亚洲v| 大地资源网第二页免费观看| AV无码中文| 亚洲老熟女@TubeumTV| 国产精品亚洲综合久久小说| 亚洲va精品va国产va| 亚洲中文字幕无码爆乳APP| 亚洲精品aⅴ无码精品丝袜足 | 久久精品成人欧美大片| 玖玖精品| 亚洲成人Aⅴ| 少妇av在线| 国模大胆一区二区三区| 部精品久久久久久久久| 91青草视频| 日夜啪啪一区二区三区| 朋友的丰满人妻| 夜夜高潮夜夜爽夜夜爱爱| 成人国产一区二区三区| 国产激情无码一区二区三区| 国产在线观看不卡免费| 日韩人妻熟女中文字幕a美景之屋|