<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
      人工智能開發(fā)者 正文
      發(fā)私信給WBLUE
      發(fā)送

      0

      數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      本文作者: WBLUE 編輯:汪思穎 2018-04-10 11:23
      導(dǎo)語:本文將介紹圖像類比賽的數(shù)據(jù)處理經(jīng)驗(yàn),以樹葉分類競賽(Leaf Classification)和肺癌檢測比賽(Data Science Bowl 2017)為例。

      雷鋒網(wǎng) AI 研習(xí)社按,在數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(上)一文中,AI 研習(xí)社介紹了結(jié)構(gòu)化數(shù)據(jù)和 NLP 數(shù)據(jù)的處理方式,其中包括對 Titanic,房價預(yù)測,惡意評論分類,恐怖小說家身份識別四個比賽的詳細(xì)分析。

      本文將介紹圖像類比賽的數(shù)據(jù)處理經(jīng)驗(yàn),以樹葉分類競賽(Leaf Classification)和肺癌檢測比賽(Data Science Bowl 2017)為例。

      正文如下,雷鋒網(wǎng) AI 研習(xí)社編譯整理:

      圖像

      到目前為止,我介紹的都是文本(語言、字符串或數(shù)字)數(shù)據(jù)集,最后我將帶來兩個圖像數(shù)據(jù)集的分析。

      我選的這兩個比賽(肺癌檢測樹葉分類)比我看過的其他比賽更具專業(yè)特色,這里的分析不再是基本分析,著重于探索不同技術(shù),因此適用于更高階的讀者。

      在可視化技術(shù)以及特征構(gòu)建方面,我看到了很多變化。特別是肺癌比賽中,一些作者利用現(xiàn)有的醫(yī)學(xué)知識構(gòu)建極具專業(yè)特色的特征,雖然不能說這些特征的效果有多好,但是這里可視化效果令人驚嘆。

      樹葉分類

      競賽中提供的數(shù)據(jù)集包括 1584 個按品種分類的被標(biāo)記的樹葉圖像,參賽者需要建立一個對標(biāo)記之外樹葉圖像分類的模型。

      我選擇用于分析的 EDA 是 lorinc 的 Feature Extraction From Images,selfishgene 的 Visualizing PCA with Leaf Dataset 以及 Jose Alberto 的 Fast Image Exploration

      第一步最好先仔細(xì)瞧一瞧樹葉的圖像。

      數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      selfishgene 檢查樹葉標(biāo)本

      Jose 繪制出各個種類的樹葉,并指出每個種類有 10 張圖片。他還觀察了同類樹葉間的相似性。

      lorinc 直接跳入分析階段,定位每片葉子的中心并應(yīng)用邊緣檢測技術(shù),他還將葉子的輪廓轉(zhuǎn)換為極坐標(biāo),以便更有效地測量葉子的中心:

      之后,當(dāng)我們使用邊與中心之間的距離從形狀生成時間序列時,我們可能想要轉(zhuǎn)換到另一種中心性度量——根據(jù)該中心的有效性。一種方法是測量中心和邊緣之間的(歐幾里德)距離......但是有一個更好的方法——我們將笛卡爾坐標(biāo)投影到極坐標(biāo)中。

      selfishgene 選擇看圖像的方差方向:

      在高維圖像空間中,每個圖像都可以被看成是不同的「方向」。

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      Selfishgene 看到的樹葉圖像的方差

      selfishgene 也花費(fèi)了一些時間來研究圖像重建、平均圖像周圍的模型變化以及特征向量,他解釋道:

      最上面一行包含每個特征向量的數(shù)據(jù)分布(沿著「方向」的直方圖),第二行包含了我們在前面的圖中已經(jīng)看到的方差方向,第四行包含了樹葉的中值圖像,值得注意的是,這一行對于所有的特征向量是相同的。

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      selfishgene 看到的模型變形

      特征檢測

      lorinc 建議將每個樣例分成兩部分,并將它們作為兩個樣例處理(盡管他不采用這種方法)。lorinc 從時間序列中找到局部最大值和最小值(例如,繪制在極坐標(biāo)中的樹葉)并記錄道:

      我很驚訝于這個方法表現(xiàn)得相當(dāng)不錯。我認(rèn)為我可以從中構(gòu)建出一個非常有效的特征。但是這種方法的魯棒性不是很好:

      對于樹葉#19,它沒有找到樹葉的末端,只找到了與中心距離最遠(yuǎn)的點(diǎn)。對于樹葉#78,可以看到在更復(fù)雜或有旋轉(zhuǎn)的葉片上效果很差。

      數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      lorinc 繪制在極坐標(biāo)中所測葉子的最小值和最大值

      在發(fā)現(xiàn)每片樹葉周圍存在噪音之后,lorinc 談到數(shù)學(xué)形態(tài)學(xué)。他花了一些時間弄清楚如何去除圖像中的噪點(diǎn),并用可愛的圖像來顯示疊加在樹葉上的距離圖:

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      lerinc 測量距離葉子中心的距離

      肺癌

      我選擇的 EDA 是 Guido Zuidhof 的 Full Preprocessing Tutorial,Mikel Bober-Irizar 的 Exploratory Data Analysis 和 Alexandru Papiu 的 Exploratory Analysis Visualization。

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      anokas 檢查單個圖像的元數(shù)據(jù),可以看到病人出生日期被隱匿(19000101)

      2017 年的 Data Science Bowl 比賽要求參賽者通過檢測一組圖像來預(yù)測患者是否患有癌癥。雖然在這一競賽中確實(shí)有結(jié)構(gòu)化數(shù)據(jù)(自動嵌入圖像中的標(biāo)簽信息),但其中一些數(shù)據(jù)是匿名的,也就是說,那些原本具有預(yù)測價值的特征(比如患者的年齡)用不了。這意味著所有的 kernel 只專注于圖像分析。

      在三個 kernel 作者中,Guido 是唯一一個結(jié)合醫(yī)學(xué)圖像來討論的人,這點(diǎn)在他對數(shù)據(jù)集的分析中可以看出來:

      Dicom 是醫(yī)學(xué)影像文件標(biāo)準(zhǔn),這些文件中包含大量元數(shù)據(jù)(例如像素大?。?。不同掃描中的像素大小、粒度都不同(例如,切片之間的距離可能不同),這可能會影響 CNN 的性能。我們可以用同構(gòu)重采樣來處理。

      另外兩位作者通過對數(shù)據(jù)集和圖像本身進(jìn)行更全面的探索開始了他們的 EDA。

      apapie 檢查了圖像的形狀,而 anokas 開始觀察每個病人的掃描次數(shù)、總掃描次數(shù)和每個病人的 DICOM 文件直方圖,他還檢查了 ID 和病人是否患有癌癥是否存在關(guān)系(他發(fā)現(xiàn)沒有關(guān)系,這意味著數(shù)據(jù)集的排列是很有序的)。

      Alexandru 對像素進(jìn)行分配并繪制圖像:

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      Guido 在 EDA 中闡明了 HU 所代表的東西(空氣,組織和骨骼):

      數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      圖像

      每位作者都在繼續(xù)研究這些圖片:

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      Anokas 觀察一組患者圖像

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      Alexandru 通過 X 射線看圖像

      Alexandru 花了一些時間研究邊緣檢測是否能增強(qiáng)圖像。

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      提高閾值后,Alexandru 呈現(xiàn)出一些比較醒目的圖像

      Alexandru 總結(jié)道:

      有趣的是,過濾器也能檢測到肺里的血管,因此,一些用于區(qū)分球體和管道的三維表面探測區(qū)分技術(shù)將更適合這種情況。

      同時,Guido 討論了重采樣,重點(diǎn)關(guān)注了 DICOM 圖像的基本性質(zhì):

      一次掃描可能存在一個像素間距[2.5,0.5,0.5],這意味著切片之間的距離是 2.5 毫米。對于不同的掃描,可能是[1.5,0.725,0.725],這對于自動分析來說存在一定問題(例如使用 ConvNets 的時候)。處理這一問題的常見方法是將完整的數(shù)據(jù)集重新取樣到確定的等向性分辨率(isotropic resolution)中,如果我們選擇將所有的數(shù)據(jù)重新采樣到 1mm*1mm*1mm 的像素中,這樣就可以使用 3D 卷積網(wǎng)絡(luò)而不用擔(dān)心學(xué)習(xí)縮放與切片厚度的固定。

      之后,Guido 在 EDA 中合并了多個 DICOM 圖像完成檢測部位的三維圖:

      數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      在另一個版本中,去除周圍的空氣以減少內(nèi)存:

       數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      3D圖像

      點(diǎn)評

      這次競賽是我所見過的最與眾不同的。鑒于 Guido 對醫(yī)學(xué)圖像的熟悉,他能夠利用這一背景來得出更微妙的結(jié)論。但這并沒有阻止其他兩位缺乏醫(yī)學(xué)背景的作者得出同樣有趣的結(jié)論。

      總結(jié)

      • 結(jié)構(gòu)化數(shù)據(jù)

      對于結(jié)構(gòu)化數(shù)據(jù),分析時傾向于尋找目標(biāo)變量和其他變量之間的相關(guān)性,需要花費(fèi)相當(dāng)多的時間進(jìn)行可視化或?qū)ψ兞窟M(jìn)行排序。

      對于較小的數(shù)據(jù)集,可以分析的數(shù)據(jù)只有這么多列,然而,不同的參賽者使用了截然不同的可視化方法,在選擇特征工程方面更極具創(chuàng)造性。

      • 自然語言數(shù)據(jù)集

      從這些 EDA 中可以看到,大家在處理自然語言數(shù)據(jù)集時有相似之處,但在特征工程的選擇以及分析中,會得出不同結(jié)論,產(chǎn)生很大的變化。

      • 圖像數(shù)據(jù)集

      圖像競賽中,在分析和特征工程方面表現(xiàn)出了極大的多樣化。我所看到的圖像競賽主要是針對有一定積累的參賽者,而且是在一些特定領(lǐng)域,這可能會產(chǎn)生更超前的多樣性。

      當(dāng)數(shù)據(jù)集變得更加專業(yè)或深奧時,介紹性的分析和解釋就會減少,而比較深入和專業(yè)化的分析就會增加,而這正是我所看到的。雖然不同類型的數(shù)據(jù)有明顯不同的趨勢,但專業(yè)領(lǐng)域知識起著重要的作用。在肺癌和葉片競賽中,引入專業(yè)領(lǐng)域知識到研究中,可以支撐更深層次的分析。(有趣的是,我在自己的研究中也遇到過這種情況,Jeremy Howard 在他的 fast.ai 課程里討論了 Rossman 的數(shù)據(jù)集,以及最成功的模型是如何集成第三方數(shù)據(jù)集,如溫度、存儲位置等,從而做出更準(zhǔn)確的銷售預(yù)測。)

      參賽者處理特征工程的時候,并沒有一個統(tǒng)一的過程。有些人選擇在分析時開始,而另一些人則在最初的分析完成之后,將其作為一個單獨(dú)的步驟。

      最后,我看到的每一份分析手冊都有確定的讀者(初學(xué)者或資深研究者),這會影響分析和寫作。

      在一些更受歡迎的比賽中,或是針對普通研究人員的比賽中,EDA 分析都是詳盡無遺的。在這些 EDA 中,我也看到了一種趨勢,即在分析的同時穿插補(bǔ)充或敘事來幫助初學(xué)者更好地理解技術(shù)。

      相比之下,針對更資深的研究者的筆記則傾向于去掉多余的敘述性描述,許多還跳過了基本的數(shù)據(jù)分析,而是直接轉(zhuǎn)到特定領(lǐng)域的技術(shù)中去。

      特別鳴謝 Michelle Lew、Ari Zilnik、 Sean Matthews 和 Bethany Basile,感謝他們對這篇文章的審閱。

      via:thekevinscott.com

      雷鋒網(wǎng) AI 研習(xí)社編譯整理。

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      數(shù)據(jù)分析秘籍在這里:Kaggle 六大比賽最全面解析(下)

      分享:
      相關(guān)文章

      知情人士

      當(dāng)月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: www.91在线播放| 四虎国产精品永久在线| 狠狠爱俺也去去就色| 国产VA网站| 色猫AV| 国产情侣激情在线对白| 亚洲精品aⅴ无码精品丝袜足| 国产精品无码专区在线播放| 综艺| 久久99精品国产麻豆婷婷| 亚洲精品XXX| 国产a网站| 国产精品xxxx| 自拍区小说区图片区亚洲| 国产一区二区内射最近更新 | 蕲春县| 亚洲久悠悠色悠在线播放| av在线播放制服| 天天躁日日躁人妻久久澡| 国产?日韩?欧美| 亚洲成a人片在线播放观看国产| 国产欧美精品aaaaaa片| 亚洲欧美另类精品久久久| 亚洲欧美成人精品香蕉网| 电影蜜桃熟了| 亚洲 欧美 综合 另类 中字| 美女综合网| 三上悠亚在线精品二区| 91视频在线视频| 国产人妻人伦精品1国产丝袜| 丁香婷婷五月| 亚洲AV男人的天堂在线观看| 国产老熟女国语免费视频| 好好的曰com久久| 精品少妇无码av无码专区| 熟妇人妻系列aⅴ无码专区友真希| 国产免费极品av吧在线观看| 临高县| 欧美成人看片一区二区三区尤物| 色窝AV| 97亚洲色欲色欲综合网|