0
雷鋒網 AI科技評論按:對于關注數據科學的同學來說,Kaggle上龐大的數據集是一個極好的資源池,但是這么多的數據,如何進行更精準的搜索?近日,Kaggle官方博客就刊登了Rachael Tatman的一篇文章,向大家安利如何更高效的搜索數據集,具體怎么操作?雷鋒網 AI科技評論將文章編譯整理如下:
目前,在Kaggle上有成千上萬的數據集,而且每天都會有新的增加。雖說Kaggle是一個非常棒的資源池,但是想在這么多的數據集里精準地找到與自己感興趣的主題相關的,有時會有點棘手。在過去的幾個月里,我學到了一些技巧和小竅門,或許能幫到你!
從“Datasets”頁面搜索
大多數時候,我更喜歡打開“Datasets”頁面搜索數據集。你可以點擊Kaggle主頁頂部的Datasets標簽直達這個頁面。

數據集搜索
在Datasets頁面用搜索框搜索和在頁面頂部搜索不同,你將能在頁面上看到所有的搜索結果。

搜索小技巧
我寫這篇文章的時候,Kaggle上的搜索已經支持一些額外的語法了,你可以通過下面的一些限定進行更精確的搜索。
“”:用雙引號把搜索文本括住之后就可以進行精準搜索。例如搜索“巧克力蛋糕”,將會得到關于巧克力蛋糕的結果,而不會出現巧克力棒或紅絲絨蛋糕。
+:將兩個搜索詞用加號連接,中間不要出現空格,將得到含有第一個詞和第二個詞的搜索結果。搜索“巧克力+蛋糕”將會得到同時包含巧克力和蛋糕的結果,而不會非得是巧克力蛋糕。
|:在兩個搜索詞之間插入這個符號,將得到有第一個詞或第二個詞的搜索結果,例如搜索“蛋糕|巧克力”將會得到有蛋糕或巧克力的結果。
*:如果你正在搜索的東西具有多種拼寫方式,可以使用*進行搜索。例如搜索“choc*”,結果中將會出現以"choc"開頭的關鍵詞,比如"choclate"、"chocked"或是"chockablock"。
-:在搜索詞前面加上減號將得到不包含該詞的結果。例如搜索"蛋糕-巧克力"將會得到與蛋糕相關的結果,但會屏蔽掉所有帶有巧克力的結果。
在搜索結果中進行更細致的查找
如果你搜索出來的結果太多了,這時瀏覽器中的頁面搜索功能將起到很大作用。在大多數web瀏覽器中,你可以鍵入ctrl+f(在Mac上是cmd+f),然后在出現的方框中輸入你想要更進一步搜索的文本。

將結果分類
你可以通過不同的方式將搜索結果分類:
熱度:這是默認的排序方式。熱度取決于很多因素,包括在一段時間內總的受歡迎程度和活躍度的增長情況。
得票數:這個排序取決于搜索結果的得票情況。
更新時間(我比較推薦這種排序方式):這種排序是基于最近更新(創建或增加新版本)的時間,這是我個人最喜歡的排序方式。其他人可能更傾向于流行的、比較老的數據集,而我更想找到一些新的數據集。而且,我還發現了一點,近期更新過數據集的發布者更有可能回復大家的提問、對kernel作出評論。
近期活躍度:這種排序方式取決于近期用戶是否與數據集有過交互,比如對數據集進行評價、啟動或運行kernel。
相關度:這種排序方式取決于搜索結果與查詢詞的相關程度。

精選數據集與所有數據集
默認情況下,Datasets頁面只會顯示精選數據集,精選數據集是由Kaggle團隊成員手工挑選的,有良好的文件記錄、已經被清洗過并且隨時可以使用。不過,并不是所有的數據集都是精選數據集,一些高質量的數據集可能還沒有被精選。如果你想看到所有數據集,可以點擊頁面上“精選”旁邊的“所有”選項卡。在選擇所有數據集之后,可以通過數據集的標題旁是否有灰色的精選標簽來分辨是否為精選數據集。

數據集標簽
另一種查找數據集的方法是使用標簽(相對較新的特性)。你可以通過兩種方式搜索特定的標簽。第一種方法是單擊數據集列表或數據集頁面上的標簽,這將返回一系列帶有匹配標簽的數據集列表。第二種是在搜索框中搜索標簽。你可以在你搜索的詞后面加上用單引號括住的tag:標簽名,即搜索詞tag:標簽名的形式,如果標簽中有空格,記得打出來。
tag:'食物和飲品':搜索帶有食物和飲品標簽的數據集
tag:'因特網'::搜索帶有因特網標簽的數據集
有一些標簽涵蓋了很廣泛的主題,數據發布者給自己的數據貼上這些標簽,讓它們更容易被發現。現在用戶還沒有辦法添加自己的獨一無二的標簽,我建議大家可以通過點擊搜索結果中的標簽來進行搜索,而不是自己輸入文本來進行搜索,試圖猜測某個標簽是否存在。

使用Kaggle主頁頂部的搜索框來搜索

只有在這種情況下我才會使用Kaggle頁面頂部的搜索框:搜索那些我知道已經存在的數據時。頂部的搜索框很方便,但在進行更深入的搜索時,我還是更傾向于在Datasets頁面。

使用Kaggle頁面頂部的搜索欄,你將不會得到包含所有搜索結果的頁面,只會得到排名前十的搜索結果列表。如果你想快速查找一些東西,這還是很方便的。如果你搜索的是數據集,你可以在關鍵詞之后加上in:datasets,這樣會使你的搜索更精確。
這些差不多就是我給大家在kaggle上找數據的建議!如果你想在kaggle上找一種特定類型的數據,但是一直找不到,記住,你隨時可以把自己的數據傳上去。
雷鋒網 AI科技評論
via:The Official Blog of Kaggle.com
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。