<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能開發(fā)者 正文
      發(fā)私信給AI研習社
      發(fā)送

      0

      如何利用機器學習預測房價?

      本文作者: AI研習社 編輯:賈智龍 2017-09-15 14:34
      導語:本文作者利用自己過去三個月里所學到的東西,來預測所在城市的房價。所用到的技術(shù)有網(wǎng)絡(luò)爬取技術(shù)、文本自然語言處理,圖像上的深度學習模型以及梯度增強技術(shù)等。

      雷鋒網(wǎng)按:文章原標題《Predicting Portland Home Prices》,作者:Lauren Shareshian,譯者:夏天,審校:主題曲。本文原載于知乎專欄我是程序員

      對于我在梅蒂斯的最后一個項目,我希望能包含過去三個月里所學到的東西,而預測波特蘭房價這個題目正符合我的要求,因為我能夠?qū)⒕W(wǎng)絡(luò)爬取技術(shù)、文本自然語言處理,圖像上的深度學習模型以及梯度增強技術(shù)進行整合來實現(xiàn)這個項目。

      下面你可以看到我抓取到的 2016 年 7 月至 2017 年 7 月這段時間內(nèi)波特蘭市 8300 個獨戶住宅的銷售數(shù)據(jù)。

      如何利用機器學習預測房價?

      顯然,街區(qū)在這其中起了非常重要的作用。西山(紅色)是鎮(zhèn)上最昂貴的地區(qū)之一,而東波特蘭則便宜很多。平均售價為 44.2 萬美元。

      我希望能夠在比街區(qū)更細粒度的水平上預測價格。例如,假設(shè)以下房子是彼此毗鄰的。

      如何利用機器學習預測房價?

      如何利用機器學習預測房價?

      這些房子面積相同,在同一年份建成,并位于同一條街上。但是,一個明顯能讓人產(chǎn)生購買的欲望,而另一個則沒有。那么 Zillow 或 Redfin(美國的兩家大型房地產(chǎn)網(wǎng)站)或其他公司能夠僅僅依靠一些房屋的文字數(shù)據(jù)來預測它們的價格呢?他們不能。這就是為什么我要把對房屋門口照片的分析作為其中一個特征納入預測模型的原因。

      當務(wù)之急就是要獲取到所有的數(shù)據(jù)。這比原本預想的要困難的多。首先,我使用波特蘭地圖的官方 API 來爬取波特蘭獨戶住宅的銷售數(shù)據(jù)。不幸的是,API 存在調(diào)用限制(每 10 分鐘約 150 次調(diào)用),所以我不得不在 AWS 服務(wù)器上長時間地運行程序來抓取所有的詳細數(shù)據(jù)。我使用 Zillow API 抓取了每個家庭的元數(shù)據(jù)和房地產(chǎn)商對房屋的描述。但是,抓取的速度也很慢,因為 Zillow 只允許你每天調(diào)用 API 1000 次。(我讓丈夫、母親和幾個朋友來幫我獲取更多的 API 密鑰)

      最后,數(shù)據(jù)收集過程中最困難的部分是獲取圖像。這是因為 Zillow 有獲取圖片的 API,但 Redfin 沒有,但 Redfin 會在房子出售后仍把圖片留那,而 Zillow 不會。為了獲取到 Redfin 網(wǎng)站上的圖片,我編寫了一個 Selenium 腳本,在 Google Images 上通過在搜索條目后增加 “Redfin” 一詞來搜索房屋地址,然后抓取 Google 列出的第一張圖片的 URL。

      不幸的是,雖然我有了圖像的 URL,實際要直接將它們下載下來并不簡單。這是因為 Redfin 不允許你使用標準的 Python 包,例如發(fā)送請求獲取數(shù)據(jù),也不允許你使用簡單的 curl 命令。幸運的是,在與別人討論后,我們提出了這樣一個想法:在 curl 命令的末尾加上 “User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6)……”,以此來將你的終端請求偽裝成瀏覽器請求。這終于成功了,最終我抓取到了 8300 個房屋的數(shù)據(jù)和圖片!

      現(xiàn)在數(shù)據(jù)有了,我準備要開始實現(xiàn)模型了。如下圖所示:

      如何利用機器學習預測房價?

      讓我們來詳細介紹一下這三種輸入數(shù)據(jù)類型。 Zillow 元數(shù)據(jù)包含你原本預期的描述性文字:平方英尺、街區(qū)、建造年份等等。當我按 p 值對每個特征進行排序時,出現(xiàn)了一些驚喜的發(fā)現(xiàn)。我一直不知道格魯吉亞建筑是什么樣子的,直到我查了一下之后。

      如何利用機器學習預測房價?

      我準備采用自然語言處理技術(shù)來分析地產(chǎn)商的描述性文字。我對地產(chǎn)商的描述性文字做了兩件事情:為每一個描述創(chuàng)建一個字矢量矩陣,這樣就可以將其與 Zillow 元數(shù)據(jù)合并到一個特征矩陣中,還有,用 NLTK 情緒包來計算情緒評分:

      如何利用機器學習預測房價?

      我想,房地產(chǎn)經(jīng)紀商的平均積極分數(shù)很高(平均分數(shù)為 0.6,范圍在 - 1 到 + 1 之間)并不讓人覺得奇怪。因此,把情緒評分作為特征并沒有改善模型。但是,在數(shù)據(jù)集中挖取最積極和最負面的分數(shù)非常有趣:

      如何利用機器學習預測房價?

      最后,為了將圖片合并到模型中,我采用了 VGG16 深度神經(jīng)網(wǎng)絡(luò)對圖像進行處理,以便提取出它們的特征(8300 x 25000 的圖像特征矩陣)。運行該模型的計算量相當?shù)么螅晕倚枰?AWS 上安裝一個 g2.8xlarge 的 GPU ubuntu 實例。

      如何利用機器學習預測房價?

      圖片模型在預測房價方面的效果如何呢?不錯!這些是測試集中預測價格最高的三間屋子,顯然,它們真的不錯:

      如何利用機器學習預測房價?

      同樣的,圖片模型在預測廉價房屋方面也表現(xiàn)得很好:

      如何利用機器學習預測房價?

      我的模型在處理什么類型的圖片時會存在問題呢?包含綠化的房屋!我的模型預測下面這個房屋價值 250 萬,但實際上,圖中的很多綠化都是免費贈送的!

      如何利用機器學習預測房價?

      好的,現(xiàn)在我確信我的圖像模型已經(jīng)挺不錯了。我準備將 Zillow 元數(shù)據(jù)、地產(chǎn)商描述字矩陣和圖像特征矩陣組合并到一個矩陣中,然后通過使用梯度提升算法來預測房價。作為一個基準預測,回想一下,數(shù)據(jù)集的平均房價是 44.2 萬元。如果我預測每個家庭都值得這么多,那么平均而言,每個房子的價格就會下降 16.1 萬元。而將圖像合并到模型中能夠立即將該錯誤降低 2 萬元。把地產(chǎn)商描述添加到模型中則會將錯誤再降低 1 萬元。最后,將 Zillow 元數(shù)據(jù)添加進來,則將平均絕對誤差降低到大約 7.1 萬元。

      如何利用機器學習預測房價?

      也許你想知道如果在預測房價上只使用 Zillow 元數(shù)據(jù)的話效果會怎么樣?平均來說,它給出了一個 7.0 萬元的誤差。在添加了房地產(chǎn)商的描述后略微下降到 6.9 萬元,但后來添加了圖片后卻增加到 7.1 萬元。換句話說,現(xiàn)在的圖片會輕微地降低模型的質(zhì)量,而不是提升質(zhì)量。

      如何利用機器學習預測房價?

      但是,請注意,圖像特征矩陣具有 25000 列,而我只使用了 8300 張照片。我根本沒有足夠的數(shù)據(jù)來支撐這種模型。如果我在網(wǎng)上爬一個月并能獲得更多的圖片的話,我相信將圖片整合到模型中將有助于提升預測的準確率。

      總而言之,在完成這個項目的過程中,我學到了很多東西,也克服了幾個重要的困難。我遇到的最大的困難是如何抓取 Redfin 圖像以及如何使用 VGG16 模型。我發(fā)現(xiàn) Keras 的文檔仍然很少,所以在使用它的時候需要試錯很多次。我為自己能完成這個項目而感到自豪,現(xiàn)在我需要做的只是獲取更多的數(shù)據(jù)!你可以在這里找到 GitHub 項目。

      文章為簡譯,更為詳細的內(nèi)容,請查看原文

      雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

      如何利用機器學習預測房價?

      分享:
      相關(guān)文章

      編輯

      聚焦數(shù)據(jù)科學,連接 AI 開發(fā)者。更多精彩內(nèi)容,請訪問:yanxishe.com
      當月熱門文章
      最新文章
      請?zhí)顚懮暾埲速Y料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說
      主站蜘蛛池模板: 精品一区二区三区四区五区六区| 亚洲一区二区三区av链接| 久久精品国产99久久六动漫| 91孕妇精品一区二区三区| 国产亚洲精品VA片在线播放,国产中年熟女大集合 | 一本色道久久爱88av| 麻豆a级片| 人妻社区| 深水埗区| 人人澡人人曰人人摸看| 亚洲国产人成在线观看69网站| 啊灬啊灬啊灬快灬深学长慢视频| 最新免费视频一区二区三区| 十八禁视频网站在线观看| 精品无码三级在线观看视频| 无码人妻精品中文字幕| 国产精品久久久久久久9999| 国产一区二区亚洲一区二区三区 | 国产jizz| 少妇精品导航| 国产v片| 人人澡超碰碰97碰碰碰| 日日撸夜夜干| 免费无码无遮挡裸体视频| 久久久久久一级毛片免费无遮挡| 亚洲国产精选| 午夜天堂一区人妻| 亚洲综合婷婷| 成人亚洲精品一区二区三区嫩花 | 少妇极品熟妇人妻| 最新国产AV最新国产在钱| 亚洲国产精品无码av| 成人性生交大片免费看视频app| 亚洲AV无码成人片在线| 五十路AV| 91视频免费在线观看| √天堂中文www官网在线| 国产无套内射又大又猛又粗又爽 | 色AV综合| 一本一道av无码中文字幕﹣百度| 人妻无码熟妇乱又伦精品视频 |