<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
      此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
      人工智能 正文
      發(fā)私信給李尊
      發(fā)送

      1

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      本文作者: 李尊 2016-08-19 18:32
      導(dǎo)語(yǔ):Facebook聲稱與深度模型對(duì)比,fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘。

      導(dǎo)讀:Facebook聲稱fastText比其他學(xué)習(xí)方法要快得多,能夠訓(xùn)練模型“在使用標(biāo)準(zhǔn)多核CPU的情況下10分鐘內(nèi)處理超過(guò)10億個(gè)詞匯”,特別是與深度模型對(duì)比,fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘。  

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      Facebook FAIR實(shí)驗(yàn)室在最新博客中宣布將開(kāi)源資料庫(kù)fastText,聲稱相比深度模型,fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘。

      | 使用fastText實(shí)現(xiàn)更快、更好的文本分類

      理解人們交談時(shí)的內(nèi)容,或者敲打文章時(shí)的內(nèi)容——這對(duì)于人工智能研究者來(lái)說(shuō)是最大的技術(shù)挑戰(zhàn)之一,但是也確實(shí)是關(guān)鍵的一個(gè)需求。自動(dòng)文本處理在日常計(jì)算機(jī)使用中相當(dāng)關(guān)鍵,在網(wǎng)頁(yè)搜索和內(nèi)容排名以及垃圾內(nèi)容分類中占重要組成部分。且當(dāng)它運(yùn)行的時(shí)候你完全感受不到它。隨著在線數(shù)據(jù)總量越來(lái)越大,需要有更靈活的工具來(lái)更好的理解這些大型數(shù)據(jù)集,來(lái)提供更加精準(zhǔn)的分類結(jié)果。

      為了滿足這個(gè)需求,F(xiàn)acebook FAIR實(shí)驗(yàn)室開(kāi)源了fastText。fastText是一個(gè)資料庫(kù),能針對(duì)文本表達(dá)和分類幫助建立量化的解決方案。關(guān)于fastText具體實(shí)現(xiàn)原理,F(xiàn)acebook另外發(fā)表了兩篇相關(guān)論文,兩篇論文具體信息如下:

      Bag of Tricks for Efficient Text Classification(高效文本分類技巧)

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      Enriching Word Vectors with Subword Information(使用子字信息豐富詞匯向量)

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      fastText結(jié)合了自然語(yǔ)言處理和機(jī)器學(xué)習(xí)中最成功的理念。這些包括了使用詞袋以及 n-gram 袋表征語(yǔ)句,還有使用子字(subword)信息,并通過(guò)隱藏表征在類別間共享信息。我們另外采用了一個(gè)softmax層級(jí)(利用了類別不均衡分布的優(yōu)勢(shì))來(lái)加速運(yùn)算過(guò)程。這些不同概念被用于兩個(gè)不同任務(wù):

      有效文本分類

      學(xué)習(xí)詞向量表征

      舉例來(lái)說(shuō):fastText能夠?qū)W會(huì)“男孩”、“女孩”、“男人”、“女人”指代的是特定的性別,并且能夠?qū)⑦@些數(shù)值存在相關(guān)文檔中。然后,當(dāng)某個(gè)程序在提出一個(gè)用戶請(qǐng)求(假設(shè)是“我女友現(xiàn)在在兒?”),它能夠馬上在fastText生成的文檔中進(jìn)行查找并且理解用戶想要問(wèn)的是有關(guān)女性的問(wèn)題。

      | fastText對(duì)于文本分類的實(shí)現(xiàn)過(guò)程

      在文本處理領(lǐng)域中深度神經(jīng)網(wǎng)絡(luò)近來(lái)大受歡迎,但是它們訓(xùn)練以及測(cè)試過(guò)程十分緩慢,這也限制了它們?cè)诖髷?shù)據(jù)集上的應(yīng)用。

      fastText能夠解決這個(gè)問(wèn)題,其實(shí)現(xiàn)過(guò)程如下所示:

      對(duì)于有大量類別的數(shù)據(jù)集,fastText使用了一個(gè)分層分類器(而非扁平式架構(gòu))。不同的類別被整合進(jìn)樹形結(jié)構(gòu)中(想象下二叉樹而非 list)。

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      考慮到線性以及多種類別的對(duì)數(shù)模型,這大大減少了訓(xùn)練復(fù)雜性和測(cè)試文本分類器的時(shí)間。fastText 也利用了類別(class)不均衡這個(gè)事實(shí)(一些類別出現(xiàn)次數(shù)比其他的更多),通過(guò)使用 Huffman 算法建立用于表征類別的樹形結(jié)構(gòu)。因此,頻繁出現(xiàn)類別的樹形結(jié)構(gòu)的深度要比不頻繁出現(xiàn)類別的樹形結(jié)構(gòu)的深度要小,這也使得進(jìn)一步的計(jì)算效率更高。

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

       Huffman 算法

      fastText 另外使用了一個(gè)低維度向量來(lái)對(duì)文本進(jìn)行表征,通過(guò)總結(jié)對(duì)應(yīng)文本中出現(xiàn)的詞向量進(jìn)行獲得。在 fastText 中一個(gè)低維度向量與每個(gè)單詞都相關(guān)。隱藏表征在不同類別所有分類器中進(jìn)行共享,使得文本信息在不同類別中能夠共同使用。這類表征被稱為詞袋(bag of words)(此處忽視詞序)。在 fastText中也使用向量表征單詞 n-gram來(lái)將局部詞序考慮在內(nèi),這對(duì)很多文本分類問(wèn)題來(lái)說(shuō)十分重要。

      實(shí)驗(yàn)表明 fastText 在準(zhǔn)確率上與深度學(xué)習(xí)分類器具有同等水平,特別是在訓(xùn)練和評(píng)估速率上要高出幾個(gè)數(shù)量級(jí)。使用 fastText能夠?qū)⒂?xùn)練時(shí)間從幾天降至幾秒,并且在許多標(biāo)準(zhǔn)問(wèn)題上實(shí)現(xiàn)當(dāng)下最好的表現(xiàn)(例如文本傾向性分析或標(biāo)簽預(yù)測(cè))。

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      FastText與基于深度學(xué)習(xí)方法的Char-CNN以及VDCNN對(duì)比 

      | fastText也可作為專業(yè)工具

      文本分類對(duì)于商業(yè)界來(lái)說(shuō)非常重要。垃圾郵件或釣魚郵件過(guò)濾器可能就是最典型的例子。現(xiàn)在已經(jīng)有能為一般分類問(wèn)題(例如 Vowpal Wabbit 或 libSVM)設(shè)計(jì)模型的工具,但是 fastText 專注于文本分類。這使得在特別大型的數(shù)據(jù)集上,它能夠被快速訓(xùn)練。我們使用一個(gè)標(biāo)準(zhǔn)多核 CPU,得到了在10分鐘內(nèi)訓(xùn)練完超過(guò)10億詞匯量模型的結(jié)果。此外, fastText還能在五分鐘內(nèi)將50萬(wàn)個(gè)句子分成超過(guò)30萬(wàn)個(gè)類別。

      | fastText對(duì)于許多語(yǔ)言都通用

      除了文本分類以外,fastText也能被用來(lái)學(xué)習(xí)詞匯向量表征。利用其語(yǔ)言形態(tài)結(jié)構(gòu),fastText能夠被設(shè)計(jì)用來(lái)支持包括英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)以及捷克語(yǔ)等多種語(yǔ)言。它還使用了一種簡(jiǎn)單高效的納入子字信息的方式,在用于像捷克語(yǔ)這樣詞態(tài)豐富的語(yǔ)言時(shí),這種方式表現(xiàn)得非常好,這也證明了精心設(shè)計(jì)的字符 n-gram 特征是豐富詞匯表征的重要來(lái)源。FastText的性能要比時(shí)下流行的word2vec工具明顯好上不少,也比其他目前最先進(jìn)的詞態(tài)詞匯表征要好。

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      不同語(yǔ)言下FastText與當(dāng)下最先進(jìn)的詞匯表征進(jìn)行比較

      fastText具體代碼實(shí)現(xiàn)過(guò)程

      fastText基于Mac OS或者Linux系統(tǒng)構(gòu)筑,使用 C++11 的特性。需要python 2.6 或者更高版本支持,以及numpy & scipy等軟件支持。

      示例:

      $ git clone https://github.com/facebookresearch/fastText.git
      $ cd fastText
      $ make
      $ ./fasttext supervised
      Empty input or output path.

      The following arguments are mandatory:
       -input      training file path
       -output     output file path

      The following arguments are optional:
       -lr         learning rate [0.05]
       -dim        size of word vectors [100]
       -ws         size of the context window [5]
       -epoch      number of epochs [5]
       -minCount   minimal number of word occurences [1]
       -neg        number of negatives sampled [5]
       -wordNgrams max length of word ngram [1]
       -loss       loss function {ns, hs, softmax} [ns]
       -bucket     number of buckets [2000000]
       -minn       min length of char ngram [3]
       -maxn       max length of char ngram [6]
       -thread     number of threads [12]
       -verbose    how often to print to stdout [10000]
       -t          sampling threshold [0.0001]
       -label      labels prefix [__label__]

      總結(jié):Facebook FAIR實(shí)驗(yàn)室最新開(kāi)源工具fastText能將訓(xùn)練時(shí)間由數(shù)天縮短到幾秒鐘,相較于基于深度學(xué)習(xí)的模型方法,在保證同等精度的前提下fastText速度上快了幾個(gè)數(shù)量級(jí)。此外,fastText還能作為文本分類在實(shí)際應(yīng)用中的專業(yè)工具,特別是對(duì)于大型數(shù)據(jù)集能實(shí)現(xiàn)相當(dāng)快的訓(xùn)練速度。另外因其自身語(yǔ)言形態(tài)結(jié)構(gòu),fastText還能支持包括英語(yǔ)、德語(yǔ)、西班牙語(yǔ)、法語(yǔ)以及捷克語(yǔ)等多種語(yǔ)言。

      PS : 本文由雷鋒網(wǎng)編譯,未經(jīng)許可拒絕轉(zhuǎn)載!

      via Facebook research blog

      雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知

      比深度學(xué)習(xí)快幾個(gè)數(shù)量級(jí),詳解Facebook最新開(kāi)源工具——fastText

      分享:
      相關(guān)文章
      最新文章
      請(qǐng)?zhí)顚懮暾?qǐng)人資料
      姓名
      電話
      郵箱
      微信號(hào)
      作品鏈接
      個(gè)人簡(jiǎn)介
      為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
      您的郵箱還未驗(yàn)證,完成可獲20積分喲!
      請(qǐng)驗(yàn)證您的郵箱
      立即驗(yàn)證
      完善賬號(hào)信息
      您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
      立即設(shè)置 以后再說(shuō)
      主站蜘蛛池模板: 国产白浆一区二区三区四区| 亚洲成av| 蜜臀av黑人亚洲精品| 97亚洲熟妇自偷自拍另类图片| 影音先锋久久久久av综合网成人 | 欧美色网| 97成人碰碰久久人人超级碰oo| 秋霞无码一区二区| 91福利社| 麻豆人人妻人人妻人人片av| 五月天亚洲色图| 亚洲国产综合日韩AV一波多野结衣 | 亚洲A∨无码| 五月天堂| 无码视频一区二区三区在线观看| 日韩精品亚洲精品第一页| 亚洲AV无码专区首页第一页| 日韩Av无码一区二区三区不卡| 在线视频一区二区三区不卡 | 国产精品a无线| 五华县| 激情综合色五月丁香六月亚洲| 亚洲不卡视频| 国产tsAV| 中文字幕在线天堂| 国产av久久| 日韩精品极品视频在线观看免费| 精品噜噜噜噜久久久久久久久| 91福利国产成人精品导航 | 亚洲av永久无码精品九九| 国产欧美日韩亚洲一区二区三区| 国产精品视频熟女韵味| 波多野结衣中文字幕一区二区三区 | 亚洲精品久久久久午夜福禁果tⅴ| 日本99视频| 国产欧美日韩va另类在线播放| 亚洲av熟女| 91狠| 精品99视频| 亚洲国产中文乱| 中文字幕av久久爽一区|