<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給WBLUE
      發送

      0

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      本文作者: WBLUE 編輯:幸麗娟 2019-08-03 16:11
      導語:用標記函數標記數據、用轉換函數轉換數據、用切片函數切片數據。

      概述

      相較于在模型構架或硬件優化上所花的精力,機器學習從業者反而對訓練數據更加重視。因此,程序員基于不同的抽象技術,即高級設計的模板為他們的應用構建機器學習管道。在這篇文章中,我們介紹了三種強大的抽象技術,通過這些技術,從業者可以以編程的方式構建和管理他們的訓練數據。

      我們進行了一項實驗來測試針對基礎訓練數據操作的有效性,分別對訓練集的一部分數據使用了本文的框架、Snorkel(一種快速創建、建模和管理訓練數據的系統,通過標記函數以編程的方式標記數據)和在 SuperGLUE (一個用于「通用語言理解技術」相關六項任務的新評價指標)上取得最佳結果的標準 NLP 模型(即 BERT)。與自然語言預訓練模型(即 BERT)的最新進展相比,我們總體上取得了新的最高分數,并且在大多數組合型任務上,我們在各個方面都實現了現有的最好成績。

      除了 SuperGLUE 之外,我們還重點介紹了 Snorkel 在實際應用中的更新,其中包括更多應用——從 Google 的 Snorkel Drybell 的工業規模到 MRI 分類和自動全基因組關聯研究(GWAS)策劃的科研工作(這些應用均被收錄于 Nature Comms:https://www.nature.com/ncomms/)!

      與此同時,我們還在 Snorkel repo 中發布代碼:

      三種關鍵的抽象方式

      一般來講,在我們的 SuperGLUE 結果中,我們發現,將時間花在以編程方式構建和操縱訓練數據而非模型訓練上實為一種強大且有效的策略,通過此策略,我們可以得到機器學習的管道機制的高性能。在過去的一篇文章(閱讀地址:https://dawn.cs.stanford.edu/2019/03/22/glue/)中,由于我們在 GLUE Benchmark(SuperGLUE 的前身)上取得了當前最先進的結果,我們討論了加入更多來源的有監督信號的價值,例如:多任務學習和轉移學習。在這篇文章中,我們將重點放在構建和修改訓練數據集的三個關鍵抽象方法上:

      • 1.使用標記函數(LF)標記數據

      • 2.使用轉換函數(TF)轉換數據

      • 3.使用切片函數(SF)切片數據 (技術報告+博客文章即將推出!)

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      運行例子

      對于本文的其余部分,我們用 SuperGLUE 的語境用詞(WiC)任務作為示例:目標詞在句中的用法是否一致?

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      1、 使用標注函數的弱標注

      在許多應用場景中都有大量的未標記數據,這些數據可能來自于自動駕駛車隊或大型非結構化數據庫。但出于時間和成本的考慮,標注這些原始數據是很難的,因此,現代架構在很大程度上無法利用這些潛在的豐富數據集。通過使用 Snorkel,我們多年來一直致力于研究使用標注函數(LF)來啟發性地標注訓練樣例。Snorkel 中的標注函數(LF)為領域專家或機器學習從業者提供了用于對來自現有數據集、模型和人工標注的有監督源進行去噪和結合的直觀界面。

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      對于 WiC 任務(判斷目標詞在兩個句子中「意思」是否一致),我們可以認為根據它們是否共享包括目標詞的三元組來弱標記例子。

      2、 用轉換函數做數據增強

      通常,人們會根據簡單的變換,如隨機旋轉或拉伸圖像來做數據增強,但它們可以涉及到更多樣化的操作范圍。我們將轉換函數(TF)視為一種強大的抽象方式,啟發式地從現有的例子生成新的更改過的例子。例如,對于醫學成像任務,我們可能會編寫 TF 來執行特定于我們的成像模態的變換。例如,重新取樣分割腫瘤塊或重新取樣背景組織。我們在 TANDA 這項工作(Learning to compose domain-specific transformations for data augmentation,http://papers.nips.cc/paper/6916-learning-to-compose-domain-specific-transformations-for-data-augmentation)中探索了這種抽象方式,TANDA 旨在學習跨域特定任務的轉換組合。Google 的 AutoAugment 便以此工作為基礎,自動學習數據增強策略。

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      3、 用切片函數做數據切片(新方法!)

      在許多數據集中,特別是在實際應用中有一些使我們的模型表現不夠好的數據子集,還有一些相比于其他數據子集,其表現更讓我們關注的數據子集。例如,較低頻的醫保人口統計數據(如某些患癌的年輕患者),我們的模型在這個數據上就可能表現不好,或者在自動駕駛設定下,我們可能更關注一些安全攸關但罕見的場景,如檢測自行車騎行情況。我們將這些數據稱為子集切片。從業者經常面臨的技術挑戰是提高這些切片的性能,同時保持整體性能。

      切片函數(SF)為用戶提供了一個接口,用于粗略地識別那些模型應為其提供額外表示能力的數據子集。為了解決特定切片的表示,從業者可能會訓練多個模型,其中每個模型都針對特定的子集,然后將這些模型與專家混合(MoE)方法相結合。

      然而,隨著機器學習模型的規模不斷增大,MoE 通常是不切實際的。另一種策略是通過硬參數共享以多任務學習(MTL)的方式訓練單個模型。雖然此方法計算效率更高,但它需要在許多特定切片任務中用表示偏差來提高性能,而這種方式往往并不可靠。作為快速概述(技術報告+博客文章即將推出!),我們以多任務學習的方式對切片進行建模,其中使用基于切片的「專家頭部」來學習特定切片的表示。然后,通過為專家頭部引入注意力機制,以確定何時以及如何在每個示例的基礎上組合由這些切片頭部學習到的表示。

      在本方法中,我們考慮以下屬性:

      • 我們的方法與模型無關——專家頭部在任何骨干架構(例如 BERT,ResNET)之上學習。因此,使用切片功能提高整體性能的從業者們可以專注于數據而不是模型架構。

      • 通過多任務方式學習,我們可以有效地進行表示學習,而無需制作模型的許多副本(如 MoE 則需要太多內存)!

      • 通過結合注意力機制,我們避免了專家頭部的手動調整——這大大節省了開發者的成本。

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      從 WiC 錯誤分析中,我們可能會發現我們的模型在目標詞是名詞而非動詞的例子中表現得更差。使用切片函數 SF,我們告訴模型注意這些切片之間的差異,并在對它認為是名詞的目標詞進行預測時使用略微不同的表示。

      標注函數 LFs、轉換函數 TFs 和切片函數 SFs 的重要屬性

      • 直觀的界面這些抽象方式為現有的從業者工作流程提供了直觀的界面。它們允許直接對調試/報錯分析中的意見進行編碼,以改進模型。

      • 將抽象方法視作弱監督進行編程在實踐中,許多這樣的技術可被視為一種弱監督形式,因為用戶指定這些技術就是有噪音的、啟發式的且不精確的一些方式。處理此問題是我們使用 Snorkel 解決的核心技術挑戰之一。

      • 將監督視作代碼:這些輸入的種類是根據監督模型的方法(即它們指定訓練集)。具體地說,它們也是代碼,因此其具有代碼復用性和可修改性等諸多優點。

      SuperGLUE 結果

      使用這些編程抽象方法,我們在 SuperGLUE Benchmark 及其 4 個組合任務上獲得了新的最好成績。SuperGLUE 類似于 GLUE,但包含「更困難的任務...... 選擇最大化難度和多樣性,以及...... 選擇顯示基于 BERT 的強基線與人類表現之間的巨大余量差距。」在重現 BERT ++基線后,我們這些模型(基線模型,默認學習率等)進行微調后發現,在使用上述編程抽象方法的少數應用中,我們看到結果在 SuperGLUE 基準上提升了 4 個點(即與人類表現的差距縮小了 21%)。

      Snorkel 的實際應用

      這些 Snorkel 編程抽象方法也被用于推動具有高影響力的實際應用的進步。

      今年 3 月,我們和 Google 發布了一篇論文(https://arxiv.org/pdf/1812.00417.pdf)和博客文章(https://ai.googleblog.com/2019/03/harnessing-organizational-knowledge-for.html),介紹了在工業界部署 Snorkel 的經驗。憑借整個組織的不同知識來源——啟發式,標注器,知識圖譜,遺產系統(一種數據源系統)等,他們看到效果的顯著提高,在 F1 值上提高了 17.5 個點之多。

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      Snorkel 管道機制,被部署在具有多達 4000 個未標記的 MRI 序列數據集的 BAV 分類任務中。圖片來自 Fries et. al . 2018。

      在最近被 Nature Communications 收錄的工作(相關閱讀:https://www.biorxiv.org/content/10.1101/339630v4.full)中,Snorkel 被部署在與斯坦福大學兒科心臟病學持續合作的項目中,其中訓練數據的標注是開發自動化方法的重大實際障礙。我們關注的是二尖瓣主動脈瓣(BAV),這是最常見的先天性心臟畸形(一般人群的發病率為 0.5-2%),具有影響下游健康的風險。在研究中,我們選擇不依靠來自心臟病專家的昂貴的 MRI 標注,而是直接與領域專家合作開發標注函數 LF,以此為下游深度學習模型生成大規模的訓練集。在使用我們端到端的方法確診的患者中,一項獨立評估確定發生重大心臟不良事件的風險增加了 1.8 倍。

      在另一篇即將發表的 Nature Communications 論文(https://ai.stanford.edu/~kuleshov/papers/gwaskb-manuscript.pdf)中,我們展示了 Snorkel 是如何應用于自動化全基因關聯研究(GWAS)的。在之前發表的數百項報告了重要的基因型與表現型數據對的研究集合中,我們僅使用標記函數自動標記了大型訓練集。由此產生的分類器應用于 598 項研究的集合,恢復了 3,000 多個先前記錄的開放存取關系(預計召回率為 60-80%)以及現有人類策劃存儲庫中不存在的 2,000 多個協會(預計精確度為 82-89%)。生成的數據庫可通過 http://gwaskb.stanford.edu/上的用戶界面進行搜索。

      后記

      Snorkel 項目正在積極進行中!我們有許多令人興奮的持續合作——從斯坦福大學醫學院的后續工作到國際調查記者協會(ICIJ)的部署,以幫助記者組織、索引和理解數百萬個非結構化文件。

      本次發布的代碼包括了重要的基礎結構改進以及如何將 LF,TF 和 SF 應用于 SuperGLUE 和其他任務的教程。我們很高興如果您已經在自己的應用程序中應用了 Snorkel。有關 Snorkel 開發和應用程序的更新,您可以隨時訪問 Snorkel 登錄頁面或開源庫:

      via:http://ai.stanford.edu/blog/training-data-abstractions/   雷鋒網雷鋒網雷鋒網

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      用編程創建和管理訓練數據集難?三種強大的抽象方法呈上!

      分享:
      相關文章

      知情人士

      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 内丘县| 网友偷拍久久精品视频| 亚洲aⅴ天堂av天堂无码麻豆| 国产乱妇乱子视频在播放| 亚洲成人午夜福利av| 亚洲日韩国产精品第一页一区| 若尔盖县| 五月花成人网| 97久久精品人人澡人人爽| 国产成人精品综合| 精品无码久久久久久久久久| 亚洲av无码久久精品色欲| 中文字幕爆乳julia女教师| 海安县| 婷婷国产成人精品视频| 欧洲无码视频| 久久久久久久人妻丝袜| 亚洲色频| 97AV在线| 国产精品美女一区二区三| 精品伊人久久久久7777人| 欧美性群另类交| 精品欧美一区手机在线观看| 中国免费看的片| 亚洲18视频在线播放| 国产麻豆成人精品av| 欧美丝袜另类| 亚洲性av网站| 亚洲第一av网站| 中文字幕人妻精品免费| 亚欧在线视频| 五月综合色婷婷在线观看| 免费国产好深啊好涨好硬视频| 国产在线视频福利资源站| 国产乱妇无乱码大黄aa片| 国产亚洲欧美在线人成aaaa| 老熟女高潮一区二区三区| 克东县| 天堂8中文在线最新版在线| 科尔| 97se亚洲国产综合自在线观看|