<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能 正文
      發私信給汪思穎
      發送

      0

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      本文作者: 汪思穎 2017-11-10 14:59
      導語:數據規模、數據質量等與深度學習算法之間的關系

      雷鋒網 AI科級評論按,深度模型在機器學習很多領域都取得了巨大成功,但也對算法的原材料訓練數據提出了更多的要求。對于研發高水平的算法,數據的高質量采集、清洗、處理等等對算法效果會有直接影響。

      在近期雷鋒網 AI研習社的線上分享會,來自 BasicFinder 標注平臺的數據科學家吳昊為大家介紹了數據規模、數據質量等與深度學習算法之間的關系,以及為算法做數據準備的一些經驗。

      吳昊,本科畢業于上海交通大學,碩士畢業于紐約大學,現任 BasicFinder 標注平臺數據科學家,專注于數據眾包策略研究、深度學習模型數據采集與標記方案咨詢及優化。

      分享內容:

      大家好,我叫吳昊。本科畢業于上海交通大學,研究生畢業于紐約大學。我之前做過兩年左右的算法研究工作,我們公司 BasicFinder 平臺主要提供一些數據方面的服務,包括采集、標注、清洗、其它別的加工等等。我今天分享的主題是AI數據面面觀。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      下面是今天分享的目錄,分為四部分:

      • 數據規模

      • 數據質量

      • 無監督學習與遷移學習

      • 做算法研發在數據準備方面的注意事項

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      數據規模

      先看數據規模,數據規模與算法模型的容量其實是比較相關的。算法模型的容量越大,就意味著算法能表示相對來說更復雜的關系。

      當數據規模相對過大時,在訓練過程中容易產生欠學習(underfitting)。另一方面,在數據規模相對過小的情況下,就會產生過學習(overfitting)。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      近年來流行的深度學習模型可以擁有非常大的容量,模型中普遍用的神經網絡算法,層數可以增加,每層神經元個數可以增加,那么模型的表達能力也會增加。下圖是一個例子。此外學術界也會做一些新的研究來增加模型的表達能力。另一方面得益于GPU,比較復雜模型的訓練也會比以前快很多。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      現在有一個問題,數據更多的話效果就會更好,那么究竟有多好呢?Google的一遍論文解決了這個問題。 

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      這個數據集是ImageNet的兩百多倍。隨著數據集里樣本數量的增多,在COCO上的結果比用之前的數據集至少高出三個點,而在算法的其他方面都沒有太多變化。可以看到數據規模的增大對算法的效果提升還是比較明顯的。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      在工業界,數據規模更容易成為算法研發的關鍵因素。如果有更多的數據,就可以使用容量更大、更復雜的模型,得到效果更好的算法。當數據大到一定程度,數據和算法之間可以進行反復迭代,形成壁壘,為公司提供競爭力。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      數據質量

      數據質量會影響算法效果。

      對于質量一般的數據,比如經過爬蟲得來的數據,經過清洗、處理后,算法效果會有明顯提升。如果數據質量已經很高了,再去提升數據質量,算法效果的提升比較有限。

      另外還要考慮到成本和收益的權衡問題:想獲得質量更高的數據,成本也會更高。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      接下來講一下對數據質量的評估。數據質量評估主要包括兩個方面,一是原始采集數據質量,二是數據標注質量。

      下面是對原始采集數據質量的評估:

      • 圖像、視頻:分辨率,清晰度,光照,色彩等

      • 語音:清晰度,背景音等

      • 文本:是否自然語言,是否專業,與主題相關性等

      下面是對數據標注質量的評估:

      • 標注正確率(類別數據)

      • 標注精確度(坐標、時間點、個數、文字等)

      • 標注完備性(是否漏,是否重復)

      • 標注一致性(前后規則是否一致)

      人工標記的大規模數據一般都會含有噪聲,一些經典數據集也含有噪聲,例如人臉LFW、MS COCO等,這是不可避免的,不過在可以接受的限度內就行。 

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      無監督學習與遷移學習

      接下來談一下無監督學習與遷移學習,遷移學習已經有一個比較大的數據集作為基礎了,再用人工標注一小部分新數據。

      對于無監督學習,基本上不需要人工標注,主要是學習數據本身的分布特性。比如說聚類算法,就是試圖找出數據集中分布的中心,所以不太需要人工標注。

      目前工業界相對來說比較好的結果還是通過監督學習而來,很多都需要大量人工標注的數據。無監督學習和遷移學習在未來還是有待學術界研究,以望更大的突破。另外,在未來數據規模進一步提升的情況下,無監督學習和遷移學習會有更多的用武之地。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      數據準備方面的一些經驗

      最后介紹我們在開展業務中的一些經驗。

      數據準備最開始是數據獲取,數據的獲取也分為幾種情況,比較常見的是互聯網公開獲取(公開數據集、爬蟲等),除此之外還有專業數據采集。在專業數據采集時,需要考慮采集方式:一是采集內容、采集規模、預算;二是采集過程要盡量與實際使用場景相一致;三是要考慮對數據集的要求,比如多樣性;四是采集是否涉及隱私、個人權利如肖像權、著作權等。

      最后還有采集時間的要求。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      然后是數據清洗。采集來的數據很多都需要清洗,例如爬蟲、監控視頻等。

      數據清洗之后就要進行數據標注,標注的規則要盡可能地詳盡、清楚,需要給出文檔和例子。專業的標注過程,一般有試標階段,這個階段需要詳細了解并確定需求。此外,在試標和正式標注過程中也會遇到不確定的情況,需要及時進行溝通,否則可能會影響到整體標注質量。

      對于數據標注的方式,以及最終的輸出格式,都需要算法研發人員來制定,有可能的話還是盡量使用常見的方式和格式。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      數據標記完之后就是數據審查。做審查主要參考對數據質量的要求(正確率、精確度、完備性、一致性等)。審查方式有抽查、排查特殊指標、利用某些特征排查異常值這幾種。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      結論如下:對于算法來說,數據越多越好、越廣越好、越準越好。在現有的情況下,監督學習的效果優于無監督學習/遷移學習。

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      視頻:

      雷鋒網 AI科技評論。

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      BasicFinder 標注平臺數據科學家吳昊:從數據采集與標記行業看數據與深度學習之關系(分享總結)

      分享:
      相關文章

      編輯

      關注AI學術,例如論文
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 无码av免费毛片一区二区| 亚洲高清国产拍精品青青草原| 国产精品无码无卡在线播放| 巨胸喷奶水视频www免费网站| 一本无码av中文出轨人妻| 人妻精品久久久久中文字幕69| 中文字幕国产精品自拍| 国产精品久久精品国产| 人妻人人爽| 久热超碰| 国产乱妇乱子视频在播放| 亚洲熟妇自偷自拍另类| 上司人妻互换中文字幕| 国产一区二区三区18| 最新亚洲人成无码WWW| V一区无码内射国产| 国产欧美一区二区三区在线| 乱码精品一区二区三区| 亚洲高清aⅴ日本欧美视频| 亚洲国产初高中生女av| 国产精品嫩草影院午夜| 人人做人人妻人人精| AV最新高清无码专区| 日韩人妻网站| 久久一日本道色综合久久| 久久精品视频在线看15| 大香焦一区二区三区| 97精品视频| 六月婷婷激情综合| 免费男人和女人牲交视频全黄| 国产高清在线| 亚洲成人久| 中文字幕无码传媒| 国产精品偷伦费观看一次| √天堂资源在线中文8在线最新版| 尹人97| 亚洲精品色午夜无码专区日韩| 日韩成人无码| 中文国产成人精品久久96| 少妇私密会所按摩到高潮呻吟| 国产美女亚洲精品久久久毛片|