<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給這只萌萌
      發送

      0

      結構化數據不應該被人工智能遺忘!

      本文作者: 這只萌萌 編輯:幸麗娟 2020-03-07 16:43
      導語:應用價值巨大!

      在處理非結構化數據的問題上,人工智能和深度學習方法一直都表現出眾且廣為人知,無論是在自然語言處理、知識庫自動構建,還是圖像視頻的識別和生成應用中,都有很多成熟案例。

      然而對于結構化數據的研究,似乎已經被人工智能和深度學習忘之腦后。結構化數據普遍存在于各類商業應用軟件和系統中,例如產品數據存儲,交易日志,ERP 和 CRM 系統中都存在大量結構化數據,這些結構化數據仍應用著陳舊的數據技術處理,如基于規則的系統,決策樹等。這樣的方法需要人工進行特征提取,操作繁瑣且需要耗費大量人力進行數據標簽。

      雖然人工智能的最新發展已經從非結構化數據中挖掘出了巨大價值,但對結構化數據而言,其研究和應用也是不可忽視的,因為結構化數據對于驅動企業的業務發展、營收、數據安全以及數據治理方面都有著重大意義。

      不同于非結構化數據,結構化數據的 AI 研究一直存在著一個巨大的挑戰,那就是其對于數據質量的高度敏感性。對于非結構化數據而言,人們或許可以接受分辨率不高的視頻,略帶瑕疵的圖像識別。但對于擁有大量結構化數據的大型企業來說,其核心業務數據是不容許有絲毫差錯的。比如對于制藥公司來說,藥品的劑量、價格和數量即使出現細微的數據錯誤,都有可能帶來巨大的災難。

      研究這些核心業務數據(結構化數據)在人工智能上的應用,是具有極大價值的,但受限于數據質量的高要求,大型企業在這類研究上舉步維艱。盡管人工智能在結構化數據上的應用研究已經有數十年的時間,但目前仍進展甚微。

      數據背后的業務復雜性,基于特定規則和邏輯的系統復雜性,需要人工介入的數據清洗和準備工作的高成本,都阻礙著這一研究的發展。要在結構化數據 AI 應用上有所成果,首先需要解決人工數據清洗和準備的問題,找到極少或者沒有人為干預的自動化方法,才能使得這一應用可落地可拓展。

      這也是為什么機器學習方法能適用于結構化數據準備和清洗的原因,最終的解決方案需要能夠提取企業數據特征并且理解毫不相干的數據上下文,能夠從大量數據集中訓練出模型,預測數據質量,甚至能提出數據質量的修復建議。

      將這樣的模型應用于數據準備和清洗中,可以解決結構化數據長期以來存在的問題——需要大量人工介入的數據準備和清洗工作。這樣的解決方案有以下的要求:

      • 可以將業務規則在內的所有信號和上下文,函數依賴和鍵等約束條件以及數據的統計屬性進行組合。

      • 能夠避免構建大量的規則,同時可以兼容極端情況。在許多情況下,結構化數據中的規則管理比清洗噪音數據更具挑戰性,成本更高。

      • 最終,模型所提供的預測應用于標準的數據質量測試中,能夠傳達一種「信心」:模型的預測能夠解決大多數情況,而人工,只需要專注去處理特殊的案例。

      雖然結構化數據在 AI 應用的研究中困難重重,我們還是找到了一些方法并有所進展。處理結構化數據并不僅僅依賴于數據本身的特征 (稀疏,異構,豐富的語義和領域知識),數據表集合 (列名,字段類型,域和各種完整性約束等)可以解碼各數據塊之間的語義和可能存在的交互的重要信息。
      舉個例子,兩個不同的城市不可能都對應相同的郵政編碼,一個項目的總預算不可能超過其計劃的開支。這都是可以明確提供的條件約束,這些條件約束增強了機器學習模型在結構化數據處理上的能力,而不僅僅是做統計分析。

      處理結構化數據的其中一大挑戰在于,結構化數據可能是異構的,同時組合了不同類型的數據結構,例如文本數據、定類數據、數字甚至圖像數據。其次,數據表有可能非常稀疏。想象一個 100 列的表格,每列都有 10 到 1000 個可能值(例如制造商的類型,大小,價格等),行則有幾百萬行。由于只有一小部分列值的組合有意義,可以想象,這個表格可能的組合空間有多么「空」。

      如果沒有任何結構、領域知識和條件約束,就很難了解數據如何生成及其準確性。因此,在構建結構化數據準備和清洗的解決方案過程中,我們總結了存在的三個主要挑戰:

      • 如何將背景知識轉化為模型輸入,以解決數據稀疏性和異構性帶來的挑戰?在預測某個列中的值時,我們如何在機器學習模型中傳遞關鍵約束、函數依賴關系、否定約束和其他復雜的完整性邏輯作為模型輸入?

      • 在訓練數據有限且存在臟數據,甚至有時都沒有訓練數據的情況下如何學習模型呢?以識別結構化數據錯誤的模型為例,該模型查找各種數據錯誤,包括錯別字、缺失值、錯誤值、矛盾事實、數據錯位等問題。使用非常有限的可用錯誤樣本和可用數據中存在的這些錯誤來訓練這樣的模型,就是需要克服的挑戰。

      •  模型如何拓展到大規模應用?如何能支撐上百萬個的隨機變量?如果把實驗條件下訓練出來的模型,直接應用到復雜商業環境中的結構化數據,毫無疑問,結果肯定是失敗的。

      我們開發了 inductiv,這是一個用于結構化數據的 AI 平臺,訓練模型理解數據的生成和「污染」過程。inductiv 可用于結構化數據的準備和清洗,例如錯誤檢測、預測缺失值、錯誤校正、空值補齊、數據融合等。Inductiv 歸屬于學術開源項目 HoloClean(www.holoclean.io),該項目是我們在 2017 年與滑鐵盧大學、威斯康星大學麥迪遜分校和斯坦福大學合作啟動的。

      一、將數據清洗視為一個 AI 任務

      HoloClean 采用經典的噪聲通道模型來學習數據的生成和「污染」過程。完整的研究論文:https://cs.uwaterloo.ca/~ilyas/papers/DeSaICDT2019.pdf。

      HoloClean 利用所有已知的領域知識(例如規則)、數據中的統計信息以及其他可信任來源作為屬性,來構建復雜的數據生成和錯誤檢測模型,此模型可用于發現錯誤并能夠提供修復建議,給出最有可能的替換值。

      結構化數據不應該被人工智能遺忘!

      圖 1 :「干凈」的數據是按照一定的生成過程生成的。我們也觀察到了臟數據的生成過程。通過建模和參數化,我們將數據清理轉變為了一個推斷問題

      雖然這樣的模型已經幫助我們將數據清理和數據錯誤檢測問題轉變為機器學習中的推理問題,但要訓練出表達力足夠強,能夠將應用規模化的模型,還是極有難度的。


      二、構建數據錯誤檢測的解決方案

      針對上文提到的挑戰,如何使用很少的樣本數據進行訓練的問題,我們在論文中提出了解決方案。

      • 模型。數據錯誤的異構性和異構性帶來的其他影響,導致很難找到適合的統計特征和完整性約束作為屬性,來幫助區分錯誤值和正確值。這些屬性對應著數據庫的屬性級、元組級和數據集級的特征,而這些特征都是用來表示數據分布的。圖 2 中描述的模型學習了一個表示層,該層通過捕獲這些多級特征,來學習應用于錯誤檢測的二分類器。

      • 數據不平衡。數據錯誤的種類非常多,但通常樣本數據中出現的錯誤數據是很少的,因此機器學習算法在面對不平衡的數據集時,訓練出來的結果通常不太樂觀。因此,不常見的數據錯誤,其特征經常被識別為噪音,因此被忽略。與常見數據錯誤相比,不常見的數據錯誤其識別的錯誤率很高。如圖 3,我們提出了應用「數據擴增強」方法,按照學習到的錯誤生成策略來制造許多「偽」錯誤,使用少量的真實數據錯誤來學習策略參數。當樣本的錯誤數據有限時,這一方法可以用于增加錯誤數據在樣本數據中的分布。

      結構化數據不應該被人工智能遺忘!

      圖 2: 具有多級特征的錯誤檢測模型

      結構化數據不應該被人工智能遺忘!

      圖 3: 使用錯誤生成策略以解決訓練數據不平衡問題

      三、inductiv 引擎:現代 AI 在結構化數據中的應用

      諸如數據準備、數據清洗、錯誤檢測和缺失值填補之類的數據問題,都可以應用一個統一的、可規模化的推理引擎進行建模。這樣的引擎要求能夠對「結構化」數據的生成以及錯誤的產生進行建模。更重要的是,結合我們上文提到的各種挑戰,這一模型還需要納入一些現代機器學習原理:

      • 用于生成訓練數據的?數據增強和數據編程

      • 目標列/值建模所需要的各種上下文的表示,例如學習異構數據的嵌入空間

      • 自我監督學習,盡可能利用所有數據。比如使用其他值來重建某些觀察到的數據值

      • 將領域知識和規則輸入到模型中,擴展模型的表達能力

      • 進行一些系統級別的優化,例如學習數據分區和本地索引,以完善模型的可拓展性,提高模型適應多種數據分布的能力。

      Inductiv 將我們之前提到的所有研究,融合于一個統一的 AI 內核中,它可以支持多種數據準備和清洗的應用。

      圖 4 描繪了前文提到的多種方法的核心組成部分,以處理不同的數據類型(例如量化數據的回歸分析,定類數據的分類)。這些方法包括了基于注意力的上下文表示機制、分布式學習、數據切片以及多任務學習的自我監督。

      在 MLSys 2020 論文中,我們提出了一種基于注意力的學習架構,用于混合類型結構化數據的缺失值填補(圖 5)。

      結構化數據不應該被人工智能遺忘!

      圖 4:Inductiv 統一推理引擎的核心組成部分

      結構化數據不應該被人工智能遺忘!

      圖5:基于注意力的上下文表示和多任務學習的示例架構

      四、結語

      如今的商業化數據中,絕大部分重要數據都是結構化的,然而由于對數據質量的高要求,使得很多有價值的研究都望而卻步。

      通過采用機器學習的方法,我們可以將結構化數據的數據準備和清洗問題都視為一個統一的預測任務,不過這種方式存在著規模化,異構性,稀疏性以及復雜語義和專業領域知識的挑戰。  雷鋒網雷鋒網雷鋒網

      而 Inductiv 引擎作為首個用于結構化數據處理的可擴展 AI 平臺,則成功解決了這些挑戰!

      via https://towardsdatascience.com/ai-should-not-leave-structured-data-behind-33474f9cd07a

      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      結構化數據不應該被人工智能遺忘!

      分享:
      相關文章

      知情人士

      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 成人看的污污超级黄网站免费| 日本免费人成视频在线观看| 云浮市| 亚洲成色www久久网站| 一区二区三区四区五区自拍| 一区一区三区产品乱码| 国产人妻一区二区三区四区五区六 | 亚洲成年网站| 国产区精品系列在线观看| 中文字幕无码视频手机免费看 | 久久丫精品系列| 精品无码一区二区三区在线视频| 日韩熟女精品一区二区三区| 亚洲自拍另类| 亚洲综合电影| 国产成人精品AA毛片| 在线无码国产精品亚洲а∨| 国产一码二码三码区别| 日韩有码中文字幕国产| 国产精品天干天干| 麻豆人妻| 一二三四区无产乱码1000集 | 日韩国产中文字幕精品| 国产在线精品福利91香蕉| 999国产精品999久久久久久| 超碰成人人人做人人爽| 在线免费播放av观看| 少妇高潮喷水惨叫久久久久电影| 精品国产一区二区三区香蕉蜜臂| 日本免费人成视频在线观看| 天堂av成人国产精品| 久久中文骚妇内射| 美腿丝袜中文字幕精品| 亚州Av无码| 亚洲深深色噜噜狠狠网站| 69天堂人成无码麻豆免费视频| 欧美人与动zozo| 精品国产一区二区三区无码| 亚洲2区3区4区产品乱码2021| 91天堂素人精品系列全集亚洲| 人妻无码久久一区二区三区免费 |