<label id="jgr5k"></label>
    <legend id="jgr5k"><track id="jgr5k"></track></legend>

    <sub id="jgr5k"></sub>
  1. <u id="jgr5k"></u>
      久草国产视频,91资源总站,在线免费看AV,丁香婷婷社区,久久精品99久久久久久久久,色天使av,无码探花,香蕉av在线
      您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
      此為臨時鏈接,僅用于文章預覽,將在時失效
      人工智能學術 正文
      發私信給我在思考中
      發送

      0

      中科大王杰教授:基于表示學習的知識圖譜推理技術

      本文作者: 我在思考中 2022-01-17 10:40
      導語:從簡單推理到復雜推理。
      中科大王杰教授:基于表示學習的知識圖譜推理技術


      作者 | 維克多

      編輯 | 青暮
      知識圖譜蘊含豐富的人類先驗知識,具有重要的學術價值和廣泛的應用前景。知識圖譜推理作為知識圖譜領域的核心技術,能夠極大地擴展現有知識的邊界,有力地輔助人類進行智能決策。
      2021年12月17日,中國科學技術大學教授,博士生導師,國家優青王杰在 CNCC 2021 “知識為意,圖譜為形--基于圖機器學習的知識推理”專題論壇上做了《基于表示學習的知識圖譜推理技術——從簡單推理到復雜推理》的報告。
      在報告中,王杰結合知識圖譜近年來的研究趨勢與應用場景,聚焦從單一圖譜推理到聯合外部信息推理、從結構化輸入到自然語言輸入的層次遞進的推理場景,介紹基于表示學習的知識圖譜推理方向取得的進展。最后,王杰展望了知識圖譜推理技術未來發展所面臨的若干挑戰和機遇。
      例如,他提到:“當前廣泛使用的數據集無法準確地反映真實場景模型,現在的模型測試時基本采用封閉世界假設,不符合真實應用場景,會導致本該正確的結果被判斷為錯誤……現有知識圖譜只涉及文本信息,未來的發展趨勢是擴展到多模態信息。多模態知識圖譜依賴于多種模態數據的收集,其中關鍵問題是……”
      以下是演講全文,AI科技評論做了有刪改的整理:
      今天的演講題目是《基于表示學習的知識圖譜推理技術——從簡單推理到復雜推理》,分為背景介紹、簡單推理、復雜推理、未來展望等四個部分。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      知識圖譜的本質是大規模的語義網絡知識庫,表示對客觀世界實體的描述。如上圖左下角人物知識圖所示,每一個節點代表一個人物,邊代表人物之間的關系。而在計算機中,知識圖譜以三元組的形式存儲,包含頭實體、關系、尾實體。
      我們總希望得到大型的知識圖譜,因為在規模效應的作用下,會給應用效果帶來質變。知識圖譜可以分為兩類,一類是通用知識圖譜,面向通用領域的百科知識庫,另一類是領域知識圖譜,面向特定領域的行業知識庫。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      通用知識圖譜覆蓋面較廣,但所包含的知識層級體系較淺、粒度較粗、精度不高,領域知識圖譜則相反,其覆蓋面較窄,只面向某個特定領域,包含的知識深度和精度往往有更高的標準和質量。
      知識圖譜最早可以追溯到60年代的專家系統,當時主要是依靠專家知識,通過人工進行構建,所以成本較高。經過多年發展,知識圖譜逐漸轉向自動化構建,1998年提出的語義網絡和2006年提出的鏈接數據是“自動化”發展的關鍵節點。
      2012年,谷歌發布知識圖譜,并將其應用到搜索引擎當中。這時knowledge graph詞匯第一次被明確提出。目前谷歌、百度等構建的知識圖譜已經包含超千億級別的三元組,其背后所依賴的是大數據驅動下的自動知識獲取技術。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      知識圖譜屬于典型的交叉技術領域,包含眾多的技術要素:存儲、查詢、構建、獲取、推理、融合、問答、分析等等幾個方面。在眾多要素中,推理是核心的技術和任務。
      一方面,知識圖譜的存儲、查詢、構建與獲取,不僅僅是為了能夠描述客觀世界、總結人類先驗知識,更重要是為知識圖譜推理服務。
      另一方面,知識圖譜中的技術和任務都包含深度語義理解。例如融合技術中,需要利用推理技術對齊不同知識圖譜的實體;問答技術中需要推理技術拓展問句的語義;分析技術中需要推理技術幫助進一步挖掘圖數據中的信息。
      因此,凡包含深度語義理解的任務都涉及推理的過程。而知識圖譜的推理目標是利用知識圖譜中已經存在的關系或事實推斷未知的關系和事實。換句話說,就是由已知的一個或者幾個判斷,推斷另一個未知的判斷。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      知識圖譜的推理有兩種形式:基于規則的推理、基于表示學習的推理。基于規則的推理是指基于本體邏輯的演繹推理,例如若A屬于B,B屬于C,則A屬于C。這種推理雖然可解釋性強,精度高,但需要事先寫清楚規則,所以在實際應用中不夠靈活。當涉及大規模數據時,可以使用統計方法總結歸納出規則,這也稱為歸納式的推理。
      基于表示學習的推理需要將實體以及實體之間的關系映射到向量空間,然后通過向量空間的操作進行建模邏輯關系。這種方式易于捕獲隱含的信息,但卻丟失了可解釋性。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      列舉一個基于表示學習的推理的工作原理。上圖中存在兩個三元組:<中國,首都,北京>;<美國,首都,華盛頓>。將其映射到向量空間之后會發現,中國與北京這兩個向量之間的差值,接近美國與華盛頓之間的差值。
      然后定義一個函數,希望三元組映射到向量空間之后,頭實體+關系的向量表示盡可能接近尾實體的向量表示。如上圖中的f(h,r,t)函數,既可以是Loss函數也可以是打分函數。
      打分函數某種程度上是三元組為真的置信度,如上圖右下角的例子所示,根據打分值(置信度)確定“英國的首都是倫敦”。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      進一步,根據輸入,基于表示學習的知識圖譜推理分為簡單推理和復雜推理兩類。簡單推理類似鏈接預測,根據知識圖譜中已有實體和關系推理兩個給定實體的關系,其難點在于理解已有實體和關系的語義。
      復雜推理相對于簡單推理,其輸入更加復雜。根據輸入的不同,難點分別在于:
      • 建模關系間的語義結構,給定實體關系未在訓練模型中出現過。
      • 建模復雜的結構化問題,包含若干個一階邏輯。
      • 建模非結構化問題,輸入數據包含人類口頭語等。



      1

      簡單推理最新進展
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      直觀理解簡單推理,例如有一個頭實體和一個尾實體,然后希望補齊與之對應關系,從而最大可能讓三元組成立。
      還是以人物知識圖譜為例,已知(訓練數據)“蔣英的丈夫是錢學森,蔣英的父親是蔣百里”,請問錢學森和蔣百里之間是什么關系?為了較好解決這一鏈接預測問題,需要對知識圖譜中實體之間的關鍵性質進行建模。
      方式有三:語義近似、語義分層、語義融合。例如老虎是哺乳動物,老虎和獅子語義相近,就可以推理出獅子是哺乳動物;獅子屬于貓科動物,貓科動物屬于哺乳動物,根據語義分層現象可以推理出獅子是哺乳動物;語義融合是指結合知識圖譜以及非知識圖譜的非結構化文本描述,從而捕捉實體的潛在語義。

      語義近似

      中科大王杰教授:基于表示學習的知識圖譜推理技術
      對于語義近似,目前的經典方法是“基于張量分解的知識圖譜嵌入模型”,例如CP、RESCAL、ComplEx等等,此類方法的共同點是三元組為真的概率由內積定義。其存在的問題由上(右)圖所示,在向量空間中相近語義的實體具有不相近的表示。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      基于上述缺點,我們提出“面向張量分解的知識圖譜嵌入模型的正則項”,其思想在于讓語義相近的實體表示內積盡可能的大,距離盡可能的小。如上(左)圖所示,除了希望尾實體的向量盡可能落在黃色的虛線上,也希望尾實體的向量表示盡可能地落在橢圓(紅色區域)里。
      如何做到?添加基于對偶距離模型的正則項,用向量差的2范數表示原始內積。將“2范數”展開之后,會發現這一表達式也包含了原始內積,以及后面兩項2范數的平方。最后會得到對偶誘導正則項:由原來的內積+頭實體2范數+尾實體2范數。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      通過實驗發現,“對偶誘導正則項”能夠有效促使相近語義實體具有相近表示,也可以顯著提升現有模型的推理性能。此外,它的優點還在于給出了張量核2-范數的一個上界以及矩陣分解問題中跡范數正則的張量推廣。

      語義分層

      中科大王杰教授:基于表示學習的知識圖譜推理技術
      語義分層是廣泛存在的,例如“棕櫚樹是樹”,“北京位于中國”。其中樹是更高層級,棕櫚樹是更低層級;中國是更高層級,北京是更低層級。如果按語義對實體進行分類,可以分為不同語義層級的實體,例如“哺乳動物”和“狗”,“移動”和“奔跑”;相同語義層級的實體,“玫瑰”和“牡丹”,“貨車”和“客車”。
      現有建模語義層級有兩個傳統工作,利用外部層級信息輔助建模,在一些特定的數據集里,實體和關系本身是帶有層級信息的。這種方法可以幫助理解實體的語義,但是并不能很好地區分不同層級的實體,最關鍵的是,并不是所有的數據集中都有額外的分層信息。
      還有一類方法主要考慮關系的語義層級,也就是將一個關系抽象成若干不同層級的子關系的復合,從而達到對語義層級的建模,但是這類方法需要對關系表示進行額外的聚類操作,其缺點在于無法全自動地從知識圖譜中學到具有層級性質的語義信息。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      為了建模知識圖譜的語義層級,可以將語義層級建模成樹結構,如上(左)圖所示,樹結構中節點的深度,能夠反映層級信息:越靠近根節點的節點,具有越高的層級;而具有相同深度的不同節點,具有相同的層級。
      進一步,可以用極坐標建模樹結構。極坐標由兩部分組成,半徑坐標反映點到原點的距離;角坐標可以用來區分同心圓上的不同位置。因此可以將點到原點的距離視作到根節點的距離,半徑坐標和角坐標就可以分別對應不同層級和相同層級的實體??偠灾?/span>將實體映射到極坐標系中,利用極坐標建模語義層級,可以利用模長( Modulus)和角度( Phase)兩部分進行建模 。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      為了建模不同實體之間的關系,不同實體模長之間的關系可以建模成伸縮變換,也就是頭實體的模長乘以關系變換(r)得到尾實體的模長,然后將角度之間的關系建模為旋轉變化,也即頭實體的角度根據不同的關系旋轉不同的角度后得到尾實體的角度。此類建模方式可以定義為上(右)圖中的距離函數。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      經過實驗,此類方法能夠有效區分實體的語義層級。例如上圖的幾個例子,“CS與AI不同層級”、“ask與inquire相同層級”、“D與C不同層級”都能更清晰地進行分割。此外,頭尾實體層級相同,實驗證明可以利用角度進行區分。而在單步推理測試數據集上,此類方法已經在推理性能上顯著超越其他方法,也被同行評價為“基于幾何的方法中表現最佳的模型”。

      語義融合

      中科大王杰教授:基于表示學習的知識圖譜推理技術
      語義融合需要將圖譜與文本描述進行結合,既涉及結構化數據也涉及非結構化數據,目前該領域還在探索?,F有的趨勢是從知識嵌入向知識注入發展,前者是指傳統的KGE模型,僅從結構化的知識圖譜中獲得知識,體量龐大的文本數據不能被充分利用。
      而知識注入指KGE模型與預訓練模型協同訓練,能夠有效處理非結構化的數據。但缺陷在于,會由于預訓練模型巨大的傳輸量而帶來高額的計算成本,甚至成本太大而無法協同訓練。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      為了解決此問題,我們提出Hetero- Learner:融合異質知識的高效率學習器,將圖譜結構和文本描述嵌入成向量,并進行向量的有機拼接。過實驗表明,僅以同類模型 KEPLER3.6%的參數量取得 Wikidata5M上的SOTA結果。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      為了進一步提升性能,受人類認知推理的啟發,我們提出Hetero- Reasoner。該模型方法“模擬”人類,首先根據推理對象的含義以及推理對象之間的聯系做出判斷和推理((對應Knowledge Learner)),然后從現象中歸納抽象的邏輯規則來輔助推理(對應Rule Miner),最后會回憶和反芻已有的知識來加強對推理和判斷的信心(對應Knowledge Distiller)。整體而言,該模型包括異質學習器、規則挖掘器和知識蒸餾器三個模塊,能有效地結合有結構的知識圖譜數據和無結構的文本數據進行推理。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      最終,在最近一次KDD CUP 2021 大規模知識圖譜比賽的“Link Prediction”賽道榮獲第三名,成為前三名中唯一一支成員均來自高校的隊伍。



      2

      復雜推理最新進展
      復雜推理主要集中在歸納式推理、多步推理、自然語言查詢三方面的工作。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      歸納式的推理和簡單推理有類似之處,都是進行鏈接預測的任務,但是歸納式推理測試數據集的實體和訓練數據集的實體不重合,因此難點在于如何將訓練數據集的知識遷移或泛化至測試數據集。
      歸納式推理的核心在于學習關系的語義結構。例如上圖左邊(紅樓夢)和右邊的知識圖譜中的人物并不重合。但兩者關系確實存在一些共同的特點。例如兩者都符合母親、父親、丈夫關系模式,都可以將其提取與應用。
      此類建模方式的經典方法是基于規則學習的歸納式推理,這是在知識圖譜統計、歸納常出現的關系結構。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      我們設計了另一種歸納模式,即首先將原始圖譜的關系變為節點,然后生成新的圖譜,其中關系和關系之間的邊代表兩個相鄰關系的連接模式。然后用圖神經網絡訓練以關系為節點的圖,從而找到相關特性。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      如上圖所示,此方法在歸納推理性能上顯著超其他方法,相對于現有的方法提升都在5個點甚至10個點左右。

      多步推理

      復雜結構化問題的輸入對應的復雜推理形式是多步推理。例如,對于查詢任務“列出安徽省內為211但非985高校的校長”,對于這一任務,可以通過傳統構建計算圖方法進行解決,但會遇到結構多樣、與或非邏輯運算等問題,從而帶來非常高的計算復雜度。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      再舉例子:在知識圖譜中推理得到中國東部省份的高校,隨著推理步驟的進行,實體的數目會從中國節點開始,呈指數級上升。為了解決這一問題,我們提出基于表示學習的方法,在適當的向量空間進行推理。
      基于表示學習的多步推理有兩個關鍵的步驟。第一,定義向量空間,第二,在向量空間中定義推理操作。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      具體而言,首先將實體和實體的集合映射到向量空間,實體用幾何圖形或者概率分布進行表示,然后在向量空間中通過相似度比較得到答案,從而避免巨大的計算開銷;之后,將推理操作定義為實體集合之間的變換,例如“與”對應實體集合的交;“或”對應實體集合的并;“非”對應實體集合的補。
      因此,在基于表示學習的多步推理模型中,給定問題結構,通過邏輯操作得到最終問題表示,然后通過實體表示和問題表示之間的距離,得到最終問題的答案。
      一般而言,問題答案是實體的集合,問題表示本質上是實體集合的表示。所以如何表示問題的集合就變得非常重要。傳統方法是使用“盒子”表示查詢,它雖然可以進行邏輯運算,但難以建?!胺恰标P系。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      我們提出ConeE, 二維錐(Cone)構成的向量空間。將實體定義為幅角為0,將集合定義為幅角不為0。由于錐體具有封閉性,所以容易進行“與或非”操作。目前,此項工作在多跳推理性能上顯著超越其他方法。

      自然語言查詢

      自然語言查詢的難點在建模非結構化問題,其任務針對給定的自然語言問題作為輸入(區別于結構化查詢),通過知識圖譜多跳推理的方式給出答案。但隨著問題跳數增加,候選實體數量呈指數增長?,F有的GNN方法通過子圖裁剪以降低候選實體數量但犧牲了正確答案的召回率。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      為此,受人類認知理論啟發,我們提出兩階段方法。第一階段對應系統1(無意識、直覺的、快思考),快速篩選,通過query-answer語義匹配打分;第二階段對應系統2(有意識、邏輯的、慢思考),通過貝葉斯網絡,基于推理路徑的打分。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      在問題“John Derek 參演電影的編輯有哪些?”中,運用我們設計方法的結果如所示,留下的實體相對而言數量比較少,而且置信度較高。進一步實驗表明,我們的方法在多跳數據集上性能顯著超越之前的SOTA方法。



      3

      未來展望
      在知識圖譜上進行推理,除了基于表示學習的方法之外,還有一種基于規則的方法。雖然基于表示學習相比規則推理的方法,可以更好地建模知識圖譜中的潛在語義信息,但在真實的應用場景中,規則推理往往更受歡迎。原因是:它的精度高,可解釋性強。因此,接下來,學術界的目標應該是使表示學習推理模型在真實場景下的性能與規則推理模型媲美。
      另一方面,學術界模型評測應更加全面高效,以指導模型的設計使之更契合真實場景的需求。下面我從數據集和評測指標兩方面進行討論。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      首先,當前廣泛使用的數據集無法準確地反映真實場景模型,現有的模型測試時基本采用封閉世界假設,即不在知識圖譜中的三元組都是錯誤的,這顯然不符合真實應用場景,因此會導致本該正確的結果被判斷為錯誤。所以,如何用“候選數據集”的性能客觀反映模型性能,需要進一步探索。
      中科大王杰教授:基于表示學習的知識圖譜推理技術
      再者,當前廣泛使用的評測指標無法全面評估模型的優劣。例如,測試集中正確三元組的排名越高,模型在這些評測指標上的表現就越好。然而,這是不全面的。此外,在封閉世界假設下,一些本應性能較好的模型在這些指標下也可能會有較差的表現。
      現有知識圖譜只涉及文本信息,未來發展趨勢是擴展到多模態信息。多模態知識圖譜的構建,依賴于多種模態數據的收集,其中關鍵問題是:如何進行不同模態數據之間的對齊。此外,也需要高性能的數據庫,幫助存儲多模態數據,目前這方面國內已經有企業開始攻關。

      中科大王杰教授:基于表示學習的知識圖譜推理技術

      知識圖譜和預訓練語言模型的結合也是接下來的發展趨勢。預訓練語言模型已經比較成熟,但在涉及特定領域的知識或者常識時,表現并不令人滿意。如何利用知識圖譜增強預訓練語言模型,或者怎樣用預訓練語言模型幫助更好地在知識圖譜上進行推理,也是接下來需要重點關注的方向。
      最后,知識圖譜與對話場景的結合也是我所期待的。用時序知識圖譜表示對話狀態,相比傳統鍵值對的結構,可以更完整地跟蹤表示對話的狀態以及變化。

      推薦閱讀

      論智三易,串聯通訊,貫通邊緣,演進認知,匯于機器:聽五位IEEE Fellow暢談AI未來 | GAIR 2021

      2021-12-25

      中科大王杰教授:基于表示學習的知識圖譜推理技術

      CNCC 2021重磅啟幕:與John Hopcroft、孫凝暉等數十位頂級學者,共饗計算機年度盛會

      2021-12-17

      中科大王杰教授:基于表示學習的知識圖譜推理技術

      工程院院士孫凝暉:計算機系統的演進規律,從求極致到求通用|CNCC 2021

      2021-12-23

      中科大王杰教授:基于表示學習的知識圖譜推理技術

      雷峰網(公眾號:雷峰網)雷峰網


      雷峰網原創文章,未經授權禁止轉載。詳情見轉載須知

      中科大王杰教授:基于表示學習的知識圖譜推理技術

      分享:
      相關文章
      當月熱門文章
      最新文章
      請填寫申請人資料
      姓名
      電話
      郵箱
      微信號
      作品鏈接
      個人簡介
      為了您的賬戶安全,請驗證郵箱
      您的郵箱還未驗證,完成可獲20積分喲!
      請驗證您的郵箱
      立即驗證
      完善賬號信息
      您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
      立即設置 以后再說
      主站蜘蛛池模板: 亚洲欧美精品伊人久久| 在线亚洲高清揄拍自拍一品区| 日本真人做爰免费的视频| 国模视频一区| 国产午夜精品久久久久免费视 | 精品久久久久久国产牛牛| 东安县| 大方县| 磐安县| 深泽县| 精品日韩欧美一区二区在线播放| 国产一卡2卡3卡四卡精品网站免费国| 一区二区三区av天堂| 久久综合色之久久综合| 中文字幕制服丝袜| 国产精品大全中文字幕| 精品伊人久久久久7777人| 丰满少妇内射一区| 人与鲁专区| 日日夜夜噜噜视频| 欧美日本在线一区二区三区| 天天躁日日躁狠狠躁欧美老妇小说| P尤物久久99国产综合精品| 日韩秘 无码一区二区三区| 黑人巨茎大战欧美白妇| 中文字幕一卡二卡三卡| 国产精品1区2区3区在线观看| 荡公乱妇hd电影中文字幕| 国产在线无码制服丝袜无码| 三年高清在线观看全集下载| 国产精品白丝在线观看有码| 中文有码亚洲制服av片| 亚洲熟女av一区激情| 亚洲第一福利视频导航 | 国产午夜福利视频合集| 熟妇的味道hd中文字幕| 免费无码又爽又刺激高潮的app| 中文字幕亚洲一区二区va在线| 日韩人妻ol丝袜av一二区| 日本五区在线不卡精品| 国产成人精品免费久久久久|