大模型知識圖譜融合的三大應用場景 原創

目前,隨著智能信息服務應用的不斷發展,知識圖譜已被廣泛應用于智能搜索、智能問答、個性化推薦、情報分析、反欺詐等領域,它在技術領域的熱度也在逐年上升。 從一開始的Google搜索,到現在的聊天機器人、大數據風控、證券投資、智能醫療、自適應教育、推薦系統,無一不跟知識圖譜相關。
通過知識圖譜能夠將Web上的信息、數據以及鏈接關系聚集為知識,使信息資源更易于計算、理解以及評價,并且形成一套Web語義知識庫。知識圖譜以其強大的語義處理能力與開放互聯能力,可為萬維網上的知識互聯奠定扎實的基礎,使Web 3.0提出的“知識之網”愿景成為了可能。
什么是知識圖譜
知識圖譜是結構化的語義知識庫,用于迅速描述物理世界中的概念及其相互關系。通過對錯綜復雜的文檔的數據進行有效的加工、處理、整合,轉化為簡單、清晰的“實體,關系,實體”的三元組,最后聚合大量知識,從而實現知識的快速響應和推理。
知識圖譜有自頂向下和自底向上兩種構建方式。所謂自頂向下構建是借助百科類網站等結構化數據源,從高質量數據中提取本體和模式信息,加入到知識庫中;所謂自底向上構建,則是借助一定的技術手段,從公開采集的數據中提取出資源模式,選擇其中置信度較高的新模式,經人工審核之后,加入到知識庫中。
看一張簡單的知識圖譜:

如圖所示,你可以看到,如果兩個節點之間存在關系,他們就會被一條無向邊連接在一起,那么這個節點,我們就稱為實體(Entity),它們之間的這條邊,我們就稱為關系(Relationship)。
知識圖譜的基本單位,便是“實體(Entity)-關系(Relationship)-實體(Entity)”構成的三元組,這也是知識圖譜的核心。
數據類型和存儲方式
知識圖譜的原始數據類型一般來說有三類(也是互聯網上的三類原始數據):
- 結構化數據(Structed Data):如關系數據庫
- 半結構化數據(Semi-Structed Data):如XML、JSON、百科
- 非結構化數據(UnStructed Data):如圖片、音頻、視頻、文本
如何存儲上面這三類數據類型呢?一般有兩種選擇,一個是通過RDF(資源描述框架)這樣的規范存儲格式來進行存儲,還有一種方法,就是使用圖數據庫來進行存儲,常用的有Neo4j等。
RDF結構:

Neo4j結構:

在知識圖譜方面,圖數據庫比關系數據庫靈活的多。在數據少的時候,關系數據庫也沒有問題,效率也不低。但是隨著知識圖譜變的復雜,圖數據庫的優勢會明顯增加。
大模型和知識圖譜融合
人類有兩種主要的思維模式,一種是快速而直覺的,另一種是緩慢而深思熟慮的,這種說法起源于并廣泛存在于古老的哲學和心理學著作中。通常用“系統 1 ”和“系統 2 ”來表示以上兩種類型的認知過程,諾貝爾獎獲得者心理學家丹尼爾·卡尼曼(Daniel Kahneman)在其著作《思考,快與慢》中詳細介紹了兩種認知系統的區別之處,
系統 1 是直覺性、快速、大容量、并行、無意識、情境化和自動化的,其依賴情感、記憶和經驗迅速作出判斷,是類似于動物認知的內隱知識;
系統 2 則是分析性、緩慢、有限容量、串行和抽象的,其受到規則的約束,依賴認知能力的運作,是人類進化后期習得的外顯知識。目前深度學習包括大模型都在做系統1的工作,而知識圖譜擅長做系統 2 的工作。

人工智能的發展有兩大經典的流派,一個叫符號主義,一個叫連接主義。知識圖譜是經典的符號主義,把知識符號化,通過三元組描述知識和知識之間的關系,再構建成巨大的知識網絡,這是知識的顯性表達。大模型是連接主義的最新成果,但是它的知識是隱性表達,知識直接存儲到模型的神經網絡參數中,人不可讀。這兩種知識表達方式有巨大的差別,也有各自的優勢。
大語言模型的專業領域知識有限,特別是工業領域有大量的數據還未清晰甚至數字化;大語言模型存在幻覺問題,這個問題基本無法通過訓練從模型訓練上解決;大語言模型的知識運維困難,訓練成本高且校驗成本高;大語言模型無法做嚴密的知識推理;知識圖譜存在構建成本高的問題。
知識圖譜和大模型兩個技術的結合,會產生 1 + 1 >2 的效果。基于這樣的技術思路,我們提出了企業級的工業智能知識服務平臺,核心的兩大底層技術就是知識圖譜和大模型。

我們的想法是將兩者結合起來,用知識圖譜解決領域知識缺失、領域知識運維、領域知識推理和大模型幻覺的問題,用大模型解決知識圖譜構建成本高的問題,實現大模型和知識圖譜雙擎互相增強。
第一個核心是數據集成。 可以將多模態的數據集中化的管理,包括文檔、視頻、圖片等等,只要是企業內部能夠積累的數據,都可以通過平臺采集,再做自動知識抽取,可以大大降低員工的使用門檻。
第二個核心是持續學習。 底層的知識圖譜和大模型之間能夠互相的增強,而且是一個持續學習的過程。這里學習包括兩個方面,一個是大模型的迭代,另一個是知識圖譜的迭代。前者一是基于知識庫中數據做模型微調,二是通過用戶反饋不斷優化提示詞;后者主要是基于新增數據的變化,自動更新知識圖譜本體,由本體驅動圖譜的更新。
- 大模型的優勢:強大的語言理解與生成能力,能處理海量非結構化文本。
- 知識圖譜的優勢:提供結構化、精準的事實關系網絡,保障信息的準確性與可解釋性。
知識圖譜的架構

知識圖譜在邏輯上可分為模式層與數據層兩個層次。
- 模式層構建在數據層之上,是知識圖譜的核心,通常采用本體庫來管理知識圖譜的模式層。本體是結構化知識庫的概念模板,通過本體庫而形成的知識庫不僅層次結構較強,并且冗余程度較小。
模式層:實體-關系-實體,實體-屬性-性值
- 數據層主要是由一系列的事實組成,而知識將以事實為單位進行存儲。如果用(實體1,關系,實體2)、(實體、屬性,屬性值)這樣的三元組來表達事實,可選擇圖數據庫作為存儲介質,例如開源的Neo4j、Twitter的FlockDB、sones的GraphDB等。
數據層:比爾蓋茨-妻子-梅琳達·蓋茨,比爾蓋茨-總裁-微軟
大模型與知識圖譜的融合已從技術概念走向規模化落地。在醫療、金融、制造、教育等領域,它正解決著知識碎片化、決策缺乏依據等核心痛點。隨著多模態技術發展(如圖像知識抽取),兩者的結合將釋放更大潛力——未來的智能系統不僅是“能說會道”的助手,更是扎根于事實網絡的決策大腦。
- 大模型和知識圖譜的融合效果:
a.知識增強:KG為大模型提供事實依據,減少“幻覺”;
b.推理強化:KG的關聯關系支持復雜邏輯推理;
c.動態更新:KG可獨立于大模型更新,保證知識時效性。
知識圖譜的三大典型應用
大模型(LLM)擅長“語言泛化”,知識圖譜(KG)擅長“精準結構”。兩者融合=LLM負責交互與生成,KG負責事實、溯源與推理,形成“可解釋、可追溯、可落地”的企業級AI方案。目前的知識圖譜技術主要用于智能語義搜索、移動個人助理(Siri)以及深度問答系統(Watson),支撐這些應用的核心技術正是知識圖譜技術。
知識圖譜的典型應用包括語義搜索、智能問答以及可視化決策支持三種。
1、語義搜索
當前基于關鍵詞的搜索技術在知識圖譜的知識支持下可以上升到基于實體和關系的檢索,稱之為語義搜索。在智能語義搜索中,當用戶發起查詢時,搜索引擎會借助知識圖譜的幫助對用戶查詢的關鍵詞進行解析和推理,進而將其映射到知識圖譜中的一個或一組概念之上,然后根據知識圖譜的概念層次結構,向用戶返回圖形化的知識結構,這就是我們在谷歌和百度的搜索結果中看到的知識卡片。
語義搜索可以利用知識圖譜可以準確地捕捉用戶搜索意圖,進而基于知識圖譜中的知識解決傳統搜索中遇到的關鍵字語義多樣性及語義消歧的難題,通過實體鏈接實現知識與文檔的混合檢索。
語義檢索需要考慮如何解決自然語言輸入帶來的表達多樣性問題,同時需要解決語言中實體的歧義性問題。同時借助于知識圖譜,語義檢索需要直接給出滿足用戶搜索意圖的答案,而不是包含關鍵詞的相關網頁的鏈接。

2、智能問答
問答系統(Question Answering,QA)是信息服務的一種高級形式,能夠讓計算機自動回答用戶所提出的問題。不同于現有的搜索引擎,問答系統返回用戶的不再是基于關鍵詞匹配的相關文檔排序,而是精準的自然語言形式的答案。
智能問答系統被看作是未來信息服務的顛覆性技術之一,亦被認為是機器具備語言理解能力的主要驗證手段之一。
智能問答需要針對用戶輸入的自然語言進行理解,從知識圖譜中或目標數據中給出用戶問題的答案,其關鍵技術及難點包括準確的語義解析、正確理解用戶的真實意圖、以及對返回答案的評分評定以確定優先級順序。
3、可視化決策支持
可視化決策支持是指通過提供統一的圖形接口,結合可視化、推理、檢索等,為用戶提供信息獲取的入口。例如,決策支持可以通過圖譜可視化技術對創投圖譜中的初創公司發展情況、投資機構投資偏好等信息進行解讀,通過節點探索、路徑發現、關聯探尋等可視化分析技術展示公司的全方位信息。
可視化決策支持需要考慮的關鍵問題包括通過可視化方式輔助用戶快速發現業務模式、提升可視化組件的交互友好程度、以及大規模圖環境下底層算法的效率等。
現在以商業搜索引擎公司為首的互聯網巨頭已經意識到知識圖譜的戰略意義,紛紛投入重兵布局知識圖譜,并對搜索引擎形態日益產生重要的影響。如何根據業務需求設計實現知識圖譜應用,并基于數據特點進行優化調整,是知識圖譜應用的關鍵研究內容。

本文轉載自?????數字化助推器????? 作者:天涯咫尺TGH

















