精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型研發核心:數據工程、自動化評估及與知識圖譜的結合

人工智能 知識圖譜
本文將介紹大模型研發中數據工程,包括數據以及自動化相關的內容。并介紹在當前的情況下,知識圖譜的定位以及如何融入到大模型的整個研發當中。

一、大模型研發中的數據工程

1、什么是大模型的數據工程-以數據為中心的AI 

圖片 圖片

什么是大模型的數據工程?現在大家去做GPT模型或者BERT等模型,都會有兩個方向。第一個是以模型為中心,不怎么關注數據,不斷地優化模型的結構;第二個是以數據為中心(Data-Driven),也是目前做算法的一個共識,算法本質上是在做數據,核心是說模型不變,通過改進數據質量來提升模型效果,不斷提升訓練數據的質量。

以數據為中心的 AI 核心在于訓練數據開發,推理數據開發以及數據維護。

訓練數據開發包括很多的pipeline,包括如何收集數據,如何定數據源,如何做高質量的數據標注,如何做數據的預處理或者數據的縮減或增強。比如做領域微調數據,如果行業數據只有幾萬條,需要增強到幾十萬條或者幾百萬條,才能真正地把領域或行業的數據加進去。

推理數據開發,就是怎么評估之前的訓練樣本,更好的評估測試集外的數據。

數據維護,做數據相關的事情需要實現成一個閉環,包括對數據的理解。使用訓練數據進行訓練時如果發現數據有問題,需要可以定位到問題來源于哪個數據集,做定點的追蹤和優化。

大模型的數據工程主要解決的幾個關鍵問題如下:

  • 需要什么數據?
  • 數據從哪兒來?
  • 數據怎么處理?
  • 數據怎么評估?
  • 數據怎么管理,版本迭代?

解決上面的問題,就可以比較好的搭一個相對完整的pipeline了。

2、回顧:現有大模型基本情況

圖片

回顧一下現有大模型的基本情況,這里基于四張圖進行闡述。

左上圖反映了到2023年3月為止,語言模型的模型大小,餅越大,其對應的參數就越大。可以看到,國外的MT-NLG、PaLM還有OPT的參數規模是比較大的;國內的GLM-130B的參數是比較大的,已經到了千億級水平。

右上圖比較形象地揭示了現在不同段位的大模型的玩法:

  • 波音787,大家都可以買票乘坐,包含有 GPT-4、 PaLM 等,提供API調用。
  • 小型私人飛機,一些中小公司能夠研發出來私有部署,包含有Flan-T5、Pythia等。
  • 紙飛機,平民玩法,可以做一些領域微調,得到一個私有部署模型,包含有Alpaka、Koala等。

現在做大模型大家基本是分散在這3個層級內。

左下圖描述了截止2022年12月DeepMind的模型,DeepMind在不斷地更新一些模型,先后提出了Gopher-280B、Chinchilla-70B、Flamingo-80B 等不同代號的模型,可以看到,現在做大模型的時候都喜歡用動物來命名,所以現在動物園的名稱可能后面也會卷的不行。

右下圖描述了代碼生成模型的規模。目前比較大有CodeGen,有16B參數;然后有清華的CodeGeeX,有13B參數。現在也有一個趨勢,就是把文本和代碼就混合去訓練,訓練后的 COT 能力有一定提升。

3、回顧:現有大模型應用場景

圖片

上圖列出了大模型的應用場景,大家不斷在探索大模型的邊界,分了幾個層級:

  • S,比如GPT-3 13B 做的主要是Debuging或者是閱讀理解。
  • M,比如GPT-3 175B,隨著參數量增大,到了175B的時候,可以完成語言學的解題或者情感分析、GRE考試。
  • L,比如PaLM-540B,可以完成一些語音或者推理的任務。
  • XL,比如GPT-4,可以完成高考題或者其他一些更先進的工作。
  • Next...,可能就會更偏向于落地,解決更長文本的處理等問題。

4、起底:GPT背后的預訓練數據

圖片

這些模型背后都用了什么數據呢?

我們先來看ChatGPT的變化,2018 年6月的 GPT-1 只用了 5GB 的預訓練數據,有1.17億參數;半年之后2019年2月的GPT-2,使用了40 GB 的預訓練數據,有15億參數;2020年5月的 GPT-3,有1750億參數,預訓練數據45TB,但是它并不是實際使用了45TB,而是總量是有45TB,篩選出了750GB數據用于預訓練。

右上圖看一下GPT-3具體數據上的分布,60%的數據是Common Crawl,也就是低質量的網頁;占比22%的WebText2是抓取的高質量網頁;Books1、Books2是比較高質量的書籍,分別占比8%;維基百科Wikipedia占比3%。

可以發現:

  • 第一、數據主要還是靠大規模的隨機網頁做支撐的,主打的是多樣性,因為網頁里面什么都有,多樣性是很好的。
  • 第二、高質量,書籍的質量特別高,然后是Wikipedia,Wikipedia有個很重要的點,就是它的多語種能力,有100 多個版本,大家后面會發現,即使GPT里邊中文只占比只有 0.1%,但是中文的能力也有的。

5、起底:英文主流大模型預訓練數據的構成-多語種能力

圖片

從多語種能力上看一下英文主流大模型。比如說BLOOM,有46種語言,最多的還是English,所以現在大家去做領域微調進行技術選型的時候, BLOOM是一個比較好的底座,和LLaMA相比,BLOOM的多語言能力比較強。GPT-3有90種語言,當然絕大部分約92.7%還是English,中文的話大約是0.1%。PaLM有122種語言, 74.1%是English,其中還加了一些code。

6、起底:英文主流大模型預訓練數據的構成

圖片

分析一下主流大模型訓練數據的構成。我們先拉出來一個維度,基本上包括維基百科、書籍、期刊、Reddit鏈接(WebText)、Common Crawl等。 

  • GPT-1 基本上使用書籍訓練的。
  • GPT-2 主要用Reddit鏈接。
  • GPT-3 使用維基百科、書籍、期刊、Reddit鏈接(WebText)、Common Crawl。
  • The Pile這個數據解壓之后是1.2T,大家基本上都可以拿到使用。這個數據集的一個特點就是多樣性特別高,如果沒記錯的話有 22 個不同來源的數據,還包括Github,Books等。
  • LLaMA 主打的一個點是在參數量不遜千億的情況下,訓練數據盡可能豐富,使用了1.4T的Token,數據來源也是比較多的,包括維基百科、書籍、期刊、Common Crawl。

可以看到很多大模型Common Crawl都是占了比較大的比重。

除了文本大模型,還有多模態大模型。

OpenAI有DALL-E會有Conceptual Captions等數據集,谷歌的多模態模型也是一樣,但是跟文本大模型相比,數據集相對比較少,而且多模態的參數量跟純文本相比還是相差一定量級的。

圖片

GPT-3有一個很重要的數據集叫Common Crawl,從Common Crawl中通過清洗的方式可以獲取英語語料比如C4,C4中很多數據都是專利數據(patents.google.com)。我們再看一下GPT-3 TOP10 的一些Datasets,包括Wikipedia、Google、Libgen等。

圖片

上圖列出了幾個預訓練數據內部構成:

  • The Pile v1版本包括PubMed Central,所以在生物醫藥方面Pile是有一定優勢的;包括ArXiv(papers)、法律相關的FreeLaw、數學相關的DM Mathematics、Ubuntu的用戶日志、多語種的EuroParl數據集等。如果需要做多語種翻譯,或者增強多語種能力,Pile數據集是可以利用的。
  • WebText包括Google、Archive、GitHub等等。
  • C4包括有0.48%專利數據(只用了專利的背景),所以 GPT-3進行一些專利方向的交互,回答也會不錯,對專利感興趣的同學可以關注C4 數據集,做一些比較好的遷移。

7、起底:英文主流大模型常用預訓數據

圖片

上面列出了英文常用的預訓練數據-維基百科、書籍。

圖片

上面列出了英文常用的預訓練數據-論文期刊。ArXiv有2000多萬的文章,都可以下載到。

圖片

上面列出了英文常用的預訓練數據-WebText、Conmmon Crawl。也是大家可以下載到的。

圖片

上面列出了英文常用的預訓練數據The Pile及代碼、論壇。左下是Pile數據集的內部分布。代碼數據集公開的比較多,能下載到的有上T級別的。

8、起底:中文主流大模型預訓數據構成

圖片

下面介紹一下中文主流大模型預訓數據構成,目前中文的開源數據集和英文相比差距還是比較大的。

比如華為盤古大模型,使用中文文本語料共1.1TB。

  • 開源數據集只用了27.9GB,數據來源基本上是開源的評測數據,如百度QA、DuReader、CAIL2018法律文本(幾百萬的法律文書數據)、搜狗 CA(搜狗的一個文本分類的數據集)等。
  • 百科數據包括百度百科,搜狗百科等,以及之前大家卷知識圖譜的時候開放的百科的三元組以及內部信息。
  • 電子書也有應用,但是國外有zlibary這樣比較大型的書籍集合。
  • Common Crawl,使用了Common Crawl的2018年1月到2020年12月的網絡數據

阿里的M6大模型用到百科全書、社區QA、論壇討論、Common Crawl等,還有一些和業務結合的電商數據。

WeLM的數據構成更像GPT,包括Common Crawl、書籍、新聞、論壇、學術著作等。

InternVideo是多模態模型,會用到網絡視頻,YouTube視頻、電影等。

大家可以看到,在多樣性上和英文相比會存在比較大的缺陷。

圖片

詳細看一下預訓練數據的構成。

左邊是PanGu Alpha ,有47.16%是Common Crawl,有29.65%的Public Datasets(剛才提到的各種公開的測試集),對于這種高質量的評測數據,訓練時Epochs數可以更多,而CommonCrawl的Epochs 數更少,進行降采樣。

右邊是Wudao2.0,Wudao也是大家可以拿到的開放數據。悟道里有知乎、百度百科等,當然也其他網站,包括騰訊、搜狐的數據。從Raw Size維度看,知乎數據只有131 GB。

圖片

上圖主要列出了大模型預訓練數據構成中的中英對比,右圖可以從顏色看到一個區分度,英文不同的來源的區分是特別細的,而中文來源的區分是比較粗的,存在比較明顯的差別。

圖片

如果要復現GPT-4、GPT-3等模型,通常會從語料上找中英文數據集之間是否存在映射關系。

可以看到,中文的知乎對應英語的Quora;百度百科對應English Wikipedia,但有個很大的問題是中文的百科對比英文的維基百科,訓練數據的質量是沒有那么好的,英文的Wikipedia里面包括各種參考文獻,特別豐富的而且權威性比較高,它都會注釋來源于哪,而且包含多個版本,所以在百科這個方面存在一定差距;搜狐News對應NBC;騰訊QQ對應 ICQ;另外還有一些比較垂域的,比如17ok.com(finance discussion)對應Yahoo Finance 等。

9、問題的提出:我們需要怎樣的預訓練數據

圖片

討論了中英對應并找到差距之后,繼續討論一下如果要做好的模型,應該準備怎樣的預訓練數據?從源頭上去講,語言模型質量要求如下:

  • 相關性,回答是否和問題相關,不要答非所問,體現了對問題的理解能力。
  • 準確性,事實性要求回答要求完全一致,不要產生錯的答案,開放性回答要求語義相近。
  • 完備性,是否涵蓋了所有要點。
  • 連貫性,語言上是否表達流暢。
  • 安全性,是否符合地方法規以及人的價值觀。
  • 專業性,不口水話,不啰嗦,坦白說ChatGPT比較啰嗦。
  • 敏感性,是否涉及到政治理念、黃反、敏感事件等負面信息。

拿到質量要求后,可以得出大模型需要高質量、大規模、多樣性的數據。

(1)高質量

  • 高質量數據集能夠提高模型精度與可解釋性,并且減少收斂到最優解的時間,減少訓練時長;
  • 高質量數據的選擇依據是信源權威可靠、內容價值觀對齊、專業領域知識,不會選擇不入流的站點數據或者大家隨便寫的文章;
  • 高質量的數據具有規范性、完整性、準確性、一致性、時效性,比如說GPT的時效只到2021年,那2022年、2023 年的數據也要去收集,實現時效性上的高質量。

(2)大規模

預訓練的數據量越多,大模型的擬合能力就越強,效果就會越來越好。如果數據規模太小的話,模型學的東西不會多,記得也不夠深。

(3)多樣性

數據豐富性能夠提高大模型的泛化能力,模型預訓練數據足夠多,其生產內容也能更多樣。在準備預訓練數據的時候盡可能準備更多的數據,數據多了,模型的泛化能力就會更強;而且數據足夠豐富,在訓練時就不會偏向某一類,導致過擬合問題的出現。所以需要對預訓練數據做嚴格的去重,有各種花式的玩法。

10、問題的提出:以數據為中心的預訓模型

圖片

找到數據之后,需要最多的處理就是去重,比如GPT-1有4.8GB未過濾數據,GPT-2有40GB人類過濾數據,GPT-3有570GB過濾數據(來自45TB原始數),過濾數據很重要的。

11、解決方案:領域預訓模型的訓練鏈路-以CaMA為例

圖片

這里以浙江大學CaMA模型為例,為大家展示如何從數據端去完成一個領域模型。

浙江大學在LLaMA的基礎上做了兩個工作,首先是繼續預訓練,然后在預訓練之后進行微調(Instruction Dataset)。

為了增強LLaMA的中文能力,做了很多數據上的處理,比如怎么去拿數據。Code主要收集 GitHub 和Leetcode的數據;英文主要收集ArXiv,Book,Wikipedia等英文的數據;中文主要收集百度百科、悟道、中文維基等等。

我們要保證它的多樣性,從語種上有中英文;從類型上有代碼、文本;在領域上有百科、維基等。

拿到數據之后做兩個事情:

  • 第一個是Clean,Clean包括Duplicate也就是去重;另外還有去毒性,去除敏感信息。
  • 第二個是Tokenize,對數據進行分詞,并設置樣本的最大長度為1024。

微調階段如何構造高質量的微調數據?比方General,用Alpaca用52K 的數據做各種翻譯等等;還有去做一些 COT的東西,比如說gsm8K、aqua、Alpaca等COT的數據。拿到這些數據之后,我們可以去用ChatGPT做泛化。因為CaMa是做KG相關的,所以它會用很多的任務數據或者說命名實體識別的數據、關系抽取的數據以及事件抽取的數據,與泛化后的數據一并放進去進行tuning,得到一個比較好的效果。

通過上面的描述可知,無論是在pretrain階段還是在SFT階段,數據都是很重要的,而且數據需要盡可能的多樣、盡可能地清洗,對模型的提升是有意義的。

12、解決方案:以數據為中心的大模型預訓數據工程

圖片

上圖展示了以數據為中心的的工程框架,包括之前提到的訓練數據開發、推理數據開發、數據維護等。

圖片

以數據為中心的大模型預訓練數據工程的工作流可以拆解為很多環節,包括源數據如何標記、清洗、特征縮減、基礎操縱等;提示工程如何調整輸入、評估等;包括數據的維護,數據可視化之后,可以真正知道數據都目前的情況,數據的價值評價指標,資源分配等。

圖片

需要針對不同的數據制定好的標注標準,包括文本標注、語音標注、圖像標注等。

如何衡量標注數據集的質量是很重要的。現在有很多的算法,比如圖像標注質量評估的MV 算法、文本質量評估的BLEU算法等,根據不同的語音文本以及視頻,有不同的衡量算法,幫助大家衡量數據標注的質量。

圖片

上圖展示了具體實現的時候處理數據的大致流程。

我們的數據主要包括網站數據、專業文獻以及各個行業數據:

  • 網站數據有搜索數據、代碼推理數據、通用網頁數據等。
  • 專業文獻有研究報告、學術論文、各種文獻等。
  • 行業數據有金融、法律、房產等各種垂直網頁、特定的多語種數據集、任務評測集等。

為了實現數據的大規模、多樣性和高質量,大致的流程包括如下幾步:

一、站點過濾,站點過濾的方法也有很多,就包括基于圖的過濾方法、基于單點的過濾方法、基于規則的過濾方法等。

二、敏感與隱私過濾,語言或者噪聲過濾等。

三、文章去重,做不同粒度的去重。

四、網頁主題建模,要提升多樣性,主題就一定要好,所以會做大量的主題挖掘的工作,這里搜索有天然的優勢。

五、數據質量評分,包括數據質量版本控制等。

圖片

數據源的選取依據有很多,包括:

  • 體系是否完善
  • 站點來源是否權威
  • 數據規模是否大
  • 數據實時性是否足夠
  • 下游任務是否有需求
  • 下游技能有哪些是表現差的等

網站數據,包括通用的網頁數據、搜索數據、問答數據、知識圖譜百科、代碼推理數據等。

專業文獻,包括研究報告,學術論文、期刊、書籍、文學著作等。

行業數據,包括任務評測數據集,多語種數據集,金融、法律、房地產、體育、醫藥、影視領域語料等。

圖片

站點過濾和噪聲信息清洗有很多方法。

質量分檔模型,使用fasttext分類器分為四檔(0,1,2,3),2、3 為優質數據,訓練時,正樣本是人工標注的一些比較好的樣本,負樣本采用比較垃圾的文本,特征使用包含title以及CEloss。

邊緣文本剔除模型,需要將廣告位文本、雜七雜八的推廣文本識別出來。

垂直網頁處理,包括用大量的Pattern做高優語料提取以及定制化的邊緣文本剔除。

基于規則的噪音清洗,包括空格、特殊符號的處理、語種檢測,敏感信息檢測、隱私數據識別與處理等等。

基于模型的噪聲清洗,包括使用PPL判定模型,剔除不連貫的文本等。

圖片

網頁分類建模的目的是挖掘細粒度的網頁數據,以滿足不同類別數據的需求。

給網頁標注比較好的tag的方法有很多,要么做分類,要么做聚類。如使用LDA主題詞提取、文本關鍵詞提取、人工審核標簽、下游技能迭代反饋標簽等。

網頁主題分類,預設網頁類別體系,包括體育、歷史、金融、醫藥等幾十類別的體系,細分領域標簽,然后構造語料分類器,基于BERT完成語料標簽分類。

圖片

  • 數據質量控制最好是用人工的方式去保證,因為通過模型方式做的具體分檔,只能對數據做定性的分析,實際采樣的時候,需要有一個定量評分標準,哪些是90分、80分、70分、60分等,質量高的數據我們多采樣。因此需要人工制定評分標準,計算一個得分。
  • 數據版本控制,每個生產流程都需要做各個階段的備份管理。一旦任何一個步驟發現問題,可以馬上定位出出問題的數據源在哪里。
  • 預訓練數據索引管理,需要有一個管理平臺,收集大家對數據問題的反饋以及定位。
  • 數據隨機抽樣,為了防止數據有偏,所以在做具體評估的時候,需要進行大量的shuffle,通過人工質量評分做一個排序。

圖片

以DoReMi的工作為例,討論一下預訓練數據采樣。

先初始化數據分布,訓練一個小參數模型,比如使用The Pile的原始分布,訓練一個小模型;訓練小模型之后我們再使用群體分布穩健優化(GroupDRO)對領域進行訓練,更新領域權重;最后使用迭代好的領域權重對數據集重新采樣,訓練一個更大的、全尺寸的模型。

圖片

微調數據生成方式:

(1)基于人工標準,使用較多

  • 需要設定 SFT數據標簽體系,建立標簽體系的大類、子類;
  • 構造和撰寫一些prompt并且寫出對應的結果-forSFT任務;
  • 針對給定的prompt、模型給出的多個結果,標注結果的好壞排序-for Reward Model。

(2)基于大模型進行數據蒸餾

  • 基于self-instruct生成數據,為了保證多樣性,只有當一條新指令與任何現有指令的ROUGE-L重疊小于0.7時才會保留,但是僅僅這樣還是不夠的,包括Alpaca這種數據,用這種方式在長度上以及主題上還不是特別多樣的
  • 基于chatgpt進行結果好壞標注+人工審核

圖片

上面右圖是人大的工作,對于收集到的開源指令集,先去重,然后做主題上的分布,最后進行清洗和多樣性控制。

基于規則的清晰,可以應用如下的規則:

  • 過濾敏感詞規則
  • 過濾無效輸入輸出
  • 關鍵詞替換規則
  • 特殊邏輯規則

基于模型的多樣性控制,包括:

  • 基于語義相似度模型的指令去重
  • 基于主題控制的指令多樣化
  • 指令數據復雜化,可以用GPT-4或者其他大模型做改寫,讓指令復雜化,在指令的長度上,可以做一定的控制

13、開放數據問題:預訓數據是否會不夠?

圖片

關于現在預訓數據到底夠不夠的問題,報告《Will we run out of data? An analysis of the limits of scaling datasets in Machine Learning》中提出了一個有趣的觀點:語言數據將于2030~2040年耗盡,其中能訓練出更好性能的高質量語言數據將于2026年耗盡。此外,視覺數據將于2030~2060年耗盡。大家可以仔細研究一下這個報告。

二、大模型研發中的自動化評估

1、問題的提出:如何進行模型性能的自動化評分?

圖片

模型性能的自動化評估基本上有三種方式。

  • 第一、基于人工業務評估,人工根據特定的業務場景找到需要評估的能力點(如摘要能力,生成能力等)通過列舉相關測試樣本,建立評估維度,完成多維度打分;
  • 第二、基于下游任務評測,利用下游評測榜單,任務數據集,進行性能評估。客觀題比較適合用下游任務去評測,但主觀題的話不是特別適合,比如評估生成的好不好等。
  • 第三、基于ChatGPT打分,現在有一個風向,大家用 ChatGPT 打分,利用ChatGPT 的專業能力,充當裁判,完成打分評估。

2、基于GPT自動化評估

圖片

現在就會有很多人用ChatGPT打分。我們給出一個問題,再給出一個答案,然后告訴ChatGPT,這里有這樣一個問題和答案,打分區間是一到零分,請問該答案可以打多少分并給出打分依據。Vicuna 采取了這種評估方案。

3、基于眾包投票進行評估

圖片

另外一種方式就是眾包。用眾包的原因是用GPT自動評估的方式主觀性是很強的,而且數據集也不夠多,所以需要大家一起來打分,產出一個瑯琊榜。Arena這個瑯琊榜,首先給一個問題,然后各個模型給出答案,通過大家投票,采用Elo rating system進行評分。

中文其實也有,中文在英文的基礎上產出了一個版本叫瑯琊榜。

4、基于下游評測任務進行評估

圖片

目前基于下游評測任務進行評估出現了一個風向,就是使用專業的考試題,包括Google BIG-bench、MMLU、C-EVAL、M3KE等評測數據,或者去卷專業考試。

這樣的方式是合理的,如果要做一個垂域的模型,如何去驗證模型在垂域上的能力呢?比如說法律有律師從業資格考試,或者說專利有對應的資格考試,這也使得模型和業務有了很好的融合。

三、大模型與知識圖譜的結合

下面與大家討論一下大模型與知識圖譜的結合。

1、知識圖譜認識

圖片

首先看一下知識圖譜,現在有種論斷,大模型之后知識圖譜的重要性嚴重下降了,知識圖譜的定位也變得不太清晰。

以我的個人理解來說知識圖譜最大的優勢在上面左邊的兩張圖中。

第一個圖是知識圖譜的圖結構,知識圖譜通過知識以圖的形式做表示,因此可以完成Graph Embedding、路徑搜索等算法,大模型在這方面有一定缺陷。

第二個圖是知識圖譜在一些組織上的優勢,比如知識圖譜通過Schema規范結構化數據的表達, 知識圖譜提出來是為了解決業務的在垂域中知識的組織和管理問題,雖然大模型可以端到端地生產知識,但這些知識是沒有體系的。可以把體系化的知識圖譜和大模型結合,大模型生產數據,知識圖譜組織數據,更好的完成目標。另外,知識圖譜擁有垂域的一些數據,這些數據可以用于去檢驗大模型事實上的錯誤。

2、知識圖譜VS大語言模型

圖片

知識圖譜與大語言模型的共同點:

  • 本質上都是一種知識庫。大語言模型也是知識庫,只是它是參數化的。
  • 在實時性和時效性上面臨的挑戰一致。知識圖譜如果你不更新,時效性也是有問題的,所以讓知識圖譜解決大模型的時效性的觀點是要打問號的。

知識圖譜與大語言模型的不同點:

  • 知識圖譜是知識的形式化表示,而大語言模型是知識的參數化的表示
  • 知識圖譜方便Debugging,可解釋性強,圖結構表達能力強,而大語言模型是any data, any task, 無所不能,但是不夠簡單。
  • 知識圖譜在結構化知識上難構建易推理,在非結構化知識上易構建難推理,而大語言模型易構建而且易推理,但是沒有體系結構。

3、大模型用于知識圖譜:從知識圖譜構建到業務需求應用

圖片

大模型用于知識圖譜可以重構上圖的整個狀態,比如進行數據結構化、數據融合、擴展數據模式或者行業智能問答等工作,大模型可以加速而不是替代知識圖譜構建的環節,包括應用大模型做問答、抽取等。

4、大模型用于知識圖譜構建:schema生成與數據標注

圖片

大模型可以用于知識圖譜構建中的schema生成與數據標注部分。

大模型完成Schema的生成。ESHer是中科院軟件所的工作,使用大模型Prompt生成事件的Schema,再從Schema實現打分函數,通過聚類社區發現得到相應的事件以及對應的槽。

大模型可以生成排序數據,進行數據增強。大模型之前我們通常用 EDA做數據增強,現在其實完全可以用 ChatGPT 改寫的方式生成大量的標注數據,降低知識圖譜標注端的成本。

5、大模型用于知識圖譜構建:知識抽取、推理與知識問答

圖片

大模型在知識圖譜構建的知識抽取、推理與知識問答方向也可以發揮作用。

如左上圖的三元組抽取,先做NER抽取,再做關系抽取。

右上圖的工作是InstructUIE,在之前 UIE 的基礎上,統一這個方式,約定輸入和輸出的格式,讓LLM進行三元組抽取。

左下圖是用大模型去做知識圖譜的補全,通常知識圖譜補全需要定義 score function,比如360之前用知識圖譜挑戰OGB的時候就創新了一個新的score function,現在可以用大模型直接做排序任務。

右下圖使用大模型做知識圖譜問答,有些問題大模型不一定能回答,但是如果加上一些實體鏈接,到圖譜里把子圖給召回出來,拼接成上下文,構成提示語讓大模型去做推斷,能夠起到減輕大模型幻覺的作用。

6、知識圖譜用于大模型研發的幾個階段

圖片

探討一下知識圖譜能夠用于大模型研發的三個階段。

(1)訓練前階段

  • 利用大模型于數據清洗,構造清洗規則,其作為領域經驗知識對特定語料進行錯誤檢測或過濾。
  • 利用知識圖譜直接顯式的進行形式化拼接,引入預訓練語料,比如使用行業三元組拼接成S+P+O、S的P是O、S的P等于O這樣的口語化產出放入預訓練語料,尤其是垂域內的很多知識圖譜是可以直接拿到用于大模型訓練。

(2)訓練中階段

  • 將知識圖譜隱式地加入到模型訓練中,用embedding的方式完成注入,可以參考KnowBERT的實現。
  • 構建以領域知識圖譜為中心的下游評測任務,作為模型訓練評估。

(3)訓練后階段

  • 引入涉及實體的上下文進行豐富,將知識圖譜注入prompt,增強結果可用性
  • 對模型生成后的結果進行知識校驗,減少模型事實性錯誤
  • 通過query實體消歧和實體鏈接,注入搜索實時結果,增強實時性
  • 結合外部知識庫進行生成干預,比如langchain的實現

7、知識圖譜用于大模型訓練前階段:構造預訓練數據與微調數據

圖片

在預訓練階段,可以用模板化去生成事實性的描述文本。

在微調階段,可以根據模板來生成問題,用self-instrcut的思路(重點在于多樣性)。比如左下的中心詞,我們可以用模板的方式生成右下方的QA對。比如Lawyer LLaMA這樣的法律領域的行業模型,大家會通過這樣的方式結合知識圖譜生成大量的SFT數據。

8、知識圖譜用于大模型訓練中階段:融合知識的預訓練模型

圖片

這里討論下融合知識的預訓練模型,包括用特征融合、嵌入融合、數據結構統一、知識監督或者基于檢索等都是可以實現的。

核心點有兩個,一個是內嵌融合,把embedding注入進去,通過Mask詞和實體或者增加KE Loss都可以;一個是外掛融合,通過檢索的方式實現融合。

9、知識圖譜用于大模型訓練后階段:基于知識的生成結果干預

圖片

左上圖有一個比較好的例子,畫一個老婆餅,某AI會畫出一個老婆婆和餅,如果AI可以拿到老婆餅的比較好的描述,得到的效果會得到改善。

右上圖描述了融合自迭代的知識描述,為了做問答,在Question的基礎上結合知識圖譜生成比較好的description,然后再放進去,可以比較好地解決一些問題。

左下圖描述了融合外部知識庫系統,ChatGPT在數學計算方面,比如被提問芝加哥到東京到底有多遠的時候,回答的可能并不精準,這時可以外掛一些工具,比如WolframAlpha能夠解決這些問題,兩者結合起來,可以更好的解決問題。第一種方式是LangChain的方式,直接引入插件干預它的結果;另一個是先讓WolframAlpha回答一遍,然后追加到ChatGPT的問題中得到結果,雖然這樣做會稍微有點繁瑣,需要先請求WolframAlpha再請求ChatGPT,在很多情況下,如果問題中有若干子問題的時候,可以逐步地去拆解成WolframAlpha,再把結果通過提示語發送到ChatGPT,通常會得到比較好的結果。

右下圖描述了融合外部搜索引擎,目前大模型普遍時效性不夠好,為了解決時效性問題,需要借助比較有實時性的工具,比如搜索引擎。搜索引擎可以調用索引的相關性,獲取top的結果,封裝到prompt中。另外,融合搜索引擎可以解決大模型結果不可信的問題,比如NewBing會通過"了解詳細信息"的來源來為大模型輸出的結果進行增信,也便于用戶可以快速的進行驗證。不過,有的時候會發現NewBing和ChatGPT引用的鏈接很多都是空的、假的,所以后面還需要考慮如何提高生成鏈接的準確性。

10、知識圖譜用于大模型訓練后階段:外掛專業知識庫

圖片

最后介紹一下目前知識圖譜用在大模型訓練后階段的外掛專業知識庫,目前在行業中是用的最多的,其主要流程是:加載文件->讀取文本->文本分割->文本向量化->問句向量化->在文本向量中匹配出與問句向量最相似的top k個->匹配出的文本作為上下文和問題一起添加到prompt中->提交給LLM生成回答。

目前的難點,一個是在于如何拿到好的文本向量化模型,比如最近比較火的M3E、SimCSE、Text2vec等;另一個是讀取文本,如何比如說表格數據如何組織,例如用Latex的表示方式,各種富文本包括圖片的展示等等。

四、總結

最后總結一下大模型的未來發展方向。

圖片

大模型的未來發展發現主要有如下幾點:

  • 大模型的應用邊界還在不斷被探索,我們都尚處于懂與不懂之間,大家都在不斷地去探索它的機理。
  • 垂直領域微調模型是必然趨勢,低成本高效的注入領域知識很重要。
  • 大模型研發和落地核心是數據+場景+訓練方法。數據做好了,算法的天花板才能高。
  • 知識圖譜在當前場景下需要找準自身的位置,融合共生。
  • 數據工程是大模型研發的重中之重,數據為王。

五、答疑

Q1:在數據收集的過程中,除了文本數據還會有表格數據或者圖片數據,這些數據可以怎樣去收集處理?

A1:圖片數據涉及到多模態數據的處理,比如沒辦法把圖片數據轉換成文本數據,除非使用圖文的方式處理。

我更建議的方式,比如說解析一些研報的時候,會遇到一些文本穿插了一些圖片,這時我們可以用圖片的title替換掉圖片所在的位置,這樣就能一定程度保留圖片所在的信息或者表格所在的信息,也能保證整體語義連貫。另外一種,表格數據最重要的是如何拿到表格的數據,比如用PP-Structure等方式把表格先解析出來,然后用 Latex 重新組織表格數據。

最需要考慮的是不同模態、不同格式的數據需要保證原有的格式,不錯亂。

Q2:在工業界關于解決大模型的幻覺有哪些實際可操作的業界經驗?

A2:幻覺的根本原因是:第一、聽不懂指令;第二、聽得懂指令,但是不會。我們分別解決這兩個問題。

怎么讓大模型聽懂指令需要我們做 SFT增強,讓大模型可以理解復雜指令,或者是理解那樣一個指令,這是在SFT階段,數據端要做的事情。

大模型不會的問題就需要注入,注入的方式有很多種,包括我們前面提到的CaMa的路線,我們可以基于Pretrain實現知識注入。還可以在 SFT 階段做Pretrain,雖然有種觀點是 SFT 學的是范式不是知識,但SFT也是能夠學到一些知識的。

如果這上面的增強還不夠,或者是某個領域的數據在Pretrain階段注入不進去,可以考慮使用LangChain的外掛知識庫方式。外掛核心在于怎么構造更好訓練數據以得到更好的向量化方案,優化embedding,通過向量檢索得到比較好的相關性文本后,拼接到Prompt中。這里也可以使用知識圖譜,用鏈接的方式把子圖召回出來,目前也有很多的開源方案可以參考。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-06-03 15:00:04

2024-06-17 07:49:53

2023-09-27 09:00:00

大型語言模型自然語言處理

2024-02-20 08:17:55

2020-11-29 19:03:00

人工智能機器學習技術

2023-05-08 15:36:50

模型AI

2024-07-26 11:42:28

2024-01-29 00:25:59

人工智能結構化編碼

2025-05-28 01:50:00

2024-10-08 10:37:12

語言數據自然語言

2024-05-16 08:23:26

大語言模型知識圖譜人工智能

2024-02-26 00:00:00

RAG系統圖譜

2025-09-30 02:55:00

2017-04-13 11:48:05

NLP知識圖譜

2021-01-18 10:50:29

知識圖譜人工智能深度學習

2024-01-19 16:56:04

軟件測試

2024-01-09 14:05:15

大型語言模型RAG向量數據庫

2025-11-05 03:22:00

知識圖譜語言模型生物醫學

2024-09-02 10:13:54

2017-03-06 16:48:56

知識圖譜構建存儲
點贊
收藏

51CTO技術棧公眾號

日韩电影中文字幕av| 综合欧美亚洲日本| 日本中文字幕成人| 国精产品视频一二二区| 图片一区二区| 亚洲国产日韩综合久久精品| 久久影院理伦片| 一级黄色片免费| 一本色道久久综合一区 | 国产精品主播视频| 欧美精品xxxxx| 国产成人久久| 精品av久久707| 久久久精品三级| www中文字幕在线观看| 亚洲国产精品ⅴa在线观看| 99伊人久久| 国产裸体美女永久免费无遮挡| 午夜精品999| 永久免费看mv网站入口亚洲| av影片在线播放| 激情欧美一区二区三区黑长吊| 亚洲成人手机在线| 最新av网址在线观看| 免费成人av电影| 高清成人免费视频| 国产一区二区在线免费视频| 国产又黄又爽又色| 综合天天久久| 日韩中文字幕精品| 欧美激情aaa| 老牛国内精品亚洲成av人片| 日韩一区二区三| 校园春色 亚洲色图| 女人让男人操自己视频在线观看| 亚洲精品视频一区| 亚洲蜜桃在线| 草碰在线视频| 久久精品一区八戒影视| 激情伦成人综合小说| www.久久久久久| 久久国产精品第一页| 国产精品va在线播放我和闺蜜| 国产午夜精品无码一区二区| 亚洲成人最新网站| 久久精品91久久久久久再现| www.涩涩爱| 成人情趣视频| 中文字幕av一区中文字幕天堂| 18禁裸乳无遮挡啪啪无码免费| 国偷自产视频一区二区久| 日韩欧美亚洲另类制服综合在线 | 91p九色成人| 欧美中文字幕不卡| 亚洲黄色a v| 欧美va视频| 欧美综合一区二区三区| 成人中文字幕av| 99欧美精品| 欧美日韩国产综合久久| 在线观看国产一级片| 成人免费黄色| 欧美一区二区在线看| 午夜激情影院在线观看| 激情综合婷婷| 精品成人佐山爱一区二区| 黑人玩弄人妻一区二区三区| silk一区二区三区精品视频 | a级影片在线观看| 一区二区三区四区国产精品| 免费高清一区二区三区| а√天堂中文在线资源8| 精品国产户外野外| 国产精品天天av精麻传媒| 成人在线视频观看| 欧美精品日韩一本| 在线观看一区二区三区四区| 亚州国产精品| 色av中文字幕一区| 国产成人综合在线视频| 亚洲视频免费| 日本欧美一二三区| 一区二区视频网站| 国产精品一区二区91| 精品亚洲欧美日韩| 牛牛热在线视频| 国产精品美女www爽爽爽| 自拍亚洲欧美老师丝袜| 日韩激情av| 日本韩国欧美三级| 91插插插影院| 美腿丝袜亚洲图片| 国产亚洲精品美女| 久久久久无码精品国产| 久久精品30| 亚洲伊人久久综合| 日韩三级电影网| 亚洲色图都市小说| 亚洲熟妇国产熟妇肥婆| 亚洲狼人在线| 亚洲精品永久免费| 暗呦丨小u女国产精品| 一本色道久久综合亚洲精品高清| 国产精品视频在线观看| 亚洲欧美强伦一区二区| 欧美激情一区不卡| 欧美日本视频在线观看| 97久久中文字幕| 亚洲欧美一区二区激情| 好吊色视频在线观看| 日日夜夜精品免费视频| 粉嫩高清一区二区三区精品视频 | 欧美激情综合网| 日韩a级在线观看| 国产亚洲精品精品国产亚洲综合| 精品成a人在线观看| 97精品在线播放| 丝袜亚洲另类欧美| 精品一区二区日本| 制服丝袜在线播放| 欧美特级限制片免费在线观看| 中文字幕天堂av| 91成人观看| 国产精品国产三级国产aⅴ9色| 亚洲经典一区二区| 1024国产精品| 色天使在线观看| 国产日产一区 | 中文字幕国产亚洲| 四虎成人永久免费视频| 丁香天五香天堂综合| 制服诱惑一区| 国产精品无码久久久久| 亚洲片国产一区一级在线观看| 免费在线观看亚洲| 国产剧情av麻豆香蕉精品| 亚洲国产高清国产精品| 亚洲妇女成熟| 日韩精品一区二区三区第95| 国产真实夫妇交换视频| 国产ts人妖一区二区| 国产麻豆电影在线观看| 日韩成人在线电影| 在线日韩精品视频| 国产九色91回来了| 日本一区二区三区国色天香| 国产福利视频在线播放| 国产99亚洲| 欧美一区二粉嫩精品国产一线天| 亚洲人妻一区二区三区| 无码av免费一区二区三区试看| 星空大象在线观看免费播放| 国产情侣一区| 美女一区视频| 日本一区免费网站| 色婷婷av一区二区三区在线观看 | 久久福利资源站| 一区二区三区四区五区精品| 成人午夜亚洲| 久热99视频在线观看| 精品人妻一区二区三区四区不卡| 亚洲激情av在线| 国产原创剧情av| 免费一级欧美片在线播放| 欧美日韩国产免费一区二区三区 | 91亚洲精品久久久| 欧美6一10sex性hd| 亚洲精品国产综合久久| 日本中文字幕久久| 欧美国产精品一区二区| 免费网站在线观看黄| 欧美激情成人在线| 精品综合在线| 国产精品成人国产| 欧美日韩国产二区| 凸凹人妻人人澡人人添| 欧美在线播放高清精品| 极品颜值美女露脸啪啪| 白白色 亚洲乱淫| 日本www高清视频| 欧美第一精品| 国产精品一区免费观看| 免费成人动漫| 伦伦影院午夜日韩欧美限制| 欧美一级性视频| 欧美唯美清纯偷拍| 欧美精品一级片| 久久综合中文字幕| 国产乱码一区二区三区四区| 国产日本精品| 久久天天东北熟女毛茸茸| 丁香五月缴情综合网| 国产精品69久久| 18+激情视频在线| 亚洲欧美日本另类| 精品久久人妻av中文字幕| 婷婷一区二区三区| 久久人妻无码aⅴ毛片a片app| 成人国产精品免费| 午夜剧场在线免费观看| 国产亚洲综合精品| 黄黄视频在线观看| 国产精品午夜一区二区三区| 亚洲qvod图片区电影| 吉吉日韩欧美| 国产做受69高潮| 精品视频在线一区二区| 亚洲欧美日韩国产中文| www日本视频| 欧美日韩一级二级| av资源免费观看| 亚洲精品ww久久久久久p站| 永久免费看mv网站入口78| 丰满岳乱妇一区二区三区| 亚洲一级免费观看| 翔田千里一区二区| 91黄色在线看| 亚洲最大av| 亚洲精品不卡| 精品国产aⅴ| 久久偷窥视频| 久久久亚洲欧洲日产| 亚洲在线免费视频| 99精品国产九九国产精品| 国产v综合v亚洲欧美久久| а_天堂中文在线| 久久九九国产精品怡红院| 二人午夜免费观看在线视频| 亚洲美女中文字幕| 天天操天天射天天| 精品嫩草影院久久| 国产高清视频免费观看| 在线不卡中文字幕播放| 中文字幕在线观看视频一区| 一本久久综合亚洲鲁鲁五月天 | 六月婷婷色综合| 天天天干夜夜夜操| 日本vs亚洲vs韩国一区三区二区| 欧美 日韩 国产一区| 日韩午夜av| 精品少妇一区二区三区在线| 在线欧美日韩| 亚洲精品无码国产| 日韩午夜在线电影| 黄色一级片播放| 老鸭窝亚洲一区二区三区| 国产成人精品视频免费看| 欧美一级一区| 国产精品无码一本二本三本色| 麻豆久久婷婷| 黑人粗进入欧美aaaaa| 麻豆一区二区三区| 国产一伦一伦一伦| 紧缚捆绑精品一区二区| 爱豆国产剧免费观看大全剧苏畅| 久久精品99国产精品| 亚洲天堂一区二区在线观看| 国产激情一区二区三区| 国产免费a级片| 91在线免费视频观看| 亚洲成人日韩在线| 国产亚洲精品久| 激情高潮到大叫狂喷水| 亚洲视频香蕉人妖| 久草国产在线视频| 午夜视频在线观看一区二区三区| 国产精品无码免费专区午夜| 香蕉视频官网在线观看日本一区二区| 中文字幕欧美人与畜| 一区二区日韩欧美| 成人精品视频在线播放| 久久xxxx| 91看片破解版| www.成人网.com| 波多野结衣av在线观看| 国产精品久久久久一区| 久草免费新视频| 色婷婷亚洲婷婷| 一级特黄特色的免费大片视频| 日韩视频在线永久播放| 四虎在线免费看| 日日骚av一区| 成人影院在线视频| 国产精品一二三在线| 欧美片网站免费| 久久青青草综合| 日韩欧美电影| 欧美精品久久久久久久免费| 日韩成人一区二区三区在线观看| 天美一区二区三区| 久久久噜噜噜久久中文字幕色伊伊| 大胸美女被爆操| 亚洲午夜免费电影| 国产情侣小视频| 精品国产污网站| 在线观看免费版| 91精品91久久久久久| 久久青草免费| 国模一区二区三区私拍视频| 国产精品久久久久一区二区三区厕所 | 欧洲日本亚洲国产区| 9999在线精品视频| 免费看成人片| 国产综合自拍| 一起操在线视频| wwwwww.欧美系列| 久久久国产成人| 欧美久久久久久蜜桃| 色婷婷av一区二区三区之红樱桃| 色婷婷综合成人| 黑人巨大亚洲一区二区久| www.久久艹| 国产精品久久久久久| 亚洲免费av一区二区三区| 99久久久无码国产精品| 在线看的片片片免费| 欧美优质美女网站| 污污的视频网站在线观看| 欧美成人小视频| 亚洲ww精品| 婷婷久久青草热一区二区| 亚洲激情网址| 国产亚洲精品成人a| 亚洲欧美日韩国产手机在线 | 黄色在线观看免费| 欧美日韩在线电影| 韩国中文免费在线视频| 欧美性做爰毛片| 狠狠久久伊人| 国产成人一区二区三区别| 国产一区二区三区免费播放| 超碰人人干人人| 欧美日韩情趣电影| 国产黄在线看| 国产精品99久久久久久白浆小说| 日韩电影不卡一区| 黄页免费在线观看视频| 粉嫩aⅴ一区二区三区四区五区| 四虎免费在线视频| 日韩欧美电影一区| 尤物yw193can在线观看| 91网站在线免费观看| 亚洲色图插插| 国产成人强伦免费视频网站| 亚洲视频中文字幕| 99久久久久久久| 久久久久久国产精品久久| japanese色系久久精品| 久久这里只有精品23| www.欧美色图| 69国产精品视频免费观看| 亚洲乱码av中文一区二区| 久久电影tv| 亚洲午夜精品一区二区| 麻豆91精品视频| 黄色片在线观看网站| 欧美mv日韩mv国产网站| 嗯啊主人调教在线播放视频 | 国产区在线观看| 亚洲一区二区三区四区视频| 欧美xxx在线观看| 国产精九九网站漫画| 天天射综合影视| 浮生影视网在线观看免费| 国产日产久久高清欧美一区| 一本一本久久a久久综合精品| 一起草最新网址| 午夜视频一区二区三区| 欧美扣逼视频| 国产精品综合网站| 亚洲一区二区日韩| 国产日韩视频一区| 色网综合在线观看| 日韩精品黄色| 成人综合av网| 久久一综合视频| 日本福利片在线观看| 亚洲成人国产精品| 91国内外精品自在线播放| 成年在线观看视频| 久久嫩草精品久久久精品一| 亚洲最大成人在线视频| 欧美激情一二三| 国产日产精品_国产精品毛片| 五月六月丁香婷婷| 精品欧美一区二区三区| 日本天堂在线观看| 精品麻豆av| 激情图片小说一区| 黄色在线观看国产| 久久伊人精品视频| 国产精品午夜一区二区三区| 女人扒开双腿让男人捅| 欧美性猛交xxxx乱大交蜜桃| 韩国av网站在线| 欧美主播一区二区三区美女 久久精品人 | 一区二区三区加勒比av| 免费观看成年在线视频网站| 成人片在线免费看| 蜜臀av性久久久久蜜臀aⅴ四虎|