精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

360視角:大模型幻覺(jué)問(wèn)題及其解決方案的深度探索與實(shí)踐

人工智能
大模型幻覺(jué)問(wèn)題在大模型應(yīng)用過(guò)程中,非常阻礙實(shí)際業(yè)務(wù)落地。解決該問(wèn)題是一項(xiàng)復(fù)雜的系統(tǒng)工程任務(wù),需多角度綜合探索。業(yè)界正通過(guò)持續(xù)的研究與實(shí)踐,尋找更有效的檢測(cè)與緩解策略,以提升大模型的可靠性、安全性與實(shí)用性。

一、什么是大模型幻覺(jué)問(wèn)題

1. 什么是大模型幻覺(jué)

首先介紹一下什么是大模型的幻覺(jué)。

圖片

在某些情況下,我們?cè)谑褂么竽P蜕山Y(jié)果時(shí),會(huì)有一個(gè)直觀的感受,就是“一本正經(jīng)的胡說(shuō)八道”。

  • 一本正經(jīng):生成結(jié)果流暢、困惑度 PPL 低、有邏輯性。
  • 胡說(shuō)八道:存在兩種定義①內(nèi)容與人類(lèi)認(rèn)知不一致;②內(nèi)容不可證偽。

圖片

這里給出一些大模型生成結(jié)果的例子,大家可以思考這些問(wèn)題是否屬于大模型的幻覺(jué)問(wèn)題,以及我們是否真的要解決這些問(wèn)題。

圖片

從學(xué)術(shù)界的共識(shí)來(lái)看,大模型的幻覺(jué)可以分成兩大類(lèi):

  • 事實(shí)性的幻覺(jué):包括事實(shí)不一致和捏造事實(shí)兩類(lèi)。
  • 忠實(shí)性的幻覺(jué):包括不遵循指令和不遵循上下文兩類(lèi)。

如何在業(yè)務(wù)工作中,對(duì)大模型幻覺(jué)進(jìn)行具體分類(lèi),可以參考流程圖。

  • 首先關(guān)注用戶(hù)指令和上下文,如果沒(méi)有遵循指令,則是不遵循指令的忠實(shí)性幻覺(jué),如果沒(méi)有遵循上下文,則是不遵循上下文的忠實(shí)性幻覺(jué)。
  • 其次,關(guān)注回復(fù)內(nèi)容,如果回復(fù)內(nèi)容正確,則正常,如果回復(fù)錯(cuò)誤,則需要進(jìn)一步看錯(cuò)誤類(lèi)型。
  • 最后,回復(fù)錯(cuò)誤類(lèi)型包括知識(shí)類(lèi)的捏造事實(shí),計(jì)算、代碼類(lèi)的事實(shí)不一致,以及推理過(guò)程中的邏輯不一致等。

2. 大模型幻覺(jué)問(wèn)題產(chǎn)生的原因

上節(jié)介紹了大模型幻覺(jué)的定義和分類(lèi),接下來(lái)介紹大模型幻覺(jué)問(wèn)題產(chǎn)生的原因,共有三大類(lèi)。

圖片

  • 數(shù)據(jù)
  • 算法和訓(xùn)練
  • 推理

(1)數(shù)據(jù)導(dǎo)致的幻覺(jué)問(wèn)題

以知識(shí)邊界為例,如果大模型未學(xué)習(xí)到該領(lǐng)域的知識(shí),或者雖然學(xué)習(xí)到了,但是知識(shí)過(guò)時(shí),或者是知識(shí)生產(chǎn)時(shí)間晚于模型數(shù)據(jù)生產(chǎn)時(shí)間等情況,均會(huì)導(dǎo)致大模型由于數(shù)據(jù)問(wèn)題出現(xiàn)幻覺(jué)。

(2)數(shù)據(jù)采樣過(guò)程導(dǎo)致的模型幻覺(jué)

一種情況是數(shù)據(jù)采樣的知識(shí)捷徑。最近的研究表明,LLMs 往往依賴(lài)于捷徑,而不是真正理解事實(shí)知識(shí)的細(xì)節(jié)。它們傾向于過(guò)度依賴(lài)預(yù)訓(xùn)練數(shù)據(jù)中的共現(xiàn)統(tǒng)計(jì)、共現(xiàn)頻率和相關(guān)文檔計(jì)數(shù),這可能會(huì)引入對(duì)虛假相關(guān)性的偏見(jiàn),如果這種偏見(jiàn)反映了事實(shí)上不正確的信息,可能會(huì)導(dǎo)致幻覺(jué)。長(zhǎng)尾知識(shí)以其在預(yù)訓(xùn)練數(shù)據(jù)中的相對(duì)罕見(jiàn)性為特征,對(duì) LLMs 構(gòu)成了固有的挑戰(zhàn),它們主要依賴(lài)于共現(xiàn)模式來(lái)記憶事實(shí)知識(shí)。因此,當(dāng)面臨涉及這種長(zhǎng)尾知識(shí)的查詢(xún)時(shí),LLMs 在生成事實(shí)上不準(zhǔn)確的回答方面存在較高的風(fēng)險(xiǎn)。

(3)預(yù)訓(xùn)練過(guò)程導(dǎo)致的模型幻覺(jué)

一方面,可能受限于 Decoder-Only 架構(gòu),以及注意力機(jī)制的缺陷。大模型基于前一個(gè)標(biāo)記預(yù)測(cè)下一個(gè)標(biāo)記,僅從左到右。這種單向建模雖然促進(jìn)了高效的訓(xùn)練,但也存在局限性。它僅利用單一方向的上下文,這阻礙了捕捉復(fù)雜的上下文依賴(lài)關(guān)系,可能增加幻覺(jué)的風(fēng)險(xiǎn)。self attention 模塊在捕獲長(zhǎng)距離依賴(lài)關(guān)系方面表現(xiàn)出色。然而最近的研究表明,它們偶爾在算法推理的背景下表現(xiàn)出不可預(yù)測(cè)的推理錯(cuò)誤,無(wú)論是長(zhǎng)距離還是短距離依賴(lài)關(guān)系,無(wú)論模型規(guī)模大小。一個(gè)可能的原因是 soft attention 的局限性,隨著序列長(zhǎng)度的增加,注意力在各個(gè)位置之間變得稀釋。

另一方面是曝光偏差的問(wèn)題。這是由于自回歸生成模型的訓(xùn)練和推理之間的差異造成的。在訓(xùn)練過(guò)程中,這些模型通常采用最大似然估計(jì)(MLE)的訓(xùn)練策略,其中真實(shí)標(biāo)記作為輸入提供。然而,在推理過(guò)程中,模型依賴(lài)于自己生成的標(biāo)記進(jìn)行后續(xù)預(yù)測(cè)。這種不一致性可能導(dǎo)致幻覺(jué),尤其是當(dāng)模型生成的錯(cuò)誤標(biāo)記在后續(xù)序列中引發(fā)錯(cuò)誤級(jí)聯(lián)時(shí)。

此外,微調(diào)對(duì)齊也會(huì)導(dǎo)致幻覺(jué)問(wèn)題,大模型在預(yù)訓(xùn)練期間建立了固有的能力邊界,當(dāng)在微調(diào)數(shù)據(jù)中包含了預(yù)訓(xùn)練階段未見(jiàn)過(guò)的新知識(shí)時(shí),大模型被訓(xùn)練為生成超出自身知識(shí)邊界的內(nèi)容,增加了幻覺(jué)的風(fēng)險(xiǎn)。在模型對(duì)齊階段,大模型也可能會(huì)產(chǎn)生諂媚的行為,其回應(yīng)更傾向于用戶(hù)的觀點(diǎn),而不是提供正確或真實(shí)的答案,這也會(huì)增加大模型幻覺(jué)現(xiàn)象。

推理階段同樣可能導(dǎo)致幻覺(jué)問(wèn)題。一方面,temperature、top k、top b 等技術(shù)來(lái)引入隨機(jī)性,可能導(dǎo)致幻覺(jué)。另一方面,長(zhǎng)文本時(shí),更多關(guān)注局部 attention,缺少全局信息關(guān)注,導(dǎo)致忘記指令或指令不遵循等情況,從而產(chǎn)生幻覺(jué)。此外,由于模型最后,經(jīng)過(guò)一系列注意力機(jī)制和計(jì)算后,最后 output 層會(huì)做一次 Softmax 生成最終的預(yù)測(cè)概率,然而,基于 Softmax 的語(yǔ)言模型的有效性受到 Softmax Bottleneck 這一已知限制的阻礙,其中 Softmax 與 embedding 的結(jié)合限制了輸出概率分布的表達(dá)能力,阻止了語(yǔ)言模型輸出期望的分布,從而導(dǎo)致了幻覺(jué)問(wèn)題。

3. 如何檢測(cè)大模型幻覺(jué)

上文介紹了大模型幻覺(jué)問(wèn)題的產(chǎn)生原因,接下來(lái)介紹大模型幻覺(jué)問(wèn)題的檢測(cè)。

(1)按照知識(shí)的確定性劃分類(lèi)別

圖片

首先,判斷用戶(hù)問(wèn)題是否可以回答,即問(wèn)題是否客觀、真實(shí)、確定性。例如主觀問(wèn)題、哲學(xué)類(lèi)問(wèn)題、科學(xué)想象問(wèn)題、尚未形成科學(xué)共識(shí)的問(wèn)題等,如果希望模型給出確定性答案,大概率是存在問(wèn)題的。當(dāng)然,對(duì)這種問(wèn)題,有一個(gè)討巧的辦法,讓生成結(jié)果更符合人類(lèi)偏好,對(duì)于主觀問(wèn)題,給出多種可能答案。

其次,當(dāng)排除掉非確定性答案的問(wèn)題后,對(duì)于有確定答案的問(wèn)題,從大模型對(duì)知識(shí)掌握的認(rèn)知層面看,又可以分成如下幾類(lèi):

  • 大模型知道自己知道知識(shí)
  • 大模型不知道自己知道知識(shí)
  • 大模型不知道自己不知道知識(shí)
  • 大模型知道自己不知道知識(shí)

針對(duì)于前兩類(lèi),并不影響回答正確性。

針對(duì)于后兩類(lèi),大模型本身的回答存在幻覺(jué),是我們重點(diǎn)關(guān)注的問(wèn)題。

(2)針對(duì)不可回答類(lèi)問(wèn)題的檢測(cè)思路

圖片

此處列舉了 2 個(gè)工作。TruthfulQA 評(píng)測(cè)集,使用人類(lèi)經(jīng)?;卮疱e(cuò)誤的問(wèn)題來(lái)構(gòu)建測(cè)試集 benchmark,以評(píng)估大模型的幻覺(jué)能力或者程度。

另一個(gè)工作是收集不可回答的問(wèn)題,通過(guò)語(yǔ)義相似度方法,構(gòu)建語(yǔ)義類(lèi)似的但是可以回答的問(wèn)題。利用二元分類(lèi)器,判斷模型的幻覺(jué)程度。

(3)如何檢測(cè)“大模型知道自己不知道”

圖片

是否可以讓大模型知道自己在“胡說(shuō)八道”呢?可以利用語(yǔ)義熵的思路。有兩種方法。

第一種方法,通過(guò)讓模型多次回答同一個(gè)問(wèn)題,觀察模型回復(fù)的一致性。通過(guò)對(duì)模型多次回答的結(jié)果進(jìn)行語(yǔ)義聚類(lèi),如果聚類(lèi)結(jié)果比較分散,可能表明模型的回答存在幻覺(jué)。注意,即使模型多次給出了相同的回答,也不能直接判斷其為正確答案,因?yàn)槟P陀锌赡芊€(wěn)定的回復(fù)錯(cuò)誤答案,這需要與已知事實(shí)或?qū)I(yè)知識(shí)進(jìn)行對(duì)比驗(yàn)證。

第二種方法,讓模型對(duì)同一個(gè)問(wèn)題生成多個(gè)回答,檢查這些回答之間是否相互支持,即一個(gè)回答是否可以作為另一個(gè)回答的證據(jù)或補(bǔ)充。如果在這些回答中發(fā)現(xiàn)相互矛盾或沖突的信息,這可能是模型產(chǎn)生幻覺(jué)的跡象。如果所有回答都相互一致且沒(méi)有沖突,這可能表明模型的回答是可靠的。同樣注意,即使回答一致,需要將模型的回答與已知的事實(shí)、數(shù)據(jù)或其他可靠的信息源進(jìn)行對(duì)比,以驗(yàn)證其真實(shí)性。

(4)如何檢測(cè)“大模型不知道自己不知道”

對(duì)于這種情況,可以引入外部工具來(lái)檢測(cè)幻覺(jué),比如搜索引擎、代碼解釋器等。

針對(duì)大模型輸出的結(jié)果,抽取事實(shí)或者觀點(diǎn) claims,用事實(shí)或觀點(diǎn)再用大模型去生成問(wèn)題,用生成的問(wèn)題去搜索引擎、代碼解釋器等工具收集證據(jù),將收集的證據(jù)與大模型輸出對(duì)比,判斷是否有沖突。如果存在沖突,則可能存在幻覺(jué)。

此外,還有一個(gè)技巧,參考人類(lèi)撒謊的情況,撒謊時(shí)候?qū)τ诩?xì)節(jié)問(wèn)題是很容易出現(xiàn)錯(cuò)誤或者沖突,一個(gè)謊言往往需要更多的謊言來(lái)掩蓋。我們?cè)谏蓡?wèn)題的過(guò)程中,可以利用不斷追問(wèn)的方式來(lái)生成,有利于判斷大模型是否存在幻覺(jué)。

二、360 可信大模型的幻覺(jué)解決方案

1. 在數(shù)據(jù)、算法、推理階段,緩解大模型幻覺(jué)問(wèn)題

圖片

綜上來(lái)看,大模型幻覺(jué)產(chǎn)生的各類(lèi)問(wèn)題都有相應(yīng)的緩解方案,在實(shí)際工作過(guò)程中,根據(jù)不同問(wèn)題可以利用不同解決辦法,包括預(yù)訓(xùn)練、微調(diào)、對(duì)齊、解碼策略、RAG、知識(shí)編輯等技術(shù)。

2. 使用 RAG 緩解大模型幻覺(jué)

(1)RAG 工作流程

圖片

利用預(yù)訓(xùn)練階段優(yōu)化方法去解決幻覺(jué)問(wèn)題成本較高,可以考慮利用 RAG 和知識(shí)庫(kù)的方法來(lái)緩解大模型幻覺(jué)。

首先,對(duì)于用戶(hù)輸入進(jìn)行預(yù)處理工作。

然后,進(jìn)入語(yǔ)義路由判斷問(wèn)題類(lèi)別,對(duì)于創(chuàng)意性任務(wù)例如寫(xiě)小說(shuō),則無(wú)需考慮幻覺(jué)問(wèn)題,因此這類(lèi)任務(wù)偏好多樣性和創(chuàng)意性。

對(duì)于事實(shí)性、政治性、嚴(yán)肅性問(wèn)題,需要通過(guò)特定的知識(shí)庫(kù),進(jìn)行知識(shí)增強(qiáng),進(jìn)一步生成答案。生成的答案依然可能存在幻覺(jué)問(wèn)題,需要分類(lèi)器判斷是否存在幻覺(jué),如果有再進(jìn)一步緩解。

最后,為了判斷回答是否與任務(wù)相關(guān),如果大模型回答沒(méi)有解決用戶(hù)問(wèn)題,則需要新一輪的迭代處理策略。

(2)RAG 技術(shù)架構(gòu)

圖片

這是一個(gè)比較詳細(xì)的 RAG 技術(shù)架構(gòu)圖,主要包括 query 分析、建索引、搜索排序、上下文選擇、推理等階段。

Query 預(yù)處理,包括query 擴(kuò)展、query transformation、query routing 語(yǔ)義路由等模塊。

對(duì)于檢索模塊,需要根據(jù)不同的數(shù)據(jù)類(lèi)型使用不同的檢索技術(shù)。比如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù),公開(kāi)數(shù)據(jù)、私域數(shù)據(jù)等。對(duì)于非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),可以通過(guò)文檔解析、切片、embedding 向量化后,通過(guò)向量檢索引擎進(jìn)行索引。對(duì)于結(jié)構(gòu)化數(shù)據(jù),可以使用關(guān)系型數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)等進(jìn)行建模;

最后,對(duì)于不同的索引數(shù)據(jù)類(lèi)型,使用不同的 query 查詢(xún)技術(shù)進(jìn)行混合建設(shè),比如關(guān)鍵詞搜索、基于 embedding 的語(yǔ)義相似度檢索、text 轉(zhuǎn) SQL 后的結(jié)構(gòu)化查詢(xún)、text 轉(zhuǎn) graphSQL 的 N 元組查詢(xún)等,對(duì)于查詢(xún)結(jié)果進(jìn)行重排序,將重排序后的結(jié)果給到大模型作為上下文信息,由大模型進(jìn)行推理。

3. query 預(yù)處理

(1)sub-query

圖片

對(duì)于某些問(wèn)題,本身需要多步推理,可以先針對(duì)這些問(wèn)題,通過(guò)大模型,基于少量示例(fewshot)學(xué)習(xí)或者特定任務(wù)微調(diào)(SFT),生成一系列子查詢(xún),從而引導(dǎo)大模型一步一步針對(duì)性回復(fù),在我們實(shí)際的工作中能夠得到比較好的收益。

(2)Text2SQL

圖片

Text2SQL 在智能 BI 場(chǎng)景里也在落地。目前,對(duì)于簡(jiǎn)單的 SQL 效果還可以,但是聯(lián)表等復(fù)雜查詢(xún)效果還有進(jìn)一步提升空間。在實(shí)際業(yè)務(wù)中,可以通過(guò)減少聯(lián)表查詢(xún)的策略來(lái)提升相應(yīng)的效果,比如創(chuàng)建一個(gè)大寬表(wide table)。

text2sql 技術(shù)包括3 個(gè)階段,預(yù)處理、sql 語(yǔ)句生成、后處理。通過(guò) schema linking 技術(shù),結(jié)合 Few-shot 學(xué)習(xí)方法或者 SFT 技術(shù),讓模型快速學(xué)習(xí)如何根據(jù)特定的 schema 生成 SQL 語(yǔ)句。生成的 SQL 語(yǔ)句,可能存在錯(cuò)誤,因此需要通過(guò)后處理階段來(lái)進(jìn)一步修正。一方面可以通過(guò)調(diào)用多個(gè)大型語(yǔ)言模型來(lái)生成 SQL 語(yǔ)句,通過(guò)多模型投票的策略提高查詢(xún)的準(zhǔn)確性和可靠性,也可以通過(guò)對(duì)單個(gè)模型多次生成具有不同溫度參數(shù)(temperature)的查詢(xún)結(jié)果,增加結(jié)果的多樣性,然后通過(guò)一致性投票技術(shù)來(lái)選擇最終的輸出結(jié)果。

4. 文件解析

圖片

用戶(hù)可能上傳 PDF 文檔、word 文檔、FAQ 數(shù)據(jù)等結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)。對(duì)于 PDF,不僅是文字,還涉及表格、公式、圖表等,都需要解析,這里涉及版面識(shí)別的工作。

圖片

識(shí)別區(qū)域后需要進(jìn)一步處理。對(duì)于表格,需要使用圖像處理 OCR 的方法,對(duì)表頭、列、元素等進(jìn)行定位和提取。

圖片

同時(shí),我們需要對(duì)文檔中的公式進(jìn)行識(shí)別和解析,并建立索引,以幫助提升搜索結(jié)果的準(zhǔn)確性。

5. 數(shù)據(jù)增強(qiáng)

圖片

對(duì)于解析后得到的文本數(shù)據(jù),可以通過(guò)數(shù)據(jù)增強(qiáng)技術(shù)來(lái)幫助進(jìn)一步提升搜索效果。Self-QA 這項(xiàng)工作針對(duì)于文檔讓大模型生成多個(gè)問(wèn)題,然后將問(wèn)題和原始文檔給到大模型,讓大模型生成答案,從而構(gòu)造了<question, answer>的 pair 對(duì),形成了 FAQ 庫(kù)。后續(xù)在檢索時(shí),不只是對(duì)原始的 document 做索引,還可以對(duì) FAQ 做索引。此外,還可以進(jìn)一步對(duì) FAQ 庫(kù)進(jìn)行數(shù)據(jù)增強(qiáng),比如對(duì) question 通過(guò)大模型構(gòu)造相似問(wèn),或者對(duì) answer 進(jìn)行 summarize 后,讓大模型生成 question 等。這種方式還有一個(gè)好處,后續(xù)可以將 badcase 的維護(hù)工作交由產(chǎn)品運(yùn)營(yíng)同學(xué)來(lái)完成。

圖片

對(duì)于圖片數(shù)據(jù),可以使用 LLaVA 等模型通過(guò)圖像描述(image captioning)技術(shù),將圖片轉(zhuǎn)成文本描述進(jìn)行索引召回。在索引的時(shí)候,需要在索引的 meta 字段記錄圖像和文本描述的鏈接關(guān)系,大模型輸出時(shí),可以通過(guò)證據(jù)溯源技術(shù),把原始圖像引用出來(lái)。

圖片

圖片

我們?cè)趯?shí)際業(yè)務(wù)中,經(jīng)常會(huì)遇到一些 bad case,比如對(duì)文檔進(jìn)行總結(jié)摘要,這種場(chǎng)景使用傳統(tǒng)的 RAG 技術(shù)無(wú)法得到很好的滿足。我們使用了微軟團(tuán)隊(duì)的 GraphRAG 工作,對(duì)文檔進(jìn)行增強(qiáng)建模。具體來(lái)說(shuō),對(duì)于 document 先切成 trunk,即 Text unit。對(duì)于每個(gè) textUnit,進(jìn)行 SPO 三元組抽取、claims 抽取、摘要生成等工作。然后構(gòu)建知識(shí)圖譜,并進(jìn)行層次聚類(lèi),構(gòu)建成子圖、社區(qū)等層級(jí),并向量化。在查詢(xún)的時(shí)候,既可以使用全局搜索技術(shù)利用社區(qū)層級(jí)摘要來(lái)推理有關(guān)語(yǔ)料庫(kù)的整體問(wèn)題,也可以使用局部搜索技術(shù)通過(guò)擴(kuò)展到其鄰居和相關(guān)概念來(lái)推理特定實(shí)體的情況。

6. context selection

圖片

研究發(fā)現(xiàn),如果給到大模型的文檔或知識(shí)庫(kù)本身就是不相關(guān)的,效果反而更差。因此,我們可以在檢索后或者重排后將結(jié)果進(jìn)行過(guò)濾。例如,通過(guò)小模型把不相關(guān)的結(jié)果過(guò)濾掉。如果是復(fù)雜的查詢(xún),可以將搜索結(jié)果組織成選擇題形式,使用大模型做選擇題的能力,過(guò)濾掉不相關(guān)的查詢(xún)片段。

此外,也可以利用 small2big、調(diào)大長(zhǎng)文本窗口甚至讓大模型直接處理整篇文檔等技術(shù)來(lái)提升效果。

7. 在推理時(shí)解決幻覺(jué)

(1)解碼策略

圖片

大模型在推理過(guò)程中,前期生成的內(nèi)容幻覺(jué)率不高,但在推理后期,由于解碼的時(shí)候依賴(lài)于前面生成的 token,這個(gè)時(shí)候幻覺(jué)問(wèn)題就會(huì)出現(xiàn)了,可以通過(guò)動(dòng)態(tài)調(diào)整解碼參數(shù)的方法來(lái)緩解。此外也有一些工程化的方案,比如基于 semantic routing 的技術(shù),對(duì)于不同任務(wù),設(shè)置不同的解碼參數(shù),也能達(dá)到不錯(cuò)的效果。

(2)Contrastive Decoding

圖片

對(duì)比解碼技術(shù),是通過(guò)比較不同模型(通常是一個(gè)小模型和一個(gè)大模型)的輸出來(lái)提高解碼過(guò)程的準(zhǔn)確性的。在對(duì)比解碼中,分析大模型和小模型在下一個(gè) token 預(yù)測(cè)上的分布差異(DIFF),以此來(lái)評(píng)估輸出的可靠性。在解碼過(guò)程中,通過(guò)識(shí)別和剪除可能導(dǎo)致幻覺(jué)的路徑來(lái)減少不真實(shí)的輸出。需要對(duì)差異閾值進(jìn)行細(xì)致的調(diào)整,以平衡減少幻覺(jué)和避免錯(cuò)誤剪除有效輸出之間的權(quán)衡。

這個(gè)工作,需要注意線上成本,即是否接受小模型在線上運(yùn)行。

(3)Recitation-augmented generation

圖片

回憶增強(qiáng)技術(shù)是一個(gè)比較有意思的工作,類(lèi)似于人類(lèi)在回答問(wèn)題時(shí)會(huì)先回憶自己已經(jīng)學(xué)習(xí)到的知識(shí),然后再進(jìn)行回答。可以通過(guò)模擬人類(lèi)回答問(wèn)題的策略,通過(guò)提示工程技術(shù),讓大模型在回答之前先回憶內(nèi)部知識(shí),將知識(shí)顯性化放到上下文中,然后再根據(jù)上下文信息進(jìn)行回答,以提高其回答問(wèn)題的準(zhǔn)確性。

(4)Gen-Critic-Edit

圖片

自我批判或者知識(shí)編輯,是利用外部數(shù)據(jù)庫(kù)、外部工具、大模型自我判斷等方法,讓大模型對(duì)生成結(jié)果進(jìn)行反思和自我批評(píng),然后再修正回答的一種技術(shù)。在修正階段,可以使用對(duì)答案進(jìn)行多次生成與一致性投票、訓(xùn)練一個(gè)額外的模型來(lái)對(duì)生成的回答進(jìn)行打分以評(píng)估其質(zhì)量、使用 RAG 技術(shù)從知識(shí)庫(kù)中抽取相關(guān)證據(jù)并利用抽取的證據(jù)來(lái)指導(dǎo)模型進(jìn)行進(jìn)一步的生成等多種策略,來(lái)提高回答的準(zhǔn)確性和可靠性。這里列舉幾個(gè)比較典型的工作。

①RARR

圖片

RARR 這個(gè)工作通過(guò)讓大模型對(duì)原始 query 進(jìn)行改寫(xiě)從而生成多個(gè) query,然后對(duì)每個(gè) query 調(diào)用搜索引擎,將搜索結(jié)果作為參考信息,用于與模型生成的回答進(jìn)行比較。如果搜索結(jié)果與原始回答存在沖突,模型將根據(jù)這些信息進(jìn)行進(jìn)一步的生成和修正。如果搜索結(jié)果與原始回答一致,模型可能認(rèn)為沒(méi)有幻覺(jué)存在。

②FAVA

圖片

FAVA 工作需要訓(xùn)練一個(gè)改寫(xiě)模型,具體來(lái)說(shuō),通過(guò)數(shù)據(jù)增強(qiáng)的方式,比如插入噪聲文本,修改文本等技術(shù)對(duì)原始文本進(jìn)行破壞,將得到的錯(cuò)誤文本和原始正確文本給到大模型進(jìn)行訓(xùn)練,讓大模型學(xué)會(huì)糾正能力。這種技術(shù)具備一定的成本,適合解決事實(shí)性問(wèn)題,例如政治敏感場(chǎng)景,效果較好。

③some critics

圖片

在自我反思和自我批判模塊,還有 CRITIC、self-refine 等一些優(yōu)秀的工作,這里就不做過(guò)多介紹了,大家感興趣可以自行查閱相關(guān)材料。

8. 模型增強(qiáng)技術(shù)

接下來(lái)是一些成本比較高的方法,包括預(yù)訓(xùn)練和微調(diào)對(duì)齊技術(shù)。

(1)預(yù)訓(xùn)練

圖片

當(dāng)大型語(yǔ)言模型缺乏特定知識(shí)時(shí),首要方法就是將這些知識(shí)通過(guò)預(yù)訓(xùn)練的方式訓(xùn)到大模型中??梢詮耐獠繑?shù)據(jù)源,如 Common Crawl 等數(shù)據(jù)集中提取相關(guān)知識(shí),并將其納入模型訓(xùn)練中。對(duì)于時(shí)效性較強(qiáng)的知識(shí),可以通過(guò)時(shí)效性搜索引擎或數(shù)據(jù)抓取工具,實(shí)時(shí)或定期地更新模型的知識(shí)庫(kù),在模型的持續(xù)預(yù)訓(xùn)練階段,不斷引入新知識(shí)以保持模型知識(shí)的時(shí)效性和覆蓋面。訓(xùn)練過(guò)程中需要仔細(xì)調(diào)整數(shù)據(jù)回放比例、學(xué)習(xí)率、數(shù)據(jù)配比等。

(2)微調(diào)和對(duì)齊

圖片

在微調(diào)階段,如果微調(diào)數(shù)據(jù)集中包含了預(yù)訓(xùn)練模型中不存在的知識(shí),大模型可能會(huì)生成不準(zhǔn)確或虛假的回答,可以在預(yù)訓(xùn)練的退火階段對(duì)微調(diào)數(shù)據(jù)集進(jìn)行 next token prediction 的建模,然后通過(guò) SFT 和 DPO 技術(shù)進(jìn)行進(jìn)一步微調(diào)對(duì)齊。

注意,直接使用人工標(biāo)注的數(shù)據(jù)和搜索引擎結(jié)果作為正負(fù)例進(jìn)行對(duì)齊訓(xùn)練可能存在問(wèn)題。正例和負(fù)例的生成應(yīng)盡量來(lái)自原有模型的輸出,而不是外部來(lái)源,以保持?jǐn)?shù)據(jù)的一致性和可靠性。建議訓(xùn)練一個(gè)打分模型來(lái)評(píng)估數(shù)據(jù)質(zhì)量,幫助識(shí)別哪些數(shù)據(jù)是高質(zhì)量的正例,哪些可能是低質(zhì)量的負(fù)例。

三、360 可信大模型應(yīng)用案例

1. 360 大模型安全解決方案

圖片

圖片

我們將上述 360 可信大模型解決方案應(yīng)用在了大模型的內(nèi)容安全檢測(cè)業(yè)務(wù)和防護(hù)上,在中國(guó)信通院 AI Safety Benchmark 的 Q1 和 Q2 兩個(gè)季度的安全性評(píng)估上,360 智腦的安全性蟬聯(lián)第一名。

2. 360AI 搜索

圖片

同時(shí),我們將上述解決方案應(yīng)用在了 360AI 搜索產(chǎn)品中,可以看到 360AI 搜索產(chǎn)品可以很好解決這些 GPT4 解決不了的幻覺(jué)性問(wèn)題。

3. 360AI 瀏覽器

圖片

360AI 瀏覽器的智閱產(chǎn)品,用戶(hù)可以上傳文檔,根據(jù)文檔做問(wèn)答、做翻譯、生成腦圖,讀者有興趣可以去體驗(yàn)一下這套方案在真實(shí)的業(yè)務(wù)場(chǎng)景里面到底做得怎么樣。

四、360 可信大模型的未來(lái)探索

圖片

我們的探索不是完成時(shí),而是進(jìn)行時(shí)。在真實(shí)生成環(huán)境中,隨著業(yè)務(wù)、方案落地,我們遇到更多挑戰(zhàn)。隨著評(píng)測(cè),我們發(fā)現(xiàn) benchmark 跟真實(shí)場(chǎng)景的數(shù)據(jù)分布和幻覺(jué)一致性不完全相同。所以,我們需要自己在業(yè)務(wù)場(chǎng)景中構(gòu)建自己的 benchmark,并且不斷迭代,去進(jìn)一步發(fā)現(xiàn)問(wèn)題。

五、問(wèn)答環(huán)節(jié)

Q1:RAG 工作流程中,二元分類(lèi)器是怎么訓(xùn)練的?

A1:首先建立幻覺(jué)體系,根據(jù)不同幻覺(jué)類(lèi)型,標(biāo)注不同類(lèi)別。數(shù)據(jù)主要來(lái)自于線上日志。通過(guò)使用各種自動(dòng)化輔助標(biāo)注工具進(jìn)行離線數(shù)據(jù)挖掘和數(shù)據(jù)標(biāo)注,并進(jìn)行人工打標(biāo),最終形成了我們的訓(xùn)練數(shù)據(jù),然后再進(jìn)行分類(lèi)模型的訓(xùn)練。

Q2:混合檢索結(jié)果的重排序,有哪些方法?

A2:我們的方案涉及到了多種檢索策略,包括關(guān)鍵詞搜索、語(yǔ)義搜索、關(guān)系型數(shù)據(jù)庫(kù)搜索、圖搜索、工具調(diào)用等。對(duì)于每種檢索策略,首先會(huì)調(diào)用自己的重排序方法,比如對(duì)于語(yǔ)義搜索,可以使用 bge-rerank 相關(guān)的模型。最終多條召回流的結(jié)果,可以使用策略重排或者通過(guò)數(shù)據(jù)標(biāo)注訓(xùn)練一個(gè)重排模型,這里要結(jié)合自己的業(yè)務(wù)場(chǎng)景來(lái)進(jìn)行調(diào)優(yōu)。

責(zé)任編輯:姜華 來(lái)源: DataFunTalk
相關(guān)推薦

2024-05-23 07:59:42

RedisKey性能

2024-10-12 08:11:05

大模型ChatBI數(shù)據(jù)分析

2024-09-10 08:42:37

2024-12-02 01:16:53

2025-05-28 01:50:00

2024-02-26 08:15:43

語(yǔ)言模型低代碼

2024-05-06 07:58:25

大模型AI智慧芽

2025-06-09 07:45:00

2025-02-04 17:40:44

2018-05-28 14:37:05

數(shù)據(jù)庫(kù)NoSQL高并發(fā)

2010-05-12 14:18:58

Linux引導(dǎo)

2024-06-21 08:04:48

2023-11-07 18:56:05

2024-07-12 11:35:20

2022-02-23 12:07:20

分布式Spark數(shù)據(jù)傾斜

2024-06-12 12:59:16

2025-04-24 11:09:13

2025-06-05 00:00:00

向量數(shù)據(jù)庫(kù)線程安全Redis
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

丁香花在线影院| 国产精品高潮呻吟久久久| 偷拍自拍亚洲色图| 欧美性一级生活| 美女av免费观看| 亚洲欧洲综合在线| 韩国精品一区二区| 午夜精品一区二区三区在线播放| 久操视频免费看| 中文幕av一区二区三区佐山爱| 亚洲国产综合在线| 天天好比中文综合网| 性生活三级视频| 日韩福利视频导航| 欧美激情一级精品国产| 蜜乳av中文字幕| 57pao国产一区二区| 欧美日韩在线视频一区二区| 97超碰人人爱| 国产永久免费高清在线观看 | 男女av免费观看| 里番在线观看网站| av网站免费线看精品| 国产在线拍偷自揄拍精品| 亚洲男人第一av| 911精品美国片911久久久| 亚洲男人第一网站| 性感美女一区二区三区| 日本国产亚洲| 在线视频观看一区| 欧美视频在线播放一区| 天堂成人av| 亚洲天堂av一区| 日韩精品一线二线三线| 天堂a中文在线| 国产不卡视频一区| 91在线观看免费高清| 中文字幕免费观看视频| 模特精品在线| 亚洲**2019国产| 免费无码毛片一区二区app| 久久国产成人精品| 国产一区二区免费| a级片在线观看| 丝袜av一区| 日韩av一区在线| 妖精视频一区二区| av成人app永久免费| 日韩一区国产二区欧美三区| 欧美又黄又嫩大片a级| 国语自产精品视频在线看抢先版结局 | 久久伊人亚洲| 欧美一级片在线播放| 国产无精乱码一区二区三区| 韩国久久久久| 久久久久久久久久婷婷| 国产一级在线视频| 亚洲欧洲一区二区天堂久久| 久久免费在线观看| 日本污视频在线观看| 亚洲欧洲另类| 97色在线视频观看| 亚洲黄色激情视频| 久久精品一区二区三区中文字幕| 欧美亚洲另类视频| 蜜臀99久久精品久久久久小说| 视频一区在线播放| 国产精品精品久久久久久| 成人在线免费观看av| 色屁屁www国产馆在线观看| 亚洲自拍偷拍图区| 免费看日本毛片| 欧美日韩电影免费看| 欧洲精品视频在线观看| 久久99999| 蜜桃在线一区| 亚洲精品成人久久电影| 国产精品无码午夜福利| 日韩成人a**站| 久久亚洲私人国产精品va| 天天看片中文字幕| 尤物在线精品| 国产91色在线|| 97人妻精品一区二区三区| 国产福利91精品一区二区三区| 国产精品.com| 极品美乳网红视频免费在线观看 | 欧美xxx久久| 在线精品一区二区三区| 波多野结衣在线观看一区二区三区| 色妞一区二区三区| 久操视频免费在线观看| 久久久噜噜噜久久狠狠50岁| 国产精品一久久香蕉国产线看观看| av在线资源观看| 97久久人人超碰| 亚洲综合网中心| 搞黄网站在线看| 在线观看日产精品| 亚洲欧美激情一区二区三区| 久久超碰99| 欧美成人免费在线视频| 亚洲综合图片网| 日韩欧美中字| 午夜精品久久久久久99热软件| 国产乱码77777777| 粉嫩aⅴ一区二区三区四区五区| 久久久精品国产一区二区三区| 在线中文资源天堂| 亚洲成人精品一区| 五月天av在线播放| 欧美变态网站| 欧美老女人xx| 中文字幕在线观看1| 成人精品一区二区三区四区| 日韩中文字幕av在线| 波多野结依一区| 91精品国产免费久久综合| 五月婷婷综合在线观看| 欧美日韩一区二区三区四区在线观看| 日韩av手机在线观看| 亚洲精品喷潮一区二区三区| 国产精品免费免费| 久热免费在线观看| 丝袜美腿综合| 欧美国产精品va在线观看| 又污又黄的网站| 久久精品男人的天堂| 97超碰人人澡| 在线一区二区三区视频| 久久国内精品一国内精品| 天干夜夜爽爽日日日日| 99久久777色| 国产二区视频在线| 欧美黄色一级| 欧美成人免费小视频| 亚洲中文字幕在线一区| 国产日韩欧美综合在线| 国产中文字幕在线免费观看| 亚洲精品在线a| 欧美成人午夜激情| 99精品在线视频观看| 成人免费在线播放视频| 亚洲综合在线网站| 深爱激情综合网| 国产精品成人va在线观看| 美国成人毛片| 欧美在线免费观看视频| 伊人网在线视频观看| 久久裸体视频| 欧洲一区二区日韩在线视频观看免费 | 一区二区三区四区精品视频| 永久免费毛片在线播放不卡| 午夜一级黄色片| 国产日产精品1区| 99免费视频观看| 精品国产精品| 国产欧美亚洲精品| 在线激情免费视频| 在线成人免费视频| 欧美成人一二三区| 成人av在线资源网| 国产精品免费观看久久| 国内成人自拍| 国产精选久久久久久| 九色porny在线| 欧美videossexotv100| 亚洲精品在线观看av| 99国产精品久久久久久久久久久| 日本日本19xxxⅹhd乱影响| 夜夜躁狠狠躁日日躁2021日韩| 日韩美女视频免费看| 国产露出视频在线观看| 在线播放/欧美激情| 久久久久亚洲av无码专区| 99在线精品观看| 北条麻妃av高潮尖叫在线观看| 欧美大黑bbbbbbbbb在线| 亚洲tv在线观看| 2021天堂中文幕一二区在线观| 亚洲精品资源在线| 中文人妻熟女乱又乱精品| 亚洲女同一区二区| 影音先锋资源av| 日本不卡一区二区| 手机在线视频你懂的| 国产精品网站在线看| 国产成人自拍视频在线观看| 欧美成人hd| 亚洲成人av中文字幕| 无码人妻精品一区二区三区蜜桃91| 国产女人18毛片水真多成人如厕| 色哟哟免费视频| 午夜亚洲伦理| 久久免费视频2| 思热99re视热频这里只精品| 成人做爽爽免费视频| 欧美亚洲日本精品| 久久偷看各类女兵18女厕嘘嘘| 日本高清视频网站| 欧美日韩色一区| 日韩欧美亚洲视频| 亚洲欧美另类小说| 亚洲色成人网站www永久四虎| 国产剧情一区二区| 夫妻免费无码v看片| 亚洲综合专区| 日产精品一线二线三线芒果| 成人香蕉社区| 国产成人极品视频| 超碰资源在线| 久青草国产97香蕉在线视频| 九色在线观看| 337p日本欧洲亚洲大胆精品| 国产又爽又黄免费软件| 一本大道久久a久久综合| 青青草原免费观看| 国产精品成人一区二区艾草 | 久久这里只有精品一区二区| 成人午夜两性视频| av有声小说一区二区三区| 欧美极度另类性三渗透| 黄色在线视频网站| 在线看日韩欧美| 女人偷人在线视频| 亚洲成人av中文字幕| 亚洲第一视频在线播放| 9191成人精品久久| 中国黄色一级视频| 在线观看日韩毛片| 99久久精品国产亚洲| 亚洲国产一区视频| 欧美精品一区二区蜜桃| 亚洲欧美成aⅴ人在线观看| 中国美女黄色一级片| 国产欧美一区视频| 91成人破解版| 久久久久久久久97黄色工厂| 一二三不卡视频| jiyouzz国产精品久久| 97精品人妻一区二区三区蜜桃| 国产一区二区在线电影| 一级片免费在线观看视频| 久久成人精品无人区| 欧美成人乱码一二三四区免费| 日本视频一区二区三区| 少妇性l交大片| 欧美aaaaa成人免费观看视频| 日韩毛片在线免费看| 久久久噜噜噜| 三级在线视频观看| 免费成人在线视频观看| 99re6在线观看| 国产很黄免费观看久久| 亚洲欧美激情一区二区三区| 国产高清在线观看免费不卡| 少妇欧美激情一区二区三区| 福利91精品一区二区三区| 久久无码专区国产精品s| 成人av网址在线| 欧美深性狂猛ⅹxxx深喉| 91视频国产资源| 亚洲欧洲久久久| 国产精品女同互慰在线看| 日本精品在线免费观看| 久久99精品久久久| 国产日韩欧美久久| 国产一区二区精品在线观看| 又大又长粗又爽又黄少妇视频| 不卡av在线免费观看| 在线免费看黄视频| 国产精品乱码一区二区三区软件| 疯狂试爱三2浴室激情视频| 亚洲制服丝袜av| av网站中文字幕| 欧美日韩免费视频| 亚洲精品一级片| 亚洲欧美激情四射在线日| 91网页在线观看| 欧美福利视频在线| 91av亚洲| 91色p视频在线| 亲子伦视频一区二区三区| 五月天丁香综合久久国产| 亚洲第一偷拍| 91免费视频网站在线观看| 日本vs亚洲vs韩国一区三区二区 | 五月婷婷视频在线| 欧美嫩在线观看| 天堂网av在线播放| 原创国产精品91| jizz一区二区三区| 国产精品青草久久久久福利99| 中文在线免费一区三区| 欧美一区二区三区精美影视| 中文字幕一区二区三区久久网站| 男人揉女人奶房视频60分| 精品一区二区三区在线视频| 捆绑凌虐一区二区三区| 亚洲欧美在线视频观看| 青青国产在线观看| 日韩一区二区中文字幕| 欧美日韩激情视频一区二区三区| 久久国产精品影片| 色豆豆成人网| 国模精品一区二区三区| 国产精品国产一区| 欧美亚洲国产免费| 欧美一区二区| 最新中文字幕免费视频| 99久久国产综合色|国产精品| 婷婷国产成人精品视频| 欧美午夜片在线免费观看| 99久久精品国产成人一区二区| 亚洲精品自在久久| 成人超碰在线| 97av自拍| 中文字幕午夜精品一区二区三区| 九九九在线观看视频| 99国内精品久久| 久久久久97国产| 欧美日本乱大交xxxxx| 免费在线高清av| 26uuu久久噜噜噜噜| 久久av网站| 色中文字幕在线观看| 麻豆一区二区三区| 色哟哟精品观看| 精品美女国产在线| 日韩永久免费视频| 欧美日韩第一视频| 欧美.com| 男女h黄动漫啪啪无遮挡软件| 美女久久久精品| 亚洲精品成人无码| 日韩欧美精品在线观看| 五月天婷婷在线播放| 欧美大片免费观看| 久久久久久爱| 日本老太婆做爰视频| 国产精品自在在线| 永久免费看黄网站| 欧美一级一区二区| 综合久久2o19| 97超碰人人模人人爽人人看| 欧美高清日韩| 图片区偷拍区小说区| 一区二区高清在线| 99在线精品视频免费观看20| 久久精品国产亚洲7777| 999色成人| 亚洲国产一二三精品无码| 国产精品99久久久久久久vr | 免费啪视频在线观看| 一区二区三区精品视频在线| www香蕉视频| 国产69精品久久久| 丝袜久久网站| 乌克兰美女av| 国产精品不卡在线| www天堂在线| 欧美在线一级va免费观看| 国产免费av一区二区三区| 日本久久久久久久久久久久| 国产精品久久久久一区二区三区| 一区二区日韩视频| 欧美多人爱爱视频网站| 欧美91在线| 五月婷婷深爱五月| 亚洲欧美日韩在线播放| 动漫av一区二区三区| 欧美在线免费视频| 日韩av在线中文字幕| 国产精品91av| 日本韩国精品一区二区在线观看| 成人p站proumb入口| 91久久大香伊蕉在人线| 制服诱惑一区二区| 少妇太紧太爽又黄又硬又爽小说| 欧美人妖巨大在线| a级片在线免费观看| 日韩三级电影网站| 高清视频一区二区| 夜夜躁日日躁狠狠久久av| 久久综合五月天| 亚洲伊人春色| 中文字幕12页| 激情成人在线视频| 黄在线免费看| 欧美日韩国产不卡在线看| 久久99精品国产麻豆婷婷| 久久综合色综合| 中文字幕日韩有码| 欧美aaaaa级| 奇米777在线| 色综合天天综合网天天看片 | 浅井舞香一区二区| 亚洲成人一区| 一区二区三区在线观看免费视频| 日韩欧美中文一区二区|