精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

360視角：大模型幻覺(jué)問(wèn)題及其解決方案的深度探索與實(shí)踐

作者：孫林 2024-09-19 08:11:28

大模型幻覺(jué)問(wèn)題在大模型應(yīng)用過(guò)程中，非常阻礙實(shí)際業(yè)務(wù)落地。解決該問(wèn)題是一項(xiàng)復(fù)雜的系統(tǒng)工程任務(wù)，需多角度綜合探索。業(yè)界正通過(guò)持續(xù)的研究與實(shí)踐，尋找更有效的檢測(cè)與緩解策略，以提升大模型的可靠性、安全性與實(shí)用性。

一、什么是大模型幻覺(jué)問(wèn)題

1. 什么是大模型幻覺(jué)

首先介紹一下什么是大模型的幻覺(jué)。

在某些情況下，我們?cè)谑褂么竽Ｐ蜕山Y(jié)果時(shí)，會(huì)有一個(gè)直觀的感受，就是“一本正經(jīng)的胡說(shuō)八道”。

一本正經(jīng)：生成結(jié)果流暢、困惑度 PPL 低、有邏輯性。
胡說(shuō)八道：存在兩種定義①內(nèi)容與人類(lèi)認(rèn)知不一致；②內(nèi)容不可證偽。

這里給出一些大模型生成結(jié)果的例子，大家可以思考這些問(wèn)題是否屬于大模型的幻覺(jué)問(wèn)題，以及我們是否真的要解決這些問(wèn)題。

從學(xué)術(shù)界的共識(shí)來(lái)看，大模型的幻覺(jué)可以分成兩大類(lèi)：

事實(shí)性的幻覺(jué)：包括事實(shí)不一致和捏造事實(shí)兩類(lèi)。
忠實(shí)性的幻覺(jué)：包括不遵循指令和不遵循上下文兩類(lèi)。

如何在業(yè)務(wù)工作中，對(duì)大模型幻覺(jué)進(jìn)行具體分類(lèi)，可以參考流程圖。

首先關(guān)注用戶(hù)指令和上下文，如果沒(méi)有遵循指令，則是不遵循指令的忠實(shí)性幻覺(jué)，如果沒(méi)有遵循上下文，則是不遵循上下文的忠實(shí)性幻覺(jué)。
其次，關(guān)注回復(fù)內(nèi)容，如果回復(fù)內(nèi)容正確，則正常，如果回復(fù)錯(cuò)誤，則需要進(jìn)一步看錯(cuò)誤類(lèi)型。
最后，回復(fù)錯(cuò)誤類(lèi)型包括知識(shí)類(lèi)的捏造事實(shí)，計(jì)算、代碼類(lèi)的事實(shí)不一致，以及推理過(guò)程中的邏輯不一致等。

2. 大模型幻覺(jué)問(wèn)題產(chǎn)生的原因

上節(jié)介紹了大模型幻覺(jué)的定義和分類(lèi)，接下來(lái)介紹大模型幻覺(jué)問(wèn)題產(chǎn)生的原因，共有三大類(lèi)。

數(shù)據(jù)
算法和訓(xùn)練
推理

（1）數(shù)據(jù)導(dǎo)致的幻覺(jué)問(wèn)題

以知識(shí)邊界為例，如果大模型未學(xué)習(xí)到該領(lǐng)域的知識(shí)，或者雖然學(xué)習(xí)到了，但是知識(shí)過(guò)時(shí)，或者是知識(shí)生產(chǎn)時(shí)間晚于模型數(shù)據(jù)生產(chǎn)時(shí)間等情況，均會(huì)導(dǎo)致大模型由于數(shù)據(jù)問(wèn)題出現(xiàn)幻覺(jué)。

（2）數(shù)據(jù)采樣過(guò)程導(dǎo)致的模型幻覺(jué)

一種情況是數(shù)據(jù)采樣的知識(shí)捷徑。最近的研究表明，LLMs 往往依賴(lài)于捷徑，而不是真正理解事實(shí)知識(shí)的細(xì)節(jié)。它們傾向于過(guò)度依賴(lài)預(yù)訓(xùn)練數(shù)據(jù)中的共現(xiàn)統(tǒng)計(jì)、共現(xiàn)頻率和相關(guān)文檔計(jì)數(shù)，這可能會(huì)引入對(duì)虛假相關(guān)性的偏見(jiàn)，如果這種偏見(jiàn)反映了事實(shí)上不正確的信息，可能會(huì)導(dǎo)致幻覺(jué)。長(zhǎng)尾知識(shí)以其在預(yù)訓(xùn)練數(shù)據(jù)中的相對(duì)罕見(jiàn)性為特征，對(duì) LLMs 構(gòu)成了固有的挑戰(zhàn)，它們主要依賴(lài)于共現(xiàn)模式來(lái)記憶事實(shí)知識(shí)。因此，當(dāng)面臨涉及這種長(zhǎng)尾知識(shí)的查詢(xún)時(shí)，LLMs 在生成事實(shí)上不準(zhǔn)確的回答方面存在較高的風(fēng)險(xiǎn)。

（3）預(yù)訓(xùn)練過(guò)程導(dǎo)致的模型幻覺(jué)

一方面，可能受限于 Decoder-Only 架構(gòu)，以及注意力機(jī)制的缺陷。大模型基于前一個(gè)標(biāo)記預(yù)測(cè)下一個(gè)標(biāo)記，僅從左到右。這種單向建模雖然促進(jìn)了高效的訓(xùn)練，但也存在局限性。它僅利用單一方向的上下文，這阻礙了捕捉復(fù)雜的上下文依賴(lài)關(guān)系，可能增加幻覺(jué)的風(fēng)險(xiǎn)。self attention 模塊在捕獲長(zhǎng)距離依賴(lài)關(guān)系方面表現(xiàn)出色。然而最近的研究表明，它們偶爾在算法推理的背景下表現(xiàn)出不可預(yù)測(cè)的推理錯(cuò)誤，無(wú)論是長(zhǎng)距離還是短距離依賴(lài)關(guān)系，無(wú)論模型規(guī)模大小。一個(gè)可能的原因是 soft attention 的局限性，隨著序列長(zhǎng)度的增加，注意力在各個(gè)位置之間變得稀釋。

另一方面是曝光偏差的問(wèn)題。這是由于自回歸生成模型的訓(xùn)練和推理之間的差異造成的。在訓(xùn)練過(guò)程中，這些模型通常采用最大似然估計(jì)（MLE）的訓(xùn)練策略，其中真實(shí)標(biāo)記作為輸入提供。然而，在推理過(guò)程中，模型依賴(lài)于自己生成的標(biāo)記進(jìn)行后續(xù)預(yù)測(cè)。這種不一致性可能導(dǎo)致幻覺(jué)，尤其是當(dāng)模型生成的錯(cuò)誤標(biāo)記在后續(xù)序列中引發(fā)錯(cuò)誤級(jí)聯(lián)時(shí)。

此外，微調(diào)對(duì)齊也會(huì)導(dǎo)致幻覺(jué)問(wèn)題，大模型在預(yù)訓(xùn)練期間建立了固有的能力邊界，當(dāng)在微調(diào)數(shù)據(jù)中包含了預(yù)訓(xùn)練階段未見(jiàn)過(guò)的新知識(shí)時(shí)，大模型被訓(xùn)練為生成超出自身知識(shí)邊界的內(nèi)容，增加了幻覺(jué)的風(fēng)險(xiǎn)。在模型對(duì)齊階段，大模型也可能會(huì)產(chǎn)生諂媚的行為，其回應(yīng)更傾向于用戶(hù)的觀點(diǎn)，而不是提供正確或真實(shí)的答案，這也會(huì)增加大模型幻覺(jué)現(xiàn)象。

推理階段同樣可能導(dǎo)致幻覺(jué)問(wèn)題。一方面，temperature、top k、top b 等技術(shù)來(lái)引入隨機(jī)性，可能導(dǎo)致幻覺(jué)。另一方面，長(zhǎng)文本時(shí)，更多關(guān)注局部 attention，缺少全局信息關(guān)注，導(dǎo)致忘記指令或指令不遵循等情況，從而產(chǎn)生幻覺(jué)。此外，由于模型最后，經(jīng)過(guò)一系列注意力機(jī)制和計(jì)算后，最后 output 層會(huì)做一次 Softmax 生成最終的預(yù)測(cè)概率，然而，基于 Softmax 的語(yǔ)言模型的有效性受到 Softmax Bottleneck 這一已知限制的阻礙，其中 Softmax 與 embedding 的結(jié)合限制了輸出概率分布的表達(dá)能力，阻止了語(yǔ)言模型輸出期望的分布，從而導(dǎo)致了幻覺(jué)問(wèn)題。

3. 如何檢測(cè)大模型幻覺(jué)

上文介紹了大模型幻覺(jué)問(wèn)題的產(chǎn)生原因，接下來(lái)介紹大模型幻覺(jué)問(wèn)題的檢測(cè)。

（1）按照知識(shí)的確定性劃分類(lèi)別

首先，判斷用戶(hù)問(wèn)題是否可以回答，即問(wèn)題是否客觀、真實(shí)、確定性。例如主觀問(wèn)題、哲學(xué)類(lèi)問(wèn)題、科學(xué)想象問(wèn)題、尚未形成科學(xué)共識(shí)的問(wèn)題等，如果希望模型給出確定性答案，大概率是存在問(wèn)題的。當(dāng)然，對(duì)這種問(wèn)題，有一個(gè)討巧的辦法，讓生成結(jié)果更符合人類(lèi)偏好，對(duì)于主觀問(wèn)題，給出多種可能答案。

其次，當(dāng)排除掉非確定性答案的問(wèn)題后，對(duì)于有確定答案的問(wèn)題，從大模型對(duì)知識(shí)掌握的認(rèn)知層面看，又可以分成如下幾類(lèi)：

大模型知道自己知道知識(shí)
大模型不知道自己知道知識(shí)
大模型不知道自己不知道知識(shí)
大模型知道自己不知道知識(shí)

針對(duì)于前兩類(lèi)，并不影響回答正確性。

針對(duì)于后兩類(lèi)，大模型本身的回答存在幻覺(jué)，是我們重點(diǎn)關(guān)注的問(wèn)題。

（2）針對(duì)不可回答類(lèi)問(wèn)題的檢測(cè)思路

此處列舉了 2 個(gè)工作。TruthfulQA 評(píng)測(cè)集，使用人類(lèi)經(jīng)?；卮疱e(cuò)誤的問(wèn)題來(lái)構(gòu)建測(cè)試集 benchmark，以評(píng)估大模型的幻覺(jué)能力或者程度。

另一個(gè)工作是收集不可回答的問(wèn)題，通過(guò)語(yǔ)義相似度方法，構(gòu)建語(yǔ)義類(lèi)似的但是可以回答的問(wèn)題。利用二元分類(lèi)器，判斷模型的幻覺(jué)程度。

（3）如何檢測(cè)“大模型知道自己不知道”

是否可以讓大模型知道自己在“胡說(shuō)八道”呢？可以利用語(yǔ)義熵的思路。有兩種方法。

第一種方法，通過(guò)讓模型多次回答同一個(gè)問(wèn)題，觀察模型回復(fù)的一致性。通過(guò)對(duì)模型多次回答的結(jié)果進(jìn)行語(yǔ)義聚類(lèi)，如果聚類(lèi)結(jié)果比較分散，可能表明模型的回答存在幻覺(jué)。注意，即使模型多次給出了相同的回答，也不能直接判斷其為正確答案，因?yàn)槟Ｐ陀锌赡芊€(wěn)定的回復(fù)錯(cuò)誤答案，這需要與已知事實(shí)或?qū)I(yè)知識(shí)進(jìn)行對(duì)比驗(yàn)證。

第二種方法，讓模型對(duì)同一個(gè)問(wèn)題生成多個(gè)回答，檢查這些回答之間是否相互支持，即一個(gè)回答是否可以作為另一個(gè)回答的證據(jù)或補(bǔ)充。如果在這些回答中發(fā)現(xiàn)相互矛盾或沖突的信息，這可能是模型產(chǎn)生幻覺(jué)的跡象。如果所有回答都相互一致且沒(méi)有沖突，這可能表明模型的回答是可靠的。同樣注意，即使回答一致，需要將模型的回答與已知的事實(shí)、數(shù)據(jù)或其他可靠的信息源進(jìn)行對(duì)比，以驗(yàn)證其真實(shí)性。

（4）如何檢測(cè)“大模型不知道自己不知道”

對(duì)于這種情況，可以引入外部工具來(lái)檢測(cè)幻覺(jué)，比如搜索引擎、代碼解釋器等。

針對(duì)大模型輸出的結(jié)果，抽取事實(shí)或者觀點(diǎn) claims，用事實(shí)或觀點(diǎn)再用大模型去生成問(wèn)題，用生成的問(wèn)題去搜索引擎、代碼解釋器等工具收集證據(jù)，將收集的證據(jù)與大模型輸出對(duì)比，判斷是否有沖突。如果存在沖突，則可能存在幻覺(jué)。

此外，還有一個(gè)技巧，參考人類(lèi)撒謊的情況，撒謊時(shí)候?qū)τ诩?xì)節(jié)問(wèn)題是很容易出現(xiàn)錯(cuò)誤或者沖突，一個(gè)謊言往往需要更多的謊言來(lái)掩蓋。我們?cè)谏蓡?wèn)題的過(guò)程中，可以利用不斷追問(wèn)的方式來(lái)生成，有利于判斷大模型是否存在幻覺(jué)。

二、360 可信大模型的幻覺(jué)解決方案

1. 在數(shù)據(jù)、算法、推理階段，緩解大模型幻覺(jué)問(wèn)題

綜上來(lái)看，大模型幻覺(jué)產(chǎn)生的各類(lèi)問(wèn)題都有相應(yīng)的緩解方案，在實(shí)際工作過(guò)程中，根據(jù)不同問(wèn)題可以利用不同解決辦法，包括預(yù)訓(xùn)練、微調(diào)、對(duì)齊、解碼策略、RAG、知識(shí)編輯等技術(shù)。

2. 使用 RAG 緩解大模型幻覺(jué)

（1）RAG 工作流程

利用預(yù)訓(xùn)練階段優(yōu)化方法去解決幻覺(jué)問(wèn)題成本較高，可以考慮利用 RAG 和知識(shí)庫(kù)的方法來(lái)緩解大模型幻覺(jué)。

首先，對(duì)于用戶(hù)輸入進(jìn)行預(yù)處理工作。

然后，進(jìn)入語(yǔ)義路由判斷問(wèn)題類(lèi)別，對(duì)于創(chuàng)意性任務(wù)例如寫(xiě)小說(shuō)，則無(wú)需考慮幻覺(jué)問(wèn)題，因此這類(lèi)任務(wù)偏好多樣性和創(chuàng)意性。

對(duì)于事實(shí)性、政治性、嚴(yán)肅性問(wèn)題，需要通過(guò)特定的知識(shí)庫(kù)，進(jìn)行知識(shí)增強(qiáng)，進(jìn)一步生成答案。生成的答案依然可能存在幻覺(jué)問(wèn)題，需要分類(lèi)器判斷是否存在幻覺(jué)，如果有再進(jìn)一步緩解。

最后，為了判斷回答是否與任務(wù)相關(guān)，如果大模型回答沒(méi)有解決用戶(hù)問(wèn)題，則需要新一輪的迭代處理策略。

（2）RAG 技術(shù)架構(gòu)

這是一個(gè)比較詳細(xì)的 RAG 技術(shù)架構(gòu)圖，主要包括 query 分析、建索引、搜索排序、上下文選擇、推理等階段。

Query 預(yù)處理，包括query 擴(kuò)展、query transformation、query routing 語(yǔ)義路由等模塊。

對(duì)于檢索模塊，需要根據(jù)不同的數(shù)據(jù)類(lèi)型使用不同的檢索技術(shù)。比如結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)，公開(kāi)數(shù)據(jù)、私域數(shù)據(jù)等。對(duì)于非結(jié)構(gòu)數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)，可以通過(guò)文檔解析、切片、embedding 向量化后，通過(guò)向量檢索引擎進(jìn)行索引。對(duì)于結(jié)構(gòu)化數(shù)據(jù)，可以使用關(guān)系型數(shù)據(jù)庫(kù)、圖數(shù)據(jù)庫(kù)等進(jìn)行建模；

最后，對(duì)于不同的索引數(shù)據(jù)類(lèi)型，使用不同的 query 查詢(xún)技術(shù)進(jìn)行混合建設(shè)，比如關(guān)鍵詞搜索、基于 embedding 的語(yǔ)義相似度檢索、text 轉(zhuǎn) SQL 后的結(jié)構(gòu)化查詢(xún)、text 轉(zhuǎn) graphSQL 的 N 元組查詢(xún)等，對(duì)于查詢(xún)結(jié)果進(jìn)行重排序，將重排序后的結(jié)果給到大模型作為上下文信息，由大模型進(jìn)行推理。

3. query 預(yù)處理

（1）sub-query

對(duì)于某些問(wèn)題，本身需要多步推理，可以先針對(duì)這些問(wèn)題，通過(guò)大模型，基于少量示例（fewshot）學(xué)習(xí)或者特定任務(wù)微調(diào)（SFT），生成一系列子查詢(xún)，從而引導(dǎo)大模型一步一步針對(duì)性回復(fù)，在我們實(shí)際的工作中能夠得到比較好的收益。

（2）Text2SQL

Text2SQL 在智能 BI 場(chǎng)景里也在落地。目前，對(duì)于簡(jiǎn)單的 SQL 效果還可以，但是聯(lián)表等復(fù)雜查詢(xún)效果還有進(jìn)一步提升空間。在實(shí)際業(yè)務(wù)中，可以通過(guò)減少聯(lián)表查詢(xún)的策略來(lái)提升相應(yīng)的效果，比如創(chuàng)建一個(gè)大寬表（wide table）。

text2sql 技術(shù)包括3 個(gè)階段，預(yù)處理、sql 語(yǔ)句生成、后處理。通過(guò) schema linking 技術(shù)，結(jié)合 Few-shot 學(xué)習(xí)方法或者 SFT 技術(shù)，讓模型快速學(xué)習(xí)如何根據(jù)特定的 schema 生成 SQL 語(yǔ)句。生成的 SQL 語(yǔ)句，可能存在錯(cuò)誤，因此需要通過(guò)后處理階段來(lái)進(jìn)一步修正。一方面可以通過(guò)調(diào)用多個(gè)大型語(yǔ)言模型來(lái)生成 SQL 語(yǔ)句，通過(guò)多模型投票的策略提高查詢(xún)的準(zhǔn)確性和可靠性，也可以通過(guò)對(duì)單個(gè)模型多次生成具有不同溫度參數(shù)（temperature）的查詢(xún)結(jié)果，增加結(jié)果的多樣性，然后通過(guò)一致性投票技術(shù)來(lái)選擇最終的輸出結(jié)果。

4. 文件解析

用戶(hù)可能上傳 PDF 文檔、word 文檔、FAQ 數(shù)據(jù)等結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)。對(duì)于 PDF，不僅是文字，還涉及表格、公式、圖表等，都需要解析，這里涉及版面識(shí)別的工作。

識(shí)別區(qū)域后需要進(jìn)一步處理。對(duì)于表格，需要使用圖像處理 OCR 的方法，對(duì)表頭、列、元素等進(jìn)行定位和提取。

同時(shí)，我們需要對(duì)文檔中的公式進(jìn)行識(shí)別和解析，并建立索引，以幫助提升搜索結(jié)果的準(zhǔn)確性。

5. 數(shù)據(jù)增強(qiáng)

對(duì)于解析后得到的文本數(shù)據(jù)，可以通過(guò)數(shù)據(jù)增強(qiáng)技術(shù)來(lái)幫助進(jìn)一步提升搜索效果。Self-QA 這項(xiàng)工作針對(duì)于文檔讓大模型生成多個(gè)問(wèn)題，然后將問(wèn)題和原始文檔給到大模型，讓大模型生成答案，從而構(gòu)造了<question, answer>的 pair 對(duì)，形成了 FAQ 庫(kù)。后續(xù)在檢索時(shí)，不只是對(duì)原始的 document 做索引，還可以對(duì) FAQ 做索引。此外，還可以進(jìn)一步對(duì) FAQ 庫(kù)進(jìn)行數(shù)據(jù)增強(qiáng)，比如對(duì) question 通過(guò)大模型構(gòu)造相似問(wèn)，或者對(duì) answer 進(jìn)行 summarize 后，讓大模型生成 question 等。這種方式還有一個(gè)好處，后續(xù)可以將 badcase 的維護(hù)工作交由產(chǎn)品運(yùn)營(yíng)同學(xué)來(lái)完成。

對(duì)于圖片數(shù)據(jù)，可以使用 LLaVA 等模型通過(guò)圖像描述（image captioning）技術(shù)，將圖片轉(zhuǎn)成文本描述進(jìn)行索引召回。在索引的時(shí)候，需要在索引的 meta 字段記錄圖像和文本描述的鏈接關(guān)系，大模型輸出時(shí)，可以通過(guò)證據(jù)溯源技術(shù)，把原始圖像引用出來(lái)。

我們?cè)趯?shí)際業(yè)務(wù)中，經(jīng)常會(huì)遇到一些 bad case，比如對(duì)文檔進(jìn)行總結(jié)摘要，這種場(chǎng)景使用傳統(tǒng)的 RAG 技術(shù)無(wú)法得到很好的滿足。我們使用了微軟團(tuán)隊(duì)的 GraphRAG 工作，對(duì)文檔進(jìn)行增強(qiáng)建模。具體來(lái)說(shuō)，對(duì)于 document 先切成 trunk，即 Text unit。對(duì)于每個(gè) textUnit，進(jìn)行 SPO 三元組抽取、claims 抽取、摘要生成等工作。然后構(gòu)建知識(shí)圖譜，并進(jìn)行層次聚類(lèi)，構(gòu)建成子圖、社區(qū)等層級(jí)，并向量化。在查詢(xún)的時(shí)候，既可以使用全局搜索技術(shù)利用社區(qū)層級(jí)摘要來(lái)推理有關(guān)語(yǔ)料庫(kù)的整體問(wèn)題，也可以使用局部搜索技術(shù)通過(guò)擴(kuò)展到其鄰居和相關(guān)概念來(lái)推理特定實(shí)體的情況。

6. context selection

研究發(fā)現(xiàn)，如果給到大模型的文檔或知識(shí)庫(kù)本身就是不相關(guān)的，效果反而更差。因此，我們可以在檢索后或者重排后將結(jié)果進(jìn)行過(guò)濾。例如，通過(guò)小模型把不相關(guān)的結(jié)果過(guò)濾掉。如果是復(fù)雜的查詢(xún)，可以將搜索結(jié)果組織成選擇題形式，使用大模型做選擇題的能力，過(guò)濾掉不相關(guān)的查詢(xún)片段。

此外，也可以利用 small2big、調(diào)大長(zhǎng)文本窗口甚至讓大模型直接處理整篇文檔等技術(shù)來(lái)提升效果。

7. 在推理時(shí)解決幻覺(jué)

（1）解碼策略

大模型在推理過(guò)程中，前期生成的內(nèi)容幻覺(jué)率不高，但在推理后期，由于解碼的時(shí)候依賴(lài)于前面生成的 token，這個(gè)時(shí)候幻覺(jué)問(wèn)題就會(huì)出現(xiàn)了，可以通過(guò)動(dòng)態(tài)調(diào)整解碼參數(shù)的方法來(lái)緩解。此外也有一些工程化的方案，比如基于 semantic routing 的技術(shù)，對(duì)于不同任務(wù)，設(shè)置不同的解碼參數(shù)，也能達(dá)到不錯(cuò)的效果。

（2）Contrastive Decoding

對(duì)比解碼技術(shù)，是通過(guò)比較不同模型（通常是一個(gè)小模型和一個(gè)大模型）的輸出來(lái)提高解碼過(guò)程的準(zhǔn)確性的。在對(duì)比解碼中，分析大模型和小模型在下一個(gè) token 預(yù)測(cè)上的分布差異（DIFF），以此來(lái)評(píng)估輸出的可靠性。在解碼過(guò)程中，通過(guò)識(shí)別和剪除可能導(dǎo)致幻覺(jué)的路徑來(lái)減少不真實(shí)的輸出。需要對(duì)差異閾值進(jìn)行細(xì)致的調(diào)整，以平衡減少幻覺(jué)和避免錯(cuò)誤剪除有效輸出之間的權(quán)衡。

這個(gè)工作，需要注意線上成本，即是否接受小模型在線上運(yùn)行。

（3）Recitation-augmented generation

回憶增強(qiáng)技術(shù)是一個(gè)比較有意思的工作，類(lèi)似于人類(lèi)在回答問(wèn)題時(shí)會(huì)先回憶自己已經(jīng)學(xué)習(xí)到的知識(shí)，然后再進(jìn)行回答。可以通過(guò)模擬人類(lèi)回答問(wèn)題的策略，通過(guò)提示工程技術(shù)，讓大模型在回答之前先回憶內(nèi)部知識(shí)，將知識(shí)顯性化放到上下文中，然后再根據(jù)上下文信息進(jìn)行回答，以提高其回答問(wèn)題的準(zhǔn)確性。

（4）Gen-Critic-Edit

自我批判或者知識(shí)編輯，是利用外部數(shù)據(jù)庫(kù)、外部工具、大模型自我判斷等方法，讓大模型對(duì)生成結(jié)果進(jìn)行反思和自我批評(píng)，然后再修正回答的一種技術(shù)。在修正階段，可以使用對(duì)答案進(jìn)行多次生成與一致性投票、訓(xùn)練一個(gè)額外的模型來(lái)對(duì)生成的回答進(jìn)行打分以評(píng)估其質(zhì)量、使用 RAG 技術(shù)從知識(shí)庫(kù)中抽取相關(guān)證據(jù)并利用抽取的證據(jù)來(lái)指導(dǎo)模型進(jìn)行進(jìn)一步的生成等多種策略，來(lái)提高回答的準(zhǔn)確性和可靠性。這里列舉幾個(gè)比較典型的工作。

①RARR

RARR 這個(gè)工作通過(guò)讓大模型對(duì)原始 query 進(jìn)行改寫(xiě)從而生成多個(gè) query，然后對(duì)每個(gè) query 調(diào)用搜索引擎，將搜索結(jié)果作為參考信息，用于與模型生成的回答進(jìn)行比較。如果搜索結(jié)果與原始回答存在沖突，模型將根據(jù)這些信息進(jìn)行進(jìn)一步的生成和修正。如果搜索結(jié)果與原始回答一致，模型可能認(rèn)為沒(méi)有幻覺(jué)存在。

②FAVA

FAVA 工作需要訓(xùn)練一個(gè)改寫(xiě)模型，具體來(lái)說(shuō)，通過(guò)數(shù)據(jù)增強(qiáng)的方式，比如插入噪聲文本，修改文本等技術(shù)對(duì)原始文本進(jìn)行破壞，將得到的錯(cuò)誤文本和原始正確文本給到大模型進(jìn)行訓(xùn)練，讓大模型學(xué)會(huì)糾正能力。這種技術(shù)具備一定的成本，適合解決事實(shí)性問(wèn)題，例如政治敏感場(chǎng)景，效果較好。

③some critics

在自我反思和自我批判模塊，還有 CRITIC、self-refine 等一些優(yōu)秀的工作，這里就不做過(guò)多介紹了，大家感興趣可以自行查閱相關(guān)材料。

8. 模型增強(qiáng)技術(shù)

接下來(lái)是一些成本比較高的方法，包括預(yù)訓(xùn)練和微調(diào)對(duì)齊技術(shù)。

（1）預(yù)訓(xùn)練

當(dāng)大型語(yǔ)言模型缺乏特定知識(shí)時(shí)，首要方法就是將這些知識(shí)通過(guò)預(yù)訓(xùn)練的方式訓(xùn)到大模型中?？梢詮耐獠繑?shù)據(jù)源，如 Common Crawl 等數(shù)據(jù)集中提取相關(guān)知識(shí)，并將其納入模型訓(xùn)練中。對(duì)于時(shí)效性較強(qiáng)的知識(shí)，可以通過(guò)時(shí)效性搜索引擎或數(shù)據(jù)抓取工具，實(shí)時(shí)或定期地更新模型的知識(shí)庫(kù)，在模型的持續(xù)預(yù)訓(xùn)練階段，不斷引入新知識(shí)以保持模型知識(shí)的時(shí)效性和覆蓋面。訓(xùn)練過(guò)程中需要仔細(xì)調(diào)整數(shù)據(jù)回放比例、學(xué)習(xí)率、數(shù)據(jù)配比等。

（2）微調(diào)和對(duì)齊

在微調(diào)階段，如果微調(diào)數(shù)據(jù)集中包含了預(yù)訓(xùn)練模型中不存在的知識(shí)，大模型可能會(huì)生成不準(zhǔn)確或虛假的回答，可以在預(yù)訓(xùn)練的退火階段對(duì)微調(diào)數(shù)據(jù)集進(jìn)行 next token prediction 的建模，然后通過(guò) SFT 和 DPO 技術(shù)進(jìn)行進(jìn)一步微調(diào)對(duì)齊。

注意，直接使用人工標(biāo)注的數(shù)據(jù)和搜索引擎結(jié)果作為正負(fù)例進(jìn)行對(duì)齊訓(xùn)練可能存在問(wèn)題。正例和負(fù)例的生成應(yīng)盡量來(lái)自原有模型的輸出，而不是外部來(lái)源，以保持?jǐn)?shù)據(jù)的一致性和可靠性。建議訓(xùn)練一個(gè)打分模型來(lái)評(píng)估數(shù)據(jù)質(zhì)量，幫助識(shí)別哪些數(shù)據(jù)是高質(zhì)量的正例，哪些可能是低質(zhì)量的負(fù)例。

三、360 可信大模型應(yīng)用案例

1. 360 大模型安全解決方案

我們將上述 360 可信大模型解決方案應(yīng)用在了大模型的內(nèi)容安全檢測(cè)業(yè)務(wù)和防護(hù)上，在中國(guó)信通院 AI Safety Benchmark 的 Q1 和 Q2 兩個(gè)季度的安全性評(píng)估上，360 智腦的安全性蟬聯(lián)第一名。

2. 360AI 搜索

同時(shí)，我們將上述解決方案應(yīng)用在了 360AI 搜索產(chǎn)品中，可以看到 360AI 搜索產(chǎn)品可以很好解決這些 GPT4 解決不了的幻覺(jué)性問(wèn)題。

3. 360AI 瀏覽器

360AI 瀏覽器的智閱產(chǎn)品，用戶(hù)可以上傳文檔，根據(jù)文檔做問(wèn)答、做翻譯、生成腦圖，讀者有興趣可以去體驗(yàn)一下這套方案在真實(shí)的業(yè)務(wù)場(chǎng)景里面到底做得怎么樣。

四、360 可信大模型的未來(lái)探索

我們的探索不是完成時(shí)，而是進(jìn)行時(shí)。在真實(shí)生成環(huán)境中，隨著業(yè)務(wù)、方案落地，我們遇到更多挑戰(zhàn)。隨著評(píng)測(cè)，我們發(fā)現(xiàn) benchmark 跟真實(shí)場(chǎng)景的數(shù)據(jù)分布和幻覺(jué)一致性不完全相同。所以，我們需要自己在業(yè)務(wù)場(chǎng)景中構(gòu)建自己的 benchmark，并且不斷迭代，去進(jìn)一步發(fā)現(xiàn)問(wèn)題。

五、問(wèn)答環(huán)節(jié)

Q1：RAG 工作流程中，二元分類(lèi)器是怎么訓(xùn)練的？

A1：首先建立幻覺(jué)體系，根據(jù)不同幻覺(jué)類(lèi)型，標(biāo)注不同類(lèi)別。數(shù)據(jù)主要來(lái)自于線上日志。通過(guò)使用各種自動(dòng)化輔助標(biāo)注工具進(jìn)行離線數(shù)據(jù)挖掘和數(shù)據(jù)標(biāo)注，并進(jìn)行人工打標(biāo)，最終形成了我們的訓(xùn)練數(shù)據(jù)，然后再進(jìn)行分類(lèi)模型的訓(xùn)練。

Q2：混合檢索結(jié)果的重排序，有哪些方法？

A2：我們的方案涉及到了多種檢索策略，包括關(guān)鍵詞搜索、語(yǔ)義搜索、關(guān)系型數(shù)據(jù)庫(kù)搜索、圖搜索、工具調(diào)用等。對(duì)于每種檢索策略，首先會(huì)調(diào)用自己的重排序方法，比如對(duì)于語(yǔ)義搜索，可以使用 bge-rerank 相關(guān)的模型。最終多條召回流的結(jié)果，可以使用策略重排或者通過(guò)數(shù)據(jù)標(biāo)注訓(xùn)練一個(gè)重排模型，這里要結(jié)合自己的業(yè)務(wù)場(chǎng)景來(lái)進(jìn)行調(diào)優(yōu)。

責(zé)任編輯：姜華來(lái)源： DataFunTalk

大模型算法 LLMs

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

丁香花在线影院| 国产精品高潮呻吟久久久| 偷拍自拍亚洲色图| 欧美性一级生活| 美女av免费观看| 亚洲欧洲综合在线| 韩国精品一区二区| 午夜精品一区二区三区在线播放| 久操视频免费看| 中文幕av一区二区三区佐山爱| 亚洲国产综合在线| 天天好比中文综合网| 性生活三级视频| 日韩福利视频导航| 欧美激情一级精品国产| 蜜乳av中文字幕| 57pao国产一区二区| 欧美日韩在线视频一区二区| 97超碰人人爱| 国产永久免费高清在线观看 | 男女av免费观看| 里番在线观看网站| av网站免费线看精品| 国产在线拍偷自揄拍精品| 亚洲男人第一av| 911精品美国片911久久久| 亚洲男人第一网站| 性感美女一区二区三区| 日本国产亚洲| 在线视频观看一区| 欧美视频在线播放一区| 天堂成人av| 亚洲天堂av一区| 日韩精品一线二线三线| 天堂a中文在线| 国产不卡视频一区| 91在线观看免费高清| 中文字幕免费观看视频| 模特精品在线| 亚洲**2019国产| 免费无码毛片一区二区app| 久久国产成人精品| 国产一区二区免费| a级片在线观看| 丝袜av一区| 日韩av一区在线| 妖精视频一区二区| av成人app永久免费| 日韩一区国产二区欧美三区| 欧美又黄又嫩大片a级| 国语自产精品视频在线看抢先版结局 | 久久伊人亚洲| 欧美一级片在线播放| 国产无精乱码一区二区三区| 韩国久久久久| 久久久久久久久久婷婷| 国产一级在线视频| 亚洲欧洲一区二区天堂久久| 久久免费在线观看| 日本污视频在线观看| 亚洲欧洲另类| 97色在线视频观看| 亚洲黄色激情视频| 久久精品一区二区三区中文字幕| 欧美亚洲另类视频| 蜜臀99久久精品久久久久小说| 视频一区在线播放| 国产精品精品久久久久久| 成人在线免费观看av| 色屁屁www国产馆在线观看| 亚洲自拍偷拍图区| 免费看日本毛片| 欧美日韩电影免费看| 欧洲精品视频在线观看| 久久99999| 蜜桃在线一区| 亚洲精品成人久久电影| 国产精品无码午夜福利| 日韩成人a**站| 久久亚洲私人国产精品va| 天天看片中文字幕| 尤物在线精品| 国产91色在线|| 97人妻精品一区二区三区| 国产福利91精品一区二区三区| 国产精品.com| 极品美乳网红视频免费在线观看 | 欧美xxx久久| 在线精品一区二区三区| 波多野结衣在线观看一区二区三区| 色妞一区二区三区| 久操视频免费在线观看| 久久久噜噜噜久久狠狠50岁| 国产精品一久久香蕉国产线看观看| av在线资源观看| 97久久人人超碰| 亚洲综合网中心| 搞黄网站在线看| 在线观看日产精品| 亚洲欧美激情一区二区三区| 久久超碰99| 欧美成人免费在线视频| 亚洲综合图片网| 日韩欧美中字| 午夜精品久久久久久99热软件| 国产乱码77777777| 粉嫩aⅴ一区二区三区四区五区| 久久久精品国产一区二区三区| 在线中文资源天堂| 亚洲成人精品一区| 五月天av在线播放| 欧美变态网站| 欧美老女人xx| 中文字幕在线观看1| 成人精品一区二区三区四区| 日韩中文字幕av在线| 波多野结依一区| 91精品国产免费久久综合| 五月婷婷综合在线观看| 欧美日韩一区二区三区四区在线观看| 日韩av手机在线观看| 亚洲精品喷潮一区二区三区| 国产精品免费免费| 久热免费在线观看| 丝袜美腿综合| 欧美国产精品va在线观看| 又污又黄的网站| 久久精品男人的天堂| 97超碰人人澡| 在线一区二区三区视频| 久久国内精品一国内精品| 天干夜夜爽爽日日日日| 99久久777色| 国产二区视频在线| 欧美黄色一级| 欧美成人免费小视频| 亚洲中文字幕在线一区| 国产日韩欧美综合在线| 国产中文字幕在线免费观看| 亚洲精品在线a| 欧美成人午夜激情| 99精品在线视频观看| 成人免费在线播放视频| 亚洲综合在线网站| 深爱激情综合网| 国产精品成人va在线观看| 美国成人毛片| 欧美在线免费观看视频| 伊人网在线视频观看| 久久裸体视频| 欧洲一区二区日韩在线视频观看免费 | 一区二区三区四区精品视频| 永久免费毛片在线播放不卡| 午夜一级黄色片| 国产日产精品1区| 99免费视频观看| 精品国产精品| 国产欧美亚洲精品| 在线激情免费视频| 在线成人免费视频| 欧美成人一二三区| 成人av在线资源网| 国产精品免费观看久久| 国内成人自拍| 国产精选久久久久久| 九色porny在线| 欧美videossexotv100| 亚洲精品在线观看av| 99国产精品久久久久久久久久久| 日本日本19xxxⅹhd乱影响| 夜夜躁狠狠躁日日躁2021日韩| 日韩美女视频免费看| 国产露出视频在线观看| 在线播放/欧美激情| 久久久久亚洲av无码专区| 99在线精品观看| 北条麻妃av高潮尖叫在线观看| 欧美大黑bbbbbbbbb在线| 亚洲tv在线观看| 2021天堂中文幕一二区在线观| 亚洲精品资源在线| 中文人妻熟女乱又乱精品| 亚洲女同一区二区| 影音先锋资源av| 日本不卡一区二区| 手机在线视频你懂的| 国产精品网站在线看| 国产成人自拍视频在线观看| 欧美成人hd| 亚洲成人av中文字幕| 无码人妻精品一区二区三区蜜桃91| 国产女人18毛片水真多成人如厕| 色哟哟免费视频| 午夜亚洲伦理| 久久免费视频2| 思热99re视热频这里只精品| 成人做爽爽免费视频| 欧美亚洲日本精品| 久久偷看各类女兵18女厕嘘嘘| 日本高清视频网站| 欧美日韩色一区| 日韩欧美亚洲视频| 亚洲欧美另类小说| 亚洲色成人网站www永久四虎| 国产剧情一区二区| 夫妻免费无码v看片| 亚洲综合专区| 日产精品一线二线三线芒果| 成人香蕉社区| 国产成人极品视频| 超碰资源在线| 久青草国产97香蕉在线视频| 九色在线观看| 337p日本欧洲亚洲大胆精品| 国产又爽又黄免费软件| 一本大道久久a久久综合| 青青草原免费观看| 国产精品成人一区二区艾草 | 久久这里只有精品一区二区| 成人午夜两性视频| av有声小说一区二区三区| 欧美极度另类性三渗透| 黄色在线视频网站| 在线看日韩欧美| 女人偷人在线视频| 亚洲成人av中文字幕| 亚洲第一视频在线播放| 9191成人精品久久| 中国黄色一级视频| 在线观看日韩毛片| 99久久精品国产亚洲| 亚洲国产一区视频| 欧美精品一区二区蜜桃| 亚洲欧美成aⅴ人在线观看| 中国美女黄色一级片| 国产欧美一区视频| 91成人破解版| 久久久久久久久97黄色工厂| 一二三不卡视频| jiyouzz国产精品久久| 97精品人妻一区二区三区蜜桃| 国产一区二区在线电影| 一级片免费在线观看视频| 久久成人精品无人区| 欧美成人乱码一二三四区免费| 日本视频一区二区三区| 少妇性l交大片| 欧美aaaaa成人免费观看视频| 日韩毛片在线免费看| 久久久噜噜噜| 三级在线视频观看| 免费成人在线视频观看| 99re6在线观看| 国产很黄免费观看久久| 亚洲欧美激情一区二区三区| 国产高清在线观看免费不卡| 少妇欧美激情一区二区三区| 福利91精品一区二区三区| 久久无码专区国产精品s| 成人av网址在线| 欧美深性狂猛ⅹxxx深喉| 91视频国产资源| 亚洲欧洲久久久| 国产精品女同互慰在线看| 日本精品在线免费观看| 久久99精品久久久| 国产日韩欧美久久| 国产一区二区精品在线观看| 又大又长粗又爽又黄少妇视频| 不卡av在线免费观看| 在线免费看黄视频| 国产精品乱码一区二区三区软件| 疯狂试爱三2浴室激情视频| 亚洲制服丝袜av| av网站中文字幕| 欧美日韩免费视频| 亚洲精品一级片| 亚洲欧美激情四射在线日| 91网页在线观看| 欧美福利视频在线| 91av亚洲| 91色p视频在线| 亲子伦视频一区二区三区| 五月天丁香综合久久国产| 亚洲第一偷拍| 91免费视频网站在线观看| 日本vs亚洲vs韩国一区三区二区 | 五月婷婷视频在线| 欧美嫩在线观看| 天堂网av在线播放| 原创国产精品91| jizz一区二区三区| 国产精品青草久久久久福利99| 中文在线免费一区三区| 欧美一区二区三区精美影视| 中文字幕一区二区三区久久网站| 男人揉女人奶房视频60分| 精品一区二区三区在线视频| 捆绑凌虐一区二区三区| 亚洲欧美在线视频观看| 青青国产在线观看| 日韩一区二区中文字幕| 欧美日韩激情视频一区二区三区| 久久国产精品影片| 色豆豆成人网| 国模精品一区二区三区| 国产精品国产一区| 欧美亚洲国产免费| 欧美一区二区| 最新中文字幕免费视频| 99久久国产综合色|国产精品| 婷婷国产成人精品视频| 欧美午夜片在线免费观看| 99久久精品国产成人一区二区| 亚洲精品自在久久| 成人超碰在线| 97av自拍| 中文字幕午夜精品一区二区三区| 九九九在线观看视频| 99国内精品久久| 久久久久97国产| 欧美日本乱大交xxxxx| 免费在线高清av| 26uuu久久噜噜噜噜| 久久av网站| 色中文字幕在线观看| 麻豆一区二区三区| 色哟哟精品观看| 精品美女国产在线| 日韩永久免费视频| 欧美日韩第一视频| 欧美.com| 男女h黄动漫啪啪无遮挡软件| 美女久久久精品| 亚洲精品成人无码| 日韩欧美精品在线观看| 五月天婷婷在线播放| 欧美大片免费观看| 久久久久久爱| 日本老太婆做爰视频| 国产精品自在在线| 永久免费看黄网站| 欧美一级一区二区| 综合久久2o19| 97超碰人人模人人爽人人看| 欧美高清日韩| 图片区偷拍区小说区| 一区二区高清在线| 99在线精品视频免费观看20| 久久精品国产亚洲7777| 999色成人| 亚洲国产一二三精品无码| 国产精品99久久久久久久vr | 免费啪视频在线观看| 一区二区三区精品视频在线| www香蕉视频| 国产69精品久久久| 丝袜久久网站| 乌克兰美女av| 国产精品不卡在线| www天堂在线| 欧美在线一级va免费观看| 国产免费av一区二区三区| 日本久久久久久久久久久久| 国产精品久久久久一区二区三区| 一区二区日韩视频| 欧美多人爱爱视频网站| 欧美91在线| 五月婷婷深爱五月| 亚洲欧美日韩在线播放| 动漫av一区二区三区| 欧美在线免费视频| 日韩av在线中文字幕| 国产精品91av| 日本韩国精品一区二区在线观看| 成人p站proumb入口| 91久久大香伊蕉在人线| 制服诱惑一区二区| 少妇太紧太爽又黄又硬又爽小说| 欧美人妖巨大在线| a级片在线免费观看| 日韩三级电影网站| 高清视频一区二区| 夜夜躁日日躁狠狠久久av| 久久综合五月天| 亚洲伊人春色| 中文字幕12页| 激情成人在线视频| 黄在线免费看| 欧美日韩国产不卡在线看| 久久99精品国产麻豆婷婷| 久久综合色综合| 中文字幕日韩有码| 欧美aaaaa级| 奇米777在线| 色综合天天综合网天天看片 | 浅井舞香一区二区| 亚洲成人一区| 一区二区三区在线观看免费视频| 日韩欧美中文一区二区|