精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型幻覺問題無解?理論證明校準的LM必然會出現幻覺

人工智能 新聞
現在,一項新研究得出結論:「經過校準的語言模型必然會出現幻覺。」研究論文是微軟研究院高級研究員 Adam Tauman Kalai 和佐治亞理工學院教授 Santosh S. Vempala 近日發表的《Calibrated Language Models Must Hallucinate》。

大型語言模型(LLM)雖然在諸多下游任務上展現出卓越的能力,但其實際應用還存在一些問題。其中,LLM 的「幻覺(hallucination)」問題是一個重要缺陷。

幻覺是指由人工智能算法生成看似合理但卻虛假或有誤導性的響應。自 LLM 爆火以來,研究人員一直在努力分析和緩解幻覺問題,該問題讓 LLM 很難廣泛應用。

現在,一項新研究得出結論:「經過校準的語言模型必然會出現幻覺。」研究論文是微軟研究院高級研究員 Adam Tauman Kalai 和佐治亞理工學院教授 Santosh S. Vempala 近日發表的《Calibrated Language Models Must Hallucinate》。該論文表明預訓練語言模型對特定類型的事實產生幻覺存在一個固有的統計學原因,而與 Transformer 架構或數據質量無關。

論文地址:https://arxiv.org/abs/2311.14648

一個語言模型其實就是在 token 序列(如詞或其它字符序列)上的一個概率分布 D。每個分布 D 都可以等效地表示成其在整個序列上的對數概率或后續 token 基于之前 token 的條件對數概率圖片這種數學等價性意味著任何語言模型都要么可用于生成文本,要么就能基于之前的 token 根據自然出現的文本來預測下一個 token。

舉個例子,假設有以下句子:

Alexa Wilkins had a tuna sandwich at Salumeria for lunch last Tuesday because the reviews said that it was divine.

對于這樣的句子,我們可以使用預測式語言模型等技術來提供建議,從而減少輸入時點擊手機的次數。我們可能希望詞 tuna 之后有 sandwich 這個選項,另外還有其它可能的詞,比如 salad 和 roll。另一方面,如果使用一個生成式語言模型來隨機生成,那么這類句子大部分都會是錯誤的。

這篇論文表明,具有優良預測文本性能的語言模型必定會產生幻覺,即便在理想條件下也是如此。要注意的是,對于當今常見的生成式語言模型,預測文本性能的優化工作位于「預訓練」的第一個階段。此外,它還能給出幻覺率的下限;幻覺率可反映不同類型的事實產生幻覺的速率。

以上參考和示例和共同之處是它們是任意的,也就是說 5W(= Who-Ate-What-When-Where-Why 仿真事實)中的每一項都無法通過規則來系統性地確定 —— 對于大多數不存在于訓練數據中的此類事實,人們無法確定其真實性。這與可系統性地確定真實性的事實不同。即使在具有幾個理想屬性的簡化環境中,我們也能量化語言模型出現幻覺的可能性。

因為這篇論文要給出統計下限,因此更傾向于簡單而非普遍性,因為這里的下限的目標是確定語言模型幻覺的根本原因。類似于分類任務(尋找的是在無噪聲環境中分類難度的下限),這里需要找到在最簡單的設置中也成立的幻覺下限,而最簡單的設置是指訓練數據是獨立同分布且沒有事實性錯誤。

對生成模型進行校準

對一個概率式預測器來說,校準(Calibration)是很自然的需求,因為這意味著其概率可被解釋成對其自身預測結果的準確置信度。

Philip Dawid 在 1982 年引入了校準這一概念,他當時還給出了一個很多人都很熟悉的例子:當天氣預報說未來幾天降雨概率為 30% 時,其實是指大約 30% 的時間會下雨。

已經有不少研究者探究過語言模型的校準指標。圖 1 給出了 GPT-4 在一個多選題測驗上的多類別校準示例。

圖片

為了減少幻覺問題,人們常在訓練后進行對齊操作,但研究發現對齊也會降低校準度。校準是有意義的(因為校準后的預測器的概率可以解釋為準確置信度),而且在統計學上也是可實現的。相較之下,完美準確的預測器也可以校準,但可能無法學習。

然而,校準只是預測器的最低要求,因為并非所有校準過的模型都是有用的預測器:始終輸出年平均降雨概率的預測器很簡單就能校準。

研究者在這篇文章中為生成模型的校準提供了一種自然的泛化。他們的校準概念不同于之前的在 token 層面的語言模型校準。分析原始 token 概率的問題是用自然語言描述任何事實的方式都有很多,因此校準過的 token 概率并不是很有意義。

這里舉個例子說明一下。假設有一個三元組語言模型,其僅基于前兩個 token 來預測下一 token 的概率。三元組模型可以很自然地在 token 層面完成校準,而幻覺并非三元組模型的一個主要問題。這是因為他們基本上都是生成毫無意義的亂語。相對而言,語義層面的校準考慮的則是基于文本中所含信息(事實或幻覺)的概率分布。

這里如何認定一個語言模型是否已經校準呢?對于任意概率 z ∈ [0, 1],在語言模型以大約 z 的概率生成的信息中,這樣的信息平均出現在自然表達的語言(理想情況下是訓練數據所在的分布)中的大約 z 份額中。

語言模型出現幻覺的原因

幻覺讓語言模型用戶和研究者都深感困惑。研究者調查了許多關于語言模型幻覺原因的假設,從不準確或過時的訓練數據到訓練中的下一 token 對數似然目標。

幻覺的原因還有對抗性或分布外的 prompt:為語言模型提供的使其補全已有上下文的文本前綴。而在這項新研究中,研究者發現即使是使用完美的訓練數據,并且不使用 prompt,經過校準的語言模型也會出現幻覺。

簡化設置

在研究者的簡化設置中,有一個基于文檔(即文本字符串)x ∈ X 的靜態語言分布 D_L ∈ ?(X) 和一個學習算法 A。

學習算法 A 可以根據從 D_L 獨立采樣的 n 個文檔組成的訓練數據 x_train ∈ X^n,輸出一個語言模型,即一個分布 D_LM = A (x_train) ∈ ?(X)。

為了簡單,研究者在這里假設訓練數據中僅有事實,并且每個文檔最多一個事實,也就是沒有訓練幻覺。這里的事實是任意事實,也就是其真實性通常無法通過訓練集本身確定;而不是系統性事實(可通過學習定義正確性的基本規則而基于訓練集預測得出),比如 572 < 120523。沒有統計學上的理由表明語言模型會在系統性事實上產生幻覺。

此外,在系統性事實上的錯誤可能根本不會被視為幻覺 —— 它們通常被歸類為推理或算術錯誤。

這里假設每個文檔 x ∈ X 至多包含一個仿真陳述(factoid) f (x) ∈ Y ,其中仿真陳述是指要么為真(事實)要么為假(幻覺)的任意信息,并且其真實性很難根據訓練數據從統計上確定。

研究者還采用了另一種簡化方法:考慮無條件的生成,即采樣語言模型生成文本時不使用任何 prompt(相當于無字符串前綴)。

當然,相較于簡化設置,更現實的情況更可能出現幻覺現象,即 prompt 中包含來自不同于訓練數據的分布的上下文。

結果

假設在包含大量任意仿真事實的一個未知分布上采樣了 n 個獨立同分布樣本,比如 5W 樣本和索引。缺失質量(missing mass)(在這里即為缺失的事實 p (U))是來自該事實分布 p 的未來樣本中未在 n 個訓練樣本中觀察到的部分,其中 U 是在訓練數據中未觀察到的事實的子集。

缺失質量的 Good-Turing 估計是指在訓練數據中僅出現一次的樣本(在這里即為事實)的比例。研究者將其稱之為 MonoFacts estimator,即單事實估計器:

圖片

研究表明,對于任意分布 p,這個 Good-Turing 估計器有很高的概率位于缺失質量的圖片范圍內。

如果訓練中不包含的任意仿真事實的正確性無法被確定,則缺失事實率可以提供一個幻覺率的下限。這反過來就能提供一個接近圖片的下限。特別是,在仿真事實分布的「正則性」假設下,最簡單的界限(論文中的推論 1)意味著:對于任何算法,在訓練集上有 ≥ 99% 的概率會有:

圖片

其中幻覺率(Hallucination rate)是指語言模型產生幻覺的速率,下一項是缺失事實的「單事實」估計器。再后一項是「誤校準率」,它量化了分布與校準的接近程度。下一項則涉及任意事實與錯誤的類似信息的數量之比,對許多類型的信息來說,該比值非常小。最后一項很小,因為當今語言模型的訓練集規模 n 都很大。

「正則性(regularity)」假設的意思是:平均而言,所有未觀察過的仿真事實為真的概率相等。

更一般而言,該界限成立的概率 ≥ 1 ? δ,其中常數 60 可以用與 δ 成反比且與仿真事實分布上的正則項成正比的項替換。這個正則項衡量的是最可能的仿真事實(在訓練數據中未觀察到)與平均未觀察到的仿真事實概率的比。對于對稱分布和其它類型的簡單分布,該常數為 1。

為了考慮有界的正則性,研究者放寬了它,這樣就能允許存在一定的負相關性(比如一個人不能同一天在 1000 個不同地方吃 1000 頓午餐),并允許某些仿真事實的條件概率為 0,但它不允許未觀察過的仿真事實具有非常大的概率。

相關的證明過程請參看原論文。

解釋

對于上面的下限,研究者給出了如下解釋。

第一,應當確定大量仿真事實:任意的、合理的、正則的仿真事實。它們可能是有關 5W 的文章和合理的科研文章引用。直觀上講,不正確的仿真事實(幻覺)比事實多得多。然后再考慮這些仿真事實中有多大比例可能在訓練數據中剛好出現一次。對于 5W 的情況,可以想象有一半的文章剛好出現一次。這表明,經過校準的仿真事實模型在 5W 仿真事實上的生成結果中大約有一半會有幻覺問題。

另一方面,可以想象文章的數量遠遠少于 n,因為出版的目標是廣告宣傳,每一個引用都可能在訓練數據中多次出現(即概率遠大于 1/n),可能只有非常近期的除外(比如在其它引用出現之前)。這表明文章的缺失質量很低,并且在引用標題上產生幻覺方面沒有內在的統計必然性。

還有其它一些原因可能會導致出現這種幻覺,比如模型能力有限(即便語言模型的參數數量遠大于文章數量,這些參數也必然會編碼文章標題之外的許多其它類型的信息)。這也證明:為了緩解幻覺問題,一種合理做法是在生成時咨詢事實數據庫,即便該事實數據庫完全基于訓練數據。

盡管事實性和預測準確度之間存在這種緊張關系,但這兩種類型的語言模型的訓練或「預訓練」目標通常都是最大化在語料庫上的可能性,也就相當于最小化「KL 散度」,這是語言模型和其訓練所用的數據分布之間的一個強大的統計差異指標。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-11-13 08:00:00

大推理模型AI人工智能

2024-06-17 14:07:41

2024-01-04 16:41:29

大型語言模型自然語言處理

2025-09-08 08:56:00

OpenAI論文模型

2025-10-03 08:34:14

2025-06-27 08:40:00

模型推理AI

2023-11-18 09:30:42

模型AI

2025-05-08 06:00:00

AI幻覺AI人工智能

2024-09-19 08:11:28

2024-05-27 10:52:06

2023-08-28 00:46:05

計算機模型

2025-09-08 09:43:02

OpenAI大模型幻覺

2025-09-10 04:00:00

2025-07-11 09:50:52

2023-09-14 12:35:59

2023-08-27 14:02:28

GPU大模型

2024-01-09 14:05:15

大型語言模型RAG向量數據庫

2023-12-10 15:15:18

開源模型工具

2025-05-28 01:50:00

點贊
收藏

51CTO技術棧公眾號

日本女人性生活视频| 日韩精品一区二区三区不卡 | 亚洲一区二区三区日韩| 成人久久网站| 亚洲国产日日夜夜| 日产中文字幕在线精品一区| 国产视频aaa| 久久久国产精品一区二区中文| 色天天综合狠狠色| 熟妇高潮一区二区| 欧美爱爱视频| 精品国产成人在线| 国产一区一区三区| 免费成人av电影| 国产精品一二一区| 国产精品久久久久久久app| 日韩成人毛片视频| 亚洲自拍电影| 精品欧美一区二区在线观看| 亚洲一级片网站| 久草免费在线视频| 一区二区在线观看视频| 日韩久久不卡| 丰满熟女一区二区三区| 麻豆专区一区二区三区四区五区| 欧美极品少妇xxxxx| 狂野欧美性猛交| 伊人久久大香线蕉综合网站| 精品日韩欧美在线| www.cao超碰| abab456成人免费网址| 午夜精品爽啪视频| 欧洲精品在线播放| 免费a在线看| 国产精品系列在线| 欧美人与物videos另类| 少妇一级淫片免费看| 国产精品一区二区在线观看不卡| 国产精品香蕉国产| 日韩一级在线视频| 国产精品久久久久毛片大屁完整版| 欧美精品在线免费观看| 在线日韩国产网站| 青青草综合网| 在线丨暗呦小u女国产精品| 国产精品三级在线观看无码| 日韩深夜影院| 日韩av在线天堂网| 尤物网站在线观看| 国产精品自在| 亚洲国产精品大全| 美女久久久久久久久| 51亚洲精品| 欧美精品一区二区三| 中文字幕99页| а√中文在线天堂精品| 亚洲成色999久久网站| 蜜臀av粉嫩av懂色av| 福利欧美精品在线| 亚洲激情自拍图| 性久久久久久久久久| 牛牛影视一区二区三区免费看| 精品福利一区二区三区| av无码一区二区三区| 私拍精品福利视频在线一区| 亚洲男人的天堂在线| 草草影院第一页| 欧美天天综合| 久久伊人精品天天| 久久久久久久久久久久久久免费看| 国产一区亚洲| 国产91成人video| chinese国产精品| 久久电影网电视剧免费观看| 91色琪琪电影亚洲精品久久| 亚洲精品一区二区三区不卡| 91在线精品一区二区| 热re99久久精品国99热蜜月| 欧美激情午夜| 亚洲国产aⅴ成人精品无吗| 看av免费毛片手机播放| 日韩制服一区| 精品欧美乱码久久久久久1区2区| 在线观看日韩精品视频| 欧美日韩久久精品| 久久天天躁狠狠躁老女人| 久久久久黄色片| 99成人精品| 国产中文字幕91| 欧美一级性视频| 欧美经典三级视频一区二区三区| 福利在线小视频| 竹内纱里奈兽皇系列在线观看| 欧美三级一区二区| 黑森林av导航| 日韩欧美在线中字| 久久免费成人精品视频| 波多野结衣小视频| 成人一区二区三区在线观看 | 欧美色综合一区二区三区| 国产精品久久毛片av大全日韩| 国产a级黄色大片| 偷拍中文亚洲欧美动漫| 日韩免费高清av| 中文字幕免费在线看线人动作大片| 亚洲最新色图| 国产精品99导航| 亚洲大尺度视频| 亚洲国产精品成人久久综合一区| 无码熟妇人妻av在线电影| 精品欧美一区二区三区在线观看 | 欧美精品一卡二卡| 日b视频在线观看| 亚洲精品久久| 国产精品高潮粉嫩av| 免费看av毛片| 亚洲欧美在线另类| 国产高潮免费视频| 任你弄精品视频免费观看| 欧美www在线| 中文字幕a级片| ww亚洲ww在线观看国产| www.在线观看av| 精品三级久久久| 色阁综合伊人av| 成人黄色三级视频| 26uuu欧美| 欧美精品久久久久久久自慰| 国产精品成人**免费视频| 国产亚洲激情视频在线| www.国产com| av在线免费不卡| 久草视频这里只有精品| 日韩高清二区| 欧美乱人伦中文字幕在线| 国产一区二区三区黄片| 久久只精品国产| 黄色网页免费在线观看| 成人动态视频| 欧美国产日韩精品| 亚洲国产精彩视频| 亚洲精品视频在线观看网站| 99精品视频免费版的特色功能| 水蜜桃精品av一区二区| 国产精品看片资源| 色哟哟免费在线观看| 欧美亚州韩日在线看免费版国语版| 精品人妻互换一区二区三区| 午夜宅男久久久| 欧美精品尤物在线| 极品美女一区| 国产一区二区三区高清在线观看| 亚洲精品男人的天堂| 久久综合久久99| 黄色av免费在线播放| 精品日韩在线| 国产日韩欧美中文| 黄色片网站在线观看| 日韩一区二区在线看| www青青草原| 成人小视频在线| 久久黄色片视频| 在线亚洲a色| 国产精品久久久久影院日本| 日本视频不卡| 日韩欧美成人一区| 国产第100页| 久久亚洲春色中文字幕久久久| 国产成人手机视频| 91精品国产乱码久久久久久久| 亚洲r级在线观看| а√在线天堂官网| 亚洲人成在线观| 国产欧美熟妇另类久久久| 亚洲一区二区三区视频在线播放| 日韩 中文字幕| 美女精品自拍一二三四| 熟女熟妇伦久久影院毛片一区二区| 日韩精品一区二区三区中文字幕| 97福利一区二区| 国产三级在线观看| 欧美一级黄色大片| www.伊人久久| 亚洲欧美日韩在线| 亚洲国产精品无码久久久久高潮| 日本美女一区二区三区| 2022中文字幕| 国产日韩欧美一区二区三区| 91亚洲精品在线| 成人免费影院| 欧美成人激情在线| 免费在线黄色网址| 91精品国产欧美一区二区| 亚洲精品视频在线观看免费视频| 国产精品无码永久免费888| 国产成人精品一区二区三区在线观看 | 伊人再见免费在线观看高清版| 亚洲涩涩av| 91精品黄色| 精品视频一区二区三区四区五区| 欧美日韩成人免费| 在线观看黄av| 精品视频一区在线视频| 92久久精品一区二区| 精品久久久香蕉免费精品视频| 亚洲熟女毛茸茸| 久久久久国产精品人| 性折磨bdsm欧美激情另类| 日本系列欧美系列| 欧美爱爱视频免费看| 亚洲不卡av不卡一区二区| 欧美一区二区在线视频观看| 1313精品午夜理伦电影| 91精品视频专区| 播放一区二区| 欧美专区日韩视频| 国精一区二区三区| 精品国偷自产在线| 国产高清视频在线| 亚洲精品久久久久| 亚洲精品无码久久久| 91麻豆精品国产91久久久久久 | 亚洲国产女人aaa毛片在线| 一级二级三级视频| 91国偷自产一区二区三区成为亚洲经典 | 日本欧美在线视频| heyzo高清中文字幕在线| 久久天天躁狠狠躁夜夜躁2014| 国产黄在线观看| 国产视频亚洲精品| 婷婷五月综合激情| 精品国产人成亚洲区| hs视频在线观看| 51精品久久久久久久蜜臀| 一级片在线免费播放| 日韩欧美在线免费观看| 成年人免费高清视频| 亚洲3atv精品一区二区三区| 免费毛片一区二区三区| 亚洲小说欧美激情另类| 免费在线一级片| 亚洲综合视频在线| 激情视频在线播放| 亚洲综合在线五月| 久久av高潮av无码av喷吹| 亚洲精品日韩综合观看成人91| wwwav国产| 一区二区在线观看免费视频播放| 九九久久免费视频| 夜夜精品视频一区二区| 久草视频免费在线播放| 亚洲一区二区三区激情| 国产乡下妇女做爰| 亚洲成av人影院| 成人午夜淫片100集| 91极品视觉盛宴| 一级片aaaa| 日韩一级成人av| 丰满熟妇人妻中文字幕| 精品无码久久久久久国产| 你懂的在线视频| 正在播放亚洲1区| 超碰在线观看免费版| 欧美劲爆第一页| 在线免费日韩片| 国产精品美女免费看| 国产在线一区不卡| 成人午夜电影在线播放| 亚洲激情播播| 一本色道久久综合亚洲二区三区 | 国产黄a三级三级看三级| 亚洲成人av在线| 精品无人乱码| xvideos亚洲人网站| 久操av在线| 日产精品久久久一区二区福利| 国内精品伊人| 国产另类第一区| 国产九一精品| 女女百合国产免费网站| 国产色综合网| 亚洲精品性视频| 成人黄色大片在线观看 | 久久久久蜜桃| 亚洲 高清 成人 动漫| 美女任你摸久久| 无码成人精品区在线观看| 国产亚洲欧美日韩在线一区| 亚洲欧美小视频| 欧美视频在线观看免费| 国产精品-色哟哟| 亚洲国产又黄又爽女人高潮的| 1区2区3区在线观看| 欧美激情精品在线| 成人看片网站| 国产一级二级三级精品| 成人在线免费观看网站| 国产高清av在线播放| 久久99精品国产.久久久久| av在线播放网址| 亚洲免费大片在线观看| 天天干天天色综合| 日韩精品一区二| 日本中文字幕视频在线| 欧美在线视频网站| 视频二区欧美毛片免费观看| 日韩免费av电影| 亚洲一区观看| xxxx国产视频| 中文字幕中文字幕一区| 一本一道无码中文字幕精品热| 日韩一区二区三免费高清| 国产香蕉在线| 8050国产精品久久久久久| 日韩一区二区三区精品视频第3页| 视频一区二区在线观看| 国产精品久久久久毛片大屁完整版| 极品人妻一区二区| 亚洲欧美综合网| 11024精品一区二区三区日韩| 亚洲精品视频在线播放| 国产理论电影在线| 亚洲v日韩v综合v精品v| 久久中文视频| 久久撸在线视频| 日本一区二区视频在线观看| 天天操天天摸天天干| 亚洲第一福利网| gratisvideos另类灌满| 99久久伊人精品影院| 久久久久午夜电影| 久久久精品高清| 国产精品国产三级国产a| 一区二区视频网| 在线日韩欧美视频| 666av成人影院在线观看| 久久久一本精品99久久精品| 99精品国产在热久久下载| av不卡中文字幕| 亚洲国产日日夜夜| 成人小说亚洲一区二区三区| 欧美日韩国产va另类| 日本一区二区三区播放| 国产在线xxxx| www.欧美色图| 国产精品视频免费播放| 亚洲人成在线观| www.26天天久久天堂| 亚洲欧洲另类精品久久综合| 麻豆成人久久精品二区三区小说| 国产一区第一页| 777奇米四色成人影色区| h片在线免费| av一区二区三区四区电影| 亚洲视频碰碰| 亚洲狠狠婷婷综合久久久久图片| 欧美日韩在线影院| 丁香在线视频| 成人乱色短篇合集| 综合久久综合| av无码一区二区三区| 欧美中文字幕一区| 男人在线资源站| 91观看网站| 国产精品视区| 懂色av粉嫩av浪潮av| 欧美一区二区久久| ****av在线网毛片| 欧洲亚洲一区二区三区四区五区| 美美哒免费高清在线观看视频一区二区 | www.四虎精品| 欧美性xxxx极品hd欧美风情| 99reav在线| 5g国产欧美日韩视频| 宅男噜噜噜66国产日韩在线观看| 亚洲日本精品视频| 在线综合视频播放| 国产在线天堂www网在线观看| 日韩动漫在线观看| 国产精品一区二区在线观看网站 | 日韩福利视频网| 久久久精品91| 一本色道久久综合亚洲精品小说| 电影中文字幕一区二区| 欧美深夜福利视频| 中文字幕免费在线观看视频一区| www.黄色片| 日本乱人伦a精品| 欧美日一区二区在线观看 | 91涩漫在线观看| 成人免费看片网址| 日本三级亚洲精品| 豆国产97在线 | 亚洲| 一本色道久久88综合亚洲精品ⅰ| 亚洲精品不卡在线观看| 国产精彩免费视频| 亚洲成人动漫精品| 午夜伦理在线| 久久亚洲免费| 国产成人av电影|