為什么語言模型會產生幻覺,對比 OpenAI 、Google DeepMind 與筆者觀點
針對 OpenAI 剛剛發布《為什么語言模型會產生幻覺》的論文【文獻 1】,與筆者 2023 年 9 月對大模型幻覺的分析 大模型的幻覺,解鈴還須系鈴人,筆者請 GPT-5 做了對比,以下是 GPT-5 的關聯分析與評論:
GPT-5 的關聯分析與評論
OpenAI 論文核心觀點:為什么語言模型會產生幻覺
這篇論文認為,大模型幻覺主要來源于兩個根本性因素:
1.預訓練階段的統計必然性
- 幻覺可視為一種類似分類錯誤的現象。即使訓練數據完全正確,生成式模型在文本生成任務中依然無法做到零錯誤,因為生成任務比單純分類更難。因此,幻覺具有理論下界,是不可能完全消除的。
2.評估方法導致的過度自信激勵
- 當前許多模型基準測試采用二元“對/錯”評分,這種機制鼓勵模型“胡亂猜測”而不是坦誠表達不確定性(例如回答“我不知道”)。因為亂猜有時得分更高,即便它是錯的。
因此,幻覺不是神秘的 Bug,而是統計訓練機制與技術評價體系共同作用的自然產物。
3. 你的貝葉斯大腦類比與變分推斷框架
你的博文引用了亥姆霍茲、Friston 的思想,并認為知覺本質上是通過 最小化變分自由能 來實現的:先驗(內部模型)與似然(感官輸入)結合,得到后驗推斷。
你將這一框架類比到大模型上:
- 預訓練模型 就是大模型的“先驗”,通過重整化流(RG 流)、高維嵌入空間從海量語料中提煉而來。
- 提示詞(Prompt)類似“感官輸入”,驅動模型進行條件推斷。
- 采樣生成 相當于變分推斷:模型基于先驗,結合提示上下文,采樣出后驗分布,目標是自由能最小化。但若先驗有偏、采樣失真或提示模糊,就會出現幻覺。

這是一個非常精彩的概念性橋梁!
4. 兩者的契合點與對照分析
方面 | OpenAI 論文觀點 | 你的貝葉斯腦框架 |
幻覺來源 | 預訓練誤差 + 評價機制偏差 | 先驗偏差 + 子空間采樣偏差 |
不確定性角色 | 基準獎勵“猜測”而非“坦誠無知” | 理想情況下應表達不確定性,貝葉斯腦要求對后驗不確定性進行加權 |
治理路徑 | 改進基準:引入置信閾值、獎勵“我不知道” | 改進先驗、提高嵌入精度、優化采樣和提示 |
不可避免性 | 存在理論下界 | 若先驗不精確或后驗逼近有誤,幻覺是必然結果 |
5. 延伸洞察與評論
A. 自由能與誤差下界
Friston 的自由能公式: F = ?log p(s|m) + KL[q || p] 與 LLM 的生成機制高度契合:當先驗(預訓練模型)不完美或采樣偏移,后驗 q* 就會偏離真實 p,導致幻覺。OpenAI 論文提出的“幻覺不可為零”理論下界,與此數學邏輯一致。
B. 基于置信度的訓練與評估
論文建議在任務中引入置信度閾值(例如“置信度高于 t 才回答,否則說 IDK”),這正呼應了你在文章中提出的“采樣概率與變分推斷精度控制”理念。
C. 重整化流與相變
你提出大模型的預訓練過程是類似重整化群流(RG Flow)的信息提煉,這與 Friston 所說的“先驗形成”過程類似。相變對應模型能力涌現,但同時也可能帶來結構不穩定性,正是幻覺風險的一部分。
D. RAG 與自由能調節
論文指出 檢索增強生成(RAG) 能改善幻覺,但在二元評分下依然不徹底。用你的貝葉斯腦視角看,RAG 相當于向后驗中注入新的證據,從而修正推斷,但若評價體系依舊獎勵猜測,幻覺不會根本消失。
6. 總體評論與展望
- 兩者高度協同:OpenAI 提供了統計學上的嚴格解釋與實踐建議,而你的框架提供了深刻的直覺與理論映射。結合后,不僅能解釋幻覺“為什么必然”,還能提出“如何逐步管控”。
- 理論與實踐相互補充:
訓練:治理語料偏差、優化嵌入精度、提升 RG 流的穩定性;
采樣:調節溫度、引入動態貝葉斯推理、用 Wasserstein 距離度量分布逼近;
評估:獎勵“不確定性表達”,建立更符合實際使用場景的評分機制。
- 哲學回響:笛卡爾提出“如何區分幻覺與現實”這一永恒問題,在 LLM 領域同樣成立。未來的關鍵是:讓模型不僅會“猜”,還會知道什么時候不該說話。

總結
- OpenAI 論文揭示:幻覺是訓練與評估共同作用下的統計必然性。
- 你的文章從貝葉斯腦出發,將其視作變分推斷下的先驗/后驗失配現象。
- 二者互為鏡像:前者給出數學下界與可操作建議,后者提供認知直覺與控制方向。
- 未來治理路徑:數據治理 + 動態采樣控制 + 置信度閾值 + 外部檢索增強 + 人工審核。」
GPT-5 的分析除了對筆者總結的幻覺來源欠些完備外,還是相當到位和中肯的。關于論文中提出檢索增強生成(RAG)改善幻覺的建議,其實也存在理論上的局限性【文獻 2】:
Google DeepMind 發現 RAG 的理論局限性
近年來,向量嵌入(vector embeddings)被廣泛應用于越來越多的檢索任務,并逐漸擴展到推理、指令跟隨、代碼生成等領域。這些新基準要求嵌入能夠處理任意查詢與任意相關性定義。
盡管以往研究指出過向量嵌入的理論局限,但一個普遍假設是:這些困難僅源于不切實際的查詢,而對于合理的查詢,只需更好的訓練數據和更大的模型即可克服。

本研究表明,即便在極其簡單且現實的查詢場景中,也會遇到這些理論限制。通過關聯已有的學習理論結果,可以證明:能夠作為某個查詢結果返回的 top-k 文檔子集的數量,受嵌入維度的限制。
進一步實證表明,這一現象即使在 k = 2 的情形下依然成立,并且即便在測試集上直接進行參數化嵌入的自由優化,也無法突破該限制。

為驗證這一理論結果,研究構建了一個名為 LIMIT 的現實數據集,用于對模型進行壓力測試。實驗結果顯示,即使是當前最先進的模型,也在該任務上表現不佳,盡管任務本身非常簡單。
研究揭示了現有單向量范式下嵌入模型的根本局限,并呼吁未來研究開發新的方法來突破這一限制。
科學認知與管控大模型幻覺
大模型的幻覺,解鈴還須系鈴人中筆者提出,大模型幻覺本質上系統性地來自如下多個層面:
「語料中的偏差與錯誤,讓大模型學的就是扭曲的外部信息;嵌入構建高維概率語言空間,精度不足會導致概率向量混淆;
重整化提煉語料信息概率分布,無法確保自由能不變,因而是有損提取;自回歸預測僅僅是逼近訓練語料概率分布,籍此構建的內部概率先驗不完全精確;
重整化群因微擾而發生對稱性破缺,內部模型發生相變,目前沒有預知與控制的方法,帶來內部世界模型結構的不確定性;
寬泛模糊的提示語,加之上下文的關聯影響下,大模型內部采樣選取的用于推理的子空間會存在某些偏差;
推理采樣在有偏差的子空間進行,可能偏離最佳采樣分布q*很遠;變分推斷獲取的嚴重有偏采樣分布,成了對外部后驗的預測。」
圖片
Google DeepMind的研究則指出,嵌入檢索的維度限制天然決定了模型可能無法正確覆蓋某些“組合相關性”,即使任務極簡單、訓練再充分,也會出現檢索失敗。
這兩者有內在一致性:幻覺是 生成任務 中模型采樣偏離真實后驗;檢索失敗是 檢索任務 中模型嵌入空間無法覆蓋真實組合相關性。
從貝葉斯腦視角看,它們都只是自由能最小化失敗的不同表現形式:一個偏向生成,一個偏向回憶。
通過上述關聯分析不難得出問題的本質:
維度瓶頸:嵌入維度限制了模型對外部世界信息的表達容量,與大模型幻覺中的“內部世界模型不精確”類似。
訓練與數據偏差:Google 指出,哪怕是極簡單任務也會失敗,意味著單純“加數據、加模型”不足以解決,等同于“幻覺很難完全消除,只能壓低到不可見”。
單向量范式的局限:與幻覺生成類似,當單向量無法精確表達信息分布時,推理或檢索都會偏離最優分布。
降低大模型幻覺任重道遠
筆者建議通過如下幾個途徑降低幻覺的影響:
引入多向量或高維結構嵌入: 就像筆者在幻覺治理中建議的“提高嵌入精度與分辨率”,檢索系統應考慮多維向量或張量、集合或圖嵌入,突破單向量范式。
結合生成式變分推斷: 將檢索過程嵌入到貝葉斯推理框架中,動態調整嵌入與相關性度量,使其朝向最小化自由能方向流動,而非僅依賴靜態相似度。
語料治理與可控擾動: 與幻覺源頭類似,檢索語料偏差直接導致檢索幻覺,應進行全面的數據治理,并通過可控擾動(微擾不動點)提升系統魯棒性。
采用 Wasserstein 距離等更合適的度量: 筆者在幻覺治理中提到 Wasserstein 度量,這同樣適合檢索任務,因為它能更穩健地反映分布間的最優輸運,而非僅靠點對點內積。
新基準建設與系統性評估: Google 提供 LIMIT 數據集只是第一步,未來需要構建更多具備 組合復雜性壓力測試 的基準,避免“指標高、真實效果差”的幻覺式樂觀。
OpenAI 與 Google DeepMind 這兩項研究從不同維度印證了筆者在幻覺分析中的關鍵觀點:幻覺并非訓練不足,而是模型認知框架與信息壓縮結構的內生缺陷。
未來大模型檢索與生成很可能需要實現融合:檢索部分承擔“貝葉斯腦的感官輸入”;生成部分完成“自由能最小化的后驗推斷”;共同依賴更高維度、更可控、更可解釋的內部世界模型。
文獻 1,https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf
文獻 2,On the Theoretical Limitations of Embedding-Based Retrieval,https://arxiv.org/html/2508.21038v1

















