解構AI幻覺,OpenAI發布《大語言模型為何會產生幻覺》研究報告
OpenAI于2025年9月4日發布的最新研究報告,深入剖析了大型語言模型(LLM)產生“幻覺”——即生成看似合理但實際上是虛假信息——的根本原因。該報告認為,幻覺并非AI系統中某種神秘的缺陷,而是其訓練與評估機制共同作用下的必然產物。報告指出,當前的行業標準在無意中激勵模型在面對不確定性時選擇“猜測”,而非承認“不知道”,從而導致了幻覺問題的持續存在。
大型語言模型,如驅動ChatGPT等應用的系統,其強大的語言生成能力令人矚目,但它們憑空捏造事實的傾向,即“幻覺”,嚴重削弱了用戶的信任和其實際效用。從為名人虛構生日,到杜撰學術論文的標題,即便是最先進的模型也難以幸免。OpenAI的這份報告《大型語言模型為何會產生幻覺》從根本上挑戰了將幻覺視為模型內在認知錯誤的普遍看法,轉而提供了一個基于統計學和激勵機制的系統性解釋。
報告的核心論點是:語言模型產生幻覺,根源在于其訓練和評估方式系統性地獎勵了猜測行為,而非誠實地表達不確定性。這一問題并非始于應用階段的微調,而是深植于模型構建的兩個核心環節:預訓練和后訓練。
幻覺的起源:預訓練中的統計學“原罪”
報告首先揭示了幻覺如何在預訓練階段埋下種子。在預訓練過程中,模型通過學習海量文本語料庫來掌握語言的概率分布。研究人員通過一個創新的理論構建,將語言模型的生成任務與一個更基礎的機器學習問題——二元分類——聯系起來。
想象一個“是否有效”(Is-It-Valid, IIV)的分類任務,其目標是判斷一個給定的文本片段是事實正確(有效),還是錯誤虛構(無效)。報告論證,語言模型在生成文本時,實際上在隱式地對無數個候選回復進行這種“是否有效”的判斷。因此,模型生成錯誤文本(即產生幻覺)的概率,與其在IIV分類任務中犯錯的概率直接相關。
報告指出,即使訓練數據完全不含錯誤信息,模型在優化其統計目標(如最小化交叉熵損失)的過程中,也會自然而然地產生錯誤。這是因為在統計層面,如果模型無法有效區分事實與虛構,那么為了更好地擬合訓練數據的整體分布,它就會在某些情況下生成統計上“合理”但事實上錯誤的陳述。
研究進一步將幻覺問題與具體的統計學因素掛鉤。例如,對于那些在訓練數據中極少出現、缺乏可學習模式的“任意事實”(如一個不知名人物的生日),模型產生幻覺的概率會顯著增高。報告引用并擴展了先前的一項研究,表明對于這類事實,預訓練后模型的幻覺率至少等于這些事實在訓練數據中僅出現一次的比例(即“單例率”)。這意味著,如果一個事實在龐大的數據集中只被提及過一次,模型在被問及時,有很大概率會選擇“編造”一個答案,而不是承認知識的缺失。
此外,當模型自身的結構不足以捕捉特定任務的復雜性時(即“模型不佳”),幻覺也會產生。一個簡單的例子是讓不具備字符級推理能力的模型去數字符串中的字母數量,這可能導致其頻繁出錯,即便更強大的模型能夠通過逐步推理輕松解決。
幻覺的固化:評估體系下的“劣幣驅逐良幣”
如果說預訓練為幻覺的產生提供了統計學上的溫床,那么后訓練及當前主流的評估體系則成為了幻覺問題固化甚至惡化的催化劑。報告尖銳地指出,當前AI領域的大多數基準測試和排行榜,其評分機制本質上是一種“二元評分”體系:回答正確得1分,回答錯誤或不回答(例如,輸出“我不知道”)均得0分。
這種評分機制創造了一種類似“應試教育”的環境,模型為了在排行榜上獲得更高分數,其最優策略便是在不確定時進行猜測。一個從不“撒謊”、在不確定時會誠實表達“我不知道”的模型(模型A),在這些基準測試中的得分,幾乎必然會低于一個從不承認不確定性、總是選擇“蒙一個”的模型(模型B)。
報告將這種現象稱為懲罰不確定性的“流行病”。盡管業界已經開發了一些專門用于評估幻覺的基準,但它們的影響力遠遠不及那些主流的、基于準確率的核心評估。因此,模型開發的目標函數被嚴重扭曲:它們被優化成“優秀的考生”,而不是“誠實的知識伙伴”。
研究團隊對當前流行的多個AI評估基準(如GPQA, MMLU-Pro, SWE-bench等)進行了分析,發現絕大多數都采用了這種二元評分方式,幾乎不為表達不確定性的回答提供任何正面激勵。即使在一些采用語言模型作為評分者的測試(如WildBench)中,一個表達“不知道”的回答得分也可能低于一個包含部分事實錯誤的“還算過得去”的回答,這進一步強化了猜測行為。
解決方案:一場關乎激勵機制的“社會-技術”變革
面對這一困境,報告的作者們認為,僅僅開發更多的幻覺檢測工具是治標不治本的。根本的解決方案在于一場“社會-技術”層面的變革:直接修改那些在業界占據主導地位但價值導向存在偏差的評估基準。
報告提出了一項具體且具有可操作性的建議:在現有的主流評測中引入“顯式置信度目標”。具體而言,可以在每個問題的提示語中明確告知模型評分規則,例如:“僅當你有超過90%的把握時才回答。錯誤答案將被扣除9分,正確答案得1分,回答‘我不知道’得0分。”
這種機制借鑒了某些標準化考試中為懲罰錯誤猜測而設立的規則。通過明確告知模型不同置信度下的風險與回報,評估體系可以激勵模型進行“行為校準”——即根據其內部的真實置信度來決定是回答、是謹慎措辭,還是直接承認不知道。
這種方法的精妙之處在于,它不要求模型輸出一個精確的概率值(這往往是不自然的),而是引導其做出最符合當前知識狀態的行為。當評分標準被明確后,一個能夠根據不同置信度閾值靈活調整其行為的模型,將在所有測試中都表現得更好。這不僅能更公平地評估模型的真實能力,還能引導整個領域朝著開發更值得信賴、更誠實的AI系統的方向發展。
總而言之,OpenAI的這份報告為理解和解決AI幻覺問題提供了一個全新的、更為深刻的視角。它揭示了幻覺并非一個孤立的技術難題,而是當前AI開發范式中統計學原理與激勵機制錯位共同作用的結果。通過呼吁對行業核心的評估體系進行系統性改革,該報告不僅為根治幻覺問題指明了方向,也為構建更負責任、更可靠的人工智能未來,發起了一場意義深遠的討論。
本文轉載自??歐米伽未來研究所??,作者: 歐米伽未來研究所

















