改掉幻覺=殺死AI?Science曝光大模型「先天死穴」
就在OpenAI完成重組,解除上市限制的當天,《Science》一篇熱文曝出大模型的一個先天致命軟肋,這一軟肋導致大模型難以徹底擺脫幻覺。

文章指出,雖然OpenAI完成了期待已久的重組,但它的核心產品仍會出現幻覺。
以往我們經常將這種幻覺主要歸因于訓練數據質量,但這一解釋并不充分。
上個月OpenAI與佐治亞理工學院的研究團隊在一篇預印本論文中指出:
就像學生在考試遇到難題時會「蒙」答案一樣,大模型在不確定的情況下也會傾向于「猜」,生成看似合理但其實錯誤的回答,而不是承認自己不知道。

論文:https://arxiv.org/abs/2509.04664《大模型為何會產生幻覺》
在不確定時選擇「我不知道」,可顯著降低幻覺,但為什么模型設計者們沒有這么做?
研究人員認為問題主要出在大模型的訓練和評估機制上:
在大模型的訓練和評估過程中更傾向于「獎勵猜測」,而不是「鼓勵承認不確定性」。
但要改變這一點并不容易。
讓大模型學會說「我不知道」,也可能動搖AI廠商的商業根基。
比如,有人就質疑OpenAI是否會真心讓自家模型更重視「真實性」而不是「吸引力」。
這是一個極大的挑戰。
如果ChatGPT經常回答「我不知道」,用戶可能就會流失到競爭對手那里。
大模型幻覺為何難以根除?
「如果把幻覺徹底修好,將會殺死這個產品」。
謝菲爾德大學的AI研究員魏星曾發文稱OpenAI的「反幻覺」方案會殺死ChatGPT。

OpenAI的研究人員認為幻覺并不神秘,他們分析了大模型在預訓練階段可能導致的錯誤,發現即使訓練數據無誤,預訓練目標也可能使模型產生錯誤。

研究人員進一步指出,幻覺之所以在后續階段持續存在,是因為主流評估體系的評分方式鼓勵模型像學生考試一樣去「猜」,而不是誠實地表達不確定性。
OpenAI曾探討過幻覺難以根除的原因,認為其源頭在于預訓練的「下一個詞預測」:模型通過學習海量文本,掌握如何根據統計規律預測下一個詞。
但這種預測就像是囫圇吞棗,每個語句都沒有通過「真/假」標簽進行優化,當缺乏標記為錯誤的示例時,有效語句與無效語句的區分就顯得尤為困難,因此會出現幻覺。
以圖片識別舉例,若數百萬張貓狗照片被標注為「貓」或「狗」,算法便能可靠分類。
但如果改為按寵物生日標注照片,由于生日數據本質上隨機,無論算法多么先進,此任務必然產生錯誤。
在語言模型的預訓練中也存在類似機制。
比如拼寫和括號遵循固定模式,因此隨規模擴大錯誤會消失。
而像寵物生日這類任意低頻事實無法僅憑模式預測,因此容易導致幻覺。
OpenAI澄清了幾種關于模型「幻覺」的誤解:
誤解:提高準確率就能消除幻覺,因為100%準確的模型永遠不會產生幻覺。
主張:準確率永遠無法達到100%,因為無論模型規模、搜索能力或推理能力如何,某些現實世界的問題本質上無法解答。
誤解:幻覺現象不可避免。
主張:并非如此,因為語言模型在不確定時可選擇保持沉默。
誤解:避免幻覺需要特定程度的智能,而這僅能通過大型模型實現。
主張:小型模型更易認知自身局限。例如面對毛利語問題時,不懂毛利語的小型模型可直接回應「我不知道」,而掌握部分毛利語的模型則需評估回答信心。
誤解:幻覺是現代語言模型中神秘的故障現象。
主張:我們已理解幻覺產生的統計機制及其在評估中的獎勵機制。
為什么大模型「刷榜」難杜絕?
OpenAI官方博客在介紹這篇論文時,將幻覺描述為「看似合理卻錯誤的陳述」。

博客:https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/
而且幻覺的出現具有不可預知性,它可能以出人意料的方式出現。
比如,你詢問一篇論文的標題,它會自信地給出三個不同答案,但都是錯誤的。
該論文的合著者、OpenAI研究科學家Adam Kalai認為,雖然我們永遠不可能做到100%準確,但這并不意味著模型必須要產生幻覺。
解決之道可以在「后訓練」階段,借助人類反饋和其他微調(fine-tuning)方法會引導模型變得更安全、更精確。
但這也會導致大模型「刷榜」的現象:
由于模型表現會通過標準化基準測試來評分,得分高就意味著名氣和商業成功,于是公司就往往將訓練目標鎖定在「刷高分」上。
OpenAI認為,幻覺現象持續存在,部分原因在于當前評估方法設置了錯誤的激勵機制。
研究人員分析了十大熱門基準測試中,有九個都采用「答對得1分,空白或錯誤得0分」的二元評分方式,只有WildBench的評分標準為1–10分制。
雖然回答「我不知道」可能被認為比「嚴重幻覺但看起來合理的回答」略好,但總體上仍會被評為低于「勉強合格」的回答。
這意味著IDK(我不知道)在該基準下可能得到部分分數,但不會被視為優選策略。

在這種評分機制下,由于「隨意猜測」和「不答」懲罰相同,那些喜歡「不懂裝懂」的模型,反而會被謹慎回答「我不知道」的模型更容易拿高分。
舉個例子,假設大模型被問及某人生日但卻不知答案,如果隨便猜一天,就會有1/365的概率猜中,而說「不知道」則必然得零分。
如果在數千道測試題中,這種猜測型模型最終在評分機制中的表現會優于承認不確定性的謹慎模型。
Kalai推測,這可能正是過去防幻覺方案遲遲無法落地的原因。
為什么準確率得分越高
幻覺也可能越大
針對唯一「正確答案」的純客觀問題,OpenAI將模型的回復分為三類:準確回復、錯誤回復以及不妄加猜測的棄權。
OpenAI認為「棄權」體現了謙遜,并將之視為核心價值觀。

就準確性而言,前代o4-mini模型表現略勝一籌,然而其錯誤率(即產生幻覺的概率)顯著更高。
這說明,在不確定時采取策略性猜測雖能提升準確率,卻會增加錯誤和幻覺的發生。
OpenAI認為僅以準確率為標準的評分機制仍主導著模型評估體系,促使開發人員傾向于構建盲目猜測而非保留不確定性的模型:
「這正是模型雖然日益進步但仍會產生幻覺,即自信給出錯誤答案而非承認不確定性的重要原因」。
因此,OpenAI的研究團隊呼吁重新設計評分機制,讓錯誤猜測受到懲罰,從而讓模型在「碰壁中學會謙虛」。
即使好意的調整
也可能引發反效果
普林斯頓大學計算機科學家、SWE-Bench基準創建者Carlos Jimenez認為想要改評分標準并不容易。
因為不同主題領域都有獨特的評估方式,「每個學科在衡量不確定性或信心時都有自己的標準。」
此外,也有學者擔心好意的調整也可能引發反效果。
伊利諾伊大學厄巴納-香檳分校的計算機科學家彭昊警告說,鼓勵模型說「我不知道」與當前優化大模型「自信度」的做法一樣,也可能帶來新的幻覺。
他略帶悲觀地指出,目前恐怕沒有任何數據或指標能自然地解決幻覺問題,因為這些模型「太擅長鉆系統的空子了」。
模型幻覺并非單純的數據問題,而是訓練機制、評測體系與商業模式綜合因素導致的結果。
在技術層面,研究者普遍認為幻覺無法徹底根除,只能被緩解;
在商業層面,若模型頻繁回答「我不知道」,用戶體驗與留存率都可能下降。
當前,以OpenAI、Anthropic為代表的AI初創公司都面臨著巨大的盈利壓力,在讓模型更真實和更有吸引力之間,沒有公司愿意冒著失掉用戶的風險,率先犧牲吸引力,因為這很可能將用戶推向那些看起來更「自信」的競爭者。
但是從AI技術的進步來看,讓AI學會說「我不知道」有助于減少幻覺,推動模型向更成熟的方向進化。



































