OpenAI新幻覺論文惹爭議!GPT-5拉胯是測試基準(zhǔn)有問題??
OpenAI好不容易發(fā)了篇新論文,還是給GPT-5挽尊?
最近,《語言模型為何會產(chǎn)生幻覺?》這篇論文火了。
它提出模型有幻覺是因為:標(biāo)準(zhǔn)的訓(xùn)練和評估流程,更傾向于獎勵“猜對”,而非承認不確定。
正因如此,模型在面對不確定的問題時,往往會選擇冒險猜測以獲得更高評分。

所以,為了讓模型“老實說不”,就應(yīng)該重新設(shè)計評估指標(biāo),從而鼓勵模型承認自己不會,懲罰隨意猜測。
而好巧不巧的是,OpenAI自家的GPT-5就最不愛猜測。

于是,眼尖的網(wǎng)友開始“蝦仁豬心”地盤OpenAI的核心邏輯:
GPT-5表現(xiàn)不好?不是模型拉垮?是現(xiàn)有測試基準(zhǔn)出了問題?GPT-5幻覺少刷不上分?所以應(yīng)該重新設(shè)定指標(biāo)。(完美閉環(huán))
您不會是為了給GPT-5挽尊,所以想找個新基準(zhǔn)吧?

所以,這究竟是OpenAI為了GPT-5這口醋才包的餃子,還是說真的揭開了大模型幻覺背后的更深層問題?
要回答這個問題,得先看這篇論文到底說了什么。
OpenAI重新定義“幻覺”
在論文中,OpenAI將幻覺定義成:語言模型生成的看似合理卻錯誤的答案。
例如,當(dāng)你問一個聊天機器人:“Adam Tauman Kalai的博士論文題目是什么?”它可能自信滿滿地給出三個完全不同的答案——但沒有一個是正確的。
再比如,你問它某人的生日,它也可能報出三個不同日期,全都錯得離譜。
通俗點說,就是模型看起來很有底氣,但實際上在“瞎蒙”。
這種一本正經(jīng)的胡說八道不光體現(xiàn)在復(fù)雜問題上,也發(fā)生在簡單的問題上。
而就像開頭提到的,GPT-5雖然在推理上幻覺更少,但仍無法徹底消除。
而無法消除的原因就是當(dāng)前的評估方法設(shè)置了錯誤的激勵機制。
具體來說,當(dāng)前評估方法普遍以“準(zhǔn)確率”為唯一指標(biāo),鼓勵模型“大膽猜測”而不是誠實地說“我不知道”。
這就像選擇題考試里,瞎蒙可能得分,留空必然為零。
長久以來,這種類似選擇題考試的排行榜就驅(qū)動模型學(xué)會了“自信地錯”。
而老實的GPT-5就由于不夠“自信”,在各大榜單上表現(xiàn)不佳。所以,我們要(換個榜單!)
此外,當(dāng)我們回顧語言模型的訓(xùn)練時,就可以發(fā)現(xiàn),語言模型的預(yù)訓(xùn)練目標(biāo)是預(yù)測下一個詞,但沒有“真/假”標(biāo)簽來區(qū)分正確與錯誤事實。
因此,模型只能看到流暢語言的正例,并近似這些語言數(shù)據(jù)的整體分布。
所以,對于語言模型來說,拼寫等規(guī)律性強的模式可以學(xué)會,但低頻、隨機的事實(如生日)卻無法僅靠預(yù)測獲得,因而幻覺在所難免。
最后,OpenAI 提出要更新評估機制:錯誤應(yīng)比“放棄作答”受到更大懲罰,恰當(dāng)?shù)摹安淮_定表達”應(yīng)獲得部分分數(shù)。
而這一更新的范圍不光是小范圍的測試,而應(yīng)該是一切被廣泛使用、基于準(zhǔn)確率的評估方式。
論文一經(jīng)發(fā)布,就立刻引起了網(wǎng)友們的廣泛討論。
當(dāng)我們談?wù)摶糜X時,我們在談?wù)撌裁矗?/span>
除了我們最開頭的“動機論”,網(wǎng)友們主要關(guān)注以下三個方向:
- 幻覺是否普遍——大語言模型生成的內(nèi)容是否全都是幻覺;
- 幻覺產(chǎn)生的原因——包括模型的“做題策略”、語言知識的局限性,以及統(tǒng)計學(xué)習(xí)方法的內(nèi)在缺陷;
- 幻覺的應(yīng)用與應(yīng)對——例如在創(chuàng)意寫作中如何利用幻覺,以及當(dāng)模型總是回答“不知道”時該怎么辦。
接下來,讓我們具體來看。
大模型生成的內(nèi)容是否都是幻覺?
對于模型的幻覺問題,有網(wǎng)友提出了相當(dāng)激進的觀點:
大語言模型的所有輸出都是幻覺,只不過其中一些幻覺是真實的。

這一觀點涉及到了大語言模型的核心:大語言模型能知道、理解、明白它所輸出的東西嗎?
對此,有網(wǎng)友表示,如果過于形而上,我們無法討論具體工程意義上的問題。
這就是說,雖然模型只是在預(yù)測下一個token——但這并不意味著所有輸出都是幻覺。
如果真是這樣,那么這個術(shù)語就毫無意義了,而且它忽略了一個事實:由于規(guī)模、訓(xùn)練和微調(diào),有些模型產(chǎn)生的幻覺比其他模型少得多。

模型的做題策略
針對大模型的“投機蒙題技巧”,有網(wǎng)友做了分析。

大模型本質(zhì)上是基于概率分布做“詞語接龍”,所以我們往往用答題的準(zhǔn)確率來近似衡量模型的表現(xiàn)。
在選擇下一個概率token時,如果模型不知道答案,但隨便猜一下,就可能碰巧答對;
而如果選擇不答,就一定得零分。于是,模型就被“鼓勵”去猜,而不是說“我不知道”。
語言知識的局限性
此外,還有網(wǎng)友把討論延伸到了語言本身的局限性上,討論相當(dāng)哲學(xué)。
首先,語言并不等于真理。所以,想完全消除LLM “不真實”的輸出,本身就有點奇怪。

其次,是關(guān)于“真值”的問題。在計算機科學(xué)里,“一致性”常被用作判斷真假的指標(biāo)——只要輸出符合系統(tǒng)已有的真值,就算是真,即便它可能違背“常識”。

而確定一個陳述究竟是真是假,或者它是否超出了系統(tǒng)的知識范圍,是機器智能中的老大難問題,涉及知識圖譜等整個子領(lǐng)域,這根本不是 LLM 最初要解決的目標(biāo)。
大語言模型本質(zhì)上是文本生成器,它非常擅長根據(jù)提示和從訓(xùn)練語料中學(xué)到的模式撰寫“讀書報告”,但要逐條分析報告中的每一句話,判斷其真假或未知性,則完全是另一回事。
這個問題在人工智能領(lǐng)域已經(jīng)研究了60年,因此指望在下個季度就把它徹底解決并整合到GPT-5中,未免有些自不量力。
最后,則涉及到知識的流動性。
由于知識并非是一個線性增長的累積過程,而是一個不斷質(zhì)疑,挑戰(zhàn),更新的過程。就像哥白尼挑戰(zhàn)地心說,而后來的天文學(xué)又更新日心說一樣,知識自身就在不停地流動。

所以,既然大語言模型的數(shù)據(jù)輸入就是固定的,你怎么能指望它一直對呢?
不過,有網(wǎng)友指出這樣說很蠢,因為在人工智能領(lǐng)域沒有人企圖從哲學(xué)層面消除幻覺,人們只是在努力降低錯誤率,因為這會讓模型更有用。

統(tǒng)計模型的局限性
還有網(wǎng)友指出,我們用“幻覺”一詞描述模型的錯誤,本身就帶有擬人的傾向。

如果停止擬人化,讓它回到它本來的本質(zhì)——一個預(yù)測模型——那么預(yù)測出錯也就不是什么意外結(jié)果了。
因為,大語言模型預(yù)測的是在給定上下文下最可能出現(xiàn)的詞,它們可能預(yù)測錯誤,而當(dāng)預(yù)測錯誤時,人們就說它“產(chǎn)生了幻覺”。
沒有人會質(zhì)疑天氣預(yù)測模型為什么不能百分百準(zhǔn)確,因為預(yù)測本身就可能出錯,這是可以理解的。
營銷和宣傳試圖把LLM包裝成“邏輯理性的思考者”,等同于人類的思維。但人類在真正思考時知道自己什么時候在“編造”。如果一個人真心相信明顯錯誤的事情,那通常是因為他們在產(chǎn)生幻覺。他們的思維本身并沒有錯,只是失去了現(xiàn)實的支撐。
不過,也有網(wǎng)友提出了相反意見:語言和預(yù)測天氣的物理模型就不是一回事,由于文本本身就已經(jīng)編碼了數(shù)學(xué)、代碼和推理,所以將其輸出視為“僅僅預(yù)測單詞”忽略了一個事實,即單詞分布編碼了信息豐富的知識表示。

這又引出了一個新的問題——我們應(yīng)該如何看待預(yù)測單詞呢?
幻覺的應(yīng)用與應(yīng)對
拋開上面哲學(xué)的討論,不少網(wǎng)友也提出了不少實際的問題。
例如,當(dāng)我需要模型有“幻覺”幫我寫作的時候,他不發(fā)散了怎么辦?

對此,有網(wǎng)友表示,即使是虛構(gòu),也需要一定程度的一致性和連貫性。
比如,如果我要求大語言模型生成一個以中世紀法國為背景的虛構(gòu)故事,它回應(yīng)的是一個以中世紀法國為背景的虛構(gòu)故事,那么這就是對我賦予它的任務(wù)的恰當(dāng)(“正確”)的回應(yīng)。
但如果它回應(yīng)的是一個以中世紀英格蘭為背景的故事,那就不正確了。

因此,這里的幻覺是不符合虛構(gòu)設(shè)定的輸出,而非相對于現(xiàn)實的“幻覺”。
最后,有網(wǎng)友直接發(fā)出靈魂拷問:要這么一來,假如模型為了保底,一直拿不回答的獎勵,一直說不知道怎么辦?

而且對于大多數(shù)人來說,相比聽到一句不知道,可能更想聽到一個看似合理的答案。
所以,你會更希望AI自信地亂答,還是老老實實地說我不知道?





































