精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI新幻覺論文惹爭議!GPT-5拉胯是測試基準(zhǔn)有問題??

人工智能 新聞
最近,《語言模型為何會產(chǎn)生幻覺?》這篇論文火了。 它提出模型有幻覺是因為:標(biāo)準(zhǔn)的訓(xùn)練和評估流程,更傾向于獎勵“猜對”,而非承認不確定。

OpenAI好不容易發(fā)了篇新論文,還是給GPT-5挽尊?

最近,《語言模型為何會產(chǎn)生幻覺?》這篇論文火了。

它提出模型有幻覺是因為:標(biāo)準(zhǔn)的訓(xùn)練和評估流程,更傾向于獎勵“猜對”,而非承認不確定

正因如此,模型在面對不確定的問題時,往往會選擇冒險猜測以獲得更高評分。

所以,為了讓模型“老實說不”,就應(yīng)該重新設(shè)計評估指標(biāo),從而鼓勵模型承認自己不會,懲罰隨意猜測

而好巧不巧的是,OpenAI自家的GPT-5就最不愛猜測

于是,眼尖的網(wǎng)友開始“蝦仁豬心”地盤OpenAI的核心邏輯:

GPT-5表現(xiàn)不好?不是模型拉垮?是現(xiàn)有測試基準(zhǔn)出了問題?GPT-5幻覺少刷不上分?所以應(yīng)該重新設(shè)定指標(biāo)。(完美閉環(huán))

您不會是為了給GPT-5挽尊,所以想找個新基準(zhǔn)吧?

所以,這究竟是OpenAI為了GPT-5這口醋才包的餃子,還是說真的揭開了大模型幻覺背后的更深層問題?

要回答這個問題,得先看這篇論文到底說了什么。

OpenAI重新定義“幻覺”

在論文中,OpenAI將幻覺定義成:語言模型生成的看似合理卻錯誤的答案。

例如,當(dāng)你問一個聊天機器人:“Adam Tauman Kalai的博士論文題目是什么?”它可能自信滿滿地給出三個完全不同的答案——但沒有一個是正確的。

再比如,你問它某人的生日,它也可能報出三個不同日期,全都錯得離譜。

通俗點說,就是模型看起來很有底氣,但實際上在“瞎蒙”。

這種一本正經(jīng)的胡說八道不光體現(xiàn)在復(fù)雜問題上,也發(fā)生在簡單的問題上。

而就像開頭提到的,GPT-5雖然在推理上幻覺更少,但仍無法徹底消除。

而無法消除的原因就是當(dāng)前的評估方法設(shè)置了錯誤的激勵機制。

具體來說,當(dāng)前評估方法普遍以“準(zhǔn)確率”為唯一指標(biāo),鼓勵模型“大膽猜測”而不是誠實地說“我不知道”。

這就像選擇題考試里,瞎蒙可能得分,留空必然為零。

長久以來,這種類似選擇題考試的排行榜就驅(qū)動模型學(xué)會了“自信地錯”。

而老實的GPT-5就由于不夠“自信”,在各大榜單上表現(xiàn)不佳。所以,我們要(換個榜單!)

此外,當(dāng)我們回顧語言模型的訓(xùn)練時,就可以發(fā)現(xiàn),語言模型的預(yù)訓(xùn)練目標(biāo)是預(yù)測下一個詞,但沒有“真/假”標(biāo)簽來區(qū)分正確與錯誤事實。

因此,模型只能看到流暢語言的正例,并近似這些語言數(shù)據(jù)的整體分布。

所以,對于語言模型來說,拼寫等規(guī)律性強的模式可以學(xué)會,但低頻、隨機的事實(如生日)卻無法僅靠預(yù)測獲得,因而幻覺在所難免。

最后,OpenAI 提出要更新評估機制:錯誤應(yīng)比“放棄作答”受到更大懲罰,恰當(dāng)?shù)摹安淮_定表達”應(yīng)獲得部分分數(shù)。

而這一更新的范圍不光是小范圍的測試,而應(yīng)該是一切被廣泛使用、基于準(zhǔn)確率的評估方式。

論文一經(jīng)發(fā)布,就立刻引起了網(wǎng)友們的廣泛討論。

當(dāng)我們談?wù)摶糜X時,我們在談?wù)撌裁矗?/span>

除了我們最開頭的“動機論”,網(wǎng)友們主要關(guān)注以下三個方向:

  • 幻覺是否普遍——大語言模型生成的內(nèi)容是否全都是幻覺;
  • 幻覺產(chǎn)生的原因——包括模型的“做題策略”、語言知識的局限性,以及統(tǒng)計學(xué)習(xí)方法的內(nèi)在缺陷;
  • 幻覺的應(yīng)用與應(yīng)對——例如在創(chuàng)意寫作中如何利用幻覺,以及當(dāng)模型總是回答“不知道”時該怎么辦。

接下來,讓我們具體來看。

大模型生成的內(nèi)容是否都是幻覺?

對于模型的幻覺問題,有網(wǎng)友提出了相當(dāng)激進的觀點:

大語言模型的所有輸出都是幻覺,只不過其中一些幻覺是真實的。

這一觀點涉及到了大語言模型的核心:大語言模型能知道、理解、明白它所輸出的東西嗎

對此,有網(wǎng)友表示,如果過于形而上,我們無法討論具體工程意義上的問題。

這就是說,雖然模型只是在預(yù)測下一個token——但這并不意味著所有輸出都是幻覺。

如果真是這樣,那么這個術(shù)語就毫無意義了,而且它忽略了一個事實:由于規(guī)模、訓(xùn)練和微調(diào),有些模型產(chǎn)生的幻覺比其他模型少得多。

模型的做題策略

針對大模型的“投機蒙題技巧”,有網(wǎng)友做了分析。

大模型本質(zhì)上是基于概率分布做“詞語接龍”,所以我們往往用答題的準(zhǔn)確率來近似衡量模型的表現(xiàn)。

在選擇下一個概率token時,如果模型不知道答案,但隨便猜一下,就可能碰巧答對;

而如果選擇不答,就一定得零分。于是,模型就被“鼓勵”去猜,而不是說“我不知道”。

語言知識的局限性

此外,還有網(wǎng)友把討論延伸到了語言本身的局限性上,討論相當(dāng)哲學(xué)。

首先,語言并不等于真理。所以,想完全消除LLM “不真實”的輸出,本身就有點奇怪。

其次,是關(guān)于“真值”的問題。在計算機科學(xué)里,“一致性”常被用作判斷真假的指標(biāo)——只要輸出符合系統(tǒng)已有的真值,就算是真,即便它可能違背“常識”。

而確定一個陳述究竟是真是假,或者它是否超出了系統(tǒng)的知識范圍,是機器智能中的老大難問題,涉及知識圖譜等整個子領(lǐng)域,這根本不是 LLM 最初要解決的目標(biāo)。

大語言模型本質(zhì)上是文本生成器,它非常擅長根據(jù)提示和從訓(xùn)練語料中學(xué)到的模式撰寫“讀書報告”,但要逐條分析報告中的每一句話,判斷其真假或未知性,則完全是另一回事。

這個問題在人工智能領(lǐng)域已經(jīng)研究了60年,因此指望在下個季度就把它徹底解決并整合到GPT-5中,未免有些自不量力。

最后,則涉及到知識的流動性。

由于知識并非是一個線性增長的累積過程,而是一個不斷質(zhì)疑,挑戰(zhàn),更新的過程。就像哥白尼挑戰(zhàn)地心說,而后來的天文學(xué)又更新日心說一樣,知識自身就在不停地流動。

所以,既然大語言模型的數(shù)據(jù)輸入就是固定的,你怎么能指望它一直對呢?

不過,有網(wǎng)友指出這樣說很蠢,因為在人工智能領(lǐng)域沒有人企圖從哲學(xué)層面消除幻覺,人們只是在努力降低錯誤率,因為這會讓模型更有用。

統(tǒng)計模型的局限性

還有網(wǎng)友指出,我們用“幻覺”一詞描述模型的錯誤,本身就帶有擬人的傾向。

如果停止擬人化,讓它回到它本來的本質(zhì)——一個預(yù)測模型——那么預(yù)測出錯也就不是什么意外結(jié)果了。

因為,大語言模型預(yù)測的是在給定上下文下最可能出現(xiàn)的詞,它們可能預(yù)測錯誤,而當(dāng)預(yù)測錯誤時,人們就說它“產(chǎn)生了幻覺”。

沒有人會質(zhì)疑天氣預(yù)測模型為什么不能百分百準(zhǔn)確,因為預(yù)測本身就可能出錯,這是可以理解的。

營銷和宣傳試圖把LLM包裝成“邏輯理性的思考者”,等同于人類的思維。但人類在真正思考時知道自己什么時候在“編造”。如果一個人真心相信明顯錯誤的事情,那通常是因為他們在產(chǎn)生幻覺。他們的思維本身并沒有錯,只是失去了現(xiàn)實的支撐。

不過,也有網(wǎng)友提出了相反意見:語言和預(yù)測天氣的物理模型就不是一回事,由于文本本身就已經(jīng)編碼了數(shù)學(xué)、代碼和推理,所以將其輸出視為“僅僅預(yù)測單詞”忽略了一個事實,即單詞分布編碼了信息豐富的知識表示。

這又引出了一個新的問題——我們應(yīng)該如何看待預(yù)測單詞呢?

幻覺的應(yīng)用與應(yīng)對

拋開上面哲學(xué)的討論,不少網(wǎng)友也提出了不少實際的問題。

例如,當(dāng)我需要模型有“幻覺”幫我寫作的時候,他不發(fā)散了怎么辦?

對此,有網(wǎng)友表示,即使是虛構(gòu),也需要一定程度的一致性和連貫性。

比如,如果我要求大語言模型生成一個以中世紀法國為背景的虛構(gòu)故事,它回應(yīng)的是一個以中世紀法國為背景的虛構(gòu)故事,那么這就是對我賦予它的任務(wù)的恰當(dāng)(“正確”)的回應(yīng)。

但如果它回應(yīng)的是一個以中世紀英格蘭為背景的故事,那就不正確了。

因此,這里的幻覺是不符合虛構(gòu)設(shè)定的輸出,而非相對于現(xiàn)實的“幻覺”。

最后,有網(wǎng)友直接發(fā)出靈魂拷問:要這么一來,假如模型為了保底,一直拿不回答的獎勵,一直說不知道怎么辦?

而且對于大多數(shù)人來說,相比聽到一句不知道,可能更想聽到一個看似合理的答案。

所以,你會更希望AI自信地亂答,還是老老實實地說我不知道?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-08-14 09:31:24

GPT-5AI

2023-06-08 07:58:29

2025-07-21 09:00:00

2025-10-08 11:15:55

2023-08-08 12:51:55

AI技術(shù)

2023-03-17 07:33:24

GPT-5GPT-4OpenAI

2023-03-16 17:26:09

AI模型

2024-01-18 12:30:03

2024-02-19 00:00:00

OpenAIChatGPT功能

2025-08-13 08:50:00

OpenAI模型數(shù)據(jù)

2023-04-13 13:38:59

2023-08-02 13:52:59

GPT-5模型

2025-05-19 08:58:00

2025-06-19 09:06:00

2025-10-31 15:53:06

AI模型GPT-5

2023-08-10 15:22:48

人工智能OpenAI

2023-11-14 14:26:29

OpenAIGPT-5

2025-08-08 16:22:19

GPT-5CIOIT 團隊

2025-08-13 18:31:52

GPT-5模型AI

2023-08-11 10:44:20

GPT-5
點贊
收藏

51CTO技術(shù)棧公眾號

亚洲国内欧美| 精品欧美午夜寂寞影院| 亚洲精品中文字幕乱码三区| 成人av男人的天堂| 日韩久久中文字幕| 成人精品视频| 日韩免费福利电影在线观看| 国产中文字幕免费观看| 欧美尤物美女在线| 成人高清av在线| 国产精品看片资源| 国产精品成人免费一区二区视频| 制服丝袜日韩| 日韩限制级电影在线观看| 久久精品国产精品亚洲色婷婷| 最新真实国产在线视频| 成人激情小说乱人伦| 国产精品久久久久久久av大片| 全程偷拍露脸中年夫妇| 美女毛片一区二区三区四区| 欧美一级片免费看| 天堂av在线网站| av免费不卡| 日韩理论在线观看| 青青草原亚洲| 亚洲美女福利视频| 久久99精品久久久久久国产越南| 8x拔播拔播x8国产精品| 国产在线一卡二卡| 日本精品三区| 亚洲免费电影一区| 伊人久久一区二区三区| 国产日韩欧美中文在线| 在线观看91视频| 91av资源网| 免费毛片在线看片免费丝瓜视频 | 国产精品四虎| 成人黄色av电影| 51精品国产人成在线观看| 黄色av一区二区| 免费永久网站黄欧美| 久久久久久久久综合| 日本一二三区在线观看| 成人av资源电影网站| 亚洲精品视频久久| 欧美 变态 另类 人妖| 欧美1区2区3区4区| 欧美一区二区女人| 爱豆国产剧免费观看大全剧苏畅| 日韩在线免费| 欧洲激情一区二区| 亚欧在线免费观看| 亚洲日本网址| 欧美亚洲一区二区在线观看| 日本中文字幕高清| 成人不卡视频| 欧美色爱综合网| 性猛交ⅹ×××乱大交| 懂色aⅴ精品一区二区三区| 在线免费观看不卡av| 日韩一级片播放| 国产91在线精品| 欧美日韩激情在线| 欧美婷婷精品激情| 日韩成人一区| 欧美一级久久久| 日本美女视频网站| 日韩欧美影院| 国产亚洲精品久久久久久| 久久久视频6r| 999视频精品| 欧美成人午夜激情| 亚洲成人日韩在线| 91精品国产黑色瑜伽裤| 亚洲成av人片在线观看无码| 欧美精品卡一卡二| 欧美高清另类hdvideosexjaⅴ| 亚洲综合色婷婷| 黄色国产一级视频| 手机看片久久| 欧美日韩国产色站一区二区三区| 日韩av.com| 风间由美中文字幕在线看视频国产欧美| 精品国产成人在线影院| 亚洲av片不卡无码久久| 欧美久久综合网| 欧美成人午夜视频| caoporn国产| 久久成人麻豆午夜电影| 动漫美女被爆操久久久| 神马精品久久| 综合久久一区二区三区| 日本福利视频一区| 日本国产欧美| 日韩欧美成人激情| 四虎影成人精品a片| 婷婷伊人综合| 热99在线视频| 国产成人毛毛毛片| 久久精品视频一区二区| 女人床在线观看| 暖暖成人免费视频| 欧美一级日韩不卡播放免费| 97人妻精品一区二区三区免| 99久久精品费精品国产| 91精品国产成人| 国产一区二区麻豆| 久久―日本道色综合久久| 男同互操gay射视频在线看| 成人免费短视频| 日韩欧美一区二区三区在线| 亚洲日本精品视频| 亚洲国产1区| 成人激情视频在线播放| 久草福利在线| 五月婷婷激情综合| 日本精品一区在线| 成人毛片在线| 日韩免费观看av| 人妻少妇一区二区三区| 日韩理论片在线| 午夜国产一区二区三区| 久久狠狠久久| 久久久久久久久爱| 99久久精品国产成人一区二区| 国产视频一区在线播放| 免费成人午夜视频| 风间由美一区二区av101| xx视频.9999.com| 这里只有久久精品视频| 久久综合久久综合久久综合| 成人免费网站入口| 国产一区二区三区免费观看在线| 最近更新的2019中文字幕| 天堂网中文字幕| 91蜜桃网址入口| 欧美一级欧美一级| 国产精品久久久网站| 欧美猛交ⅹxxx乱大交视频| 91麻豆成人精品国产免费网站| 久久久久久久综合色一本| 欧美 日韩 国产一区| 欧美a大片欧美片| 2019精品视频| 亚洲 欧美 激情 另类| 午夜日韩在线电影| 大尺度做爰床戏呻吟舒畅| 黄色另类av| 国产伦精品一区二区三区视频黑人 | 国产日韩欧美久久| 国产精品一区二区99| 日韩美女视频免费看| 国内在线精品| 欧美色区777第一页| 日韩在线不卡av| 国产一区二区三区四区五区入口| 无码人妻精品一区二区三区99v| 北岛玲精品视频在线观看| 久热精品视频在线| 精品人妻一区二区三区三区四区| 一区二区三区丝袜| 又黄又爽的网站| 噜噜爱69成人精品| 五月天亚洲综合| 欧美第一在线视频| 久久久亚洲精选| 欧美精品a∨在线观看不卡| 91精品办公室少妇高潮对白| 女人黄色一级片| 国产精品亚洲一区二区三区妖精| 波多野结衣 作品| 国内自拍欧美| 国产精品久久久久99| 在线观看国产原创自拍视频| 3d动漫精品啪啪一区二区竹菊| caoporn91| eeuss国产一区二区三区| 国产三区在线视频| 成人av国产| 国产免费一区二区三区| 色香欲www7777综合网| 日韩视频精品在线| 天天干天天操av| 欧美自拍丝袜亚洲| 久操免费在线视频| 久久精品无码一区二区三区| 一级日本黄色片| 午夜在线精品| 大桥未久一区二区| 神马久久影院| 96sao精品视频在线观看| 国产一二在线播放| 久久精品99久久久久久久久 | 亚洲av中文无码乱人伦在线视色| 国产精品不卡一区二区三区| 国产精品手机在线观看| 蜜臀久久99精品久久久久宅男 | 日韩成人伦理电影在线观看| 日韩国产精品毛片| 亚洲免费毛片| 国产精品.com| 欧美爱爱视频| 欧美中文在线字幕| 日韩123区| 色视频www在线播放国产成人| 免费观看黄色av| 在线成人小视频| 无码人妻久久一区二区三区不卡| 一区二区三区在线播放| www.99热| 成人一区在线观看| 911av视频| 热久久免费视频| 国产91对白刺激露脸在线观看| 欧美激情四色| 一本一道久久a久久综合精品 | 亚洲天堂av在线免费| 亚洲乱码精品久久久久..| 欧美日韩一区视频| 欧美一区二区三区不卡视频| 亚洲在线观看免费视频| 我要看一级黄色录像| 国产日韩欧美在线一区| 午夜一区二区三区免费| av在线不卡电影| 国产清纯白嫩初高中在线观看性色| 久久66热re国产| 亚洲不卡视频在线| 日韩二区三区四区| av免费在线播放网站| av成人天堂| 国产精品久久久久7777| 欧美成熟视频| 日本精品福利视频| 中文字幕一区二区三区在线视频 | 麻豆传媒在线完整视频| 国产一区二区三区精品久久久 | 免费毛片小视频| 一本久久综合| 久在线观看视频| 一二三区精品| 欧美色图色综合| 免费看黄裸体一级大秀欧美| 男女高潮又爽又黄又无遮挡| 亚洲影视综合| 成人小视频在线看| 久久久久看片| 亚洲一二三区av| 久久国产欧美日韩精品| 911福利视频| 国产一区二区福利| 久久久久亚洲av成人网人人软件| 国产白丝精品91爽爽久久| 日批视频免费看| av男人天堂一区| 青青草福利视频| 国产调教视频一区| 国产精品夜夜夜爽阿娇| 亚洲日本一区二区三区| 久久这里只有精品国产| 性做久久久久久久久| 国产一级片毛片| 欧美视频完全免费看| 国产又粗又黄又爽| 日韩欧美色电影| 婷婷五月综合久久中文字幕| 亚洲精品一区av在线播放| 成人在线免费观看| 久色乳综合思思在线视频| 成人在线高清免费| 欧美做受高潮电影o| 91国内外精品自在线播放| 91免费视频网站| 风间由美性色一区二区三区四区| 蜜桃久久精品乱码一区二区 | 东京久久高清| 欧美一区二区三区在线播放| 99成人超碰| 加勒比成人在线| 日韩电影免费在线| 中文字幕一二三区| 久久久久久久综合狠狠综合| 色老板免费视频| 婷婷中文字幕一区三区| 中文字幕在线观看免费| 欧美成人一区二区三区| 青草久久伊人| 欧美大尺度激情区在线播放| 日本不良网站在线观看| 成人在线一区二区| 天天躁日日躁狠狠躁欧美| 宅男一区二区三区| 国产人成精品一区二区三| 污污网站免费观看| 99在线精品观看| 免费成年人视频在线观看| 岛国av一区二区三区| 国产精品爽爽久久| 亚洲精品色婷婷福利天堂| 伊人福利在线| 国产精品色视频| 欧美做受69| 国产精品免费看久久久无码| 日韩精品每日更新| 日本黄色动态图| 亚洲人精品午夜| 国产精华7777777| 日韩av在线精品| 成人福利在线观看视频| 国产精品96久久久久久| 国产精品男女| 成人黄色片免费| 黑人巨大精品欧美一区| 人妻精品久久久久中文| 午夜欧美视频在线观看| av中文字幕播放| 日韩亚洲成人av在线| 日本韩国欧美| 国内精品视频在线播放| 黑丝一区二区| 波多野结衣中文字幕在线播放| 欧美激情一区在线观看| 国产一级片毛片| 亚洲精品美女久久久久| 欧美亚洲天堂| 亚洲淫片在线视频| 色综合蜜月久久综合网| 成人性做爰aaa片免费看不忠| aaa亚洲精品| 久久露脸国语精品国产91| 精品电影一区二区| 蜜臀av国内免费精品久久久夜夜| 91精品天堂| 综合国产精品| www.五月天色| 亚洲色大成网站www久久九九| 中文字幕在线播放av| 中文字幕日韩有码| 精品176极品一区| 五月天亚洲综合| 久久精品理论片| 亚洲色图27p| 欧美裸体bbwbbwbbw| 日本视频在线观看| 成人免费福利在线| 亚洲香蕉av| 女同性αv亚洲女同志| 亚洲综合激情网| 狠狠躁夜夜躁av无码中文幕| 欧美激情一区二区久久久| 国产福利一区二区精品秒拍| 久久久久久久久久网| 99久久99久久精品国产片果冻| 国产精品500部| 亚洲精品资源在线| 精品日本视频| www.黄色网址.com| 成人午夜又粗又硬又大| 国产成人亚洲精品自产在线 | 精品176二区| 亚洲曰本av电影| 精品99视频| 无码人妻精品一区二区三应用大全| 色婷婷综合视频在线观看| 98在线视频| 99国产在线视频| 99热精品在线| 精品人妻一区二区三区四区| 国产香蕉视频在线| 在线播放日韩专区| 国产亚洲高清一区| 免费观看国产精品视频| 久久久精品蜜桃| 97成人在线观看| 午夜精品久久17c| 精品久久久中文字幕| 欧美国产日韩在线视频| 黄色一区二区在线| 9i精品一二三区| 成人欧美一区二区三区视频xxx | 欧美一区二区三区……| 青青草国产免费一区二区下载| 99re6在线观看| 午夜精品久久久久久| 97最新国自产拍视频在线完整在线看| 91精品视频免费| 国产精品久久久久久久久久妞妞| 日韩福利在线视频| 精品国产青草久久久久福利| 黄色综合网址| 欧美精品在欧美一区二区| 久久精品亚洲国产奇米99| 精品国产99久久久久久宅男i| 4388成人网| 91精品1区| 成人免费无遮挡无码黄漫视频| 欧美一区二区日韩| 巨胸喷奶水www久久久免费动漫| 污污污污污污www网站免费| 国产欧美日韩在线视频|