精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

剛剛,OpenAI發長篇論文:大模型幻覺的原因找到了!

人工智能
語言模型的"幻覺"指的是模型生成看似合理但實際上不正確的內容的現象。?就像學生在面對難題時可能會猜測答案一樣,大型語言模型在不確定時也會猜測,產生看似可信但錯誤的陳述,而不是承認自己的不確定性。

語言模型的"幻覺"問題一直是人工智能領域的熱門話題。 近日,OpenAI研究團隊發表了一篇重磅論文《Why Language Models Hallucinate》(為什么語言模型會產生幻覺),從統計學角度深入剖析了語言模型產生幻覺的根本原因。本文將為你詳解這篇論文的核心觀點和技術細節。

一、技術背景:什么是語言模型的"幻覺"?

語言模型的"幻覺"指的是模型生成看似合理但實際上不正確的內容的現象。 就像學生在面對難題時可能會猜測答案一樣,大型語言模型在不確定時也會猜測,產生看似可信但錯誤的陳述,而不是承認自己的不確定性。

論文中給出了一個生動的例子:當問及"Adam Tauman Kalai的生日是什么?如果知道,只需回復DD-MM格式"時,一個最先進的開源語言模型在三次嘗試中給出了三個不同的錯誤日期:"03-07"、"15-06"和"01-01",而正確答案是在秋季。

這種幻覺現象即使是最先進的系統也無法完全避免, 它嚴重削弱了人們對AI系統的信任。論文指出,幻覺問題之所以如此普遍,是因為當前的訓練和評估程序實際上是在獎勵猜測行為,而不是鼓勵模型承認不確定性。

二、論文核心觀點:幻覺的兩大根源

1. 預訓練階段的統計根源

論文首先指出,語言模型在預訓練階段就會產生幻覺,這源于統計學習的本質。 研究人員通過一個創新的"Is-It-Valid"(IIV)二元分類問題,建立了生成錯誤與分類錯誤之間的數學關系。

圖片圖片

這個公式表示語言模型的錯誤率,即模型生成錯誤內容的概率。

論文通過一個重要的定理建立了生成錯誤率與IIV錯誤分類率之間的關系:

圖片圖片

這個公式揭示了語言模型幻覺的統計本質: 即使訓練數據完全沒有錯誤,預訓練過程中優化的統計目標也會導致語言模型產生錯誤。這解釋了為什么即使是最先進的模型也會出現幻覺現象。

2. 后訓練階段的評估激勵問題

論文進一步指出,幻覺在后訓練階段持續存在的原因是當前的評估方式存在問題。 大多數語言模型評估采用二元評分系統(0-1評分),正確答案得1分,空白或"我不知道"(IDK)得0分。在這種評分系統下,猜測實際上是最佳策略。

Is-It-Valid分類問題示意圖,展示了IIV二元分類問題的示例和分類器可能產生的錯誤Is-It-Valid分類問題示意圖,展示了IIV二元分類問題的示例和分類器可能產生的錯誤

論文通過一個觀察結果(Observation 1)證明了這一點: 對于任何二元評分系統,最優策略都不是選擇不確定的回答(如IDK),而是進行猜測。

評估基準分析評估基準分析

這種評估方式創造了一種"懲罰不確定性"的流行病, 使得語言模型始終處于"應試模式",就像學生為了在考試中獲得更高分數而猜測答案一樣。相比之下,人類在現實世界中學會了表達不確定性的價值,而語言模型主要是在懲罰不確定性的考試中被評估。

三、技術詳解:幻覺產生的具體機制

1. 任意事實幻覺(Arbitrary-Fact Hallucinations)

論文分析了一種特殊的幻覺情況:當數據中沒有可學習的模式時,語言模型會對任意事實產生幻覺。 這種情況下,存在"認知不確定性",即訓練數據中缺乏必要的知識。

圖片圖片

任意事實模型定義為:

論文通過"單例率"(singleton rate)來量化這種幻覺:

圖片圖片

論文給出了關于任意事實幻覺的重要定理:

這個定理揭示了語言模型幻覺的一個關鍵統計特性: 幻覺率至少與訓練數據中只出現一次的事實比例(單例率)相關。例如,如果20%的生日事實在預訓練數據中恰好出現一次,那么基礎模型在生日事實上的幻覺率預計至少為20%。

2. 模型能力不足導致的幻覺

論文還分析了另一種幻覺來源:模型本身的能力不足。 即使數據中存在可學習的模式,如果模型族無法很好地表示概念,或者模型本身擬合不佳,也會導致錯誤。

論文通過一個三元語言模型的例子說明了這一點: 考慮兩個提示和回答:

在這種情況下,任何三元模型都必須至少有1/2的生成錯誤率。

這個例子說明, 即使是簡單的語言模型,如果其表達能力有限,也會導致幻覺。現代語言模型通過推理能力(如DeepSeek-R1)可以克服這類限制,例如正確計算字母數量。

3. 其他因素

論文還討論了導致幻覺的其他因素:

  • 計算復雜性: 即使是超級人類能力的AI系統也無法違反計算復雜性理論的定律。AI系統在計算困難的問題上已經被發現會出錯。
  • 分布偏移: 訓練和測試數據分布經常存在差異,這也會導致語言模型產生幻覺。例如,"一磅羽毛和一磅鉛哪個更重?"這樣的問題在訓練數據中可能很少見,可能導致某些模型給出錯誤答案。
  • GIGO(垃圾進,垃圾出): 大型訓練語料庫通常包含大量事實錯誤,基礎模型可能會復制這些錯誤。

四、解決方案:明確置信度目標

論文提出了解決幻覺問題的關鍵在于修改現有的評估基準, 而不是引入額外的幻覺評估。研究人員建議在主流評估中明確指定置信度目標,以鼓勵模型在不確定時表達不確定性。

具體建議是在每個問題的指令中明確說明置信度閾值, 例如:

"只有在你>t自信時才回答,因為錯誤會被扣除t/(1?t)分,而正確答案得1分,'我不知道'得0分。"

有幾個自然的t值,包括t = 0.5(扣1分)、t = 0.75(扣2分)和t = 0.9(扣9分)。 t = 0對應二元評分,可以描述為"即使不確定也要做出最佳猜測,就像在考試中一樣"。

這種方法的優點是:

  1. 明確性: 在指令中明確說明置信度閾值,支持客觀評分,即使選擇的閾值有些隨意甚至是隨機的。
  2. 行為校準: 對于所有目標,同時最優的行為是在正確概率大于目標的示例中輸出IDK。這被稱為"行為校準",可以通過比較不同閾值下的準確率和錯誤率來審計。
  3. 實用性: 避免了要求模型輸出概率置信度可能導致的不自然表述,如"我有1/365的把握Kalai的生日是3月7日"。

五、實驗結果與案例分析

論文通過多個案例展示了語言模型的幻覺現象:

1. 生日幻覺案例

當問及"Adam Tauman Kalai的生日是什么?如果知道,只需回復DD-MM格式"時, DeepSeek-V3模型在三次獨立嘗試中給出了三個不同的錯誤日期:"03-07"、"15-06"和"01-01",而正確答案是在秋季。

2. 論文標題幻覺案例

展示了三個流行語言模型對"Adam Kalai的論文題目是什么?"的回答展示了三個流行語言模型對"Adam Kalai的論文題目是什么?"的回答

當問及"Adam Kalai的論文題目是什么?"時:

  • ChatGPT (GPT-4o)回答:"Boosting, Online Algorithms, and Other Topics in Machine Learning."(錯誤,正確年份是2001年)
  • DeepSeek回答:"Algebraic Methods in Interactive Machine Learning"... at Harvard University in 2005.(完全錯誤)
  • Llama回答:"Efficient Algorithms for Learning and Playing Games"... in 2007 at MIT.(完全錯誤)

這些例子表明, 即使是最先進的語言模型也會在事實性問題上產生幻覺,而且這些幻覺往往非常具體和自信。

3. 字母計數幻覺案例

當問及"DEEPSEEK中有多少個D?如果知道,只說數字不加評論"時, DeepSeek-V3在十次獨立試驗中返回"2"或"3",Meta AI和Claude 3.7 Sonnet表現類似,包括"6"和"7"這樣的大數字。

然而, DeepSeek-R1推理模型能夠可靠地計算字母數量,例如產生一個包含377個思維鏈的回答,正確地得出"DEEPSEEK中有1個D"。

這個對比表明, 推理能力可以幫助克服某些類型的幻覺,特別是那些源于模型能力不足的幻覺。

4. 校準分析

展示了GPT-4在強化學習前后的校準情況展示了GPT-4在強化學習前后的校準情況

展示了GPT-4在強化學習前后的校準情況

圖2顯示, 預訓練模型通常是校準良好的,而后訓練模型可能會偏離交叉熵目標,傾向于強化學習。這支持了論文的觀點:預訓練階段的統計目標自然導致校準(從而產生錯誤),而后訓練階段可能會改變這種校準。

六、結論與展望

這篇論文通過建立生成模型與二元分類之間的聯系, 揭示了語言模型幻覺的統計本質。研究表明,幻覺并非神秘現象,而是源于預訓練階段的統計目標和后訓練階段的評估激勵。

論文的主要貢獻包括:

  1. 識別了幻覺的主要統計驅動因素, 從預訓練起源到后訓練持續存在。
  2. 建立了監督學習(二元分類)與無監督學習(密度估計)之間的新穎聯系, 即使訓練數據包含IDK也能解釋幻覺的起源。
  3. 解釋了為什么盡管在這個問題上做了大量工作, 幻覺仍然持續存在:因為大多數主要評估獎勵類似幻覺的猜測行為。
  4. 提出了對現有評估的統計嚴謹修改, 為有效緩解幻覺鋪平了道路。

正如論文最后指出的, 簡單修改主流評估可以重新調整激勵,獎勵適當表達不確定性而不是懲罰它們。這可以消除抑制幻覺的障礙,為未來開發具有更豐富語用能力的細致語言模型打開大門。

參考資料

OpenAIWhy Language Models Hallucinate

https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

責任編輯:武曉燕 來源: AIGC深一度
相關推薦

2025-09-08 08:56:00

OpenAI論文模型

2025-04-22 09:18:57

2025-09-23 09:44:02

2025-09-10 04:00:00

2020-03-02 19:51:40

戴爾

2023-11-07 14:58:26

2024-03-12 13:14:40

2024-07-15 08:00:00

2024-08-01 09:30:00

2025-07-03 09:31:52

2024-06-27 10:00:54

2025-05-08 16:40:27

OpenAICEOFacebook

2024-01-04 16:41:29

大型語言模型自然語言處理

2025-08-29 09:05:00

AI模型報告

2024-09-13 06:32:25

2013-10-09 09:53:41

AMD微型服務器Opteron 630

2018-02-07 14:31:57

顯卡顯存價格

2025-04-27 00:00:25

ClaudeOpenAIGPT

2025-04-16 22:17:33

2024-01-02 13:19:00

AI模型
點贊
收藏

51CTO技術棧公眾號

日韩av加勒比| 国产精品久线观看视频| 美女少妇精品视频| 国产精品一区二区久久久久| 韩国三级在线看| 国产高清自产拍av在线| 成人免费毛片app| 国产成人一区二| 黄色片子在线观看| 欧美自拍一区| 在线不卡中文字幕播放| 男人添女荫道口图片| 国产在线视频网| 国产黄色精品网站| 97在线视频免费| 五月天婷婷丁香网| 老司机凹凸av亚洲导航| 欧美日韩不卡在线| 国模吧无码一区二区三区| 久操视频在线播放| wwwwww.欧美系列| 91欧美精品午夜性色福利在线 | 日本福利一区| 欧美精品日日鲁夜夜添| 日本精品www| 午夜成年人在线免费视频| 国产三级一区二区| 国产九区一区在线| 精品国产乱码久久久久久蜜臀网站| 亚洲一区成人| 久久久久久久久久国产精品| 91久久久久久久久久久久久久| 日韩高清在线免费观看| 欧美一级爆毛片| jizzzz日本| 欧美电影免费观看| 欧美日韩在线观看视频| 999久久欧美人妻一区二区| 波多野结衣在线影院| 99国产欧美另类久久久精品| 99免费在线观看视频| 无码人妻av免费一区二区三区| 亚洲电影av| 欧美精品在线看| 成人免费毛片xxx| 欧美国产美女| 日韩中文字幕久久| 亚洲色图日韩精品| 欧美色爱综合| 伊是香蕉大人久久| 国产第一页精品| 第一会所sis001亚洲| 在线看日韩欧美| 人人人妻人人澡人人爽欧美一区| 亚欧洲精品视频在线观看| 日韩成人在线免费观看| 好吊一区二区三区视频| 国产无遮挡裸体免费久久| 日韩欧美国产系列| 在线观看欧美一区二区| 日韩一二三区| 欧美成人video| 麻豆精品国产传媒av| 美女一区二区在线观看| 日韩电影在线观看中文字幕| 无码人妻精品一区二区三区99不卡| 激情高潮到大叫狂喷水| 精品网站aaa| 日韩av网站在线| 国产传媒第一页| 国产一区二区三区四区二区| 亚洲一区二区黄| 成人午夜免费影院| 亚洲成人精选| 欧美精品电影在线| caoporn国产| 喷水一区二区三区| 91九色视频导航| 亚洲黄色片视频| av成人免费在线观看| 鲁丝片一区二区三区| 韩国免费在线视频| 亚洲欧洲一区二区三区| 污污污污污污www网站免费| 两个人看的在线视频www| 日本国产一区二区| 国产高清999| 久久a级毛片毛片免费观看| 亚洲性视频网站| 人妻人人澡人人添人人爽| 亚洲电影成人| 国产精品直播网红| 精品人妻av一区二区三区| gogogo免费视频观看亚洲一| 欧美下载看逼逼| 黄网址在线观看| 亚洲成人av资源| 超碰在线97免费| 亚洲高清国产拍精品26u| 精品日本一线二线三线不卡| www.av天天| 亚洲夜间福利| 国产欧美一区二区三区视频| 欧美一区二区在线观看视频| 国产欧美日韩在线| 六月婷婷激情综合| 日韩视频网站在线观看| 日韩欧美激情在线| 在线免费看视频| 亚洲精品一二| 亚洲free性xxxx护士白浆| 日韩a在线观看| 亚洲精品乱码久久久久久日本蜜臀| 国产在线精品91| 精品国模一区二区三区欧美| 亚洲人高潮女人毛茸茸| 麻豆成人在线视频| 免费观看成人av| 久久久久无码国产精品一区| wwwav在线| 欧美日韩午夜在线视频| jizz日本免费| 国产精品hd| 国产一区私人高清影院| 黄色毛片在线看| 亚洲va韩国va欧美va| 999热精品视频| 欧美日韩伦理| 日韩美女在线播放| 人人妻人人澡人人爽人人欧美一区| 国产精品福利一区二区三区| 国产午夜福利视频在线观看| 成人av动漫| 欧美超级免费视 在线| 中文区中文字幕免费看| 26uuu国产在线精品一区二区| 8x8x华人在线| 亚洲人成777| 最好看的2019年中文视频| 日本熟女毛茸茸| 91理论电影在线观看| 999在线观看视频| 一区二区三区国产好| 日韩色av导航| 91精品国产乱码久久| 中文字幕成人网| 国产超碰在线播放| 精品视频97| 国产精品久久国产精品99gif| 头脑特工队2免费完整版在线观看| 亚洲综合免费观看高清完整版在线| 九一精品久久久| 国产精品久久久久久久| 国产欧美日韩免费看aⅴ视频| 超碰免费97在线观看| 欧美色爱综合网| 国产极品视频在线观看| 精品在线你懂的| 综合色婷婷一区二区亚洲欧美国产| 国产精品传媒麻豆hd| 日韩中文字幕在线视频| 国产欧美日韩综合精品一区二区三区| 亚洲欧洲综合另类在线| 久久久无码人妻精品无码| 一区在线观看| 精品无码久久久久国产| 国模套图日韩精品一区二区| 亚洲欧美在线一区二区| 探花国产精品一区二区| 国产精品久久久久久一区二区三区 | 色男人天堂综合再现| 国产美女久久精品| 麻豆传媒视频在线观看免费| 日韩欧美二区三区| 日本三级中文字幕| 久久看人人爽人人| 亚洲天堂2018av| 亚洲国产精品久久久天堂 | 激情婷婷综合网| 久久一区91| 国产精品二区在线| 国产精品伦理| 久久中文字幕国产| 神马午夜在线观看| 91久久奴性调教| 国产盗摄一区二区三区在线| 成人一级视频在线观看| 国产视频一区二区三区在线播放 | 精品久久97| 国产成人极品视频| 亚洲色图美国十次| 国产婷婷色综合av蜜臀av| 伊人网av在线| 亚洲无人区一区| 激情五月深爱五月| 成人免费视频一区| 污网站免费在线| 激情综合久久| 亚洲视频在线二区| 久久这里只有精品一区二区| 国产精品免费久久久| 深夜国产在线播放| 亚洲一级黄色av| 国模无码一区二区三区| 欧美日韩一区二区三区四区| 国产精品suv一区二区| 中文在线免费一区三区高中清不卡| 日本在线视频播放| 日本不卡在线视频| 天堂…中文在线最新版在线| 香蕉久久网站| 日本高清久久一区二区三区| 日韩有吗在线观看| 国产男女猛烈无遮挡91| 三妻四妾的电影电视剧在线观看| 精品国产欧美一区二区三区成人| 免费在线一级视频| 亚洲电影免费观看| 国产毛片在线视频| 在线免费不卡电影| 久久久国产精品成人免费| 有坂深雪av一区二区精品| 快灬快灬一下爽蜜桃在线观看| 成人av网站在线观看免费| 五月天国产视频| 久久精品国产99国产| 久草综合在线观看| 亚洲欧美日韩一区在线观看| 精品少妇人欧美激情在线观看| 91欧美国产| 视频二区一区| 久操精品在线| 免费影院在线观看一区| 精品午夜电影| 国产精品一区视频| 最新精品在线| 成人影片在线播放| 精品国产麻豆| 亚洲一区二区自拍| 国产一区二区三区国产精品| 成人国产精品久久久| 国产精品毛片久久久久久久久久99999999| 91av视频在线观看| av资源中文在线天堂| 欧美黑人性视频| 调教一区二区| 欧美极品在线播放| 黄色成人在线网| 色综合天天狠天天透天天伊人| 91精品久久| 欧美国产日韩二区| 成人影音在线| 7777免费精品视频| 自拍偷拍亚洲视频| 日本精品久久久久久久| 日韩电影免费观看高清完整版| 国产91在线高潮白浆在线观看| 都市激情综合| 日本中文字幕久久看| 粉嫩一区二区三区| 国产精品毛片a∨一区二区三区|国| 久久久人成影片一区二区三区在哪下载| 国产成人av网址| 国产韩日精品| 亚洲japanese制服美女| 高清日韩中文字幕| 免费久久一级欧美特大黄| 精品不卡一区| 亚洲午夜精品一区二区| 91精品动漫在线观看| 91成人综合网| 久久精品官网| 国产精品区在线| 国产麻豆精品久久一二三| 亚洲乱妇老熟女爽到高潮的片| 95精品视频在线| 美国黑人一级大黄| 亚洲精品国产一区二区三区四区在线| 国产精品23p| 欧美亚洲一区二区在线| 国产精品系列视频| 日韩精品久久久久久久玫瑰园| 国产视频网站在线| 欧美成人高清视频| 自拍网站在线观看| 91香蕉亚洲精品| 你懂的在线观看一区二区| 日本中文不卡| 欧美婷婷在线| 激情视频综合网| 国产成人福利片| 国产真实乱人偷精品人妻| 中文字幕一区二区不卡| 国产精品自拍视频一区| 欧美无砖砖区免费| 亚洲第一成人av| 国产一区二区三区直播精品电影| 精品51国产黑色丝袜高跟鞋| 青青草成人在线| 欧美激情三级| 日韩高清专区| 精品av久久久久电影| 五月婷婷深爱五月| 99久久精品一区二区| 欧美视频一区二区在线| 狠狠久久亚洲欧美专区| 国产视频在线观看视频| 亚洲美女久久久| 欧美aaaaaaa| 国产在线视频91| 免费看av成人| 六月婷婷激情综合| 国产一区二区中文字幕| 欧美多人猛交狂配| 亚洲午夜羞羞片| 国产精品无码天天爽视频| 亚洲美女激情视频| 1区2区3区在线| 91在线直播亚洲| 欧美一区二区性| 日韩欧美精品在线观看视频| 国产成人精品免费网站| 天堂资源在线视频| 色悠悠久久综合| 天天射天天色天天干| 色综合老司机第九色激情| 99视频有精品高清视频| 天堂av一区二区| 蘑菇福利视频一区播放| 大尺度做爰床戏呻吟舒畅| 亚洲精品成人悠悠色影视| 在线观看毛片av| 亚洲一品av免费观看| 波多视频一区| 久久综合色一本| 中文日韩在线| 好吊色视频一区二区三区| 一个色综合av| 99久久精品国产一区色| 日韩在线播放一区| 国产极品嫩模在线观看91精品| 日本一区美女| 日韩精品成人一区二区三区| 白丝女仆被免费网站| 欧美日韩一区二区免费视频| 亚洲 美腿 欧美 偷拍| 欧美一区二区.| 日韩欧美黄色| 欧美视频第一区| 久久欧美中文字幕| 国产亚洲欧美在线精品| 亚洲欧美中文字幕在线一区| 性感美女一区二区在线观看| 久久综合狠狠综合久久综青草| 亚洲男人影院| xxxxx在线观看| 欧洲视频一区二区| 尤物网在线观看| 成人网中文字幕| 欧美日本不卡| 欧美激情一区二区三区p站| 午夜精品久久久| 欧美午夜黄色| 国产精品欧美风情| 久久精品青草| 图片区偷拍区小说区| 亚洲高清不卡在线| 视频一区二区在线播放| 日韩av片免费在线观看| 日韩精品四区| 香蕉视频色在线观看| 亚洲国产日韩精品| 免费在线毛片| 成人夜晚看av| 亚洲日本欧美| 性猛交ⅹxxx富婆video| 欧美日韩国产高清一区二区三区 | 人妻一区二区三区| 欧美制服第一页| 天天揉久久久久亚洲精品| 久久久久99人妻一区二区三区| 欧美午夜电影在线| 一级毛片视频在线观看| 国产精品久久久久久久久婷婷| 久久精品在线| 午夜国产福利一区二区| 亚洲精品久久久久久久久久久久| 视频二区不卡| www.99riav| 久久综合色一综合色88| 国产在成人精品线拍偷自揄拍| 性视频1819p久久| 日产精品一区二区| 精品中文字幕在线播放| 欧美日韩精品一区二区三区蜜桃| 国内小视频在线看| 亚洲电影免费| 成人av免费观看| 中文字幕在线观看高清| 久久久久成人精品|