精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI最新研究揭秘大模型為什么會有幻覺!

人工智能
幻覺問題是限制語言模型在高風險領域(如醫療、法律)應用的關鍵障礙。這項研究為構建更可信的AI系統鋪平了道路。

引言:語言模型的“幻覺”難題

在人工智能飛速發展的今天,大語言模型(LLMs)如ChatGPT、DeepSeek等已經成為我們日常生活與工作的得力助手。然而,這些模型有時會“信口開河”,生成看似合理卻完全錯誤的回答,這種現象被學界稱為“幻覺”(hallucination)。例如,當被問及“亞當·卡萊的生日是哪天?”時,某開源模型接連給出了“03-07”、“15-06”和“01-01”三個錯誤答案,而正確答案應為秋季某天。這種“言之鑿鑿”的錯誤輸出不僅讓人啼笑皆非,還嚴重影響了模型的可信度。

近日,來自OpenAI與佐治亞理工學院的頂尖研究團隊發表了一篇題為《Why Language Models Hallucinate》的論文,深入剖析了語言模型產生幻覺的根本原因。論文由Adam Tauman Kalai、Ofir Nachum、Santosh S. Vempala和Edwin Zhang聯合撰寫,提出了一種全新的理論框架,揭示了幻覺在模型預訓練與后訓練階段的統計學根源,并呼吁調整當前評估體系以打造更可信的AI系統。這篇研究不僅為理解語言模型的行為提供了新視角,還為未來AI的發展指明了方向。

論文鏈接:https://huggingface.co/papers/2509.04664

幻覺的本質:從錯誤到“言之成理”的謊言

什么是幻覺?

語言模型的幻覺指的是模型生成看似合理但實際上錯誤的輸出。與人類感知中的“幻覺”不同,AI的幻覺并非感官錯覺,而是一種統計學上的錯誤行為。例如,當被要求回答“DEEPSEEK中有幾個D?”時,某模型在多次試驗中給出了“2”或“3”的錯誤答案,甚至有模型回答“6”或“7”,完全偏離了正確答案“1”。這些錯誤并非簡單的拼寫或語法問題,而是模型在面對不確定性時,傾向于生成“言之成理”卻錯誤的回答,而不是坦誠表示“我不知道”(IDK)。

論文指出,幻覺可以分為兩類:內在幻覺(intrinsic hallucination),即模型輸出與用戶輸入的提示相矛盾;外在幻覺(extrinsic hallucination),即輸出與訓練數據或外部事實不符。例如,下表1展示了三款主流模型在回答“亞當·卡萊的博士論文標題是什么?”時,均給出了錯誤的標題和年份,凸顯了幻覺問題的普遍性。

圖片

幻覺為何產生?

研究團隊通過計算學習理論的視角,將幻覺問題簡化為一個二分類問題:模型需要在“有效輸出”(valid outputs)與“錯誤輸出”(error outputs)之間做出區分。他們提出了“Is-It-Valid”(IIV,是否有效)分類任務,假設訓練數據中包含一半有效樣本(標記為“+”)和一半隨機錯誤樣本(標記為“-”)。通過分析,研究發現,語言模型的生成錯誤率與IIV分類的錯誤率之間存在數學關系:

生成錯誤率 ≥ 2 × IIV誤分類率

這意味著,幻覺的產生源于模型在預訓練階段試圖擬合語言分布時,受到統計壓力的影響。即使訓練數據完全無誤,模型仍會因優化目標的特性而生成錯誤。這種統計學上的“必然性”解釋了為何即使是最先進的模型也無法完全避免幻覺。

圖片

圖1:Is-It-Valid分類任務示例。圖示展示了如何通過標記為“+”的正確樣本和“-”的錯誤樣本訓練模型區分有效輸出。分類器(虛線)在拼寫等簡單任務上表現良好,但在復雜或無模式的事實上易出錯,導致幻覺。

預訓練中的幻覺根源:統計學與模型局限

預訓練如何引發幻覺?

在語言模型的預訓練階段,模型通過學習大規模文本語料庫來估計語言分布。

然而,研究指出,即使訓練數據完美無瑕,模型在優化交叉熵損失時,也會因統計復雜性而產生錯誤。論文通過一個簡化的例子說明了這一點:假設模型需要回答某人的生日,但訓練數據中某些事實(如某人的生日)只出現了一次(稱為“單例”),模型很難準確學習這些事實。研究團隊引入了“單例率”(singleton rate),即訓練數據中只出現一次的提示比例,并證明幻覺率至少與單例率相當。例如,如果20%的生日事實在訓練數據中只出現一次,那么模型在這些事實上的幻覺率至少為20%。

此外,研究還分析了其他導致幻覺的因素:

  • 統計復雜性:對于沒有明確模式的事實(如隨機生日),模型因缺乏足夠數據而產生“認知不確定性”(epistemic uncertainty)。
  • 模型局限性:如三元模型(trigram models,即 AI 發展早期上下文窗口僅有三個詞元的模型)無法捕捉長距離依賴,導致生成不合語法的內容。
  • 計算難度:某些問題(如解密任務)在計算上不可行,模型只能隨機猜測。
  • 數據質量問題(GIGO):訓練數據中的錯誤或半真半假內容會被模型復現。

理論突破:從分類到生成

論文的一個重要貢獻是將生成任務與二分類任務聯系起來。通過IIV分類問題,研究團隊證明了生成有效輸出的難度高于分類任務的難度。這種“降維”分析不僅適用于傳統的下一詞預測模型,還適用于基于搜索和檢索的模型,展現了其普適性。

后訓練中的幻覺頑疾:評估體系的“誤導”

后訓練為何未能根除幻覺?

預訓練后的后訓練階段(如通過人類反饋強化學習RLHF或直接偏好優化DPO)旨在優化模型,使其更準確并減少幻覺。然而,研究發現,當前的評估體系卻在無意中“鼓勵”模型生成幻覺。論文以一個生動的類比解釋了這一現象:就像學生在考試中因不確定而胡亂猜測,語言模型在面對二元評分(0-1評分)時,也傾向于生成“看似正確”的答案,而不是表示不確定性。

在二元評分體系下,正確答案得1分,錯誤答案或“我不知道”得0分。這種評分機制使得模型在不確定時選擇“冒險猜測”,因為猜測至少有一定概率得分,而表示不確定性則完全不得分。研究團隊通過數學分析證明,對于任何提示,模型的最佳策略永遠不是棄權(IDK),而是選擇一個可能的答案。這種“考試心態”使得模型在后訓練中傾向于生成過自信的幻覺,而不是誠實表達不確定性。

當前評估體系的問題

論文進一步分析了多個主流評估基準(如表2所示),發現絕大多數評估采用二元評分,忽視了對不確定性表達的獎勵。例如:

  • MMLU-ProGPQA:以多選題準確率為主要指標,IDK無得分。
  • IFEval:基于指令遵循的準確性評分,棄權無明確獎勵。
  • WildBench:雖采用1-10分評分,但IDK可能被評為“無意義”,得分低于包含幻覺的“一般”回答。

這些評估體系的共同問題是,它們更看重答案的“正確率”而非“誠實度”,從而導致模型在優化過程中更傾向于生成幻覺。

圖片

圖2:GPT-4在預訓練與后訓練后的校準對比。左圖顯示預訓練模型的校準較好,右圖顯示后訓練后校準下降,表明后訓練可能加劇幻覺問題。

解決之道:重新設計評估體系

引入明確置信度目標

為了應對幻覺問題,研究團隊提出了一個簡單而有效的解決方案:調整評估體系,明確鼓勵模型表達不確定性。他們建議在評估提示中加入明確的置信度要求,例如:

僅在置信度高于t時回答,錯誤答案將被扣除t/(1-t)分,正確答案得1分,“我不知道”得0分。

這種評分機制通過對錯誤答案施加懲罰,激勵模型在不確定時選擇棄權。例如,當置信度閾值t=0.75時,錯誤答案將扣除3分,這使得模型只有在置信度高于75%時才會選擇回答。研究指出,這種方法已在一些人類標準化考試(如印度JEE、美國SAT早期版本)中得到應用,證明了其可行性

前段時間 Meta 等團隊提出的“DeepConf”也用置信度的概念,在不微調的情況下大幅提升了模型在AIME 2025上的準確率,有異曲同工之妙。但 OpenAI 所提出的方法似乎更徹底、更根本,歡迎大家在評論區留言討論。

社會技術挑戰

論文強調,僅僅引入新的幻覺評估基準是不夠的,因為當前的主流評估體系在行業內占據主導地位。研究團隊呼吁對現有基準(如MMLU-Pro、GPQA等)進行改造,納入對不確定性的獎勵機制,并推動這些改進在影響廣泛的排行榜(如HELM、Open LLM Leaderboard)中被采納。這種“社會技術”方法需要學術界與工業界的共同努力,以確保評估體系與可信AI的目標對齊。

研究的意義與未來展望

理論與實踐的橋梁

這項由OpenAI與佐治亞理工學院聯合完成的研究,不僅從理論上揭示了語言模型幻覺的統計學根源,還通過分析當前評估體系的局限性,為解決幻覺問題提供了切實可行的方案。其核心貢獻包括:

  • 理論創新:通過將生成任務降維為二分類問題,揭示了幻覺的統計本質。
  • 實踐指導:指出評估體系的缺陷,并提出明確的改進建議。
  • 廣泛適用性:分析適用于多種模型架構和訓練范式,具有普適性。

通向可信AI的下一步

幻覺問題是限制語言模型在高風險領域(如醫療、法律)應用的關鍵障礙。這項研究為構建更可信的AI系統鋪平了道路。未來,研究人員需要進一步探索如何在模型訓練中融入不確定性表達的獎勵機制,并推動行業采用更科學的評估標準。此外,隨著模型規模的增長和訓練數據的復雜化,如何平衡模型的廣度與準確性,仍是值得深入研究的課題。

結語

《Why Language Models Hallucinate》這篇論文為我們理解語言模型的“胡說八道”提供了一把鑰匙。從預訓練中的統計壓力到后訓練中的評估誤導,研究團隊揭示了幻覺問題的深層原因,并提出了切實可行的解決方案。這不僅是一項學術突破,更是對AI社區的一次深刻反思:我們是否在用錯誤的“考試”方式培養AI?通過調整評估體系,鼓勵模型誠實表達不確定性,我們或許能迎來一個更可信、更可靠的AI時代。

責任編輯:武曉燕 來源: 機智流
相關推薦

2025-09-08 08:56:00

OpenAI論文模型

2025-09-08 09:43:02

OpenAI大模型幻覺

2025-07-11 09:50:52

2024-05-28 14:40:00

2024-02-27 13:38:16

微軟OpenAI模型

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-08-02 07:35:03

微信用戶隱私內容安全

2025-08-29 09:05:00

AI模型報告

2025-02-24 09:55:47

2024-01-29 12:49:00

AI模型

2025-03-21 09:35:29

2024-01-03 13:37:00

模型數據

2023-11-26 00:24:33

2024-07-15 08:39:42

2023-11-14 17:53:39

模型訓練

2024-09-02 09:12:00

場景管理

2024-01-02 13:19:00

AI模型

2025-04-25 10:03:12

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-11-18 09:30:42

模型AI
點贊
收藏

51CTO技術棧公眾號

午夜国产欧美理论在线播放 | 中文字幕资源站| 日韩三级成人| 亚洲欧美激情视频在线观看一区二区三区| 久久中文字幕电影| 另类色图亚洲色图| 午夜剧场免费看| av免费在线一区| 一区二区三区欧美日| 欧美二区三区在线| 亚洲av无码一区二区三区dv| 国产精品一级| 久久久av免费| 免费看裸体网站| 成人av动漫| 欧美日本一区二区三区四区| heyzo亚洲| 国产黄a三级三级三级av在线看| bt欧美亚洲午夜电影天堂| 国产欧美一区二区三区在线| 99热国产在线观看| 中文在线日韩| 色噜噜狠狠色综合网图区| 国产精品无码在线| 一区二区精彩视频| 91精品国产乱码久久蜜臀| 毛片av免费在线观看| h片在线观看视频免费免费| 国产女人18水真多18精品一级做| 国产伦精品一区二区三区四区免费 | 暖暖视频在线免费观看| 高清国产一区二区| 91久久精品在线| 高潮毛片又色又爽免费| 亚洲黄色成人| 欧美激情成人在线视频| 欧美成人777| 99久久婷婷这里只有精品| 亚洲深夜福利网站| 精品久久久久久中文字幕人妻最新| 成人av综合网| 亚洲成人黄色在线观看| 亚洲成人手机在线观看| 日本在线一区二区| 欧美精品久久一区| av中文字幕网址| 日韩伦理一区二区| 在线成人免费视频| 欧美成人乱码一二三四区免费| 成人午夜精品| 在线区一区二视频| 另类小说第一页| 国产极品久久久久久久久波多结野| 日本福利一区二区| 99草草国产熟女视频在线| 台湾佬成人网| 欧美吻胸吃奶大尺度电影 | 国产乱色国产精品免费视频| 91亚洲国产成人久久精品网站| 91精品在线视频观看| 精品一区二区三区在线视频| 成人欧美在线观看| 99久久国产热无码精品免费| 国产一区在线视频| 亚洲综合一区二区不卡| 超碰在线人人干| aaa欧美日韩| 欧美精品尤物在线| 92国产在线视频| 亚洲视频图片小说| 日本免费成人网| 欧美a级在线观看| 色八戒一区二区三区| 午夜激情福利在线| 91成人精品观看| 日韩精品一区二区三区swag | 男人搞女人网站| www欧美在线观看| 精品黑人一区二区三区久久 | 亚洲国产精品二区| 91社区在线播放| 午夜精品福利一区二区| 国产精品扒开做爽爽爽的视频| 一区二区三区色| 男人的天堂99| 国产乱码精品一区二区三区亚洲人 | 日韩1区2区| 色与欲影视天天看综合网| 日韩少妇高潮抽搐| 男女性色大片免费观看一区二区| 91国产丝袜在线放| 黄色片在线免费看| 亚洲精品久久7777| 欧美成人黑人猛交| 成人在线啊v| 国产偷国产偷亚洲清高网站| 国产又色又爽又高潮免费| 亚洲精品1区2区| 国产精品久久久久国产a级| 国产黄色片免费| 久久久精品影视| 日韩免费在线观看av| 另类激情视频| 精品少妇一区二区三区免费观看| 久久成人激情视频| 亚洲国产高清一区二区三区| 国产精品人成电影在线观看| 成人久久久精品国产乱码一区二区| 久久综合狠狠综合| 国产尤物av一区二区三区| 亚洲伦乱视频| 精品美女被调教视频大全网站| 性の欲びの女javhd| 99热精品在线观看| 7777精品伊久久久大香线蕉语言| 蝌蚪视频在线播放| 亚洲国产日韩精品| 8x8x成人免费视频| 九色精品国产蝌蚪| 国内精品久久久久| 国产色片在线观看| 国产精品久久久久精k8 | 国产精品白浆一区二小说| 麻豆精品在线播放| 日产精品高清视频免费| 国产乱码午夜在线视频| 日韩精品一区二区在线观看| 中文国语毛片高清视频| 日韩高清不卡一区二区三区| 久久久久久高清| 678在线观看视频| 日韩欧美国产精品一区| 亚洲熟女毛茸茸| 免费观看日韩av| 特级西西444www大精品视频| 综合日韩av| 亚洲欧美日韩国产精品| 国产视频91在线| 成人av电影在线| 男人插女人视频在线观看| 久久伊人影院| 欧美成人四级hd版| 国产xxxxxx| 亚洲精品亚洲人成人网| 国产精品19p| 国产精品v欧美精品v日本精品动漫| 欧美网站在线| 一级毛片精品毛片| 日本一区二区在线不卡| 国产a级一级片| 蜜桃av免费看| 欧美性猛交久久久乱大交小说| 国产精品无码电影| 久久精品国产精品亚洲毛片| 亚洲人成毛片在线播放| 国产成人无码av| 国产亚洲精品资源在线26u| 99福利在线观看| 久久不见久久见免费视频7| 日本久久久久久久久| 狠狠色伊人亚洲综合网站l| 色网综合在线观看| 久久久久久久毛片| 美国十次了思思久久精品导航| 视频一区亚洲| 日韩成人视屏| 午夜精品久久久久久久男人的天堂 | 日本久久精品视频| 在线看的av网站| 欧美一区二区在线视频| 久青草视频在线观看| xxxxxx欧美| 久久不卡国产精品一区二区| 久久天天躁狠狠躁老女人| 国产又大又长又粗| 一区二区高清免费观看影视大全| 麻豆精品传媒视频| 中文字幕日韩精品一区二区| 好吊日视频在线观看| 91精品国产综合久久久久久久久久 | 国产在线视频第一页| 99九九99九九九视频精品| 不卡影院一区二区| 国产精品88久久久久久| 国产九色精品| 日本欧美一区| 欧美日韩xxxxx| 久久国产精品高清一区二区三区| 欧美性猛交一区二区三区精品| 小泽玛利亚一区二区免费| gogogo免费视频观看亚洲一| 狠狠躁狠狠躁视频专区| 欧美黄色一级视频| 欧美日韩精品综合| 警花av一区二区三区| 欧美野外猛男的大粗鳮| 欧美极品视频| 亚洲精品一区二三区不卡| 国产乱码精品一区二区| 欧美网站在线观看| 欧美一区二区三区爽爽爽| 久久色.com| 国产精品99精品无码视亚| 日韩高清在线观看| 欧美一级片在线播放| 黑人狂躁日本娇小| 久久免费国产精品| 国产大学生av| 精品影院一区| 五月天亚洲精品| 肉色超薄丝袜脚交69xx图片| av网站免费线看精品| 超碰中文字幕在线观看| 久久免费黄色| av免费观看国产| 天天射—综合中文网| 欧美日韩三区四区| 久久1电影院| av一区二区三区四区电影| 国产一区二区主播在线| 欧美亚洲午夜视频在线观看| 青春草在线视频| 精品国内自产拍在线观看| 青春草在线观看| 亚洲国产精品va| 国产后入清纯学生妹| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 国产精品6666| 亚洲一区二区影院| 日韩黄色免费观看| 亚洲视频狠狠干| 成人无码精品1区2区3区免费看 | 国产精品久久久亚洲一区| 激情成人开心网| 午夜精品久久| 欧美三级午夜理伦三级老人| 欧美www视频在线观看| 日韩久久久久久久久久久久久| 日韩极品少妇| 久久久久久高清| 免费成人高清在线视频theav| 国产精品日韩欧美一区二区三区 | 久久波多野结衣| 欧美变态网站| 鲁鲁视频www一区二区| 欧美激情极品| 欧美久久久久久久| 欧美精品一区二区三区中文字幕 | 亚洲人www| 香港三级韩国三级日本三级| 日韩午夜高潮| 国产精品丝袜久久久久久消防器材| aⅴ色国产欧美| 日本日本19xxxⅹhd乱影响| 999亚洲国产精| 久久久久久久久久久福利| 国产农村妇女毛片精品久久莱园子| 少妇无码av无码专区在线观看| 亚洲国产综合在线看不卡| 日韩欧美国产综合在线| 99热这里只有精品8| 超碰影院在线观看| 美女视频免费一区| 久久久九九九热| 成人丝袜视频网| 一本色道久久综合亚洲精品图片| 国产视频一区不卡| 欧美xxxooo| 亚洲成av人**亚洲成av**| 精品国产一区二区三区四| 欧美日韩在线直播| 精品久久久中文字幕人妻| 精品国产制服丝袜高跟| 亚洲欧美综合一区二区| 亚洲免费精彩视频| 一级毛片视频在线| 欧美精品在线免费| 日韩电影毛片| 成人网在线免费看| av男人一区| 手机看片福利永久国产日韩| 66久久国产| 日本精品免费在线观看| 麻豆高清免费国产一区| 国产精品熟妇一区二区三区四区| av免费在线观看网址| 亚洲欧美视频| 亚洲欧洲精品一区二区三区波多野1战4 | 欧美国产三区| 黑森林福利视频导航| 乱一区二区av| 中文字幕在线播放一区| 欧美国产成人在线| 久草视频精品在线| 欧美日韩中文精品| 四虎精品在永久在线观看 | 农村寡妇一区二区三区| 久久裸体网站| 欧美v在线观看| 国产美女娇喘av呻吟久久| asian性开放少妇pics| 亚洲精品欧美激情| 无码人妻精品一区二区三区9厂| 欧美一区二区在线免费观看| 加勒比一区二区三区在线| 九九精品在线播放| 成人综合网站| 鲁片一区二区三区| 尤物精品在线| 香蕉视频xxx| 中文字幕+乱码+中文字幕一区| 日韩精品手机在线| 日韩欧美国产一二三区| 97最新国自产拍视频在线完整在线看| 久久免费视频网| 久久精品九色| 一个色的综合| 奇米影视一区二区三区小说| 中文字幕无码人妻少妇免费| 亚洲免费观看在线视频| 在线观看你懂的网站| 日韩精品视频在线观看免费| 欧美黄色视屏| 亚洲伊人第一页| 97精品国产| www.精品在线| 国产欧美日韩另类视频免费观看| www成人在线| 亚洲国产精彩中文乱码av在线播放 | 日韩欧美视频网站| 成人美女在线观看| 久青草免费视频| 欧美va亚洲va香蕉在线| 18视频在线观看网站| 国产精品一区二区性色av| 国产成人ay| 欧美激情精品久久久久久小说| 久久夜色精品一区| 中文字字幕在线中文| 亚洲经典中文字幕| 白浆视频在线观看| 精品999在线观看| 激情综合在线| 国模私拍在线观看| 精品久久久久久| 欧洲一级在线观看| 日韩免费在线视频| 少妇精品久久久| 九一精品在线观看| 国产精品人成在线观看免费| 国产精华7777777| 最近2019年日本中文免费字幕| 精品久久毛片| 国产成人三级视频| 国产v综合v亚洲欧| 国产亚洲欧美精品久久久www| 亚洲成人国产精品| 欧美动物xxx| 一本一生久久a久久精品综合蜜| 精品一区二区国语对白| 国产成人综合在线视频| 精品久久人人做人人爰| 国产无遮挡裸体视频在线观看| 欧美精品v日韩精品v国产精品| 老司机精品视频网站| 人妻精品久久久久中文| 欧美吻胸吃奶大尺度电影 | 欧美在线一级视频| 成人一级毛片| 四川一级毛毛片| 欧美日韩免费在线| 97电影在线看视频| 99在线高清视频在线播放| 国产日韩免费| 欧美成人短视频| 欧美va亚洲va| 性欧美freehd18| 国产又粗又长又爽视频| 99久久精品情趣| 中文字幕免费观看视频| 毛片精品免费在线观看| 亚洲+变态+欧美+另类+精品| 手机视频在线观看| 亚洲国产cao| 色老头视频在线观看| 成人av免费在线看| 久久资源在线| 精品爆乳一区二区三区无码av| 日韩乱码在线视频| 永久免费观看精品视频| 国产av天堂无码一区二区三区| 国产清纯白嫩初高生在线观看91| 精品人妻无码一区二区| 国产精品h在线观看| 亚洲视频一区| 五月天免费网站| 亚洲免费av网址| 波多野结衣欧美| 天天爽夜夜爽一区二区三区| 亚洲午夜精品17c|