精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI罕見發論文:我們找到了AI幻覺的罪魁禍首

人工智能 新聞
大模型究竟為什么會出現幻覺呢?OpenAI 罕見發表論文,系統性地揭示了幻覺的根源。

AI 最臭名昭著的 Bug 是什么?不是代碼崩潰,而是「幻覺」—— 模型自信地編造事實,讓你真假難辨。這個根本性挑戰,是阻礙我們完全信任 AI 的關鍵障礙。

大模型會有幻覺,這幾乎已經成為一個常識,讓每一個嚴肅使用大模型的人都不得不謹慎小心。OpenAI 也指出:「ChatGPT 也會產生幻覺。GPT-5 的幻覺明顯更少,尤其是在執行推理時,但幻覺仍然會發生。幻覺仍然是所有大型語言模型面臨的一大根本挑戰。」

盡管現在學術界已經提出了各種各樣用來降低模型幻覺的方法,但目前尚未出現能徹底「根治」模型幻覺的良方。

那么,大模型究竟為什么會出現幻覺呢?今天,OpenAI 罕見發表論文,系統性地揭示了幻覺的根源。

首先,定義幻覺。OpenAI 給出的簡單定義是:「模型自信地生成不真實答案的情況。」

至于原因,簡單來說就是:標準的訓練和評估程序更傾向于對猜測進行獎勵,而不是在模型勇于承認不確定時給予獎勵。

  • 論文標題:Why Language Models Hallucinate
  • 論文地址:https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

下面我們就來具體看看 OpenAI 究竟發現了什么。

什么是幻覺?

幻覺是語言模型生成的看似合理但卻錯誤的陳述。

即使看似簡單的問題,它們也可能以出人意料的方式出現。OpenAI 舉了個例子,當向不同的廣泛使用的聊天機器人詢問 Adam Tauman Kalai(論文一作)的博士論文標題時,它們自信地給出了三個不同的答案,但沒有一個是正確的。

當詢問他的生日時,它給出了三個不同的日期,同樣都是錯誤的。

為了測試而學習

OpenAI 表示,幻覺持續存在,部分原因是當前的評估方法設置了錯誤的激勵機制。雖然評估本身不會直接導致幻覺,但大多數評估模型性能的方式會鼓勵模型進行猜測,而不是誠實地面對不確定性。

可以把它想象成一個多項選擇題測試。如果你不知道答案,但隨意猜測,你可能會很幸運地猜對。留空則必定得零分。同樣,當模型僅根據準確度(即完全答對問題的百分比)進行評分時,它們會被鼓勵進行猜測,而不是承認「我不知道」。

再舉一個例子,假設一個語言模型被問及某人的生日,但它不知道。如果它猜測「9 月 10 日」,那么它有 1/365 的概率猜對。說「我不知道」則必定得零分。在數千道測試題中,猜測型模型最終在記分牌上的表現要優于謹慎且承認不確定的模型。

對于只有一個「正確答案」的問題,可以考慮三類答案:準確答案、錯誤答案以及模型不愿冒險猜測的棄權答案。

OpenAI 表示,棄權答案是謙遜(humility)指標的一部分,而謙遜是 OpenAI 的核心價值觀之一。

大多數分數指標會根據準確度對模型進行優先排序,但錯誤答案比棄權答案更糟糕。OpenAI 的模型規范指出,指出不確定性或要求澄清會更好,而不是自信地提供可能不正確的信息。

以 GPT5 系統卡中的 SimpleQA 評估為例。

在準確度方面,更早期的 OpenAI o4-mini 模型表現略好。然而,其錯誤率(即幻覺率)明顯較高。在不確定的情況下進行策略性猜測可以提高準確度,但也會增加錯誤和幻覺。

在對數十次評估的結果進行平均時,大多數基準測試都會剔除準確度指標,但這會導致對錯之間的錯誤二分法。

在像 SimpleQA 這樣的簡單評估中,一些模型的準確度接近 100%,從而消除了幻覺。然而,在更具挑戰性的評估和實際使用中,準確度會固定在 100% 以下,因為有些問題的答案由于各種原因(例如信息不可用、小型模型的思維能力有限或需要澄清的歧義)而無法確定。

盡管如此,僅以準確度為衡量標準的評估指標仍然占據著排行榜和模型卡的主導地位,這就會鼓勵開發者構建能夠猜測而不是退縮的模型。

正因為此,即使模型變得更加先進,它們仍然會產生幻覺。原因之一便是它們傾向于自信地給出錯誤答案,而不是承認不確定。

更好的評估方法

對此,OpenAI 指出了一個簡單的解決辦法:對自信錯誤(confidential error)的懲罰力度大于對不確定性的懲罰力度,并對恰當表達不確定性的行為給予部分加分。

這個想法并不新鮮。一些標準化測試長期以來一直使用對錯誤答案進行負面評分或對留空問題給予部分加分的方法來阻止盲猜。一些研究團隊也探索了考慮不確定性和校準的評估方法。

但 OpenAI 表示,僅僅增加一些新的不確定性感知測試是不夠的。廣泛使用的、基于準確度的評估方法需要更新,使其評分能夠阻止猜測。

如果主要評估指標依然繼續為模型幸運的猜測給予獎勵,模型就會繼續學習猜測。修改評估指標可以擴大降低幻覺技術的采用范圍,包括新開發的和先前研究的技術。

幻覺是如何從下一個詞預測中產生的

前面已經討論過為什么幻覺如此難以擺脫,但這些高度具體的事實性錯誤究竟從何而來?

畢竟,大型預訓練模型很少出現其他類型的錯誤,例如拼寫錯誤和括號不匹配。

OpenAI 表示,區別必定在于數據中存在哪些模式。

語言模型首先通過預訓練進行學習,這是一個預測海量文本中下一個詞的過程。

與傳統的機器學習問題不同,每個語句沒有「真 / 假」標簽。該模型只看到流暢語言的正面示例,并且必須去近似整體分布。

當沒有任何被標注為無效的示例時,區分有效語句和無效語句會更加困難。但即使有標簽,一些錯誤也是不可避免的。

為了理解原因,可以考慮一個更簡單的類比。在圖像識別中,如果數百萬張貓狗照片被標記為「貓」或「狗」,算法可以學會可靠地對它們進行分類。但想象一下,如果用寵物的生日來標記每張寵物照片。由于生日本質上是隨機的,無論算法多么先進,這項任務總是會產生錯誤。

同樣的原則也適用于預訓練。拼寫和括號遵循一致的模式,因此這些錯誤會隨著規模的擴大而消失。但像寵物的生日這樣任意的低頻事實,無法僅憑模式預測,因此會導致幻覺。

OpenAI 的分析解釋了哪些類型的幻覺會由下一個詞預測產生。理想情況下,預訓練后的后續階段應該能夠消除這些幻覺,但由于上一節中描述的原因,這并未完全實現。

總結

OpenAI 表示:「我們希望本文中的統計學視角能夠闡明幻覺的本質,并駁斥一些常見的誤解」:

有人宣稱:幻覺可以通過提高準確度來消除,因為 100% 準確的模型永遠不會產生幻覺。

發現:準確度永遠不會達到 100%,因為無論模型規模、搜索和推理能力如何,有些現實世界的問題本質上是無法回答的。

有人宣稱:幻覺是不可避免的。

發現:幻覺并非不可避免,因為語言模型在不確定時可以放棄回答。

有人宣稱:避免幻覺需要一定程度的智能,而這只有大型模型才能實現。

發現:小型模型更容易了解自身的局限性。例如,當被要求回答毛利語問題時,一個不懂毛利語的小型模型可以直接回答「我不知道」,而一個認識一些毛利語的模型則必須確定其置信度。正如論文中所討論的,「校準」所需的計算量遠小于保持準確。

有人宣稱:幻覺是現代語言模型的一個神秘缺陷。

發現:我們可以理解幻覺產生以及在評估中獲得獎勵的統計學機制。

有人宣稱:要測量幻覺,我們只需要一個好的幻覺評估。

發現:已有研究者發表了一些幻覺評估。然而,一個好的幻覺評估與數百種傳統的基于準確度的評估相比幾乎沒有效果,這些評估會懲罰謙遜并獎勵猜測。相反,所有主要的評估指標都需要重新設計,以獎勵不確定性的表達。

OpenAI 表示:「我們最新的模型幻覺率更低,并且我們將繼續努力,進一步降低語言模型輸出的置信錯誤率。」

順帶一提,據 TechCrunch 報道,OpenAI 正在重組其模型行為(Model Behavior)團隊,這是一支規模雖小但頗具影響力的研究人員團隊,他們決定著該公司的 AI 模型與人互動的方式。現在,該團隊將向 OpenAI 的后期訓練主管 Max Schwarzer 匯報。

而該團隊的創始負責人 Joanne Jang 則將在公司啟動一個新項目,名為 oai Labs。據她的推文介紹:「這是一個以研究為導向的團隊,專注于發明和設計人們與 AI 協作的新界面原型。」

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-12-01 06:58:29

富領域模型服務

2020-10-26 16:35:53

內存JavaThreadLocal

2019-05-27 10:22:26

Oracle日志數據庫

2019-06-04 14:19:53

AWS谷歌巖機

2015-11-23 10:29:48

app隱藏通信安卓耗電

2011-04-21 16:34:56

打印亂碼接口

2021-12-12 21:51:54

人工智能銀行內卷

2015-10-14 11:32:55

機房空調制冷

2021-09-06 11:39:39

筆記本噪音風扇

2009-02-25 08:58:30

裁員上網本微軟

2011-08-12 10:04:52

數據中心宕機EPO

2018-09-10 09:43:26

2018-01-29 23:13:47

大數據戰略數據分析

2022-11-16 16:14:46

單踏板模式特斯拉

2010-07-12 16:24:20

2009-07-27 13:56:10

2010-09-12 23:07:53

2009-10-12 19:44:40

Windows 7閃屏解決辦法

2011-06-28 10:21:47

2010-09-01 09:33:15

網絡故障
點贊
收藏

51CTO技術棧公眾號

国产精品a久久久久| 欧美一级在线| 国产婷婷色一区二区三区| 国产成+人+综合+亚洲欧洲 | 暴力调教一区二区三区| 欧美一级bbbbb性bbbb喷潮片| 欧洲av一区二区三区| 欧美黄页免费| 午夜激情久久久| 亚洲成人午夜在线| 欧美视频久久久| 麻豆一区二区99久久久久| 九九久久久久99精品| 白丝女仆被免费网站| yiren22亚洲综合| 亚洲一区二区三区精品在线| 日本成人三级电影网站| 一起草av在线| 久久久噜噜噜| 高清欧美电影在线| 看黄色录像一级片| 在线看成人短视频| 日韩欧美国产电影| 天堂社区在线视频| 黄色aa久久| 亚洲精品水蜜桃| 一区二区视频国产| 男女网站在线观看| av网站免费线看精品| 成人在线中文字幕| 国产精品露脸视频| 西西裸体人体做爰大胆久久久| 久久亚洲一区二区三区四区五区高| 亚洲成人日韩在线| 66精品视频在线观看| 欧美人牲a欧美精品| 欧美成人xxxxx| 51av在线| 亚洲成人免费电影| av一区二区三区免费观看| 免费观看久久久久| 亚洲国产电影在线观看| 欧美一区二区视频在线| 亚洲 小说区 图片区 都市| 国产suv一区二区三区88区| 成人欧美一区二区三区黑人孕妇 | 精品日韩欧美在线| 北条麻妃亚洲一区| 成人乱码手机视频| 欧美一区二区精品久久911| 亚洲精品综合在线观看| 成人黄色在线| 欧美日韩一本到| 中文字幕在线综合| 美女视频一区| 欧美老女人在线| 亚洲一区二区三区四区五区| 日韩色性视频| 777精品伊人久久久久大香线蕉| 91视频免费版污| 久久精品 人人爱| 欧美日韩国产另类一区| 亚洲人视频在线| 国产精品白丝久久av网站| 在线不卡a资源高清| 97人人爽人人| eeuss国产一区二区三区四区| 日韩三级精品电影久久久| 女王人厕视频2ⅴk| a级日韩大片| 亚洲免费人成在线视频观看| 精品无码人妻一区| 色婷婷色综合| 欧美激情综合亚洲一二区| 国产乱码久久久久久| 欧美亚洲一区二区三区| 国产精品久久久久久av福利| 亚洲无码精品在线播放| 国产99久久久国产精品潘金 | 国产区视频在线| 欧美国产日韩精品免费观看| 在线观看日韩羞羞视频| 手机在线免费av| 黑人巨大精品欧美一区二区一视频| 国产第一页视频| 小说区图片区亚洲| 精品国产一二三| 伊人网在线视频观看| 欧美aaaa视频| 欧美极品少妇xxxxⅹ裸体艺术| 91精品国产乱码久久久张津瑜| 久久成人在线| 亚洲一区二区中文| 日本天堂在线| 亚洲精品免费视频| 成人在线免费在线观看| 日韩免费在线电影| 亚洲精品一区二区三区不| 欧美h片在线观看| 亚洲精品男同| 成人久久18免费网站图片| 特黄视频在线观看| 国产精品二三区| 欧美变态另类刺激| 亚洲美女色播| 亚洲女成人图区| 少妇久久久久久被弄高潮| 午夜在线精品偷拍| 粉嫩av四季av绯色av第一区| 成人午夜在线观看视频| 亚洲成人免费视| 午夜av中文字幕| 精品久久视频| 91地址最新发布| a级片在线播放| 中文字幕av一区二区三区| 美女黄色免费看| www一区二区三区| 亚洲精品少妇网址| 国产精品成人av久久| 免费亚洲电影在线| 九九九九久久久久| 欧美性爽视频| 日韩一级片网站| 综合 欧美 亚洲日本| 母乳一区在线观看| 国产日韩久久| 国产精品蜜臀| 日韩欧美一区在线观看| 中文字幕观看av| 日本成人中文字幕| 欧洲一区二区日韩在线视频观看免费 | 2019中文在线观看| 亚洲第一精品网站| 亚洲欧洲中文日韩久久av乱码| 免费看污黄网站| 九九综合在线| 青青久久av北条麻妃黑人| 欧美一级淫片免费视频魅影视频| 亚洲欧洲日本在线| www.久久91| 日本久久精品| 国产美女91呻吟求| 中文字幕日本在线观看| 欧美这里有精品| 超碰人人干人人| 久久精品免费观看| 欧美爱爱视频网站| 99精品女人在线观看免费视频| 色偷偷888欧美精品久久久| 亚洲成人av网址| 国产日韩欧美制服另类| 亚洲国产精品毛片av不卡在线| 天堂俺去俺来也www久久婷婷| 4438全国成人免费| 久蕉依人在线视频| 91国偷自产一区二区开放时间 | 中文字幕中文字幕一区| 色婷婷.com| 一区二区国产在线| 97在线中文字幕| a'aaa级片在线观看| 亚洲国产精品资源| 毛片毛片女人毛片毛片| 国产午夜精品久久久久久免费视 | 成人精品一区二区三区电影| 这里精品视频免费| 91亚洲精品国偷拍自产在线观看| 中文字幕一区二区三区不卡在线| 国产精品久久久久久9999| 女生裸体视频一区二区三区| 成人国产一区二区| 性欧美18xxxhd| 亚洲一区www| 国产一区二区三区成人| 亚洲综合在线观看视频| 无码人妻精品一区二区三应用大全 | 国产精品欧美综合亚洲| 亚洲一二三区在线观看| 成年人网站免费看| 麻豆国产欧美一区二区三区| 男人c女人视频| 亚洲人成网www| 国产一区玩具在线观看| 好吊日av在线| 一区二区三区国产视频| 99视频免费看| 色婷婷综合久久久久中文一区二区| 91无套直看片红桃在线观看| 国产成人午夜99999| 免费在线激情视频| 99久久久久| 精品日韩美女| 精品久久亚洲| 国产成人精品久久二区二区| а√中文在线8| 亚洲美女免费精品视频在线观看| 国产美女精品视频国产| 欧美日韩国产在线播放| 欧美日韩黄色网| xfplay精品久久| www.黄色网| 久久超碰97中文字幕| 欧美亚洲精品一区二区| 婷婷六月综合| 涩涩日韩在线| 婷婷成人影院| 99视频免费观看| 日韩黄色在线| 日本三级韩国三级久久| 白白色在线观看| 久久久成人av| 3d成人动漫在线| 日韩精品中文字幕在线| 国内精品久久久久久久久久| 在线观看成人免费视频| 日韩高清免费av| 亚洲男同性恋视频| 日本视频在线免费| 久久久综合精品| 99久久人妻精品免费二区| 国产精品中文有码| 99九九99九九九99九他书对| 男女精品网站| 女人和拘做爰正片视频| 亚洲午夜91| 成人短视频在线观看免费| 99国产精品一区二区| 日本高清不卡三区| 自拍偷拍一区| 久99久在线| 日韩丝袜视频| 欧美激情专区| 一道本一区二区三区| 精品国产第一页| 国产精品网址| 精品一区二区三区免费毛片| 一区二区三区视频免费视频观看网站| 91精品视频一区| 久久久国产精品网站| 国产精品在线看| 成人高清一区| 国产精品亚洲欧美导航| 日韩不卡在线| 国产精品一区二区久久| 97精品国产综合久久久动漫日韩| 国产999在线观看| 日韩天堂在线| 国产精品久久久久久久av电影| 日韩三级影视| 国产精品流白浆视频| av在线一区不卡| 国产精品久久久av久久久| 国产福利91精品一区二区| 国产精品久久久久久久久久ktv| 韩国三级一区| 国产精品99久久久久久人| 女生影院久久| 国产精品丝袜久久久久久高清| 日本电影久久久| 亚洲在线视频观看| 盗摄牛牛av影视一区二区| 国产精品乱子乱xxxx| 乱亲女h秽乱长久久久| 欧美精品国产精品久久久 | 人妻熟妇乱又伦精品视频| 久久精品毛片| 超碰在线播放91| 国产乱子伦一区二区三区国色天香| 99中文字幕在线| 成人免费视频免费观看| 国产色视频一区二区三区qq号| 亚洲国产精品成人综合| 欧洲猛交xxxx乱大交3| 亚洲sss视频在线视频| 日本黄色一级视频| 欧美精品1区2区3区| 亚洲精品久久久蜜桃动漫| 亚洲精品自产拍| 日韩伦理在线观看| 久久久噜噜噜久久久| 天堂在线中文网官网| 国产精品免费久久久久久| 免费一区二区三区在线视频| 国产视频一区二区三区四区| 精品午夜久久| 国产成人亚洲综合无码| 久久人人精品| 欧美xxxx日本和非洲| 久久精品亚洲乱码伦伦中文| 一区二区视频免费看| 欧美性猛交xxxx免费看久久久| 伊人网站在线观看| 亚洲电影免费观看| 香蕉视频在线免费看| 97精品一区二区视频在线观看| 久久免费资源| 蜜桃传媒一区二区| 亚洲国产一成人久久精品| 亚洲熟妇av一区二区三区漫画| 麻豆精品一二三| 成人网站免费观看| 亚洲欧美日韩人成在线播放| 好看的av在线| 亚洲精品在线免费观看视频| 69xxxx欧美| 热re99久久精品国产66热| 欧美成年网站| 亚洲人成人77777线观看| 99热这里只有精品8| 午夜影院免费版| 国产精品毛片大码女人| 国产精品午夜影院| 日韩视频免费观看高清完整版在线观看| 国产一区二区三区福利| 91精品国产色综合久久不卡98口| 成人精品在线| 亚洲一区尤物| 奇米综合一区二区三区精品视频| 偷偷色噜狠狠狠狠的777米奇| 亚洲欧美国产77777| 在线观看国产一区二区三区| 亚洲美女中文字幕| 麻豆网站免费在线观看| 国产伦精品一区二区三区四区视频| 亚洲影视一区| 亚洲一区日韩精品| 国产精品污污网站在线观看| 午夜婷婷在线观看| 日韩精品999| 国产v日韩v欧美v| 国产女人水真多18毛片18精品| 欧美日韩国内| 女同性αv亚洲女同志| 国产精品欧美一区二区三区| 日本黄色中文字幕| 亚洲色图国产精品| 成人线上视频| 欧美亚洲一级二级| 久久午夜精品| 成人无码av片在线观看| 色国产综合视频| 精品亚洲综合| 国产精品va在线| 日韩国产综合| 三年中文在线观看免费大全中国| 中文字幕一区二区三区在线不卡| 911美女片黄在线观看游戏| 最新的欧美黄色| 国产在线一区不卡| 国产911在线观看| 成人精品免费看| 国产欧美一区二区三区在线看蜜臂| 精品视频一区在线视频| 在线天堂新版最新版在线8| 农村寡妇一区二区三区| 老司机精品福利视频| 久久久久久国产免费a片| 精品视频在线看| 成人在线播放| 99久久精品无码一区二区毛片| 中日韩男男gay无套| 三上悠亚影音先锋| 欧美精品乱人伦久久久久久| 影音先锋在线播放| 好吊色欧美一区二区三区| 三级欧美在线一区| 日韩三级久久久| 精品久久人人做人人爱| 一区二区电影免费观看| 亚洲v国产v在线观看| 国产一区不卡精品| 国产午夜精品一区二区理论影院| 亚洲跨种族黑人xxx| 欧美a一级片| 日本精品久久久久久久久久| 91麻豆免费视频| 中文字幕在线网站| 欧美大片在线免费观看| 亚洲国产网址| 亚洲综合在线一区二区| 欧美性xxxxxxxxx| 国产三区视频在线观看| 国产综合动作在线观看| 久久99精品久久久久婷婷| 国产在线视频第一页| 尤物九九久久国产精品的特点 | 亚洲嫩模很污视频| 疯狂欧洲av久久成人av电影| 欧美成人高潮一二区在线看| 国产农村妇女毛片精品久久麻豆 | 日韩中字在线观看| 国产精品日日摸夜夜摸av| 亚洲成熟女性毛茸茸| 国产精品视频男人的天堂| 在线播放日韩| 欧美肥妇bbwbbw| 亚洲人成网7777777国产| 日本精品在线播放| 久久精品免费网站|