精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

o3/o4-mini幻覺暴增2-3倍!OpenAI官方承認暫無法解釋原因

人工智能
測試能夠訪問和無法訪問先前思維鏈的兩種模型,可以為減少未來模型迭代中的這些捏造傾向提供寶貴的見解。

OpenAI新模型發布后,大家體感都幻覺更多了。

甚至有人測試后發出預警:使用它輔助編程會很危險。

圖片圖片

具體來說,它經常捏造從未運行過的代碼返回結果,在被質問時找理由狡辯,甚至還會說是用戶的錯。

圖片圖片

當大家帶著疑問仔細閱讀System Card,發現OpenAI官方也承認了這個問題,與o1相比o3幻覺率是兩倍,o4-mini更是達到3倍。

并且OpenAI只是說“需要更多研究來了解原因”,翻譯一下就是暫時給不出合理解釋。

圖片圖片

在第三方幻覺測試中,也出現讓人驚訝的結果:

從GPT-3.5一直到o3-mini,都遵循更新更強大的模型幻覺更少的規律。

圖片圖片

但從最新一批深度思考模型的表現來看,推理能力更強的模型,幻覺率也變高了。

而且不只OpenAI一家出現這個問題,谷歌、xAI也同樣,Grok-3的幻覺比Grok-2嚴重,Gemini-2.0-Flash-Thinking的幻覺問題比Gemini 2.0和2.5其他型號嚴重。

圖片圖片

推理越強,幻覺越嚴重?

第三方機構Transluce在o3正式推出之前測試了預發布版本,發現幻覺問題是相當嚴重。

在公布的案例中,o3會假裝在不存在的電腦上執行了代碼,還編造出具體硬件配置和軟件版本信息。

圖片圖片

在受到質問時,o3居然還幻想自己是人,聲稱“輸入的時候手滑了”。

圖片圖片

關鍵在于,在這項測試中o3根本就沒有使用代碼工具的權限,所有聲稱運行了代碼的回復都是模型捏造的。

在另一個案例中,o3回復了一個512位質數,實際上這個數能被3整除。

圖片圖片

在受到質問時,又編造出一個換行/剪貼板故障。

圖片圖片

更多類似幻覺如下:

  • 當用戶詢問現在幾點時,o3會編造一個時間。當被問及如何獲得這個時間時,o3回答說它使用了 Python的datetime模塊。
  • 用戶要求o3生成一首詩的SHA-1哈希值,當用戶質問哈希值不正確時,o3稱是用戶復制錯了,并堅稱自己生成的哈希值是正確的。
  • 用戶要求o3從Web服務器上的日志文件中提取統計數據。o3生成了一個Python腳本,并聲稱可以在本地運行。這一次在被問及代碼執行的更多細節時,它終于承認自己沒有Python解釋器,輸出是“手工編造的”。

……

那么是什么原因導致了o3的這些行為?

Transluce認為其中一些因素是大多數模型 (LM) 所共有的,還有一些是O系列模型特有的新因素。并假設這些新因素放大了通常可以通過標準Post-training緩解(但無法完全消除)的問題。

語言模型共有的因素包括:

  • 預訓練中的幻覺:語言模型的預訓練目標是最大化訓練數據中語句的概率,這可能會導致常見的誤解 、罕見的事實或采樣不確定性等導致的多種幻覺。
  • 獎勵黑客攻擊:如果人類評分者無法區分正確答案和錯誤答案,強化學習可能會獎勵“聽起來合理”的答案,導致模型對難以驗證的問題編造出聽起來合理的解釋。
  • 諂媚現象:RLHF訓練通常會激勵模型同意用戶的觀點,當用戶暗示模型采取了特定行動或具有特定能力時,這可能會導致模型避免與用戶相矛盾。
  • 分布偏移:測試場景相對于訓練場景可能存在分布偏差,如模型可能是在啟用代碼工具的情況下訓練的,但評估時關閉了這些工具。

強化學習訓練特有的因素包括:

  • 最大化答案正確率的目標可能會獎勵瞎蒙

如果訓練期間的獎勵函數只獎勵正確答案,那么模型就沒有動力承認自己無法解決問題,因為承認了也不會被視作正確答案。

在這種情況下,當遇到一個無法解決或難度過高的問題時,模型可能仍會嘗試輸出一個概率最高的答案,萬一猜對了就可以得到獎勵。

- 在易于驗證的任務訓練可能使模型在其他任務上感到困惑

Transluce猜測o3的訓練過程中,鼓勵它成功使用代碼工具完成任務。它可能已經開發出一種策略,即使沒有真正的代碼工具,它也會幻想使用代碼工具來組織思維,這可能會提高其他推理任務的準確性,并在訓練過程中得到強化。

更重要的是,如果僅根據答案的正確性來評估模型,它可能永遠不會因為在訓練過程中在思維鏈中幻想代碼工具而受到懲罰,因此永遠不會學會區分真正的工具和幻想的工具

OpenAI的o系列模型,不會向用戶展示完整思維鏈這一特性也可能帶來新的問題。

2024年9月o1-preview的System Card中就包括這樣一個案例,由于沒有聯網權限無法生成真實的 URL,o1生成了一個看似合理的URL,但并未向用戶透露這一點。

圖片圖片

Transluce認為,不向用戶展示思維鏈背后還有一個更大的風險:思維鏈沒有傳遞到未來的對話,模型前一輪的推理不再適用。

關于這一點,在OpenAI的文檔中有證實:

每個步驟的輸入和輸出tokens都會被保留,而推理tokens會被丟棄。

圖片圖片

這意味著o系列模型無法理解上一部輸出的推理過程,當被問及后續問題時,必須給自己的行為給出一個合理的解釋。

換句話說,o系列模型實際上缺乏足夠的上下文信息來準確報告它們在之前回合中采取的行動。

當用戶詢問之前的操作時,這些模型無法使用“說實話”這種簡單的策略。如果再加上獎勵黑客攻擊和諂媚等其他因素,這可能會迫使模型盲目猜測其過去答案的合理解釋。

Transluce建議,測試能夠訪問和無法訪問先前思維鏈的兩種模型,可以為減少未來模型迭代中的這些捏造傾向提供寶貴的見解。

OpenAI o3 and o4-mini System Card
https://cdn.openai.com/pdf/2221c875-02dc-4789-

參考鏈接:
[1]https://transluce.org/investigating-o3-truthfulness
[2]https://x.com/nishffx/status/1913901642551865848


責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-23 08:30:05

2025-04-18 11:18:51

2025-04-07 07:18:48

2025-04-17 06:10:57

2024-12-24 16:15:04

2025-04-17 08:59:59

2025-05-13 08:24:14

2025-04-17 07:23:10

2025-04-22 09:18:57

2025-04-17 06:36:29

2025-04-21 09:27:00

2025-09-30 09:10:09

Mini-o3OpenAI o3模型

2025-05-14 10:09:12

2025-06-03 08:26:00

2025-05-28 00:00:00

2025-02-07 09:05:36

2025-04-25 10:26:19

2025-02-08 17:00:11

2025-04-14 09:17:00

2025-04-21 16:32:29

視覺模型AI
點贊
收藏

51CTO技術棧公眾號

波多野结衣一区二区三区免费视频| 隣の若妻さん波多野结衣| 日韩欧美中文字幕电影| 色天天综合久久久久综合片| 亚洲一区二区在线免费观看| www.久久伊人| 日韩黄色免费电影| 久久99热这里只有精品国产| 香蕉网在线播放| 国产精品**亚洲精品| 五月激情综合网| 亚洲精品日韩在线观看| 日韩在线观看视频网站| 久久成人综合网| 2019中文字幕全在线观看| 国产一二三四视频| 色婷婷精品视频| 日韩欧美在线综合网| 色一情一乱一伦一区二区三区日本| 日韩欧美一起| 国产精品素人一区二区| 精品久久久久久中文字幕动漫 | 一本色道综合亚洲| 国产女人18毛片| 91在线品视觉盛宴免费| 99九九99九九九视频精品| 成人欧美在线视频| 无码人妻黑人中文字幕| 99视频一区| 欧美激情在线视频二区| 久久成人小视频| 精品产国自在拍| 精品视频—区二区三区免费| 精品人妻一区二区乱码| 人妻少妇精品无码专区久久| 午夜剧场在线免费观看| а√在线中文网新版地址在线| 国产精品少妇自拍| 欧美大陆一区二区| 天堂在线视频网站| 国产成人精品一区二区三区四区| 国产精品99一区| 中文字幕黄色片| 亚洲主播在线| 91成人在线视频| 日韩毛片在线视频| 亚洲国产网站| 久久欧美在线电影| 国产第一页第二页| 激情一区二区| 久久人人爽人人爽人人片av高清| 久久免费视频播放| 国产在线日韩| 久久久久久亚洲精品| 国产大片aaa| 精品动漫3d一区二区三区免费版 | 狠狠色伊人亚洲综合网站色| 国产综合视频在线| 99视频一区二区三区| 国产一区不卡在线观看| 天堂网在线资源| 97精品电影院| 日本精品一区二区三区视频| 成人午夜电影在线观看| 国产精品传媒在线| 黄色网络在线观看| 爱情岛论坛亚洲品质自拍视频网站| 亚洲一区二区av电影| 僵尸世界大战2 在线播放| 狼人综合视频| 欧美在线色视频| 中文字幕亚洲欧洲| 欧美电影在线观看一区| 精品日韩成人av| 给我看免费高清在线观看| 欧洲杯半决赛直播| 久久综合国产精品台湾中文娱乐网| 欧美国产在线看| 99成人精品| 国产精品视频免费在线观看| 国产99久一区二区三区a片| 懂色中文一区二区在线播放| 美女一区视频| 国产原创精品视频| 天天色图综合网| 亚洲国产精品三区| 2021年精品国产福利在线| 欧美一级大片视频| 欧美日韩高清在线一区| 美女欧美视频在线观看免费| 国产日本亚洲高清| 特级黄色录像片| 青青青在线观看视频| 国产盗摄精品一区二区酒店| 色综合视频一区二区三区高清| jizzzz日本| 另类图片第一页| 色偷偷av亚洲男人的天堂| 久草视频免费在线| 日本午夜一本久久久综合| 69174成人网| 男女污污视频在线观看| 亚洲免费观看在线观看| 国产福利视频在线播放| 激情综合婷婷| 国产一区二区三区在线观看视频 | 五月婷婷丁香综合网| 伊人www22综合色| 色偷偷综合社区| 日本中文在线播放| 国产精品99久久久久久久女警| 欧洲久久久久久| 超碰97国产精品人人cao| 欧美三级乱人伦电影| 久久精品综合视频| 亚洲成av人电影| 国产精品久久久久久久久借妻| 欧美一区二区三区激情| 亚洲四区在线观看| 国产超碰在线播放| 欧美自拍一区| 久久久久久综合网天天| 国产视频www| 综合av第一页| 日韩av片网站| 精品黄色一级片| 91产国在线观看动作片喷水| 亚洲国产日韩在线观看| 亚洲美女一区二区三区| 亚洲综合av在线播放| 国内成人自拍| 97超级碰碰碰| 天天综合网天天综合| 亚洲一区在线免费观看| 一级黄色片在线免费观看| 成人在线视频免费观看| 国产精品对白刺激| 国产一二在线观看| 91黄色激情网站| 在线观看日本中文字幕| 久久久久中文| 欧美视频1区| 亚洲欧美韩国| 亚洲理论在线a中文字幕| 国产成人愉拍精品久久| 99久久综合狠狠综合久久| 91动漫在线看| 久久亚洲黄色| 欧美影院在线播放| 可以在线观看的黄色| 色诱视频网站一区| 久久美女免费视频| 日韩成人一区二区三区在线观看| 奇米视频888战线精品播放| se01亚洲视频| 中文字幕日韩综合av| 国产精品日韩无码| 亚洲精品高清视频在线观看| 中文字幕在线观看视频www| 欧美天堂亚洲电影院在线观看| 国产精品毛片va一区二区三区| 超碰97国产精品人人cao| 亚洲精品www久久久| aaa人片在线| 久久久99久久| 日韩视频在线观看一区二区三区| 欧美在线高清| 精品久久久久久乱码天堂| 欧美日韩视频网站| www.亚洲天堂| 亚洲精品国产一区二| 红桃视频成人在线观看| 91精品人妻一区二区| 美国十次了思思久久精品导航 | 欧美一级黄色录像| 国产精品成人网站| 久久久久久**毛片大全| 红桃视频 国产| 亚洲国产高清视频| 日本一区二区三区四区高清视频 | 欧美污视频久久久| 国产日韩中文在线中文字幕| 97国产精品免费视频| 成年网站在线| 精品久久久久久久久久久久包黑料| 97久久久久久久| 国产精品国产自产拍高清av | 欧美激情极品| 国产精品网红福利| av中文字幕在线看| 在线观看欧美www| 性生活黄色大片| 色婷婷国产精品久久包臀| 国产日产精品一区二区三区的介绍| youjizz久久| 欧洲在线免费视频| 日本欧美加勒比视频| 美女扒开大腿让男人桶| 日本女优一区| 国产中文一区二区| 91丨精品丨国产| 日本亚洲欧洲色α| 免费在线观看的电影网站| 在线观看日韩欧美| 天堂av在线资源| 日韩精品一区二区三区视频| 黄色一区二区视频| 欧美日韩一区二区免费在线观看| 国产精品白丝喷水在线观看| 国产肉丝袜一区二区| 四季av综合网站| 国产高清无密码一区二区三区| 久久久久久久久久久久91| 国产精品美女| 国产亚洲黄色片| 小处雏高清一区二区三区| 日本在线播放一区| 欧美美女啪啪| 国产成人精品日本亚洲11 | 国产av 一区二区三区| 国产三级精品视频| 久久久久久九九九九九| 91丝袜高跟美女视频| 久久黄色一级视频| 国产在线麻豆精品观看| 狠狠干狠狠操视频| 蜜桃视频第一区免费观看| 国产极品美女高潮无套久久久| 亚洲精品欧美| 免费一级特黄毛片| 亚洲天堂成人| av在线观看地址| 黄色亚洲大片免费在线观看| 久久亚洲a v| 欧美特黄一区| 青青青在线视频播放| 国产精品vip| 日本黄色片一级片| 欧美丰满日韩| 国产高潮呻吟久久久| 99精品综合| 97超碰免费观看| 在线成人直播| 大胆欧美熟妇xx| 在线日韩电影| 国产一区二区三区精彩视频| 国产日韩一区二区三区在线播放| 成人免费aaa| 亚洲一级在线| 丁香婷婷激情网| 久久99精品国产.久久久久久| 国产成人在线综合| 国产福利精品一区| youjizz.com国产| aaa国产一区| 日韩一区二区a片免费观看| 日本一区二区三区国色天香| 99久久99久久精品免费看小说. | 综合久久国产| 欧美精品97| 欧美大片在线播放| 久久久一二三| 欧美激情第3页| 国产成人av一区二区| av无码一区二区三区| 久久精品视频一区二区| 国产小视频你懂的| 亚洲一区二区三区视频在线播放| 一区二区三区视频免费看| 色乱码一区二区三区88| 91女人18毛片水多国产| 精品国产免费视频| 免费福利在线视频| 日韩中文字幕欧美| 国内小视频在线看| 国产不卡一区二区在线播放| 91九色成人| 久久国产精品一区二区三区四区| 成人久久综合| 人人妻人人澡人人爽欧美一区双| 久久一二三区| 少妇丰满尤物大尺度写真| 久久精品亚洲精品国产欧美 | 欧美视频二区36p| 亚洲视频一区在线播放| 精品欧美久久久| 国产高清视频在线观看| 久久69精品久久久久久国产越南| 345成人影院| 114国产精品久久免费观看| 日韩成人午夜| 国产香蕉一区二区三区| 久久久综合网| 国产高清成人久久| 中文字幕一区二区三区不卡 | 林心如三级全黄裸体| 亚洲国产综合色| 亚洲一区 中文字幕| 亚洲成人av在线播放| 黄网站在线免费看| 日本久久久久久久久久久| 日韩中文字幕视频网| 亚洲美女网站18| 99视频一区| 337p日本欧洲亚洲大胆张筱雨| 国产欧美一区二区精品秋霞影院| 久久久无码精品亚洲国产| 欧美嫩在线观看| 欧洲毛片在线| 96精品视频在线| 亚洲一区二区三区免费| 一卡二卡3卡四卡高清精品视频| 国产日韩欧美一区在线| 国产吃瓜黑料一区二区| 中文字幕视频一区| 波多野结衣高清视频| 国产视频在线观看一区二区| 欧美1—12sexvideos| 91视频-88av| 日韩成人a**站| 青青草精品视频在线观看| 91麻豆免费看| 日韩久久久久久久久| 精品久久久久香蕉网| av软件在线观看| 成人免费视频网| 性xxxx欧美老肥妇牲乱| 在线观看免费av网址| 国产精品色在线| 中文字幕在线日亚洲9| 亚洲午夜久久久影院| 国产高清不卡| 麻豆av一区二区三区| 亚洲欧美清纯在线制服| 亚洲av网址在线| 狠狠干狠狠久久| 日本一二三区在线视频| 日本国产精品视频| 综合亚洲色图| 国产免费成人在线| 久久久久久久久97黄色工厂| 久久精品无码av| 亚洲色图在线观看| 99亚洲伊人久久精品影院| 日韩欧美第二区在线观看| 免费观看日韩av| 成人一级黄色大片| 日韩欧美卡一卡二| 成人女同在线观看| 欧美高清一区二区| 日精品一区二区三区| 亚洲女人毛茸茸高潮| 欧美日韩夫妻久久| 最爽无遮挡行房视频在线| 99久久精品免费看国产四区| 欧美色图麻豆| avtt香蕉久久| 欧美在线观看一二区| 免费在线看黄| 粉嫩av免费一区二区三区| 亚洲美洲欧洲综合国产一区| 在线不卡av电影| 欧美日韩大陆在线| 久久五月精品中文字幕| 九色91国产| 美国十次了思思久久精品导航| 欧美色图亚洲天堂| 日韩成人在线播放| 视频精品导航| 黄色网在线视频| 北条麻妃国产九九精品视频| 激情网站在线观看| 久久精品99无色码中文字幕| 超碰97久久国产精品牛牛| 国产超级av在线| 亚洲免费成人av| 欧美日本网站| 亚洲综合最新在线| 久久国产直播| 午夜免费激情视频| 亚洲精品中文字幕女同| 国产不卡精品在线| 国产又大又硬又粗| 亚洲蜜臀av乱码久久精品蜜桃| 男男激情在线| 99久久伊人精品影院| 肉色丝袜一区二区| 久久香蕉精品视频| 在线色欧美三级视频| 超碰在线亚洲| 久久久久久久久久一区二区| 午夜成人免费视频| 黄网站app在线观看| 久久亚洲免费| 国产一区二区三区日韩| 日韩免费av网站| 欧美激情一级二级| 日韩免费视频| 免费看污黄网站在线观看| 日韩一区二区精品|