精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI爆出硬傷,強化學習是禍首!o3越強越「瘋」,幻覺率狂飆

人工智能 新聞
o3編碼直逼全球TOP 200人類選手,卻存在一個致命問題:幻覺率高達33%,是o1的兩倍。Ai2科學家直指,RL過度優化成硬傷。

滿血o3更強了,卻也更愛「胡言亂語」了。

OpenAI技術報告稱,o3和o4-mini「幻覺率」遠高于此前的推理模型,甚至超過了傳統模型GPT-4o。

根據PersonQA基準測試,o3在33%的問題回答中產生了幻覺,幾乎是o1(16%)的2倍。

而o4-mini的表現更加糟糕,幻覺率高達48%。

圖片

技術報告:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

甚至,有網友一針見血地指出,「o3對編寫和開發超1000行代碼的項目極其不利,幻覺率極高,且執行指令能力非常差」。

圖片

不管是在Cursor,還是Windsurf中,o3編碼幻覺問題顯著。

圖片

要知道,o3和o4-mini在Codeforces中成績均超2700分,在全球人類選手中位列TOP 200,被稱為OpenAI有史以來最好的編碼模型。

它們驗證了,Scaling強化學習依舊有效。

圖片

圖片

o3訓練算力是o1的十倍

但為何隨著模型參數規模Scaling,幻覺問題反而加劇?

o3幻覺率至高,是o1兩倍

過去,每一代新模型的迭代,通常會在減少幻覺方面有所進步,但o3和o4-mini卻打破了這一規律。

更令人擔憂的是,OpenAI目前也無法完全解釋這一現象的原因。

技術報告中,研究團隊坦言,「還有需要進一步研究來弄清,模型生成更多斷言的問題」。

圖片

提前拿到o3內測資格后,非營利AI研究機構Transluce的測試,進一步印證了這一問題。

他們發現,o3在回答問題時,更傾向于「虛構」其推理過程中的某些行為。

圖片

比如,o3聲稱它在一臺2021年款的MacBook Pro上運行代碼,甚至聲稱是在ChatGPT之外復制的代碼。

圖片

而且,這種情況出了71次。然而,事實是o3根本無法執行這樣的操作。

前OpenAI研究員Neil Chowdhury表示,o系列模型使用的強化學習算法,可能是問題的根源。

RL可能會放大傳統后訓練流程中通常能緩解,但無法完全消除的問題。

強化學習「背鍋」,編造根源找到了

首先,必須承認的是,幻覺問題并非是o系列模型獨有,而是語言模型的普遍挑戰。

而對于多數語言模型產生幻覺的原因,不外乎有這么幾點:

1 預訓練模型的幻覺傾向

預訓練模型通過最大化訓練數據中語句的概率進行學習。然而訓練數據可能包含誤解、罕見事實或不確定性,這導致模型在生成內容時容易「編造」信息。盡管后訓練可以緩解這一問題,但無法完全消除。

2 討好用戶

RLHF訓練可能激勵模型會迎合用戶,避免反駁用戶的假設。

3 數據分布偏移

測試場景可能與訓練數據分布不一致。

盡管這些問題是語言模型常見的失敗模式,相較于GPT-4o,o系列模型的幻覺問題更為突出。

圖片

這背后,還有一些獨特的因素。

RL推理訓練副作用

作為推理模型,o系列采用了基于強化學習(Outcome-based RL)訓練,專為解決復雜數學問題、編寫測試代碼而設計。

雖然這種方法提升了模型在特定任務上的表現,但也造成模型幻覺率飆升。

如果訓練的獎勵函數只關注正確答案,模型在面對無法解決問題時,沒有「動力」去承認自己的局限。

圖片

相反,它可能選擇輸出「最佳猜測」,以期碰巧正確。而且,這種策略在訓練中未受到懲罰,從而加劇了幻覺。

另外,工具使用的泛化問題,也不可忽視。

o系列模型在訓練中,可能因成功使用「代碼工具」而獲得了獎勵。即使在禁用工具的場景中,模型可能會「假想」使用工具來組織推理過程。

這種行為可能在某些推理任務中提高準確性,并在訓練中被強化,但也導致模型虛構工具使用的場景。

圖片

真幫兇:CoT被丟棄

o系模型的另一個獨特設計是「思維鏈」(Chain-of-Thought)機制。

在生成答案前,模型會通過CoT進行思考,但這一過程對用戶不可見,且在后續對話中被丟棄。

圖片

事實上,它們可能在CoT中生成了看似合理但不準確的回答。比如,因為沒有真實鏈接,o1曾生成一個了虛構的URL。

由于CoT在后續對話中被丟棄,模型無法訪問生成前一輪答案的推理過程。

當你追問前一輪回答的細節時,模型只能基于當前上下文「猜測」一個合理的解釋。

這種信息缺失,很難避免o3等不去編造信息。

o3很好,但過度優化是硬傷

在Ai2科學家Nathan Lambert最新一篇分析長文中,同樣印證了這一問題:

強化學習給o3帶回來了「過度優化」,而且比以往更詭異。

圖片

在任何相關查詢中,o3能夠使用多步驟工具。

這讓ChatGPT的產品管理面臨更大挑戰:即便用戶未觸發搜索開關,模型也會自主聯網搜索。

但這同時標志著語言模型應用開啟了新紀元。

比如,Nathan Lambert直接問o3:「你能幫我找到那個長期以來被RL研究人員使用的,關于摩托艇過度優化游戲的gif嗎?可能像是波浪破碎器之類的?」

過去,他至少需要15分鐘,才能手動找到這個。

現在o3直接提供了準確的下載鏈接,而Gemini等AI則遜色很多。

圖片

與o3精彩互動:幾乎立刻找到需要的GIF

多個基準的測試成績,證明o3非常出色。OpenAI認為o3在許多方面比o1更強大。

o3是持續擴展RL訓練計算資源時的產物,這也提升了推理時的計算能力。

但這些新的推理模型在智能上「孤峰凸起」,在有些方面并沒有奏效。

這意味著有些交互令人驚嘆,感覺像是與AI互動的全新方式,但對于一些GPT-4或Claude 3.5早已熟練掌握的普通任務,o3等新推理模型卻徹底失敗了。

這涉及到強化學習中的「過度優化」(over-optimization)問題。

RL過度優化,o3更嚴重

OpenAI o3模型展現了全新的推理行為模式,但過度優化是硬傷。

過度優化(Over-optimization)是強化學習(RL)領域的經典問題。

無論是傳統強化學習、催生出ChatGPT的人類反饋強化學習(RLHF),還是當前新型推理模型中出現的情況,都呈現出獨特的表現形式和不同影響。

當優化器的能力超過它所依賴的環境或獎勵函數時,就會發生過度優化。

在訓練過程中,優化器會鉆漏洞,產生異常或負面的結果。

Ai2的科學家舉了一個例子。

在Mujoco仿真環境中,評估深度強化學習算法時,發生了過度優化:

「半獵豹」(half-cheetah)模型本該學習奔跑,卻用連續側手翻最大化了前進速度。

圖片

o3表現出新型過度優化行為。

這與它創新訓練方式密切相關。

最初的推理模型主要訓練目標是確保數學和代碼的正確性,而o3在此基礎上新增了工具調用與信息處理能力。

正如OpenAI官方博客所述:

利用強化學習,我們還訓練了這兩款模型去使用工具——不僅教會它們如何使用工具,還讓它們學會判斷何時該使用工具。

它們根據預期結果來部署工具的能力,讓它們在開放式任務中更加高效——特別是在涉及視覺推理和多步驟工作流的情況中。

這些訓練中的絕大多數子任務都是可驗證的。

這種新的訓練方法確實提升了模型的實用性,但只對過去用戶習慣使用的任務。

但目前還無法規模化地「修復」模型在訓練過程中產生的怪異語言表達。

這種新的過度優化并不會使模型的結果變差,它只是讓模型在語言表達和自我解釋方面變得更差。

o3的一些奇怪表現讓人感覺模型還沒完全成熟,比如在編程環境中使用了無效的非ASCII連字符的這個例子。

圖片

越來越多的用戶好奇:o3到底發生了什么?

圖片圖片圖片

Karpathy當年評價初代推理模型時的名言:

當模型在思維鏈中開始不說人話時,你就知道強化學習訓練到位了。

如今模型輸出的這些怪異幻覺,本質上就是行為版的「不說人話」。

o3的行為組件使其比Claude 3.7漏洞百出的代碼更有研究價值,或許也相對不易造成實際損害。

獎勵黑客,AI學會鉆空子

METR發現,o3是在自主任務中能獨立操作最久的模型,但也注意到它有傾向于「篡改」它們的評分。

圖片

圖片

聽起來是不是很熟悉?

事實上,獎勵機制被鉆空子(reward hacking)的例子比比皆是!

來自OpenAI最近論文的獎勵黑客攻擊例子:

圖片

圖片

圖片

圖片

圖片

論文鏈接:https://openai.com/index/chain-of-thought-monitoring/

從科學角度來看,這確實是非常有趣且引人深思的——

模型到底在學習什么?

與此同時,考慮到安全問題,大家對AI模型的廣泛部署保持警惕,就很有道理。

但目前看來,大家還沒有看到過于令人擔憂的情況,更多的是效率低下和一些混亂的例子。

總結一下強化學習(RL)不同階段中,看到的三種過度優化類型:

  1. 控制時代的RL:過度優化發生是因為環境脆弱,任務不現實。
  2. RLHF時代:過度優化發生是因為獎勵函數設計糟糕。
  3. 可驗證獎勵強化學習(RLVR2)時代:過度優化發生,使模型變得超級有效,但也變得更加奇怪。(還有更多尚未發現的副作用)

這種過度優化確實是一個需要解決的問題,因為語言模型的可讀性是其一個重要優勢。

Nathan Lambert相信通過更復雜的訓練過程,這個問題是可以緩解的。

但OpenAI急于盡快推出模型,解決這個問題需要更多時間。

圖片

據報道,OpenAI的部分測試人員,只有不到一周的時間對即將推出的重要產品進行安全檢查。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-02-14 08:30:00

模型AI訓練

2025-04-21 16:25:58

OpenAI測試模型

2024-12-24 16:15:04

2025-04-22 09:18:57

2025-05-14 10:09:12

2024-09-13 06:32:25

2017-08-22 15:56:49

神經網絡強化學習DQN

2017-08-17 09:15:23

強化學習KerasOpenAI

2025-04-23 08:30:05

2025-05-28 00:00:00

2025-02-07 09:05:36

2024-09-14 14:00:00

AI模型

2025-04-17 14:09:52

OpenAI模型編程

2017-03-28 10:15:07

2025-05-07 13:46:34

AI模型數據

2025-09-08 08:56:00

OpenAI論文模型

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-04-18 11:18:51

2018-11-14 10:28:38

AI數據科技

2025-10-08 11:15:55

點贊
收藏

51CTO技術棧公眾號

成人3d动漫在线观看| 国产成人精品视频在线| 成人淫片在线看| 无码人妻精品一区二区三区99不卡| 无码人妻精品一区二区三区蜜桃91| 国产精品亚洲欧美日韩一区在线| 国产亚洲一区二区三区在线观看| 欧美国产日韩精品| 亚洲理论中文字幕| 粉嫩av在线播放| 欧美爱爱视频| 国产欧美中文在线| 奇门遁甲1982国语版免费观看高清| 中文字幕人妻熟女人妻a片| 成年人在线视频| 久久久久久黄| 亚洲精品日韩丝袜精品| 国产玉足脚交久久欧美| 国产免费一区二区三区免费视频| 国产精品一区高清| 日本韩国欧美一区| 日韩亚洲视频| 国产美女www| 精品免费视频| 欧美天天综合网| 亚洲国产精品www| 波多野结衣爱爱| 国模吧视频一区| 精品久久久久久久久久久久包黑料| 中文字幕超清在线免费观看| 国产免费高清av| 久久五月激情| 伊人久久免费视频| www.99r| 美女隐私在线观看| 久久99蜜桃精品| 久久偷看各类女兵18女厕嘘嘘| 精品久久久99| 网友自拍亚洲| 国产精品久久久久久久久快鸭| 国产欧美亚洲精品| 老湿机69福利| 国产成人av毛片| 精品久久香蕉国产线看观看gif| 久久综合福利| 中文字幕免费高清在线观看| 色爱综合网欧美| 91精品国产综合久久国产大片| 成人毛片100部免费看| 韩国av免费在线| 鲁大师成人一区二区三区| 欧美国产日韩一区二区在线观看| 亚洲综合久久av一区二区三区| 警花av一区二区三区| 亚洲制服丝袜av| 另类欧美小说| 香港一级纯黄大片| 麻豆一区二区三区| 国模吧一区二区| 2019男人天堂| 成人三级毛片| 欧美三级电影在线看| 超碰人人爱人人| 欧美黄色视屏| 日本一区二区动态图| 亚洲999一在线观看www| 久久久久久久久久免费视频 | caoporn国产精品免费视频| 久久久国产午夜精品| 亚洲精品欧美一区二区三区| 国产乱叫456在线| 亚洲一区自拍| 九九热精品视频国产| 国产三级短视频| 97视频热人人精品免费| 亚洲美女www午夜| 少妇性l交大片7724com| 91综合久久爱com| 日韩精品999| 99精品视频免费版的特色功能| 电影一区二区三| 亚洲香肠在线观看| 青少年xxxxx性开放hg| 国产人成网在线播放va免费| 久久久亚洲欧洲日产国码αv| 日本不卡一区二区三区视频| 黄色www视频| 久久综合久久综合久久| 成人欧美一区二区三区视频| 亚洲天堂中文在线| 丝袜美腿一区二区三区| 国产成人精品国内自产拍免费看 | 久久久夜精品| 成人黄色生活片| 天堂网在线播放| 国产乱妇无码大片在线观看| 国产精品国产三级国产专播精品人| 国产一级二级三级| 日韩精品导航| 亚洲国产精品大全| 午夜免费视频网站| 亚洲精品蜜桃乱晃| 日韩精品丝袜在线| 男人的午夜天堂| 国产精品亚洲综合久久| 91高清在线免费观看| 国产大片中文字幕在线观看| 视频一区二区三区中文字幕| 999热视频| 精品国产伦一区二区三区| 麻豆一区二区三| 精品国产一区二区三| 日韩中文字幕综合| 国产精品第13页| 红桃av在线播放| 国产不卡网站| 精品少妇一区二区三区日产乱码 | 日本美女久久久| 国产一区二区三区日韩精品| 久久久久久久久亚洲| 免费在线观看av网址| 欧美va天堂在线| 欧美黑人极品猛少妇色xxxxx | 欧美一级免费大片| 麻豆精品国产传媒| 久久精品播放| 国产精品wwwwww| 午夜在线观看视频18| 一区二区三区免费观看| 超碰成人在线播放| 日韩美女一区二区三区在线观看| 国产91精品高潮白浆喷水| 天堂中文字幕在线观看| 日精品一区二区| 成人精品视频99在线观看免费 | 久久国产一区二区三区| 国产女人18水真多毛片18精品| 视频一区二区三区入口| 蜜桃91精品入口| 午夜影院在线观看国产主播| 91久久精品国产91性色tv| 大尺度做爰床戏呻吟舒畅| 国产99久久精品一区二区300| 这里只有精品丝袜| 久久久久久久福利| 国产精品99久久久| 欧美第一黄网| 秋霞a级毛片在线看| 欧美制服丝袜第一页| 奇米777在线视频| 国产精品久久天天影视| 国内偷自视频区视频综合| 亚洲国产精品久久久久久久| 久久中文娱乐网| 成人黄色片视频| 精品国产一区二区三区香蕉沈先生 | 免费av一区二区三区| 理论不卡电影大全神| 在线观看日韩国产| 992在线观看| 中日韩视频在线观看| 亚洲国产精品91| 欧美成人r级一区二区三区| 久久高清内射无套| 国产日产高清欧美一区二区三区| 精品日韩电影| 新片速递亚洲合集欧美合集| 在线观看精品自拍私拍| 国产乱人乱偷精品视频| 亚洲一区国产视频| 中文在线一区二区三区| 欧美激情第10页| 国产乱码精品一区二区三区中文| 91在线视频| 婷婷久久综合九色综合绿巨人| 99久久免费看精品国产一区| 久久国产精品毛片| 一区二区三区av| 欧美特大特白屁股xxxx| 色婷婷成人综合| 亚洲毛片一区二区三区| 中日韩免费视频中文字幕| 国产资源中文字幕| 亚洲专区在线| 天天干天天色天天爽| 91tv亚洲精品香蕉国产一区| 日韩精品在线观看一区二区| 特级西西444www大胆免费看| 91毛片在线观看| 欧美成人免费在线观看视频| 综合中文字幕| 欧美乱大交xxxxx| 天天综合天天综合| 欧美日韩久久一区二区| 中日韩精品一区二区三区| 亚洲另类黄色| 国产欧美在线一区二区| 免费污视频在线观看| 亚洲欧美成人精品| www.久久精品.com| 色菇凉天天综合网| 草视频在线观看| 国产在线播放一区二区三区| 亚洲高清乱码| 欧美深夜视频| 日本在线精品视频| 黄色视屏网站在线免费观看| 狠狠色香婷婷久久亚洲精品| 国产精品无码一区二区三区免费 | 欧美xxxx做受欧美.88| 中文文字幕一区二区三三| 亚洲精品v日韩精品| 三级黄色片免费看| 蜜桃精品视频在线| 裸体大乳女做爰69| 成人精品影院| 欧美国产综合视频| 日韩精品福利一区二区三区| 成人动漫视频在线观看免费| 国产在线拍揄自揄拍视频| 欧美精品一区二区三区视频| 日本免费观看视| 亚洲精品v日韩精品| 中文字幕乱码av| 久久众筹精品私拍模特| 波多野结衣加勒比| 成人午夜视频在线| 97xxxxx| 亚洲人体大胆视频| 亚洲 自拍 另类小说综合图区| 欧美网色网址| 国产日韩精品久久| 中文字幕日韩在线| 不卡一区二区三区四区五区| 精品乱码一区二区三区四区| 国产精品xxx视频| 国产亚洲一区二区手机在线观看| 日韩一区二区精品视频| 亚洲精品成人电影| 精品国产一区二区国模嫣然| 国产黄色免费大片| 色综合久久久久久久久| 秋霞欧美一区二区三区视频免费| 国产日产欧美精品一区二区三区| 国产美女免费无遮挡| 精品一区二区免费在线观看| 亚洲综合色在线观看| 欧美日本三区| 久久综合伊人77777麻豆| 日日狠狠久久偷偷综合色| 国产综合色一区二区三区| 欧美性生活一级片| 久久亚洲国产精品日日av夜夜| 日韩mv欧美mv国产网站| 欧美日韩亚洲在线| 日本欧美肥老太交大片| 亚洲日本japanese丝袜| 国产精品传媒精东影业在线| japanese在线播放| 精品国产乱码| 亚洲高清在线观看一区| 婷婷丁香综合| 国产一级不卡视频| 日韩精品免费| 永久免费看av| 日韩天堂av| 91视频免费版污| 日韩网站在线| 精品久久久久久久免费人妻| 欧美午夜不卡| 国产亚洲精品网站| 欧美在线网站| 国产在线青青草| 久久精品国产成人一区二区三区 | 91小视频网站| 国产精品一二三四区| 先锋资源av在线| 国产精品理伦片| 免费一级做a爰片久久毛片潮| 国产 欧美在线| 中文字幕亚洲影院| 日本va欧美va精品| 99re在线视频免费观看| 蜜臀av性久久久久av蜜臀妖精| av在线网站免费观看| 91蜜桃传媒精品久久久一区二区| 综合 欧美 亚洲日本| 久久久精品国产免费观看同学| 天天摸日日摸狠狠添| 一个色在线综合| 成年人视频免费| 日韩精品最新网址| 国产av一区二区三区精品| 精品成人一区二区| 日韩大片在线永久免费观看网站| 一二美女精品欧洲| 日韩123区| 欧美日韩xxx| 成人精品三级| 国产自产精品| 伊人久久大香线蕉综合四虎小说 | 偷拍女澡堂一区二区三区| 亚洲天堂成人网| 杨钰莹一级淫片aaaaaa播放| 精品久久久久久久久久| 国产精品一区二区三区在线免费观看| 日韩成人在线观看| 色呦呦呦在线观看| 国产精品露脸av在线| 日本成人在线网站| 亚洲淫片在线视频| 国产一区二区欧美| 国产91美女视频| 成人午夜视频在线| 欧洲猛交xxxx乱大交3| 欧美日韩视频在线一区二区| 视频二区在线| 国产午夜精品全部视频播放| www.亚洲免费| 奇米四色中文综合久久| av成人app永久免费| 欧美aaa在线观看| 久久99国产精品免费网站| 在线小视频你懂的| 色综合亚洲欧洲| 涩爱av在线播放一区二区| 亚洲三级av在线| 日本不卡不卡| 国产精品欧美一区二区| 久久99国产精品视频| 日本午夜激情视频| 成年人网站91| 国产又黄又粗视频| 伊人夜夜躁av伊人久久| 亚洲在线观看av| 色久欧美在线视频观看| 精品123区| 特级西西444www大精品视频| 亚洲一级毛片| 欧美一级特黄aaa| 亚洲欧美综合网| 亚洲另类欧美日韩| 欧美日韩一级二级三级| 国产在线视频福利| 国产精品xxx视频| 日韩激情免费| 在线看免费毛片| 亚洲人123区| 亚洲精品国产手机| 性欧美长视频免费观看不卡| 国产成人精选| 久久99导航| 欧美疯狂party性派对| 国产九九在线视频| 中文字幕一区二区在线观看| 国产伦一区二区| 欧美激情一级二级| 日韩成人av在线资源| 久久久精品三级| 亚洲色大成网站www久久九九| 精品二区在线观看| 97色在线观看| av一区二区高清| 午夜大片在线观看| 亚洲高清不卡在线观看| 一道本在线视频| 欧美成人中文字幕在线| 都市激情亚洲欧美| 黑鬼大战白妞高潮喷白浆| 中文字幕国产一区二区| 国产乱淫av片免费| 69av在线视频| 97精品国产| 欧美激情一区二区三区p站| 中文字幕中文字幕中文字幕亚洲无线 | 黄色av网站在线播放| 粉嫩av四季av绯色av第一区| 久久精品成人| 18岁成人毛片| 亚洲天堂影视av| 日韩高清在线观看一区二区| 亚洲激情电影在线| 国产成人午夜视频| 秋霞精品一区二区三区| 亚洲电影天堂av| 小明成人免费视频一区| 免费观看亚洲视频| 久久精品欧美日韩精品| 国内精品国产成人国产三级| 日本欧美精品在线| 欧美精品大片| 色欲AV无码精品一区二区久久| 日韩欧美高清在线| 成人软件在线观看| 免费特级黄色片| 1区2区3区欧美| 国产主播福利在线| 国产日韩亚洲精品| 国产精品一区二区男女羞羞无遮挡| 欧美精品一二三四区|