精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習帶來的改進只是「噪音」?最新研究預警:冷靜看待推理模型的進展

人工智能 新聞
受推理領域越來越多不一致的經驗說法的推動,我們對推理基準的現狀進行了嚴格的調查,特別關注了數學推理領域評估算法進展最廣泛使用的測試平臺之一 HuggingFaceH4,2024;AI - MO。

「推理」已成為語言模型的下一個主要前沿領域,近期學術界和工業界都取得了突飛猛進的進展。

在探索的過程中,一個核心的議題是:對于模型推理性能的提升來說,什么有效?什么無效?

DeepSeek - R1 論文曾提到:「我們發現將強化學習應用于這些蒸餾模型可以獲得顯著的進一步提升」。3 月 20 日,論文《Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't》再次驗證了 RL 對于蒸餾模型是有效的。

盡管這些論文的結論統統指向了強化學習帶來的顯著性能提升,但來自圖賓根大學和劍橋大學的研究者發現,強化學習導致的許多「改進」可能只是噪音。

圖片

  • 論文標題:A Sober Look at Progress in Language Model Reasoning: Pitfalls and Paths to Reproducibility 
  • 論文鏈接:https://arxiv.org/pdf/2504.07086

「受推理領域越來越多不一致的經驗說法的推動,我們對推理基準的現狀進行了嚴格的調查,特別關注了數學推理領域評估算法進展最廣泛使用的測試平臺之一 HuggingFaceH4,2024;AI - MO?!?/span>

論文指出,在 AIME24 等小型基準測試中,結果極不穩定:僅僅改變一個隨機種子就足以使得分發生幾個百分點的變化。 當在更可控和標準化的設置下評估強化學習模型時,其收益會比最初報告的要小得多,而且通常不具有統計顯著性。

然而,一些使用強化學習訓練的模型確實表現出了適度的改進,但這些改進通常比監督微調所取得的成果更弱,而且它們通常不能很好地推廣到新的基準。

圖片

研究者系統分析了造成這種不穩定性的根本原因,包括采樣差異、解碼配置、評估框架和硬件異質性。我們表明,如果不仔細控制,這些因素會嚴重扭曲結論。與此同時,研究者提出了一套最佳實踐,旨在提高推理基準的可重復性和嚴謹性。

AI 研究者 Sebastian Raschka 表示:「盡管強化學習在某些情況下可能有助于改進較小的蒸餾模型,但它的好處被夸大了,需要更好的評估標準來了解哪些方法真正有效。此外,這不僅僅是強化學習和推理模型的問題,我認為 LLM 研究整體上都受到了影響。」

圖片

探索推理的設計空間:什么最重要?

最近的以推理為重點的語言模型是在非常不同的條件下進行評估的,包括評估框架和硬件、隨機種子數量、溫度和核采樣參數(top_p)的差異(見表 1)。

圖片

雖然此前的研究已經考察了采樣參數在多選題和編碼任務中的影響,但這些選擇對開放式推理模型(特別是那些用強化學習訓練的模型)的影響仍未得到充分探索。

本文的研究者系統地評估了這些設計選擇如何影響性能,并強調了對結果可靠性影響最大的變異來源。

評估中的種子方差

研究者首先分析了評估過程中使用的隨機種子所引起的方差,這是基準測試實踐中經常被忽視的一個方面。近期的工作盡管要求統計的嚴謹性(如使用誤差棒和多次運行),但評估經常依賴于單種子運行,從而掩蓋了潛在的變異性。本文評估了九種模型中,每種模型在 20 次獨立評估運行中種子引起的變異。結果如圖 2 所示。

圖片

可以看到,Pass@1 值的標準偏差出奇地高,各種子的標準偏差從 5 個百分點到 15 個百分點不等。這一問題在 AIME'24 和 AMC'23 中尤為嚴重,這兩個考試分別只有 30 和 40 個測試樣本。僅一個問題的變化就會使 Pass@1 偏移 2.5 - 3.3 個百分點。

硬件和軟件因素造成的差異

硬件和評估框架等非顯而易見的因素也會造成性能差異,但這一點很少得到承認。模型通常在異構系統上進行測試,并使用不同的工具鏈進行評估。

  • 硬件差異

研究者在五個不同的計算集群上對同一模型進行了評估,每個集群的 GPU 類型和內存配置各不相同。

如圖 8 所示,在 AIME'24 上,OpenRS - 1.5B 的性能差異高達 8%,DeepSeek - R1 - Distill - 7B 的性能差異為 6%,在 AMC'23 上也觀察到了類似的趨勢。眾所周知,vLLM 等推理引擎對硬件差異非常敏感,而 PyTorch 或 CUDA 中的底層優化可能會引入非確定性,但結果表明,即使對多個種子進行平均,這些影響也會對基準精度產生顯著影響。

截屏2025-04-13 10.43.00.png

  • 不同 Python 框架下的評估

為了評估這種影響,研究者對 lighteval 和 evalchemy 進行了比較,同時保持所有其他變量固定不變:模型、數據集、硬件、解碼參數和隨機種子(每個模型 3 個)。

為了進行公平比較,研究者在單個 GPU 上以默認溫度和 top_p 參數值對 DeepSeek - R1 - Distill - 1.5B 和 S1.1 - 7B 這兩個模型進行了評估。為了提高魯棒性,本文給出了三個種子的平均結果。

如表 2 所示,框架引起的差異通常很?。? - 2pp),但在緊密聚類的情況下仍會影響模型排名。

截屏2025-04-13 09.38.28.png

Prompt 格式和上下文長度的影響

最大輸出 token。如圖 9 所示,減少 max_new_tokens 會降低性能,尤其是在長表單問題上。這種敏感度因模型和數據集而異。雖然減少這一設置可以降低成本,但可能會導致過早停止,從而導致錯誤答案。

Prompt 格式。提示格式對準確性有顯著影響。如圖 10 所示,模型在使用數學特定 Prompt 及其本地聊天模板時表現最佳。省略模板會導致性能下降,特別是對于經過指令調優的模型。

圖片

(一級)怎么解決?答案是「評估的標準化」

在本節中,研究者將對評估框架進行標準化,并對現有方法進行全面評估。關鍵結論如下:

  • 大多數通過強化學習(RL)訓練的 DeepSeek R1 - Distill 模型的變體未能顯著提高性能(DeepscaleR 除外),這表明仍缺乏可靠和可擴展的強化學習訓練方案。
  • 盡管通過強化學習訓練的方法通常能顯著改善基礎模型的性能,但指令調優依然優于強化學習訓練的方法(Open Reasoner Zero 除外),這再次表明仍缺乏可靠和可擴展的強化學習訓練方案。
  • 在較大模型的推理軌跡上進行監督微調可在基準測試中獲得顯著且可推廣的提升,且隨著時間推移進展得以成功復制——這突顯了其作為訓練范式的穩健性和成熟性。
  • 當前基于強化學習的方法非常容易過擬合,強調了需要更嚴格的異域基準測試。相比之下,SFT(監督微調)模型表現出更強的泛化能力和韌性。
  • 較長的響應與較高的錯誤概率相關聯,響應長度在 consensus@k 中是識別低置信度或失敗生成的一種實用啟發式思路。
  • 準解碼策略似乎足以捕捉模型在有效推理路徑上的完整分布,反駁了多樣性坍縮假說。

清醒的觀察:結果

表 3 展示了實驗結果,并對結果的不同方面進行了分析。

截屏2025-04-13 09.09.15.png

研究者在標準化評估環境中,對六個數學推理基準測試進行了模型評估,并針對這些模型的 Pass@1 準確率(均值 ± 標準差)進行了報告。在 AIME 和 AMC 基準測試中,結果采用了十個隨機種子的平均值,而其他基準測試則使用了三個隨機種子的平均值。研究者采用了 LightEval 框架,并為每種方法調試了最佳超參數。

需要指出的是,除了數學模型的上下文長度為 4096 之外,其他模型的上下文長度均設定為 32768,并使用了適宜的提示模板。同時,基于強化學習(RL)和監督微調(SFT)的模型變體分別針對各自的基礎模型或指令調優模型進行了評估。

主要結論如下:

  • 通過強化學習訓練的方法未能顯著提升性能。
  • 在推理路徑上,SFT 展現了顯著的泛化能力。

發現的現象是否可復現?詳細分析

研究者進一步調查了最近注意到的兩種現象,以驗證它們是否在實驗中得以復現:

  • 響應長度與性能之間的關系。
  • 以推理為重點的訓練后,響應的多樣性是否有所下降。

1、錯誤響應是否更長?

較長的響應是否意味著錯誤答案的可能性更高?他們比較了在六個數據集(AIME24、AIME25、AMC23、MATH500、Minerva 和 OlympiadBench)中正確和錯誤答案的響應長度分布,并在每個模型的隨機種子上進行了平均。

 圖 11 展示了按響應長度分組的每個種子的平均響應數量直方圖。

圖片

數據顯示了一個明顯趨勢:較短的響應更可能是正確的,而較長的響應則逐漸表現出更高的錯誤率。這一模式在所有種子中都保持一致,特別是在超過 10000 個 token 的響應中表現得最為顯著。研究者就此提出兩個關鍵問題:

Q1:這一模式是否同時適用于基于 RL 和 SFT 訓練的模型?

分析結果表明,這一趨勢在 RL 和 SFT 訓練的模型中均存在。具體而言:

  • RL 訓練模型(左側顯示)中這一效應更為顯著
  • SFT 訓練模型(右側顯示)中這一效應相對較弱
  • Qwen 2.5 Math 基礎模型也表現出輕微的長度相關性,但這種相關性在 R1 - distill 及后續的 RL 訓練模型中更為突出

Q2. 這種現象是否主要由截斷或不完整的響應導致?

盡管接近 32000 token 限制的響應幾乎總是錯誤的(由上下文長度限制所致),但即便是較短的完整響應,這一趨勢依然存在——較長的響應與較高的錯誤概率相關。

2、在推理訓練中是否存在多樣性坍縮?

為了驗證這些主張,研究者比較了 RL 訓練模型在所有數據集中的 Pass@k 性能(對于 k∈1, 5, 10)與其相應的基礎模型(如 DeepSeek - R1 - Distill - Qwen - 1.5B)。表 4 呈現了各方法的 Pass@k 相對于基礎模型的變化情況。

截屏2025-04-13 09.16.26.png

結果顯示,并未觀察到一致的多樣性坍縮現象。Pass@1 的提升通常伴隨著 Pass@k 的整體改善,盡管不同指標的提升幅度存在差異。在 Pass@k 性能下降的情況下,這種下降往往與 Pass@1 的偶發性下降同時出現,而非獨立發生,這一發現并不支持多樣性坍縮的假設。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-12-01 08:00:00

2025-10-10 09:02:16

2025-06-23 09:07:00

2025-05-30 04:00:00

IBMRLVRGRPO

2024-07-26 09:33:22

2025-05-26 09:16:00

2025-04-02 09:00:00

模型開源AI

2025-04-27 09:19:00

強化學習模型AI

2025-10-20 01:00:00

強化學習AI人工智能

2025-06-05 08:40:00

2025-05-14 09:03:00

2025-06-03 08:49:00

2024-01-26 08:31:49

2025-06-27 10:10:43

AI模型技術

2025-08-07 09:16:41

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-10 03:30:00

2025-10-11 04:00:00

2025-05-30 02:00:00

獎勵模型RRMAI
點贊
收藏

51CTO技術棧公眾號

中文字幕第15页| 中文字幕在线观看视频www| 天堂在线资源库| 老鸭窝亚洲一区二区三区| 国产一区二区三区在线视频| 一女二男3p波多野结衣| 午夜dj在线观看高清视频完整版| 成人中文字幕合集| 国产z一区二区三区| 国产福利视频网站| 日韩影片在线观看| 色噜噜偷拍精品综合在线| 四虎免费在线观看视频| 四虎精品成人影院观看地址| 美女视频免费一区| 国模视频一区二区三区| jizzjizz日本少妇| 欧美性生活一级片| 欧美一区二区视频免费观看| 国产日产欧美视频| 污污的网站在线免费观看| 久久精品一区二区三区不卡| 成人自拍爱视频| 曰批又黄又爽免费视频| 午夜在线播放视频欧美| 欧美日韩国产成人在线| 黄色av片三级三级三级免费看| 爱高潮www亚洲精品| 欧美日韩成人综合| 日本成人在线免费视频| 久草在线资源站资源站| 自拍av一区二区三区| 精品一区二区三区视频日产| a级片在线免费看| 日本免费新一区视频| 555www成人网| 国产午夜精品无码一区二区| 欧美一区网站| 日韩三级影视基地| 69精品无码成人久久久久久| 神马久久影院| 亚洲国产又黄又爽女人高潮的| 黄色三级视频在线播放| 欧美视频在线视频精品| 91官网在线观看| 国产精品少妇在线视频| 日本午夜大片a在线观看| 亚洲午夜国产一区99re久久| 青青草综合视频| 麻豆网站在线看| 国产精品毛片高清在线完整版| 欧美一区亚洲二区| 九色国产在线观看| 国产亚洲欧美一级| 欧美精品二区三区四区免费看视频| 韩国一区二区在线播放| 日本.亚洲电影| 欧美性少妇18aaaa视频| 97xxxxx| 在线男人天堂| 一本在线高清不卡dvd| 国产欧美在线一区| 中文字幕乱码在线播放| 欧美日韩一区免费| 手机看片福利盒子久久| 日韩一区二区三区在线免费观看| 欧美在线免费观看视频| 色综合天天色综合| 欧美一级做a| 欧美一区二区三区精品| 激情av中文字幕| 96sao在线精品免费视频| 亚洲国产成人精品久久| 丰满少妇在线观看资源站| 亚洲制服一区| 丝袜一区二区三区| 男人的天堂久久久| 雨宫琴音一区二区在线| 欧美在线xxx| 糖心vlog精品一区二区| 国产伦精品一区二区三区视频青涩| 亚洲自拍偷拍一区| 你懂的网站在线| 国产日韩欧美不卡在线| 国产日本欧美在线| 国产高清中文字幕在线| 在线观看视频欧美| 亚洲精品一二三四| 日韩电影不卡一区| 色系列之999| 日本三级片在线观看| 噜噜噜躁狠狠躁狠狠精品视频| 国产精品678| 超碰福利在线观看| 久久久www免费人成精品| 一区二区三区的久久的视频| 麻豆蜜桃在线| 欧美在线免费观看视频| 蜜臀aⅴ国产精品久久久国产老师| 亚洲宅男一区| 欧美精品成人91久久久久久久| 影音先锋亚洲天堂| 激情久久五月天| 精品久久久久久综合日本| 777电影在线观看| 亚洲成a人v欧美综合天堂| 亚洲欧美国产日韩综合| 久久婷婷国产| 欧美成人国产va精品日本一级| 亚洲男人的天堂在线视频| 九色porny丨国产精品| 久久久综合亚洲91久久98| 久久日韩视频| 欧美在线免费视屏| 欧美一区二区三区成人精品| 欧美日韩一区二区国产| 国产精品视频久久久久| 日韩成人黄色| 亚洲午夜一区二区三区| 加勒比av中文字幕| 精品理论电影在线| 91禁外国网站| 欧美性猛交 xxxx| 亚洲精品高清在线观看| 日韩精品视频一二三| 婷婷成人影院| 91国内免费在线视频| 99久久精品无免国产免费| 国产精品无码永久免费888| 欧美日韩国产精品激情在线播放| 一区二区三区四区高清视频| www日韩中文字幕在线看| 波多野结衣在线电影| 91麻豆精东视频| www.日本在线播放| 国产精品xxx在线观看| 久久精品国产久精国产一老狼 | 日本黄色的视频| 一道本一区二区三区| 亚州国产精品久久久| 亚洲精品97久久中文字幕| 亚洲视频一区二区免费在线观看| 成人性做爰aaa片免费看不忠| 亚瑟一区二区三区四区| 1769国产精品| 日本韩国精品一区二区| 亚洲美女色禁图| 欧美视频免费在线观看| 激情av中文字幕| 真实国产乱子伦精品一区二区三区| 国产精品久久久久久久久久久新郎 | 国产精品美女网站| 男人的天堂在线视频| 懂色av中文一区二区三区天美| 免费不卡的av| 99热免费精品在线观看| 狠狠色综合网站久久久久久久| 欧美大胆的人体xxxx| 精品日韩在线一区| 精品无码av在线| 成人精品高清在线| 欧美久久久久久久久久久久久| 精品少妇3p| 浅井舞香一区二区| 精品av中文字幕在线毛片| 91成人免费在线| 日本精品在线免费观看| 国产精品亚洲一区二区三区妖精 | 激情五月婷婷综合| 日本精品免费视频| 精品国产影院| 国产成人精品av在线| 91高清在线| 欧美一区二区三区在| 国产午夜精品无码一区二区| 久久综合色之久久综合| 我看黄色一级片| 女人香蕉久久**毛片精品| 国产不卡一区二区三区在线观看 | 国产精品亚洲精品| www.久久ai| 亚洲成人在线视频播放| 波多野结衣爱爱| 亚洲人xxxx| 久久久久久久无码| 美女视频黄a大片欧美| a级黄色片免费| 色婷婷精品视频| 成人欧美一区二区三区在线| 999av小视频在线| 国产一区二区三区在线看| 99er热精品视频| 色综合天天狠狠| 国产精品视频一区二区三| 99r国产精品| 性欧美在线视频| 国产精品美女久久久| 在线丝袜欧美日韩制服| 国产精品玖玖玖在线资源| 国产精品久久久久秋霞鲁丝 | 亚洲一级免费在线观看| 精品91视频| 成年人黄色在线观看| 欧美爱爱网站| 亚洲在线观看视频| 日日av拍夜夜添久久免费| 欧美激情区在线播放| a√资源在线| 日韩国产在线播放| 国产jzjzjz丝袜老师水多| 色屁屁一区二区| 国产五月天婷婷| 亚洲欧美一区二区久久| 色欲狠狠躁天天躁无码中文字幕| 成人精品一区二区三区四区| 中文字幕天天干| 亚洲综合另类| 日韩网站在线免费观看| 亚洲国产老妈| 亚洲精品国产精品久久| 五月激激激综合网色播| 国产精品国产亚洲精品看不卡15| 日日夜夜一区| 2020欧美日韩在线视频| 国内小视频在线看| 久精品免费视频| 日本激情在线观看| 在线视频欧美性高潮| 毛片在线播放网址| 日韩精品免费一线在线观看| 亚洲老妇色熟女老太| 制服丝袜中文字幕一区| 亚洲中文字幕在线观看| 欧美性大战久久| 国产成人自拍偷拍| 在线一区二区三区做爰视频网站| 免费在线不卡视频| 欧美视频一区二区三区…| 日韩男人的天堂| 五月天亚洲婷婷| 懂色av.com| 亚洲va欧美va人人爽| 久久久美女视频| 亚洲国产成人tv| 国产第一页在线播放| 亚洲福利视频三区| 国产无遮挡又黄又爽又色| 亚洲成人av在线电影| 日本中文字幕网| 午夜欧美2019年伦理 | 欧美午夜一区二区三区免费大片| 亚洲精品一区二三区| 欧美日韩国产首页| 国产乱淫av免费| 日韩一本二本av| а√中文在线资源库| 亚洲电影天堂av| 日韩a在线观看| 亚洲香蕉成视频在线观看| 国产粉嫩一区二区三区在线观看| 中文字幕欧美日韩精品| 久久国产精品一区| 欧美激情综合色| 涩涩av在线| 国产精品露脸av在线| 婷婷激情成人| av成人免费观看| 日本欧美韩国国产| 亚州欧美一区三区三区在线| 成人午夜国产| 国产91视频一区| 一区二区三区国产在线| 亚洲五月天综合| 黄色资源网久久资源365| xxxx视频在线观看| 久久婷婷国产综合国色天香| jizzjizzjizz国产| 亚洲线精品一区二区三区| 91午夜视频在线观看| 欧美性淫爽ww久久久久无| 国产精品爽爽久久久久久| 亚洲成人网在线观看| 国产乱理伦片a级在线观看| 久久九九免费视频| 捆绑调教日本一区二区三区| 国产精品美乳在线观看| 日本高清精品| 欧美午夜视频在线| 亚洲成人99| 99热成人精品热久久66| 久久精品国产成人一区二区三区 | 韩国精品久久久999| 一二区成人影院电影网| 91久久精品www人人做人人爽 | 亚洲人成网站免费播放| 国产调教视频在线观看| 日本不卡免费高清视频| 欧一区二区三区| 日韩中文字幕av在线| 狠狠88综合久久久久综合网| 国产成人精品视频ⅴa片软件竹菊| 国产精品影视在线观看| 亚洲永久精品ww.7491进入| 亚洲女同一区二区| 久久久久久久久久成人| 欧美不卡在线视频| 天天综合视频在线观看| 2019中文在线观看| 日韩在线视频一区二区三区| 亚洲精品高清国产一线久久| 国产免费成人| 国产精品嫩草69影院| 中文字幕一区在线观看视频| 特级毛片www| 亚洲电影免费观看高清| 羞羞视频在线免费国产| 国产精品一区二区三区在线播放| 欧美调教在线| 韩日视频在线观看| 国内一区二区视频| 9.1片黄在线观看| 一本一道综合狠狠老| 天天操天天干天天爱| 欧美黑人巨大xxx极品| 精品国产鲁一鲁****| 亚洲一区二区三区加勒比| 三级欧美韩日大片在线看| 亚洲少妇18p| 亚洲国产日韩在线一区模特| 99产精品成人啪免费网站| 久久精品小视频| 欧美网站免费| 亚洲一卡二卡| 美女网站在线免费欧美精品| 黄免费在线观看| 91福利在线免费观看| 精品视频一二区| 国产不卡av在线| 精品日韩毛片| 日韩手机在线观看视频| 国产亚洲制服色| 日韩黄色一级视频| 亚洲一级黄色片| 欧美成人性网| 日韩av电影免费在线观看| 日韩精品五月天| 免费观看a级片| 欧美日韩情趣电影| 免费高清完整在线观看| 国产中文字幕91| 亚洲综合色站| 潘金莲一级淫片aaaaaaa| 亚洲香蕉伊在人在线观| 色偷偷在线观看| 4p变态网欧美系列| 最新精品国偷自产在线| caoporn超碰97| 欧美国产精品一区二区| 96亚洲精品久久久蜜桃| 美乳少妇欧美精品| 成人三级毛片| 高清在线观看免费| 国产婷婷一区二区| 自拍偷拍精品视频| zzjj国产精品一区二区| 日本免费精品| 少妇高潮毛片色欲ava片| 久久久久亚洲综合| 亚洲自拍偷拍另类| 欧美成人精品不卡视频在线观看| 午夜日韩影院| 国产 福利 在线| 亚洲欧洲av一区二区三区久久| 国产片在线播放| 国内精品久久久久久| 久草成人资源| 污视频网址在线观看| 夜色激情一区二区| 天堂中文在线视频| 国产欧美欧洲在线观看| 欧美激情视频一区二区三区免费| www男人天堂| 欧美在线免费视屏| 日韩特级毛片| 欧美日韩精品免费在线观看视频| 麻豆免费精品视频| 国产在线视频第一页| 伊人青青综合网站| 欧美片网站免费| 黄色片视频在线播放| 亚洲日本在线天堂| 日本中文字幕一区二区有码在线| 国产精品日韩在线| 精品动漫av| 人妻互换一区二区激情偷拍| 亚洲成人999| 欧美视频免费看| 99久久激情视频| 亚洲综合一区二区精品导航| 成人动漫在线播放|