精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

TTS和TTT已過時?TTRL橫空出世,推理模型擺脫「標注數據」依賴,性能暴漲

人工智能 新聞
在最新的一篇論文中,清華大學和上海人工智能實驗室提出了一種新方法 —— 測試時強化學習(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標注數據上對 LLM 進行強化學習訓練。

在大語言模型(LLMs)競爭日趨白熱化的今天,「推理能力」已成為評判模型優劣的關鍵指標。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSeek-R1 等模型的驚艷表現背后,測試時縮放(TTS)技術功不可沒。

測試時縮放(TTS,Test-Time Scaling)是一種提升大語言模型推理能力的新興策略,通過在測試階段優化推理過程(如多數投票、蒙特卡洛樹搜索等)提升大型語言模型(LLMs)的性能,而無需修改模型參數。

研究表明,TTS 在計算效率上優于預訓練階段擴大模型規模,能以更低資源成本實現更好表現。然而,TTS 依賴預訓練知識,在面對未標注新數據或輸入分布變化時,泛化能力受限。如 OpenAI o3 在某基準任務上達到 75.7% 的成功率,對更復雜的新任務卻僅能解決 4% 的問題。

為克服 TTS 的局限,測試時訓練(TTT,Test-Time Training)一度受到廣泛關注。TTT 通過在測試階段利用 RL 等技術動態更新模型參數,使模型適應新數據或任務,彌補了 TTS 在泛化能力上的不足。但 TTT 同樣面臨自身的挑戰:測試階段缺乏獎勵函數或驗證信號,而人工標注數據的高成本使得無監督環境下的 RL 應用受限。

在最新的一篇論文中,清華大學和上海人工智能實驗室提出了一種新方法 —— 測試時強化學習(Test-Time Reinforcement Learning,TTRL),該方法能夠在無標注數據上對 LLM 進行強化學習訓練。

image.png

  • 論文標題:TTRL: Test-Time Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2504.16084
  • GitHub:https://github.com/PRIME-RL/TTRL
  • HuggingFace:https://huggingface.co/papers/2504.16084

TTRL 通過利用預訓練模型中的先驗知識,使 LLM 具備自我演化的能力。實驗證明,TTRL 在多種任務和模型上都能持續提升性能:在僅使用未標注測試數據的情況下,TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024 任務中的 pass@1 指標提升了約 159%。

image.png

值得注意的是,雖然 TTRL 僅依靠 Maj@N 指標進行監督,但其表現不僅能持續超越初始模型的性能上限,更能接近于那些直接在有標注測試數據上進行監督訓練的模型性能。實驗結果驗證了 TTRL 在多種任務中的廣泛有效性,充分展示了該方法在更廣闊領域中的應用潛力。

方法

image.png

圖 2 展示了研究者提出的 TTRL 方法如何應對此類挑戰。給定狀態表示為輸入提示 x(prompt x),模型依據參數化策略 π_θ(y | x) 生成輸出 y。為了在無真實標簽的條件下構造獎勵信號,研究者通過重復采樣的方法,從模型中生成多個候選輸出 {y?, y?, ..., y_N}。接著,使用多數投票(majority voting)或其他聚合方法從這些候選中推導出共識輸出 y*,作為近似的最優動作(optimal action)的替代。

環境反饋的獎勵 r (y, y*) 則根據當前動作 y 與共識輸出 y* 之間的一致性進行設定。模型的 RL 目標是最大化期望獎勵:

圖片

通過梯度上升(gradient ascent)更新參數 θ:

圖片

該方法能夠在推理階段實現模型的動態適應,無需標注數據即可提升模型應對分布變化輸入時的性能。

多數投票獎勵函數(Majority Voting Reward Function)

多數投票獎勵機制的核心在于:首先借助多數投票策略估算一個偽標簽(pseudo-label),再基于該估計標簽計算規則驅動的獎勵(rule-based rewards),并作為最終用于 RL 訓練的獎勵信號。

在具體操作上,給定一個輸入問題 x,研究者對其輸入到大型語言模型中,并生成一組輸出結果。隨后,答案抽取器(answer extractor)對這些輸出進行處理,提取對應的預測答案,記為 P = {??}?_{i=1}。接著,研究者在集合 P 上應用第 4 節定義的多數投票策略函數 s (y, x),選出出現頻次最高的預測 y,作為估計標簽。

隨后,該多數投票結果 y 被用作標簽估計,用于計算基于規則的獎勵信號:

image.png

image.png

實驗

TTRL 在大多數任務和模型上都表現出色。盡管 TTRL 完全依賴于使用無標注測試數據的自我進化,但其性能卻可媲美基于大規模標注數據集訓練的現有 RL 模型。如表 1 所示,在 AIME 2024 上,TTRL 實現了 159.3% 的大幅提升,超過了所有在大規模數據集上訓練的模型。此外,當應用于 Qwen2.5-Math-7B 時,TTRL 在三個基準測試中平均提高了 84.1%。

截屏2025-04-24 09.15.54.png

TTRL 自然擴展。另一個值得注意的現象是,隨著模型大小的增加(從 1.5B 到 7B),其在 AIME 2024 和 AMC 上的性能提升也在增加,這凸顯了 TTRL 的自然擴展行為:更大的模型可以在自我改進過程中產生更準確的多數投票獎勵,從而更有效地學習新數據。不過,LLaMA-3.1-8B-Instruct 和 Qwen2.5-Math-1.5B 可能由于容量有限,未能通過 TTRL 在 AIME 2024 上取得有意義的進展。相比之下,Qwen2.5-Math-7B 的模型容量更大,知識更充分,因此可以從自我改進中獲益,從而取得明顯的性能提升(第 4.3 節會詳細討論這一點)。

TTRL 在目標任務之外也有很好的通用性。研究者以 Qwen2.5-Math-7B 為骨干,在每個基準上執行了 TTRL,并在其他基準上進行了進一步評估。圖 3 展示了結果。盡管這種設置具有分布外的性質,但 TTRL 在所有基準上都取得了實質性的改進。這表明 TTRL 并沒有依賴過擬合(過擬合會導致在其他任務上的取舍),而是在自我改進過程中獲得了可推廣的收益。

截屏2025-04-24 09.17.07.png

TTRL 與不同的 RL 算法兼容。圖 4 展示了結果。研究者在 MATH-500 上使用 PPO 應用 TTRL,以評估其與不同強化學習算法的兼容性。PPO 和 GRPO 的性能軌跡非常接近。與 GRPO 相比,PPO 能產生更穩定的結果,同時實現相似的整體性能。

討論

Q1:TTRL 的性能能有多好?

研究者使用了兩個上限來分析 TTRL 的潛在性能。第一個上限是 Maj@N,用于計算 TTRL 訓練過程中的獎勵。第二個上限是在基準數據集上的直接訓練,它假定可以訪問 ground-truth 標簽,因此會向策略模型泄露標簽信息。

關鍵發現如下:

1. TTRL 不僅超越了其訓練信號和初始模型的直觀上界 Maj@N,還接近了用標注測試數據訓練的直接 RL 的性能。這一進步可能要歸功于 TTRL 使用 RL 進行測試時間訓練:通過將基于投票的偽標簽轉換為獎勵,它提高了有效監督的質量,同時使學習擺脫了 Maj@N 的限制。

2. TTRL 的經驗上限是在測試數據上進行訓練(即在測試數據上進行訓練),這凸顯了它與標準訓練評估協議相比在功效上的潛在優勢。

3. 對于具有挑戰性的任務,TTRL 只需使用 1.5B 模型即可達到經驗上限。這表明,現在 LLM 可以通過 TTRL 有效地自我進化,從而在大規模數據集上實現無限制的終身學習。

TTRL 受 Maj@N 監督,卻超越了 Maj@N。圖 6 展示了 TTRL 在 Qwen2.5-Math-7B 上的測試結果。可以看出,在所有基準測試中,TTRL Avg@64 均優于 Qwen2.5-Math-7B Maj@64,大大超出預期。此外,在應用多數表決時,TTRL 的性能也有大幅提升。

截屏2025-04-24 10.08.25.png

TTRL 的「性能增益法」基準訓練,圖 7 展示了結果。令人驚訝的是,TTRL 的性能曲線非常接近 RL(泄漏)的性能曲線。

截屏2025-04-24 10.05.10.png

Q2:TTRL 為何有效?

這一節主要分析了 TTRL 在無監督條件下實現穩定有效的 RL 的因素,包括兩個關鍵方面:標簽估計和獎勵計算。

標簽估計。TTRL 與標準 RL 算法的一個直接區別是,TTRL 涉及標簽估計,而標簽估計會帶來獎勵誤差。研究者認為,盡管存在這些誤差,TTRL 仍能正常工作,原因有以下兩點:

(i) 現有研究表明,RL 可以容忍一定程度的獎勵不準確性。此外,與通常依賴于記憶訓練數據的監督微調(SFT)相比,RL 的泛化效果往往更好。在 RL 中,獎勵通常是模糊的,主要是作為探索的方向信號,這導致了 RL 對獎勵噪聲的魯棒性。

(ii) 之前的研究還從優化的角度研究了什么是好的獎勵模型,發現更準確的獎勵模型不一定是更好的教師。因此,由政策模型本身估計的獎勵信號可能會為學習提供更合適的指導。

獎勵計算。當模型能夠通過多數投票估算出準確的標簽時,隨后估算出的獎勵一般都是可靠的。然而,一個自然而然的問題出現了:為什么在 AIME 2024 等具有挑戰性的基準上,即使模型無法估算出準確的標簽,TTRL 仍然有效?

研究者表示,最根本的原因在于 RL 中獎勵的定義。基于規則的獎勵是根據預測答案是否與「標簽」匹配來分配的。因此,即使估計的標簽不是 ground-truth,只要它與錯誤預測的答案不同,系統仍可分配正確的「負」獎勵。

為了提供更詳細的案例研究,研究者在 Qwen2.5-Math-7B 上檢驗了 TTRL 在 AIME 2024 上的性能。圖 8 顯示了三個指標的變化曲線。

截屏2025-04-24 10.18.20.png

研究者發現了 TTRL 在 AIME 2024 上依然有效的兩個主要原因:

  • 首先,獎勵比標簽更密集,即使估計的標簽不準確,也有更多機會恢復有用的學習信號。
  • 其次,當模型能力較弱時,TTRL 給出的獎勵可能更準確。

Q3:TTRL 何時失效?

在算法層面,TTRL 與現有的 RL 算法并無本質區別,因此繼承了它們的一些特點,如對數據難度的敏感性、對先驗的強烈依賴性以及在某些條件下崩潰的風險。

在實現層面上,這些問題因 TTRL 的限制而進一步擴大,TTRL 通過多數投票來估計標簽,并且只在稀疏和以前未見過的測試數據上運行,在某些情況下可能會導致失敗。

在初步實驗中,研究者發現了兩個潛在問題:

缺乏對目標任務的先驗知識。如表 2 所示,研究者發現,隨著問題難度的增加,性能提高率和長度縮減率都呈下降趨勢。這表明主干系統的可用先驗知識不足以支持對更具挑戰性問題的學習。

截屏2025-04-24 11.00.39.png

不恰當的 RL 超參數。圖 10 比較了在 AIME 2024 上的幾次失敗嘗試。

截屏2025-04-24 11.03.29.png

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2010-03-25 10:04:10

UbuntuOne M

2021-12-17 07:00:56

ESMongoDBRedisJson

2018-11-29 10:49:36

2022-05-12 15:25:16

惡意軟件網絡攻擊

2013-11-01 09:07:15

2025-07-09 08:51:04

2010-12-09 09:09:37

2016-10-08 23:30:58

Power8云計算

2016-04-27 11:01:11

SparkStormApache Apex

2025-07-15 02:00:00

UIUCEBT架構

2009-05-07 18:50:35

四核Nehalem服務器

2011-05-04 15:09:56

激光打印機奔圖科技

2014-01-17 14:08:45

移動os國產軟件

2023-02-21 21:48:29

2023-04-19 07:34:21

AutoGPT程序員GitHub

2025-07-25 07:59:42

2025-11-12 17:14:11

字節豆包 CodingClaude

2015-06-19 09:21:52

JointForce解放號

2020-10-28 11:54:05

AI 數據人工智能

2014-11-13 16:37:50

點贊
收藏

51CTO技術棧公眾號

麻豆91精品视频| 欧美理论在线播放| 亚洲成人免费在线| 蜜桃999成人看片在线观看| 成人在线免费看视频| 沈樵精品国产成av片| 欧美色图天堂网| 99久久99久久精品| 日韩大胆人体| 蜜臀av一区二区三区| 欧美大码xxxx| 美女又爽又黄视频毛茸茸| 日本精品网站| 亚洲一区二区视频在线| 日韩精品一区二区三区色偷偷 | 777午夜精品福利在线观看| 欧美日韩高清丝袜| 亚洲视频国产精品| 欧美在线一区二区| av动漫在线播放| 欧美另类自拍| 成人h动漫精品| 国产精品一区久久久| 日韩精品一区二区三| 日韩欧美一区二区三区免费看| 欧美一级电影网站| 青青青国产在线视频| 大香伊人中文字幕精品| 中文字幕亚洲一区二区av在线| 国产精品jizz视频| 日本丰满少妇做爰爽爽| 国产精品vip| 丝袜亚洲另类欧美重口| 亚州av综合色区无码一区| 亚洲精品69| 欧美亚洲自拍偷拍| 春日野结衣av| 阿v视频在线| 一区二区三区在线免费播放| 亚洲精品乱码久久久久久蜜桃91 | 91嫩草|国产丨精品入口| 国产一区国产二区国产三区| 精品999久久久| 91网址在线观看精品| 欧美日韩在线精品一区二区三区激情综合 | 国产精品二区不卡| 中文字幕精品av| 国产精品亚洲无码| 西野翔中文久久精品国产| 精品国产三级电影在线观看| 伊人免费视频二| 日本a人精品| 欧美巨大另类极品videosbest | 午夜爱爱毛片xxxx视频免费看| 精品国产91久久久久久浪潮蜜月| 日韩高清人体午夜| 国产激情第一页| 久久365资源| 亚洲第一中文字幕在线观看| 日韩不卡的av| 精品视频一二| 69久久夜色精品国产69蝌蚪网| 人妻无码视频一区二区三区| 成人软件在线观看| 一区二区三区国产| 日韩欧美视频免费在线观看| av香蕉成人| 亚洲欧美一区二区不卡| 国产精品久久成人免费观看| 国产精品久久麻豆| 亚洲人精品一区| 黄色网zhan| 色女人在线视频| 亚洲大片免费看| 久在线观看视频| 欧美magnet| 欧美在线免费观看视频| 国内外成人免费在线视频| 91精品国产色综合久久不卡粉嫩| 91精品国产色综合久久不卡电影| 亚洲在线观看网站| 国产精品久久久久av蜜臀| 亚洲缚视频在线观看| 女同毛片一区二区三区| 欧洲激情视频| 久久中文字幕在线| 日韩精品视频免费看| 亚洲永久视频| 国产精品嫩草影院久久久| 国产尤物视频在线观看| 成人午夜在线播放| 日韩激情视频| av网站免费在线观看| 午夜av一区二区三区| 国内外免费激情视频| 四虎影视国产精品| 精品国内二区三区| 成年人在线免费看片| 永久亚洲成a人片777777| 国内精品久久久久影院 日本资源| 久久久久亚洲av成人毛片韩| 久久狠狠亚洲综合| 超碰在线观看97| 国产中文字幕在线观看| 亚洲欧洲精品一区二区三区| 黄色大片在线免费看| 成人av色网站| 亚洲精品一区二区三区99| 一级片视频免费看| 很黄很黄激情成人| 国产免费亚洲高清| 天堂视频中文在线| 中文字幕日本不卡| 男人亚洲天堂网| 免费观看性欧美大片无片| 亚洲欧美中文日韩在线| 久久久精品国产sm调教| 奇米影视在线99精品| 国产日韩在线一区二区三区| 色老头视频在线观看| 黑人精品xxx一区| 日韩欧美中文视频| 青青草国产成人a∨下载安卓| 96精品视频在线| 99热在线只有精品| 欧美国产精品中文字幕| 久色视频在线播放| 网站一区二区| 日韩中文在线不卡| 9i精品福利一区二区三区| 国产91露脸合集magnet| 做爰高潮hd色即是空| 黄色亚洲网站| 亚洲激情在线观看| 久久久无码精品亚洲国产| 免费成人在线观看| 欧美日韩亚洲在线| 三级在线观看视频| 亚洲第一页在线| 国产一卡二卡在线播放| 国产精品亚洲а∨天堂免在线| 亚洲精品一区二区毛豆| 欧美一区久久久| 亚洲精品视频在线播放| 国产无码精品在线播放| 国产91精品入口| 国产免费裸体视频| 1204国产成人精品视频| 欧美成人全部免费| 国产三级小视频| 亚洲人成在线观看一区二区| 欧美精品久久久久久久久25p| 欧美精品一区二区三区中文字幕| 日本sm极度另类视频| 全色精品综合影院| 日韩欧美在线国产| 精品人妻无码一区二区三区| 国产精品毛片一区二区三区| 久久精品国产第一区二区三区最新章节 | 国产午夜福利一区二区| 国产jizzjizz一区二区| 欧美这里只有精品| 麻豆一区二区| 青青久久aⅴ北条麻妃| 男人天堂网在线| 欧美三级欧美一级| 欧美性生交大片| 国产乱对白刺激视频不卡| 久久www视频| 成人直播在线观看| 91av网站在线播放| 国产在线一在线二| 欧美日韩精品一区二区在线播放 | 亚洲激情自拍视频| 岛国精品一区二区三区| 99热在线精品观看| 日韩高清在线播放| 国产精品一区二区精品| 久久久久国产精品www| 天天操天天干天天插| 色综合欧美在线| 特黄一区二区三区| 高清国产一区二区三区| 精品这里只有精品| 日本欧美肥老太交大片| 亚洲一区二区三区sesese| 青春草视频在线| 国产视频精品在线| 91av久久久| 亚洲地区一二三色| 色一情一交一乱一区二区三区| 青娱乐精品在线视频| www国产免费| 免费观看久久av| 成人黄色网免费| 久久青草伊人| 日韩在线观看免费高清| 日韩在线观看视频一区| 欧美中文字幕一区二区三区亚洲| 中文字幕另类日韩欧美亚洲嫩草| 成人av片在线观看| 中文字幕第36页| 精品福利电影| 亚洲精品永久www嫩草| 都市激情亚洲欧美| 国产精品视频精品视频| brazzers在线观看| 日韩在线观看高清| 黄视频在线观看免费| 精品国产一区二区三区忘忧草 | 国产一区成人| 亚洲第一综合网站| 国产中文字幕一区二区三区| 成人欧美一区二区三区黑人免费| 日韩制服诱惑| 97在线观看免费| 精品国产白色丝袜高跟鞋| 亚洲乱码av中文一区二区| 精品久久久无码中文字幕| 在线中文字幕一区| 久久狠狠高潮亚洲精品| 一区视频在线播放| av黄色免费网站| proumb性欧美在线观看| 日本一本在线视频| 美美哒免费高清在线观看视频一区二区 | 国产精品人成电影| 午夜影视一区二区三区| 久久久久久久久综合| 黄色片免费在线观看| 中国日韩欧美久久久久久久久| 熟妇人妻中文av无码| 日韩欧美国产综合一区| 91久久久久久久久久久久| 色偷偷久久一区二区三区| 日产精品久久久久| 亚洲一区在线观看视频| 国产一区二区视频在线观看免费| 日本一区二区动态图| 亚洲天堂视频一区| 92精品国产成人观看免费| 91精品人妻一区二区三区四区| 久久99精品久久久久久| 日韩欧美国产片| 美腿丝袜亚洲色图| 久久久久久久久久久久91| 日韩成人伦理电影在线观看| 日韩av片在线看| 美女91精品| 欧美女人性生活视频| 久久精品30| 免费在线观看毛片网站| 久久久精品午夜少妇| 国产97在线 | 亚洲| 国产情侣久久| av动漫在线观看| 天堂久久久久va久久久久| 可以在线看的黄色网址| 久久亚洲国产精品一区二区| 99免费视频观看| 日本vs亚洲vs韩国一区三区二区| 亚洲精品自拍网| 韩国精品一区二区| xxxx视频在线观看| 成人丝袜18视频在线观看| 污污内射在线观看一区二区少妇| 99视频一区二区| 丝袜美腿中文字幕| 国产欧美精品日韩区二区麻豆天美| 亚洲精品国产一区黑色丝袜| 国产精品久久久久精k8| caoporn91| 亚洲电影第三页| 91美女免费看| 欧洲一区二区av| 91国内精品久久久| 日韩三级精品电影久久久| 日韩中文字幕影院| 亚洲欧美一区二区三区情侣bbw| 777电影在线观看| 久久久精品久久久久| 999精品网| 日韩av不卡在线| 日韩黄色三级| 国产精品制服诱惑| 经典一区二区| 可以在线看黄的网站| 亚洲伦伦在线| 亚洲爆乳无码专区| 国产乱国产乱300精品| 一级片手机在线观看| 亚洲日本青草视频在线怡红院| 国产精品16p| 欧美丝袜自拍制服另类| 亚洲经典一区二区| 亚洲午夜色婷婷在线| 欧美人与性动交α欧美精品济南到| 欧美一级电影在线| 黑人一区二区三区| 九色视频成人porny| 欧美韩国日本在线观看| 99久久国产综合精品五月天喷水| 人妖欧美一区二区| av黄色一级片| 综合激情成人伊人| www.国产毛片| 欧美成人精品福利| 91成人高清| 2021久久精品国产99国产精品| av国产精品| 欧美日韩精品免费看| 欧美a级在线| 国产 porn| 99视频有精品| 久久高清无码视频| 欧美日韩一区二区三区在线看| 五月天婷婷在线观看| 欧美成人性生活| 成人av色网站| 欧美一区免费视频| 亚洲三级国产| 韩国一区二区三区四区| 国产精品久久久久久久久免费相片| 91美女免费看| 亚洲精品在线免费播放| 欧美成年黄网站色视频| 国产精品aaaa| 亚洲成在人线免费观看| 91免费黄视频| 国产盗摄精品一区二区三区在线| 三级黄色片在线观看| 色美美综合视频| 神马电影在线观看| 午夜精品国产精品大乳美女| 欧美影院视频| 天天干天天色天天爽| 麻豆视频一区二区| 亚洲欧美日韩第一页| 日本高清不卡视频| 麻豆app在线观看| 91禁外国网站| 日韩美女毛片| av天堂永久资源网| 久久男人中文字幕资源站| 你懂的国产视频| 亚洲精品福利免费在线观看| 1234区中文字幕在线观看| 99国内精品久久久久久久软件| 午夜性色一区二区三区免费视频 | 欧美成人三级| 亚洲精品一区二| 久久99精品久久久久久动态图| 国产一区第一页| 在线播放亚洲一区| 在线中文字幕视频观看| 2019国产精品视频| 欧美高清日韩| 伦理片一区二区| 精品国产乱码久久久久久虫虫漫画 | 欧美视频一区二区三区在线观看 | 国产午夜伦鲁鲁| 91日韩一区二区三区| 黄色在线视频网址| 中日韩午夜理伦电影免费| 韩日一区二区| 国产精品av免费| 国产成人亚洲综合a∨猫咪| 国产精彩视频在线观看| 日韩hd视频在线观看| 日本欧美韩国| 在线国产精品网| 国产福利不卡视频| 免费在线不卡视频| 一区二区三区精品99久久| 欧美风情在线视频| 久久久天堂国产精品| 99国产精品久久久久久久久久 | 在线电影欧美成精品| 青草av在线| 久久99九九| 美国十次了思思久久精品导航| 国产极品美女在线| 亚洲黄色在线观看| 色天使综合视频| 国产制服91一区二区三区制服| av资源网一区| 在线观看国产精品入口男同| 欧美成人性色生活仑片| 免费黄色成人| 超碰人人cao| 欧美特级www| 老司机福利在线视频| 久久国产精品 国产精品| 麻豆精品视频在线观看视频| 久一视频在线观看| 在线精品播放av| 国产精品白浆| 五月天激情播播| 色综合一区二区| 69xxx在线|