精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小而美!1B模型如何通過測試時優化逆襲405B LLM?

發布于 2025-2-24 11:01
瀏覽
0收藏

今天分享一篇來自上海人工智能實驗室、清華大學、哈爾濱工業大學和北京郵電大學聯合的一篇文章,標題是:Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling(1B 的 LLM 能否超越 405B 的 LLM?重新思考計算最優的測試時縮放)。

這篇文章研究了大型語言模型(LLMs)在「推理階段通過增加計算量來提高性能的測試時縮放」(Test-Time Scaling, TTS)方法。作者們「系統地分析了策略模型、過程獎勵模型(PRMs)和問題難度如何影響 TTS」,并提出了兩個核心問題:「(1) 在不同的策略模型、PRMs 和問題難度水平下,擴展測試時計算的最佳方法是什么?(2) 擴展計算能在多大程度上提高 LLMs 在復雜任務上的性能,以及較小的語言模型是否能通過這種方法超越較大的模型?」

該方法的主要特點包括:

  1. 「全面評估」:對不同的 TTS 方法進行了全面的評估,使用了各種最新的策略模型、多個 PRMs、不同的縮放方法和更具挑戰性的任務。
  2. 「獎勵感知」:強調了在 TTS 過程中考慮獎勵的必要性,并引入了獎勵感知的計算最優 TTS。
  3. 「小模型潛力」:實證結果表明,較小的語言模型通過 TTS 有可能超越較大的模型。

一、概述

1 Motivation

  • 當前測試時間縮放(TTS)的研究缺乏對策略模型、過程獎勵模型(PRM)和問題難度如何影響TTS的系統分析,限制了對TTS方法理解和實際應用。
  • 如何在不同的策略模型、PRM和問題難度級別上優化測試時間計算的縮放方法?
  • 擴展計算能在多大程度上提高LLM在復雜任務上的性能,以及小模型是否可以通過這種方法超越大模型?

2 Methods

「省流版總結:」

本文提出了一種計算最佳的TTS策略,通過綜合實驗分析了策略模型、PRM和問題難度對TTS的影響。實驗使用了MATH-500和AIME24數據集,以及不同大小的Llama 3和Qwen2.5模型。研究發現,計算最佳的TTS策略高度依賴于策略模型、PRM和問題難度的選擇。

  • 「問題建模」: 將推理問題建模為馬爾可夫決策過程 (MDP)。
  • 「測試時縮放方法」: 考慮了三種 TTS 方法:Best-of-N (BoN), Beam Search, 和 Diverse Verifier Tree Search (DVTS) 。
  • 「計算最優的測試時縮放」: 選擇超參數以最大化給定測試時策略的性能。
  • 「Reward-Aware Compute-Optimal TTS:」將獎勵集成到計算最優的 TTS 策略中,形成更通用的框架。

「詳細方法和步驟:」

論文通過以下步驟詳細闡述了其方法:

  • 「問題形式化」

將推理問題定義為馬爾可夫決策過程(MDP),包括狀態空間、動作空間、轉移函數、獎勵函數和折扣因子。

策略根據當前狀態生成動作,狀態根據動作進行轉移,并獲得獎勵。

目標是找到最優策略,最大化累積獎勵。

  • 「測試時縮放方法」

特征

Best-of-N (BoN)

Beam Search

Diverse Verifier Tree Search (DVTS)

核心思想

生成多個獨立響應,選擇最優

逐步擴展候選序列,擇優保留

多樣性搜索,并行探索多個子樹

生成方式

一次性生成N個完整響應

逐步生成,每步選擇Top N個擴展

分成多個子樹并行Beam Search

選擇標準

PRM評分、投票等

驗證器(PRM)評分

驗證器(PRM)評分

計算量

與N成正比

每步計算量與Beam Width成正比

計算量較大,與子樹數量和Beam Width相關

優點

實現簡單,易于并行

逐步優化,效果通常優于BoN

探索多樣性,避免局部最優

缺點

缺乏探索性,易受初始生成質量影響

容易陷入局部最優

計算量大,實現復雜

適用場景

簡單任務,計算資源有限

中等復雜度任務

復雜任務,需要多樣性探索





  • 「Best-of-N (BoN)」:策略模型生成 N 個響應,然后應用評分和投票方法選擇最終答案。
  • 「Beam Search」:給定束寬 N 和束大小 M,策略模型首先生成 N 個步驟。驗證器選擇最佳的 N/M 個步驟進行后續搜索。下一步,策略模型對每個選定的先前步驟采樣 M 個步驟。此過程重復,直到達到最大深度或生成標記。
  • 「Diverse Verifier Tree Search (DVTS)」:通過將搜索過程劃分為 N 個子樹來擴展 Beam Search,每個子樹使用 Beam Search 獨立探索。

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

「目標:」  這個公式旨在找到一個最優的測試時計算縮放策略(compute-optimal test-time scaling strategy),簡單來說就是「怎么用最合理的計算資源,讓模型在推理的時候表現最好」

「符號說明:」

「公式含義:」

提出了一個測試時計算最優縮放策略,該策略選擇超參數以最大化給定測試時策略在特定提示上的性能收益。

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

「符號說明 (與公式2對比):」

「公式含義:」

「公式3與公式2的區別:」

  • 提出應將獎勵整合到計算最優 TTS 策略中。
  1. 「絕對問題難度標準」
  • 使用絕對閾值而不是分位數來衡量問題難度。
  • 基于 Pass@1 準確率定義了三個難度級別:easy (50% ~ 100%)、medium (10% ~ 50%) 和 hard (0% ~ 10%)。

3 Conclusion

  • 計算最佳的「TTS策略高度依賴于策略模型、PRM和問題難度的選擇。」
  • 通過「計算最佳的TTS策略,極小的策略模型可以勝過更大的模型。例如,一個1B的LLM可以在MATH-500上超過一個405B的LLM。」
  • 實驗結果表明,「與CoT和多數投票相比,計算最佳的TTS可以提高LLM的推理性能。」

4 Limitation

  1. 將TTS擴展到更多任務,如編碼和化學任務。
  2. 探索更有效的計算最佳TTS方法。


二、詳細內容

1 獎勵會顯著影響生成的過程和結果

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216224908584

說明:

  1. RLHFlow-PRM-Mistral-8B對短響應給予高獎勵,卻產生了錯誤的答案;
  2. 使用RLHFlow-Deepseek-PRM-8B進行搜索雖然產生正確答案,但使用了更多token。

結論:獎勵應該被整合到計算最優的TTS策略中。

2 PRM的過程監督能力是決定其在TTS中性能的關鍵因素

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216225517615

說明:PRM的過程監督能力越強,其在TTS中通常能帶來更好的性能。

結論:應該注重提高PRM的過程監督能力,而不僅僅是增加參數量。

3  策略模型大小對TTS參數的影響

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216225948348

說明:使用了Qwen2.5系列的不同大小LLM(從0.5B到72B)進行實驗,分析最優TTS參數。

結論:

  • 小型策略模型:基于搜索的方法優于BoN3。對于大型策略模型,BoN比基于搜索的方法更有效。
  • 最優的TTS方法依賴于策略模型的大小,在選擇TTS方法時需要考慮模型的推理能力。

4 題目難度對TTS參數的影響

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

image-20250216230308416

結論:

  • 「小規模策略模型(參數少于7B)」:BoN在簡單問題上表現更好,而束搜索更適合解決較難問題。
  • 「中等規模策略模型(參數7B至32B)」:DVTS在簡單和中等問題上表現優異,束搜索則在困難問題上更具優勢。
  • 「大規模策略模型(參數72B)」:BoN在所有難度級別上均為最佳選擇。

5 小模型在TTS加持下可以擊敗例如DeepSeek-R1, O1, GPT-4o等模型

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

結論:

  • 1B模型在TTS加持下能超過405B的模型。
  • TTS加持下,DeepSeek-R1蒸餾系列的模型(1.5B和7B模型)能超過DeepSeek-R1。

6 TTS最優相對COT能顯著提升推理能力同時提高效率

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

結論:

  • 對于推理能力較弱的模型,Scaling測試時計算會帶來顯著改進;
  • 而對于推理能力較強的模型,提升效果則較為有限。

7 TTS比RL或者SFT加持更有效但是比不過R1蒸餾的模型

小而美!1B模型如何通過測試時優化逆襲405B LLM?-AI.x社區

三、總結

本文對計算最優的測試時縮放進行了深入的實證分析,從不同的策略模型、PRMs 和更具挑戰性的評估任務的角度出發。研究結果「驗證了較小的語言模型在應用計算最優 TTS 時可以表現得比更大的模型更好。」 結果表明,一個 1B 模型可以通過 TTS 實現比 405B 模型更好的性能。此外,還證明了一個 7B PRM 可以通過監督一個更有能力的 72B 策略模型來實現強大的 TTS 結果,這表明了研究真正的“弱到強”方法的重要性,而不是目前用于策略優化的“強到弱”監督。為了實現這一目標,需要開發更有效的監督方法,因為基于 PRM 和基于 RL 的方法由于依賴于高質量的監督而存在局限性。未來的工作應側重于開發更具適應性和通用性的監督機制,以提高小型語言模型在復雜任務上的性能,并提供開發高效推理策略的新方法。

「結論1:」 通過自適應地調整測試時計算量,「小規模語言模型在特定任務上可以達到甚至超過大規模模型的性能,實現了更高的效率。」

「結論2:」  最佳的「測試時計算縮放策略高度依賴于所使用的策略模型、過程獎勵模型(PRM)以及問題的難度。」 這意味著沒有一種通用的TTS策略適用于所有情況,需要根據具體任務和模型進行調整。

「結論3:」 本文通過實證分析揭示了「計算最佳TTS策略的依賴性,強調了在實際應用中考慮獎勵信息的重要性」,并為未來的研究方向提供了指導。

本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

已于2025-2-24 12:17:08修改
收藏
回復
舉報
回復
相關推薦
thepron国产精品| 国产精品久久久久久吹潮| 久久精品xxxxx| 成人av资源站| 国产精品88a∨| 天天天天天天天天操| 最近中文在线观看| 国产精品福利无圣光在线一区| 蜜桃传媒麻豆第一区在线观看| 蜜桃av中文字幕| 黄网站色视频免费观看| 日韩女优毛片在线| 夜夜嗨网站十八久久| 成人高清av| 合欧美一区二区三区| 精品成人佐山爱一区二区| 成人综合视频在线| 国产在线激情| 99久久精品国产网站| 国产精品色午夜在线观看| 破处女黄色一级片| 免费一区二区三区视频导航| 欧美一级一级性生活免费录像| www.玖玖玖| 肉体视频在线| 国产精品久久久久久久午夜片| 国产乱人伦精品一区二区| 亚洲天堂2021av| 噜噜噜91成人网| 欧美激情免费视频| 中文字幕五月天| 欧美aaaa视频| 亚洲天堂第一页| 男人网站在线观看| 亚洲专区**| 欧美一级日韩不卡播放免费| 五月婷婷之综合激情| 久热在线观看视频| 亚洲电影激情视频网站| 热久久最新网址| 美女黄视频在线观看| 国产清纯在线一区二区www| 久久99精品久久久久久久久久 | 欧美一级特黄aaaaaa| 免费观看毛片网站| 91国偷自产中文字幕久久| 国产日产精品一区二区三区四区的观看方式 | 日韩欧美国产电影| 51精产品一区一区三区| 天堂网av成人| 亚洲精品一二三| 亚洲精品美女在线| 亚洲天堂av一区二区| 51一区二区三区| 色婷婷av久久久久久久| 日本熟妇人妻xxxxx| 蜜桃视频在线观看播放| 亚洲成人免费在线| av日韩一区二区三区| 99thz桃花论族在线播放| 亚洲综合色噜噜狠狠| 粉嫩av一区二区三区天美传媒 | 欧美一级视频在线播放| 手机av免费在线| 亚洲亚洲人成综合网络| 欧美激情亚洲天堂| а√天堂中文在线资源8| 午夜精品福利视频网站| 噜噜噜久久亚洲精品国产品麻豆| 久热在线观看视频| 色综合婷婷久久| 四虎永久在线精品无码视频| 欧美日韩成人影院| 欧美色网站导航| www.久久av.com| 日本成人精品| 日韩av在线电影网| 国产熟女一区二区| 久久精品亚洲人成影院 | 蜜桃精品在线| 欧美日韩久久一区二区| 中文字幕无码毛片免费看| 高潮久久久久久久久久久久久久| 日韩电视剧在线观看免费网站| 一区二区三区免费在线观看视频 | 成人毛片视频网站| av有声小说一区二区三区| 欧美日韩一区二区三区高清 | 93久久精品日日躁夜夜躁欧美 | 国产精品扒开腿做爽爽爽a片唱戏| 久久精品色播| 伊人青青综合网站| 欧美丰满艳妇bbwbbw| 在线视频日韩| 国产日韩在线亚洲字幕中文| 蜜桃视频在线观看www| 久久精品夜夜夜夜久久| 男同互操gay射视频在线看| av伦理在线| 欧美日韩一区三区四区| 亚洲av无码一区东京热久久| 国产成人三级| 欧美国产精品人人做人人爱| 精品人妻一区二区三区潮喷在线| 国产一区二区h| 欧美xxxx黑人又粗又长密月 | 97久久超碰福利国产精品…| 国产精品成人久久久| 成人免费毛片嘿嘿连载视频| 日韩福利在线| 91www在线| 欧美日韩和欧美的一区二区| 亚洲av成人片无码| 亚洲欧美综合久久久| 日韩av快播网址| 俄罗斯嫩小性bbwbbw| 国产精品毛片久久久久久| 久久久亚洲精品无码| www.久久久.com| 一本色道久久88亚洲综合88| 日韩av在线电影| 国产在线观看一区二区| 日韩精品不卡| 天堂资源在线| 亚洲第一中文字幕在线观看| 黄色录像一级片| 日韩精品免费视频人成| 久久久久网址| 丰满的护士2在线观看高清| 69堂国产成人免费视频| b站大片免费直播| 亚洲激情黄色| 国产精品免费一区二区三区在线观看 | 国产无遮挡又黄又爽在线观看| 蜜臀av一区二区三区| 久久亚洲综合网| 超碰激情在线| 精品国产1区2区3区| 欧洲猛交xxxx乱大交3| 久久精品国产色蜜蜜麻豆| 日本精品一区二区三区高清 久久| 好吊日av在线| 精品99久久久久久| 国产在线观看免费av| 国产不卡免费视频| 国产精品va在线观看无码| 99久久久成人国产精品| 久久精品国产一区| 国产精品高潮呻吟久久久| 中文字幕在线一区二区三区| 在线观看免费视频高清游戏推荐| 国产欧美亚洲精品a| 国产91在线播放精品91| 国产区高清在线| 日本韩国欧美国产| 三年中国中文观看免费播放| 日韩精品福利网| 视频一区视频二区视频三区高| 天然素人一区二区视频| 中国人与牲禽动交精品| 中文字幕在线2019| 国产精品盗摄一区二区三区| 午夜啪啪小视频| 欧美一区影院| 国产91色在线|亚洲| 国产高潮在线| 亚洲天堂视频在线观看| 最近中文字幕在线免费观看 | 中文字幕久久综合| 国产麻豆一区二区三区| 欧美激情乱人伦| 亚洲欧美综合一区二区| 日本精品一级二级| 激情高潮到大叫狂喷水| 羞羞色午夜精品一区二区三区| 成人国产精品一区二区| 五月天激情在线| 亚洲黄一区二区| 青青草视频在线观看免费| 中文幕一区二区三区久久蜜桃| 手机在线国产视频| 黄色日韩精品| 欧美精品v日韩精品v国产精品| 成人看片在线观看| 久久在线免费观看视频| 无码国产精品一区二区免费16| 色域天天综合网| 国产黄在线免费观看| av在线一区二区三区| 国产一级做a爰片久久| 国产综合色产| 涩涩涩999| 免费精品一区| 国产成人av网址| 免费不卡av| 亚洲天堂影视av| 性欧美videos另类hd| 色av综合在线| 免费无遮挡无码永久在线观看视频 | 一本大道av伊人久久综合| 蜜桃视频最新网址| 97久久精品人人做人人爽| 日本超碰在线观看| 夜久久久久久| 8x8ⅹ国产精品一区二区二区| 伊人久久大香线蕉综合网蜜芽| 成人夜晚看av| 欧洲av不卡| 久久久久久亚洲| 在线视频三区| 亚洲男人天堂久| 亚洲精品字幕在线| 欧美裸体一区二区三区| 日本熟女毛茸茸| 亚洲一级不卡视频| 天天看片中文字幕| 欧美韩日一区二区三区| 极品粉嫩小仙女高潮喷水久久| 狠狠色狠狠色综合| 冲田杏梨av在线| 亚洲精品美女| 国产精品日韩三级| 影视一区二区| 中文字幕黄色大片| 成人免费电影网址| 欧美精品一区二区三区在线看午夜| 国产精品亚洲综合在线观看| 国产精品视频一区国模私拍 | 野外性满足hd| 国产999精品久久久久久绿帽| 亚洲精品久久久久久宅男| 久久黄色网页| 日韩a在线播放| 国产亚洲综合精品| 91成人在线观看喷潮教学| 午夜电影亚洲| 91制片厂免费观看| 成人激情在线| 日韩欧美在线一区二区| 中文字幕av一区二区三区人| 久久精品一二三区| 欧美黄色影院| 久久av一区二区三区漫画| 国产精品任我爽爆在线播放| 国产精品二区在线| 57pao国产一区二区| 懂色av一区二区三区在线播放| 日本一区二区乱| 114国产精品久久免费观看| 亚洲一区av| 成人国内精品久久久久一区| 午夜精品久久久久久毛片| 国产精品视频久| 国产高清视频一区二区| 91欧美日韩一区| 国产精品美女久久久久| 亚洲中国色老太| 日韩区一区二| 国产女人水真多18毛片18精品| 大陆精大陆国产国语精品| 国产免费一区二区三区| 香蕉人人精品| 亚洲精品久久区二区三区蜜桃臀| 久久精品国产68国产精品亚洲| 在线视频福利一区| 在线看片不卡| 国产69精品久久久久999小说| 99亚洲视频| 成人午夜激情av| 久久爱另类一区二区小说| 色婷婷一区二区三区在线观看| 国产999精品久久| 中文字幕在线看高清电影| 欧美激情在线一区二区三区| 永久av免费网站| 一区二区三区免费看视频| 日韩无码精品一区二区三区| 91黄色免费看| 国产黄色av网站| 亚洲精品福利视频| 国产精品一区二区三区四区色 | 99色在线观看| 国产精品久久二区| 一区二区精彩视频| 欧美lavv| 亚洲精品小说| 欧美亚洲另类色图| 久久se精品一区二区| 国产伦精品一区二区免费| 国产日韩欧美精品电影三级在线| 日日噜噜夜夜狠狠久久波多野| 亚洲一级电影视频| 在线观看国产精品入口男同| 欧美成人video| 日本ー区在线视频| 欧美日本亚洲视频| 伊人久久高清| 国产精品手机视频| 久久要要av| 日韩avxxx| 国产一区二区电影| 久操视频在线观看免费| 亚洲国产另类av| 91影院在线播放| 亚洲欧美中文在线视频| 五月天激情在线| 国产免费亚洲高清| 亚洲69av| 久操网在线观看| 国产麻豆视频精品| 免费一级特黄3大片视频| 香蕉成人啪国产精品视频综合网 | 中文字幕一区二区三区四区五区人| 国产日韩一区二区三区在线| 中文字幕第10页| 中文字幕+乱码+中文字幕一区| 日韩欧美亚洲一区二区三区| 欧美一级二级三级蜜桃| yourporn在线观看中文站| 2019中文字幕在线免费观看| 色悠久久久久综合先锋影音下载 | 亚洲视频福利| 亚洲一级片免费观看| 国产精品亲子伦对白| 一级黄色在线视频| 亚洲精品美女网站| 韩国日本一区| 99九九视频| 欧美一区二区三区久久精品茉莉花| www.99av.com| 国产亚洲欧美在线| 日本熟女毛茸茸| 日韩高清人体午夜| 成人免费一区二区三区牛牛| 91在线免费观看网站| 91一区在线| 日本肉体xxxx裸体xxx免费| 国产亚洲短视频| 欧美特黄aaaaaa| 亚洲开心激情网| 人人鲁人人莫人人爱精品| 欧美亚洲丝袜| 一区二区三区福利| 性欧美丰满熟妇xxxx性仙踪林| 亚洲18女电影在线观看| 黄色a在线观看| 97视频在线免费观看| 欧美日韩夜夜| 国产午夜伦鲁鲁| www亚洲一区| 国产精品熟女视频| 中文字幕av一区二区| 国产亚洲精品精品国产亚洲综合| 色一情一乱一伦一区二区三区 | 午夜在线播放视频欧美| 亚欧洲乱码视频| 在线视频欧美区| 91社区在线观看| 成人字幕网zmw| 欧美啪啪一区| 国产精品伦子伦| 色偷偷久久人人79超碰人人澡| 国产爆初菊在线观看免费视频网站| 国产精品视频yy9099| 亚洲国产成人精品女人| 少妇熟女视频一区二区三区| 午夜久久久久久久久久一区二区| 天天操天天爱天天干| 欧洲亚洲妇女av| 色婷婷色综合| 伊人国产精品视频| 姬川优奈aav一区二区| 你懂的好爽在线观看| 国产精品偷伦免费视频观看的| 91麻豆国产自产在线观看亚洲| 少妇愉情理伦片bd| 天天综合天天综合色| 国产三级在线| 亚洲自拍在线观看| 国产情侣一区| 久久一级免费视频| 欧美大片在线观看一区| 亚洲最大网站| 在线一区高清| av福利精品导航| 中文字幕视频二区| 欧美激情一二三| 国产日产精品_国产精品毛片| 午夜影院免费观看视频| 激情成人在线视频| 免费网站免费进入在线| 国产一区二区三区四区hd| 青娱乐精品视频| 久久久精品人妻一区二区三区四| 亚洲欧美日韩精品久久奇米色影视| 日韩国产一二三区| 欧美日韩在线一| 亚洲男同性视频| 黄色在线视频观看网站| av一区观看|