精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

s1-32B 模型:超越 o1-preview,一起探索其原因

發布于 2025-2-14 13:50
瀏覽
0收藏

原文鏈接:????https://arxiv.org/abs/2501.19393??

??代碼鏈接:??https://github.com/simplescaling/s1???

Test-time scaling是一種語言建模方法,它利用額外的測試時計算資源來提升性能,OpenAI的o1模型近期也證實了這一方法的有效性。本文旨在探尋實現Test-time scaling以及強大推理性能的最簡途徑。

主要貢獻

  • 精心策劃小型數據集s1K:該數據集包含1000個問題,并配有推理過程,其構建基于難度、多樣性和質量這三個標準,且通過消融實驗進行了驗證。
  • 開發預算強制策略:通過強行終止模型的思考過程,或在模型試圖結束時多次添加“Wait”來延長生成過程,以此控制測試時間計算。這一策略能促使模型復查答案,糾正推理過程中的錯誤步驟。

在s1K數據集上對Qwen2.532B-Instruct語言模型進行監督微調,并應用預算強制策略后,我們的模型s1-32B在競賽數學問題(MATH和AIME24)上的表現,比o1-preview高出27%。

推理數據管理以創建s1K

初始收集59K樣本

依據三個指導原則,從16個不同來源收集了最初的59,029個問題:

  • 質量:數據集需保證高質量,通過檢查樣本,剔除格式不佳等有問題的數據集。
  • 難點:數據集應具備挑戰性,解答問題需要大量的推理工作。
  • 多元化:數據集應涵蓋不同領域,以覆蓋各類推理任務。

數據來源包括NuminaMATH、AIME問題、OlympicArena、AGIEval等現有數據集,同時還創建了兩個用于定量推理的新數據集:

  • s1-prob:包含斯坦福大學統計系博士資格考試概率部分的182道題(??https://statistics.stanford.edu??),并附有涵蓋復雜證明過程的手寫答案。
  • s1-teasers:由23個常用于量化交易職位面試的腦筋急轉彎組成。每個樣本包含問題及答案,均取自PuzzledQuant(??https://www.puzzledquant.com/??)。

針對每個問題,利用Google Gemini Flash Thinking API生成推理過程和解決方案,并提取其推理過程和響應,最終得到59K個由問題、生成的推理過程和生成的解決方案組成的三元組。

最終選擇1K樣本

  • 質量:首先剔除在API調用過程中出現錯誤的問題,數據集樣本數量減少至54,116個。接著,通過檢查是否存在格式問題的字符串模式(如ASCII藝術圖、不存在的圖像引用或不一致的問題編號等),過濾掉低質量的示例,數據集進一步縮減至51,581個。從這部分數據中,挑選出384個被認為高質量且無需進一步篩選的樣本作為最終1000個樣本的一部分。
  • 難點:在每個問題上評估Qwen2.5-7B-Instruct和Qwen2.5-32B-Instruct兩個模型,由Claude 3.5 Sonnet將模型的每次嘗試與參考解決方案對比,評估正確性。基于更難的問題需要更多思考標記的假設,使用Qwen2.5分詞器測量每個推理軌跡的標記長度來衡量問題難度。剔除Qwen2.5-7B-Instruct或Qwen2.5-32B-Instruct能正確解答的問題,此時樣本數量降至24,496個。
  • 多元化:運用Claude 3.5 Sonnet,依據美國數學學會的數學學科分類(MSC)系統(如幾何、動態系統、實分析等),將每個問題分類到特定領域。從24,496個問題中選擇最終樣本時,先隨機均勻選擇一個領域,然后根據傾向于更長推理軌跡的分布從該領域抽取一個問題。重復此過程,直至收集到1000個樣本。經過這三個階段的篩選,最終得到的數據集涵蓋了50個不同領域。

測試時縮放

測試時縮放方法可分為:

  • 順序計算:后續計算依賴于前面的計算結果(例如較長的推理軌跡)。
  • 并行計算:計算過程相互獨立(例如多數投票)。

本文聚焦于順序擴展,因為作者直觀認為這種方式擴展性更佳,后續計算可基于中間結果進行,有助于更深入的推理和迭代優化。

預算強制

提出一種簡單的解碼時間干預方法,在測試時強制設定最大和/或最小數量的思維標記:

  • 為強制設定最大令牌數,只需附加思維結束標記分隔符和“Final Answer:”,使模型提前退出思考階段,給出當前最佳答案。
  • 為強制設定最小令牌數,禁止生成思維結束標記分隔符,并可選擇在模型當前推理軌跡后附加字符串“Wait”,鼓勵模型對當前生成結果進行反思。

以下圖為例,展示了該方法如何引導模型得出更好的答案。模型原本在“...is 2.”處試圖停止,但我們禁止了思維結束標記分隔符,改為附加“Wait”,促使s1-32B自行糾正答案。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

基線

預算強制的基準對比方法包括:

  • 條件長度控制方法:依靠在提示中告知模型應生成的長度,再按粒度分為:

Token條件控制:在提示中指定思維標記的上限。

步進條件控制:指定思考步驟的上限,每個步驟約100個標記。

類條件控制:編寫兩個通用提示,讓模型進行短期或長期思考。

  • 抑制采樣:不斷采樣,直至生成結果符合預先設定的計算預算。該方法根據生成結果的長度獲取后驗響應。

指標

測量了三個指標:

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

結果

設置

使用s1K數據集對Qwen2.5-32B-Instruct進行監督微調,得到模型s1-32B。

性能

  • 測試時縮放:下圖展示了s1-32B在預算強制策略下,隨著測試時間計算量增加的性能變化。從圖中可以看出,使用預算強制技術和更多測試時間計算,能提升AIME24的性能,但在六倍計算量時性能趨于平緩。通過多數投票在基礎模型上擴展測試時間計算,其性能無法趕上s1-32B,這驗證了順序擴展比并行擴展更有效的觀點。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

  • 樣品效率:下圖和表格將s1-32B與其他模型進行了對比。結果顯示,s1-32B是樣本效率最高的開放數據推理模型。盡管s1-32B僅在額外的1000個樣本上進行訓練,但其性能明顯優于基礎模型Qwen2.5-32B-Instruct。同時發布的r1-32B性能比s1-32B更強,不過它是在多800倍推理樣本上訓練得到的。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

討論

進一步Test-time scaling的限制

結果表明,預算強制策略可通過外推測試時間計算提升性能,如將AIME24的性能從50%提高到57%。然而,在進一步擴展時存在兩個關鍵限制:一是性能最終會趨于平緩;二是底層語言模型的上下文窗口會對其形成約束。盡管存在這些限制,但測試時間擴展在廣泛的精度范圍內仍有效,部分原因是縮減測試時計算的行為具有可預測性,不受這些限制的影響。若要繼續進行Test-time scaling,需要能進一步推斷測試時計算的新方法。

并行擴展作為解決方案

并行擴展為順序擴展的限制提供了一種解決思路。我們通過兩種方法增強順序擴展模型:

  • 多數表決:生成個解決方案后,選擇出現頻率最高的作為最終答案。
  • 通過REBASE進行樹搜索:使用REBASE流程獎勵模型(從LLaMA-34B初始化,并在合成流程獎勵建模數據集上進一步微調),然后通過多數投票匯總REBASE生成的解決方案。

如下圖所示,在這種場景下,使用REBASE增強模型的擴展性優于多數投票,甚至比順序擴展效果更好。不過,REBASE在每個步驟都需要為獎勵模型進行額外的前向傳遞,會增加一定的計算開銷。

s1-32B 模型:超越 o1-preview,一起探索其原因-AI.x社區

本文轉載自??柏企科技圈??,作者:柏企 ????

收藏
回復
舉報
回復
相關推薦
久久精品亚洲一区二区三区浴池| 9999精品成人免费毛片在线看| 丝袜美腿一区二区三区| 尤物yw午夜国产精品视频明星| 性生活免费在线观看| 搞黄网站在线观看| 成人免费视频播放| 国产伊人精品在线| 国产特黄大片aaaa毛片| 久久国产精品亚洲人一区二区三区| 欧美一区二区三区电影| 日本三级免费观看| 影院在线观看全集免费观看| 久久综合狠狠综合| 91在线看www| 久久青青草原亚洲av无码麻豆 | 亚洲一区综合| 天天操天天干天天爱| 久久99精品国产| 日本韩国在线不卡| 日韩av电影网址| 91精品啪在线观看国产18| 精品一区精品二区| 在线xxxxx| 国产精品视频一区二区三区综合| 日韩欧美主播在线| 国产美女主播在线播放| а天堂中文在线官网| 日本一区二区视频在线| 国产一区二区精品免费| 国产av精国产传媒| 久久av中文字幕片| 国产精品美女免费看| 日韩特级黄色片| 亚洲国产激情| 久久这里只有精品99| 日本女人性生活视频| 综合干狼人综合首页| 精品盗摄一区二区三区| 日本少妇一区二区三区| 中韩乱幕日产无线码一区| 欧美性色视频在线| 日本中文字幕网址| 久久99亚洲网美利坚合众国| 亚洲另类春色国产| 午夜欧美一区二区三区免费观看| 日本一级在线观看| 97se亚洲国产综合自在线不卡| 电影午夜精品一区二区三区| 99riav国产| 国产伦精品一区二区三区在线观看| 国产精品中文字幕久久久| 精品久久久久久久久久久久久久久久久久| 国产婷婷精品| 欧美性做爰毛片| 久久久精品免费看| 爽爽淫人综合网网站| 欧美在线免费视频| 无码人妻精品一区二区蜜桃色欲| 久久国产99| 国产精品黄视频| 夜夜爽8888| 国产精品一区二区久激情瑜伽| 亚洲bt天天射| 国产综合视频在线| 99国产欧美另类久久久精品| 久久久福利视频| 九九在线视频| 国产精品国产三级国产普通话三级| 亚洲人成网站在线播放2019| 欧美成人hd| 一区二区三区高清| 无码人妻丰满熟妇区96| 校园春色亚洲色图| 在线播放91灌醉迷j高跟美女| 四虎成人在线播放| 欧美黑人巨大videos精品| 日韩精品中文字幕有码专区| 国产一区二区三区精品在线| 一区二区中文| 69**夜色精品国产69乱| 国产偷人爽久久久久久老妇app| 精品一区二区日韩| 国产自产在线视频一区| 成a人片在线观看www视频| 自拍偷拍国产亚洲| 午夜精品久久久久久久无码| www.一区| 亚洲国产成人在线播放| 无码人中文字幕| 在线播放不卡| 国产精品久久久久久久久久新婚| 精品人妻一区二区三区日产乱码 | 色无极影院亚洲| 97精品中文字幕| 88xx成人精品| 国产精品无码一区二区桃花视频 | 高清国语自产拍免费一区二区三区| 天堂中文字幕av| 亚洲欧美综合色| 国产v片免费观看| 成人短视频软件网站大全app| 亚洲国产小视频在线观看| 一本一本久久a久久| 亚洲国产裸拍裸体视频在线观看乱了中文| 国产精品久久久久999| 亚洲高清视频网站| 国产精品三级av| 日本少妇高潮喷水视频| 久久伊人精品| 最好看的2019年中文视频| 日韩精品一区二区在线播放| 精彩视频一区二区| 日本婷婷久久久久久久久一区二区| 欧美性爽视频| 91精品视频网| 日韩影视一区二区三区| 一本色道久久综合一区 | 亚洲乱码精品久久久久..| 欧美国产精品v| 久久久久久久午夜| 99re热精品视频| 欧美成年人视频网站| 中文字幕日本视频| 久久亚洲综合av| 免费国产a级片| 操欧美女人视频| 久久成人免费视频| 91在线你懂的| 国产精品麻豆久久久| 男人的天堂日韩| 校园春色另类视频| 性亚洲最疯狂xxxx高清| 六月丁香色婷婷| 一区二区三区四区乱视频| 日韩成人精品视频在线观看| 欧美精品一区二区三区中文字幕| 91sa在线看| 午夜成人鲁丝片午夜精品| 亚洲一区av在线| 国产高潮视频在线观看| 亚洲看片免费| 国产亚洲精品自在久久| 好久没做在线观看| 亚洲成人黄色在线| 一区二区三区视频免费看| av电影在线观看一区| 97超碰在线视| 九九热hot精品视频在线播放| 欧美激情国产日韩精品一区18| jlzzjlzzjlzz亚洲人| 亚洲少妇中出一区| xxxx国产视频| 韩日精品在线| 精品久久久久久中文字幕动漫| 末成年女av片一区二区下载| 亚洲欧美日韩精品久久亚洲区 | 韩国欧美国产1区| 日本免费在线视频观看| 国产高清亚洲| 久久久久久久久久久网站| 欧美视频一二区| 欧美视频13p| 国产欧美小视频| 国产综合久久久久久鬼色| 女同性恋一区二区| 久久久亚洲欧洲日产| 欧美一区二区三区……| 国产大片在线免费观看| 69久久99精品久久久久婷婷| 免费人成在线观看| 91蝌蚪porny| 免费看涩涩视频| 好看的av在线不卡观看| 久久66热这里只有精品| 国产精品久久久久久久久久齐齐 | 内射一区二区三区| 成人国产精品免费观看| 无码少妇一区二区三区芒果| 久久精品久久久| 精品中文字幕人| 国产成人免费| 久久人人爽人人| 成人一区二区不卡免费| 精品国产三级a在线观看| 午夜婷婷在线观看| 亚洲柠檬福利资源导航| 久久精品女同亚洲女同13| 日韩电影在线免费看| 白白操在线视频| 国产精品一区二区三区av麻| 亚洲一区二区三区成人在线视频精品 | 超碰在线97观看| 亚洲乱码国产乱码精品精98午夜| 国产美女视频免费观看下载软件| 奇米影视一区二区三区小说| a级黄色小视频| 99精品视频在线观看播放| 精品综合在线| 久久久久久久久成人| 国产成人精品av| 波多野结衣在线高清| 在线看日韩欧美| 五月婷婷免费视频| 日韩欧美激情在线| 中文字幕有码视频| 欧美日韩在线免费| 欧美精品一区二区成人| 国产欧美精品一区二区三区四区| 一边摸一边做爽的视频17国产| 免费在线观看成人| 99蜜桃臀久久久欧美精品网站| 欧美性色综合| 一级日韩一区在线观看| 一区二区美女| 精品久久蜜桃| 超碰成人免费| 91精品国产99久久久久久红楼 | 福利视频一区二区三区| 亚洲免费看片| 国产精品女主播视频| www.成人影院| 538国产精品一区二区免费视频| 污的网站在线观看| 久久综合免费视频影院| 超碰免费97在线观看| 亚洲精品中文字幕女同| 少妇人妻偷人精品一区二区| 日韩你懂的在线播放| 国产老妇伦国产熟女老妇视频| 在线观看免费亚洲| yjizz国产| 疯狂做受xxxx欧美肥白少妇| 国产一级片网址| 亚洲夂夂婷婷色拍ww47| 国产suv一区二区三区| 综合久久给合久久狠狠狠97色 | 日本福利在线观看| 日韩电影中文 亚洲精品乱码| 你懂的网站在线| 日韩欧美一级精品久久| www.国产视频| 精品日产卡一卡二卡麻豆| www.成人精品| 精品久久一区二区| 亚洲毛片欧洲毛片国产一品色| 日韩精品资源二区在线| 成人av无码一区二区三区| 日韩一区二区在线观看| 99久久精品国产一区色| 日韩三级在线免费观看| 亚洲欧美强伦一区二区| 精品久久五月天| 天天干视频在线观看| 精品网站999www| 免费观看成年在线视频网站| 亚洲视频在线看| 在线中文资源天堂| 久久夜色精品国产欧美乱| 2024最新电影在线免费观看| 欧美黄色片视频| 高清毛片在线观看| 国产成人高清激情视频在线观看| 日韩另类视频| 91精品在线播放| 精品欧美午夜寂寞影院| 欧美下载看逼逼| 欧美国产一级| 日本天堂免费a| 国产美女诱惑一区二区| 青青青在线视频免费观看| 精品一区二区三区视频在线观看| 国产大片一区二区三区| av电影天堂一区二区在线观看| 中文字幕在线观看网址| 中文字幕av不卡| 国产一级二级三级| 欧美午夜女人视频在线| 怡红院男人天堂| 欧美r级电影在线观看| 日本啊v在线| 久久这里有精品| 亚洲最大网站| 3d动漫精品啪啪一区二区三区免费 | 亚洲精品美女久久久| 91在线直播| 欧美劲爆第一页| 成人看片在线观看| 国产精品二区在线| 欧美日韩国产一区二区三区不卡| 真人做人试看60分钟免费| 欧美中文日韩| 亚洲热在线视频| 国产亚洲精品aa午夜观看| 青娱乐国产精品| 欧亚洲嫩模精品一区三区| 精品久久国产视频| 国产一区二区精品丝袜| 1区2区3区在线| 亚洲一区二区三区久久| 国内黄色精品| 欧美一级免费播放| 麻豆精品一区二区av白丝在线 | 欧美国产丝袜视频| 午夜写真片福利电影网| 91成人在线精品| 国产91免费在线观看| 久久天天躁狠狠躁老女人| 六月婷婷综合| 波多野结衣久草一区| 成人动漫免费在线观看| 日韩中字在线观看| 国产麻豆91精品| 日本黄色小视频在线观看| 午夜欧美大尺度福利影院在线看 | 免费成人美女女| 国产在线精品一区| 欧美激情麻豆| 午夜免费福利网站| 亚洲欧美在线观看| 中文在线资源天堂| 亚洲欧美中文日韩在线| 涩涩视频在线| 国产精品日韩欧美一区二区| 综合精品久久| 91精品999| 国产精品免费aⅴ片在线观看| www欧美在线| 日韩精品在线观看一区二区| av蜜臀在线| 不卡日韩av| 亚洲香蕉网站| 在线视频日韩欧美| 国产精品久久久久四虎| 中文字幕无线码一区| 亚洲欧洲一区二区三区在线观看| 国产盗摄——sm在线视频| 成人h视频在线观看| 在线一区免费| 国产男女无遮挡猛进猛出| 日韩美女啊v在线免费观看| 一级片免费观看视频| 日韩在线观看成人| 亚洲精品一区av| 男人天堂成人网| 风间由美一区二区三区在线观看| 99热精品免费| 精品处破学生在线二十三| 91破解版在线观看| 国外成人免费视频| 一区二区日韩免费看| 成人免费看aa片| 在线看国产一区二区| 成人在线免费观看| 成人字幕网zmw| 欧美激情1区| 天堂www中文在线资源| 偷拍一区二区三区| 黄色毛片在线观看| 国产精品热视频| 91精品国产自产在线观看永久∴| 国产不卡的av| 性欧美疯狂xxxxbbbb| 欧美性孕妇孕交| 国产日本欧美一区| 欧美日韩午夜| 成人免费看aa片| 欧美视频在线播放| 性欧美video高清bbw| 精品一区二区国产| 蜜桃视频在线观看一区| 日韩女优一区二区| 亚洲精品久久久久中文字幕二区| 日韩电影大全网站| 国产911在线观看| 99国产精品视频免费观看| 少妇又紧又色又爽又刺激视频| 精品国偷自产在线视频| 精品视频自拍| 国产一二三区av| 亚洲综合图片区| 成人在线观看网站| av观看久久| 久久一区精品| 国产天堂av在线| 日韩精品亚洲视频| 亚洲精品第一| 成年人网站免费视频| 亚洲国产精华液网站w| 亚洲精品久久久久久久久久| 国产精品爱啪在线线免费观看| 综合久久综合| 微拍福利一区二区| 精品日韩av一区二区| 久久电影天堂| 丰满爆乳一区二区三区| 最新国产の精品合集bt伙计| 婷婷伊人综合中文字幕| 国产女精品视频网站免费| 国产视频亚洲|