精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

突破大模型推理瓶頸!首篇「Test-Time Scaling」全景綜述,深入剖析AI深思之道

人工智能 新聞
最近,來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB 、香港中文大學等機構的多位研究者聯合發布了首篇系統性的 Test-Time Scaling 領域綜述。

本文由來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構的多位研究者共同完成。第一作者為來自香港城市大學的博士生張啟源和來自蒙特利爾人工智能實驗室(MILA)的博士生呂福源。

當訓練成本飆升、數據枯竭,如何繼續激發大模型潛能?

在追求通用人工智能(AGI)的道路上,大模型訓練階段的「暴力堆算力」已經逐漸觸及天花板。隨著大模型訓練成本急劇攀升、優質數據逐漸枯竭,推理階段擴展(Test-Time Scaling, TTS) 迅速成為后預訓練時代的關鍵突破口。與傳統的「堆數據、堆參數」不同,TTS 通過在推理階段動態分配算力,使同一模型變得更高效、更智能 —— 這一技術路徑在 OpenAI-o1 和 DeepSeek-R1 的實踐中已初顯威力。 

圖片

圖 1:預訓練擴展和推理階段擴展的示意。

在數學、編程等硬核任務上,TTS 表現亮眼;而在開放問答、多模態理解乃至復雜規劃等場景中,它同樣展現出巨大潛力。目前,研究者已探索了多種 TTS 策略,如 Chain-of-Thought (CoT)、Self-Consistency、Search 和 Verification,但該領域仍缺乏統一的研究視角與評估框架。

最近,來自香港城市大學、麥吉爾大學(McGill)、蒙特利爾人工智能實驗室(MILA)、人大高瓴人工智能學院、Salesforce AI Research、斯坦福大學、UCSB、香港中文大學等機構的多位研究者聯合發布了首篇系統性的 Test-Time Scaling 領域綜述。該文首次提出「What-How-Where-How Well」四維分類框架,系統拆解推理優化技術,為 AI「深思」繪制全景路線圖。

圖片

  • 論文標題:A Survey on Test-Time Scaling in Large Language Models:What, How, Where, and How Well
  • 論文鏈接:https://arxiv.org/pdf/2503.24235
  • 項目主頁:https://testtimescaling.github.io/
  • GitHub 倉庫:https://github.com/testtimescaling/testtimescaling.github.io/  

論文亮點概覽:

本篇 Survey 首次提出了一個覆蓋全面、多層次、可擴展的四維正交分析框架:

  1. What to scale:擴什么?CoT 長度、樣本數、路徑深度還是內在狀態?
  2. How to scale:怎么擴?Prompt、Search、RL,還是 Mixture-of-Models?
  3. Where to scale:在哪擴?數學、代碼、開放問答、多模態……
  4. How well to scale:擴得怎樣?準確率、效率、控制性、可擴展性……

在這個框架下,作者系統梳理了當前的主流 TTS 技術路線,包括:

  1. 并行策略:即同時生成多個答案,并選出最優解(如 Self-Consistency / Best-of-N)
  2. 逐步演化:即通過迭代修正逐步優化答案(如 STaR / Self-Refine)
  3. 搜索推理:結合并行與序列策略,探索樹狀推理路徑(如 Tree-of-Thought / MCTS)
  4. 內在優化:模型自主控制推理步長(如 DeepSeek-R1 / OpenAI-o1)

基于這一框架,作者系統性地梳理了現有文獻,實現了四大核心貢獻:

  1. 文獻解析:通過結構化分析方法,清晰界定各項研究的創新邊界與價值定位;
  2. 路徑提煉:總結出推理階段擴展技術的三大發展方向:計算資源動態優化、推理過程增強和多模態任務適配;
  3. 實踐指導:針對數學推理、開放問答等典型場景,提供具體可操作的技術選型建議;
  4. 開放社區:拋棄傳統調研自說自話的特點,通過結合主頁希望營造一個專門為 TTS 討論的開放社區,集所有研究者的智慧,不斷與時俱進更新更加實踐的指導。

與同類綜述相比,本文特別注重實用價值和開放討論,不僅系統評估了不同 TTS 策略的性價比,還前瞻性地探討了該技術的未來演進方向,包括輕量化部署、持續學習融合等潛在突破點。

作者表示,Test-time Scaling 不僅是大模型推理的「第二引擎」,更是邁向 AGI 的關鍵拼圖。教會模型「三思而后行」,是我們邁向通用人工智能的重要旅程。

框架介紹

作者提出的框架從四個正交維度系統解構 TTS 技術:

1. What to Scale(擴展什么)- 界定推理過程中需要擴展的具體對象,包括:

  • Parallel Scaling(并行擴展):并行生成多個輸出,然后將其匯總為最終答案,從而提高測試時間性能;
  • Sequential Scaling(序列擴展):根據中間步驟明確指導后面的計算;
  • Hybrid Scaling(混合擴展):利用了并行和順序擴展的互補優勢;
  • Internal Scaling(內生擴展):在模型內部參數范圍內自主決定分配多少計算量進行推理,在推理時并不外部人類指導策略。

其中,作者為每一個擴展的形式,都進行了一些經典工作的介紹,從而豐富了對于擴展策略的外延描述,例如:在并行擴展中作者根據得到覆蓋性的來源分為兩個更小的類別,在單個模型上的反復采樣和多個模型的采樣。

2. How to Scale(怎么擴展)- 歸納實現擴展的核心技術路徑:

  • 訓練階段方法:監督微調(SFT)、強化學習(RL)等
  • 推理階段技術:刺激策略(Stimulation)、驗證技術(Verification)、搜索方法(Search)、集成技術(Aggregation)

這個章節是重點章節,作者收錄并整理了大量的經典的和最前沿的技術,例如在訓練階段中的強化學習技術,伴隨 R1 而大火,因此在短短兩個月內涌現出大量的工作,作者將它們盡數收入,同時分成基于獎勵模型和不需獎勵模型兩類;對于刺激策略,作者分成了提示(Prompt),解碼(Decode)、自重復(Self-Repetition)、模型混合(mixture-of-model)四類。

3. Where to Scale(在哪里擴展)- 明確技術適用的任務場景與數據集特性。

作者在這里提出盡管 TTS 的推出和驗證是在某一類特定的推理任務上得到成功的,可是已經有足夠多的工作開始顯現出 TTS 是一種通用地能夠提升在多樣任務的策略,由此作者以推理(Reasoning)和通用 (General Purpose) 兩類進行分類,一方面強調了 TTS 在越來越多樣、越來越先進的推理任務中有很明顯的效果,另一方面也不斷跟蹤 TTS 在更多通用任務上應用的效果。值得注意的是,作者整理出一個評測基準的表格,方便更多研究者直接從中去選擇合適自己的基準。

4. How Well to Scale(效果怎么樣)- 建立多維評估體系:

在當下,TTS 已經不僅是一個提高任務準確率的策略,當它成為一個新的值得被研究的核心策略時,對 TTS 的要求會更加多元化,這也是未來研究的主題。作者認為之后對 TTS 的優化重點將不僅僅局限在準確率的提升,是在于如何提高效率、增強魯棒性和消除偏見等。

圖片

圖 2:作者提出的 TTS 框架,包括 what, how, where 和 how well to scale。

作者不僅在每個維度下提供細粒度子類劃分,還配套標注了代表性研究工作(如圖 2 所示),使分類體系兼具理論完備性和實踐指導價值。這一結構化的基礎使得后續研究可以無縫地融入作者的分類體系,更清晰地展現其貢獻。

為了更好的理解 what to scale 中的并行擴展,序列擴展,結合擴展和內生擴展,作者用一張清晰的示意圖進行形象化的展示,同時,在圖中使用 how to scale 的技術來組成不同的擴展策略,很好地示意了兩個維度如何結合在一起。

圖片

圖 3:從 what to scale 到 how to scale。

實踐特色

作者強調本篇 Survey 以實用為原則,具體包括:使用所提出的框架分析文獻,以及整理操作指南。

文獻解析:為了幫助研究者系統性地剖析每項工作,作者設計了一個分析表格,通過將文獻貢獻對應到框架的四個維度(What/How/Where/How Well),以清晰地解構該工作。這種結構化分析方法不僅能清晰展現各研究的核心創新,更能有效揭示潛在的技術突破方向。

圖片

表 1:在現有文獻中進行推理擴展時常用的組合方式。

操作指南:另一個潛在的亮點是持續收集 TTS 開發中的實用操作指南,而這些操作指南將以問答的形式展現。作者期待這些問答是具體的、現實的、一線的,因此,作者期待這篇 Survey 將維持開放性,邀請更多在一線研究的學者來參與這項操作指南的收錄和編寫。下面是作者現階段的操作指南的內容和風格。

圖片

開放社區

有價值的洞見和實踐指導是來自于第一線的科研和百花齊放的討論的,作者期待將論文從傳統的靜態的一家之言轉化為動態的百家之壇,并建立開放的社區來收集任何一線科研者提出的問題和總結的經驗,而這些問題和經驗在經過篩選后,會更新到最新的論文中,并在致謝中進行感謝。

圖片

圖片

挑戰與未來

盡管 TSS 技術已嶄露頭角,本文總結了 TTS 當前面臨的四大挑戰:

  1. 擴展極限:在未來的 TTS 中,如何突破「暴力采樣」的邊際收益遞減?我們急需在不同方向上探索策略
  2. 本質理解:tts 中多個模塊是否真正驅動了推理改進?reward model 是否需要重新評估?我們依然需要在理論層面揭示技術有效性根源。
  3. 評估革新:傳統指標無法捕捉推理過程質量,隨著 test-time scaling 技術的發展,領域內急需開發細粒度評估體系,以便更全面地評估不同策略
  4. 跨域泛化:當前 TTS 方法在數學、代碼任務中表現突出,但如何遷移至法律、金融等高風險場景?如何在推理過程中考慮現實世界的制約?

論文還指出,目前常見的技術如 SFT、RL、Reward Modeling 等雖被頻繁使用,但背后的作用貢獻尚不清晰,值得深入探索,例如:SFT 真的不如 RL 更泛化嗎?R1 的時代下 SFT 的角色是什么?什么樣的 Reward Modeling 更加高效?等等

此外未來 TTS 的發展重點包括:1. 統一評估指標(準確率 vs 計算開銷);2. 拓展到金融、醫學等真實場景;3. 構建具備自適應推理能力的通用智能體。

推理擴展策略正引領 AI 推理范式轉變:讓模型在「用」的時候持續變強。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-12 01:00:00

2024-09-11 12:31:59

2025-10-15 09:05:05

2025-07-30 02:00:00

TTD-DRagent測試

2025-06-18 09:06:00

2025-09-04 17:16:59

2025-08-07 09:16:41

2024-06-19 16:11:22

2025-03-18 09:33:13

2024-03-06 09:00:00

大語言模型人工智能

2025-04-30 16:48:07

2025-09-24 09:10:24

2025-07-16 10:08:57

2025-06-04 13:56:06

英偉達訓練模型

2022-09-13 15:40:56

模型分析

2025-02-21 13:20:00

2024-10-25 14:30:00

模型AI

2024-11-29 18:37:07

2023-09-25 07:31:19

算力AI框架
點贊
收藏

51CTO技術棧公眾號

日韩精品一区二区三区中文在线| 精品99又大又爽又硬少妇毛片| 一本精品一区二区三区| 精品国产精品网麻豆系列| 欧美国产亚洲一区| 日本在线免费播放| 91在线观看免费视频| 国产欧美欧洲在线观看| 国产一级在线观看视频| 日本电影一区二区| 亚洲第一男人天堂| 最新天堂在线视频| 日韩激情电影免费看| 1区2区3区国产精品| 国产激情美女久久久久久吹潮| 色老头一区二区| 欧美色一级片| 在线视频国产日韩| 一起草在线视频| 亚洲伦理久久| 在线精品视频免费播放| 欧美一级爱爱视频| 最新97超碰在线| 91啦中文在线观看| 国产传媒一区| 国产普通话bbwbbwbbw| 亚洲欧美日韩国产综合精品二区| 美女精品久久久| 欧美人与禽zoz0善交| 成人h动漫精品一区二区器材| 欧美日韩视频在线观看一区二区三区| 18禁网站免费无遮挡无码中文| 欧美性天天影视| 国产亚洲欧美日韩在线一区| 精品视频免费观看| 性生活黄色大片| 国产一区日韩二区欧美三区| 国产精品一区二区三| 欧美成人一区二区三区四区| 亚洲少妇诱惑| 97高清免费视频| 国产真实乱偷精品视频| 伊人久久大香线蕉综合四虎小说 | 亚洲色图欧美偷拍| 天堂√在线观看一区二区| 全部免费毛片在线播放网站| 成人av资源在线观看| 91九色对白| 99久久精品国产一区色| 国产资源在线一区| 91在线看www| 国产熟女一区二区丰满| 久久福利视频一区二区| 国产色视频一区| 中文字幕精品一区二区精| 免费亚洲电影在线| 国产裸体写真av一区二区| 免费在线不卡av| 奇米精品一区二区三区在线观看| 午夜精品久久久久久久久| 亚洲欧美综合一区| 久久久亚洲精选| 在线国产视频一区| 欧美理论在线播放| 深夜福利日韩在线看| 日本精品久久久久中文| 日韩在线视屏| 精品国偷自产在线| 欧美日韩偷拍视频| 黄色av一区| 91福利视频网| 国产一级一级国产| 久久精品国产久精国产爱| 成人h猎奇视频网站| 国产精品无码在线播放| 国产精品系列在线观看| 国产一区不卡在线观看| 日本天堂影院在线视频| 国产女同互慰高潮91漫画| 亚洲一区二三| 丰满诱人av在线播放| 五月天一区二区| 日韩视频免费在线播放| 伊人亚洲精品| 精品久久久久久久久久久院品网| 国产女人18毛片水18精品| 亚洲成色www.777999| 国产国产一区| 精品久久久久久久久久久久包黑料| 欧美午夜精品一区二区| 伊甸园亚洲一区| 日韩视频免费在线| 欧美bbbbbbbbbbbb精品| 免费观看日韩av| 波多野结衣一区二区三区在线观看| 天堂在线资源网| 国产精品婷婷午夜在线观看| 人妻无码一区二区三区四区| 美女100%一区| 欧美一区二区三区小说| 深爱五月激情网| 久久激情电影| 97国产在线视频| 亚洲视频久久久| www.亚洲人| 伊甸园精品99久久久久久| 国产va在线视频| 欧美日韩国产123区| 日批在线观看视频| 91亚洲一区| 亚欧成人精品| 成人黄色午夜影院| 三区在线观看| 一区二区三区中文字幕| 国产九九在线视频| 欧美性生活一级片| 九九热这里只有在线精品视| 黄色av网站免费| 国产suv精品一区二区6| 亚洲国产一区二区三区在线| 激情国产在线| 日韩欧美国产1| 欧美特黄一级片| 日韩精品色哟哟| 久久av免费一区| 日本天码aⅴ片在线电影网站| 欧美性猛交xxxxxxxx| 五月婷婷综合在线观看| 亚洲视频中文| 亚洲精品日产aⅴ| 婷婷在线视频| 欧美主播一区二区三区| 午夜一区二区三区免费| 日韩视频二区| 国产尤物99| 999福利在线视频| 日韩免费福利电影在线观看| 男人晚上看的视频| 久久国产精品一区二区| 日韩精品不卡| 写真福利精品福利在线观看| 亚洲老司机av| 特级毛片www| 337p粉嫩大胆噜噜噜噜噜91av| 国产不卡一区二区视频| 国产在线视频资源| av中文字幕一区二区| 欧美成人精品在线视频| 一本色道久久综合熟妇| 国产精品成人在线观看| 一道本视频在线观看| 国产伦精品一区二区三区视频 | 密臀av在线播放| 亚洲国产一区二区三区在线观看 | 欧美日韩亚洲一区二区三区| 亚洲 欧美 日韩在线| 亚洲第一精品影视| 精品一区在线播放| 国产欧美一区二区三区精品酒店| 亚洲精品视频中文字幕| 九九热最新视频| 国产精品伦理一区二区| 日韩成人av免费| 欧美午夜在线| 国产精品日韩欧美一区二区| 爱啪视频在线观看视频免费| 亚洲乱码一区二区| 中国一级特黄视频| 亚洲视频香蕉人妖| 国产大尺度视频| 亚洲在线一区| 亚洲视频导航| 1769国产精品视频| 日本免费在线精品| 日本在线观看| 欧美sm极限捆绑bd| 五月天婷婷激情| 中文字幕一区二区三区在线不卡 | xxxx日本黄色| 麻豆精品一二三| 国产欧美123| 亚洲老女人视频免费| 国产女同一区二区| 韩国成人免费视频| 亚洲另类xxxx| 国产免费福利视频| 欧美三级免费观看| 后入内射无码人妻一区| 国产成人午夜精品5599| 日日摸天天爽天天爽视频| 亚洲女同另类| 欧美日韩另类丝袜其他| 豆花视频一区| 欧美夜福利tv在线| 国产盗摄在线观看| 亚洲天堂第二页| 亚洲av少妇一区二区在线观看| 日本高清免费不卡视频| 国产十六处破外女视频| 久久久亚洲午夜电影| 成人性生交视频免费观看| 国产精品主播| 激情视频小说图片| 色棕色天天综合网| 国产经典一区二区三区| 日本成人在线网站| 亚洲伊人观看| 成人欧美一区二区三区视频xxx| 欧美特黄aaaaaaaa大片| 欧美黑人又粗大| 日本三级视频在线观看| 日韩精品久久久久久久玫瑰园 | 日本午夜一区二区| 日本在线xxx| 欧美国产高清| 亚洲午夜精品一区二区| 中文字幕亚洲影视| 国产精品久久久久av福利动漫| 日韩毛片网站| 国产精品观看在线亚洲人成网| 草草视频在线| 久久久久久久国产| 污污片在线免费视频| 最近2019中文字幕mv免费看| 日本天堂在线| 日韩成人在线视频| 国产91免费看| 日韩一区二区免费电影| 伊人网av在线| 精品视频一区二区不卡| 337p粉嫩色噜噜噜大肥臀| 激情av一区二区| 国产真实夫妇交换视频| 一区二区三区四区国产精品| 一区二区三区影视| 国产精品成人午夜| 在线观看免费黄色网址| 国产欧美日韩视频一区二区| 一区二区三区四区免费| 久久久久久日产精品| 欧美无人区码suv| 99久久久国产精品| yy6080午夜| 99精品久久久久久| 中文字幕av观看| 久久久夜色精品亚洲| 永久免费成人代码| 久久精品人人做人人综合| 无码少妇一区二区| 亚洲国产精品v| 国产传媒视频在线| 亚洲欧洲精品一区二区三区不卡| 国产人妻大战黑人20p| 国产免费久久精品| 网站永久看片免费| 最新热久久免费视频| 国产盗摄一区二区三区在线| 亚洲女爱视频在线| 久久中文字幕无码| 午夜成人在线视频| 一级一片免费看| 欧美日韩五月天| a级片在线播放| 亚洲精品在线观| 牛牛澡牛牛爽一区二区| 在线看福利67194| 国产黄色在线网站| 国内精品国产三级国产在线专| 国产剧情av在线播放| 国产精品成人观看视频国产奇米| 成人看片毛片免费播放器| 亚洲在线观看视频| 免费成人蒂法| 日韩欧美亚洲v片| 亚洲女同中文字幕| 成人免费观看视频在线观看| 日韩一区精品字幕| 日本一区二区三区在线免费观看| 成人av资源网站| 亚洲国产日韩一区无码精品久久久| 成人欧美一区二区三区1314| 国产乡下妇女做爰视频| 欧美亚洲综合久久| 超碰免费在线97| 亚洲欧美综合另类中字| 成年人黄视频在线观看| 欧美亚洲国产另类| **日韩最新| 欧美区高清在线| 综合久久精品| 欧美日韩第二页| 极品美女销魂一区二区三区免费| 亚洲少妇18p| 综合久久给合久久狠狠狠97色| 国产成人精品a视频一区| 欧美性感一区二区三区| 欧美综合视频在线| 日韩在线观看免费网站| 麻豆视频在线观看免费网站黄| 国产日本欧美一区二区三区| 粉嫩的18在线观看极品精品| 杨幂一区欧美专区| 久久av一区| 日韩女优在线视频| 最新不卡av在线| 无码人妻丰满熟妇奶水区码| 精品裸体舞一区二区三区| 日韩精品成人av| 日本韩国在线不卡| 99精品国产一区二区三区2021 | 91xxx在线观看| 91国语精品自产拍在线观看性色| 国产精品亚洲综合在线观看| 日韩精品一线二线三线| 99热精品在线观看| 韩国三级hd中文字幕有哪些| 中文字幕国产一区二区| 国产三级av片| 亚洲第一黄色网| 18加网站在线| 91精品在线看| 日本激情一区| 91网址在线播放| 久久这里都是精品| 国产精品99精品| 精品不卡在线视频| 18加网站在线| 亚洲伊人久久综合| 亚欧美无遮挡hd高清在线视频 | 91tv亚洲精品香蕉国产一区| 久久riav二区三区| 亚洲看片一区| 亚洲无人区码一码二码三码| 亚洲主播在线观看| 亚洲成人777777| 色综合导航网站| 亚洲日本va| 97干在线视频| 成人免费毛片app| 在线观看 中文字幕| 337p日本欧洲亚洲大胆色噜噜| 中文国产字幕在线观看| 99久久免费国| 亚洲国产三级| 99久久国产精| 欧美日韩午夜视频在线观看| 日夜干在线视频| 国产91在线播放| 精品国产一区探花在线观看| 国产精品久久久久9999小说| 亚洲国产激情av| 中文在线字幕av| 日韩中文综合网| 久久久久毛片免费观看| 国产91在线亚洲| 成人精品一区二区三区四区| 日韩精品久久久久久久| 日韩成人在线视频| 中韩乱幕日产无线码一区| 一本色道久久综合亚洲二区三区| 精品一区在线看| 黄色片在线观看网站| 精品盗摄一区二区三区| 碰碰在线视频| 视频一区视频二区视频三区视频四区国产 | 五月婷婷激情视频| 在线观看欧美视频| 榴莲视频成人app| 免费看又黄又无码的网站| 久久中文娱乐网| 国产又粗又长又大视频| 欧美极品欧美精品欧美视频| 窝窝社区一区二区| 天天综合网久久| 亚洲国产成人porn| 日本在线视频1区| 国产日韩av在线| 亚洲视频狠狠| 久久亚洲AV无码专区成人国产| 欧美疯狂性受xxxxx喷水图片| 超黄网站在线观看| 日韩经典在线视频| 国产成人久久精品77777最新版本| 日韩精品在线免费视频| 色老头一区二区三区| 波多野结衣欧美| 色诱视频在线观看| 亚洲精品日产精品乱码不卡| 亚洲AV成人无码一二三区在线| 国产精品一区二区三区成人| 亚洲黄色在线| 91香蕉视频污在线观看| 亚洲高清福利视频| 欧美aaaaaaaa| 国产婷婷一区二区三区| 中文字幕一区二区三区不卡在线| 日本精品一区二区在线观看| 国产在线视频不卡| 国产精品色网| 久久久久久久久精|