精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

R-HORIZON:長程推理時代來臨,復旦NLP&美團LongCat重磅發(fā)布LRMs能力邊界探測新范式

人工智能 新聞
復旦大學與美團 LongCat Team?聯(lián)合推出 R-HORIZON—— 首個系統(tǒng)性評估與增強 LRMs 長鏈推理能力的方法與基準。

陸毅,復旦大學自然語言處理實驗室碩士生,在 ACL、EMNLP、COLM、NeurIPS 等頂會發(fā)表論文十余篇,LongCat Team 核心成員,研究方向為大模型的復雜推理和長序列建模,指導老師為桂韜老師。

郭林森,碩士畢業(yè)于東南大學,在 NAACL、EMNLP、Recsys 等會議發(fā)表論文多篇,目前就職于美團,LongCat Team 核心成員,研究方向為大模型評測與數(shù)據(jù)價值挖掘。

王嘉寧,獲得華東師范大學博士學位,曾前往 UCSD 訪問學習,在 ACL、EMNLP、AAAI、ICLR 等頂會發(fā)表論文數(shù)十篇,目前就職于美團,LongCat Team 核心成員,研究方向為大模型訓練與復雜推理。

研究背景:從「單步推理」到「長鏈決策」

OpenAI o1、DeepSeek-R1 等大型推理模型(LRMs)的出現(xiàn),標志著 AI 推理能力進入了「測試時擴展」的新紀元。通過長鏈推理 Long Chain-of-Thought(CoT),這些模型在數(shù)學推理、代碼生成、智能體任務等領域取得了令人矚目的突破。

然而,當前的訓練與評測范式存在一個根本性的局限:幾乎所有主流 Benchmark(如 MATH500、AIME)都聚焦于孤立的單步問題,問題之間相互獨立,模型只需「回答一個問題,然后結(jié)束」。但真實世界的推理場景往往截然不同:

  • 一個軟件工程師需要連續(xù)調(diào)試多個相互依賴的代碼模塊
  • 一個數(shù)學研究者需要基于前序定理推導后續(xù)結(jié)論
  • 一個智能助手需要在多輪對話中逐步完成復雜任務規(guī)劃

這些場景要求模型具備跨問題的長鏈推理能力 —— 不僅要解決單個問題,還要在多個相互關聯(lián)的子問題間維持推理連貫性、合理分配思考資源、進行跨步驟的反思與糾錯。

這引出了一個核心問題:大型推理模型的長鏈推理能力邊界究竟在哪里?

現(xiàn)有評測無法回答這個問題,傳統(tǒng)訓練數(shù)據(jù)也無法培養(yǎng)這種能力(如圖所示,模型在長程推理場景下性能下降嚴重)。

R1 系列模型在長程推理場景下理論準確率和實際準確率的差異

為填補這一空白,復旦大學與美團 LongCat Team 聯(lián)合推出 R-HORIZON—— 首個系統(tǒng)性評估與增強 LRMs 長鏈推理能力的方法與基準。

  • 論文標題: R-HORIZON: How Far Can Your Large Reasoning Model Really Go in Breadth and Depth?
  • 論文地址: https://arxiv.org/abs/2510.08189
  • 項目主頁: https://reasoning-horizon.github.io
  • 代碼地址: https://github.com/meituan-longcat/R-HORIZON 
  • 數(shù)據(jù)集: https://huggingface.co/collections/meituan-longcat/r-horizon-68f75703a95676fbfed97879

R-HORIZON:揭開推理模型「能力地平線」

核心創(chuàng)新:Query Composition 方法

R-HORIZON 提出了一種簡潔而強大的問題組合(Query Composition)方法,通過建立問題間的依賴關系,將孤立任務轉(zhuǎn)化為復雜的多步驟推理場景。

以數(shù)學任務為例:

1. 提取關鍵信息:從多個獨立問題中提取核心數(shù)值、變量等信息

2. 建立依賴關系:將前一個問題的答案嵌入到后一個問題的條件中

3. 形成推理鏈:模型必須按順序正確解決所有問題才能得到最終答案

這種方法具有三大優(yōu)勢:

  • 可擴展性:可靈活控制推理鏈長度(n=2, 4, 8...)
  • 可控性:可靈活設定問題間的依賴關系
  • 低成本:基于現(xiàn)有數(shù)據(jù)集即可構(gòu)建,無需額外標注

基于這一方法,我們構(gòu)建了長鏈推理的評測基準 R-HORIZON Benchmark,用于系統(tǒng)性評估 LRMs 在多步推理場景下的真實能力;同時,我們還構(gòu)建了長鏈推理的訓練數(shù)據(jù),通過強化學習(RLVR)訓練來提升模型的長鏈推理能力。

R-HORIZON 方法示意圖 —— 從單一問題到復雜推理鏈的轉(zhuǎn)化過程以及 R-HORIZON 的應用場景

R-HORIZON Benchmark:全面的長鏈推理評測基準

基于 Query Composition 方法,我們構(gòu)建了 R-HORIZON Benchmark,涵蓋 6 大代表性數(shù)據(jù)集:

核心發(fā)現(xiàn):頂級模型的「推理斷崖」

我們評測了 20+ 個主流 LRMs(包括 o4-mini、Claude-Sonnet-4、DeepSeek-R1 等頂級商業(yè)模型以及開源模型),結(jié)果揭示了一個令人震驚的現(xiàn)象:即使是最先進的模型,在長鏈推理場景下也會出現(xiàn)性能斷崖式下降。

關鍵發(fā)現(xiàn):

  • 普遍性能衰退:所有模型隨著問題數(shù)量增加都出現(xiàn)顯著性能下降。DeepSeek-R1 在 AIME25 單問題場景下準確率達 87.3%,但在 5 個組合問題場景下暴跌至 24.6%
  • 模型規(guī)模影響:更大的模型對多步推理挑戰(zhàn)展現(xiàn)出更強的韌性
  • 任務依賴性衰退:代碼生成任務相比數(shù)學任務表現(xiàn)出更陡峭的性能下降;許多推理模型在網(wǎng)頁搜索場景中失去了工具調(diào)用能力

R-HORIZON Benchmark 評測結(jié)果 —— 所有模型均出現(xiàn)顯著性能衰退

深度分析:推理模型的三大瓶頸

為了理解性能斷崖背后的原因,我們進行了深入的機制分析,發(fā)現(xiàn)當前 LRMs 存在三個關鍵瓶頸:

1. 有效推理長度受限

隨著相互依賴問題數(shù)量的增加,LRMs 難以維持其性能。實際準確率與理論準確率之間的差距顯著擴大,表明模型無法在更長的推理范圍內(nèi)保持原有性能。

深入分析發(fā)現(xiàn):

  • 模型錯誤穩(wěn)定在特定的上下文范圍內(nèi)
  • 7B 模型的主要錯誤范圍在 (4-6K tokens)
  • 32B 模型將范圍擴展到 (8-10K tokens)
  • 這表明更大的模型擁有更長的有效推理邊界

R1-Qwen-7B 和 R1-Qwen-32B 在準確率和錯誤位置上的分析

2. 反思機制高度局部化

我們分析了模型的「反思」行為,發(fā)現(xiàn):

  • 模型的反思頻率隨著問題數(shù)量增加而上升并趨于收斂
  • 超過半數(shù)的復雜任務完全缺乏長程反思(跨越當前問題的反思)
  • 這表明當前 LRMs 的反思機制高度局部化,不足以支撐長鏈場景

MATH500 數(shù)據(jù)集上的反思行為分析

3. 思考預算分配失衡

最令人意外的發(fā)現(xiàn)是:包括 DeepSeek-R1 在內(nèi)的主流 LRMs 都無法有效地在推理范圍內(nèi)分配思考預算。

  • 模型傾向于過度分配 tokens 給早期推理階段
  • 未能合理地將資源分配給后續(xù)的關鍵問題
  • 這種失衡嚴重影響了整體推理鏈的完成質(zhì)量

不同組合問題數(shù)量下各模型的思考預算分配

R-HORIZON 訓練:重塑推理模型的能力邊界

發(fā)現(xiàn)問題只是第一步,我們進一步探索:能否通過使用組合數(shù)據(jù)進行強化學習訓練來突破這些瓶頸?

RLVR with R-HORIZON:用長鏈數(shù)據(jù)訓練推理模型

我們使用 R-HORIZON 構(gòu)建的長鏈推理數(shù)據(jù)并使用 GRPO 算法進行訓練,訓練策略:

  • 基于主流 RLVR 算法 GRPO 進行訓練
  • 使用 R-HORIZON 組合數(shù)據(jù)(n=2, n=4)
  • 設計不同的獎勵函數(shù)進行對比實驗

突破性成果:雙重性能提升

實驗結(jié)果令人振奮:R-HORIZON 訓練不僅顯著提升長鏈任務表現(xiàn),連單問題性能也大幅增強。

加粗數(shù)字表示該列最佳成績

不同訓練配置下的性能對比。"Origin" 表示單問題場景,"n=X" 表示 X 個組合問題場景,"Multi" 表示多問題場景的平均性能

關鍵發(fā)現(xiàn):

1. 雙重性能提升:使用 n=2 組合問題訓練,不僅大幅提升多步推理性能(AIME24 n=2 +17.4 分),單問題性能也顯著增強(AIME24 單題 +7.5 分)

2. 可擴展復雜度:增加組合復雜度(n=4)增強了模型處理需要更多推理步驟問題的能力,在 MATH500 (n=8) 上達到 50.6%

訓練帶來的質(zhì)變

R-HORIZON 訓練不僅提升了性能數(shù)字,更帶來了推理機制的深層改變:

  • 更高效的推理長度:訓練顯著改善了模型在組合任務上的性能,展現(xiàn)出更好的泛化到更長推理鏈的能力,同時緩解了「overthinking」現(xiàn)象(生成更短、更高效的回答)。
  • 更合理的預算分配:模型學會了在多步問題中進行更合理的 token 預算分配,不再「重頭輕尾」。
  • 更長程的反思能力:R-HORIZON 促進了模型進行更長程反思的頻率增加,直接改善了長鏈推理性能。

圖:使用標準數(shù)據(jù)集和組合數(shù)據(jù)集進行強化學習的效果分析

結(jié)論與展望:開啟長鏈推理新紀元

R-HORIZON 的推出,標志著大型推理模型研究進入了一個新的階段 —— 從「能解決什么問題」到「能走多遠」的范式轉(zhuǎn)變。

技術(shù)貢獻

  • 首個長鏈推理評測基準:系統(tǒng)性揭示了 LRMs 的能力邊界,包括有效推理長度、反思范圍和思考預算分配的局限性
  • 可擴展訓練范式:提供了低成本、高效率的能力提升路徑,通過 Query Composition 方法實現(xiàn)可控的長鏈推理數(shù)據(jù)構(gòu)建
  • 深度機制分析:為未來的推理模型指明了改進方向,揭示了當前模型在長鏈推理中的三大瓶頸

開放生態(tài)

R-HORIZON 框架已全面開源,包括:

  • 完整評測代碼與 Benchmark 數(shù)據(jù)
  • 訓練數(shù)據(jù)和訓練代碼
  • 數(shù)據(jù)構(gòu)建流程
  • 詳細文檔與使用教程

期待與全球研究者攜手,共同推動下一代推理模型的發(fā)展,讓人工智能在現(xiàn)實世界中展現(xiàn)出更卓越的長鏈推理能力。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-11 13:46:59

2025-08-29 09:16:06

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-09-02 10:05:33

2025-07-22 08:50:00

AI模型框架

2014-10-31 13:52:36

美柚APP

2012-11-07 09:11:50

2025-06-09 09:32:35

2025-07-10 14:51:29

人工智能AI模型

2018-08-03 11:58:07

美團分布式數(shù)據(jù)處理可視化

2025-06-05 11:51:14

NVIDIAProRLLLM

2025-07-25 07:44:53

2011-10-31 16:14:44

云計算

2025-06-30 08:49:00

2012-10-24 13:42:04

2025-11-07 01:25:00

美團全模態(tài)大模型

2025-06-26 09:06:59

2010-05-21 16:00:48

GoogleFeed API
點贊
收藏

51CTO技術(shù)棧公眾號

国产精品人人做人人爽人人添 | 国产精品乱码一区二区三区| 精品国产欧美日韩不卡在线观看| 日韩视频1区| 精品久久久久人成| 日韩av在线一区二区三区| 日韩视频在线免费看| 这里只有精品国产| 亚洲影视一区| 日韩精品中文字幕在线观看| 三级视频中文字幕| 啦啦啦中文在线观看日本| 91老师片黄在线观看| 91久久国产综合久久91精品网站| 69精品久久久| 久久中文字幕av| 亚洲国产欧美日韩精品| 亚洲一级片网站| 青青草在线视频免费观看| 免费成人av在线| 性亚洲最疯狂xxxx高清| 性色国产成人久久久精品| 精品入口麻豆88视频| 日韩欧美在线视频免费观看| 中文字幕久久一区| 日本成人一区二区三区| 国产sm精品调教视频网站| 国产精品久久97| av资源吧首页| 亚洲国产精品成人| 亚洲午夜色婷婷在线| 欧美激情 亚洲| 欧美精品影院| 欧美日韩国产不卡| 日韩中文字幕组| 国产激情在线播放| 亚洲激情五月婷婷| 亚洲在线视频一区二区| 91视频在线视频| 欧美精品不卡| 操人视频在线观看欧美| 亚洲综合第一区| 精品国精品国产自在久国产应用| 色哟哟一区二区| 妞干网在线观看视频| 91极品在线| 亚洲天天做日日做天天谢日日欢 | 区一区二视频| 欧美在线观看一区| 六月丁香婷婷在线| 鲁鲁在线中文| 欧美日韩国产一区中文午夜| 国产日韩av网站| 成人性生交大片免费看网站 | 最近中文字幕免费mv| 国产精品亚洲欧美在线播放| 免费成人在线视频观看| 国产精品高潮视频| 自拍偷拍精品视频| 精品中文av资源站在线观看| 国产乱肥老妇国产一区二 | 欧美一区二区在线看| 日韩一区二区三区久久| 日韩第二十一页| 51精品国自产在线| 爱情岛论坛亚洲自拍| 久久伊人影院| 精品伦理精品一区| 成人性生活免费看| 久久不见久久见中文字幕免费| 日韩二区三区在线| 美女爆乳18禁www久久久久久| 精品国产美女| 日韩在线观看成人| 日韩综合第一页| 日韩精品导航| 在线看日韩av| 国产精品国产精品88| 精品动漫3d一区二区三区免费| 97精品国产aⅴ7777| 国产一级一级国产| 亚洲男女av一区二区| 欧美黑人巨大精品一区二区| 91浏览器在线观看| 青青草国产成人99久久| 亚洲a成v人在线观看| 日韩专区第一页| 久久久激情视频| 中文字幕一区综合| 啊啊啊久久久| 欧美日韩免费不卡视频一区二区三区 | 欧美日韩中国免费专区在线看| www.国产区| 精品国产一级| 日韩精品在线影院| www.av免费| 欧美亚洲网站| 91九色视频导航| 亚洲欧美日韩精品永久在线| 国产精品视频第一区| 久久艹国产精品| www.一区| 亚洲国内精品视频| 午夜成人亚洲理伦片在线观看| 在线看片欧美| 成人欧美一区二区三区在线湿哒哒| 老司机午夜福利视频| 国产精品久久久久久久久搜平片| 真人抽搐一进一出视频| 国产69精品久久久久9999人| 精品少妇一区二区三区在线视频 | 亚洲天堂精品视频| 日韩毛片在线免费看| 99久久婷婷国产综合精品青牛牛 | 大又大又粗又硬又爽少妇毛片| 希岛爱理一区二区三区| 欧美在线视频网| 亚洲国产精品久久久久爰性色| 国产欧美一区二区三区沐欲| 日本精品久久久久久久久久| 中文字幕日本一区| 亚洲日韩欧美视频| 日韩欧美一级视频| 国产91丝袜在线播放九色| 亚洲乱码一区二区三区三上悠亚| 多野结衣av一区| 精品免费视频一区二区| 午夜激情视频在线播放| 日本亚洲最大的色成网站www| 精品国产综合| av资源在线看片| 日韩一级黄色大片| 久久人妻无码aⅴ毛片a片app | 日韩不卡一二三| 色综合综合网| 欧美亚洲第一页| 日韩中文字幕观看| 亚洲香蕉伊在人在线观| 免费看的av网站| 一个色综合网| 91理论片午午论夜理片久久| 91精品大全| 国产精品女主播在线观看| 黑人糟蹋人妻hd中文字幕| 久久97久久97精品免视看秋霞| 欧美激情二区三区| 亚洲国产精品久久久久久6q| 一区二区国产盗摄色噜噜| 可以在线看的av网站| 视频一区日韩| 欧美国产日产韩国视频| av免费观看在线| 一区二区三区四区国产精品| 日批视频在线看| 欧美网站在线| 国产伦精品一区二区三区照片91 | 欧美在线免费视频| 全色精品综合影院| 91黄视频在线| 999久久久国产| 极品少妇一区二区三区精品视频| 中文字幕中文字幕一区三区| 国产在线视频欧美一区| 亚洲精品91美女久久久久久久| 久久老司机精品视频| 成人午夜激情影院| 久久婷婷五月综合色国产香蕉| 精品久久久网| 欧美成人高清视频| 亚洲美女福利视频| 欧美日韩午夜剧场| 黄色片在线观看免费| 黄色亚洲精品| 激情伦成人综合小说| 粉嫩一区二区| 中文字幕v亚洲ⅴv天堂| 国产精品乱码一区二区| 亚洲宅男天堂在线观看无病毒| 污网站免费观看| 久久精品1区| 亚洲一区二区三区加勒比| 看亚洲a级一级毛片| 高清一区二区三区日本久| 四虎成人免费在线| 亚洲视频一二区| 怡红院一区二区| 日韩1区2区3区| 亚洲AV无码成人精品一区| 91亚洲无吗| 国产精品高清在线观看| 尤物在线网址| 亚洲欧美日韩视频一区| 国产原创中文av| 欧美日韩免费看| 四虎影院中文字幕| 91视频观看免费| 小早川怜子一区二区三区| 亚洲黄网站黄| 国产高清精品一区二区三区| 欧美性猛交xxx高清大费中文| 日韩亚洲欧美成人| 亚洲欧洲成人在线| 欧美精品色一区二区三区| a v视频在线观看| 中文字幕+乱码+中文字幕一区| 韩国三级在线看| 美女国产一区二区三区| 免费观看美女裸体网站| 99精品视频在线观看播放| 精品国产综合久久| 精品一区二区三区在线观看视频| 日本人成精品视频在线| 牛牛精品视频在线| 色综合影院在线| 你懂的在线视频| 亚洲第一天堂av| 国产一区二区女内射| 国产精品久久久久久久久免费桃花| 一区二区免费在线观看视频 | 极品人妻一区二区| 日本不卡的三区四区五区| 欧美极品欧美精品欧美| 欧美日韩hd| 欧美性视频在线播放| 精品成av人一区二区三区| 精品国产一区二区三区四区精华 | 日韩三级免费| 久久久av一区| 免费在线视频欧美| 91麻豆精品久久久久蜜臀| 色播视频在线播放| 亚洲一区影音先锋| 男人的天堂久久久| 日韩毛片高清在线播放| 神马久久久久久久久久久| 久久先锋影音av鲁色资源网| 大尺度在线观看| 国产精品自拍av| 不卡中文字幕在线观看| 老司机一区二区| 国产wwwxx| 日韩精品1区2区3区| 北条麻妃69av| 亚洲一区亚洲| 男人日女人下面视频| 亚洲高清av| 婷婷五月综合缴情在线视频| 好吊视频一区二区三区四区| 狠狠精品干练久久久无码中文字幕 | 国产精品精品国产一区二区| 日韩精品第一页| 精品久久久久中文字幕小说| 日本一区不卡| 久久国产电影| 亚洲一区二区三区午夜| 久久美女精品| 中国老女人av| 欧美视频久久| 看av免费毛片手机播放| 久久成人精品| 国产精品久久久毛片| 免费观看久久久4p| 最新国产黄色网址| 国产剧情在线观看一区二区| 精品人妻人人做人人爽夜夜爽| 国产乱码精品一区二区三区五月婷| 国产黑丝在线视频| 国产成人精品亚洲午夜麻豆| 久久久久久久久久久久久国产精品| 一区二区三区四区五区在线 | 国产盗摄一区二区| 97精品国产91久久久久久| 成人美女大片| 国产综合香蕉五月婷在线| 日本一区二区乱| 久久精品一区二区三区不卡免费视频| 天天做夜夜做人人爱精品| 欧美在线3区| 婷婷成人基地| 僵尸世界大战2 在线播放| 久久精品30| 男人的天堂最新网址| 成人精品视频一区二区三区尤物| 黑丝av在线播放| 国产精品天干天干在线综合| 欧洲猛交xxxx乱大交3| 狠狠躁夜夜躁人人躁婷婷91| 久久久久久无码精品大片| 51精品视频一区二区三区| 少妇高潮一区二区三区99小说| 亚洲无亚洲人成网站77777| 成人免费观看视频大全| 一本色道久久88精品综合| 国内精品久久久久久野外| 高清欧美性猛交xxxx黑人猛交| 四虎成人在线| 国产高清不卡av| 欧美激情电影| 青青草成人免费在线视频| 免费高清在线一区| 亚洲久久久久久| 最新热久久免费视频| 偷偷操不一样的久久| 欧美日韩国产综合久久| 婷婷国产在线| 欧美理论片在线观看| 免费在线毛片网站| 欧美做爰性生交视频| 欧美影院精品| 亚洲国产另类久久久精品极度| 国色天香一区二区| www.99av.com| 久久久久久久久久久久久女国产乱| 久久福利免费视频| 色噜噜久久综合| 污污的视频网站在线观看| y97精品国产97久久久久久| 在线天堂资源www在线污| 国产精品国产一区二区| 亚洲精品国产首次亮相| 亚洲视频在线观看一区二区三区| 成人三级在线视频| 朝桐光av在线| 3751色影院一区二区三区| 国产精品影院在线| 欧美一区二区.| 盗摄牛牛av影视一区二区| 欧美日韩一区二区三区电影| 日本最新不卡在线| 亚洲AV无码国产成人久久| 精品欧美一区二区三区| 韩国中文字幕hd久久精品| 欧美大码xxxx| www.久久99| 在线一区高清| 精品一区二区三区在线视频| 国产伦精品一区二区三区视频女| 欧美视频在线观看 亚洲欧| 天天摸天天干天天操| 欧美激情视频在线观看| 欧美日韩在线资源| 国产99久久精品一区二区永久免费| 精品一区二区男人吃奶| av在线播放天堂| 国产精品69毛片高清亚洲| 在线看的片片片免费| 91精品国产免费| 日本高清视频在线播放| 欧美精品做受xxx性少妇| 亚洲视频自拍| mm131午夜| 国产精品亚洲视频| 久久精品波多野结衣| 精品久久国产字幕高潮| 日韩激情av| 国产精品视频福利| 亚洲日本激情| 中文字幕一区二区三区人妻不卡| 午夜欧美在线一二页| 五月婷婷免费视频| 欧美专区中文字幕| 国产一区二区观看| 国产精品无码电影在线观看| 国产一区二区三区久久悠悠色av| 91成人精品一区二区| 51精品国自产在线| 午夜av在线免费观看| 肥熟一91porny丨九色丨| 一本综合精品| 欧美做受高潮6| 欧美日韩亚洲综合在线| 成视频免费观看在线看| 国产精品久久久久久久久久久久午夜片 | 韩国视频一区二区| 久久久精品91| 亚洲精品美女在线观看| 成人看片网站| 日本一区二区免费高清视频| 懂色av中文字幕一区二区三区 | av资源在线观看免费高清| 国产欧美日韩精品专区| 国内精品久久久久国产盗摄免费观看完整版| 中文字幕一二三区| 黑人精品xxx一区| 888av在线| 国产91精品入口17c| 久久久久91| 久久久久久国产精品视频| 日韩国产欧美精品在线| 精品乱码一区二区三区四区| 欧美人成在线观看| 国产性色一区二区| 国产强伦人妻毛片| 欧美一级大胆视频| 99成人在线视频| 国产a级黄色片| 欧美高清视频在线高清观看mv色露露十八| 日本在线视频中文有码| 日本10禁啪啪无遮挡免费一区二区 | 日韩中文字幕观看|