突破AI記憶瓶頸!阿里通義實驗室ReSum技術讓大模型實現"無限思考"

大語言模型(LLM)已經成為解決復雜問題的重要工具。然而,即使是目前最先進的模型,也面臨著一項根本性挑戰:上下文窗口限制。想象一下,當你要求AI回答一個需要多輪搜索、涉及多個實體和復雜關系的復雜問題時,AI往往會因為"記不住"之前的探索過程而無法給出完整答案。
近日,阿里巴巴通義實驗室的研究團隊提出了一項突破性解決方案——ReSum范式,成功破解了這一難題。這項由Xixi Wu、Kuan Li、Yida Zhao等研究者共同完成的工作,不僅為LLM網絡代理開辟了新的可能性,更為人工智能的長時程推理能力帶來了質的飛躍。
技術背景:上下文窗口的"緊箍咒"
要理解ReSum的價值,首先需要了解當前LLM網絡代理面臨的核心挑戰。
在處理復雜網絡搜索任務時,LLM通常采用ReAct范式(Yao et al., 2023),即通過"思考-行動-觀察"的循環迭代來逐步解決問題。然而,這種范式存在一個致命弱點:每次交互都會被完整記錄在對話歷史中,導致上下文迅速膨脹。
考慮這樣一個問題:"一位畫家,其父親死于心臟病,有一個姐姐和與妻子生的五個孩子。后來,他的婚姻破裂,又有三段感情。基于這個人的文學作品是什么?"
這個問題涉及多個實體、交織的關系和高度不確定的信息,無法通過幾次搜索調用就解決。相反,它需要擴展的搜索周期,包括目標查詢、瀏覽、提取和交叉驗證,以逐步減少不確定性并構建完整且基于證據的鏈條。

然而,正如論文中圖1所示,ReAct范式在處理這類問題時,上下文預算很快就會被耗盡,導致探索過程被迫中斷。論文中的實驗數據也證實了這一點:在BrowseComp-en基準測試上,大多數成功解決的案例在10次工具調用內完成,而失敗的案例通常超過10次,甚至20次,導致token使用量急劇增加,超過32k的限制。
這就是ReAct范式的"記憶瓶頸" ——它限制了LLM在復雜任務上的表現,使其無法進行長時程探索。
ReSum范式:突破記憶瓶頸的創新方案
面對這一挑戰,阿里巴巴團隊提出了ReSum(Reasoning with Summarization)范式,其核心思想是:在達到上下文限制之前,將不斷增長的交互歷史轉換為緊湊的推理狀態。
與ReAct不斷追加每個交互不同,ReSum定期將對話壓縮為結構化摘要,并從這些壓縮狀態繼續探索。這種方法使代理能夠在不受上下文約束的情況下保持對先前發現的認知,從而實現無限探索。
ReSum的工作流程
ReSum的工作流程可以分為三個主要階段:

完整的ReSum工作流程詳見論文中的算法1。

與ReAct累積所有交互不同,ReSum將冗長的交互歷史轉換為緊湊、可重新啟動的推理狀態。這種方法提煉關鍵證據并突出可操作的下一步,使多輪探索能夠在token預算約束下進行。
ReSumTool-30B:專為網絡搜索定制的摘要工具
在ReSum中,現成的LLM可以作為摘要工具。然而,其角色遠超傳統的對話摘要。為了引導網絡代理進行持久、目標導向的探索,摘要工具必須對冗長且嘈雜的交互歷史進行邏輯推理,從大型文本片段中提煉可驗證的證據,并提出基于網絡上下文的、可操作的、范圍明確的下一步。
這些能力通常缺乏網絡上下文推理的通用模型,這促使我們為ReSum開發專門的摘要工具。
開發過程
為了構建有效的目標導向摘要工具,團隊首先進行了實證研究,比較了不同規模的模型(Yang et al., 2024; Team, 2025b)。研究結果表明,較小的模型通常難以從冗長且嘈雜的交互歷史中提取可驗證的證據,凸顯了強大推理能力的重要性。雖然較大的模型在摘要方面表現出色,但其高昂的API成本和顯著的部署開銷使其不切實際。因此,團隊開發了一個更小、可部署的模型,同時保留了較大模型的目標導向摘要能力。
團隊利用強大的開源模型作為數據引擎,因其可訪問性和產生高質量摘要的能力。對于訓練數據,選擇了SailorFog-QA(Li et al., 2025a),這是一個具有挑戰性的基準測試,其中代理必須在擴展探索期間調用摘要工具,而不是在幾次工具調用內解決問題的簡單數據集。團隊從ReSum滾動中收集?對話,摘要?對,并通過監督微調將這種能力提煉到Qwen3-30B-A3B-Thinking中,獲得具有專門摘要能力的ReSumTool-30B。
性能優勢
廣泛的評估表明,ReSumTool-30B在摘要質量上優于更大的模型,如Qwen3-235B(Team, 2025b)和DeepSeek-R1-671B(Guo et al., 2025)。這證明了專門訓練的價值——即使模型規模較小,通過針對特定任務的優化,也能達到甚至超越更大模型的性能。
ReSum-GRPO:讓代理掌握摘要推理的訓練框架
ReSum范式創建了一種新的查詢類型q' = (q, s),將原始用戶查詢q與摘要s結合。這種模式對于標準代理來說是分布外的,因為它們在訓練過程中沒有遇到過基于摘要的推理。因此,團隊采用強化學習(RL)來掌握這種范式。
與監督微調不同,監督微調需要昂貴的專家級ReSum軌跡數據收集,并可能覆蓋代理的現有技能,RL使代理能夠通過自我進化適應這種范式,同時保留其固有的推理能力。
軌跡分割

獎勵計算
為了避免手動設計每個片段的獎勵,團隊利用統一的軌跡級獎勵信號。從最后一個片段中,提取aT并使用LLM-as-Judge策略(Gu et al., 2024; Li et al., 2024)計算獎勵為R(a, aT) ∈ {0, 1}。這種方法為每個完整軌跡提供單個獎勵,可以在必要時在其所有片段之間共享。與大多數代理RL方法(Liu et al., 2025; Dong et al., 2025)強加格式獎勵不同,團隊的方法僅依賴于答案正確性來提供更加結果導向的信號。
此外,團隊在每個生成步驟執行格式檢查:如果代理未能遵循特定標記(如 thought),整個軌跡將被終止并分配零獎勵作為懲罰。這隱含地引導代理有效遵循所需格式。
GRPO集成

ReSum-GRPO的圖示。
ReSum定期摘要長軌跡并從壓縮狀態重新開始,導致分割的軌跡。從最終答案計算單個軌跡級獎勵,在組內歸一化以獲得軌跡級優勢,并將該優勢廣播到同一滾動中的所有片段。
ReSum-RL僅通過在摘要上進行分割修改滾動收集,并將獎勵信號調整為軌跡級答案正確性。因此,它與各種RL算法(Schulman et al., 2017; Christiano et al., 2017; Yu et al., 2025b)兼容。具體來說,團隊使用GRPO(Shao et al., 2024)實例化這一點,得到ReSum-GRPO。
總之,ReSum-GRPO中的優勢廣播機制鼓勵:(1)有效利用摘要從壓縮狀態成功推理,以及(2)戰略性信息收集以收集產生高質量摘要的證據。值得注意的是,ReSum-GRPO僅通過利用分割滾動修改長軌跡,而短軌跡的處理與標準GRPO相同。這種設計不僅保持訓練效率,還保留了代理的固有推理模式。
實驗結果:ReSum的卓越表現
為了評估ReSum在克服復雜查詢上下文限制方面的有效性,團隊在三個具有挑戰性的基準測試上進行了實驗,在這些測試中代理通常需要廣泛探索:GAIA(Mialon et al., 2023)、BrowseComp-en(Wei et al., 2025)及其中文對應版本BrowseComp-zh(Zhou et al., 2025a)。
無訓練ReSum的性能
在無訓練設置中,團隊直接將ReSum范式應用于各種網絡代理,無需額外訓練。

表1展示了不同推理范式在各種網絡代理上的性能比較,揭示了以下關鍵發現:
- ReSum范式由于擴展的探索機會而始終優于ReAct。ReSum范式在所有代理和基準測試上都表現出優越的性能,相比ReAct基線實現了實質性改進。這種增強源于ReSum通過智能上下文壓縮保持連貫探索的能力,使代理能夠在不受上下文約束的情況下解決復雜查詢。雖然Recent History基線也提供了擴展的探索,但簡單的截斷破壞了上下文連續性,無法保留有價值的信息以繼續推理。
- 團隊開發的ReSumTool-30B在保持部署效率的同時實現了與更大模型相當的性能。ReSumTool-30B在作為摘要工具時,在所有配置中始終優于其基礎模型Qwen3-30B。值得注意的是,ReSumTool-30B在用于摘要時經常匹配或超過顯著更大模型的性能:在WebSailor-3B上的BrowseComp-zh上,它實現了13.7%的Pass@1,優于Qwen3-235B(11.1%)和DeepSeek-R1-671B(13.0%)作為摘要工具時的表現。這證明了團隊針對性訓練的有效性。
- ReSum集成有效縮小了與SOTA預訓練模型的性能差距。配備ReSumTool-30B的WebSailor代理接近領先預訓練模型的性能。值得注意的是,配備ReSumTool-30B的WebSailor-30B在BrowseComp-en基準測試上實現了16.0%的Pass@1,超過了Claude-4-Sonnet(12.2%)和Kimi-K2(14.1%)。這表明ReSum集成不僅增強了WebSailor代理的能力,還使其性能與該領域的頂級模型保持一致。
ReSum-GRPO的性能
在需要訓練的設置中,團隊比較了ReSum-GRPO與標準GRPO算法.

展示了RL算法之間的性能比較,可以得出以下結論:
- ReSum-GRPO成功使代理熟悉ReSum范式,在基準測試上實現了更顯著的改進。例如,經過ReSum-GRPO訓練后,WebSailor-3B在BrowseComp-zh上的Pass@1從8.2%提高到20.5%,證明了RL訓練的有效性。
- GRPO算法無法使代理掌握基于摘要的推理。GRPO旨在使代理熟悉ReAct推理模式,這確實提升了代理的ReAct推理性能,而應用ReSum范式無法顯著超過ReSum-GRPO訓練的對應模型,顯示了范式適應的必要性。
- ReSum-GRPO使代理能夠實現與使用10K+樣本訓練的代理相當的性能。即使與在10K+樣本上經過數百步訓練的強大開源代理相比,團隊僅用1K+樣本訓練的ReSum-GRPO使基礎代理實現了相當的性能,例如WebSailor-30B在BrowseComp-zh上達到33.3%,超過了ASearcher-32B(15.6%)(Gao et al., 2025)、MiroThinker-32B(17.0%)(Team, 2025a)和WebExplorer-8B(32.0%)(Liu et al., 2025)。
結論與展望
ReSum范式通過定期上下文摘要成功解決了LLM網絡代理面臨的上下文窗口限制問題,實現了長時程搜索能力。團隊開發的ReSumTool-30B專門用于目標導向的對話摘要,而ReSum-GRPO算法則通過自我進化使代理適應這一范式。
廣泛的實驗證明了ReSum范式和ReSum-GRPO訓練的有效性。未來工作將專注于使代理能夠智能地自主發起摘要調用,消除對基于規則的摘要調用的依賴。
參考
Wu, X., Li, K., Zhao, Y., et al. (2025). ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization. arXiv:2509.13313.
本文轉載自??AIGC深一度??,作者:一度

















