新范式!字節提出智能體上下文折疊框架,1/10活躍量突破長周期任務瓶頸
智能體在執行長周期任務時,始終受限于上下文長度。為此,字節聯合提出上下文折疊(Context-Folding)框架,使智能體能夠主動管理其工作上下文。該框架允許智能體通過程序分支進入子軌跡以處理子任務,完成后將中間步驟折疊壓縮,僅保留結果摘要。為使該行為可學習,研究人員開發了端到端強化學習框架FoldGRPO,通過特定過程獎勵鼓勵有效的任務分解與上下文管理。
在復雜長周期任務(Deep Research與軟件工程)測試中,基于Seed-OSS-36B-Instruct的折疊智能體僅使用1/10的活躍上下文,持平或優于ReAct基線,顯著優于基于摘要的上下文管理方法,并與基于100B+參數量大模型所構建智能體的性能相媲美。

- 論文標題:Scaling Long-Horizon LLM Agent via Context-Folding
- 論文鏈接:https://arxiv.org/abs/2510.11967
- 項目地址:https://context-folding.github.io/
一、方法
1.上下文折疊框架

為應對智能體在執行長周期任務時的上下文挑戰,論文提出上下文折疊,允許智能體通過分支與折疊主動管理其工作上下文。具體而言,論文設計了兩個可供智能體調用的上下文管理工具。從主線程開始解決問題q,智能體可以:
- branch(description,prompt):從主線程分支,使用獨立工作上下文完成用于解決q的子任務q′。其中“description”是子任務的簡要摘要,“prompt”是該分支的詳細指令。該工具返回一個模板消息,表明分支已創建。
- return(message):折疊本分支中生成的上下文并返回主線程?!癿essage”用于描述該分支的執行結果。調用此工具后,智能體上下文將切換回主線程,并附加來自分支的模板消息。
上下文折疊智能體的公式建模為:

此處τ<i=(a1, o1, ..., ai-1, oi-1)表示第i步之前所有動作-觀測對的完整歷史記錄,F是上下文管理器,負責折疊branch與return工具調用之間交互歷史。

在上述示例中,a2至a4之間以及a5至a8之間的交互片段均被折疊。
推理效率:在推理過程中,智能體管理著上下文KV-cache:當調用return操作時,KV-cache將回滾至對應的branch位置,該位置的上下文前綴需與調用branch操作前的狀態保持一致。這一機制使得上下文折疊方法在推理效率方面表現優異。
實例化:為在長周期任務中實例化上下文折疊,采用規劃-執行框架,其中智能體在兩種狀態間交替:
- 規劃狀態:智能體在主線程進行高層推理,分解任務,并決定何時為子任務創建分支。在此狀態下,為保持主上下文聚焦高層策略,不鼓勵使用消耗大量token的工具。
- 執行狀態:智能體在分支內運行以完成指定子任務。為保持清晰的結構并避免復雜嵌套,執行狀態下禁止創建新的分支。
2.FoldGRPO強化學習

為優化上下文折疊智能體,論文提出一種端到端強化學習訓練框架FoldGRPO。該框架聯合優化包含主線程及子任務分支的完整交互軌跡,并基于上下文折疊建模(公式1)對rollout歷史進行折疊,從而在訓練過程中保持緊湊的工作上下文。此外,FoldGRPO采用創新的過程獎勵設計,可有效指導智能體分支行為的訓練。
(1)整體算法設計
在FoldGRPO的每個訓練步驟中,對于訓練數據集D的任務q,根據上下文折疊建模(公式1)從舊策略
中采樣G條軌跡
。每條完整軌跡(例如
)被定義為token序列
。每條軌跡τ?對應最終獎勵R?∈{0,1},遵循可驗證獎勵的強化學習。
學習目標:FoldGRPO的學習目標定義為:

其中重要性采樣比率與組相對優勢估計為:

此處
確保僅優化LLM生成的token,并掩碼工具觀察token。
其中,FoldGRPO以紅色標出兩個關鍵特性:
- 上下文折疊:與在策略優化時將完整交互歷史追加至上下文的標準多輪LLM強化學習算法不同,FoldGRPO將上下文管理器F(?)應用于歷史τi,<t,基于branch-return操作對token τi,t的上下文進行折疊。
- 過程獎勵信號:在計算優勢
時,加入token級過程獎勵
以規范模型的branch-return行為。
(2)過程獎勵設計
在RLVR中,智能體通常通過基于任務成功或失敗的二元結果獎勵進行優化。然而研究人員發現,這種稀疏獎勵信號不足以有效學習上下文折疊行為。具體表現為兩種關鍵失敗模式:
- 智能體未能進行策略性規劃,將token密集型操作保留在主上下文中未作折疊,迅速耗盡可用token預算;
- 智能體難以進行有效的分支管理,常在子任務完成后未能從子分支返回,反而在同一分支內繼續后續工作。
為有效優化折疊智能體,分別針對主軌跡token和分支軌跡token引入token級過程獎勵。
未折疊token懲罰:當主線程的總上下文長度超過工作上下文限制的50%時,對主線程中所有token(創建分支的回合對應的token除外)施加Qi,t=-1的懲罰。此舉旨在懲罰智能體在主線程非分支環境下執行的token密集型操作,并鼓勵其將此類操作在分支中執行。
超范圍懲罰:針對每個分支,采用GPT-5-nano模型,基于分支提示詞與返回消息判斷智能體是否執行了指定子任務范圍之外的操作。若存在此類行為,對該分支內所有token施加Qi,t=-0.2的懲罰,這促使智能體僅執行當前分支既定的確切子任務。
失敗懲罰:對失敗工具調用回合中的所有token施加Qi,t=-1的懲罰。其余所有情況下,Qi,t=0。
3.上下文折疊與其他方法的關聯
與多智能體系統的關系:上下文折疊可被視為廣義多智能體系統的一種特定實現形式,主智能體將子任務委托給子智能體執行。但與主流多智能體系統相比存在以下差異:
- 上下文折疊不采用預定義的子智能體,而是由主智能體動態創建;
- 所有智能體共享相同的上下文前綴,使其對KV-cache友好;
- 主智能體與子智能體交替運行而非并行執行。
與基于上下文摘要方法的關系:相較于基于啟發式摘要的上下文管理方法(其在任意節點丟棄細節信息),上下文折疊可視為一種與子任務邊界對齊的可學習摘要機制。這能確保推理在執行期間得以完整保留,僅在其效用實現后才被壓縮。
二、實驗
圖片
表1總結了在BrowseComp-Plus(Deep Research任務)和SWE-Bench Verified(軟件工程任務)數據集上的主要結果。對于折疊智能體,論文將LLM的最大上下文長度設定為32,768個token,并允許最多創建10個分支,從而實現327,680個token的理論上下文上限。
在未進行強化學習訓練時,折疊智能體的表現已超越32K上下文的ReAct及上下文摘要基線,但尚未達到長上下文ReAct智能體的性能水平。經過強化學習訓練后,智能體性能顯著提升:在BrowseComp-Plus數據集上Pass@1達到0.620(+20%),在SWE-Bench Verified數據集上Pass@1達到0.580(+8.8%)。折疊智能體不僅超越了所有基線(包括具有相同327K最大上下文長度的長上下文ReAct智能體),更與基于100B+參數量大模型所構建智能體的性能相媲美。
深入分析表明,FoldGRPO性能顯著優于基準GRPO(如在BrowseComp上提升7.7%,在SWE-Bench上提升1.6%);其次,性能提升與工具調用頻率的增加相關,而強化學習訓練進一步促進了該行為。表明論文框架使智能體能夠對環境進行更全面的探索,從而發現更魯棒的解決方案。
圖片
上圖展示了折疊智能體在BrowseComp-Plus上的定性案例。針對需要滿足特定條件的文獻檢索任務,智能體首先探索高層主題并確定候選文獻,隨后通過分支搜索驗證具體條件,在獲得關鍵信息但未能完全確認所有要求后,進一步擴展搜索范圍并最終找到正確答案。在此過程中,4個分支將完整的107K token上下文壓縮至僅6K。



































