精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從18k到122:ACE框架如何破解LLM上下文坍縮的致命陷阱

人工智能
上下文坍縮是LLM應(yīng)用中鮮為人知卻影響深遠(yuǎn)的難題。本文將探索ACE框架如何通過增量Delta更新與模塊化設(shè)計,讓LLM上下文從"越優(yōu)化越差"轉(zhuǎn)變?yōu)?quot;越積累越強(qiáng)"。研究顯示,ACE不僅在AppWorld任務(wù)中超越GPT-4.1驅(qū)動的智能體,還將適應(yīng)延遲降低86.9%,為構(gòu)建自進(jìn)化的AI系統(tǒng)提供全新范式。

大家好,我是肆〇柒。今天我們一起閱讀一項由斯坦福大學(xué)與SambaNova Systems聯(lián)合研究團(tuán)隊提出的突破性技術(shù)——Agentic Context Engineering(ACE)框架。這項研究直面LLM應(yīng)用中的核心挑戰(zhàn):當(dāng)上下文從18,282個Token坍縮至122個Token時,準(zhǔn)確率竟從66.7%驟降至57.1%,甚至低于無適應(yīng)的基線水平。ACE通過創(chuàng)新的模塊化設(shè)計,成功將上下文轉(zhuǎn)化為可積累、可進(jìn)化的戰(zhàn)術(shù)手冊,在AppWorld智能體任務(wù)中讓開源模型DeepSeek-V3.1超越了GPT-4.1驅(qū)動的頂級智能體。

在 AppWorld 智能體任務(wù)中,一個令人費(fèi)解的現(xiàn)象發(fā)生了:第 60 步的上下文包含 18,282 個 Token 且準(zhǔn)確率達(dá) 66.7%,但下一步卻驟然坍縮至僅 122 個 Token,準(zhǔn)確率跌至 57.1%——甚至低于無適應(yīng)的基線(63.7%)。

上下文坍縮現(xiàn)象

這一現(xiàn)象揭示了當(dāng)前上下文優(yōu)化方法的致命缺陷:隨著迭代進(jìn)行,系統(tǒng)反而丟失關(guān)鍵信息,性能不升反降。研究顯示,在第 60 步,上下文準(zhǔn)確率達(dá)到 66.7%,但當(dāng) LLM 被要求在下一步完全重寫累積的上下文時,它將 18,282 個 Token 的豐富知識壓縮為僅 122 個 Token 的簡短摘要,導(dǎo)致性能斷崖式下跌。

這種"越優(yōu)化越差"的現(xiàn)象對實際應(yīng)用具有災(zāi)難性影響。想象一個處理金融交易的智能體,在多次迭代后丟失了關(guān)鍵的 XBRL 規(guī)則或 API 分頁邏輯,可能導(dǎo)致嚴(yán)重錯誤卻難以察覺根源。上下文坍縮不僅是性能下降,更是系統(tǒng)可靠性的致命威脅——當(dāng)智能體在處理復(fù)雜任務(wù)時,丟失的不僅是 Token 數(shù)量,更是關(guān)鍵的領(lǐng)域知識和操作細(xì)節(jié)。

為何主流上下文優(yōu)化方法在長期迭代中會出現(xiàn)這種反直覺現(xiàn)象?Agentic Context Engineering(ACE)框架的提出,為這一問題提供了系統(tǒng)性解決方案,成功克服了 brevity bias(簡潔性偏見)與 context collapse(上下文坍縮)兩大瓶頸。與傳統(tǒng)方法將上下文視為需壓縮的"指令摘要"不同,ACE 主張將上下文構(gòu)建為可積累的"戰(zhàn)術(shù)手冊"(playbook)——詳盡、包容、富含領(lǐng)域洞見,讓 LLM 在推理時自主提取相關(guān)性。

ACE在智能體與領(lǐng)域任務(wù)上的性能對比

實驗數(shù)據(jù)顯示,ACE 在智能體和領(lǐng)域特定任務(wù)上分別實現(xiàn)平均 10.6% 和 8.6% 的性能提升,為上下文工程樹立了新標(biāo)桿。

上下文工程為何成為 LLM 應(yīng)用的關(guān)鍵路徑

上下文適應(yīng)(Context Adaptation)是指通過修改 LLM 輸入而非調(diào)整模型權(quán)重來提升性能的方法。這種方法適用于系統(tǒng)提示優(yōu)化、記憶管理、事實證據(jù)注入等多種場景,已成為當(dāng)下 LLM 應(yīng)用的核心范式。上下文適應(yīng)通過將澄清的指令、結(jié)構(gòu)化推理步驟或特定領(lǐng)域輸入格式直接整合到模型輸入中,從而在模型訓(xùn)練后提升性能。上下文支撐著 AI 系統(tǒng)的多個組件,包括指導(dǎo)下游任務(wù)的系統(tǒng)提示、承載過去事實和經(jīng)驗的記憶,以及減少幻覺和補(bǔ)充知識的事實證據(jù)。

相較于模型微調(diào),上下文適應(yīng)具有顯著優(yōu)勢:上下文對用戶和開發(fā)者而言是可解釋和可解釋的,允許在運(yùn)行時快速集成新知識,并可在復(fù)合系統(tǒng)中的模型或模塊間共享。同時,長上下文 LLM 和上下文高效推理技術(shù)(如 KV cache 復(fù)用)的進(jìn)步使基于上下文的方法在部署中日益實用。隨著這些發(fā)展,上下文適應(yīng)正成為構(gòu)建能力強(qiáng)大、可擴(kuò)展且自進(jìn)化的 AI 系統(tǒng)的核心范式。

ACE 與 Dynamic Cheatsheet 的關(guān)系值得深入剖析。雖然 ACE 建立在 Dynamic Cheatsheet 的 agentic 架構(gòu)基礎(chǔ)上,但通過三大關(guān)鍵改進(jìn)解決了其根本局限:(1) 專用 Reflector 將評估與洞察提取分離,避免單一模型過載;(2) 增量 Delta 更新替代全量重寫,防止上下文坍縮;(3) grow-and-refine 機(jī)制平衡擴(kuò)展與冗余控制,確保上下文既詳盡又精煉。這一設(shè)計反映了現(xiàn)代 LLM 的一個重要特性:與人類不同,LLM 在長而詳盡的上下文中表現(xiàn)更佳,能夠自主過濾無關(guān)信息,無需人為壓縮關(guān)鍵領(lǐng)域知識。

在 AppWorld 案例中,當(dāng)智能體需要處理分頁任務(wù)時,簡潔的提示可能僅建議"獲取數(shù)據(jù)",而丟失了“使用 while True 循環(huán)遍歷所有頁面索引直到無更多結(jié)果返回”這一關(guān)鍵細(xì)節(jié),導(dǎo)致智能體只能獲取部分?jǐn)?shù)據(jù)。在金融分析任務(wù)中,簡潔的提示可能遺漏 XBRL 報告中的特定財務(wù)規(guī)則,使模型無法正確執(zhí)行財務(wù)計算。這些場景中,上下文不應(yīng)作為簡潔摘要,而應(yīng)作為全面、進(jìn)化的戰(zhàn)術(shù)手冊——詳細(xì)、 inclusive、富含領(lǐng)域洞見。

論文中詳細(xì)介紹了當(dāng)前上下文適應(yīng)的代表方法:Reflexion 通過反思失敗來改進(jìn)代理規(guī)劃;TextGrad 通過類梯度文本反饋優(yōu)化提示;GEPA 基于執(zhí)行軌跡迭代優(yōu)化提示,在某些場景甚至超越強(qiáng)化學(xué)習(xí)方法;Dynamic Cheatsheet 構(gòu)建外部記憶,從過去成功和失敗中積累策略和經(jīng)驗。這些基于自然語言反饋的方法代表了重大進(jìn)步,為改進(jìn) LLM 系統(tǒng)提供了靈活且可解釋的信號。ACE 在此基礎(chǔ)上進(jìn)一步發(fā)展,解決了現(xiàn)有方法在長期迭代中丟失關(guān)鍵信息的根本問題。

現(xiàn)有方法的兩大致命缺陷

現(xiàn)有上下文適應(yīng)方法面臨兩個根本性挑戰(zhàn)。首先是簡潔性偏見:優(yōu)化過程傾向于生成簡短、泛化的指令,犧牲領(lǐng)域特定細(xì)節(jié)。比如有的方法,文檔化了這一現(xiàn)象,在提示優(yōu)化過程中,迭代方法反復(fù)產(chǎn)生近似相同的指令(如"創(chuàng)建單元測試以確保方法行為符合預(yù)期"),導(dǎo)致策略同質(zhì)化并丟失多樣性和領(lǐng)域特定細(xì)節(jié)。這種收斂不僅 narrows the search space,還使優(yōu)化后的提示繼承種子提示的相同錯誤,傳播反復(fù)出現(xiàn)的錯誤。

這種現(xiàn)象在 AppWorld 智能體任務(wù)中尤為明顯,當(dāng)模型需要處理多步驟推理、工具使用和環(huán)境交互時,簡潔的泛化指令無法捕獲關(guān)鍵的領(lǐng)域特定策略。例如,當(dāng)智能體需要處理 API 分頁邏輯時,簡潔的提示可能僅建議獲取數(shù)據(jù),而丟失了"使用 while True 循環(huán)遍歷所有頁面索引直到無更多結(jié)果返回"這一關(guān)鍵細(xì)節(jié),導(dǎo)致智能體只能獲取部分?jǐn)?shù)據(jù)。在金融分析任務(wù)中,簡潔的提示可能遺漏 XBRL 報告中的特定財務(wù)規(guī)則,使模型無法正確執(zhí)行財務(wù)計算。

其次是上下文坍縮:當(dāng) LLM 被要求在每一步完全重寫累積的上下文時,隨著上下文增長,模型傾向于將其壓縮為更短、信息量更少的摘要,導(dǎo)致關(guān)鍵信息急劇丟失。AppWorld 案例清晰地展示了這一問題:在第 60 步,上下文包含 18,282 個 Token 且準(zhǔn)確率達(dá) 66.7%,但下一步卻坍縮至僅 122 個 Token,準(zhǔn)確率降至 57.1%。這種現(xiàn)象不僅限于 Dynamic Cheatsheet,而是 LLM 全量重寫上下文時的固有風(fēng)險——累積的知識可能被突然擦除而非保留。

上下文坍縮的根本原因在于 LLM 在重寫過程中傾向于偏好簡潔、概括性的表述,而丟失了具體、詳盡的領(lǐng)域知識。例如,當(dāng)處理金融分析任務(wù)時,長上下文可能包含詳細(xì)的 XBRL 規(guī)則和財務(wù)計算方法,但全量重寫后可能僅保留"提取財務(wù)數(shù)據(jù)"這樣泛泛的指令,導(dǎo)致模型無法執(zhí)行精確的財務(wù)分析。論文中特別指出,這種坍縮不是 Dynamic Cheatsheet 特有的問題,而是端到端上下文重寫中 LLM 的根本風(fēng)險,其中累積的知識可能被突然擦除而非保留。

在實際應(yīng)用中,上下文坍縮可能導(dǎo)致災(zāi)難性后果。當(dāng)智能體在處理復(fù)雜任務(wù)時,丟失的不僅是 Token 數(shù)量,更是關(guān)鍵的領(lǐng)域知識和操作細(xì)節(jié)。例如,在 AppWorld 任務(wù)中,智能體可能已經(jīng)學(xué)會了如何處理音樂播放列表的分頁邏輯,但一次全量重寫后,這些關(guān)鍵知識被壓縮為泛泛的"獲取數(shù)據(jù)"指令,導(dǎo)致智能體只能獲取部分播放列表,無法完成任務(wù)。這種"越優(yōu)化越差"的現(xiàn)象使開發(fā)者難以信任自動化的上下文優(yōu)化過程,限制了 LLM 系統(tǒng)的自進(jìn)化能力。

ACE 框架核心設(shè)計:讓上下文成為"進(jìn)化型 playbook"

ACE 通過將上下文視為可進(jìn)化的戰(zhàn)術(shù)手冊,從根本上解決了上述問題。該框架采用模塊化設(shè)計,將工作流分為三個專業(yè)化角色:

ACE框架結(jié)構(gòu)

ACE 的工作流始于 Generator 為新查詢生成推理軌跡,這些軌跡既包含有效策略也揭示常見陷阱。Reflector 隨后批判性分析這些軌跡,提取結(jié)構(gòu)化洞見,并可進(jìn)行多輪迭代優(yōu)化。Curator 則將這些洞見轉(zhuǎn)化為緊湊的增量條目(delta items),通過輕量級非 LLM 邏輯確定性合并到現(xiàn)有上下文中。這種設(shè)計使多個增量條目可并行合并,支持大規(guī)模批量適應(yīng)。ACE 還支持多輪精煉(multi-epoch adaptation),通過重復(fù)訪問相同查詢來逐步強(qiáng)化上下文。

基于這一角色分工,ACE 引入了三項關(guān)鍵創(chuàng)新機(jī)制解決傳統(tǒng)方法的局限。首先是增量 Delta 更新:ACE 的上下文以結(jié)構(gòu)化 bullet 形式組織,每個 bullet 包含兩部分:(1) 元數(shù)據(jù)(唯一標(biāo)識符及記錄被標(biāo)記為有用/有害次數(shù)的計數(shù)器);(2) 內(nèi)容(如可重用策略、領(lǐng)域概念或常見失敗模式)。當(dāng)解決新問題時,Generator 會標(biāo)記哪些 bullets 有用或誤導(dǎo),這些反饋指導(dǎo) Reflector 提出修正建議。

論文中詳細(xì)描述了 bullet 的結(jié)構(gòu):每個 bullet 包含唯一標(biāo)識符和計數(shù)器,用于跟蹤其被標(biāo)記為有用或有害的次數(shù)。這種設(shè)計使系統(tǒng)能夠量化每個知識片段的有效性,為后續(xù)優(yōu)化提供數(shù)據(jù)支持。例如,在 AppWorld 任務(wù)中,當(dāng)智能體成功完成分頁任務(wù)時,相關(guān) bullet 會被標(biāo)記為有用,其計數(shù)器增加;當(dāng)分頁失敗時,相關(guān) bullet 會被標(biāo)記為有害,其計數(shù)器減少。這種機(jī)制使 ACE 能夠基于實際執(zhí)行結(jié)果動態(tài)調(diào)整上下文內(nèi)容,而非依賴靜態(tài)的預(yù)定義提示。

Curator 通過非 LLM 邏輯確定性合并這些增量,避免了全量重寫的高開銷。這種設(shè)計實現(xiàn)了三個關(guān)鍵特性:(1) 局部化更新,僅修改相關(guān) bullets;(2) 細(xì)粒度檢索,使 Generator 能聚焦最相關(guān)的知識;(3) 增量適應(yīng),支持推理時的高效合并、修剪與去重。ACE 產(chǎn)生的增量條目通過結(jié)構(gòu)化方式組織,使系統(tǒng)能夠并行處理多個增量,顯著提升了大規(guī)模適應(yīng)的效率。

Reflector對分頁錯誤的精準(zhǔn)診斷

ACE 在 AppWorld 基準(zhǔn)測試中展現(xiàn)了具體錯誤診斷能力。如上圖所示,當(dāng)智能體錯誤地使用 for i in range(10) 循環(huán)而非正確分頁邏輯時,Reflector 能夠精確識別問題:"生成的代碼使用了固定范圍循環(huán)(range(10))進(jìn)行分頁,而非正確迭代直到無更多結(jié)果返回。這導(dǎo)致代理僅收集前10頁播放列表,遺漏了后續(xù)存在的13個額外播放列表。"這種精準(zhǔn)的錯誤診斷為上下文優(yōu)化提供了堅實基礎(chǔ)。

上圖提供了 Reflector 的具體工作示例:當(dāng)智能體在 AppWorld 任務(wù)中使用 for i in range(10) 而非正確的 while True 循環(huán)進(jìn)行分頁時,Reflector 能夠準(zhǔn)確分析錯誤原因、識別根本問題、提供正確方法,并總結(jié)關(guān)鍵洞見:"對于分頁,始終使用 while True 循環(huán)而非固定范圍迭代,以確保收集所有可用頁面上的完整數(shù)據(jù)。"這種精準(zhǔn)診斷能力是 ACE 能夠有效優(yōu)化上下文的關(guān)鍵。

其次是 grow-and-refine 機(jī)制:新標(biāo)識符的 bullets 被追加,而現(xiàn)有 bullets 在原地更新(如增加計數(shù)器)。隨后通過語義嵌入進(jìn)行去重,系統(tǒng)通過計算語義相似度來識別重復(fù)或高度相似的 bullets,保留更精確或被標(biāo)記為更有用的條目。這種去重過程確保了上下文既詳盡又不冗余,是 ACE 避免上下文坍縮的關(guān)鍵。精煉可主動執(zhí)行(每次 delta 后立即執(zhí)行,適合對準(zhǔn)確性要求高的場景)或惰性執(zhí)行(僅當(dāng)上下文窗口超出時執(zhí)行,適合延遲敏感型應(yīng)用),為不同應(yīng)用場景提供靈活性。

ACE 的多輪精煉機(jī)制進(jìn)一步提升了上下文質(zhì)量。通過重復(fù)訪問相同查詢,系統(tǒng)能夠從多個角度診斷問題,提煉更精確的解決方案。這種機(jī)制使 Reflector 能夠進(jìn)行深度反思,避免表面層次的修正,從而構(gòu)建更高質(zhì)量的上下文。在消融實驗中,多輪精煉將準(zhǔn)確率從 56.8% 提升至 59.4%,證明了這一機(jī)制對上下文質(zhì)量的關(guān)鍵影響。

第三是無監(jiān)督自進(jìn)化能力:ACE 能夠僅依靠執(zhí)行反饋(如代碼執(zhí)行成功或失敗)而非人工標(biāo)注來指導(dǎo)上下文優(yōu)化。在 AppWorld 智能體任務(wù)中,系統(tǒng)僅依靠結(jié)構(gòu)化執(zhí)行反饋(如單元測試報告、代碼執(zhí)行結(jié)果、API 調(diào)用反饋)而非人工標(biāo)注來指導(dǎo)優(yōu)化。如上圖所示,當(dāng)智能體錯誤地使用 for i in range(10) 循環(huán)而非正確分頁邏輯時,Reflector 能精確識別問題并提供具體修正建議。這種基于執(zhí)行結(jié)果的精準(zhǔn)診斷使系統(tǒng)能在真實環(huán)境中持續(xù)學(xué)習(xí),無需依賴昂貴的監(jiān)督信號。

ACE 的上下文組織方式使其能夠有效支持復(fù)雜任務(wù)。例如,在 AppWorld 智能體任務(wù)中,ACE 生成的上下文包括多個領(lǐng)域特定策略部分:Bill Splitting Tasks、File Organization Tasks、Music Playlist Tasks、File Compression Tasks、Alarm Management Tasks 和 Message Management Tasks。每個部分都包含具體的操作指南和常見錯誤預(yù)防措施,如在音樂播放列表任務(wù)中明確指出:"計算所需總時長(例如,90分鐘=5400秒)→ 搜索不同流派的適當(dāng)歌曲(健身、活力、搖滾、流行、舞蹈)→ 使用 show_song() 獲取單個歌曲時長 → 添加歌曲到播放列表直到滿足總時長要求 → 使用 play_music() 與 playlist_id 開始播放"。

ACE生成的上下文示例

上圖展示了 ACE 在 AppWorld 基準(zhǔn)上生成的上下文,其中包含詳細(xì)的領(lǐng)域特定見解、工具使用指南和可直接使用的代碼片段,構(gòu)成了一個全面的戰(zhàn)術(shù)手冊,而非泛化摘要。值得注意的是,ACE 的效果依賴于 Reflector 的質(zhì)量。若 Reflector 無法從生成軌跡中提取有意義的見解,構(gòu)建的上下文可能變得嘈雜甚至有害。正如研究指出,"在領(lǐng)域特定任務(wù)中,若沒有模型能提取有用見解,結(jié)果上下文自然缺乏這些內(nèi)容"。

實證效果:ACE 在智能體與金融領(lǐng)域的雙重突破

ACE 在 AppWorld 智能體任務(wù)上展現(xiàn)了顯著優(yōu)勢。

AppWorld基準(zhǔn)測試結(jié)果

上表顯示,ReAct+ ACE 在離線設(shè)置中比 ReAct+ ICL 和 ReAct+ GEPA 分別高出 12.3% 和 11.9%,證明結(jié)構(gòu)化、進(jìn)化的詳細(xì)上下文比固定演示或單一優(yōu)化指令更有效。在無監(jiān)督設(shè)置下(無 GT 標(biāo)簽),ReAct+ ACE 仍比 ReAct 基線提升 14.8%,表明系統(tǒng)能僅依靠執(zhí)行反饋實現(xiàn)自進(jìn)化。

ACE與頂級智能體對比

更令人矚目的是,上圖顯示,在 AppWorld 領(lǐng)導(dǎo)榜上,ReAct+ ACE(59.4%)匹配了頂級生產(chǎn)級智能體 IBM-CUGA(60.3%)的平均表現(xiàn),盡管前者使用的是較小的開源模型 DeepSeek-V3.1。在更具挑戰(zhàn)性的 test-challenge 分割上,ReAct+ ACE 甚至以 8.4% 的 TGC 和 0.7% 的 SGC 超過 IBM-CUGA,凸顯了 ACE 在構(gòu)建全面自進(jìn)化上下文方面的有效性。

ACE 在 AppWorld 上的成功源于其對復(fù)雜任務(wù)的精確處理能力。例如,在處理音樂播放列表任務(wù)時,ACE 能夠?qū)W習(xí)到:"計算所需總時長(例如,90分鐘=5400秒)→ 搜索不同流派的適當(dāng)歌曲(健身、活力、搖滾、流行、舞蹈)→ 使用 show_song() 獲取單個歌曲時長 → 添加歌曲到播放列表直到滿足總時長要求 → 使用 play_music() 與 playlist_id 開始播放"。這種詳細(xì)的領(lǐng)域特定策略使智能體能夠正確執(zhí)行任務(wù),而不會遺漏關(guān)鍵步驟。

在金融分析領(lǐng)域,ACE 同樣表現(xiàn)卓越。

金融分析基準(zhǔn)測試結(jié)果

上表顯示,當(dāng)提供訓(xùn)練分割中的真實答案時,ACE 在離線設(shè)置中以平均 10.9% 的優(yōu)勢超過 ICL、MIPROv2 和 GEPA,表明結(jié)構(gòu)化和進(jìn)化的上下文在需要精確領(lǐng)域知識(如金融概念、XBRL 規(guī)則)的任務(wù)中特別有效。在 Formula 任務(wù)中,ACE 達(dá)到 85.5% 的準(zhǔn)確率(+18.0%),遠(yuǎn)超其他方法。

ACE 在金融分析中的成功源于其對領(lǐng)域特定知識的精細(xì)積累。Formula 任務(wù)聚焦于從結(jié)構(gòu)化 XBRL 文件中提取值并執(zhí)行計算以回答財務(wù)查詢,這一任務(wù)需要精確的數(shù)值推理和領(lǐng)域知識。ACE 通過積累 XBRL 實體識別規(guī)則和數(shù)值計算策略,顯著提高了準(zhǔn)確性。例如,系統(tǒng)能夠?qū)W習(xí)識別"總資產(chǎn)"與"總負(fù)債"的計算方法,以及如何處理財務(wù)報表中的復(fù)雜關(guān)系,這些領(lǐng)域特定知識被精確編碼在上下文中,使模型能夠執(zhí)行準(zhǔn)確的財務(wù)分析。

ACE 還在成本和效率方面展現(xiàn)出顯著優(yōu)勢。

ACE與基線方法的成本與速度對比

顯示,由于支持增量"delta"上下文更新和非 LLM 上下文合并與去重,ACE 在 AppWorld 離線適應(yīng)中實現(xiàn)了 82.3% 的適應(yīng)延遲降低和 75.1% 的 rollouts 減少;在 FiNER 在線適應(yīng)中,實現(xiàn)了 91.5% 的適應(yīng)延遲降低和 83.6% 的 Token 美元成本降低。這些優(yōu)勢源于 Curator 生成的增量通過非 LLM 邏輯確定性合并,避免了 GEPA/DC 中 LLM 全量重寫的高開銷。

適應(yīng)延遲降低 86.9% 的具體含義是:ACE 將上下文適應(yīng)所需的平均時間大幅縮減。在上表(a) 中,ReAct+ ACE 僅需 9,517 秒完成離線適應(yīng),而 ReAct+ GEPA 需要 53,898 秒;在上表(b) 中,ACE 僅需 5,503 秒完成在線適應(yīng),而 DC(CU) 需要 65,104 秒。這種效率提升使得 ACE 能夠在實際應(yīng)用中快速迭代和優(yōu)化上下文,為實時系統(tǒng)提供了可行性。

ACE 的成本優(yōu)勢源于其增量更新機(jī)制。傳統(tǒng)方法如 GEPA 需要對整個上下文進(jìn)行重寫,每次重寫都需要 LLM 處理大量 Token,而 ACE 僅需更新相關(guān)部分。在 AppWorld 離線適應(yīng)中,ACE 將 rollouts 從 1,434 減少到 357(減少 75.1%),大幅降低了計算資源消耗。在 FiNER 在線適應(yīng)中,ACE 將 Token 成本從 17.7 美元降至 2.9 美元(降低 83.6%),使大規(guī)模上下文適應(yīng)在經(jīng)濟(jì)上變得可行。

為何 ACE 的設(shè)計選擇至關(guān)重要?

消融實驗揭示了 ACE 設(shè)計選擇的關(guān)鍵價值。

ACE設(shè)計選擇的消融研究

上表顯示,移除 Reflector 或多輪精煉導(dǎo)致性能顯著下降:ReAct+ ACE w/o Reflector 或多輪精煉的準(zhǔn)確率為 55.1%,比完整 ACE 低 4.3%。這證明 Reflector 通過分離評估和洞察提取,提高了上下文質(zhì)量和下游性能。多輪精煉進(jìn)一步將準(zhǔn)確率從 56.8% 提升至 59.4%,而離線預(yù)熱(offline warmup)則使在線適應(yīng)性能從 56.1% 提升至 59.5%。

ACE 的成功部分源于其對反饋質(zhì)量的敏感性。當(dāng)缺乏可靠反饋信號時,如 上表所示,DC(CU) 在無 GT 標(biāo)簽的 FiNER 任務(wù)上性能下降至 68.3%,而 ACE 在相同條件下仍能保持 67.3% 的準(zhǔn)確率。這表明 ACE 的框架設(shè)計使其在反饋質(zhì)量波動時更具魯棒性,但仍強(qiáng)調(diào)了可靠反饋對上下文適應(yīng)的重要性。

ACE 的 Reflector 組件是其性能優(yōu)勢的關(guān)鍵。在消融研究中,移除 Reflector 導(dǎo)致準(zhǔn)確率下降 4.3%,從 59.4% 降至 55.1%。Reflector 通過將評估與洞察提取從策展中分離,避免了單一模型過載。在傳統(tǒng)方法中,同一 LLM 需要同時負(fù)責(zé)生成、評估和優(yōu)化,導(dǎo)致認(rèn)知負(fù)荷過重。而 ACE 通過專業(yè)化分工,使每個組件專注于特定任務(wù),從而提高了整體性能。

ACE 的多輪精煉機(jī)制也是其成功的關(guān)鍵因素。通過重復(fù)訪問相同查詢,系統(tǒng)能夠從不同角度診斷問題,提煉更精確的解決方案。這種機(jī)制使 Reflector 能夠進(jìn)行深度反思,避免表面層次的修正。在消融實驗中,多輪精煉將準(zhǔn)確率從 56.8% 提升至 59.4%,證明了這一機(jī)制對上下文質(zhì)量的關(guān)鍵影響。

ACE 的離線預(yù)熱機(jī)制為在線適應(yīng)提供了高質(zhì)量的初始上下文。通過先在訓(xùn)練數(shù)據(jù)上進(jìn)行離線適應(yīng),ACE 為在線適應(yīng)階段提供了更全面、更準(zhǔn)確的初始上下文,減少了探索成本。在消融實驗中,離線預(yù)熱使在線適應(yīng)性能從 56.1% 提升至 59.5%,證明了這一機(jī)制對實際部署的重要性。

一個常見誤解是更長的上下文必然導(dǎo)致更高的推理成本。ACE 產(chǎn)生的更長上下文并不意味著線性增加的推理成本或 GPU 內(nèi)存使用。正如論文中所提到,當(dāng)下服務(wù)基礎(chǔ)設(shè)施通過 KV Cache 復(fù)用壓縮卸載等技術(shù),使頻繁重用的上下文段可以被緩存,避免重復(fù)昂貴的 prefill 操作。這些機(jī)制允許上下文片段在本地或遠(yuǎn)程緩存,顯著降低長上下文的攤銷成本。隨著 ML 系統(tǒng)的持續(xù)發(fā)展,處理長上下文的實際開銷將進(jìn)一步降低,使 ACE 等上下文豐富的方法在部署中越來越實用。

ACE 的上下文管理機(jī)制使其能夠高效處理長上下文。通過將上下文組織為結(jié)構(gòu)化的 bullet,系統(tǒng)可以僅將相關(guān)部分加載到內(nèi)存中,避免處理整個長上下文。同時,通過語義嵌入進(jìn)行去重,系統(tǒng)可以識別和移除冗余信息,保持上下文的緊湊性。這些技術(shù)使 ACE 能夠在保持上下文詳盡性的同時,控制推理成本。

總結(jié)

ACE 源于信任 LLM 能從詳盡上下文中自主提取關(guān)鍵信息,而非人為壓縮。這是對"簡潔即高效"傳統(tǒng) Prompt 工程的范式挑戰(zhàn)。這篇研究還明確指出了 ACE 的適用邊界:其效果依賴于 Reflector 的質(zhì)量:若 Reflector 無法從生成軌跡中提取有意義的見解,構(gòu)建的上下文可能變得嘈雜甚至有害。在領(lǐng)域特定任務(wù)中,若沒有模型能提取有用見解,結(jié)果上下文自然缺乏這些內(nèi)容。 此外,并非所有任務(wù)都適合長上下文——像 HotPotQA 這類任務(wù)通常受益于簡潔、高級指令,而 Game of 24 等固定策略場景只需單一可重用規(guī)則,額外上下文反而冗余。ACE 最適用于需要詳盡領(lǐng)域知識、復(fù)雜工具調(diào)用或環(huán)境特定策略的任務(wù)(如智能體、金融或法律分析)。

ACE 的效果也依賴于可靠的反饋信號質(zhì)量。當(dāng)缺乏真實標(biāo)簽且無執(zhí)行環(huán)境時,構(gòu)建的上下文可能被虛假或誤導(dǎo)性信號污染,導(dǎo)致性能下降。如下表所示,在無 GT 標(biāo)簽的 FiNER 任務(wù)上,DC(CU) 性能下降至 68.3%,而 ACE 仍能保持 67.3% 的準(zhǔn)確率,表明 ACE 對噪聲反饋具有一定的魯棒性,但性能仍低于有監(jiān)督設(shè)置。這凸顯了在上下文適應(yīng)中,反饋質(zhì)量對系統(tǒng)可靠性的重要性。

ACE設(shè)計選擇的消融研究

在復(fù)雜系統(tǒng)中,構(gòu)建"可積累、可演進(jìn)、可審計"的上下文基礎(chǔ)設(shè)施,而非追求一次性最優(yōu) Prompt,將成為未來實踐的關(guān)鍵。ACE 為在線和連續(xù)學(xué)習(xí)提供了靈活高效的替代方案,適應(yīng)上下文通常比更新模型權(quán)重更便宜,且上下文的可解釋性使選擇性遺忘成為可能——無論是出于隱私或法律約束,還是當(dāng)領(lǐng)域?qū)<易R別出過時或錯誤信息時。隨著長上下文 LLM 和高效推理技術(shù)的進(jìn)步,ACE 所代表的上下文工程范式有望推動更可靠、可擴(kuò)展、自進(jìn)化的 AI 系統(tǒng)發(fā)展。

ACE 的增量更新機(jī)制使其能夠?qū)崿F(xiàn)選擇性遺忘。通過跟蹤每個 bullet 的有用/有害計數(shù)器,系統(tǒng)可以識別并移除有害信息,而無需重新訓(xùn)練整個模型。這種能力對于滿足 GDPR 的"被遺忘權(quán)"或 CCPA 的"刪除權(quán)"等法規(guī)要求至關(guān)重要,使系統(tǒng)能夠快速響應(yīng)隱私請求,同時保留其他有用知識。這為構(gòu)建負(fù)責(zé)任的 AI 系統(tǒng)提供了實用工具,使上下文適應(yīng)不僅提升性能,還能滿足合規(guī)要求。

在實際應(yīng)用中,ACE 為開發(fā)者提供了明確的實踐指導(dǎo):在需要處理 API 分頁邏輯、金融 XBRL 規(guī)則或法律條文解釋的復(fù)雜任務(wù)中,ACE 能顯著提升性能;而在需要快速邏輯推理或固定策略的任務(wù)中,簡潔的提示可能更有效。這種明確的邊界定義有助于開發(fā)者做出明智的技術(shù)選擇,構(gòu)建更可靠、可解釋、自進(jìn)化的 AI 系統(tǒng)。隨著 ACE 框架的廣泛應(yīng)用,上下文工程將從"壓縮即美"的傳統(tǒng)范式,轉(zhuǎn)向"詳盡即強(qiáng)"的新時代,為 LLM 應(yīng)用提供更強(qiáng)大的支持。

本文很適合結(jié)合google 這篇一起看??《從失敗中學(xué)習(xí):Google 提出 ReasoningBank 讓 LLM 智能體真正“吃一塹長一智”》。這兩篇都是工程化方面優(yōu)秀的研究。需要注意的是,這些方法都是在 test-time 進(jìn)行 scaling,所以對推理時的算力會有一定的要求。如果你用的是閉源模型,那么??token 幾乎是必然的。

除了對算力的消耗以外,從算法角度,我依據(jù)過去 2 年多的實踐經(jīng)驗來看,這兩類方法都有相同的適應(yīng)性和不適應(yīng)性的邊界問題。本文這個總結(jié)部分的第一段,在上面的內(nèi)容已經(jīng)提到了一些 ACE 論文中對“適用性邊界”的洞見。我在這里想多補(bǔ)充一個觀點(diǎn),是針對造成“適用性邊界”的底層因素的補(bǔ)充:同類方法在不變更模型參數(shù)的前提下,需要在模型 pretrain 數(shù)據(jù)覆蓋度高的場景中應(yīng)用,可以取得良好的收益(這些前兩天我在社群中已經(jīng)有聊到過)。

是因為當(dāng)前模型在算法架構(gòu)還沒取得實質(zhì)性進(jìn)化、突破的前提下,仍高度依賴特定模式,導(dǎo)致其在跨領(lǐng)域、跨環(huán)境場景下的泛化能力非常有限,甚至難以滿足實際商用落地需要。當(dāng)下的模型可以在數(shù)據(jù)覆蓋充足的場景中,有限的泛化出 training 時沒有見過的模式與推理。但,如果要求用ACE 或者 reasoningbank 這類工程方法,來實現(xiàn)在 training 數(shù)據(jù)覆蓋不足的場景中“進(jìn)化”推理,這對于模型來講會有點(diǎn)勉為其難了。

可,如果你一定要在一個私域、垂域中做推理進(jìn)化,怎么辦?在當(dāng)下這個時點(diǎn),training 幾乎就是最好的路徑(但不是唯一路徑),模型要先有知識,才會建模,然后形成模式推理,最后才是工程化手法在 test-time scaling 實踐諸如本文的 ACE或 reasoningBank 這些上下文工程。這是因為,領(lǐng)域數(shù)據(jù)覆蓋不足,則建模不足,那么就需要用對應(yīng)的數(shù)據(jù)工程來覆蓋,用算法來建模,以期在特定業(yè)務(wù)領(lǐng)域內(nèi)的性能提升。

這就如同,對于人類的孩子而言,你無法讓一個沒有學(xué)過加法的、不到 3 歲的托班小朋友,去算 1+1=?。當(dāng)我們理解了這些底層原理、邏輯以后,再面對具體業(yè)務(wù)場景,我們心里才會有一個大概的輪廓來判斷:對于模型而言,應(yīng)用這些方法論,是否適合當(dāng)下的場域。在有了初步判斷以后,我們真正推進(jìn)工程構(gòu)建之前,在自己的業(yè)務(wù)領(lǐng)域中,對模型性能在私域中的評估是接下來的必經(jīng)之路,模型邊界在自己業(yè)務(wù)上的邊界,需要用評估數(shù)據(jù)來說話。

這一輪 AI 發(fā)展至今,各類媒體的聲音、不同人的認(rèn)知交織在一起,雜音很大,而工程落地需要透過現(xiàn)象看本質(zhì)。我們堅持不悲不喜、不魅惑、不盲從權(quán)威,以不變的做業(yè)務(wù)的、科學(xué)的、工程態(tài)度,應(yīng)對千變?nèi)f化的外部聲音,就能更加科學(xué)的思辨用好 AI,真正的服務(wù)于業(yè)務(wù)、服務(wù)于人!

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-05-26 01:45:00

LLMAI信任

2023-07-11 10:02:23

2025-10-14 09:54:28

2024-04-03 10:05:00

LLM性能基準(zhǔn)測試

2022-09-14 13:13:51

JavaScript上下文

2017-05-11 14:00:02

Flask請求上下文應(yīng)用上下文

2022-09-15 08:01:14

繼承基礎(chǔ)設(shè)施基礎(chǔ)服務(wù)

2023-06-28 08:08:06

Flask上下文生命周期

2025-10-13 08:00:00

2024-03-14 08:11:45

模型RoPELlama

2025-08-08 14:06:48

MemToolLLM智能體

2025-08-08 01:45:00

上下文工程優(yōu)化框架

2012-12-31 10:01:34

SELinuxSELinux安全

2025-10-15 01:00:00

ACE代理上下文工程

2024-04-07 08:50:00

谷歌框架

2025-10-27 08:25:01

2025-02-06 10:21:51

2025-07-16 09:12:00

AI模型訓(xùn)練

2023-10-23 13:23:03

數(shù)據(jù)訓(xùn)練

2025-05-15 08:20:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

中文字幕不卡一区| 日韩在线卡一卡二| 日韩h在线观看| 亚洲天堂av线| 高清免费电影在线观看| 成人免费看的视频| 国产精品入口尤物| 久久婷婷国产麻豆91| 国产99亚洲| 日韩一级成人av| 无码精品a∨在线观看中文| 91短视频版在线观看www免费| 国产成人精品在线看| 日韩av男人的天堂| 九九视频在线免费观看| 精品久久影视| 日韩精品一区二区三区老鸭窝| 99久久激情视频| 伊人在我在线看导航| 国产欧美日本一区视频| 国产精品视频入口| 国产农村妇女毛片精品久久| 老司机午夜免费精品视频| 欧美激情一级欧美精品| 国产在线免费看| 五月天亚洲色图| 精品国产欧美一区二区| 一级黄色在线播放| av成人亚洲| 福利二区91精品bt7086| 波多野结衣激情| av中文字幕在线| 久久亚洲精品小早川怜子| 操人视频欧美| 午夜精品久久久久久久99| 久久成人精品无人区| 国产精品久久精品| 337p粉嫩色噜噜噜大肥臀| 国产精品久久久亚洲一区| 欧美—级高清免费播放| 国产97免费视频| 婷婷亚洲五月| 精品国产一区二区三区四区在线观看 | 神马影院我不卡| 色视频在线观看福利| 成人av在线资源| 国产精品美女黄网| 亚洲精品一区二区三区四区 | 在线一区二区三区四区| 日韩免费毛片视频| 午夜伦理福利在线| 欧美三级免费观看| 亚洲人成色77777| 欧美大片高清| 在线精品视频小说1| 午夜dv内射一区二区| 婷婷激情一区| 欧美性猛片aaaaaaa做受| 亚洲一区二区蜜桃| 不卡亚洲精品| 91麻豆精品国产91久久久资源速度 | 国产日韩一区二区三免费高清| 777欧美精品| 午夜激情视频网| 日韩08精品| 精品伦理精品一区| 在线观看国产三级| 九九久久婷婷| 日韩中文字幕在线免费观看| 福利视频第一页| 午夜国产一区| 亚洲18私人小影院| 国产精品成人免费一区二区视频| 亚洲日本视频| 国产精品扒开腿做爽爽爽男男 | 久久午夜无码鲁丝片| 亚洲精品婷婷| 国产成人综合亚洲| jlzzjlzz亚洲女人18| 成人h动漫精品一区二| 欧美日韩精品免费观看| 瑟瑟视频在线| 五月激情综合婷婷| 中文字幕在线观看第三页| www.欧美| 日韩av在线网站| 俄罗斯毛片基地| 欧美精品国产一区| 国产97色在线|日韩| 91精品国产乱码久久| 成人一区在线观看| 日韩av影视| 牛牛精品视频在线| 欧美在线观看一区| 亚洲一区二区三区四区av| 国内精品伊人久久久| 欧美成人精品一区| 日韩一级在线视频| 国产精品888| 日本高清一区| 欧美78videosex性欧美| 在线免费观看视频一区| 无码人妻丰满熟妇啪啪网站| 国产午夜一区| 久久久伊人欧美| 一级黄色片视频| 白白色亚洲国产精品| 影音先锋在线亚洲| 天堂√中文最新版在线| 91精品在线免费观看| 中文字幕第4页| 好看的日韩av电影| 91老司机在线| 国产粉嫩一区二区三区在线观看| 亚洲线精品一区二区三区| 中文字幕在线观看第三页| 欧美一级全黄| 欧美福利视频在线| 国产又大又黄又爽| 国产日产欧产精品推荐色| 国产真人做爰毛片视频直播| 国产午夜精品一区在线观看| 一区二区三区天堂av| 久草视频在线观| 成人一区二区在线观看| 蜜臀av.com| 男女啪啪999亚洲精品| 亚洲开心激情网| 日本一区二区欧美| 成人在线综合网| 日韩一级免费看| 成人污污视频| www.亚洲男人天堂| 亚洲在线精品视频| 中文字幕不卡的av| 欧美女同在线观看| 成人精品电影| 国产精品黄视频| 国产视频第一页在线观看| 欧美日韩在线视频一区二区| 精品一区二区视频在线观看| 好看的亚洲午夜视频在线| 亚洲综合在线播放| 伊人精品影院| 欧美xxxx老人做受| 久久亚洲av午夜福利精品一区| 国产精品一区二区视频| 日韩视频一二三| 日韩精品一级| 欧美肥婆姓交大片| 蜜桃视频久久一区免费观看入口| 一级女性全黄久久生活片免费| 99日在线视频| 午夜精品影院| 国产伦精品一区二区三区在线 | 亚洲色诱最新| 91精品国产综合久久久蜜臀图片| 成人午夜一级二级三级| 二区在线视频| 欧美人与z0zoxxxx视频| 午夜精品一区二区三区视频| 国产成人欧美日韩在线电影| 久久这里只有精品23| 欧美大片网址| 国产精品91一区| 免费a级在线播放| 日韩一区二区精品| 日本少妇激情舌吻| 91免费观看国产| 激情五月婷婷久久| 小小影院久久| 国产精品二区三区四区| 亚洲天堂免费电影| 一区二区亚洲精品国产| 国产精品探花视频| 亚洲国产日韩精品| 一区二区三区四区免费| 精品无人码麻豆乱码1区2区| av在线免费观看国产| 亚洲亚洲免费| 91精品国产综合久久香蕉| 久久久123| 国产一区二区黄| 99在线精品视频免费观看20| 亚洲成a人在线观看| 久久久久无码精品国产sm果冻 | 国产精品久久网| av在线免费观看网址| 亚洲韩国欧洲国产日产av| 亚洲高清视频免费观看| 亚洲精品国产第一综合99久久| av鲁丝一区鲁丝二区鲁丝三区| 青娱乐精品视频| 2019日韩中文字幕mv| 国产成人ay| 99精品99久久久久久宅男| 都市激情综合| 精品综合久久久久久97| 国产在线你懂得| 精品国产一区二区三区不卡 | 性欧美精品一区二区三区在线播放| 国产精品美女久久久久人| 4k岛国日韩精品**专区| 国产三区视频在线观看| 精品视频在线播放| a天堂视频在线| 在线观看91视频| 日韩经典在线观看| 亚洲女子a中天字幕| 亚洲女优在线观看| av男人天堂一区| 古装做爰无遮挡三级聊斋艳谭| 日韩中文欧美在线| 131美女爱做视频| 久久久五月天| 亚洲成人一区二区三区| 欧美三级电影在线| dy888夜精品国产专区| 色婷婷成人网| 国产精品69久久| 都市激情亚洲综合| 午夜精品一区二区三区在线播放 | 欧美性视频网站| 性欧美videos高清hd4k| 久久精品91久久久久久再现| 国产高清视频免费最新在线| 国产婷婷色综合av蜜臀av| 欧美天堂在线视频| 日韩欧美色综合网站| 国产乱码久久久久| 欧美日韩高清在线播放| 国产免费www| 在线一区二区三区四区五区 | 爱草tv视频在线观看992| 欧美激情va永久在线播放| www久久日com| 欧美成人激情在线| 在线观看三级视频| 欧美大成色www永久网站婷| 黄色成人在线观看| 不卡伊人av在线播放| 精品自拍一区| 裸体女人亚洲精品一区| av在线免费播放| 欧美激情第6页| 欧美videossex| 97欧美精品一区二区三区| www在线观看黄色| 26uuu国产精品视频| 日韩免费福利视频| 国产精品美女久久| 国产欧美自拍| 成人网在线免费观看| 九九99久久精品在免费线bt| 成人国产精品久久久久久亚洲| 国产精品毛片aⅴ一区二区三区| 亚洲淫片在线视频| ccyy激情综合| 黑人另类av| 国产在视频线精品视频www666| 日韩一本精品| 91精品一区二区三区综合| 4444在线观看| 一本色道久久综合亚洲精品不卡 | 不卡电影免费在线播放一区| 欧美大喷水吹潮合集在线观看| 99久久伊人精品| 这里只有久久精品| 《视频一区视频二区| 欧美日韩一级在线观看| 婷婷久久综合九色综合绿巨人| av大全在线观看| 欧美日韩成人综合天天影院 | 成人av在线播放| 国产厕所精品在线观看| 亚洲精品中文字幕99999| 亚洲日本无吗高清不卡| 欧美涩涩网站| 久久国产色av免费观看| 激情综合网天天干| av2014天堂网| 中文久久乱码一区二区| 中文字幕在线有码| 欧美日韩视频免费播放| 亚洲天堂中文在线| 亚洲成人xxx| youjizz在线播放| 久久99热这里只有精品国产 | 在线观看视频一区二区欧美日韩| 亚洲专区第一页| 亚洲高清久久久久久| av影片在线看| 欧美激情一区二区三级高清视频| 日韩毛片在线| av成人在线电影| 成人激情电影在线| 久久久久久久午夜| 精品一区二区日韩| 三级网站在线免费观看| 亚洲精品亚洲人成人网| 秋霞精品一区二区三区| 日韩欧美在线综合网| 韩日在线视频| 国产做受高潮69| 电影中文字幕一区二区| 欧美日本韩国一区二区三区| 欧美精品97| 亚洲高清免费在线观看| 99国产精品国产精品毛片| 亚洲成人生活片| 欧美亚洲高清一区| 男人av在线| 97精品免费视频| 日韩精品视频中文字幕| 中文字幕在线亚洲三区| 鲁大师影院一区二区三区| 中文字幕18页| 亚洲精品亚洲人成人网在线播放| 中文字幕在线播放不卡| 亚洲伦理中文字幕| 1区2区在线| yy111111少妇影院日韩夜片| 午夜国产一区二区| 男女啪啪网站视频| 国产亚洲欧美日韩在线一区| 亚洲日本韩国在线| 欧美精品一区二| 欧美人与性动交α欧美精品图片| 国产在线观看91精品一区| 国产精品最新| 超碰影院在线观看| 久久伊人中文字幕| 在线天堂中文字幕| 亚洲国内精品在线| 免费成人在线电影| 精品乱色一区二区中文字幕| 在线成人亚洲| 中文在线观看免费视频| 亚洲一区视频在线观看视频| 国产a级免费视频| 欧美成人中文字幕| 亚洲视频国产精品| 日本男女交配视频| 99精品欧美一区二区三区综合在线| 久久亚洲国产成人精品性色| 日韩欧美亚洲国产另类| 白白色在线观看| 精品视频导航| 久久久噜噜噜| 少妇av片在线观看| 欧美另类变人与禽xxxxx| 午夜视频在线观看免费视频| 国产在线视频不卡| 亚洲最新av| 男女性杂交内射妇女bbwxz| 午夜精品视频在线观看| 色视频在线观看福利| 国产精品久久久av久久久| 日韩在线综合| 永久av免费在线观看| 亚洲成人精品影院| 欧美在线一卡| 国产精品视频色| 欧美日韩影院| 三级电影在线看| 欧美午夜精品免费| 在线观看wwwxxxx| 国产美女精品久久久| 久久福利精品| 5566中文字幕| 亚洲精品一区二区三区蜜桃下载| 在线免费看h| 伊人久久大香线蕉av一区| 国产成人精品影院| 成人h动漫精品一区二区下载| 日韩中文字幕在线| 久久激情av| 黑森林精品导航| 一区二区三区 在线观看视频| 深夜福利视频在线免费观看| 国产精品网址在线| 亚洲午夜一级| 日本一道本视频| 精品久久久久久久久久久久久久久 | 欧美精品videos另类| 成人免费视频网站入口| 久久久久网站| 免费一级片视频| 亚洲视频日韩精品| ccyy激情综合| 污视频网站观看| 精品久久久久久久中文字幕| 尤物视频在线免费观看| 国产伦精品一区二区三区照片| 日韩精品一二三| 国产精品23p| 日韩亚洲综合在线| 亚洲都市激情| 亚洲av综合色区无码另类小说| 欧美中文字幕一二三区视频|