精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

交互擴展時代來臨:創智復旦字節重磅發布AgentGym-RL,昇騰加持,開創智能體訓練新范式

人工智能 新聞
復旦、創智、字節的研究者們基于智能體自我進化框架 AgentGym,全新打造了多環境強化學習智能體訓練框架 AgentGym-RL。

強化學習之父、2024 年 ACM 圖靈獎得主 Richard Sutton 曾指出,人工智能正在邁入「經驗時代」—— 在這個時代,真正的智能不再僅僅依賴大量標注數據的監督學習,而是來源于在真實環境中主動探索、不斷積累經驗的能力。正如人類通過實踐理解世界、優化行為一樣,智能體也必須在交互中積累經驗、改進策略,才能掌握長期決策的能力。

無獨有偶,特斯拉前 AI 負責人,OpenAI 聯合創始人 Andrej Karpathy 進一步指出,環境的多樣性與真實性,是智能體獲得泛化能力、應對復雜任務的關鍵前提。缺乏豐富的環境,智能體就無法充分暴露于多樣化情境,也難以從經驗中形成穩健的決策策略。

在這一背景下,復旦、創智、字節的研究者們基于智能體自我進化框架 AgentGym,全新打造了多環境強化學習智能體訓練框架 AgentGym-RL。

本文的第一作者為復旦大學自然語言處理實驗室博士生奚志恒,通訊作者為復旦大學自然語言處理實驗室的桂韜教授和張奇教授。

這一框架是首個無需監督微調、具備統一端到端架構、支持交互式多輪訓練,且在多類真實場景中驗證有效的 LLM 智能體強化學習框架,為 LLM 智能體的強化學習提供了全新的解決方案。

依托 AgentGym-RL 框架,研究人員創新性地提出了智能體范式下擴展測試時計算的新路徑 —— 擴展環境交互(Scaling Interaction)。其核心是通過增加訓練與測試階段模型和外部環境的交互回合數,讓模型借助多輪反饋逐步完善決策、提升表現。

相較于傳統測試時擴展方法,新路徑優勢顯著:傳統方法局限于模型內部,僅靠延長思維鏈消耗更多 Token,缺乏與外部環境的實時互動,難以應對復雜任務的動態場景需求;而擴展交互輪次突破了這種封閉式推理,允許模型依據每輪反饋動態修正策略,最終以更結構化的決策流程、更高效率的問題解決路徑完成任務,成為智能體范式下表現更優的測試時擴展方案。

然而,長交互輪次訓練面臨著容易出現崩潰的問題。針對這一痛點,研究團隊再次突破,提出了 ScalingInter RL 交互輪次擴展策略,通過分階段增加模型最長交互輪次限制,使智能體能夠先在短交互輪次下掌握基礎技能,再逐步過渡到中長交互輪次解決復雜任務,平衡了智能體訓練過程中的探索與利用,有效規避了模型崩潰的風險,成功構建了穩定的交互輪次擴展訓練范式。

借助 AgentGym-RL 這一統一框架,結合 ScalingInter-RL 算法的穩定擴展能力,研究團隊取得了令人矚目的成果:

僅僅是 7B 大小的模型,在多個真實任務導向的環境中經過長輪次交互訓練后,竟逐步掌握了理解任務目標、預測行動后果、規劃多步操作等復雜任務處理技能。從自主瀏覽界面、精準篩選選項,到對比參數、執行操作,整個過程流暢高效,展現出前所未有的自主決策水平。在五種測試環境、26 項測試任務中,它不僅超越了 100B 以上的大型開源模型,還追平了 OpenAI o3、谷歌 Gemini 2.5 Pro、DeepSeek r1 等頂尖商業模型的水平,充分彰顯出 AgentGym-RL 框架與交互輪次擴展范式的強大潛力與競爭力,也為人工智能在 「經驗時代」 的發展注入了強勁動力。

商業模型、開源模型以及本文強化學習模型在不同智能體任務中的表現。

從網頁導航到科學實驗,從文字游戲到實體交互,這套兼容 PPO、GRPO 等主流算法的模塊化框架,正為開源社區推開自主智能體研發的全新大門。

  • 論文標題:AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2509.08755
  • 項目主頁:https://agentgym-rl.github.io
  • 代碼地址:https://github.com/WooooDyy/AgentGym-RL
  • 環境框架地址:https://github.com/WooooDyy/AgentGym

研究背景:從 「數據密集」 到 「經驗密集」

構建能夠在復雜現實場景中完成多輪決策的自主 LLM 智能體,是人工智能領域一個新興且快速發展的前沿方向。

Sutton 曾強調,人工智能的發展正從 「數據密集型」 向 「經驗密集型」 轉型:早期模型依賴海量標注數據進行監督學習,如同通過教科書間接獲取知識;而真正的智能體應當像人類一樣,在真實環境中通過 「做中學」積累經驗,在持續交互中理解環境規則、預測行動后果、優化長期目標。

而在這一過程中,構建真實、多樣、貼合現實需求的交互環境則成為了強化學習的重中之重。真實的環境是智能體獲得有效經驗的基礎,只有還原場景中的動態變化與不確定因素,才能避免智能體陷入 「實驗室表現優異、落地即失效」 的困境;環境的多樣化是智能體具備泛化能力的前提,只有覆蓋多類型任務場景的交互邏輯,才能讓智能體在新場景中快速遷移已有經驗。

然而, 當前大多數現有研究局限于單輪任務,缺乏與復雜環境的多輪交互機制。雖然最近有研究嘗試擴展 RL 以訓練具有多輪能力的 LLM 智能體,但這些工作仍然存在任務場景單一、環境適配性差、優化穩定性低等問題,使得智能體無法接觸到足夠豐富的環境信息,難以生成和利用第一手經驗,自然難以應對現實世界復雜多變的任務。因此,該領域目前仍然缺乏一個統一的、端到端的、交互式多輪 RL 框架,能夠在廣泛的實際場景和環境中有效地從頭開始訓練 LLM 智能體,而無需依賴監督微調(SFT)作為初步步驟。

為填補這一空白,研究團隊提出了 AgentGym-RL,一個通過強化學習訓練 LLM 智能體進行多輪交互式決策的新框架。該框架的研究工作圍繞著推動智能體高效學習和決策展開,主要有以下貢獻:

  • 提出并開源 AgentGym-RL 框架:這是一個全新的、統一的、模塊化且靈活的端到端 RL 框架,專為智能體多輪交互式決策而設計,包含豐富多樣的場景和環境,讓 「從經驗學習」 有了標準化的實驗場。
  • 引入 ScalingInter-RL 方法:這是一種基于漸進式交互輪數拓展的強化學習訓練方法,使智能體能夠逐步適應環境,優化其交互模式、行為和技能,最終在探索和利用之間實現更好的平衡。
  • 驗證框架和方法的有效性:通過大量實驗驗證了 AgentGym-RL 和 ScaleInter-RL 能夠顯著且穩定地提升智能體性能,使其在復雜任務處理能力上與頂尖商業模型形成對標甚至實現性能反超。

AgentGym-RL:為經驗時代打造的自主智能體訓練基礎設施

AgentGym-RL 集成了多種環境、豐富的軌跡數據和全面的基準測試,通過標準化環境操作接口,將復雜的環境配置流程簡化為便捷的模塊化操作。該框架以 AgentGym 為基礎進行迭代升級,通過優化模型與環境的交互協議、強化分布式并行計算架構、引入強化學習訓練模塊等方式進行改進。

其核心目標,就是為 LLM 智能體構建一個能夠持續產生 「有效經驗」 的生態,讓「經驗驅動學習」不再依賴零散的實驗設置,而是具備可復現、可擴展的堅實基礎。

模塊架構

AgentGym-RL 框架主要包含環境、代理和訓練三個組件。

  • 環境模塊中,每個環境打包為獨立服務,支持并行請求,環境客戶端通過 HTTP 連接服務器,向代理暴露如獲取觀測、動作等 API,涵蓋多場景、環境、任務和數據實例,為 LLM 代理訓練提供支持。
  • 代理模塊封裝語言模型代理與環境的交互邏輯,支持多種提示和采樣配置,擴展長期規劃、自我反思等高級機制。
  • 訓練模塊實現支持在線算法的統一強化學習管道,管理經驗收集等,支持課程學習和交互擴展,高度模塊化,支持多訓練方法,訓練過程可分布在多節點。

AgentGym-RL 架構圖:采用解耦化設計,兼具靈活性與可擴展性,能夠支持多種場景、環境類型及算法的應用與適配。

多樣化的環境

AgentGym-RL 框架包含多種環境和豐富的任務,涵蓋了網頁導航、文字游戲、具身控制、科學探索和深度搜索等多個類別 —— 精準對應了語言智能體領域的重要推動者、OpenAI 研究科學家姚順雨所說的 「AI 下半場落地場景」,每一類環境都指向真實世界中 AI 需要解決的實際問題。該框架支持主流的 RL 算法,并配備了廣泛的實際場景:

  • 網頁導航:對應 WebArena 等環境,包含電商、Reddit 論壇、GitLab 協作開發、OpenStreetMap 地圖、CMS 內容管理系統等 5 個子任務,共 372 個訓練查詢和 50 個測試查詢。智能體需模擬人類與網頁交互,完成在線購物、信息提取、表單填寫等操作,涉及地圖、計算器等工具的使用。
  • 深度搜索:對應基于搜索引擎的環境,涵蓋 NQ、TriviaQA、PopQA 等 7 個數據集的任務。智能體需通過動態生成搜索查詢、調用瀏覽器和 Python 解釋器等工具,從外部源獲取信息并整合,完成多輪檢索與推理任務。
  • 電子游戲:對應 TextCraft 等環境,這是一種類 Minecraft 的文本制作游戲。任務按制作樹深度分為 1-4 級,智能體需通過自然語言交互使用制作、 inventory 管理等 API,完成從簡單到復雜的物品制作任務。
  • 具身控制:對應 BabyAI 等環境,這是一個可控的網格世界,任務按最終目標分為 6 個子集。智能體需通過自然語言指令導航,執行移動、拾取物體、開門等動作,涉及空間推理和環境交互能力。
  • 科學任務:對應 SciWorld 等環境,選取 8 個子任務。智能體需在模擬的科學場景中,使用實驗室儀器相關 API 進行實驗(如測量溫度、連接電路、混合化學物質),完成科學探索和假設驗證任務。

多種強化學習算法

AgentGym-RL 提供全面的算法支持,涵蓋不同的學習方法,包括監督微調(SFT)、直接偏好優化(DPO)、拒絕采樣和在線 RL 算法等。在線 RL 是 AgentGym-RL 的核心,支持多種主流在線 RL 算法,如近端策略優化(PPO)、組近端策略優化(GRPO)、增強型 REINFORCE(REINFORCE++)和基于回合的策略優化(RLOO)等。

ScalingInter-RL:交互擴展新策略

基于 AgentGym-RL 框架,研究團隊創新性地提出了 ScalingInter-RL 方法,通過擴展智能體在訓練過程中的交互輪數,平衡智能體對環境的探索與利用,顯著提升智能體在復雜環境中的學習和決策能力。

ScalingInter-RL 算法示意圖

ScalingInter-RL 方法的核心在于逐步、動態地擴展智能體與環境的交互輪次。

在訓練的初始階段,智能體的主要任務是快速學習基本技能,解決相對簡單的問題。此時,ScalingInter-RL 會限制交互輪次,引導智能體集中精力利用已有的知識和策略,盡可能高效地完成任務。這種策略就像是為智能體制定了一個循序漸進的學習計劃,讓它在穩固的基礎上逐步成長。

隨著訓練的穩步推進,智能體已經掌握了一定的基礎能力,此時 ScalingInter-RL 會適時地增加交互輪次。這一舉措鼓勵智能體勇敢地探索更多未知的領域,嘗試不同的行動和策略。通過這種方式,智能體能夠避免陷入固定的思維模式和行動路徑,不斷優化自己的行為,從而更好地應對復雜多變的環境。

在實際應用中,這種策略展現出了顯著的優勢。在網頁導航任務中,初始階段,智能體通過有限的交互輪次,迅速掌握了基本的網頁操作技能,如點擊鏈接、填寫表單等。隨著訓練的深入,交互輪次的增加使得智能體能夠更加深入地探索網頁的各種功能和結構,學會了根據不同的任務需求,靈活地調整操作策略,從而更加高效地完成任務。在科學任務中,智能體在初期利用有限的交互學習基本實驗操作,隨著交互輪次的增多,能夠更全面地探索實驗條件和變量之間的關系,優化實驗步驟,提高實驗成功率。

實驗

為了全面驗證 AgentGym-RL 框架的穩定性和有效性,研究團隊開展了一系列廣泛且深入的實驗。這些實驗覆蓋了豐富多樣的場景和環境,旨在模擬智能體在實際應用中可能面臨的各種復雜情況,從而全面、準確地評估智能體的性能。

實驗涵蓋了五個主要場景,包括網頁導航、深度搜索、數字游戲、具身任務和科學任務。

主要結果

在 5 個不同場景(Web 導航、深度搜索、數字游戲、具身任務、科學任務)中,使用 AgentGym-RL 框架訓練的開源模型展現出了出色的多輪交互決策能力。

進一步,通過 ScalingInter-RL 方法的優化,這些模型實現了顯著的性能提升,甚至超越了一些大型商業閉源模型。在網頁導航任務中,ScalingInter-7B 模型的總體準確率達到了 26.00%,大幅超越了 GPT-4o 的 16.00%,與 DeepSeek-R1-0528 和 Gemini-2.5-Pro 的表現相當;在科學場景中,ScalingInter-7B 模型以 57.00% 的總體得分創下新的最優成績,遠超所有開源和專有模型,包括排名第二的專有模型 OpenAI o3(41.50%)。

因篇幅所限,此處僅展示部分實驗結果,更多詳細結果請查閱論文。實驗結果表明,經 ScalingInter-RL 算法訓練的模型在多個環境中均達到了領先水平,實現了顯著的性能提升。

在 WebArena 環境下的實驗結果。

在 SciWorld 環境下的實驗結果。

ScalingInter-RL 展現更穩定高效的強化學習優化動態

ScalingInter-RL 方法在訓練穩定性與效率上顯著優于傳統方案。實驗表明,訓練周期內,采用該方法的智能體獎勵值始終保持上升趨勢,而固定輪次模型 150 步后獎勵值衰減 32%。這種穩定性源于其漸進式交互設計 —— 通過動態調整交互深度,使智能體在技能積累階段避免因探索過度導致的策略震蕩,在優化階段又能保持足夠的行為多樣性。

效率方面,ScalingInter-RL 方法同樣提升顯著。TextCraft 任務中,ScalingInter-RL 以傳統方法 60% 步數達成 89% 成功率;WebArena 導航任務里,單位計算量性能增益是 PPO 算法 1.8 倍,適合大規模多場景訓練。

ScalingInter-RL和傳統RL算法的訓練動態對比

后訓練與測試時計算量比模型規模具有更高的縮放潛力

實驗得出一個關鍵見解:有策略地投入后訓練計算和測試時計算,比僅僅增加模型的參數數量更具影響力。7B 參數的 ScalingInter-RL 模型在經過本文研究者的強化學習框架訓練后,不僅超過了其他同等規模的開源模型,還顯著優于參數規模近其十倍的更大模型。

這表明,針對性的訓練與推理計算投資,比單純擴大模型參數更具性價比。

本文框架和方法通過后訓練,顯著提升了7B參數規模開源模型的能力,不僅超過了其他同等規模的開源模型,且顯著優于參數規模近其十倍的更大模型。

環境結構是決定強化學習效率的關鍵因素

不同場景的結構特性對 RL 訓練效果產生顯著分化影響。在規則明確、反饋清晰的環境(如 TextCraft、BabyAI、SciWorld)中,RL 能帶來大幅性能提升;而在開放式環境(如 WebArena、SearchQA)中,性能提升則有限。

這表明,環境的規則明確性、狀態可觀測性和獎勵稀疏度,共同構成了 RL 算法效率的邊界條件 —— 當環境復雜度超出智能體的狀態表征能力時,即使最優訓練策略也難以發揮作用。

討論

研究團隊從三個角度調查了智能體表現如何隨推理時計算增加:

  • 擴展交互輪次:隨著推理時交互輪次的增加,所有模型的性能均呈現上升趨勢,其中經 AgentGym-RL 訓練的智能體始終保持領先優勢,驗證了交互擴展對環境探索的重要性。

隨著測試時交互輪次的增加,所有模型的性能均呈現上升趨勢。

  • 擴展采樣數量:在并行采樣方面,增加采樣數量(K 值)能顯著提升 Pass@K 指標,且經 RL 訓練的模型在相同采樣預算下表現更優。

隨著采樣數量的增加,所有模型的性能均呈上升趨勢。

  • 不同 RL 算法比較:對比 GRPO 與 REINFORCE++ 兩種主流 RL 算法發現,GRPO 在 TextCraft、BabyAI 和 SearchQA 任務上均顯著優于 REINFORCE++。即使 3B 參數的 GRPO 模型,其性能也超過 7B 參數的 REINFORCE++ 模型,表明算法選擇對性能的影響可能大于模型規模。

模型在不同強化學習算法下的測試結果

真實交互示例

不妨聚焦這些真實交互場景 —— 在以 BabyAI 為代表的具身任務中,該研究中的智能體展現出了卓越性能。以 「找到黃色小球并帶回起點」 這一任務為例,其不僅要求智能體具備基礎的路徑規劃與避障能力,還涉及更為復雜的長程依賴與順序規劃邏輯。跨步驟的信息利用能力、動態化的探索策略,以及對多階段任務的全局把控能力,使得該任務的難度遠超單一反應類操作。

而基于 AgentGym-RL 框架、經 ScalingInter 算法訓練的智能體,正是在這類高難度場景中展現出了令人矚目的表現。它不僅能精準理解任務核心目標,還能在多扇彩色門與未知房間構成的復雜環境中,開展有條理的探索活動,合理規劃行動順序;當確認某一區域無探索價值后,更能主動離開并轉向新的探索路徑。尤為難得的是,它能高效利用已獲取的環境信息,將分散在不同時間節點的觀察結果串聯起來,構建連貫的決策鏈路。正是這種跨步驟的信息整合能力與動態調整機制,讓它在復雜環境中始終保持清晰且高效的任務執行能力。

而在以 WebArena 環境為代表的真實網頁交互場景中,智能體需要面對充斥著大量噪音的網頁界面,真正的功能入口往往被隱藏在層層標簽頁和復雜的交互邏輯之下。若缺乏對頁面結構的理解,智能體很容易陷入低效的窮舉式搜索。然而,基于 AgentGym-RL 框架、經 ScalingInter 算法訓練后,智能體能夠主動點擊 「Sales」 標簽頁,精準鎖定與任務相關的入口,并進一步利用內置的 「Filter」 功能進行篩選,而不是依賴低效的遍歷查看。這一系列操作表明它已經掌握了網頁的結構與規則,并能基于探索經驗選擇更高效的策略,從而顯著提升任務的準確性與執行效率。

結論與展望:以經驗學習開啟 AI 下半場的自主智能體時代

AgentGym-RL 框架的推出,不僅是自主 LLM 智能體訓練領域的一次技術突破,更標志著 AI 行業向「經驗時代」的深度邁進。

從技術層面看,AgentGym-RL 通過統一的端到端 RL 框架,解決了自主智能體訓練中 「場景單一、算法割裂、效率低下」 的痛點,讓 「從經驗中學習」 成為標準化、可復現的技術路徑;而 ScalingInter-RL 方法則通過漸進式交互輪次擴展,平衡了經驗探索與利用的關系,讓智能體能夠像人類一樣 「循序漸進積累能力」。實驗數據充分證明了這一方案的價值:7B 參數的開源模型在 26 項任務中對標甚至超越頂級閉源模型,為 AI 下半場的技術發展提供了新范式。

然而,探索的道路永無止境。未來,本文研究者們將重點關注以下三個方向:

1. 通用能力升級:使智能體打破 「領域壁壘」,在全新環境和面對未知工具時仍能進行高效決策;

2. 復雜場景拓展:向更長周期、更貼近物理世界的任務拓展,例如機器人操作、現實場景規劃等,以應對更豐富的感官輸入和龐大的行動空間;

3. 多智能體協同:從 「單打獨斗」 轉向 「團隊協作」,探索多智能體系統的訓練模式,以解鎖更復雜的群體決策能力。

AgentGym-RL 框架已全面開源,期待與全球研究者攜手,共同推動下一代智能體的發展,讓人工智能在現實世界中展現出更卓越的 「行動力」!

本研究得到了華為昇騰 AI 處理器的算力支持。在昇騰和開源社區的努力下,諸多大模型訓練框架均已支持昇騰 AI 處理器。此外,昇騰聯合 vllm 社區推出了 vllm-ascend 框架,極大提升了百億乃至千億級參數量的大模型在國產算力上的推理效率。在本研究中,昇騰 910B NPU 在多個實驗階段中發揮作用 ,提高了研究效率。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-29 09:16:06

2025-10-23 09:10:39

2024-06-13 09:20:26

2020-04-15 16:44:38

谷歌強化學習算法

2021-07-09 22:54:38

昇騰產業升級智能化

2022-06-30 09:16:17

昇騰

2022-11-16 15:37:42

昇騰AI

2022-11-09 13:42:16

鯤鵬昇騰

2025-09-19 09:12:28

2020-03-30 12:35:53

華為

2025-07-10 14:51:29

人工智能AI模型

2023-09-06 19:44:26

昇騰

2021-07-07 18:04:33

計算

2022-11-23 16:54:49

昇思

2022-11-08 16:20:08

昇騰

2025-02-18 11:02:49

2025-09-19 13:38:00

點贊
收藏

51CTO技術棧公眾號

av亚洲一区| 二区在线观看| 在线观看小视频| 中文欧美日韩| 亚洲人成啪啪网站| 欧美中文字幕在线观看视频| 精品国产乱码久久久久久蜜臀网站| 国产精品草草| 国产亚洲精品久久| 久久久久亚洲av无码网站| 欧美momandson| 一区二区三区色| 欧美另类高清视频在线| 97人妻精品一区二区三区软件 | 日本精品一区二区| 国产高清免费在线观看| 日韩免费看片| 亚洲国产精品成人va在线观看| 毛葺葺老太做受视频| 亚洲第一图区| 国产精品久久综合| 激情小说综合网| 看片网站在线观看| 视频一区中文| 亚洲高清av在线| 亚洲美女性囗交| 韩国成人漫画| 午夜视频在线观看一区二区三区| 一区二区在线观看网站| 国产情侣免费视频| 一本色道久久综合亚洲精品高清 | 蜜桃视频一区二区三区| 久久人人爽人人| 国产真实乱在线更新| 久草成人资源| 日韩精品中文在线观看| 日本少妇xxxx软件| 日韩成人18| 欧美精品一二三区| 最新不卡av| 国产在线日本| 久久综合给合久久狠狠狠97色69| 欧美在线亚洲一区| 日韩欧美高清在线观看| 欧美私人啪啪vps| 欧美人在线视频| 亚洲综合视频网站| 综合激情在线| 久久精品国产成人| 国产第一页浮力| 999成人网| 精品国偷自产在线视频99| 亚洲一区二区自偷自拍| 成人精品高清在线视频| 色播五月激情综合网| 国产成人a亚洲精v品无码| 国产在线高清| 国产色一区二区| 色阁综合av| av资源网在线观看| 国产精品你懂的在线欣赏| 亚洲精品自在在线观看| 国产婷婷一区二区三区久久| 精品制服美女丁香| 91精品免费视频| 国产成人麻豆精品午夜在线| 国内一区二区在线| 97视频中文字幕| 欧美亚洲精品在线观看| 91在线视频官网| 欧美日韩一区二区视频在线| 国产区高清在线| 国产精品区一区二区三| 男人j进女人j| 每日更新av在线播放| 久久99最新地址| 91夜夜揉人人捏人人添红杏| 亚洲精品18p| 91视频.com| 色中色综合成人| 国产剧情在线| 午夜影院久久久| 国产三级三级三级看三级| 日韩欧国产精品一区综合无码| 欧美久久婷婷综合色| 久久久久亚洲av无码专区首jn| 精品精品国产毛片在线看| 亚洲人成电影网站色www| 免费黄色国产视频| 亚洲国产裸拍裸体视频在线观看乱了中文| 国产91精品视频在线观看| 中文永久免费观看| 国产成人在线网站| 成人美女免费网站视频| 亚洲国产中文字幕在线| 国产亚洲污的网站| 日本a级片在线观看| 国产传媒在线| 亚洲自拍偷拍综合| 动漫av网站免费观看| 三级资源在线| 色一情一乱一乱一91av| 一卡二卡三卡四卡五卡| 免费看成人哺乳视频网站| 久久成人人人人精品欧| 亚洲 欧美 中文字幕| 国产福利精品导航| 色综合电影网| www视频在线观看| 7799精品视频| 男人操女人动态图| 国产探花在线精品一区二区| 日韩hd视频在线观看| 欧美乱大交做爰xxxⅹ小说| 最新成人av网站| 91精品在线观| 久草在线网址| 亚洲成国产人片在线观看| 中文字幕国产免费| 久久99性xxx老妇胖精品| 欧美精品xxx| 91精品视频免费在线观看| 99在线精品观看| 欧洲精品视频在线| 国内欧美日韩| 4438x成人网最大色成网站| 欧美做受喷浆在线观看| 欧美黄污视频| 91在线看www| 欧美a在线看| 欧美系列日韩一区| 乐播av一区二区三区| 99re国产精品| 好吊色欧美一区二区三区| 超碰在线观看免费版| 一区二区三区四区激情| 欧美女同在线观看| 凹凸成人精品亚洲精品密奴| 热久久99这里有精品| 三级小视频在线观看| 夜夜嗨av一区二区三区中文字幕 | www.激情成人| 日韩网站在线免费观看| 中文字幕一区二区三区日韩精品 | 欧美国产综合视频| 天堂资源在线| 精品调教chinesegay| 91浏览器在线观看| 99re热视频这里只精品| 狠狠干 狠狠操| 日本欧美高清| 日韩美女在线观看| 国产毛片在线| 欧美日韩精品欧美日韩精品一| 国产一二三四区在线| 日本vs亚洲vs韩国一区三区| 亚洲欧洲另类精品久久综合| 四虎成人在线| 久久精彩免费视频| 99精品国产99久久久久久97| 亚洲欧美日韩小说| 美女露出粉嫩尿囗让男人桶| 影音先锋一区| 欧美日韩电影一区二区| 四虎4545www精品视频| 色妞色视频一区二区三区四区| 亚洲天堂中文网| 国产精品久久毛片av大全日韩| 在线观看免费不卡av| 午夜精品亚洲| 久久国产精品高清| 97人人做人人爽香蕉精品| 日韩在线中文字幕| 亚洲国产精品久久久久爰性色| 亚洲va欧美va国产va天堂影院| 亚洲成人日韩在线| 美女视频一区二区| 久久人人爽人人爽人人av| 农村少妇一区二区三区四区五区| 国产成人涩涩涩视频在线观看| 日本中文字幕在线播放| 精品日韩一区二区三区| 中文在线第一页| 亚洲欧洲国产日本综合| 欧美日韩人妻精品一区在线| 亚洲综合国产| 91制片厂免费观看| 欧美绝顶高潮抽搐喷水合集| 国产欧美在线播放| 国产传媒在线| 久久精品国产2020观看福利| 天堂网在线中文| 欧美猛男男办公室激情| 日本少妇毛茸茸高潮| 国产日韩成人精品| 中文字幕99页| 老司机午夜精品99久久| 国产一区二区免费电影| 欧美日韩视频免费观看| 日韩av在线网站| 一女二男一黄一片| 精品国产福利在线| 91人妻一区二区三区蜜臀| 91丝袜国产在线播放| 黄色aaaaaa| 丝袜美腿高跟呻吟高潮一区| 久久久久久久久久久一区| 国产激情久久| 51ⅴ精品国产91久久久久久| 国产日产一区二区三区| 亚洲网址你懂得| 日韩中文字幕观看| 欧美一区二区成人| 最新中文字幕免费| 欧美日韩国产一区二区| 国产精品白嫩白嫩大学美女| 国产精品私人影院| 国产精品成人一区二区三区电影毛片| 狠狠色狠狠色综合日日91app| 欧美一级黄色片视频| 亚洲网站啪啪| 400部精品国偷自产在线观看| 精品久久中文| 久久国产一区二区| 国产精品毛片久久久| 91精品国产综合久久久久久蜜臀 | 午夜精品一区二区三区国产| 国产欧美日韩专区发布| 亚洲天堂电影| 97国产在线观看| 久久99亚洲网美利坚合众国| 久久这里只有精品99| 欧美jizzhd欧美| 日韩亚洲国产中文字幕| 91在线导航| 视频在线观看一区二区| 福利在线播放| 国产亚洲精品va在线观看| 日韩黄色影片| 亚洲欧美一区二区精品久久久| 十八禁一区二区三区| 精品久久久久香蕉网| 国产黄a三级三级三级| 欧美一区在线视频| 精品国产无码一区二区三区| 日韩一区二区三区观看| 一级aaa毛片| 亚洲午夜激情av| 国产精品23p| 亚洲一级二级在线| 国产精品成人久久| 午夜精品福利一区二区三区av| 国产午夜福利片| 黄色精品在线看| 中文字幕激情小说| 欧洲av在线精品| 一道本在线视频| 欧美一级专区免费大片| 精品久久人妻av中文字幕| 精品国产在天天线2019| 国产91麻豆视频| 亚洲男人天堂视频| 91精品专区| 免费97视频在线精品国自产拍| 国产网红在线观看| 欧美一二三视频| 精品国产欧美日韩一区二区三区| 国产精品无av码在线观看| 99综合久久| 国产一区二区免费在线观看| 久久av免费看| 国产卡一卡二在线| 亚洲美女色禁图| 91淫黄看大片| 国产精品亚洲一区二区三区妖精 | 久久成人精品无人区| 色婷婷综合在线观看| 不卡区在线中文字幕| 免费在线观看污| 中文字幕日韩一区| 久久久久久欧美精品se一二三四| 久久中文字幕电影| 国产视频123区| 亚洲国产精品一区二区尤物区| 国产精品一区二区6| 欧美私模裸体表演在线观看| 99在线无码精品入口| 日韩av有码在线| 亚洲搞黄视频| 欧美在线视频网站| 久久精品一级| 蜜桃久久精品乱码一区二区| 久久美女精品| 大j8黑人w巨大888a片| 久久99热99| 少妇精品一区二区| 亚洲麻豆国产自偷在线| 国产成人精品777777| 欧美一区二区三区免费视频| 欧美在线一卡| 欧美激情久久久久久| 久久人体av| 免费成人av网站| 欧美日韩国产高清| 中文字幕有码av| 青青青爽久久午夜综合久久午夜| 91精品人妻一区二区三区蜜桃2| 久久久久久久久久电影| 少妇影院在线观看| 欧美三级在线视频| 日本一区二区三区在线观看视频| 美女av一区二区三区| 精品亚洲美女网站| 精品一区二区三区视频日产| 你懂的成人av| 向日葵污视频在线观看| 久久一留热品黄| 日本三级2019| 日韩视频123| 蜜桃视频网站在线| 奇米四色中文综合久久| 国产精品极品国产中出| 国产精品啪啪啪视频| 精品一区二区综合| 国产一区二区三区四区在线| 日韩欧美在线观看视频| 亚洲精品一区二区口爆| 久久久精品一区二区三区| 国产成人免费| 亚洲一区二区三区午夜| 日韩av网站免费在线| 国产jjizz一区二区三区视频| 午夜电影网一区| 天天干天天舔天天射| 色综合男人天堂| 亚洲一区二区三区在线免费| 成年丰满熟妇午夜免费视频 | 亚洲一区二区久久久久久| 亚洲视频三区| 国产日韩第一页| 国产乱码精品1区2区3区| 国产av无码专区亚洲av毛网站| 91麻豆精品国产91久久久久久久久 | 精品视频久久久久久| 在线毛片观看| 欧美日韩国产综合视频在线| 久久亚洲视频| 亚洲一区 欧美| 91精品国产色综合久久| 国产网友自拍视频导航网站在线观看| 成人综合国产精品| 欧美久久影院| 喷水视频在线观看| 欧美视频在线视频| 国产日本在线观看| 国产日韩精品一区二区| 亚洲v在线看| 五月天丁香社区| 亚洲超碰精品一区二区| 视频一区二区在线播放| 97视频免费在线观看| 九九综合九九| 一级淫片在线观看| 久久亚洲一区二区三区四区| 黄色片视频免费| x99av成人免费| 亚洲日本va中文字幕| 国产午夜大地久久| 国产欧美一二三区| 国产女人18毛片18精品| 97婷婷大伊香蕉精品视频| 一呦二呦三呦国产精品| 黄色一级大片免费| a在线播放不卡| 成年人视频免费| 久久亚洲精品毛片| 久久精品福利| 狠狠躁狠狠躁视频专区| 亚洲自拍与偷拍| 成人免费黄色网页| 1区1区3区4区产品乱码芒果精品| 亚洲高清成人| 欧美aaa级片| 亚洲第一区第二区| 影音成人av| 久久这里只有精品18| 久久精品一区二区三区av| 97久久人国产精品婷婷| 2020欧美日韩在线视频| 91麻豆国产自产在线观看亚洲| 蜜臀aⅴ国产精品久久久国产老师| 色综合一个色综合亚洲| 2024最新电影在线免费观看| 欧美二区在线看| 国产69精品久久久久毛片| 无码人妻av免费一区二区三区 | 一区二区三区四区久久| 97久久超碰精品国产| 国产精品久久免费| 欧美在线亚洲在线|