精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

使用MCTS顯著提升LLM在復雜任務的推理能力 精華

發布于 2024-11-20 14:41
瀏覽
0收藏

一、概述

?Title:Reasoning with Language Model is Planning with World Model

?URL:?? https://arxiv.org/abs/2305.14992??

?Code:?? https://github.com/maitrix-org/llm-reasoners??

?Demo:?? https://github.com/maitrix-org/llm-reasoners/blob/main/demo.ipynb??

1 Motivation

? 盡管COT表現不錯,但是當前LLM在生成plan、復雜數學推理、邏輯推理時仍然表現不夠好。

?LLMs缺乏內部“世界模型”來預測世界狀態(例如環境狀態、中間變量值)并模擬行動的長期結果

? LLM缺乏類似于人腦的深思熟慮的規劃能力。具體來說,LLMs 缺乏以下能力:

探索更多推理路徑:人類在解決問題時,會考慮多種可能的方案,并評估每種方案的優缺點。而 LLMs 通常只會按照一種固定的推理路徑進行,缺乏靈活性和多樣性。

預測未來狀態和獎勵:人類在規劃時,會預測每個行動可能導致的結果,并根據結果調整自己的計劃。而 LLMs 無法預測未來狀態,因此無法進行有效的規劃。

迭代改進現有推理步驟:人類在規劃過程中,會根據反饋不斷調整自己的計劃,使其更加完善。而 LLMs 通常只會按照既定的計劃進行,缺乏自我反思和改進的能力。

2 Methods

RAP框架通過以下幾個關鍵步驟來克服這些限制:

  • 將LLM用作世界模型:提供未來state預測息,幫助后面做action的決策。
  • 采用基于蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)規劃算法進行探索,高效找出reward最高的路徑
  • 在推理過程中,action執行agent在世界模型agent的指導和reward獎勵下逐步構建推理樹,并有效地找到高回報的推理路徑,同時在探索與利用之間保持適當的平衡

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

1)關鍵組成

本文文通過提出一個新的框架Reasoning via Planning (RAP)來解決大型語言模型(LLMs)在復雜推理任務中遇到的挑戰, 關鍵組成部分解釋如下:

  • 基于LLM構建世界模型:通過適當的prompt,基于LLM構建世界模型,預測在給定當前狀態的情況下,應用某個動作后下一個狀態的可能性。
  • 根據不同的任務設置不同的reward:定義一個獎勵函數來評估每個推理步驟的可行性和可取性。獎勵函數可以根據不同任務的需求進行定制,包括動作的似然性、狀態的置信度、自我評估以及特定任務的啟發式方法。
  • 引入Plan算法進行推理:MCTS通過迭代地構建推理樹,有效地在探索(未訪問的推理路徑)和利用(已識別的最佳推理步驟)之間保持平衡。
  • 構建推理路徑的空間:在推理過程中,LLM(作為agent)根據世界模型的預測和reward模型的獎勵函數的指導,通過selection,expand,simulation,back-propagation逐步構建一個推理樹。
  • 結果聚合(RAP-Aggregation):對于只需要最終答案的問題,RAP可以產生多個推理路徑和答案,這些結果可以通過聚合方法結合起來,以進一步提高推理性能。

2)基于世界模型預測未來狀態,提升LLM的planning能力能力

Language Model as World Model:RAP 框架將 LLM 重新利用為世界模型,使其能夠模擬未來狀態指導規劃算法,從而實現更類似于人類深思熟慮的推理。即f(current state + action) -> next state of the reasoning。

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

2.1 如何將 LLM 作為世界模型:

  • 定義狀態和動作:根據不同的推理任務,定義狀態和動作的具體含義。例如,在積木世界中,狀態是積木的配置,動作是移動積木;在數學問題中,狀態是變量的值,動作是提出子問題。
  • 構建馬爾可夫決策過程 (MDP):將推理過程視為一個 MDP,其中 LLM 作為智能體,根據當前狀態生成動作空間,并使用 LLM 作為世界模型預測執行動作后的下一個狀態。
  • 模擬未來狀態:通過 LLM 作為世界模型預測未來狀態,LLM 作為智能體可以在腦海中模擬執行不同動作后的結果,類似于人類的規劃過程。

2.2 使用世界模型的優勢:

? LLM 能夠更好地理解推理過程中的狀態變化,從而進行更準確、更連貫的推理。

? 有了世界模型,LLM 就可以使用各種規劃算法來探索推理空間,例如蒙特卡洛樹搜索 (MCTS),從而找到更優的推理路徑。

2.3 CoT 和 RAP 的主要區別:

?狀態建模:CoT 中只有動作序列,沒有對世界狀態的建模。而 RAP 引入了世界模型,能夠預測未來狀態,使推理過程更加全面和可靠。

?規劃能力:CoT 缺乏規劃能力,只能按照固定的推理路徑進行。而 RAP 引入了規劃算法 (如 MCTS),能夠探索多種可能的推理路徑,并選擇最優的路徑。

?推理過程:CoT 的推理過程是自回歸的,每一步推理都依賴于前一步的輸出。而RAP 的推理過程是迭代的,LLM 可以根據反饋不斷調整推理步驟

3 如何設計Reward Model?

3.1 獎勵函數的核心目標:

?評估每個推理步驟的可行性和可取性:判斷每個步驟是否符合規則,以及是否有助于達到最終目標。

?引導 LLM 沿著最優路徑進行推理:通過獎勵機制,鼓勵 LLM 選擇更有利于達成目標的推理步驟

3.2 有哪些常見的reward獎勵函數方法:

類別

描述

原理

作用

應用場景

動作概率 (Action Likelihood)

采用當前action的概率作為reward,即采用log probability of the action作為reward。

評估 LLM 在當前狀態下生成特定動作的概率。

反映 LLM 對特定動作的偏好和置信度。

適用于需要判斷動作合理性的任務,例如積木世界中的移動積木

狀態置信度 (State Confidence)

狀態置信度通過采樣 LLM 的預測結果并計算最常見結果的比例來評估 LLM 對預測狀態的可靠性

評估 LLM 對預測狀態 (例如答案) 的置信度。

反映 LLM 對預測結果的可靠性程度。

適用于需要評估預測結果質量的任務,例如數學問題中的答案

自我評估 (Self-evaluation)

criticize itself,例如question“Is this reasoning step correct ?” 或者,利用next-word yes的概率作為reward。

讓 LLM 對自身推理步驟的正確性進行評估。

反映 LLM 對自身推理能力的自我認知。

適用于 LLM 可以判斷推理步驟正確性的任務,例如數學問題中判斷計算或邏輯錯誤

特定任務啟發式 (Task-specific Heuristics)

方便引入其他插件,來啟發式引導。

根據特定任務的特性設計啟發式函數,評估推理步驟的質量。

利用領域知識,指導 LLM 進行更有效的推理。

適用于需要利用領域知識的任務,例如積木世界中計算預測狀態與目標狀態之間的距離

4 如何利用MCTS進行迭代

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

4.1 MCTS 的四個階段:

階段

描述

選擇(Selection)

從根節點開始,遞歸選擇最優的子節點,直到達到一個葉子結點。此過程基于一定的選擇策略,例如UCB (Upper Confidence Bound)。

擴展(Expansion)

當達到葉節點時,根據問題的定義,擴展樹以添加一個或多個子節點。這模擬了在現實中采取一個動作并觀察新狀態的過程。

模擬(Simulation)

從擴展的節點開始,執行模擬來估計這個節點的價值。模擬是通過一種模型或隨機方法生成的,模擬直到達到某個終止條件。

回溯(Backpropagation)

根據模擬的結果,將回報值(reward)傳播回來更新經過的所有節點的統計信息,如訪問次數和累計獎勵。

4.2 如何選擇最終推理路徑?

算法終止后,需要從構建的搜索樹中選擇一條推理軌跡進行評估。這里有幾種不同的選擇策略:

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

  • 基于 Q 值的選擇:從根節點開始,迭代地選擇具有最高Q 值(即狀態-動作對的預期回報)的動作,直到達到一個終端節點(葉子節點)。這種方法依賴于算法在迭代過程中積累的值。
  • 基于獎勵的選擇:直接選擇在迭代過程中產生最高總獎勵的路徑。這種方法考慮了整個路徑的累積獎勵,而不是單個步驟的 Q 值。
  • 最頻繁訪問的葉子節點:選擇訪問次數最多的葉子節點,以及從根節點到該葉子節點的路徑。這種方法假設最頻繁訪問的路徑可能是最優的。

實際觀察:在實際應用中,作者觀察到第二種策略(基于獎勵的選擇)通常會產生最好的結果。這可能是因為它考慮了整個路徑的累積獎勵,而不是僅僅依賴于單個步驟的 Q 值,從而能夠更好地捕捉到長遠的推理效果。

5 Conclusion

? RAP在生成計劃、數學推理和邏輯推理任務上表現出色,超越了包括CoT和least-to-most prompting在內的多種強基線。

? RAP在使用LLaMA-33B模型時超過了使用GPT-4的CoT方法,在plan生成中提升了33%。

二、詳細內容

1 實驗設計

Benchmark: 采用了4個不同的任務來證明本方法的有效性:

  • Plan生成(Plan Generation):使用Blocksworld基準測試,要求智能體將塊按特定順序堆疊。定義狀態為塊的當前方向,動作為移動塊的指令。使用兩種獎勵:動作的似然性和特定任務啟發式獎勵。與Chain-of-Thought (CoT)和其他基線方法進行比較。
  • 數學推理(Math Reasoning):在GSM8K數據集上進行測試,該數據集包含小學數學文字問題。將問題分解為一系列較小的子問題。**定義狀態為中間變量的值,動作為提出關于未知中間變量的增量子問題。**結合自我評估獎勵和狀態置信度獎勵。與CoT、Least-to-Most prompting等變體進行比較。
  • 邏輯推理(Logical Reasoning):在PrOntoQA數據集上進行測試,該數據集包含一組事實和邏輯規則,要求模型驗證假設事實的真假。定義狀態為當前關注的fact,動作為從fact集中選擇規則。使用自我評估獎勵,并基于未來步驟的平均獎勵更新Q函數。與CoT基線方法進行比較,評估最終答案的預測準確性和完整證明的準確性。

額外實驗:

?復雜問題的分析:在完整的Blocksworld數據集上使用更強大的LLM(Llama-2 70B)進行實驗,以進一步研究RAP是否能幫助更強的LLM解決更復雜的問題。

?獎勵選擇的分析:對不同獎勵選擇對LLM推理性能的影響進行了綜合實驗,包括計劃生成和數學推理任務。

?適應性提示(Adaptive Prompting):為了解決演示案例和測試案例之間難度分布差異的問題,提出了一種適應性提示技術,通過預計算演示案例的中間狀態并截斷搜索樹中的路徑來提高性能。

2 Blocksword場景超過GPT4+COT的效果

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

說明:

?任務:通過一系列的操作,將積木塊從一種特定的初始配置移動到另一種目標配置。

?RAP(10) 和 RAP(20):這指的是使用 RAP 方法時,迭代次數分別設置為 10 和 20 的實驗設置。

?“pass@10”:表示對于每個測試案例,算法采樣了 10 個計劃。如果一個測試案例中至少有一個計劃是正確的,那么這個測試案例就被認為是解決了的。這種方法可以評估算法在多次嘗試中找到至少一個有效解決方案的能力。

結論1: 使用 LLaMA-33B(一個大型語言模型)的 CoT 方法只能為少數幾個兩步的問題生成成功的計劃,而在更難的問題上完全失敗。這表明 CoT 方法在處理簡單問題時表現尚可,但在問題復雜度增加時,其性能顯著下降。

結論2: RAP 方法在性能上顯著優于 CoT,幾乎解決了所有四步以內的難題,并且解決了一部分六步問題,平均成功率達到 64%。這說明 RAP 方法在處理更復雜問題時的有效性。

結論3: 六步問題的搜索空間可以達到 ,而RAP算法在 20 次迭代內能夠以 42% 的概率找到成功的計劃。這強調了 RAP 方法在處理具有大規模搜索空間問題時的效率。

結論4: RAP框架使得 LLaMA-33B 在性能上超過了 GPT-4,提升了33%,表明 RAP 方法能夠顯著提升語言模型在復雜推理任務上的性能。

3 數學推理任務上表現也非常好

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

說明:

?任務:例如GSM8k的數學任務,包括一個描述和一個final question,需要進行multi-step數學計算,需要將final question拆解成一系列小的字問題來解決。

?狀態定義:在這個框架中,"狀態state"被定義為中間變量的值。中間變量是在解決問題過程中產生的,它們幫助模型理解問題的當前狀態。

?動作定義"動作action"是指提出一個關于未知中間變量的增量子問題。這個動作是為了獲取關于問題更多的信息。

?世界模型響應:世界模型(可以理解為問題的背景知識庫)會根據當前的中間變量值和問題描述來回答提出的子問題。回答的結果是將新的中間變量值加入到下一個狀態中,從而更新模型對問題的理解。

?獎勵函數:獎勵函數是由兩個部分組合而成的:LLM對自己提出子問題有用性的自我評估(rt,1)和模型對當前狀態置信度(rt,2)的加權幾何平均。這個加權幾何平均表示為 rt = rα ? r1?α,其中 α 是權重系數。

?獎勵的目的:這個獎勵函數的設計目的是鼓勵模型提出更加相關和有用的子問題。通過這種方式,模型可以更有效地解決問題,因為它會被引導去關注那些能夠顯著推進問題解決進程的信息。

? 其他:RAP(aggr)取多條采樣路徑的結果。

4 邏輯推理任務上表現也比較好

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

使用MCTS顯著提升LLM在復雜任務的推理能力-AI.x社區

image-20241104234512575

說明:

  • ?任務設置:邏輯推理任務(例如 PrOn-toQA)通常提供一組事實和邏輯規則。模型的任務是使用這些邏輯規則來驗證給定的假設事實是否為真或假。這些任務不僅要求模型提供正確的最終答案(真或假),還要求模型提供一個詳細的證明來展示結果。
  • ?狀態定義:在這個框架中,"狀態"被定義為模型當前關注的事實,這類似于人類在推理時的工作記憶(Baddeley, 1992)。工作記憶是指在進行復雜認知任務時,暫時存儲和操作信息的心理能力。
  • ?動作定義"動作"被定義為從事實集中選擇一個規則。這個動作是為了應用邏輯規則來進行推理。
  • ?世界模型:世界模型執行一個單跳推理步驟,使用選定的規則和當前的事實來生成一個新的事實,這個新事實成為下一個狀態。
  • ?獎勵計算:獎勵是通過自我評估來計算的(參見 Section 3.2)。具體來說,通過向 LLM 提供一些帶有標簽的示例,幫助它更好地理解推理步驟的質量。自我評估可以是模型對推理步驟有用性的評價。
  • ?Q 函數更新:使用未來步驟的平均獎勵來更新 Q 函數,這與 GSM8k 中的方程(2)相同。Q 函數是強化學習中的一個概念,用于評估在特定狀態下采取特定動作的預期回報。

三、總結

?結論1:利用LLM作為世界模型和推理agent,可以顯著提升其推理和規劃能力,使其在多個推理任務上的表現優于現有強基線。

?結論2:引入基于蒙特卡洛樹搜索(MCTS)的規劃算法,有效平衡了推理過程中的探索和利用,使得LLM在解決復雜推理問題時能夠高效獲取高獎勵的推理路徑。

本文轉載自 ??NLP PaperWeekly??,作者: NLP PaperWeekly

收藏
回復
舉報
回復
相關推薦
欧美在线视频不卡| aaa亚洲精品一二三区| www国产精品com| 在线成人精品视频| 日本蜜桃在线观看视频| 国产日韩精品一区二区浪潮av | 亚洲精品在线观看av| 日本亚洲不卡| 欧美精品tushy高清| 成人免费看片'免费看| 男人天堂综合| 国产成人在线免费| 国产高清视频一区三区| 欧美日韩在线观看免费| 国产一区二区三区四区| 精品国免费一区二区三区| 欧美一级视频免费在线观看| 国产精品高清无码在线观看| 成人av集中营| 亚洲成人av中文| 999视频在线观看| 久久久成人免费视频| 一区二区三区在线观看免费| 亚洲欧美日本精品| av免费观看不卡| 婷婷激情成人| 国产精品毛片大码女人| 精品不卡在线| 亚洲欧美另类视频| 国产一区在线精品| 国产精品久久久久久久久久久久| 久久久久久天堂| 日韩一区电影| 亚洲视频一区二区| 国产黑丝在线观看| 清纯唯美激情亚洲| 亚洲精品大片www| 日韩片电影在线免费观看| 亚洲乱码国产乱码精品精软件| 日韩高清不卡一区二区| 一区二区三区高清国产| 日本不卡视频一区| 麻豆一区在线| 欧美丰满高潮xxxx喷水动漫| 午夜激情在线观看视频| 欧美aa在线观看| 亚洲一二三专区| 天堂av在线中文| 精品国产白色丝袜高跟鞋| 国产欧美日韩综合精品一区二区| 精品国产一区二区三区免费 | 中文字幕在线免费观看视频| 一区二区三区成人在线视频| 香蕉精品视频在线| 秋霞成人影院| 国产精品久久久久天堂| 亚洲v欧美v另类v综合v日韩v| 伦理片一区二区三区| 26uuu国产日韩综合| 久久国产欧美精品| 亚洲欧洲精品视频| 久久久久久夜精品精品免费| 久久久www免费人成黑人精品| 欧美一级淫片aaaaaa| 国产成人在线影院| 国产91精品入口17c| 精品国产九九九| 国产成人精品午夜视频免费| 91日韩久久| 懂色av蜜臀av粉嫩av分享吧| 成人午夜视频免费看| 高清国产在线一区| 亚洲av成人精品毛片| 99久久精品国产一区| 久久伊人资源站| 国产资源在线观看| 国产精品乱码一区二区三区软件| 正在播放亚洲| 成年人视频免费在线播放| 五月综合激情网| 欧美成人精品欧美一级乱| 台湾佬成人网| 亚洲视频一区在线| 成人污网站在线观看| 欧美黑人猛交| 欧美性猛交xxxx乱大交| 国内自拍视频网| 国产精品麻豆| 亚洲成年人影院在线| 国产男男chinese网站| 日韩精品久久| 欧美国产在线电影| 国产香蕉视频在线| 青青青爽久久午夜综合久久午夜 | 欧美成人dvd在线视频| 国产69精品久久app免费版| 国产精品国产三级国产三级人妇 | 麻豆国产91在线播放| 91久久久在线| 天堂av网在线| 国产91综合网| 欧美日韩精品综合| 草莓福利社区在线| 欧美性猛交xxxx| 欧美日韩理论片| 九一国产精品| 欧美日韩国产va另类| aaaaaa毛片| 国产成人午夜99999| 欧美18视频| 欧美videossex| 欧美亚洲一区二区三区四区| 久久久久中文字幕亚洲精品| 国产区精品区| 性色av一区二区三区| 在线观看中文字幕av| eeuss鲁片一区二区三区在线观看| 翔田千里亚洲一二三区| av中文字幕在线观看第一页| 欧美日韩一级二级三级| 麻豆一区二区三区视频| 中文久久电影小说| 日韩在线观看免费全| 亚洲另类欧美日韩| 国产高清不卡二三区| 天天综合狠狠精品| 亚洲涩涩在线| 精品美女一区二区| 可以免费看av的网址| 性欧美长视频| 国产精品一区二区三区在线观 | 激情av综合| 久久亚洲精品小早川怜子66| 波多野结衣一区二区三区在线| 成人一区二区三区| 四虎精品欧美一区二区免费| 蜜桃视频成人m3u8| 日韩精品免费视频| 日韩伦理在线视频| 成人一区二区三区| 狠狠干视频网站| 精品国产鲁一鲁****| 久久精品电影网站| 亚洲天堂aaa| 欧美国产精品v| 午夜肉伦伦影院| 欧美成人专区| 3344国产精品免费看| 蜜臀av在线观看| 亚洲午夜激情av| 99riav国产精品视频| 福利片在线一区二区| 另类天堂视频在线观看| 国产精品无码AV| 高清不卡在线观看| 免费的一级黄色片| 亚洲精品在线播放| 久久久久中文字幕2018| 秋霞av鲁丝片一区二区| 亚洲综合激情另类小说区| 欧美性猛交乱大交| 国内视频精品| 国产美女精品在线观看| 国产精品国精产品一二| 亚洲精品一区二区三区香蕉 | 一区二区中文| 亚洲曰本av电影| 亚洲羞羞网站| 亚洲精品www久久久| 日韩无码精品一区二区三区| 99久久99久久久精品齐齐| 亚洲精品无码久久久久久| 亚洲国产欧美日韩在线观看第一区| 欧洲永久精品大片ww免费漫画| 日韩偷拍自拍| 91成人在线精品| 激情高潮到大叫狂喷水| 久久99久久精品欧美| 肉大捧一出免费观看网站在线播放| 免费一级欧美片在线观看网站| 欧美激情国产高清| 视频三区在线观看| 在线亚洲一区观看| 欧美成人777| av中文字幕在线不卡| 日韩毛片在线免费看| 青青草成人影院| 亚洲在线免费看| 国产传媒在线| 国产一区二区三区在线看| 国产伦子伦对白视频| 午夜精品久久久久久久久久 | 91av免费观看91av精品在线| 欧美婷婷久久五月精品三区| 欧美在线观看一区| 欧美三级 欧美一级| 91一区二区三区在线观看| 成人亚洲精品777777大片| 欧美国产先锋| 欧美性大战久久久久| 韩国三级大全久久网站| 97精品久久久| 免费看美女视频在线网站| 精品国产91洋老外米糕| 无码视频一区二区三区| 亚洲精品国产成人久久av盗摄| 内射中出日韩无国产剧情| 美腿丝袜亚洲一区| 91好吊色国产欧美日韩在线| 久久久综合色| 九色一区二区| 亚洲2区在线| 国产精品69av| bbw在线视频| 久久国产精品偷| 97超碰国产在线| 激情成人中文字幕| 极品久久久久久| 国产精品综合一区二区| 99精品视频在线看| 欧美日韩伊人| 在线免费观看一区二区三区| 亚洲三级网址| 国产精品免费看一区二区三区 | 亚洲xxxx做受欧美| 电影一区二区| 欧洲成人在线视频| 丰乳肥臀在线| 欧美猛男性生活免费| 9191在线| 国产亚洲视频在线观看| 天堂成人在线| 亚洲精品美女在线| 性生活三级视频| 欧美一区二区三区在线电影| 午夜三级在线观看| 国产精品素人视频| 能免费看av的网站| 99国产精品视频免费观看| 成人做爰69片免费| 国产麻豆视频一区二区| 亚洲高清免费在线观看| 蜜臀av一区二区在线免费观看| 欧美牲交a欧美牲交| 亚洲日韩成人| 日韩国产精品一区二区| 丝袜久久网站| 精品欧美一区二区在线观看视频 | 性欧美freesex顶级少妇| 久久久久久久999| 免费在线国产视频| 欧美激情按摩在线| 国产精品xx| 欧美亚洲国产日韩2020| 三妻四妾完整版在线观看电视剧| 国内偷自视频区视频综合| 欧美videosex性欧美黑吊| 欧美国产日韩一区二区三区| 视频在线观看入口黄最新永久免费国产| 久久伊人精品视频| av大片在线| 欧美极品少妇xxxxⅹ裸体艺术| 日本在线视频网址| 性色av一区二区三区免费| 乡村艳史在线观看| 国产精品成久久久久三级 | 成人在线视频电影| 国产精品对白| 欧美精品二区三区四区免费看视频 | 少妇视频在线| 97在线视频免费看| 国产欧美一区二区三区精品酒店| 日产精品久久久一区二区福利| 精品欧美日韩精品| 成人欧美一区二区三区在线湿哒哒| 一区二区三区无毛| 欧美一级视频在线观看| 国产亚洲一区二区手机在线观看 | 国产口爆吞精一区二区| 日韩欧美一区二区视频| 日本成人动漫在线观看| 亚洲男人天堂手机在线| 91青青在线视频| 欧美黑人xxx| 美女一区网站| 91亚洲精品在线观看| 老司机精品视频在线播放| 日韩影片在线播放| 欧美fxxxxxx另类| 97av视频在线观看| 麻豆成人在线观看| 亚洲日本久久久| 日本一区二区三区四区| √天堂中文官网8在线| 精品久久久久久久大神国产| 日批视频免费观看| 精品久久久久久无| а天堂8中文最新版在线官网| 欧美成人精品不卡视频在线观看| 国产中文在线播放| 91精品视频在线| 九色精品国产蝌蚪| 亚洲精品蜜桃久久久久久| 久久久蜜桃一区二区人| 三级网站免费看| 欧美韩国一区二区| 日韩精品视频播放| 91麻豆精品国产91久久久久久久久| 人妻与黑人一区二区三区| 日韩中文在线中文网在线观看| av手机在线观看| 亚洲一区二区在线| 日韩欧美精品一区| 播放灌醉水嫩大学生国内精品| 国内成+人亚洲+欧美+综合在线| 在线天堂www在线国语对白| 亚洲视频免费在线观看| 亚洲欧美日韩一区二区三区四区| 日韩欧美一区电影| 日本中文字幕在线看| 欧美综合第一页| 国产精品对白久久久久粗| 97精品国产97久久久久久粉红| 亚洲一区二区伦理| 777久久久精品一区二区三区| 国产麻豆一精品一av一免费 | 国产精品第一区| 国产厕拍一区| 少妇久久久久久被弄到高潮| 免费日本视频一区| 熟女俱乐部一区二区| 亚洲国产精品久久艾草纯爱| 国产情侣自拍小视频| 在线视频中文亚洲| 88xx成人免费观看视频库 | 亚洲精品久久一区二区三区777| 国产精品美女一区二区在线观看| 色一情一乱一伦| 亚洲精品影视在线观看| 噜噜噜噜噜在线视频| 91av在线不卡| 欧美a一欧美| 老太脱裤子让老头玩xxxxx| 大美女一区二区三区| 天天干中文字幕| 日韩欧美的一区| 青青草视频在线免费直播| 亚洲一区二区三区视频播放| 亚洲午夜精品一区 二区 三区| 日日躁夜夜躁aaaabbbb| 中文字幕欧美国产| 一区精品在线观看| 日韩中文字幕在线| 亚洲狼人综合| 亚洲激情免费视频| 成人精品视频一区二区三区| 91aaa在线观看| 亚洲国产精品高清久久久| 狠狠躁少妇一区二区三区| 久久久亚洲综合网站| 久久国产精品亚洲77777| 国产毛片久久久久久久| 欧美丝袜丝交足nylons| 日本精品一区二区三区在线播放| 国产在线播放不卡| 欧美久久一区| 制服丝袜第一页在线观看| 欧美日韩免费在线| 国产天堂素人系列在线视频| 国产成人在线视频| 欧美成人自拍| 国产精品欧美性爱| 激情av一区二区| 日本免费在线视频| 高清视频一区二区三区| 亚洲欧美日韩国产一区| 黄色片网站免费| 欧美一区二区三区人| av小说在线播放| 日韩精品成人一区二区在线观看| 青青草一区二区三区| 免费视频一二三区| 亚洲裸体xxxx| 不卡一区视频| 自慰无码一区二区三区| 欧美激情在线一区二区| 国产成人精品一区二三区四区五区 | 欧美综合第一页| 午夜激情久久| 折磨小男生性器羞耻的故事| 欧美性猛交xxxx免费看漫画| 视频三区在线| 国产一区二区三区黄| 美女一区二区三区| 亚洲国产精品午夜在线观看| 亚洲人精选亚洲人成在线| 国产一区二区三区免费观看在线 | 国产精品111| 在线观看欧美视频| 色哟哟精品丝袜一区二区|