精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

摸底谷歌Gemini:CMU全面測評,Gemini Pro不敵GPT 3.5 Turbo

人工智能 新聞
谷歌的 Gemini 到底幾斤幾兩?和 OpenAI 的 GPT 模型相比表現如何?CMU 這篇論文測明白了。

前段時間,谷歌發布了對標 OpenAI GPT 模型的競品 ——Gemini。這個大模型共有三個版本 ——Ultra(能力最強)、Pro 和 Nano。研究團隊公布的測試結果顯示,Ultra 版本在許多任務中優于 GPT4,而 Pro 版本與 GPT-3.5 不相上下。

盡管這些對比結果對大型語言模型研究具有重要意義,但由于確切的評估細節和模型預測尚未公開,這限制了對測試結果的復現、檢測,難以進一步分析其隱含的細節。

為了了解 Gemini 的真正實力,來自卡內基梅隆大學、BerriAI 的研究者對該模型的語言理解和生成能力進行了深入探索。

他們在十個數據集上測試了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 的文本理解和生成能力。具體來說,他們在 MMLU 上測試了模型回答基于知識的問題的能力,在 BigBenchHard 上測試了模型的推理能力,在 GSM8K 等數據集中測試了模型解答數學問題的能力,在 FLORES 等數據集中測試了模型的翻譯能力;在 HumanEval 等數據集中測試了模型的代碼生成能力;在 WebArena 中測試了模型作為遵循指令的智能體的能力。

下表 1 展示了對比的主要結果。總體而言,截至論文發稿日,在所有任務中,Gemini Pro 在準確性上接近 OpenAI GPT 3.5 Turbo,但仍然稍遜一籌。此外,他們還發現,Gemini 和 GPT 比開源競品模型 Mixtral 表現要好一些。

在論文中,作者對每項任務都進行了深入的描述和分析。所有結果和可復現的代碼可參閱:https://github.com/neulab/gemini-benchmark

論文鏈接:https://arxiv.org/pdf/2312.11444.pdf

實驗設置

作者選擇了 Gemini Pro、GPT 3.5 Turbo、GPT 4 Turbo、Mixtral 四個模型作為測試對象。

圖片

由于此前有研究在評估時存在實驗設置方面的差異,為確保測試公平,作者采取了完全相同的提示詞和評估協議重新運行了實驗。在大多數測評中,他們采用了提示詞和來自標準資源庫的評價標準。這些測試資源來自模型發布時附帶的數據集以及測評工具 Eleuther 等。其中,提示詞通常包含查詢、輸入、少量示例和思維鏈推理等。在某些特殊測評中,作者發現有必要對標準實踐進行小幅調整。調整偏差已在對應的代碼儲存庫中執行,請查閱論文原文。

這項研究的目標如下:

1. 通過可復現的代碼和完全透明的結果,提供對 OpenAI GPT 和 Google Gemini 模型能力的第三方客觀比較。

2. 深入研究測評結果,分析兩個模型在哪些領域中的表現更加突出。

基于知識的問答(Knowledge-based QA)

作者從 MMLU 數據集中選擇了 57 個基于知識的多項選擇問答任務,涵蓋了 STEM 以及人文社科等各種主題。MMLU 共有 14,042 個測試樣本,已經廣泛用于對大型語言模型的知識能力進行整體評估。

作者比較并分析了四個測試對象在 MMLU 上的整體表現(如下圖所示)、子任務表現以及輸出長度對表現的影響。

圖 1:使用 5 個樣本提示和思維鏈提示,各個模型在 MMLU 上的總體準確率。

從圖中可以看到,Gemini Pro 的準確性低于 GPT 3.5 Turbo,并且遠低于 GPT 4 Turbo。在使用思維鏈提示時,各模型表現差異不大。作者推測這是由于 MMLU 主要收錄的是基于知識的問答任務,這些任務可能不會從更強的推理導向提示中顯著受益。

值得注意的是,MMLU 中的所有問題都是單選題,有 A 到 D 四個按順序排列的潛在答案。下圖中展示了每個模型選擇每個答案選項的比例。從圖中可以看到 Gemini 的答案分布非常傾斜,偏向于選擇最后的 D 選項。這與各版本的 GPT 給出的更加平衡的結果形成了對比。這可能表明,Gemini 沒有接受與多選題相關的大量指令調整,導致模型在答案排序方面存在偏見。

圖 2:被測模型預測的單選題答案的比例。

下圖展示了被測模型在 MMLU 測試集的子任務上的表現。與 GPT 3.5 相比,Gemini Pro 在大多數任務上的表現不佳。思維鏈提示降低了子任務之間的方差。

圖 3:被測模型在每個子任務上的準確率。

作者深入探討了 Gemini Pro 的強項和弱項。從圖 4 中可以觀察到,Gemini Pro 在人類性別(社會科學)、形式邏輯(人文科學)、初等數學(STEM) 和專業醫學(專業領域)任務中落后于 GPT 3.5。在 Gemini Pro 更擅長的兩個任務中,領先優勢也很微弱。

圖 4:Gemini Pro 和 GPT 3.5 在 MMLU 上的優勢任務。

Gemini Pro 在特定任務上的表現不佳可以歸因于兩個原因。首先,在某些情況下,Gemini 無法返回答案。在大多數 MMLU 子任務中,API 響應率超過 95%,但在道德(響應率 85%)、人類性別(響應率 28%)這兩個任務的相應率明顯較低。這表明 Gemini 在一些任務中性能較低可能是由于輸入的內容過濾器。其次,Gemini Pro 在解決形式邏輯和基礎數學任務所需的基本數學推理方面的表現稍差。

作者還分析了思維鏈提示中的輸出長度如何影響模型性能,如圖 5 所示。一般來說,更強大的模型傾向于進行更復雜的推理,因此會輸出更長的回答。與「對手」相比,Gemini Pro 有一個值得注意的優勢:它的準確性受輸出長度的影響較小。當輸出長度超過 900 時,Gemini Pro 甚至優于 GPT 3.5。然而,與 GPT 4 Turbo 相比,Gemini Pro 和 GPT 3.5 Turbo 很少能輸出長推理鏈。

圖片

圖 5:被測模型在 MMLU 上的輸出長度分析。

通用推理(General-purpose Reasoning)

在 BIG-Bench Hard 測試集中,作者對被測對象展開了通用推理能力的測評。BIG-Bench Hard 包含 27 個不同的推理任務,如算術、符號和多語言推理、事實知識理解等任務。大多數任務由 250 個問題 - 答案對組成,少數任務的問題數量稍少一些。

圖 6 中展示的是被測模型的整體準確率。可以看出,Gemini Pro 的準確率略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。相比之下,Mixtral 模型的準確率還要低得多。

圖 6:被測模型在 BIG-Bench-Hard 上的整體準確率。

作者更深入地探討了為什么 Gemini 通用推理整體表現不佳。首先,他們按問題的長度檢查了準確率。如圖 7 所示,Gemini Pro 在更長、更復雜的問題上表現不佳。而 GPT 模型,特別是 GPT 4 Turbo,即使在非常長的問題中, GPT 4 Turbo 的退步也非常小。這表明它的魯棒性很強,能夠理解更長和更復雜的提問和查詢。GPT 3.5 Turbo 的魯棒性一般。Mixtral 在問題長度方面表現穩定,但整體準確率較低。

圖 7:被測模型在 BIG-Bench-Hard 上按問題長度劃分的準確率。

作者分析了被測模型在 BIG-Bench-Hard 具體任務中是否存在準確率的差異。圖 8 中展示了 GPT 3.5 Turbo 在哪些任務上比 Gemini Pro 表現更好。

在「追蹤變換物體的位置」的任務中,Gemini Pro 的表現特別糟糕。這些任務涉及人們交換物品并追蹤誰是某項物品的擁有者,但 Gemini Pro 經常難以保持正確的順序。

圖片

圖 8:GPT 3.5 Turbo 優于 Gemini Pro 的 BIG-Bench-Hard 子任務 。

在需要多步解的算術題、查找翻譯中的錯誤等任務中,Gemini Pro 遜于 Mixtral。

也有 Gemini Pro 優于 GPT 3.5 Turbo 的任務。圖 9 展示了 Gemini Pro 以最大優勢領先于 GPT 3.5 Turbo 的六個任務。這些任務是異構的,包括需要世界知識的(sports_understanding)、操作符號堆棧(dyck_languages)、按字母順序對單詞進行排序(word_sorting)以及解析表格(penguins_in_a_table)等。

圖 9:Gemini Pro 優于 GPT 3.5 的 BIG-Bench-Hard 子任務。

作者進一步分析了被測模型在不同答案類型中的魯棒性,如圖 10 所示。Gemini Pro 在「Valid/Invalid」答案類型中的表現最差,該答案類型屬于任務 formal_fallacies。有趣的是,該任務有 68.4% 的問題沒有回答響應。然而,在其它(由 word_sorting 和 dyck_language 任務組成)的答案類型中,Gemini Pro 表現優于所有 GPT 模型與 Mixtral。即 Gemini Pro 特別擅長重新排列單詞和按正確順序生成符號。另外,對于 MCQ 答案,有 4.39% 的問題被 Gemini Pro 阻止回應。GPT 模型在這方面表現出色,Gemini Pro 難以與它們競爭。

圖片圖 10:被測模型在 BIG-Bench-Hard 上按答案類型劃分的準確性。

總之,似乎沒有哪個模型在特定任務上一馬當先。因此,在執行通用推理任務時,不妨在 Gemini 和 GPT 模型中都嘗試一下,然后再決定使用哪個模型。

數學能力

為了評估被測模型的數學推理能力,作者選擇了四個數學問題基準測試集:

(1)GSM8K:小學數學基準測試;

(2)SVAMP :通過改變單詞順序生成問題來檢查魯棒推理能力;

(3)ASDIV:具有不同的語言模式和問題類型;

(4)MAWPS:包含算術和代數詞問題。

作者比較了 Gemini Pro 、GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 在四個數學問題測試集上的準確性,檢查了它們的整體性能、不同問題復雜度下的性能以及不同思維鏈深度下的性能。

圖 11 呈現了整體結果,Gemini Pro 在包含不同語言模式的 GSM8K、SVAMP 和 ASDIV 的任務中,準確性略低于 GPT 3.5 Turbo,遠低于 GPT 4 Turbo。對于 MAWPS 中的任務,盡管所有被測模型的準確性都超過 90%,但 Gemini Pro 仍然略遜于 GPT 模型。在這個任務中,GPT 3.5 Turbo 以微弱的優勢勝過了 GPT 4 Turbo。相比之下,Mixtral 模型的準確性遠低于其他模型。

圖片

圖 11:被測模型在四個數學推理測試集任務中的整體準確性。

圖 12 中展示了每個模型對問題長度的魯棒性。與 BIG-Bench Hard 中的推理任務類似,被測模型在回答較長的問題時,準確性有所下降。GPT 3.5 Turbo 在較短的題目上表現優于 Gemini Pro,但退步的速度更快,Gemini Pro 在較長的題目的準確性上與 GPT 3.5 Turbo 類似,但仍稍稍落后。

圖片

圖 12:被測模型在四個數學推理測試集任務中,對于不同問題長度的生成答案的準確性。

此外,作者還觀察到當答案需要更長的思維鏈時,被測模型的準確性也有不同。如圖 13 所示,即使使用長推理鏈時,GPT 4 Turbo 也非常魯棒,而 GPT 3.5 Turbo、Gemini Pro 和 Mixtral 在 COT 長度不斷增加時表現出力不從心。通過分析,作者還發現,在 COT 長度超過 100 的復雜例子中,Gemini Pro 優于 GPT 3.5 Turbo,但在較短的例子中表現不佳。

圖片

圖 13:不同思維鏈長度下,各模型在 GSM8K 上的準確性。

圖 14 顯示了被測模型對于不同數字數量在生成答案時的準確性。作者根據答案中的數字數量是 1 個、2 個還是 3 個以上創建了三個「桶」(除了 MAWPS 任務,該任務的答案沒有超過兩位數的數字)。如圖所示,GPT 3.5 Turbo 似乎對多位數的數學問題更加魯棒,而 Gemini Pro 在更多數字的問題上有所退化。


圖片

圖 14:各個模型在四個數學推理測試集任務中在答案數字數量不同時的準確性。

代碼生成

在這一部分,作者使用兩個代碼生成數據集 ——HumanEval 和 ODEX—— 來檢驗模型的編碼能力。前者測試模型對 Python 標準庫中有限的一組函數的基本代碼理解能力,后者測試模型使用整個 Python 生態系統中更廣泛的庫集的能力。這兩個問題的輸入都是用英語編寫的任務說明(通常帶有測試用例)。這些問題用來評估模型的語言理解能力、算法理解能力和初等數學能力。總的來說,HumanEval 有 164 個測試樣本,ODEX 有 439 個測試樣本。

首先,從圖 15 所示的總體結果中,可以看到 Gemini Pro 在兩項任務上的 Pass@1 分數均低于 GPT 3.5 Turbo,也遠低于 GPT 4 Turbo。這些結果表明,Gemini 的代碼生成能力還有待提高。

圖片

圖 15:各個模型在代碼生成任務中的總體準確性。

其次,作者在圖 16 (a) 中分析了 gold solution 長度與模型性能之間的關系。解的長度可以在一定程度上說明相應代碼生成任務的難度。作者發現,Gemini Pro 在解的長度低于 100 時(如較容易的情況),實現了與 GPT 3.5 相當的 Pass@1 分數,但當解的長度變長時,它就會大幅落后。這與前幾節的結果形成了有趣的對比,在前幾節中,作者發現一般情況下,Gemini Pro 在英語任務中對較長的輸入和輸出都能表現穩健。

圖片

作者還在圖 16 (b) 中分析了每個解所需的庫對模型性能的影響。在大多數庫用例中,如 mock、pandas、numpy 和 datetime,Gemini Pro 的性能比 GPT 3.5 差。不過,在 matplotlib 的用例中,它的性能要優于 GPT 3.5 和 GPT 4,這表明它在通過代碼執行繪圖可視化時具有更強的能力。

最后,作者展示了幾個具體的失敗案例,在這些案例中,Gemini Pro 在代碼生成方面的表現比 GPT 3.5 差。首先,他們注意到 Gemini 在正確選擇 Python API 中的函數和參數方面略遜一籌。例如,給定以下提示:  

圖片

Gemini Pro 生成了以下代碼,結果出現了類型不匹配錯誤:   

圖片

相比之下,GPT 3.5 Turbo 使用了以下代碼,達到了預期效果:  

圖片

此外,Gemini Pro 的錯誤比例較高,在這種情況下,執行的代碼在語法上是正確的,但不能正確地與更復雜的意圖相匹配。例如,關于以下提示:   

圖片

Gemini Pro 創建了一種實現方法,只提取唯一的數字,而不刪除那些出現多次的數字。

圖片

機器翻譯

這組實驗使用 FLORES-200 機器翻譯基準評估了模型的多語言能力,特別是在各種語言對之間的翻譯能力。作者將重點放在 Robinson et al. (2023) 的分析所使用的 20 種語言的不同子集上,這些語言涵蓋不同程度的資源可用性和翻譯難度。作者對所有選定語言對的測試集中的 1012 個句子進行了評估。

在表 4 和表 5 中,作者對 Gemini Pro、GPT 3.5 Turbo 和 GPT 4 Turbo 與谷歌翻譯等成熟系統進行了比較分析。此外,他們還對 NLLB-MoE 進行了基準測試,NLLB-MoE 是領先的開源機器翻譯模型,以其廣泛的語種覆蓋而著稱。結果表明,谷歌翻譯總體上優于其他模型,在 9 種語言上表現出色;其次是 NLLB,在 0/5-shot 設置下,在 6 種 / 8 種語言上表現出色。通用語言模型顯示出具有競爭力的性能,但在翻譯成非英語語言方面尚未超越專用機器翻譯系統。

圖片

表 4:各模型使用 0-shot 提示對所有語言進行機器翻譯的性能(chRF (%) 分數)。最佳分數以粗體顯示,次佳分數以下劃線顯示。

表 5:各模型使用 5-shot 提示對所有語言進行機器翻譯的性能(chRF (%) 分數)。最佳分數以粗體顯示,次佳分數以下劃線顯示。

圖 17 顯示了通用語言模型在不同語言對中的性能比較。與 GPT 3.5 Turbo 和 Gemini Pro 相比,GPT 4 Turbo 與 NLLB 表現出一致的性能偏差。GPT 4 Turbo 在低資源語言方面也有較大改進,而在高資源語言方面,兩種 LLM 的性能相似。相比之下,在 20 種語言中的 8 種語言上,Gemini Pro 的性能優于 GPT 3.5 Turbo 和 GPT 4 Turbo,并在 4 種語言上取得了最高性能。不過,Gemini Pro 在大約 10 種語言對中表現出強烈的屏蔽響應(block response)傾向。

圖片

圖 17:按語言對劃分的機器翻譯性能(chRF (%) 分數)。

圖 18 顯示,Gemini Pro 在這些語言中的性能較低,這是因為它傾向于在置信度較低的場景中屏蔽響應。如果 Gemini Pro 在 0-shot 或 5-shot 配置中產生「Blocked Response」錯誤,則該響應被視為「屏蔽」。

圖片

圖 18:被 Gemini Pro 屏蔽的樣本數量。

仔細觀察圖 19 可以發現,Gemini Pro 在置信度較高的無屏蔽樣本中略微優于 GPT 3.5 Turbo 和 GPT 4 Turbo。具體來說,它在 5-shot 和 0-shot 設置下分別比 GPT 4 Turbo 多出 1.6 chrf 和 2.6 chrf,比 GPT 3.5 Turbo 多出 2.7 chrf 和 2 chrf。不過,作者對 GPT 4 Turbo 和 GPT 3.5 Turbo 在這些樣本上的性能進行的初步分析表明,這些樣本的翻譯通常更具挑戰性。Gemini Pro 在這些特定樣本上表現不佳,尤其明顯的是,Gemini Pro 0-shot 會屏蔽響應,而 5-shot 則不會,反之亦然。

圖片

圖 19:屏蔽和非屏蔽樣本的 chrf 性能(%)。

在對模型的整個分析過程中,作者觀察到,few-shot 提示一般都能適度提高平均性能,其 variance pattern 依次遞增:GPT 4 Turbo < GPT 3.5 Turbo < Gemini Pro。雖然 Gemini Pro 的 5-shot 提示在置信度高的語言中比 0-shot 提示有進步,但在某些語言中,如 hau_Latin,該模型的置信度明顯降低,導致應答受阻(參見表 5)。

圖 20 顯示了按語系或 script 分類的明顯趨勢。一個重要的觀察結果是,Gemini Pro 在西里爾文字上的表現與其他機型相比具有競爭力,但在其他文字上的表現卻不盡如人意。GPT-4 在各種 script 上的表現突出,優于其他模型,其中 few-shot 提示尤為有效。這種效果在使用梵文的語言中尤為明顯。

圖 20:各個模型在不同 script 上的表現 (chrf (%))。

Web 智能體

最后,作者考察了每個模型作為網絡導航智能體的能力,這是一項需要長期規劃和復雜數據理解的任務。他們使用了模擬環境 WebArena,該環境成功的標準是執行結果。賦予智能體的任務包括信息搜索、網站導航以及內容和配置操作。任務涉及各種網站,包括電子商務平臺、社交論壇、協同軟件開發平臺(如 gitlab)、內容管理系統和在線地圖。

作者測試了 Gemini-Pro 的總體成功率、不同任務的成功率、響應長度、軌跡步數以及預測任務無法完成的傾向。表 6 列出了總體性能。Gemini-Pro 的表現與 GPT-3.5-Turbo 接近,但略遜一籌。與 GPT-3.5-Turbo 類似,當提示提到任務可能無法完成時(UA hint),Gemini-Pro 的表現更好。在有 UA hint 的情況下,Gemini-Pro 的總體成功率為 7.09%。

表 6:各個模型在 WebArena 上的表現。

如果按網站類型進行細分,如圖 21 所示,可以看到 Gemini-Pro 在 gitlab 和地圖上的表現不如 GPT-3.5-Turbo,而在購物管理、reddit 和購物網站上的表現則接近 GPT-3.5-Turbo。在多站點任務上,Gemini-Pro 的表現優于 GPT-3.5-Turbo,這與之前的結果一致,即 Gemini 在各種基準的更復雜子任務上表現更好一些。


圖片

圖 21:模型在不同類型網站上的 Web 智能體成功率。

如圖 22 所示,一般來說,Gemini-Pro 把更多的任務預測為無法完成,尤其是在給出一個 UA hint 的情況下。Gemini-Pro 在給出 UA hint 的情況下,預測 80.6% 以上的任務無法完成,而 GPT-3.5-Turbo 只預測了 47.7%。需要注意的是,數據集中僅有 4.4% 的任務實際上是無法完成的,因此兩者都遠遠高估了無法完成的任務的實際數量。

圖片

圖 22:UA 預測數量。

同時,作者觀察到,Gemini Pro 更傾向于用較短的短語做出回應,在得出結論前采取較少的步驟。如圖 23 (a) 所示,Gemini Pro 有一半以上的軌跡少于 10 步,而 GPT 3.5 Turbo 和 GPT 4 Turbo 的大多數軌跡在 10 到 30 步之間。同樣,Gemini 的大部分回復長度不到 100 個字符,而 GPT 3.5 Turbo、GPT 4 Turbo 和 Mixtral 的大部分回復長度超過 300 個字符(圖 23 (b))。Gemini 傾向于直接預測行動,而其他模型則會先進行推理,然后給出行動預測。

圖片

圖 23:模型在 WebArena 上的行為。

更多細節請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2023-12-24 13:56:37

2024-05-20 07:50:00

谷歌模型

2025-02-14 08:00:00

人工智能Gemini 2.0LLM

2024-05-20 15:40:00

AI數學

2024-08-02 14:58:00

2024-04-25 08:57:04

2023-12-22 12:41:01

模型訓練

2024-03-08 14:18:04

谷歌GPT3.5Gemini Pro

2025-06-17 08:40:44

2024-01-02 14:07:00

2023-07-10 15:22:29

OpenAIGPT-3.5

2024-02-27 11:46:40

2023-12-14 13:04:00

訓練數據

2023-03-02 22:46:48

2025-11-19 08:10:51

2025-08-19 08:08:05

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-12-08 08:10:34

谷歌GeminiOpenAI

2025-11-21 09:09:22

點贊
收藏

51CTO技術棧公眾號

久久亚洲精品毛片| 亚洲综合色噜噜狠狠| 免费高清在线视频一区·| 一级做a爱片久久| 九9re精品视频在线观看re6| 国产又粗又猛又黄视频| 99视频精品全部免费在线视频| 欧美成人性战久久| av无码精品一区二区三区| 超碰在线无需免费| 久久先锋影音av鲁色资源 | 国产乱叫456在线| 国产永久免费视频| 欧洲激情综合| 精品少妇一区二区| 成人性生生活性生交12| 18加网站在线| 国产视频一区二区三区在线观看| 91久久爱成人| 瑟瑟视频在线免费观看| 激情国产一区| 久久久精品美女| 蜜桃无码一区二区三区| а√中文在线天堂精品| 欧美日韩二区三区| 久久国产乱子伦免费精品| 在线看福利影| 国产精品久久久久久久久免费相片| 国产一区在线免费观看| a在线观看免费| 免费xxxx性欧美18vr| 欧洲成人免费视频| 日本少妇性生活| 午夜欧美精品| 美日韩精品免费视频| 99久久精品免费视频| 久久中文资源| 亚洲国产91色在线| 苍井空张开腿实干12次| 福利一区三区| 欧美日韩电影一区| 中文字幕在线观看第三页| 国产一二三在线| 亚洲成人av电影在线| 在线观看17c| 国产三区视频在线观看| 国产精品国产三级国产三级人妇| 日韩福利一区二区三区| 欧美日韩国产综合视频| 91美女精品福利| 久久久一本精品99久久精品| 午夜国产在线观看| www.亚洲激情.com| 国产三级精品在线不卡| 亚洲精品一区二区口爆| 国产成人综合精品三级| 91入口在线观看| 精品人妻无码一区二区色欲产成人| 国产综合久久久久久鬼色| 国产欧美韩国高清| 91av久久久| 国产在线精品一区二区夜色| 成人欧美在线视频| 97精品人妻一区二区三区在线| 日av在线不卡| 国产色综合天天综合网| 中文字幕永久免费视频| 精品中文字幕一区二区小辣椒| 国产精品爱久久久久久久| 天堂av免费在线观看| 国产精品特级毛片一区二区三区| 中文字幕日韩高清在线| 日韩视频在线你懂得| 潘金莲一级淫片aaaaaaa| 天堂精品在线视频| 精品日韩99亚洲| 久久午夜夜伦鲁鲁片| 亚洲尤物av| 中文字幕欧美在线| 欧美激情精品久久久久久免费| 国产精品国内免费一区二区三区| 美女扒开尿口让男人操亚洲视频网站| 日本天堂中文字幕| 亚洲精品免费观看| 国产成人精品久久亚洲高清不卡| 91av久久久| 不卡的av在线| 亚洲国产精品日韩| 天堂av最新在线| 狠狠做深爱婷婷久久综合一区 | 欧美成人黑人| 欧美高清一级片在线| 无码av免费精品一区二区三区| 外国成人在线视频| www国产亚洲精品久久网站| 精品无码人妻一区二区三| 久久激情久久| 亚洲永久免费观看| 肉丝一区二区| 一级日本不卡的影视| 日本不卡在线观看视频| 色综合视频一区二区三区44| 精品日韩成人av| 羞羞在线观看视频| 在线亚洲自拍| 91手机视频在线观看| 深夜视频在线免费| 亚洲欧美日韩国产另类专区| 岳毛多又紧做起爽| 无人区乱码一区二区三区| 亚洲性猛交xxxxwww| 欧美另类视频在线观看| 日本伊人色综合网| 国产二区不卡| 成人av福利| 久久男人av| 色婷婷久久久综合中文字幕| 日本美女久久久| 国产日产一区| 亚州成人av在线| 国产精品久久无码一三区| 99v久久综合狠狠综合久久| 国产树林野战在线播放| 日韩三区免费| 亚洲精品有码在线| 国产精品日日夜夜| 国产精品影音先锋| 亚洲 国产 欧美一区| 在线免费看h| 欧美精品一区二区三区一线天视频| 久久一级免费视频| 久久国产精品亚洲77777| 鬼打鬼之黄金道士1992林正英| 69久久夜色| 91国产丝袜在线播放| 在线观看国产免费视频| 欧美视频官网| 超碰97在线人人| 超碰最新在线| 91精品国产福利在线观看 | 伊人久久大香线蕉| 午夜精品久久17c| 高清国产mv在线观看| 一区二区三区四区不卡在线| 日韩av.com| 欧美疯狂party性派对| 国产精品免费网站| 91精品国产91久久久久游泳池| 色婷婷av一区二区三区之一色屋| 国产一级二级在线观看| 99国产精品久久久久久久| 国产精品二区在线观看| 毛片在线导航| 亚洲黄色有码视频| 亚洲精品国产精品乱码| k8久久久一区二区三区| 99热自拍偷拍| 亚洲三级性片| 国产精品日韩在线一区| 性开放的欧美大片| 91精品久久久久久久久99蜜臂| 伊人久久久久久久久久久久久久| 精品一区二区av| 99亚洲国产精品| 一区二区在线视频观看| 首页综合国产亚洲丝袜| 5566日本婷婷色中文字幕97| 亚洲 欧美 精品| 色综合久久天天| 精品日韩在线视频| 国产精品自拍毛片| 国产精品国产亚洲精品看不卡| 欧美影院天天5g天天爽| 国产精品久久99久久| 欧美日韩在线资源| 精品少妇一区二区三区| av网站中文字幕| 国产精品女上位| 99久久综合网| 免播放器亚洲| www.午夜色| 成午夜精品一区二区三区软件| 2020国产精品视频| 97视频精彩视频在线观看| 日韩一级在线观看| 五月婷婷中文字幕| 亚洲欧洲av在线| 日本少妇xxxx| 人人精品人人爱| www.九色.com| 精品国产91久久久久久浪潮蜜月| 成人情趣片在线观看免费| 91色在线看| 最新69国产成人精品视频免费| www.香蕉视频| 欧美一a一片一级一片| 麻豆亚洲av成人无码久久精品| 99久久精品国产观看| 伊人网在线综合| 国产亚洲网站| 国内精品国产三级国产99| 伊人久久大香线蕉av不卡| 91亚洲va在线va天堂va国| 亚洲天堂av影院| 欧美精品一区二区久久| 日韩美女av在线免费观看| av免费在线免费| 亚洲视频欧洲视频| 亚洲av综合色区无码一二三区| 日本黄色一区二区| 妺妺窝人体色www聚色窝仙踪| 国产日韩欧美综合在线| 911亚洲精选| 看国产成人h片视频| 久久久免费视频网站| 一区二区三区中文| 日韩免费中文专区| 国产丝袜一区| 97netav| 欧美xxxx性| 国产91亚洲精品| 美女网站在线看| 欧美国产视频日韩| 嫩草香蕉在线91一二三区| 亚洲男人天堂2019| 深爱激情五月婷婷| 日韩精品一区二区三区视频在线观看| 精品国产青草久久久久96| 精品欧美国产一区二区三区| 国产高清在线免费观看| 中文字幕亚洲精品在线观看| 蜜桃av乱码一区二区三区| 久久综合九色欧美综合狠狠| 国模无码视频一区| 国产成人精品亚洲777人妖 | 亚洲av无码国产精品永久一区| 在线欧美日韩国产| 久久黄色精品视频| 亚洲成人av资源| 国产精品99精品无码视| 樱花影视一区二区| 欧美三级日本三级| 亚洲激情自拍视频| 欧美成人三级视频| 亚洲人成网站在线| 天天综合天天做| 一区二区三区精品| 久青草免费视频| 亚洲一区二区精品视频| 精品人妻在线播放| 亚洲成av人影院| 国产精品 欧美 日韩| 午夜视频一区在线观看| aaa人片在线| 色婷婷狠狠综合| 久草热在线观看| 欧美日韩aaaaaa| 国产老女人乱淫免费| 日韩欧美亚洲另类制服综合在线| 99精品视频免费看| 精品国产一区久久| 污污视频在线免费看| 精品性高朝久久久久久久| 男人天堂亚洲二区| 亚洲人成欧美中文字幕| 瑟瑟视频在线| 欧美成人精品xxx| 不卡的av影片| 日韩av电影在线网| 国产激情欧美| 亚洲综合最新在线| 日本精品影院| 日韩在线导航| 亚洲自拍偷拍网| 你真棒插曲来救救我在线观看| 美女网站久久| 99视频在线观看视频| 成人听书哪个软件好| 美女100%无挡| 亚洲人精品一区| 日本网站在线播放| 欧美色网站导航| 亚洲第一页综合| 亚洲一区av在线播放| 成人免费在线| 欧美与欧洲交xxxx免费观看| 久久99久久久精品欧美| 高清视频在线观看一区| 欧美一级精品| www在线观看免费| 久久精品国产免费| 国产情侣久久久久aⅴ免费| 国产亚洲美州欧州综合国| 91porn在线视频| 色一区在线观看| 亚洲高清视频在线播放| 亚洲色图激情小说| 在线欧美三级| 国产乱肥老妇国产一区二| jizzjizzjizz欧美| 亚洲精品美女久久7777777| 黄色亚洲免费| 欧美激情第3页| 91欧美激情一区二区三区成人| 欧美性生给视频| 在线一区二区视频| 二区三区在线视频| 久久精彩免费视频| 欧美成a人片在线观看久| 国产自产精品| 欧美.www| 色天使在线观看| 国产无一区二区| 天天操天天射天天爽| 在线播放国产精品二区一二区四区| 偷拍自拍在线| 久久男人的天堂| 日本一区二区乱| 尤物国产精品| 视频一区在线视频| 粉嫩av懂色av蜜臀av分享| 综合久久久久综合| 最近中文字幕免费观看| 日韩av在线一区| 黄色影院在线看| 亚洲iv一区二区三区| 日韩成人综合| 538在线视频观看| 91色.com| 特级做a爱片免费69| 亚洲国产日韩欧美综合久久| 羞羞电影在线观看www| 成人免费网站在线观看| 日韩av密桃| 亚洲一区在线不卡| 国产三级精品在线| 免费黄色小视频在线观看| 亚洲免费人成在线视频观看| 色多多在线观看| 精品伊人久久大线蕉色首页| 亚洲午夜久久久久久尤物| 老女人性生活视频| 亚洲欧美国产毛片在线| 国产精品伦一区二区三区| 少妇精69xxtheporn| 国产精品高潮久久| 亚洲欧美丝袜| 理论片日本一区| 女性裸体视频网站| 欧美巨大另类极品videosbest | 国自产拍偷拍福利精品免费一 | 91精品啪在线观看国产爱臀 | 欧洲精品久久| 久久最新视频| 欧美激情亚洲色图| 欧美视频精品在线| 精品自拍一区| 97超碰人人看人人 | 亚洲欧美在线视频观看| 国产精品久久免费| 欧美高清视频一区二区| 露出调教综合另类| 日韩精品一区二区三区不卡 | 国产视频在线观看一区二区| 筱崎爱全乳无删减在线观看| 欧美亚洲爱爱另类综合| 日本欧美加勒比视频| 五月天免费网站| 日韩亚洲欧美在线观看| caoporn-草棚在线视频最| 开心色怡人综合网站| 美女在线视频一区| 久久久久成人片免费观看蜜芽| 亚洲国产成人av在线| 电影亚洲精品噜噜在线观看| 正义之心1992免费观看全集完整版| 韩国欧美国产1区| 国产系列精品av| 亚洲偷欧美偷国内偷| 成人黄色理论片| 日韩中字在线观看| 国产三级一区二区三区| 国产成人精品毛片| 欧美一级大胆视频| 欧美电影三区| 风间由美一二三区av片| 欧美美女直播网站| 久草在线资源福利站| 亚洲精品9999| 成人一区二区三区| 成人午夜精品视频| 欧美激情精品久久久久久黑人| 亚洲三级性片| 久久无码人妻一区二区三区| 欧美日韩在线一区| 最新国产在线拍揄自揄视频| 欧美日韩一区在线观看视频| 国产乱子轮精品视频| 久久久精品毛片| 欧美激情乱人伦一区|