精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

CMU權威對比Gemini,GPT-3和Mistral8×7B!GPT-3.5依舊拿捏Gemini,開源模型差距依然不小

人工智能 新聞
谷歌發布Gemini以后,一直宣稱Gemini Pro要優于GPT-3.5,而CMU的研究人員通過自己實測,給大家來了一個客觀中立第三方的對比。結果卻是GPT-3.5幾乎還是全面優于Gemini Pro,不過雙方差距不大。

谷歌最近發布的Gemini掀起了不小的波瀾。

畢竟,大語言模型領域幾乎是OpenAI的GPT一家獨大的局面。

不過作為吃瓜群眾,當然希望科技公司都卷起來,大模型都打起來!

所以,作為科技巨無霸谷歌的親兒子,Gemini自然承受了很高的期待。

雖然Gemini發布之后發生了一些奇奇怪怪的事情吧,什么視頻造假啦,認為自己是文心一言啦。

不過問題不大,咱們不看廣告看療效。

最近在CMU,研究人員進行了一組公正、深入和可重復的實驗測試,重點比較了Gemini和GPT在各項任務中的優劣,另外還加入了開源的競爭對手Mixtral。

論文地址:https://arxiv.org/abs/2312.11444

代碼地址:https://github.com/neulab/gemini-benchmark

研究人員在論文中對Google Gemini的語言能力進行了深入地探索,

從第三方的角度,對OpenAI GPT和Google Gemini模型的能力進行了客觀比較,公開了代碼和比較結果。

我們可以從中發現兩個模型分別擅長的領域。

研究人員比較了6種不同任務的準確性:

- 基于知識的QA(MMLU)

- 推理(BIG-Bench Hard)

- 數學(GSM8k、SVAMP、ASDIV、MAWPS)

- 代碼生成(HumanEval,ODEX)

- 翻譯 (FLORES)

- Web指令跟蹤(WebArena)

為了公平起見,實驗中嘗試控制所有變量,對所有模型使用相同的提示、生成參數和評估。

評測中使用了LiteLLM以統一的方式查詢模型,使用try_zeno做全面深入的分析。

測試模型

研究比較了Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo以及Mixtral,指出了他們在能力上的不同。

特點:Gemini Pro是多模態的,通過視頻、文本和圖像進行訓練。GPT-3.5 Turbo和GPT-4 Turbo則主要基于文本訓練,其中GPT-4 Turbo是多模態的。

測試復現方法

更方便的復現方法:點擊下文測試任務的鏈接即可進入CMU集成好的基于Zeno的AI評估平臺進行驗證

圖片

GitHub鏈接:

https://github.com/neulab/gemini-benchmark]

具體測試任務

基于知識的問答(Knowledge-based QA)

基于UC伯克利2020年提出的MMLU(Massive Multitask Language Understanding)大模型評測進行評測

該測試涵蓋57項任務,包括初等數學、美國歷史、計算機科學、法律等。任務涵蓋的知識很廣泛,語言是英文,用以評測大模型基本的知識覆蓋范圍和理解能力。

用5-shot和思維鏈提示詞的MMLU任務總體準確率如下圖,Gemini Pro均略微落后GPT-3.5 Turbo

文章也指出使用思維鏈提示的性能差異不大,可能是因為 MMLU 主要是基于知識的問答任務,可能不會從更強的面向推理的提示中顯著受益。

下圖顯示Gemini-pro、gpt3.5-turbo、gpt-4-turbo對于多選題答案輸出的比例,結果顯示Gemini-pro、gpt3.5-turbo都有一些答案偏見,尤其Gemini-pro十分偏向D選項

表明 Gemini 尚未針對解決多選題問題,進行大量指令調整,這可能導致模型在答案排序方面存在偏差

圖片

MMLU的57個子任務中只有兩項Gemini-pro超過GPT3.5-turbo。

下圖顯示gpt3.5最領先Gemini-pro的前四個任務的準確性,和Gemini-pro超過gpt3.5的兩個任務

圖片

通用推理(General-purpose Reasoning)

基于BBH(BIG-Bench Harch)這一通用推理數據集進行測試,其中包括算術、符號和多語言推理以及事實只是理解任務。

首先,從如下總體精度圖中可以看到Gemini Pro實現的精度略低于GPT 3.5 Turbo,并且遠低于GPT 4 Turbo。相比之下,Mixtral 模型的精度要低得多。

圖片

接下來進行一些細節分析,首先根據問題的長度測試一下準確性,結果如下圖。

圖片

作者發現Gemini Pro在更長、更復雜的問題上表現不佳,而GPT模型對此更穩健。

GPT-4 Turbo的情況尤其如此,即使在較長的問題上,它也幾乎沒有表現出性能下降,這表明它具有強大能力來理解更長和更復雜的查詢。

GPT-3.5 Turbo的穩健性處于中間位置。Mixtral在問題長度方面特別穩定,但總體準確率較低。

下圖再具體列出了GPT-3.5 Turbo表現優于Gemini Pro最多的任務。

圖片

Gemini Pro在tracking_shuffled_objects任務上表現很糟糕

在某些任務中,即multistep_arithmetic_two、salient_translation_error_detection、snarks、disambiguition_qa和兩個tracking_shuffled_objects任務中,Gemini Pro的表現甚至比Mixtral模型還要差。

當然,有一些任務Gemini Pro優于GPT3.5。

下圖顯示了 Gemini Pro 比 GPT 3.5 Turbo 表現優秀的六項任務。這些任務需要世界知識(sports_understanding)、操作符號堆棧(dyck_languages)、按字母順序排序單詞(word_sorting)和解析表(penguins_in_a_table)等。

圖片

文章在此部分最后表示,對于通用推理任務,似乎沒有Gemini和GPT都沒有絕對優勢,所以可以都嘗試一下

數學問題

基于四個數學應用題評測進行:

    - GSM8K,小學數學基準

    - SVAMP 數據集,通過不同的詞序生成問題來檢查穩健的推理能力,

    - ASDIV 數據集,具有不同的語言模式和問題類型 

    - MAWPS 基準,由算術和代數應用題組成。

下圖顯示四項數學推理任務的總體準確性

圖片

從圖中可以看出,在 GSM8K、SVAMP 和 ASDIV 任務上,Gemini Pro的精度略低于 GPT-3.5 Turbo,并且遠低于 GPT-4 Turbo,這些任務都包含多樣化的語言模式。

對于 MAWPS 任務,所有模型都達到了 90% 以上的準確率,盡管 Gemini Pro 仍然比GPT模型稍差。

有趣的是,在此任務中,GPT-3.5 Turbo的表現以微弱優勢勝過GPT-4 Turbo。

相比之下,Mixtral模型的準確率比其他模型要低得多。

和之前在BBH上的推理任務一樣,我們可以看到較長任務推理性能會下降。

并且和以前一樣,GPT 3.5 Turbo 在較短的問題上優于 Gemini Pro,但下降得更快,Gemini Pro 在較長的問題上實現了類似(但仍稍差)的準確度。

不過在思維鏈(CoT)長度超過100的最復雜例子中,Gemini Pro優于GPT 3.5 Turbo,但在較短示例中表現不佳。

圖片

最后,文章研究了比較模型在生成不同位數答案時的準確性。

根據答案中的位數創建三個類別,一位數、兩位數、三位數答案(MAWPS 任務除外,其答案不超過兩位數)。

如下圖所示,GPT-3.5 Turbo似乎對于多位數數學問題更加穩健,而Gemini Pro在位數較多的問題上性能下降更多。

圖片

代碼生成

在此類別中,文章使用兩個代碼生成數據集HumanEval和ODEX檢查模型的編碼能力。

前者測試對Python標準庫中一組有限函數的基本代碼理解。

后者測試使用整個Python生態系統中更廣泛的庫的能力。

它們都將人工編寫的英語任務描述(通常帶有測試用例)作為輸入。這些問題用來評估對語言、算法和初等數學的理解。

總體而言,HumanEval有164個測試樣本,ODEX有439個測試樣本。

代碼生成的總體情況如下圖:

Gemini Pro在兩項任務上的Pass@1 成績都低于GPT-3.5 Turbo,遠低于GPT-4 Turbo。

圖片

接下來,分析最佳解決方案長度與模型性能之前的關系,因為解決方案長度可以一定程度上表明相應代碼生成的任務的難度。

本文發現,當解決方案長度低于100(即代表處理簡單問題)時,Gemini Pro 可以達到與 GPT-3.5 相當的 Pass@1,但當解決方案變得更長(即處理更難的問題時)時,它會大幅落后。

圖片

文章還分析了每個解決方案所需的庫如何影響模型性能,結果如下圖顯示:

根據結果分析,在大多數使用庫的情況下,例如mock、pandas、numpy和datetime,Gemini Pro的表現比GPT-3.5差。

然而,它在 matplotlib 情況下優于 GPT-3.5 和 GPT-4,在通過代碼執行繪圖可視化時顯示出更強的功能。

圖片

下面展示幾個具體的失敗案例:

首先, Gemini在從Python API中正確選擇函數和參數方面稍差一些

比如,當你給出如下指令時

def f_3283984():
  """decode a hex string '4a4b4c' to UTF-8."""

Gemini Pro 生成以下代碼,導致類型不匹配錯誤。

bytes(bytearray.fromhex('4a4b4c'), 'utf-8')

相比之下,GPT 3.5 Turbo 使用以下代碼,達到了預期的結果:

hex_string = '4a4b4c'
decoded_string = bytes.fromhex(hex_string).decode('utf-8')
return decoded_string

此外,Gemini Pro的錯誤比例較高,所實現的代碼在語法上是正確的,但與復雜的意圖不正確匹配。

例如,對于以下指令

from typing import List
def remove_duplicates(numbers: List[int]) -> List[int]:
  """From a list of integers, remove all elements that occur more than once.
  Keep order of elements left the same as in the input.
  >>> remove_duplicates([1, 2, 3, 2, 4])
  [1, 3, 4]
  """

Gemini Pro 給的代碼,只提取唯一的數字,而不刪除那些出現多次的數字。

seen_numbers = set()
unique_numbers = []
for number in numbers:
  if number not in seen_numbers:
    unique_numbers.append(number)
    seen_numbers.add(number)
return unique_numbers

機器翻譯(Machine Translation)

基于FLORES-200 機器翻譯基準評估模型的多語言能力,特別是在各種語言對之間翻譯的能力。

針對所有選定的語言對,對測試集中的1012個句子進行評估。作為這項研究的第一步,本文將范圍限制為僅從英語到其他語言(ENG→X)的翻譯。

結果顯示如下圖,Gemini Pro在翻譯任務上,總體優于其他模型,在 20 種語言中的 8 種語言上均優于 GPT-3.5 Turbo 和 GPT-4 Turbo,并在4種語言上取得了最高性能。

圖片

雖然在非英語語言翻譯方面尚未超越專用機器翻譯系統,但通用語言模型也顯示出了強競爭力的性能

零樣本提示和5樣本提示Gemini Pro在翻譯任務上均優于其他模型

圖片

網頁代理(Web Agents)

最后,本文驗證每個模型充當網絡導航代理(web navigation agent)的能力,這是一項需要長期規劃和復雜數據理解的任務。

使用 WebArena ,這是一個基于命令執行的模擬環境,其中成功標準基于執行結果。分配給代理的任務包括信息查找、站點導航以及內容和配置操作。

這些任務跨越各種網站,包括電子商務平臺、社交論壇、協作軟件開發平臺(例如 gitlab)、內容管理系統和在線地圖。

如下圖文章從總體結果可以看出,Gemini-Pro 的性能與 GPT-3.5-Turbo 相當,但稍差。

圖片

與 GPT-3.5-Turbo 類似,當Prompts提到任務可能無法完成時(UA 提示),Gemini-Pro 的表現會更好。通過 UA 提示,Gemini-Pro 的總體成功率達到 7.09%。

之后文章又按照網絡進行細分,如下圖,可以看到 Gemini-Pro 在 gitlab 和地圖上的表現比 GPT-3.5-Turbo 差,而在購物管理、reddit 和 Shopping 上則接近 GPT-3.5-Turbo 。它在多站點任務上的表現比 GPT-3.5-Turbo 更好。

圖片

測試結果總覽

在本文中,作者對 Google 的 Gemini 模型進行了第一次公正、深入的研究,并將其與 OpenAI 的 GPT 3.5 和 4 模型以及開源 Mixtral 模型進行了比較。

CMU評測的主要結果展示,黑色粗體表示最佳模型,下劃線為第二

在最后,作者疊了一些甲:

指出他們工作是針對不斷變化且不穩定的API,所有結果均為截至 2023 年 12 月 19 日撰寫本文時的最新結果,但隨著模型和周圍系統的升級,未來可能會發生變化。

結果可能取決于其選擇的特定提示和生成參數

 作者測試時沒有像谷歌意義使用多個樣本和自我一致性(self-consistency),不過作者認為對不同模型使用一致的prompts的多項任務上進行的測試,恰恰可以合理地展示被測模型的穩健性和廣義指令的遵循能力

作者指出數據泄露對當前大模型評測任務的困擾,雖然他們沒有明確測量這種泄露,但他們也嘗試過各種方法來緩解這個問題

在展望中,作者也提出建議,希望大家在使用Gemini Pro之前,根據這篇論文,自己評估Gemini Pro是否如宣傳所說與GPT 3.5 Turbo相媲美。作者也表示Gemini的Ultra版本尚未發布,等其發布后也會驗證其是否如報道所說與GPT4相當。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-12-20 22:17:19

GeminiGPT-3.5谷歌

2023-12-20 15:32:02

模型數據

2021-03-23 15:21:00

人工智能機器學習技術

2024-03-25 08:00:00

2021-07-19 10:56:36

GPE-3OpenAI微軟

2024-02-07 12:39:00

AI數據

2024-03-18 07:01:42

2023-03-01 16:15:16

2025-10-13 15:52:11

AI論文模型

2024-01-02 14:07:00

2023-12-14 13:04:00

訓練數據

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2025-11-19 08:10:51

2023-09-25 09:58:25

AI框架

2023-06-21 13:37:41

模型研究

2023-07-22 13:09:51

模型開源

2023-04-28 09:07:28

2023-09-06 16:44:03

2023-10-16 13:28:00

數據AI

2024-07-19 09:26:12

點贊
收藏

51CTO技術棧公眾號

精品国产91久久久久久浪潮蜜月| 黄色视屏在线免费观看| 国产在线播放一区三区四| 大胆欧美人体视频| 日韩无码精品一区二区| 在线免费三级电影网站| 中文字幕第一区第二区| 亚洲自拍偷拍在线| 国产又黄又粗又爽| 国产韩日影视精品| 日韩国产欧美精品在线| 亚欧激情乱码久久久久久久久| av在线免费网站| 久久色中文字幕| 91在线免费看网站| 日韩视频在线观看一区| 亚洲一级淫片| 一区二区三区四区精品| 97中文字幕在线观看| 国产精品久久久久久妇女| 亚洲一级二级三级| 日韩在线观看电影完整版高清免费| 国产探花精品一区二区| 免费亚洲一区| 久久全国免费视频| 美女视频久久久| 九九久久精品| 亚洲国产精久久久久久久| 男生操女生视频在线观看| 成人免费看视频网站| 一区二区三区欧美| 一区二区精品在线| 国产在线视频网址| 97久久精品人人澡人人爽| 91成人免费观看| 亚洲天堂中文网| 丝袜国产日韩另类美女| 97免费视频在线播放| 2021亚洲天堂| 亚洲乱码精品| 久久久国产精品x99av | 国产成人亚洲综合无码| 69av亚洲| 国产精品日日摸夜夜摸av| 欧美13一14另类| 午夜在线视频观看| 不卡一区二区三区四区| 国产精品视频免费一区| 亚洲第一天堂网| 国产成人免费视频网站高清观看视频 | 国产精品xx| 亚洲国产日韩一级| 男女日批视频在线观看| 牛牛电影国产一区二区| 一区二区三区在线观看动漫| 热久久最新网址| av软件在线观看| 亚洲猫色日本管| 一二三四中文字幕| 国产蜜臀av在线播放| 亚洲永久精品大片| 一本久道高清无码视频| 国产在线精彩视频| 欧美日韩免费区域视频在线观看| 伊人成色综合网| 中文字幕在线直播| 在线免费观看日韩欧美| 色综合色综合色综合色综合| 欧美国产视频| 欧美一级欧美一级在线播放| 中文字幕视频观看| 亚洲人成网亚洲欧洲无码| 亚洲美女av在线播放| 公肉吊粗大爽色翁浪妇视频| 日韩黄色大片| 欧美另类99xxxxx| 欧美久久久久久久久久久久| 精品1区2区3区4区| 欧美在线视频一区| 国产污视频在线看| 性高湖久久久久久久久| 国产精品久久色| 国产三区在线播放| www.亚洲色图| 日韩欧美视频第二区| 精品国产99久久久久久| 午夜精品aaa| 好男人www社区| 国产美女亚洲精品7777| 亚洲国产一区自拍| 性欧美精品中出| **女人18毛片一区二区| 久久91亚洲精品中文字幕| 久久这里只有精品国产| 亚洲欧美日韩视频二区| 91久久综合亚洲鲁鲁五月天| 亚洲伦理在线观看| 国产亚洲精品精华液| 91手机视频在线| 国产夫妻在线播放| 欧美美女网站色| 日韩成人av一区二区| 99久久影视| 91精品国产乱码久久久久久蜜臀| 日韩欧美一级大片| 成人黄色av电影| 亚洲欧洲国产精品久久| sqte在线播放| 在线观看视频一区二区| 亚洲av无码成人精品区| 亚洲制服欧美另类| 欧美极品美女视频网站在线观看免费 | 国产美女高潮久久白浆| 欧美 日韩 国产 成人 在线| 国产精品色噜噜| 国产中文字幕二区| 国产高清日韩| 伊人久久男人天堂| 久久高清免费视频| 久久精品72免费观看| 久久精品二区| 污视频网站在线免费| 欧美视频三区在线播放| 亚洲熟女一区二区| 亚洲精品电影| 国产精品网红福利| 人成免费电影一二三区在线观看| 一个色综合av| 午夜视频在线网站| 日本一区二区在线看| 18性欧美xxxⅹ性满足| 国产黄色小视频在线观看| 中文字幕免费在线观看视频一区| 精品欧美一区免费观看α√| av男人一区| 欧美大片免费观看| 99久久国产热无码精品免费| 国产精品网站在线播放| 国产日韩成人内射视频| 四虎5151久久欧美毛片| 久久久久久久999| aaa一区二区三区| 亚洲欧美怡红院| 在线观看免费不卡av| 日韩精品免费一区二区在线观看| 欧美整片在线观看| 亚洲色偷精品一区二区三区| 亚洲成人动漫av| 手机免费看av片| 99综合精品| 久久一区二区三区欧美亚洲| 国产直播在线| 亚洲女人天堂av| 中文字幕手机在线视频| 97精品视频在线观看自产线路二| 青青青免费在线| 偷拍自拍亚洲色图| 欧美有码在线观看视频| 黄色软件在线| 欧美色图12p| 亚洲一区电影在线观看| 国产真实乱对白精彩久久| 日本黄xxxxxxxxx100| 中文无码日韩欧| 亚州国产精品久久久| 无码国产精品96久久久久| 午夜成人免费视频| www.色多多| 日本va欧美va欧美va精品| 亚洲国产精品一区二区第一页 | 黄色av一区| 韩国精品一区二区三区六区色诱| 俄罗斯一级**毛片在线播放| 亚洲第一天堂无码专区| 久草手机在线视频| 国产欧美日韩在线视频| 午夜激情影院在线观看| 欧美日韩国产高清| 精品国产一区二区三区四区精华| 国偷自产一区二区免费视频| 最好看的2019年中文视频| 国产精品热久久| 午夜国产精品一区| 少妇愉情理伦三级| 粉嫩高潮美女一区二区三区 | 免费观看成人鲁鲁鲁鲁鲁视频| 中文字幕剧情在线观看一区| 亚洲超碰在线观看| 青青草原一区二区| 麻豆网站视频在线观看| 精品日韩99亚洲| 国产一级淫片a视频免费观看| 国产精品久线观看视频| 亚洲精品成人无码毛片| 久久婷婷亚洲| 特级西西444| 久久99高清| 91影视免费在线观看| 在线视频超级| 久久成人av网站| 人人九九精品| 日韩免费在线观看| 手机看片久久久| 亚洲欧美日韩一区| 欧美 变态 另类 人妖| 蜜乳av一区二区| 国产视频一视频二| 亚洲精品2区| 日韩电影天堂视频一区二区| 亚洲视频一起| 国产精品福利在线| 黑人另类精品××××性爽| 亚洲午夜激情免费视频| 亚洲高清在线观看视频| 在线免费观看日本欧美| 国产亚洲精品久久久久久无几年桃 | 国产精品热视频| 丰满诱人av在线播放| 日韩亚洲成人av在线| 涩涩视频在线观看免费| 4438亚洲最大| 亚洲精品一区二三区| 午夜视频一区二区三区| 黄色免费一级视频| 久久综合色8888| 久久久无码人妻精品无码| 美女网站一区二区| 久久人妻精品白浆国产| 亚洲福利一区| 国产在线无码精品| 狠狠做深爱婷婷综合一区| 国产精品毛片va一区二区三区| 另类一区二区三区| 日本在线观看天堂男亚洲| av资源中文在线天堂| 久久69精品久久久久久久电影好 | 久久影院午夜论| www.四虎精品| 国产精品一二一区| 污视频网址在线观看| 日韩精品色哟哟| 国产淫片免费看| 亚洲黑丝一区二区| 欧美久久在线观看| 精品动漫3d一区二区三区免费版 | 成人自拍爱视频| 国产亚洲观看| 亚洲一区二区久久久久久| 丁香婷婷久久| 国产精品欧美一区二区| 美女网站视频一区| 国产精品av网站| 免费观看一级欧美片| 日本精品一区二区三区在线播放视频| 91高清视频在线观看| 性欧美xxxx交| 蜜桃av.网站在线观看| 午夜精品一区二区三区在线| heyzo高清中文字幕在线| 性欧美办公室18xxxxhd| av漫画网站在线观看| 97久久久免费福利网址| 中国色在线日|韩| 日韩av色在线| 激情亚洲小说| 91色视频在线观看| 91精品日本| 精品国产乱码久久久久久88av| 女人抽搐喷水高潮国产精品| 久久综合狠狠综合久久综青草| 亚洲综合图色| 亚洲一区二区在| 中文字幕av亚洲精品一部二部| 天天想你在线观看完整版电影免费| 欧美日韩hd| 亚洲午夜精品久久久久久人妖| 久久激情久久| 欧美一级特黄aaa| 懂色av一区二区三区免费观看| 熟妇高潮一区二区| 久久这里只有精品视频网| 精品人妻一区二区三区四区| 国产精品国产三级国产普通话三级 | 成人在线看视频| 精东粉嫩av免费一区二区三区| 伊人精品视频在线观看| 成人午夜av在线| 摸摸摸bbb毛毛毛片| 亚洲天堂中文字幕| 日韩av在线播| 欧美日韩情趣电影| www.五月激情| 亚洲天堂影视av| 手机电影在线观看| 国产成人精品免费视频| 精品国产一级| 玛丽玛丽电影原版免费观看1977| 日本一区二区三区视频| 日韩xxxx视频| 美国一区二区三区在线播放| 男男一级淫片免费播放| 日本一区二区动态图| 国产一级视频在线| 欧美性欧美巨大黑白大战| 丰满人妻一区二区三区无码av| 亚洲视频第一页| 色爱综合区网| 国产精品第100页| 国产成人一二| 中文字幕日韩精品久久| 久久一本综合频道| 99免费观看视频| 亚洲色欲色欲www| 日本免费精品视频| 亚洲国产成人91精品| 毛片在线播放a| 国产精品久久久久久影视| 欧美精品中文字幕亚洲专区| 欧美与动交zoz0z| 日韩电影在线一区| 久久久久9999| 亚洲在线视频网站| av网站免费播放| 中文字幕在线精品| 91精品韩国| 欧美久久久久久一卡四| 亚洲网站在线| 真实乱偷全部视频| 国产精品乱码一区二区三区软件| 草久视频在线观看| 精品久久免费看| 中文字幕伦理免费在线视频| 国产日本欧美一区二区三区在线| 国产精品午夜一区二区三区| 青青草成人免费在线视频| 国产精品一区二区久激情瑜伽| 国产亚洲精品精品精品| 在线亚洲一区观看| 日韩二区三区| 欧美综合第一页| 日韩伦理一区二区三区| 极品粉嫩国产18尤物| 成人免费精品视频| 欧美精品入口蜜桃| 精品久久久久久久久久久院品网 | 欧美综合视频在线| 久久久视频免费观看| 2020国产精品极品色在线观看| 影音先锋成人资源网站| 国精品**一区二区三区在线蜜桃| 殴美一级黄色片| 欧美美女直播网站| av黄色在线| 99久久精品免费看国产四区 | 日本成人在线免费视频| 久久色.com| 亚洲视屏在线观看| 日韩在线中文视频| 99综合久久| 国产aaa免费视频| 99国产精品久久久久久久久久| 成人午夜淫片100集| 亚洲人成网站777色婷婷| 欧美日韩大片| 亚洲精品一区二区三区av| 久久国产婷婷国产香蕉| 国产色无码精品视频国产| 日韩免费视频一区二区| 神马久久午夜| 日韩欧美一区二区在线观看 | 日韩免费啪啪| av资源一区二区| 一本色道久久综合亚洲精品高清 | 日本波多野结衣在线| 欧美中文在线视频| 久久免费精品视频在这里| 青青草原播放器| 五月综合激情日本mⅴ| 精品久久av| 96精品久久久久中文字幕| 亚洲福利专区| 国产不卡在线观看视频| 欧美刺激午夜性久久久久久久| 久久影院午夜精品| 婷婷久久伊人| 国产成人福利片| 欧美精品韩国精品| 久久久国产精品视频| 日韩有码av| 欧美日韩一区二区三区69堂| 一区二区三区中文字幕电影| 亚州av在线播放| 成人久久18免费网站图片| 激情欧美亚洲| 国产日韩精品中文字无码| 日韩欧美成人激情| 久久精品女人天堂av免费观看| 国产精品亚洲天堂| 91色porny蝌蚪| 国产女18毛片多18精品|