精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從GPT-2到GPT-4,探索大型語言模型的創新力

譯文 精選
人工智能
鑒于創造力測試可作為比較和跟蹤大語言模型性能和價值的基準,本文將和您分析從GPT-2到GPT-4,模型在收斂和發散兩種創造力的測試中的不同表現。

譯者 | 陳峻

審校 | 重樓

在最近的幾周里,人們使用大型語言模型(large language models,LLM)生成了諸如:書籍、小說、說唱音樂等各種創意性的內容。可是,我們怎么才能衡量這些模型的創作力水平呢?

在本文中,我將和您分析從2019年到2023年的各個GPT模型,在收斂(存在單一正確的解決方案)和發散(開放式地可能存在多個解決方案)[1] 兩種創造力的測試中的不同表現。具體測試類型包括:

  1. 將三個看似無關的詞與第四個詞連接起來(遠距離聯想測試
  2. 為日常物品產生盡可能多的替代用途(替代使用任務
  3. 命名十個盡可能彼此不同的名詞(發散關聯任務

通過分析,我將重點關注從早期的GPT-2模型,到最新的GPT-4模型,在性能上的變化。雖然總的來說,較晚的模型往往在各種創造力任務上表現會更好,但是我確實也發現了一些例外情況。例如:當測試本身已有“正確”的答案時,較簡單的GPT-2模型反而優于GPT-4模型。

當然,我也會在相同的創造力測試中,將GPT模型與人類表現進行比較。我并不是想闡明GPT模型、或一般的LLM,能夠具有與人類同等的創造性思維;而是要展示各個模型是如何響應創造性過程的。

GPT模型的發展

生成式預訓練轉換器(Generative Pre-trained TransformerGPT)模型是目前互聯網上被廣泛用于訓練的語言模型,可以根據先前的token預測下一個token。雖然ChatGPT貌似在最近的幾個月才引起了公眾的關注,但實際上OpenAIGPT模型及其背后的技術,已經存在了多年。

  1. GPT-12018年,117M參數)是原始的GPT模型。我曾在HuggingFace上使用了其開源版本,其輸出亂碼較多。論文:通過生成式預訓練提高語言理解力
  2. GPT-22019年,1.5B參數)。我也曾在HuggingFace上使用了其開源版本。對于一些實驗,GPT-2的輸出為亂碼,對理解其行為毫無用處。論文:語言模型是無監督的多任務學習者
  3. GPT-32020年,175B參數),比GPT-2大了100多倍。我使用了由OpenAI APIs提供的text-davinci-002。論文:語言模型是小樣本學習者
  4. GPT-3.52022年)。雖然GPT-3.5有多個版本,但我在原始的ChatGPT上使用了一種模型(OpenAI APIs提供的gpt-3.5-turbo)。該模型是使用強化學習和人工反饋進行訓練的。
  5. GPT-42023年,約100T 參數)。我使用了由OpenAI APIs提供的gpt-4。論文:GPT-4技術報告

在下文的各個實驗中,除非另行說明,否則我都是在唯一的提問(prompt)中調用了每個GPT模型五次,以說明其生成過程中的隨機性。

1. 遠距離聯想測試:連接不相關的詞

遠距離聯想測試(RAT)是Martha Mednick1962 年開發的創造力測試[2]。該測試旨在衡量聚合思維。也就是說,每個問題都有一個“正確”的答案。通常,給定三個看似無關的詞,受試者必須找到第四個詞來連接這三個詞。例如,單詞“夢(dream、“破(break和“光(light可以通過單詞“白天(day 聯系起來,成為:白日夢(daydream)、破曉(daybreak)、日光(daylight)。

我從Remote Associates Test網站各種單詞的三元組,共有312個問題。每個問題的難度都被按照從非常容易到非常困難的等級進行評分。


對于每個模型和每個單詞的三元組,我都使用了如下提問模板,并將每個模型調用了5次,以說明其隨機性。其中,提問的具體內容為:

給你三個詞。想想與前三個詞中的每一個都以某種方式相關的第四個詞。請先給出答案:“Answer”,然后解釋你的推理:“Reason”。單詞為:{Word1}{Word2}{Word3}

較新的GPT模型在遠程關聯上得分更高

我計算了每個GPT模型生成正確答案的總體百分比。如下圖所示,模型越新,其生成的正確答案就越多。


按照問題難度級別細分模型的性能,我們可以看到類似的趨勢:在每個難度級別上,較新的GPT模型都比舊的模型表現得更好。雖然較新的GPT模型在困難問題上的表現優于舊模型,但是與較簡單的問題相比,其改進幅度較小。這意味著:即使是GPT-4也難以解決困難的問題。

根據Remote Associates Test網站的說法,“人類通常可以解決大部分被標記為簡單的項目,大約一半的中等項目,以及較少的困難項目。”雖然該網站上沒有給出官方的統計數據,但是我們一眼就能看出,GPT-4確實解決了大約一半的中等難度和少量的困難。它是唯一一個近似于人類水平的模型。其他GPT模型則比人類表現要差。

一些GPT-2回答正確但GPT-4出現錯誤的例外

雖然這種情況并不經常發生,但是對于如下8個問題,2019年的GPT-2模型反而優于2023年的GPT-4模型。

簡單的問題

單詞:cottage(小屋)/brick(積木)/cake(蛋糕)

GPT-2:“cheese(奶酪)”[正確答案]

GPT-4:“layer(層)”

中等問題

單詞:cat(貓)/number(號碼)/phone(電話)

GPT-2:“call(呼叫)”

GPT-4:“dial(撥號)”

困難問題

單詞:through(通過)/disk(盤)/way(路)

GPT-2:“drive(驅動)”[正確]

GPT-4:“circle(圓)”

非常困難的問題

單詞:land(土地)/hand(手)/house(房子)

GPT-2:“farm(農場)”[正確]

GPT-4:“property(財產)”

可見,對于所有這些問題,GPT-4的回答都缺乏邏輯性。事實上,在事先不知道正確答案的情況下,您可能會認為GPT-4的答案已經將三個詞聯系起來了。如果你這么想的話,也不算錯。我將在下一節回答這個問題。

GPT-4到底是錯了,還是跳出圈外思考了?

針對上述GPT-4半數以上的“錯誤回答”,我查看了它對一些“非常困難”的問題的解釋。

單詞:artist藝術家)/hatch(策劃)/route(路線)

正確答案:“escape(逃離)”

GPT-4回答:“map地圖)”

“藝術家”一詞可能會讓人想起創造某物的想法,甚至可能是某物的視覺表現。地圖是一種常見的視覺表現形式,需要具有一定程度的藝術技巧,才能創建。

“策劃”一詞可以指打開某物或使某物存在的行為。地圖是一種藍圖或計劃,通常用于導航新領域或制定行動方案。

“路線”一詞與方向和運動有關,可以在地圖上繪制和跟蹤。地圖可以幫助您確定旅行時的最佳路線,還可以提供有關其他人過去所走的路線信息。

總而言之,“地圖”似乎是一個與前三個詞都很相配的詞,因為它包含了藝術創作、策劃、路線、運動、以及導航等思想。

這便是GPT-4為什么認為“地圖”是與“藝術家/規劃/路線”相關聯的單詞的解釋。我們再來看另一個例子:

單詞:fork分叉)/dark(黑暗)/man(人)

正確答案:“pitch投擲)”

GPT-4回答:“shadow(陰影)”

“分叉這個詞可以與分裂或分支相關聯,例如道路上的岔路口。陰影也可以看作是一種劃分,因為它們代表沒有光。

“黑暗”一詞是指沒有光。當光線被物體阻擋時會產生陰影,并且通常看起來比周圍區域更暗。

“人”這個詞可以與身份或個性的概念相關聯。陰影也可以被用來表示一個人的身份,因為它們可以提供有關其形狀和大小的線索。

因此,“影子”似乎是一個與前三個詞都很相配的詞,因為它包含了分裂、缺席和同一性的概念。

上述兩個例子充分顯示了遠距離聯想測試和一般性聚合創造力測試的缺陷,即“正確”的答案可能并不唯一。在此類情況下,GPT-4生成的所謂“錯誤”答案,可能只是因為不符合傳統的“正確”答案的標準而已。

GPT-4回答任意生成的三元組單詞

接著,我構建了自己的遠距離聯想測試,并主觀地評估了其輸出。首先,我列出了10,000個最常見的英語單詞[3](https://github.com/first20hours/google-10000-english),然后我從該列表中隨機地抽取了三個單詞,讓GPT-4提供第四個單詞,以便將這些單詞聯系在一起。雖然有些三元非常奇怪、且毫無關聯,但是GPT-4總能找到一種方法,將它們聯系在一起。例如:

Health(健康)

單詞:dietary(飲食)/surveillance(監管)/born(出生)

答案: Health(健康)

理由:

飲食——一個人的飲食與他們的健康直接相關,因為它會影響到人的整體健康、能量水平和某些疾病的風險。

監測——健康監測是持續、系統地收集、分析和解釋對于健康實踐的規劃、實施和評估至關重要的數據。

出生——當一個人出生時,他們的健康是至關重要的,因為它會對其發育、成長和整體生活質量產生長期的影響。

我發現其對于“健康監測”的定義,幾乎是從CDC網站上的公共衛生監測簡介中逐字復制的:公共衛生監測是“持續、系統地收集、分析和解釋對公共衛生實踐的規劃、實施和評估至關重要的健康相關數據。”

2. 交替使用任務:尋找普通物品的意義

另一個衡量創造力的流行測試是替代使用任務(AUT)。它是由JP Guilford1967年創建的。與遠程聯想測試不同,該測試衡量的是發散思維,即:沒有正確答案。它要求受試者盡可能多地描述日常物品的原始用途。例如:“筆記本電腦”可以用作“盤子”、“身體防護罩”或“壁畫”[4]。對于此類測試的響應是根據原創性(不同程度的用途)和靈活性(想法的分類)等指標來衡量的。該測試的目的是審查受試者對于一件普通的物品能想到多少種非常規的用途。

由于我的資源有限,因此我使用了創造力代理。它是由阿姆斯特丹大學的研究人員在將GPT-3的創造力用于(替代用途)測試時使用的。研究人員要求人類和GPT-3 (davinci-002)針對“叉子、錫罐和書”提出替代用例。作為衡量創造力的代理,他們測量了對象與生成的用例之間的語義距離。也就是說,生成的用例詞與原始對象之間的差異有多大。

在此基礎上,我對GPT模型使用了以下提示:

{物品}想出10種創意用途,這些用途可能會讓人們覺得聰明、不尋常、有趣、幽默、創新或與眾不同。

在自然語言處理中,語義距離(或稱語義相似性)是兩個詞相關程度的代表。它基于詞語在相似的上下文中被一起使用的頻率。例如,“computer(電腦)”和“screen(屏幕)”這兩個詞可能有更短的語義距離,因為它們經常在相同的上下文中使用;而“computer(電腦)”和“lentils(扁豆)”這兩個詞可能有更長的語義距離,因為它們不是經常在相同的上下文中使用。

為了計算兩個詞的語義距離,我使用了與研究人員相同的方法--自然語言處理庫Spacy (`en_core_web_lg`,https://spacy.io/models/en) 來計算對象(例如“筆記本電腦”)和用例詞(例如“盤子”)的嵌入關系。然后,我使用兩個嵌入之間的余弦距離,來計算語義距離。

對于交替使用任務,較長的語義距離與對象的“更有創意性”用例相關。通常結果表明,對于上述三個對象--叉子、錫罐和書,人類表現出比GPT-3更高的余弦距離(因此語義差異更高)。然而,在某些情況下,GPT-3.5/GPT-4的匹配能夠超過人類創造力語義距離分數。

雖然人類傾向于提出比GPT-3更具創造性的用例,但是GPT-4更接近于人類的水平。也就是說,GPT-4響應的物品與原始物品的語義距離更長,與人類的表現水平相似。然而,如果沒有真正的人類注釋,以決定更多的主觀類別,例如:原創性、靈活性和實用性,那么這種使用余弦距離的量化將會是非常有限的。畢竟它只能衡量GPT模型各種創造性輸出的一小部分。

人類生成的和AI生成的用例

下面的兩個列表分別是人類生成的錫罐替代用例,以及由GPT-4生成的替代用例。相信您一眼就能區分開來。

清單 1:錫罐的用途

  • 可作為一面鏡子
  • 可創造玩具
  • 可作為藝術
  • 可作為安迪沃霍爾(著名藝術家)的提醒
  • 可作為帶夾子的鑰匙圈
  • 可作為首飾

清單 2:錫罐的用途

  • 微型架子鼓
  • 古怪的花盆
  • 臨時餅干刀
  • 自制野營爐
  • 異想天開的風鈴
  • 微型藥草園

3. 發散聯想任務:十個沒有聯系的詞

第三個創造力測試是發散關聯任務(DAT)。它是最近由一組研究人員于2021年創建的[5]。該測試涉及到盡可能多地列出十個彼此不相干的名詞。顧名思義,此類測試是發散的,也就是沒有正確的答案。

在線測試網站-- https://www.datcreativity.com/只需幾分鐘,便可列出十個盡可能不相關的名詞。以下是我從該網站上得到的結果:

那么DAT的分數是如何計算的呢?其過程使用了嵌入和余弦距離等相關計算。在此我總結為[6]

  1. 計算每個單詞的GloVe嵌入
  2. 計算每對詞之間的余弦距離
  3. 取距離的平均值

這個過程類似于,替代使用任務中用于計算創造力代理分數的方法。其唯一區別在于使用到了詞的嵌入模型。

比較不同模型之間的差異

通過參考DAT網站,我向GPT模型提出了如下問題:

請輸入10個盡可能不同的單詞,并包括單詞的所有含義和用法。

規則:

- 僅英文單詞。

- 僅名詞(例如,事物、對象、概念)。

- 非專有名詞(例如,沒有特定的人或地點)。

- 非專業詞匯(例如,不包含技術術語)。

- 自己想出來的詞(例如,并非周圍常見物體)。

結果表明,GPT-2生成了一些文不對題的輸出。如下圖所示,每個新模型的DAT分數都增加了。這意味著,新的模型更擅長生成10個在語義上盡可能不同的單詞。

例如,GPT-3生成了如下列表,其得分為0.36

黃昏、夜晚、白天、黎明、早晨、下午、傍晚、午夜、暮光

GPT-4生成了以下列表,其得分為0.95

大象、顯微鏡、沙堡、星系、和諧、抹刀、冰川、哲學、手鼓、干旱

DAT測試的介紹,測試的平均分數一般在75-80之間,因此95分已經算是非常高了。

在上圖中,我們需要注意的是,GPT-4的誤差線比GPT-3的誤差線要小得多。而在下一個實驗中,這一點變得更加清晰。在該實驗中,我通過調整“熱度(temperature)”參數,來改變每個GPT模型生成時的隨機性。

熱度是介于01之間的值。其中,接近0的值最可預測,而1則是最隨機的。我嘗試了0.50.9之間的熱度值,且增量為0.1(在之前的實驗中,我將熱度保持在0.7,這一默認值)。我預計較高的熱度值會有更多的變化,而較低的熱度值會有更多的一致性。

然而,結果表明,就語義距離方差而言,熱度對模型的影響并不那么重要。例如,對于GPT-3來說,盡管熱度很高,但每個包含10個單詞的列表的DAT分數差異非常大。然而,對于GPT-4來說,雖然也有一定的熱度,但DAT分數在一個小范圍內,保持緊密一致性,幾乎沒有變化。

可見,GPT-4的變化遠小于GPT-3。在某種程度上,我們會覺得GPT-4已經“知道”了一個本沒有正確答案的任務的“正確答案”。

匯總所有熱度分數的響應,我讓每個模型生成了50次包含10個單詞的列表。然后,我查看了在所有50次運行中出現的不同單詞的常見程度。其中,GPT-3最常生成的單詞是書,其出現率為19/50=38%。而GPT-4最常生成的單詞是顯微鏡,其出現率為48/50=96%

上圖證實了GPT-3實際上在其單詞生成中更具可變性的說法,而GPT-4通過預測許多它知道的、在“不同單詞”任務中得分高的相同單詞(如:顯微鏡、火山、大象和星系等),來保證其輸出的穩定性。

同時,該發現也證明了GPT-4似乎想通過“破解代碼”,來生成它認為多樣化的單詞。如果此猜測屬實的話,我們是否可以認為:GPT-4比它能夠達到“如何在測試中表現等更優秀”的所謂局部最優(local optima),要更具有創造性呢?

小結

使用一組有限的、基于文本的測試,去準確地衡量諸如模型的創造力是極具挑戰的。盡管可視化遠距離聯想測試之類的工具,試圖通過結合視覺元素來解決該問題,但是此類評估仍然存在著一些固有的局限性。具有“正確答案”的趨同測試(例如遠距離聯想測試)可能并不總是最正確的解決方案。而沒有特定正確答案的發散測試(例如發散關聯測試),則需要依賴不完美、且可能包含偏差的單詞嵌入。

此外,GPT模型在上述測試中的表現,可能會受到它們在訓練期間所接觸的不同任務的影響,因此也可能導致數據的重疊。例如,GPT-4在發散聯想測試中表現出的單詞重復,可能暗示著它已事先知道了“正確”答案。而鑒于GPT-4可能正在接受測試數據、尤其是編碼任務訓練的傳聞,我們著手開發替代測試方法就顯得非常有必要了。

盡管有著上述各種缺陷,但是創造力測試仍然可以作為比較和跟蹤大語言模型性能的、有價值的基準。在未來的研究實驗中,我們可以用其他語言去重復本文提到的實驗,以衡量跨語言領域的GPT模型的創造力。據此,我們也可以更加全面地了解人工智能所生成的內容,并進一步探索此類高級語言模型的能力和局限性。

參考

[1] Guilford, J. P. (1967). 人類智慧的本質。

[2] Mednick, S. A., & Mednick, M.T. (1959,1962). 遠距離聯想測試,大學和成人形式。

[3] 最常用的10,000個英語單詞是通過對GoogleTrillion Word Corpusn-gram頻率的分析來確定的。我進一步過濾了這個列表以刪除停用詞(例如英語中的常用詞,如“the”、“and”和“you”)。更多信息請參見https://github.com/first20hours/google-10000-english

[4] 有一次我把這個放在約會應用程序上,不幸的是沒有人認為它很有趣。

[5] Olson, Jay A.; Nahas, Johnny; Chmoulevitch, Denis; Cropper, Simon J.; Webb, Margaret E. (22 June 2021). “通過命名不相關的詞來預測創造力”。 美國國家科學院院刊。118 (25): e2022340118. doi:10.1073/pnas.2022340118. PMC 8237676. PMID 34140408

[6] 原作者從10個單詞中抽取了7個子集來計算分數。我保留了所有10個單詞。此外,作者使用了840B-GloVe嵌入,而我使用較小的6B-GloVe嵌入。通過將自己的GloVe嵌入結果與官方DAT分數進行比較,我發現盡管存在差異,但其結果仍具有可比性。

譯者介紹

陳峻(Julian Chen),51CTO社區編輯,具有十多年的IT項目實施經驗,善于對內外部資源與風險實施管控,專注傳播網絡與信息安全知識與經驗。

原文標題:Exploring Creativity in Large Language Models: FromGPT-2toGPT-4,作者:Yennie Jun


責任編輯:華軒 來源: 51CTO
相關推薦

2025-08-19 08:40:00

AI技術模型

2025-08-18 09:15:00

2023-05-29 09:29:52

GPT-4語言模型

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-05-10 17:33:56

2023-12-16 09:45:56

論文GPT-4AI

2023-04-09 16:17:05

ChatGPT人工智能

2023-12-26 08:17:23

微軟GPT-4

2025-05-30 07:40:56

2023-05-24 14:33:08

GPT-4語言模型

2023-07-25 09:23:23

Llama 2GPT-4

2023-12-15 12:52:17

AI模型

2023-05-10 14:54:23

AI

2023-03-28 08:23:38

2023-07-12 16:10:48

人工智能

2024-04-25 16:56:14

GPT-4大模型人工智能

2024-05-21 12:23:17

2023-03-16 19:17:57

2023-03-28 13:01:20

GPT-4開發OpenAI
點贊
收藏

51CTO技術棧公眾號

caoprom在线| 国精品人妻无码一区二区三区喝尿| 免费精品国产| 欧美日韩综合在线免费观看| 国产又粗又爽又黄的视频| 亚洲AV无码精品国产| 麻豆精品91| 欧美大片免费看| 免费视频91蜜桃| 911亚洲精品| 色噜噜偷拍精品综合在线| 色婷婷777777仙踪林| 色噜噜一区二区三区| 美女mm1313爽爽久久久蜜臀| 欧美激情区在线播放| 欧美性xxxx图片| 91视频成人| 欧美最新大片在线看| 久久99久久99精品| 日本天堂在线观看| 99re8在线精品视频免费播放| 91精品国产综合久久男男| 成人精品免费在线观看| 在线观看国产精品入口| 亚洲片av在线| 日韩精品视频一区二区| **国产精品| 色国产综合视频| 久久久久久久午夜| 免费在线播放电影| 日韩久久一区二区| 婷婷久久伊人| 欧美视频综合| 99热精品国产| 国产精品视频免费观看| 97精品人妻一区二区三区在线| 久久精品盗摄| 奇米4444一区二区三区| 中文字幕一区二区三区精品 | 欧美zozozo| 在线观看国产中文字幕| sis001欧美| 欧美日韩国产精品一区二区三区四区 | 97精品在线观看| 免费一级片在线观看| 99久久亚洲精品蜜臀| 亚洲视频在线免费看| 欧美亚一区二区三区| 欧美自拍一区| 亚洲老头老太hd| 亚洲熟妇无码av| 亚洲三级网址| 亚洲欧美成人网| 国精产品一区一区三区免费视频| 国语一区二区三区| 精品国产1区2区3区| 一级黄色电影片| jizz性欧美23| 亚洲精品电影在线观看| 国产精品三级在线观看无码| 欧美人与物videos另类xxxxx| 亚洲美女在线观看| 免费看污片的网站| 日韩一区欧美| 美女性感视频久久久| 国产乱国产乱老熟300| 欧美激情第10页| 欧美激情在线观看视频| 国产第100页| 国产午夜久久| 国产精品久久视频| 99热这里只有精品在线观看| 国产xxx精品视频大全| 国产伦精品一区二区三区视频免费 | 国产乱码一区| 国产在线观看免费| 国产精品欧美综合在线| 亚洲国产精品女人| 国产天堂在线播放视频| 精品久久久香蕉免费精品视频| 欧美在线观看成人| 超碰这里只有精品| 91精品久久久久久久久99蜜臂| 国产成人精品一区二区三区在线观看| 亚洲高清在线一区| 亚洲男女性事视频| 成人18视频免费69| 红桃视频国产精品| 国产精品www色诱视频| 97在线公开视频| 99久久99久久精品国产片果冻| 日产精品久久久一区二区| 久久五月精品| 欧美午夜电影在线| 一区二区在线免费看| 成人av婷婷| 在线观看不卡av| 久久免费小视频| 日本最新不卡在线| 国产精品国产一区二区 | 久久精品一级爱片| 欧美h视频在线观看| 日韩欧美精品一区二区三区| 69堂精品视频| 草草影院第一页| 欧美黄色精品| 国产精品一区二区三| 人人妻人人澡人人爽久久av| 国产精品美女久久久久久久久久久| 国产性生活免费视频| 69堂精品视频在线播放| 欧美tickling网站挠脚心| 老熟妇一区二区| 亚洲精品极品| 99视频国产精品免费观看| 国产小视频在线播放| 亚洲综合男人的天堂| 国产三级三级看三级| 亚洲专区视频| 久久久久久久久久久成人| 91精品国产乱码久久久久| 久久午夜色播影院免费高清 | 三级影片在线观看| 亚洲在线国产日韩欧美| 999热视频| 久久bbxx| 欧美日韩一区二区在线观看 | 欧美在线性视频| 黄色av中文字幕| 亚洲一区在线视频| 99视频在线观看视频| 手机亚洲手机国产手机日韩| 国产成人精品a视频一区www| 天堂中文在线资源| 亚洲一区在线观看视频| 色综合五月婷婷| 水蜜桃精品av一区二区| 国产精品网站大全| 国产对白叫床清晰在线播放| 欧美视频中文在线看| 少妇一级淫免费观看| 亚洲高清av| 国产麻豆乱码精品一区二区三区| 青青草视频在线免费直播| 91精品国产aⅴ一区二区| www.黄色com| 久久99精品久久久| 一区二区三区三区在线| av久久网站| 日韩一区二区久久久| 亚洲一级视频在线观看| 中文字幕一区二区在线播放| 加勒比av中文字幕| 久久中文视频| 亚洲最大激情中文字幕| 91精品久久| 亚洲第一免费网站| 欧美三级一区二区三区| 久久综合色综合88| 色婷婷综合久久久久中文字幕| 国产成人一区| 国产欧美精品一区二区| 国产区在线看| 日韩精品一区二区三区视频在线观看| 久久免费精彩视频| 久久久久久久综合色一本| 妓院一钑片免看黄大片| 久久神马影院| 99久久久精品免费观看国产| а√天堂8资源中文在线| 日韩精品中文字幕在线| av首页在线观看| 亚洲欧美日韩中文播放 | 欧美黑人xxxⅹ高潮交| 日韩一区二区三区不卡| 一本大道久久a久久精品综合| 日本理论中文字幕| 国产一区二区三区av电影| 水蜜桃色314在线观看| 精品久久综合| 亚洲在线观看视频网站| 婷婷电影在线观看| 色综久久综合桃花网| 精品人妻无码一区二区色欲产成人 | 精品一区二区免费看| 男人天堂av片| 精品一区不卡| eeuss一区二区三区| 精精国产xxxx视频在线野外| 自拍视频国产精品| 成 人 免费 黄 色| 在线日韩国产精品| 中文字幕影音先锋| 久久精品水蜜桃av综合天堂| 久久精品一卡二卡| 美女久久一区| wwwjizzjizzcom| 欧美裸体在线版观看完整版| 91在线短视频| 成人在线免费av| 国模视频一区二区三区| 69视频在线| 亚洲国产私拍精品国模在线观看| 在线观看国产精品入口男同| 亚洲福中文字幕伊人影院| 毛片视频免费播放| 成人黄色777网| 午夜啪啪小视频| 美女视频一区免费观看| 国产一区二区三区小说| 色综合咪咪久久网| 欧美人与性禽动交精品| 51vv免费精品视频一区二区 | 精品伊人久久久| 成人有码视频在线播放| 成人软件在线观看| 午夜免费久久久久| 视频在线观看入口黄最新永久免费国产| 亚洲免费成人av电影| 亚洲伦理在线观看| 91精品视频网| 五月天中文字幕| 日韩欧美一区二区三区| 日韩av男人天堂| 亚洲伦在线观看| 99热6这里只有精品| 国产欧美一区二区三区鸳鸯浴| 超碰男人的天堂| 懂色av中文一区二区三区| 五月天丁香花婷婷| 狠狠色丁香婷综合久久| 久久久国产欧美| 日本在线播放一区二区三区| 成年网站在线免费观看| 国产精品日本欧美一区二区三区| 免费视频爱爱太爽了| 欧美黄免费看| 免费在线看黄色片| 欧美激情91| 野外做受又硬又粗又大视频√| 欧美日韩成人| 久艹视频在线免费观看| 亚洲网址在线| www.国产在线播放| 亚洲福利久久| 亚洲中文字幕无码av永久| 亚洲黑丝一区二区| 国产妇女馒头高清泬20p多| 亚洲午夜精品久久久久久app| 996这里只有精品| 激情久久综合| 国产成人黄色片| 麻豆成人精品| 天天干天天草天天| 激情六月婷婷久久| 亚洲成人福利视频| 成人综合激情网| 天堂久久久久久| 久久久www免费人成精品| 国产男男chinese网站| 国产亚洲一区二区三区四区| 亚洲毛片亚洲毛片亚洲毛片| 中文字幕色av一区二区三区| www欧美com| 精品久久久国产精品999| 国产在线观看黄色| 欧美中文字幕一二三区视频| 国产原创中文av| 精品国产制服丝袜高跟| 日韩av成人| 日韩中文第一页| 高清电影在线免费观看| 国产福利成人在线| 97精品资源在线观看| 国产区一区二区三区| 国产精品一区二区av交换| 国产又黄又爽免费视频| 亚洲伦伦在线| 天堂网在线免费观看| 成人免费高清视频| 亚欧洲乱码视频| 亚洲欧美国产三级| 精品国产免费观看| 欧美日韩一本到| 丰满人妻一区二区| 伊人精品在线观看| 羞羞的视频在线看| 国产精品福利网站| 成午夜精品一区二区三区软件| 欧美一进一出视频| 国内精品久久久久久久97牛牛 | 女人帮男人橹视频播放| 久久激情综合| 日韩黄色一区二区| 国产精品视频线看| 日本va欧美va国产激情| 69久久99精品久久久久婷婷| 久久电影视频| 欧美精品videos性欧美| 欧美一级免费| 欧美高清视频一区| 欧美91大片| 五月婷婷丁香综合网| 懂色一区二区三区免费观看| 国产精品1区2区3区4区| 色综合久久久久| 午夜精品久久久久久久96蜜桃| 国产一区二区动漫| 国产v日韩v欧美v| 91中文字精品一区二区| 成人综合专区| 日韩精品视频久久| 国产69精品久久99不卡| 看黄色录像一级片| 91成人免费在线| 天堂在线中文字幕| 日韩一二三在线视频播| 成人不卡视频| 日本一区二区三区www| 亚洲精品少妇| 精品国产aⅴ一区二区三区东京热| 欧美激情在线免费观看| 亚洲男人的天堂在线视频| 日韩欧美一区电影| 成人av福利| 成人黄色av网站| 99久久综合| 欧美美女性视频| 欧美国产激情一区二区三区蜜月| 欧美h在线观看| 日韩h在线观看| 国产高潮在线| 国内视频一区| 亚洲第一精品影视| 美女黄色一级视频| 亚洲影视在线观看| 成人av手机在线| 欧美精品在线免费播放| 麻豆久久一区| av 日韩 人妻 黑人 综合 无码| 国产精品一区二区果冻传媒| 一起操在线播放| 制服丝袜国产精品| a免费在线观看| 147欧美人体大胆444| 国语精品一区| 成人在线电影网站| 午夜精品一区二区三区电影天堂 | 在线观看一二三区| 视频在线一区二区| 成人午夜sm精品久久久久久久| 视频一区亚洲 | 欧美性xxxxx极品娇小| 青青草av免费在线观看| 国产不卡一区二区在线播放| 国产影视一区| 91欧美视频在线| 亚洲黄色小视频| 天天操天天操天天| 日韩美女福利视频| 成人影视亚洲图片在线| 国产精品自拍视频在线| 亚洲欧洲综合另类在线| www.日韩在线观看| 91国在线精品国内播放| 最新精品国偷自产在线| 99热手机在线| 亚洲免费毛片网站| 亚洲免费成人在线| 欧美在线视频播放| 国产精品7m凸凹视频分类| 黄色a级三级三级三级| 亚洲国产欧美另类丝袜| 国自产拍在线网站网址视频| 国产精品一区二区久久国产| 欧美网站在线| 人与嘼交av免费| 欧美一区二区三区色| 超碰在线视屏| 亚洲三区在线观看| 国产99精品国产| 波多野结衣高清视频| 美女性感视频久久久| 亚洲动漫精品| 天美一区二区三区| 精品成人国产在线观看男人呻吟| av福利精品| 国产二区不卡| 六月婷婷色综合| 日本三级免费看| 中文字幕亚洲天堂| 日韩免费电影在线观看| xxx国产在线观看| 亚洲va欧美va天堂v国产综合| 成人动漫在线免费观看| 超碰97在线播放| 老司机免费视频一区二区三区| 国产一级片播放| 综合激情国产一区| 日韩影视在线观看|