精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek數(shù)學(xué)大翻車?普林斯頓谷歌錘爆LLM:做題不會推理,全靠死記硬背

人工智能 新聞
LLM做數(shù)學(xué)題,并非靠真正推理,而是靠記憶?最近,普林斯頓、谷歌等研究者詳細(xì)剖解了o1-mini等模型做數(shù)學(xué)題的過程,發(fā)現(xiàn)它們靠的是記!最實(shí)錘的證據(jù)之一,就是題目明明已經(jīng)改變了條件,模型卻依然給出了原題的答案。

破案了!

就在剛剛,來自普林斯頓和谷歌的研究者發(fā)現(xiàn)——

大模型做數(shù)學(xué)題,不是靠推理,而是靠從訓(xùn)練集里記下的解題技巧!

論文地址:https://arxiv.org/abs/2502.06453

這「未解之謎」一直困擾著不少業(yè)內(nèi)人士:在數(shù)學(xué)上,LLM到底是學(xué)會了舉一反三,還是只是學(xué)會了背題?

此前OpenAI o1-preview被爆出,數(shù)學(xué)題目稍作修改,正確率暴降30%!

之后,OpenAI用o3-mini證明了LLM的強(qiáng)大數(shù)學(xué)推理能力,但網(wǎng)上就有數(shù)據(jù)集中相同類型的題目,讓這一問題顯得更加撲朔迷離。

這次華人研究團(tuán)隊(duì)帶來了新進(jìn)展,推出了全新的MATH-Perturb測試基準(zhǔn),測試AI泛化能力到底如何。

隨著LLM在MATH、OlympiadBench和AIME上連破紀(jì)錄,這讓人們看到了AI在數(shù)學(xué)領(lǐng)域的巨大潛力。

「數(shù)學(xué)天才」頭腦的背后,模型是真的模型理解了數(shù)學(xué)知識、掌握了推理精髓,還是只是表面上的「記憶游戲」?

如果模型在訓(xùn)練時(shí)接觸到了與測試集相似的題目,那它在測試中的高準(zhǔn)確率可能就有「水分」,很可能只是記住了答案,而非真正理解了解題思路。

就像一個(gè)學(xué)生,靠死記硬背記住了課本上的例題答案,一旦考試題目稍有變化,就不知道如何下手。

研究人員采用零樣本思維鏈(zero-shot chain-of-thought)的方法,對18種不同類型的LLM進(jìn)行了全面測試。這些模型涵蓋了長思維鏈模型、閉源大模型、開源小模型以及數(shù)學(xué)專用模型等。

在MATH-P-Hard數(shù)據(jù)集上,測試的所有模型都遭遇了「滑鐵盧」,準(zhǔn)確率普遍降低了10%-25%,包括OpenAI的GPT-4/o1系列、谷歌的Gemini系列以及Deepseek-math、Qwen2.5-Math等模型。

文章的主要結(jié)果如下:

  1. 對18個(gè)LLM的數(shù)學(xué)推理能力進(jìn)行了基準(zhǔn)測試,結(jié)果顯示所有模型,包括o1-mini和Gemini-2.0-flash-thinking,在MATH-P-Hard上的性能顯著下降(10%-25%)。這表明這些模型偏向于原始推理模式的分布,并且面對硬擾動的問題時(shí),會受到分布外效應(yīng)的影響。
  2. 對失敗模式分析的深入分析,并發(fā)現(xiàn)了一種新的記憶形式,即模型從訓(xùn)練集中記憶了解題技巧,并在不判斷修改后的設(shè)置是否仍然適用的情況下盲目應(yīng)用這些技巧。
  3. 研究了使用相應(yīng)的原始未修改問題和解決方案進(jìn)行上下文學(xué)習(xí)ICL的影響,并證明在MATH-P-Hard上,使用原始示例的ICL可能會損害模型的表現(xiàn),因?yàn)槟P涂赡軣o法識別細(xì)微的差異,并被示例誤導(dǎo)。
  4. 由12位研究生級別的專家策劃、設(shè)計(jì)并構(gòu)建了 MATH-P-Simple(簡單擾動)和 MATH-P-Hard(硬擾動)兩個(gè)數(shù)據(jù)集,自MATH數(shù)據(jù)集的第5級(最難)問題。

這不由得讓人想起之前蘋果研究者的一篇廣為流傳的論文。

論文地址:https://arxiv.org/abs/2410.05229

他們發(fā)現(xiàn),給數(shù)學(xué)題換個(gè)皮,LLM本來會做的數(shù)學(xué)題,就忽然不會了!

「當(dāng)索菲照顧她侄子時(shí),她會為他拿出各種各樣的玩具。積木袋里有31塊積木。毛絨動物桶里有8個(gè)毛絨動物。堆疊環(huán)塔上有9個(gè)五彩繽紛的環(huán)。索菲最近買了一管彈性球,這使她為侄子準(zhǔn)備的玩具總數(shù)達(dá)到了62個(gè)。管子里有多少個(gè)彈性球?」把這道題中索菲的名字、侄子的稱謂、玩具的具體數(shù)目改變,模型就做不對了

只修改了題目中的專有名詞,LLM的表現(xiàn)就明顯出現(xiàn)了分布均值從右向左的移動,方差增加,也就是說,它們做題的準(zhǔn)確度變低了。

這次普林斯頓、谷歌的這項(xiàng)研究,也再次驗(yàn)證了這篇論文的觀點(diǎn):LLM對數(shù)學(xué)題的推理能力,有水分。

MATH-Perturb:數(shù)學(xué)推理能力的「試金石」

為了更準(zhǔn)確地評估LLM的數(shù)學(xué)推理能力,研究人員推出了MATH-Perturb基準(zhǔn)測試,用來檢驗(yàn)?zāi)P驮诿鎸Σ煌y度擾動時(shí)的表現(xiàn)。

這個(gè)基準(zhǔn)測試包含兩個(gè)部分:MATH-P-Simple和MATH-P-Hard,題目均來自MATH數(shù)據(jù)集中難度最高的5級問題。

在構(gòu)建數(shù)據(jù)集時(shí),研究人員邀請了12位具有深厚數(shù)學(xué)背景的數(shù)學(xué)大佬來擔(dān)任注釋者。

對于MATH-P-Simple,注釋者進(jìn)行的是簡單擾動,對原問題進(jìn)行一些非本質(zhì)的修改,例如改變問題中的數(shù)值、變量名稱或表述方式,但不改變問題的基本推理模式和解題方法。

比如,原問題是求函數(shù)的值域,經(jīng)過簡單擾動后,變成求的值域。雖然題目有所變化,但解題的核心思路還是通過因式分解和分析函數(shù)特性來求解。

MATH-P-Simple和MATH-P-Hard的標(biāo)注過程

硬擾動(MATH-P-Hard)則是對原問題進(jìn)行小而關(guān)鍵的修改,這些修改會導(dǎo)致原有的解題方法不再適用,需要運(yùn)用更高級的數(shù)學(xué)知識和更復(fù)雜的推理技巧來解決。

同樣以函數(shù)值域問題為例,硬擾動后的問題可能變成求的值域,這時(shí)就需要運(yùn)用柯西-施瓦茨不等式等更復(fù)雜的數(shù)學(xué)知識來求解。

果然,這樣修改后,LLM就露出馬腳了!

它們并沒有發(fā)現(xiàn),原先自己學(xué)會的解題技巧,并不適用于修改后的數(shù)學(xué)題,而是繼續(xù)盲目套用。

比如這道題中,數(shù)學(xué)題中具體條件改變后,模型仍然采用了原先的解法,最終當(dāng)然就得出了錯(cuò)誤的答案。

(更多具體情況,參見實(shí)驗(yàn)結(jié)果)

此外,研究人員還遵循了兩個(gè)重要原則。

「最小修改」原則要求注釋者盡量減少對原問題的修改,這樣能在保持問題形式相近的情況下,測試模型的泛化能力。

「答案改變」原則保證修改后的問題答案與原答案不同,防止模型直接輸出記憶中的答案,確保結(jié)果真實(shí)可靠。

構(gòu)建完數(shù)據(jù)集后,研究人員對每個(gè)擾動后的問題進(jìn)行了仔細(xì)檢查,確保問題的表述清晰、準(zhǔn)確,并且答案正確。

擾動問題與原始問題之間的歸一化編輯距離和嵌入向量余弦相似度分布情況如下圖所示。

詳細(xì)結(jié)果

研究人員采用零樣本思維鏈作為在基準(zhǔn)測試中的標(biāo)準(zhǔn)評估方法。

為了進(jìn)行對比,還會在原始的279個(gè)問題集上對模型進(jìn)行評估,以下小節(jié)中將其稱為「原始」(Original)。

測試不允許使用任何工具,包括訪問代碼解釋器,因?yàn)榘l(fā)現(xiàn)許多問題可以通過編寫暴力搜索程序輕松解決。

為了檢查生成的答案是否與真實(shí)答案相匹配,采用了等價(jià)性檢查方法:首先進(jìn)行字符串規(guī)范化,然后使用sympy包檢查兩個(gè)數(shù)學(xué)對象的等價(jià)性。

LLM的基準(zhǔn)測試性能

考慮了多種語言模型,包括長思維鏈(long-CoT)模型、閉源的大型模型、開源的小型模型以及專門針對數(shù)學(xué)的模型。其中具體分類如下:

  • 長思維鏈(long-CoT)模型:o1-preview,o1-mini,Gemini 2.0 flash thinking
  • 閉源模型:GPT-4o,GPT-4 Turbo(Achiam等,2023),Gemini 1.5 Pro,Gemini 2.0 flash,Claude 3.5 Sonnet,Claude 3 Opus(Anthropic, 2024)
  • 開源通用模型:Llama 3.1,Gemma 2,Phi-3.5
  • 數(shù)學(xué)專用模型:MetaMath,MAmmoTH2,Deepseek-Math,Qwen2.5-Math,NuminaMath,Mathtral

下表報(bào)告了LLM在原始問題集、MATH-P-Simple和MATH-P-Hard上的整體準(zhǔn)確率,并分別計(jì)算了來自訓(xùn)練集和測試集的準(zhǔn)確率。

如預(yù)期的那樣,評估的所有模型在MATH-P-Hard上的表現(xiàn)顯著低于原始問題集,表明MATH-P-Hard更加困難。

同時(shí),相較于原始問題集,大多數(shù)模型在MATH-P-Simple上的表現(xiàn)也略有下降。

作者注意到,性能下降主要來自訓(xùn)練集。即便測試樣本與訓(xùn)練問題具有相同的推理模式,最先進(jìn)的模型也仍然存在泛化誤差。

對于來自測試集的問題,理想情況下,原始問題和MATH-P-Simple修改版,對模型來說應(yīng)當(dāng)是同樣「從未見過」的。

根據(jù)表1中的實(shí)驗(yàn)證據(jù),觀察到不同的結(jié)果:多個(gè)模型性能下降超過了5%;不過,令人驚訝的是,Phi-3.5-mini-instruct的表現(xiàn)反而有所提升。對于評估的大多數(shù)模型,MATH-P-Simple測試集的準(zhǔn)確率接近原始測試集的準(zhǔn)確率。

值得一提的是,盡管已有研究發(fā)現(xiàn)經(jīng)過修改的基準(zhǔn)與原始基準(zhǔn)之間,模型的性能下降幅度為58%到80%(測試的最佳模型是GPT-4),但在這次評估的模型中并未觀察到如此巨大的差距,這表明新開發(fā)的模型在應(yīng)對簡單擾動時(shí)的魯棒性有所進(jìn)展。

LLM零樣本思維鏈性能準(zhǔn)確率:「Orignal」指的是未修改的279個(gè)問題集。對于train列和test列,分別報(bào)告來自訓(xùn)練集和測試集的問題的準(zhǔn)確率

推理時(shí)間擴(kuò)展。已有研究表明,擴(kuò)展推理時(shí)間計(jì)算可以提高LLM的性能。將推理時(shí)間擴(kuò)展到基準(zhǔn)測試的結(jié)果。

對于每個(gè)問題,獨(dú)立生成N個(gè)解答,并通過以下公式計(jì)算每個(gè)1≤k≤N的pass@k指標(biāo):

其中c是n次運(yùn)行中正確答案的數(shù)量。

此外,還計(jì)算了自一致性,即多數(shù)投票法的表現(xiàn)。對于每個(gè)k,從N次運(yùn)行中隨機(jī)抽取k個(gè)回答,并得到多數(shù)投票的答案。

下圖報(bào)告了5次隨機(jī)抽樣的平均值和標(biāo)準(zhǔn)差。對于Llama-3.1-8B-Instruct和Qwen2.5-Math-7B-Instruct,設(shè)置N = 64,而對于o1-mini,設(shè)置N = 8。

擴(kuò)展推理時(shí)間計(jì)算的效果

LLM做數(shù)學(xué)題,會因?yàn)槭裁炊?/span>

為了研究模型在面對硬擾動時(shí)的泛化能力,作者集中分析了那些在MATH-P-Hard修改版中的失敗案例。

但要注意:總問題中的20%-47%,模型至少能正確解決原始問題或MATH-P-Simple修改版。

對于這些問題,可以使用較容易問題的正確解作為參考,更好地確定模型在困難問題中的失敗模式。

首先,觀察到當(dāng)模型面對更難的問題時(shí),普遍存在一些失敗模式。這些錯(cuò)誤在較弱的模型中表現(xiàn)得尤為突出。

除了常見的失敗模式外,當(dāng)比較MATH-P-Hard修改版的錯(cuò)誤解與較容易版本時(shí),能夠識別出一定數(shù)量的記憶化問題。

具體來說,模型可能忽略修改后的假設(shè),錯(cuò)誤地假設(shè)原始假設(shè)仍然成立。

例如,參見圖5中的示例。原問題為:

問題:十個(gè)人圍坐在一張圓桌旁。隨機(jī)抽取其中三個(gè)人做演講。被選中的三個(gè)人坐在連續(xù)座位上的概率是多少?

修改后,問題變難了:

十個(gè)人圍坐在一個(gè)圓桌旁,隨機(jī)選擇三個(gè)人以特定順序進(jìn)行演講。問這三個(gè)人中,第一個(gè)和第二個(gè)演講者坐在連續(xù)座位上,并且第二個(gè)和第三個(gè)演講者也坐在連續(xù)座位上的概率是多少?

模型并沒有意識到問題已經(jīng)改變,原來的推理方法不再有效。然后按照原來的推理模式進(jìn)行推理,給出了原題的答案——1/12。

而實(shí)際上,正確答案是應(yīng)該是1/36。

作者手動進(jìn)行了20次重復(fù)發(fā)現(xiàn)Claude-3.5-Sonnet的通過率為50%。在錯(cuò)誤中,30%是由于上述記憶問題造成的。

記憶化與錯(cuò)誤推理結(jié)合的示例

在其他情況下,模型可能盲目地應(yīng)用原始問題的解題技巧,而沒有首先判斷這些技巧在修改后的問題環(huán)境中是否仍然適用(圖1中的回答就是由GPT-4o生成的一個(gè)例子)。

有趣的是,模型甚至可能輸出原始問題的預(yù)期結(jié)果(并未在上下文中提供),而不是修改版問題的結(jié)果。

比如上面這道題吧,原題是如果并找出所有滿足條件的整數(shù)n。

而改變后的題將條件替換為并要求找出滿足條件的最小整數(shù)n。

結(jié)果在這種情況下,模型給出的答案卻是所有整數(shù)值(10和13),而非最小整數(shù)值(10)。

誒,這是模型背答案實(shí)錘了?

要知道,這種記憶化行為對于大多數(shù)現(xiàn)有文獻(xiàn)中的擾動類型來說是難以捕捉的,因?yàn)檫@些擾動并不需要不同的解題策略。

模式崩潰

研究人員還關(guān)注了模式崩潰(pattern collapse)帶來的影響。

模式崩潰是指模型無法區(qū)分?jǐn)_動后的問題和原問題,導(dǎo)致回答與原問題答案相同。

在MATH-P-Hard數(shù)據(jù)集中,除了少數(shù)幾個(gè)模型外,模式崩潰的情況在總錯(cuò)誤中的占比不到10%。

這表明,模型在面對硬擾動問題時(shí),雖然可能會出現(xiàn)各種錯(cuò)誤,但多數(shù)情況下還是能夠意識到問題的變化,而不是簡單地重復(fù)原答案。

然而,人工檢查發(fā)現(xiàn),模型的輸出往往不是簡單地重復(fù)原答案,而是在推理過程中出現(xiàn)了一些微妙的錯(cuò)誤,例如忽略或誤解修改后的假設(shè)。

上下文學(xué)習(xí)

上下文學(xué)習(xí)是指模型在推理時(shí)利用原問題和答案作為示例來輔助解題。

在MATH-P-Simple數(shù)據(jù)集上,使用原問題和答案作為上下文學(xué)習(xí)示例,幾乎能提升所有模型的性能。

這是因?yàn)镸ATH-P-Simple問題可以通過直接應(yīng)用原解題步驟來解決,原問題和答案的示例能提供有用的線索。

然而,在MATH-P-Hard數(shù)據(jù)集上,上下文學(xué)習(xí)的效果則較為復(fù)雜。

雖然原答案中的數(shù)學(xué)知識有時(shí)能夠幫助模型解決修改后的問題,但由于原問題和MATH-P-Hard問題之間存在微妙的差異,模型也容易被原答案誤導(dǎo),導(dǎo)致錯(cuò)誤增加。

總體來看,上下文學(xué)習(xí)在MATH-P-Hard上的效果并不理想,提升幅度非常有限。

LLM在面對硬擾動問題時(shí),表現(xiàn)出明顯的局限性,許多錯(cuò)誤源于模型對解題技巧的盲目記憶,而缺乏對問題本質(zhì)的理解。

總之,這項(xiàng)研究顯示,所有模型在復(fù)雜擾動MATH-P-Hard 上的表現(xiàn)均有所下降,而且許多錯(cuò)誤都是源于一種新的記憶形式——

模型從訓(xùn)練集中記住了解題技巧,然后在題目改變條件后,并不判斷是否適用,而盲目應(yīng)用這些技巧。

這說明,雖然大多數(shù)LLM在數(shù)學(xué)推理方面取得了一定的成績,但距離真正理解和掌握數(shù)學(xué)知識還有很大的差距。

不過最近,谷歌DeepMind拿下IMO金牌的AlphaGeometry,首次破解了2009年IMO最難幾何題G7。

在過程中,它給出了石破天驚的驚人解法——

利用關(guān)鍵的輔助作圖(圖中的紅點(diǎn)),就只需求「角度」和「比例推導(dǎo)」。

所以,o1-preview、o1-mini、GPT-4o、Deepseek-Math等模型,在解數(shù)學(xué)題上和AlphaGeometry究竟相差多遠(yuǎn)呢?

這就讓人十分期待,接下來這個(gè)領(lǐng)域的更多研究了。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2020-07-02 09:47:40

人工智能技術(shù)教育

2023-08-14 08:15:44

谷歌模型

2012-08-02 16:18:10

普林斯頓結(jié)構(gòu)哈佛結(jié)構(gòu)架構(gòu)

2025-06-18 08:51:00

數(shù)據(jù)生成AI模型

2024-11-12 13:40:00

2022-07-26 09:56:48

模型AI

2023-09-12 14:45:18

2024-02-19 00:15:39

模型數(shù)據(jù)

2025-10-29 09:00:00

2025-02-12 12:04:54

2023-09-18 16:18:36

AICgen數(shù)據(jù)

2024-07-02 13:30:50

2023-05-22 15:17:02

谷歌AI

2025-09-03 14:02:08

AI大模型訓(xùn)練

2011-04-22 10:14:34

無線網(wǎng)絡(luò)DHCPAndroid

2024-07-23 09:26:20

2025-02-13 08:30:00

2024-09-23 09:40:00

AI數(shù)學(xué)模型

2025-11-10 17:11:13

AI李飛飛模型

2017-09-21 11:43:14

JavascriptHtml5Html
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

免费看国产曰批40分钟| 国产区二精品视| 日本黄色小说视频| 成人性生交大片免费看96| 欧美日韩在线看| 亚洲蜜桃av| 可以免费看毛片的网站| 日本亚洲免费观看| 欧美国产一区二区三区| 久久久久久久久久久国产精品| 日本成人在线网站| 午夜久久电影网| 亚洲欧洲三级| 污视频网站免费观看| 久久99久久99小草精品免视看| 欧美福利视频网站| 手机毛片在线观看| 九九热播视频在线精品6| 精品视频999| 欧美日韩在线一| 成人免费视屏| 91蜜桃传媒精品久久久一区二区| 成人欧美在线观看| 狠狠人妻久久久久久综合| 欧美日韩mv| 久久精品国产成人| 日韩女同一区二区三区| 免费看久久久| 日韩女同互慰一区二区| www.天天射.com| 久久男人天堂| 亚洲综合成人在线视频| 在线视频欧美一区| 不卡在线视频| 久久精品亚洲一区二区三区浴池| 99蜜桃在线观看免费视频网站| 精品视频一二三区| 亚洲主播在线| 午夜精品一区二区三区视频免费看 | 黑人精品视频| 亚洲日本在线a| 亚洲最大免费| 欧美精品电影| 中文字幕一区二区三区色视频| 免费av一区二区三区| 少妇人妻一区二区| 福利一区在线观看| 国产高清精品一区二区三区| 精品国产av 无码一区二区三区| 麻豆91在线播放免费| 国产精品欧美日韩一区二区| 在线视频精品免费| 日韩国产欧美三级| 国产精品久久久久久网站| www.久久视频| 免费不卡在线观看| 成人黄色在线观看| 99国产成人精品| 国产成人午夜高潮毛片| 超碰在线观看97| 日本激情一区二区| 91在线云播放| 色综合久久久久久久久五月| 国产成人天天5g影院在线观看| 亚洲国产精品成人综合色在线婷婷| 四虎一区二区| 超碰在线最新| 亚洲午夜在线视频| 亚洲人成无码网站久久99热国产| h片在线观看视频免费| 日韩欧美999| av污在线观看| 久久综合给合| 精品剧情在线观看| 亚洲自拍偷拍一区二区| 欧美少妇xxxx| 久久不射热爱视频精品| 国产精品99精品无码视| 亚洲综合精品| 国产色综合天天综合网| 午夜精品久久久久久久99| 成人丝袜高跟foot| 色噜噜狠狠一区二区三区| 黄色网页在线免费观看| 午夜精品久久久久久不卡8050| 日本a级片免费观看| 九色成人搞黄网站| 亚洲精品一区二区三区影院| 3d动漫精品啪啪一区二区下载 | 久久精品视频一| 久久久久黄色片| 亚洲欧美日本视频在线观看| 91精品国产综合久久久久久久久| 亚洲精品视频91| 久久久久一区二区三区四区| 熟女熟妇伦久久影院毛片一区二区| 激情影院在线| 欧美一a一片一级一片| 成人免费播放视频| 国产精品午夜一区二区三区| 美女av一区二区三区| 亚洲GV成人无码久久精品 | 亚洲一区久久久| 瑟瑟在线观看| 亚洲欧美色一区| 国产91对白刺激露脸在线观看| 91嫩草国产线观看亚洲一区二区| 日韩黄在线观看| 91插插插插插插| 久久这里只有| yy111111少妇影院日韩夜片| 岛国最新视频免费在线观看| 亚洲一区中文在线| 亚洲黄色av片| 波多野结衣一区| 欧美一区二区大胆人体摄影专业网站| 一级黄色短视频| 久久久99久久精品欧美| 久久精品无码中文字幕| 国精品产品一区| 亚洲全黄一级网站| 欧美日韩乱国产| 成人性色生活片免费看爆迷你毛片| 亚洲不卡1区| 牛牛精品一区二区| 欧美大胆一级视频| 国产福利视频网站| 久久精品99国产国产精| 日韩欧美一区二区三区四区五区| 18aaaa精品欧美大片h| 欧美一级二级在线观看| 亚洲综合久久av一区二区三区| 久久免费黄色| 免费一区二区三区| 欧美男人天堂| 日韩精品极品视频| 国产成人精品网| 99视频超级精品| 国产freexxxx性播放麻豆 | 日韩黄色一级片| 麻豆传媒一区二区| 欧美成人精品一区二区男人小说| 亚洲成色www8888| 精品处破女学生| 国产69精品一区二区亚洲孕妇| 久久最新免费视频| 欧美高清一级片| 色中色综合影院手机版在线观看| av老司机久久| 夜夜嗨av一区二区三区四季av| 激情文学亚洲色图| 欧美日韩理论| 国产一区国产精品| av综合电影网站| 亚洲天堂av在线免费| 看黄色一级大片| 中文字幕av免费专区久久| 国产福利在线免费| 一级毛片免费高清中文字幕久久网| 国产在线播放不卡| 91麻豆国产福利在线观看宅福利| 91精品国产免费久久综合| 九九热精品在线观看| zzijzzij亚洲日本少妇熟睡| 欧美亚洲精品一区二区| 免费看av成人| 成人免费视频网址| 丰满大乳少妇在线观看网站| 日韩av在线网址| 免费又黄又爽又猛大片午夜| 国产精品毛片大码女人| 亚洲制服在线观看| 在线观看一区| 日韩av一区二区三区在线观看 | 国产伦精品一区| 亚洲精品动漫| yw.139尤物在线精品视频| 99久久免费国产精精品| 午夜婷婷国产麻豆精品| 精品无码在线观看| 国产成人av网站| 国产精品少妇在线视频| 99成人超碰| 精品久久久久久综合日本| 户外露出一区二区三区| 美女999久久久精品视频| 日韩中文字幕免费观看| 欧美午夜一区二区三区| 欧美三级小视频| 久久精品一区二区三区av| 亚洲精品无码久久久久久久| 欧美亚洲三级| 300部国产真实乱| 黄色不卡一区| 国产厕所精品在线观看| 99久久久国产精品免费调教网站 | 免费成人在线电影| 久久精品国产成人| 久久视频www| 欧美xxxx在线观看| 在线观看日韩一区二区| 亚洲不卡av一区二区三区| 国产精品久久久免费看| 99久久国产综合精品麻豆| 99久久99精品| 日韩电影一二三区| av电影一区二区三区| 神马久久一区二区三区| 国产伦视频一区二区三区| 香蕉久久一区| 日本在线精品视频| 国产美女高潮在线| 久久亚洲精品一区| 91短视频版在线观看www免费| 日韩电影大全免费观看2023年上| 99视频在线观看免费| 色综合久久99| 久久久久久久久久影院| 亚洲精品国产无套在线观| 日本成人免费在线观看| 久久久久久久久久久久久夜| 国产人妻精品午夜福利免费| 麻豆91小视频| 污色网站在线观看| 天堂成人免费av电影一区| 我的公把我弄高潮了视频| 国产精品啊v在线| 老司机午夜免费福利视频| 97精品国产| 亚洲一区二区三区精品视频 | 成人av片在线观看| 亚洲一级片免费观看| 精品一区二区三区影院在线午夜| 欧美黄色性生活| 日本一不卡视频| 成年人在线观看视频免费| 久久天堂成人| 激情婷婷综合网| 久久一区二区三区四区五区| 日韩av资源在线| 国产欧美一级| 黄色网页免费在线观看| 亚洲一区日韩在线| 国产又大又硬又粗| 老司机久久99久久精品播放免费| 北条麻妃69av| 久久久精品日韩| 久久久免费视频网站| 奶水喷射视频一区| 波多野结衣天堂| 奇米影视7777精品一区二区| 男人插女人下面免费视频| 日韩不卡免费视频| 中文字幕有码av| 激情综合五月婷婷| 亚洲欧美日韩中文字幕在线观看| 粉嫩av亚洲一区二区图片| 无码国产精品一区二区免费式直播 | 国产欧美综合一区二区三区| 国产中文字幕视频在线观看| 久久精品1区| 嫩草影院国产精品| 韩国三级电影一区二区| 深夜福利网站在线观看| 成人免费福利片| 九色porny自拍视频| 中文字幕成人av| 欧美人妻一区二区| 天天色综合天天| 最近中文在线观看| 欧美一卡二卡三卡四卡| 日本xxxxxwwwww| 一区国产精品视频| 日本中文字幕中出在线| 777777777亚洲妇女| 秋霞国产精品| 亚洲xxx视频| 九九久久成人| 正在播放91九色| 一本色道精品久久一区二区三区 | 激情综合婷婷| 好看的日韩精品视频在线| 欧美美乳视频| 日本天堂免费a| 欧美专区18| 在线观看网站黄| 久久蜜桃一区二区| 一区二区成人免费视频| 欧美日韩一区二区免费视频| 中文字幕永久在线观看| 亚洲国产成人av在线| 18免费在线视频| 91精品国产91久久| 99精品视频在线免费播放| 久久精品一二三区| 一区二区中文| 免费观看成人在线视频| 国产成a人亚洲| 人人艹在线视频| 色综合久久综合网欧美综合网| 国产丝袜在线视频| 在线看日韩欧美| 国模私拍一区二区国模曼安| 成人欧美一区二区三区在线| 久久av免费看| 91成人在线观看喷潮教学| 加勒比av一区二区| 自拍偷拍视频亚洲| 亚洲成av人影院| 精品国精品国产自在久不卡| 亚洲性视频网站| 国产美女精品写真福利视频| 亚洲自拍偷拍网址| 日韩欧美三级| 男女污污的视频| 99精品久久久久久| 久草视频免费播放| 欧美一区二区女人| 日本在线免费网| 国产精品日日做人人爱| 久久av中文| www.亚洲天堂网| 成人高清视频免费观看| 激情视频在线播放| 9191成人精品久久| 嫩草香蕉在线91一二三区| 国产精品美女在线| 国内成人精品| 欧美xxxxx在线视频| 久久丝袜美腿综合| 国产精品人人人人| 日韩av在线免费观看一区| 激情国产在线| 国产精品麻豆免费版| 国产一区二区三区四区老人| 国产人妻精品久久久久野外| 亚洲乱码中文字幕综合| 99久久精品免费看国产交换| zzjj国产精品一区二区| 9999精品视频| 精品国产三级a∨在线| 国产一区91精品张津瑜| 成人免费视频网站入口::| 欧美人与性动xxxx| 麻豆av免费在线观看| 成人精品久久av网站| 91精品国产视频| 97免费公开视频| 亚洲国产综合人成综合网站| 懂色av成人一区二区三区| 久久久亚洲成人| 日韩mv欧美mv国产网站| av网址在线观看免费| 欧美国产禁国产网站cc| 91高潮大合集爽到抽搐| 欧美成人剧情片在线观看| 爱爱精品视频| 91视频 -- 69xx| 久久久av毛片精品| 这里只有精品6| 九九九久久国产免费| 成人三级av在线| 国产免费成人在线| 国产精品欧美一区喷水| 99热这里只有精品66| 午夜精品国产精品大乳美女| 综合综合综合综合综合网| 国产高潮免费视频| 亚洲女人****多毛耸耸8| 丰满岳乱妇国产精品一区| 91精品国产91久久久久| 成人激情在线| 女女调教被c哭捆绑喷水百合| 精品国产1区2区| 天天影视久久综合| 99一区二区| 日韩不卡一区二区三区| 麻豆国产尤物av尤物在线观看| 亚洲国产日韩欧美在线99| 日本在线视频一区二区| 国产专区在线视频| 久久久不卡网国产精品二区| aaa国产视频| 秋霞av国产精品一区| 国产精品传媒精东影业在线| 国产十八熟妇av成人一区| 在线免费观看不卡av| 在线看女人毛片| 欧美一区二区三区四区五区六区| 国产一区二区三区精品欧美日韩一区二区三区 | 欧美一区二区福利在线| 亚洲精品成人图区| 干日本少妇视频| 国产亚洲精品aa| 亚洲精品成av人片天堂无码| 国产精品av在线播放| 国色天香一区二区| 亚洲色图日韩精品| 精品呦交小u女在线| 欧美视频三区|