精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果一篇論文得罪大模型圈?Transformer不會推理,只是高級模式匹配器!所有LLM都判死刑

人工智能 新聞
蘋果研究者發(fā)現(xiàn):無論是OpenAI GPT-4o和o1,還是Llama、Phi、Gemma和Mistral等開源模型,都未被發(fā)現(xiàn)任何形式推理的證據(jù),而更像是復(fù)雜的模式匹配器。無獨有偶,一項多位數(shù)乘法的研究也被拋出來,越來越多的證據(jù)證實:LLM不會推理!

LLM真的會推理嗎?

圖片

最近,蘋果研究員發(fā)文質(zhì)疑道:LLM根本沒有不會推理,所謂的推理能力只是復(fù)雜的模式匹配罷了。

圖片論文地址:https://arxiv.org/abs/2410.05229

這項研究也在AI社區(qū)引起了廣泛討論。

谷歌DeepMind科學(xué)家Denny Zhou表示,自己ICML 2023的一片論文中,也發(fā)現(xiàn)了類似現(xiàn)象。

圖片

Meta AI研究者田淵棟表示,梯度下降可能無法學(xué)習(xí)到這樣的權(quán)重。

圖片

巧的是,AI2等機構(gòu)在23年的一篇研究也被翻出,證實模型根本沒有學(xué)會數(shù)學(xué)推理,只是在「照背」答案而已。

網(wǎng)友們搜羅了越來越多的學(xué)術(shù)證據(jù),一致證明:LLM可能根本不會推理!

圖片

圖靈三巨頭之一的LeCun,也在最近的萬字演講表示,Meta現(xiàn)在已經(jīng)完全放棄純語言模型,因為僅靠文本訓(xùn)練,它永遠不可能達到接近人類水平的智能!

圖片

目前Transformer架構(gòu)的大語言模型,難道真的是一條彎路?

換個馬甲,大模型的數(shù)學(xué)能力就滑坡了!

這次,蘋果的研究者們仔細研究了GPT-4o和o1系列閉源模型,以及Llama、Phi、Gemma、Mistral等開源模型的數(shù)學(xué)能力。

此前,業(yè)界用來評價大模型數(shù)學(xué)能力的數(shù)據(jù)集是2021年發(fā)布的GSM8K,該數(shù)據(jù)集包含8000可小學(xué)水平的數(shù)學(xué)應(yīng)用題,例如下面的例子:

當索菲照顧她侄子時,她會為他拿出各種各樣的玩具。積木袋里有31塊積木。毛絨動物桶里有8個毛絨動物。堆疊環(huán)塔上有9個五彩繽紛的環(huán)。索菲最近買了一管彈性球,這使她為侄子準備的玩具總數(shù)達到了62個。管子里有多少個彈性球?

此時距OpenAI發(fā)布GSM8K已經(jīng)三年了,模型性能也從GPT-3的35%,提升到了30億參數(shù)模型的85%以上。

圖片

不過,這真的能證明LLM的推理能力確實提高了嗎?

要知道,由于是21年發(fā)布的數(shù)據(jù)集,如今的主流大模型可能抓取的訓(xùn)練數(shù)據(jù)無意間涵蓋了GSM8K的題目。

雖然大部分模型沒有公開訓(xùn)練數(shù)據(jù)的信息,但存在數(shù)據(jù)污染的可能,這就會導(dǎo)致大模型能夠靠背題答對GSM8K中題目。

因此,用這個數(shù)據(jù)集去評判LLM的數(shù)學(xué)能力,并不準確。

于是,為了客觀評價LLM的數(shù)學(xué)能力極限,蘋果的研究者們開發(fā)了一個名為GSM-Symbolic的數(shù)據(jù)集。

GSM-Symbolic將GSM8K的題目進行了修改,例如改變了索菲這個名字,侄子這個家人的稱謂,以及各種玩具的多少(數(shù)字)。

這樣一來,就可以產(chǎn)生出很多個看起來全新,但實際上卻是具有相同內(nèi)核的題目。

圖片

另外,除了GSM-Symbolic,這項研究還提出了GSM-NoOp數(shù)據(jù)集,GSM-NoOp 向題目中添加看似相關(guān)但實際上無關(guān)的數(shù)據(jù),來判斷大模型在執(zhí)行邏輯推理任務(wù)時是否會受到無關(guān)數(shù)據(jù)的影響。

不管開源閉源,都會因題目換皮表現(xiàn)更差

實驗結(jié)果很有趣:就跟人類一樣,數(shù)學(xué)題干一換,很多LLM就不會了!

蘋果的研究者們對比了GSM8k和GSM-Symbolic在多種模型上的性能差異,結(jié)果發(fā)現(xiàn)——

無論是主流的開源模型還是閉源的GPT系列模型,甚至專門為數(shù)理推斷專門優(yōu)化的o1模型,當面對GSM-Symbolic的換皮題目時,準確率都會下降。

大多數(shù)模型在GSM-Symbolic上的平均性能,都低于在GSM8K上的平均性能。

圖片

圖片GSM8k和GSM-Symbolic和模型性能對比

即使只更改了題目中的名稱,大模型的表現(xiàn)也會有存在差異,當只改變了題目中的專有名詞時,性能下降在1%-2%之間,當實驗者更改數(shù)字或結(jié)合兩類更改時,差異則更為顯著。

圖片對比只修改題目中的專有名詞,題目中數(shù)字和都修改時的準確度

從圖2中可看出,幾乎所有模型都明顯出現(xiàn)了分布均值從右向左的逐漸移動(準確度變低),以及方差增加。

僅僅是更改一下專有名詞,就會存在如此大的差異,這種現(xiàn)象實在是令人擔憂:看來,LLM的確沒有真正理解數(shù)學(xué)概念。

即使理解了數(shù)學(xué)題目的小學(xué)生,都不會因為題目換湯不換藥,就不會做了。

隨后,蘋果的研究者繼續(xù)給這些LLM上難度。

他們引入了GSM-Symbolic的三個新變體:刪除一個分句(GSM-M1),增加一個分句(GSM-P1)或增加兩個分句(GSM-P2)。

果然,當模型面對的題目變難時,例如題目從「打電話每分鐘10分錢,打60分鐘多少錢?」變?yōu)椤复螂娫捛?0分鐘每分鐘10分錢,之后每分鐘8分錢,如此打60分鐘電話費多錢?」,大模型回答的準確性降低,方差變大,這就意味著,LLM的性能極不穩(wěn)定,可靠性越來越差。

圖片

最后,當模型面對增加了和題目無關(guān)的論述的題目(GSM-NoOP),性能的下降更是慘不忍睹。

所有模型的性能下降都更加明顯,其中Phi-3-mini 模型下降了超過 65%,甚至像o1-preview這樣的預(yù)期表現(xiàn)更好的模型也顯示出顯著的下降(17.5%)。

這是由于模型會將無關(guān)的論述當成需要操作的步驟,從而畫蛇添足地回答錯誤。

也就是說,當今性能最強大的模型,也依然無法真正理解數(shù)學(xué)問題。

圖片GSM-NoOP數(shù)據(jù)集相比GSM8k數(shù)據(jù)集的性能下降

圖片o1系列模型,依然無法避免這些問題

從這項研究的結(jié)果來看,大模型在執(zhí)行真正的數(shù)學(xué)推理方面的重大局限性。

大模型在不同版本的同一問題上的表現(xiàn)高度差異,隨著難度輕微增加而表現(xiàn)大幅下降,以及對無關(guān)信息的敏感度表明,大模型進行的推理及運算是脆弱的。

最終,蘋果研究者給出這樣的結(jié)論——它們可能更像是復(fù)雜的模式匹配,而不是真正的邏輯推理。

也就是說,即使我們繼續(xù)堆數(shù)據(jù)、參數(shù)和計算量,或者用更好的訓(xùn)練數(shù)據(jù),也只能得到「更好的模式匹配器」,而非「更好的推理器」。

大模型實際不是解數(shù)學(xué)題,還是在進行模式匹配

無獨有偶,23年的一項研究《信仰與命運:Transformer作為模糊模式匹配器》也證實——

大模型并沒有真正的理解數(shù)學(xué)概念,而只是根據(jù)模糊模式匹配來從訓(xùn)練數(shù)據(jù)的題庫中尋找答案。

圖片論文地址:https://arxiv.org/abs/2305.18654

研究者們很疑惑,為什么Claude或GPT-4這樣的模型輸出時,聽起來非常像一個人在推理,而且問題也都是需要推理才能解決的。

它們仿佛已經(jīng)在超人類智能的邊緣,但在處理一些簡單的事情上卻有很蠢。

比如,人類在學(xué)習(xí)基本計算規(guī)則后,可以解決三位數(shù)乘三位數(shù)的乘法算術(shù)。但在23年底,ChatGPT-3.5和GPT-4在此任務(wù)上的準確率分別只有55%和59%。

到底發(fā)生了什么?

在《信仰與命運》這篇論文中,Allen AI、華盛頓大學(xué)等的學(xué)者對LLM的這種表現(xiàn)提出了一種解釋——「線性化子圖匹配」。

線性子圖匹配

他們猜測,大模型解決問題的方式是這樣的。

1. 任何任務(wù)的解決問題都可以表示為一個有向圖,該圖將任務(wù)描述為一系列步驟,這些步驟會被分別解決,然后將結(jié)果組合在一起。


2. 如果整個任務(wù)的解決方案過程可以用一個圖來描述,那么其中的子任務(wù)就是該圖中的子圖。圖的結(jié)構(gòu)描述了哪些步驟依賴于其他步驟,而這種依賴順序限制了子圖如何被展平成線性序列。


3. GPT類的模型,通常就是通過近似匹配來“解決”上述子圖的。給定一個可以用子圖描述的問題,大模型就會通過大致將其與訓(xùn)練數(shù)據(jù)中相似的子圖相匹配,來進行預(yù)測。

為了證明這項猜測,研究者測試了三個任務(wù)——

乘法、愛因斯坦邏輯謎題和動態(tài)規(guī)劃問題。

拿乘法舉例。

如果LLM真的能通過足夠的數(shù)據(jù)學(xué)會東西,或者能通過系統(tǒng)化的推理解決復(fù)雜的多步驟問題,那它應(yīng)該能通過足夠的例子或?qū)λ惴ǖ某浞纸忉寔韺W(xué)習(xí)乘法。

而乘法問題可以被分解為更小的問題,因此模型應(yīng)該能通過逐步推理來做出來。

LLM可以完成嗎?

為了檢驗多位數(shù)乘法任務(wù),研究者定義了一組大量的乘法問題。從計算兩位數(shù)和兩位數(shù)的乘積到五位數(shù)和五位數(shù)的乘積。

首先,他們會要求模型解決如下問題:

問題:35 乘以 90 等于多少?答案:3150。

其次,他們向模型提供了思維鏈示例,將其分解為更小的任務(wù),使用學(xué)校教授的標準乘法算法。

圖片提示模型執(zhí)行任務(wù)的程序

但如何衡量一項任務(wù)比另一項更難呢?如何追蹤模型在哪些地方失敗,如何失敗?

研究者將乘法算法描述為一個包含加法和乘法等基本操作的定向圖。

比如下面是7乘以49所涉及的運算的圖表示:

圖片

其中包含7乘以4的子任務(wù)。

圖片子程序是圖中的子圖

研究者在評估中發(fā)現(xiàn),即使經(jīng)過微調(diào),模型也無法從訓(xùn)練集中看到的小乘法問題,推廣到更大的乘法問題。

在左側(cè)圖中,藍色的單元格表示模型是在這樣的乘積上訓(xùn)練的,得分相當不錯。

原因在于,模型在預(yù)測與訓(xùn)練數(shù)據(jù)規(guī)模相同的問題時就表現(xiàn)良好。

然而在橙色的單元格,如三位數(shù)與三位數(shù)或更高位數(shù)的乘積,得分就要差得多了。

圖片GPT-3準確率與規(guī)模對比

在操作圖中可以看出,當任務(wù)變得更加復(fù)雜時,準確度會急劇下降。

圖片寬度衡量需要同時維護多少個中間結(jié)果,而深度衡量需要組合多長的步驟序列才能達到結(jié)果

由此,研究者總結(jié)出一些真正有趣的東西。

錯誤告訴我們,LLM中真正發(fā)生的事

首先,研究者觀察到:LLM是否能成功解決問題,取決于模型之前是否見過相關(guān)的子問題。

換句話說——

1. LLM無法解決大型問題,因為它們只能解決大型問題中的部分子問題。


2. 如果它們在解決訓(xùn)練數(shù)據(jù)中頻率更高或更精確的子問題上成功了,這表明它們只是記住了答案,通過回憶解決。

這就是為什么7乘以49會失敗,但7乘以4卻取得一些進展,因為LL沒記住了「7乘以4的呢關(guān)于28」這個子問題。

更大的意義在于:與其將模型視為以一般和系統(tǒng)的方式處理問題的各個部分,不如將其視為搜索引擎,它會先召回與特定問題部分大致匹配的例子,然后將這些近似回憶拼接起來。

也就是說LLM通過僅完成整體問題的一部分而取得部分成功。

它是以自己反直覺、更膚淺、更實際的方式分解問題,更關(guān)注文本的「表面」,而非系統(tǒng)地思考給定的乘法算法。

圖片高信息增益,甚至能預(yù)測意外的部分解決方案

一些問題

作者提出,子圖匹配的想法,更多的是一個起點,而非對現(xiàn)狀的精確完整描繪。

后續(xù)的實證研究,又削弱了這一解釋的普遍性。

比如McLeish 等人(2024 年)表明,通過「算盤嵌入」的架構(gòu)修改,可以顯著提高Transformer在算術(shù)上的性能。

LLM能夠解決比訓(xùn)練數(shù)據(jù)中更大的多位數(shù)加法問題,但未體現(xiàn)乘法性能的同等提升。

如果線性子圖匹配是Transformer的一般性限制,那么加法為何會如此容易受到特定修復(fù)的影響,而非乘法呢?

這又引出了新的問題:什么樣的文本表示將使模型更容易處理多步問題——比如推理鏈問題?

那些從外部看起來像是在推理的系統(tǒng),即使我們知道其內(nèi)部并未在邏輯蘊涵空間中執(zhí)行搜索,它們的實際限制在哪里?

這些都留待未來解決。

馬庫斯:我早說過了

對于蘋果的研究,馬庫斯也專門寫了一篇博客進行論述。

圖片

他表示,LLM的這種「在受到干擾材料的影響下推理失敗」的缺陷,并非新現(xiàn)象。

在2017年,斯坦福大學(xué)的Robin Jia和Percy Liang就進行過類似研究,得出了相似的結(jié)果。

在問答系統(tǒng)中,即使只是改變一兩個無關(guān)緊要的詞或添加一些無關(guān)信息,也可能得到完全不同的答案

另一個體現(xiàn)LLMs缺乏足夠抽象、形式化推理能力的證據(jù)是,當問題變得更大時,其性能往往會崩潰。

這源于Subbarao Kambhapati團隊近期對GPT o1的分析:

性能在小問題上尚可,但很快就會下降

在整數(shù)算術(shù)中,我們也可以看到相同現(xiàn)象。

在越來越大的乘法問題中,這種下降趨勢在舊模型和新模型中都被反復(fù)觀察到。

圖片

即使 o1 也受到這個問題的影響:

圖片

LLM不遵守棋類規(guī)則,是其形式推理持續(xù)失敗的另一個例子:

圖片

馬斯克提出,甚至馬斯克的Robotaxi也會受到類似困擾:它們可能在最常見的情況下安全運行,但在某些情況下可能難以足夠抽象地推理。

馬庫斯指出:LLM愛好者總是為它們的個別錯誤開脫,然而最近的蘋果研究及其他相關(guān)研究和現(xiàn)象,都太過廣泛和系統(tǒng)化,讓我們無法視而不見了。

他表示,自1998和2001年以來,標準神經(jīng)網(wǎng)絡(luò)架構(gòu)無法可靠地外推和進行形式化推理,一直是自己工作的核心主題。

最后,他再次引用了自己在2001年的《代數(shù)心智》一書中的觀點——

符號操作,即某些知識通過變量及其上的操作以真正抽象的方式表示,就像我們在代數(shù)和傳統(tǒng)計算機編程中看到的一樣,必須成為AI發(fā)展的組成部分。


神經(jīng)符號AI——將這種機制與神經(jīng)網(wǎng)絡(luò)結(jié)合起來——很可能是未來前進的必要條件。

圖片

總的來看,無論是將乘法拆解為有向圖,還是一旦面對應(yīng)用題中稱謂和數(shù)字變換就答錯,這都反映了大模型在邏輯推理上的本質(zhì)缺陷。

總之,LLM在背題這件事,算是「人贓俱獲」了。

這兩項研究也警示我們:正如Meta的AI科學(xué)家田淵棟所說,只要大模型還是依賴梯度下降,那么就不要期待它變得不那么愚蠢。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2024-11-18 09:30:00

2024-06-17 13:34:54

2024-09-09 08:31:15

2025-10-11 02:25:00

2025-10-31 16:04:17

DeepMindGPT-5世界模型

2024-11-29 18:37:07

2024-06-24 12:22:34

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-09-29 13:40:00

2023-07-31 11:43:17

研究論文

2025-02-11 09:15:00

AI模型訓(xùn)練

2023-11-18 09:30:42

模型AI

2025-09-30 08:53:51

2022-03-01 15:15:41

AI樂譜論文

2025-11-18 08:46:00

大模型強化學(xué)習(xí)Meta

2025-04-22 11:00:00

網(wǎng)絡(luò)協(xié)議通信網(wǎng)絡(luò)

2021-07-06 08:59:18

抽象工廠模式

2021-05-11 08:54:59

建造者模式設(shè)計

2021-07-14 10:08:30

責任鏈模式加工鏈

2024-10-17 14:02:19

點贊
收藏

51CTO技術(shù)棧公眾號

韩国av网站在线| 日韩 欧美 亚洲| 未满十八勿进黄网站一区不卡| 国产人妖乱国产精品人妖| 国产精品免费福利| 99国产精品无码| 日韩精品久久久久久久软件91| 亚洲综合免费观看高清完整版在线 | 午夜亚洲福利在线老司机| 国产亚洲精品久久久久久777| 欧美激情第一区| 中文在线а√在线8| 337p粉嫩大胆色噜噜噜噜亚洲| 国产欧美日韩中文字幕在线| 国产无遮无挡120秒| 加勒比久久综合| 日韩欧美区一区二| 在线视频日韩一区| 波多野结衣在线高清| 国产精品免费人成网站| 精品视频第一区| 91无套直看片红桃| 午夜一级久久| 欧美激情视频免费观看| 天堂av网手机版| 亚洲精品aaaaa| 欧美成人aa大片| 欧美日韩一区二区三区69堂| 免费一二一二在线视频| 亚洲美女一区二区三区| 少妇精品久久久久久久久久| 欧美在线精品一区二区三区| 极品美女销魂一区二区三区 | 成人午夜激情影院| 成人免费在线视频网站| 国产一区二区视频免费| 91久久亚洲| 欧美成人午夜激情| 三级黄色免费观看| 欧美日韩激情在线一区二区三区| 亚洲国产欧美一区二区三区同亚洲 | 亚洲欧洲国产精品| 性欧美18—19sex性高清| 国产一区二区av在线| 欧美综合亚洲图片综合区| 国产中文字幕视频在线观看| 婷婷av在线| 亚洲欧美日韩精品久久久久| 四虎一区二区| 国产精品二线| 国产欧美一区二区三区在线看蜜臀 | www.久久精品.com| 黄色资源网久久资源365| 国产精品人人做人人爽| 糖心vlog精品一区二区| 日韩电影一区二区三区四区| 日本欧美精品在线| 国产成人无码精品久在线观看| 欧美va天堂在线| 九九精品视频在线| 久久黄色小视频| 激情综合在线| 69精品小视频| 久久久精品视频网站| 日韩精品一级中文字幕精品视频免费观看 | 日韩欧美不卡一区| www.黄色网| 久久国产精品色av免费看| 亚洲精品二三区| 97超碰在线资源| 久久国产小视频| 久久综合国产精品台湾中文娱乐网| 久草综合在线视频| 国产精品theporn| 欧美在线观看网址综合| 中文字幕 亚洲视频| 激情深爱一区二区| 国产精品10p综合二区| 五月激情丁香婷婷| 国产女主播一区| 亚洲色图都市激情| 国产精品一区二区日韩| 色婷婷香蕉在线一区二区| 九九热免费精品视频| 福利一区在线| 欧美一区二区久久| 深夜视频在线观看| 日韩美女国产精品| 亚洲视频一区二区| 成人一区二区三区仙踪林| 日韩美脚连裤袜丝袜在线| 亚洲区在线播放| 欧美aaa级片| 亚洲在线久久| 国语自产精品视频在免费| 青青青国产在线| 日本欧美一区二区三区乱码| 国产精品一区二区女厕厕| 中文字幕在线观看第二页| 国产美女久久久久| 精品视频一区二区| 国产无套粉嫩白浆在线2022年 | 国产精品丝袜一区二区| 自拍欧美日韩| 国产精品91在线观看| 国产免费久久久| 波波电影院一区二区三区| 欧美性xxxx69| 在线看三级电影| 福利视频第一区| 日韩成人精品视频在线观看| 红杏aⅴ成人免费视频| 亚洲精品影视在线观看| 四虎地址8848| 国产视频一区三区| 成人黄色大片在线免费观看| 日日躁夜夜躁白天躁晚上躁91| 国产人妖乱国产精品人妖| 日韩video| 精品国产午夜福利在线观看| caoporen国产精品| 日韩免费电影一区二区| 国产精品久久一区二区三区不卡| 日韩在线影视| 欧美婷婷六月丁香综合色| 中文字幕在线视频一区二区| 校花撩起jk露出白色内裤国产精品| 中文字幕精品久久| 欧美精品乱码视频一二专区| 久久精品二区三区| 91精品国产一区二区三区动漫| 麻豆国产在线播放| 亚洲一区视频在线| av在线免费看片| 日本韩国欧美超级黄在线观看| 日韩亚洲在线观看| 在线观看 亚洲| 成人妖精视频yjsp地址| 一区二区三区一级片| 欧美aaa视频| 日韩av最新在线| 日本黄色免费片| 麻豆精品一二三| 欧美日韩在线不卡一区| 手机在线免费av| 欧美日本一道本| 国产真人做爰视频免费| 亚洲一区二区三区免费在线观看 | 五月天综合网| 国产v日韩v欧美v| 欧美日韩成人综合天天影院| 亚洲天堂网一区二区| 欧美精品三级| 国产在线播放不卡| 成年人在线观看| 91激情五月电影| 精品国产av无码| 新狼窝色av性久久久久久| 国产欧美精品一区二区三区| 性爱视频在线播放| 欧美大黄免费观看| 久久久久久久久久久久国产| 狠狠色2019综合网| 一区二区免费电影| 国产福利亚洲| 色老头一区二区三区| 一本色道久久综合亚洲| 国产精品三级视频| 亚洲综合av在线播放| 99久久精品网站| 成人啪啪免费看| 超碰在线免费播放| 日韩一级视频免费观看在线| 在线免费观看亚洲视频| 丁香婷婷综合五月| 警花观音坐莲激情销魂小说| 欧美电影院免费观看| 九九综合九九综合| 成人h动漫精品一区二区无码 | 亚洲美女黄色片| 在线观看日本网站| 最新久久zyz资源站| 中文字幕亚洲日本| 影音先锋一区| 欧美另类一区| 欧美一区=区三区| 久久成人精品视频| 亚洲国产剧情在线观看| 色综合天天综合色综合av| 色婷婷激情一区二区三区| 中文字幕成人在线视频| 91精品国偷自产在线电影| 99高清视频有精品视频| 麻豆视频在线看| 中文欧美日本在线资源| 国产又粗又黄又爽| 精品久久久久久亚洲精品| 亚洲女优在线观看| 国产一区二区导航在线播放| 日韩精品一区在线视频| 精品久久不卡| 亚洲自拍偷拍区| 香蕉久久aⅴ一区二区三区| 亚洲精品日韩欧美| 国产精品高潮呻吟av| 亚洲国产中文字幕| 欧美熟妇激情一区二区三区| 国产精品一二三四| 无码精品a∨在线观看中文| 久久香蕉国产| 国产福利久久| 四虎国产精品免费久久5151| 亚洲18私人小影院| 9i精品一二三区| 精品精品欲导航| 中文字幕人妻一区二区三区视频| 亚洲美腿欧美偷拍| 韩国女同性做爰三级| 成人手机电影网| 亚洲图片 自拍偷拍| 久久亚洲精品伦理| 欧美乱做爰xxxⅹ久久久| 精品国产一区二区三区久久久樱花 | 天堂在线资源库| 欧美亚洲国产一区在线观看网站 | 伊人春色精品| 亚洲精品免费av| 欧美成人福利| 日本电影亚洲天堂| 污网站在线免费看| 在线日韩av观看| 色视频在线观看| 日韩欧美国产一区二区三区| 97国产精品久久久| 在线视频一区二区免费| 日韩 国产 在线| 亚洲女人的天堂| 日本美女xxx| 久久久不卡影院| 精品一区二区视频在线观看| 久久99精品久久久久婷婷| 18岁视频在线观看| 亚洲国产专区校园欧美| 成人在线免费观看网址| 久久成人综合| 日韩中文字幕一区二区| 精品一区亚洲| 午夜精品一区二区三区在线观看| 日韩精品社区| 精品国产乱码久久久久久88av| 日本精品在线播放| 亚洲va男人天堂| 日本黄色成人| 国产精品国产自产拍高清av水多| 456亚洲精品成人影院| 欧美在线视频导航| 少妇视频一区| 欧美一区二区三区艳史| 麻豆蜜桃在线观看| 2019中文字幕在线| 嗯啊主人调教在线播放视频| 欧美俄罗斯性视频| 色网在线观看| 欧美人与性动交a欧美精品| 呦呦在线视频| 欧美猛男性生活免费| 四虎影院观看视频在线观看| 欧美成人三级视频网站| 18videosex性欧美麻豆| 欧美人与性动交a欧美精品| 日韩另类在线| 午夜精品三级视频福利| 久草在线资源福利站| 91高潮精品免费porn| 日韩另类视频| 成人免费大片黄在线播放| 国产成人免费av一区二区午夜| 91精品久久久久久久久久久久久 | 欧美视频一区在线观看| 最好看的日本字幕mv视频大全| 色综合久久天天| 91一区二区视频| 欧美大肚乱孕交hd孕妇| 水莓100在线视频| 在线观看成人黄色| 黄色大片在线播放| 久久久久久尹人网香蕉| 国产精品亚洲成在人线| 成人乱人伦精品视频在线观看| 狂野欧美xxxx韩国少妇| 国产视频99| 欧美日韩国产传媒| 在线观看av的网址| 久久九九国产| 国产欧美精品一二三| 成人在线视频一区| xxxxx在线观看| 亚洲欧美另类图片小说| 日韩av在线播| 欧美高清视频一二三区| 亚洲欧美一区二区三| 日韩在线精品视频| 阿v视频在线观看| 国产精品91视频| 风间由美一区二区av101| 日韩电影大全在线观看| 成人羞羞视频播放网站| 国产曰肥老太婆无遮挡| 日本色综合中文字幕| 久久久久亚洲av无码麻豆| 久久一日本道色综合| 我要看黄色一级片| 精品视频在线免费看| 男人天堂综合网| 综合国产在线视频| caoprom在线| 91精品久久久久久久久| 日韩欧美中文字幕一区二区三区| 欧美精品七区| 欧美午夜在线视频| 亚洲欧美日本一区二区三区| 91在线观看地址| www欧美com| 欧美日韩一区二区三区视频| 蜜桃av噜噜一区二区三区麻豆| 亚洲欧美制服综合另类| 丁香花在线影院| 中文字幕在线播| 日本不良网站在线观看| 国产精品视频精品| 丁香五月缴情综合网| 天堂精品视频| 国产日韩高清一区二区三区在线| 中文字幕色网站| 国产精品女主播av| www.久久久久久久| 日韩av在线网址| 啦啦啦中文在线观看日本| 国产免费亚洲高清| 在线看成人短视频| 国产aaa免费视频| 狠狠色综合播放一区二区| 99国产精品免费| 在线免费av一区| 五月婷婷在线观看视频| 欧美激情久久久| 亚洲1区在线| 成人免费看片视频在线观看| 蜜臂av日日欢夜夜爽一区| 麻豆视频免费在线播放| 色8久久人人97超碰香蕉987| 四虎在线视频| 欧美亚洲国产视频小说| 国产精品一区二区三区美女| 国产素人在线观看| 成人禁用看黄a在线| 久久亚洲成人av| 精品奇米国产一区二区三区| 中文日本在线观看| 国产精品最新在线观看| 日韩欧美视频在线播放| 最近中文字幕一区二区| 亚洲国产精品av| av网站中文字幕| 尤物yw午夜国产精品视频明星| 国产日韩另类视频一区| 日本黑人久久| 免费成人在线影院| 国产一区第一页| 日韩一级欧美一级| 91制片在线观看| 精品综合久久| 日韩精品国产精品| 国产精品国产三级国产专业不| 欧美日本在线观看| 97caopor国产在线视频| 波多野结衣精品久久| 亚洲激精日韩激精欧美精品| 日本xxx在线播放| 在线观看成人小视频| 欧美jizzhd欧美| 成人在线视频电影| 精品99视频| 我想看黄色大片| 欧美丰满嫩嫩电影| 在线网址91| 久久精品日韩精品| 国内久久精品视频| 久草网在线观看| 亚洲免费福利视频| 色综合视频一区二区三区44| 18禁裸男晨勃露j毛免费观看| 99国产精品久久久| 中文字幕av在线免费观看| 久久综合亚洲社区| 中文字幕亚洲在线观看| 国产真人无码作爱视频免费| 亚洲欧美视频在线观看视频| 手机看片国产1024| 国产精品久久久久久久久粉嫩av |