精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

小模型如何比肩大模型,北理工發布明德大模型MindLLM,小模型潛力巨大

人工智能 新聞
10 月 24 日,北京理工大學自然語言處理團隊發布系列雙語輕量級大語言模型明德 (Ming De LLM)——MindLLM,全面介紹了大型模型開發過程中積累的經驗,涵蓋了數據構建、模型架構、評估和應用過程的每個詳細步驟。

大型語言模型 (LLMs) 在各種自然語言任務中展現出了卓越的性能,但是由于訓練和推理大參數量模型需要大量的計算資源,導致高昂的成本,將大語言模型應用在專業領域中仍存在諸多現實問題。因此,北理團隊先從輕量級別模型入手,最大程度發揮數據和模型的優勢,立足更好地服務特定領域,減少下游任務的訓練與推理成本。

10 月 24 日,北京理工大學自然語言處理團隊發布系列雙語輕量級大語言模型明德  (MinDe LLM)——MindLLM,全面介紹了大型模型開發過程中積累的經驗,涵蓋了數據構建、模型架構、評估和應用過程的每個詳細步驟。MindLLM 從頭開始訓練,具有 1.3B 和 3B 兩個版本, 在某些公共基準測試中始終匹配或超越其他開源大型模型的性能。MindLLM 還引入了專為小型模型量身定制的創新指令調整框架,來有效增強其能力。此外,在法律和金融等特定垂直領域的應用,MindLLM 也具有出色的領域適應能力。

圖片

圖片

  • 論文地址:https://arxiv.org/abs/2310.15777

MindLLM 亮點

  1. 我們分享了數據處理方面的經驗,包括維護高質量和高比例的網絡文本、保留書籍和對話等長期數據、對數學數據進行下采樣,同時對代碼數據進行上采樣。我們建議均勻地打亂數據以進行能力學習,并將一些樣本分塊以用于小樣本學習場景。
  2. 我們的評估結果優于部分大型模型,在未使用指令微調和對齊時,MindLLM模型 在 MMLU 和 AGIEval 評測上的性能優于 MPT-7B 和 GPT-J-6B 等大型模型。在中文方面,MindLLM 在 C-Eval 和 CMMLU 上表現出與更大參數模型相當的性能。具體來說,MindLLM-3B 在數學能力上優于 MOSS-Base-16B、MPT-7B 等較大模型,在雙語能力上超過 Baichuan2-7B 和 MOSS-Base-16B。而且,MindLLM-1.3B 在數學上比同等大小的 GPT-Neo-1.3B 更好。
  3. 我們比較了雙語學習中兩種不同的訓練策略,并研究在預訓練期間是否保持數據均勻分布的影響。我們得出的結論,對于容量規模有限的輕量級模型(≤7B)來說,通過預訓練然后遷移訓練的策略來實現數學、推理或雙語對齊等復雜能力并不是最優的,因為整合新知識和現有知識是困難的。相比之下,更有效的策略是從頭開始,結合下游任務的需求,對多種數據類型進行整合,從而確保所需能力能夠穩定且有效地獲取。
  4. 我們發現在指令調優過程中利用針對特定能力的定制數據,可以顯著增強輕量級模型的特定能力,例如綜合推理能力或學科知識能力。
  5. 我們介紹了使用基于熵的質量過濾策略構建指令集的方法,并證明了其在過濾輕量級模型的高質量指令調整數據方面的有效性。我們證明,在輕量級模型的背景下,通過改善指令調優數據質量可以更有效地實現模型性能的優化,而不是僅僅增加數據量。
  6. 我們的模型在特定領域展現出了出色表現,特別是在法律和金融等領域。我們發現模型參數大小的差異不會在特定領域內產生顯著差異,并且較小的模型可以優于較大的模型。我們的模型在特定領域優于參數大小從 1.3B 到 3B 的所有模型,同時與參數大小從 6B 到 13B 的模型保持競爭力,而且模型在特定領域內的分類能力在 COT 方法下顯著增強。

數據相關

數據處理

我們使用英文和中文兩種語言的訓練數據。英文數據源自Pile數據集,經過進一步處理。中文數據包括來自Wudao、CBooks等開源訓練數據,以及我們從互聯網上爬取的數據。為確保數據質量,我們采用了嚴格的數據處理方法,特別是對于從網絡爬取的數據。

我們采用的數據處理方法包括如下幾個方面:

  1. 格式清洗:我們使用網頁解析器從源網頁中提取和清理文本內容。這一階段包括去除無用的HTML、CSS,JS標識和表情符號,以確保文本的流暢性。此外,我們處理了格式不一致的問題。我們還保留了繁體中文字符,以便我們的模型能夠學習古代文學或詩歌。
  2. 低質量數據過濾:我們根據網頁中的文本與內容的比例來評估數據質量。具體來說,我們會排除文本密度低于75%或包含少于100個中文字符的網頁。這一閾值是通過對抽樣網頁進行初步測試確定的。
  3. 數據去重:鑒于WuDao的數據也源自網頁,某些網站可能會重復發布相同的信息。因此,我們采用了局部敏感哈希算法,用以去除重復內容,同時保留了我們訓練數據的多樣性。
  4. 敏感信息過濾:鑒于網頁通常包含敏感內容,為構建一個積極正向的語言模型,我們采用了啟發式方法和敏感詞匯詞庫來檢測和過濾這些內容。為了保護隱私,我們使用正則表達式來識別私人信息,如身份證號碼、電話號碼和電子郵件地址,并用特殊標記進行替換。
  5. 低信息數據過濾:低信息數據,如廣告,通常表現為重復內容。因此,我們通過分析網頁文本內容中的短語頻率來鑒別這類內容。我們認為來自同一網站的頻繁重復短語可能對模型學習不利。因此,我們的過濾器主要關注廣告或未經認證的網站中的連續重復短語。

最終我們獲得了數據如下表:

圖片

Scaling Law

為了確保在深度學習和大型語言模型的訓練成本不斷增加的情況下獲得最佳性能,我們進行了數據量和模型容量之間的關系研究,即Scaling Law。在著手訓練具有數十億參數的大型語言模型之前,我們首先訓練較小的模型,以建立訓練更大模型的擴展規律。我們的模型大小范圍從1千萬到5億參數不等,每個模型都在包含高達100億tokens的數據集上進行了訓練。這些訓練采用了一致的超參數設置,以及前文提到的相同數據集。通過分析各種模型的最終損失,我們能夠建立從訓練FLOP(浮點運算數)到Loss之間的映射。如下圖所示,不同大小的模型飽和的訓練數據量不同,隨著模型大小的增加,所需的訓練數據也增加。為了滿足目標模型的精確數據需求,我們使用了冪律公式來擬合模型的擴展規律,并預測出3B參數模型的訓練數據量與Loss數值,并與實際結果進行對照(圖中星標)。

圖片

數據混雜與數據課程

數據對模型的影響主要涵蓋兩個方面:(1)混合比例,涉及如何將來自不同來源的數據組合在一起,以在有限的訓練預算下構建一個特定大小的數據集;(2)數據課程,涉及來自不同來源的數據的排列方式,以訓練模型特定的技能。

我們將每個數據來源等比例縮小,用于訓練15M參數量的模型。如下圖所示,不同類型的數據對學習效率和模型最終結果有不同的影響。例如,數學題數據的最終損失較低,學習速度較快,表明它具有更為明顯的模式且容易學習。相比之下,來自信息豐富的書籍或多樣化的網絡文本的數據需要更長的適應時間。一些領域相似的數據可能在損失上更為接近,例如技術相關數據和百科全書。

為了進一步探究模型從單一數據泛化到其他數據的性能,我們使用這些在單一數據上訓練好的模型在其他數據上進行測試,結果如下圖所示:

圖片

不同數據集展現出不同程度的泛化能力,例如:網頁文本、百科全書和問答數據訓練的模型在多個數據源上展現出較強的泛化能力,表明它們的內容包含了各個領域的多樣信息。相比之下,學術論文數據和代碼數據訓練的模型在數學能力上表現出色,但在泛化方面較弱,可能是由于領域特定性和獨特的格式信息。

此外,我們進行了多次的數據比例調整,以平衡模型在各種技能和數據類型之間的表現。基于我們的實驗,我們最終確定了數據混合比例的一些原則:

  • 保持高質量網絡文本和百科全書數據的比例,因為它們具有多樣性。
  • 降低數學數據的比例,以避免過擬合。
  • 利用代碼和學術數據來增強數學能力,同時通過多樣化的抽樣和相關處理減輕格式的影響。
  • 保留一些對話和書籍數據,有助于學習長程依賴關系。

除了混合比例,數據課程(數據的訓練順序)也會影響模型的能力學習。實驗表明,不同來源的數據將使模型學習不同的技能,由于技能之間的相關性,采用特定的學習順序可能有助于模型學習新的技能。我們的實驗集中于非均勻混合數據和語言遷移學習對模型能力的影響。我們的實驗表明,非均勻混合數據會導致模型在同一類型數據上進行連續訓練,這更接近于上下文內學習的情境,因此在少樣本學習方面表現更好;然而,由于學習的不均勻性,后期可能會出現明顯的遺忘現象。此外,語言遷移學習有助于模型獲得雙語能力,通過語言對齊可能提高整體性能,但我們認為使用混合語言數據進行訓練更有利于模型能力的分配與習得。

MindLLMs 模型架構

MindLLM-1.3B采用的是GPTNeo-1.3B相同的模型架構,而MindLLM-3B則是在此基礎上增加了一些改進。基于訓練穩定性和模型能力方面的考慮,我們使用旋轉位置編碼(RoPE)DeepNorm、RMS Norm、FlashAttention-2、GeGLU等優化算子。

我們在GPTNeo-1.3B的基礎上增加了中文詞表,并采用遷移學習的策略訓練MindLLM-1.3B的雙語能力。而MindLLM-3B,我們則是使用來自SentencePiece的BPE來對數據進行分詞,我們的Tokenizer的最終詞匯量大小為125,700。通過兩種不同的雙語訓練方式,我們總結了一些普遍實用的預訓練方法。

預訓練

預訓練細節

我們使用了兩種不同的策略從頭訓練雙語模型MindLLM。對于MindLLM-3B,我們直接在混合的中英文雙語數據上預訓練了800,00步,同時學習中英文能力;對于MindLLM-1.3B,我們首先在英文數據集上進行預訓練101,100步,然后使用中英文混合數據訓練了105,900步。預訓練細節如下:

預訓練階段評估

較小的模型可以擊敗更大的模型

為評估模型的中英文能力,我們使用MMLU(5-shot)和AGIEval(4-shot)評估模型英文能力,使用C-Eval(5-shot)和CMMLU(4-shot)評估模型的中文能力。其中AGIEval采用英文部分的多選題部分。評估結果如下:

圖片

在英文表現上,MindLLMs平均水平超過了GPT-J-6B,MPT-7B,MOSS-Base-16B等更大的模型,并接近Falcon-7B,而后者均有更大的模型規模和更多的預訓練數據。在中文能力上,MindLLMs則和開源的LLMs表現相當。值得說明的是,目前MindLLMs仍在訓練增強中。

此外,我們發現數據量更少,但是使用了中英文數據訓練的MindLLM-1.3B在MMLU上的表現優于GPT-Neo-1.3B,我們推測這可能是雙語學習帶來的增益,因為不同語種在能力之間也存在共通性。詳細實驗和分析可查看論文4.4節。

較小的模型在具體能力上存在巨大的潛力

對于輕量級模型,在應用于下游任務時,只需要存在相關的能力上展現出出色的表現即可。因此,我們本部分想要探究MindLLMs和其他輕量級LLM在(≤7B)具體能力上的表現和影響因素。

我們主要從數學能力、推理能力和雙語對齊能力三個角度評估不同模型表現,因為這三種能力復雜且對于雙語模型的應用相對重要。

(1) 數學

我們使用Arithmetic(5-shot)數據集評估模型的算數能力,使用GSM8K(4-shot)和MATH(4-shot)評估模型的通用數學能力。評估結果如下:

圖片

我們發現,MindLLM-3B在數學能力上的平均分數達到了16.01,超過了MOSS-Base-16B(15.71)和MPT-7B(13.42),GPT-J-6B(13.15)。此外MindLLM-1.3B的數學平均水平也超過了相同大小的GPT-Neo-1.3B。以上結果表明,輕量級模型在數學上有著巨大的潛力,較小的模型也可以在具體領域表現出超越或者與更大模型相當的水平。進一步,我們可以看到數學能力較為出色的(均分≥15),除MindLLM-3B,均為7B左右的模型。這表明,如數學能力類似的復雜能力的全面獲取可能會收到模型規模的限制,這一猜測可以進一步在模型雙語能力和推理能力的評估進一步體現。

(2) 推理

我們使用HellaSwag、WinoGrande評估模型語言推理能力(5-shot),使用LogiQA評估模型邏輯推理能力(5-shot),使用PubMedQA、PIQA、MathQA評估模型知識推理能力(5-shot),使用BBH評估模型綜合推理能力(3-shot)。具體評估結果如下:

圖片

首先,在模型容量有限的條件下,雙語帶來的能力增益可能需要和語言學習對模型能力容量的消耗進行平衡。語言學習會占據部分模型能力容量,使得復雜能力如推理能力可能無法全面獲取。比如MindLLM-1.3B在英文MMLU評估指標上均優于GPT-Neo-1.3B,但在推理能力的平均水平上弱于后者(35.61 vs 38.95)。而Blooms的推理能力沒有特別出色,但后續評估的雙語能力出色,這也一定程度上印證了以上觀點。其次,規模越大的預訓練數據集可能包含的世界知識更多,這樣邊有助于模型進行推理任務,例如Open-LLaMA-3B的推理表現和較大的模型表現相當,而其預訓練數據為1T B,超過了其它同規模的模型所使用的預訓練數據。因此,較小規模的模型依舊能夠有潛力在推理能力上獲得和較大模型相當的表現。另外,我們發現MOSS在推理上的水平似乎沒有從前期代碼數據的學習獲得增益而表現更好(MOSS在CodeGen上進行了繼續訓練),但相關工作表明,代碼確實有利于模型推理能力的提升,那么到底代碼數據如何以及何時加入訓練來增強模型的推理能力值得進一步探討。

(3) 雙語能力

我們使用Flores-101(8-shot)中的zh-en部分評估雙語或者多語模型在中英文上的對齊能力。我們加入Chinese-LLaMA-2-7B進行評估,其為在LLaMA-2-7B基礎上進行中文領域適應的模型。結果如下所示:

圖片

我們發現,模型在英文到繁體中文的翻譯表現均不佳,這主要是預訓練數據中的繁體中文占比很少。除此外,只有Blooms和MindLLM-3B在中文到英文和英文到中文雙向的語言對齊上表現出色,其次為LLaMA-2-7B和MOSS-Base-16B。而LLaMA-7B和Open-LLaMA-7B則只能在中文到英文上對齊。結合模型預訓練的數據可以知道,Blooms和MindLLM-3B的預訓練數據中中英文比例較平衡,而LLaMA-2-7B中中文數據比例遠低于英文,在LLaMA-7B和Open-LLaMA-7B的預訓練數據中中文比例更少。

因此,我們有兩個結論,其一是模型可以通過在某種語言上進行大量的訓練學習到通過的語言表示,同時混入少量的另一種語言就可以理解并進行單向對齊,如LLaMA-7B和Open-LLaMA-7B的表現。其二則是,若需要獲得更好的雙語或多語對齊能力,那么在預訓練開始階段就需要有較平衡的雙語或多語數據比例,如Blooms和MindLLM-3B。進一步,我們發現MOSS-Base-16B和Chinese-LLaMA-2-7B存在較合理的中英文數據比例,單依舊沒有表現出雙向對齊,我們的假設是雙語對齊能力在遷移訓練的時候加入是困難的,因為此時的模型已經存在了大量的知識,這在容量較小的情況下會產生矛盾沖突。這也解釋了容量更小,前期單語訓練的數據量少的MindLLM-1.3B也沒有獲得雙語對齊能力的現象。而Baichuan2-7B在其他表現方面非常出色,可能也就占據了較大的能力容量,無法學習到較好的雙向對齊能力。

(4) 總結

通過評估預訓練階段的評估結果,我們有一下兩個結論:

  • 輕量級模型在特定的領域或者能力上有巨大的潛力超過或者達到更大模型的水平。
  • 對于容量有限的模型(≤7B),我們可以在預訓練數據中根據下游任務的具體能力需求合理分配數據比例,這樣有利于模型從頭穩定地學習獲取目標能力,并進行不同知識與能力的融合和促進。

此外,論文中還對比了是否保持數據均勻分布對模型預訓練性能的影響,實驗結果顯示類似課程學習的數據構造方式可能在前期和均勻混合的數據構造方式下訓練的模型表現相當,但是最終可能出現災難性遺忘而導致表現突然下降,而后者表現則更持續穩定,獲取的預訓練數據知識也更加全面,這也佐證了以上第二點結論。另外我們發現類似課程學習的數據構造方式可能產生更多有利于增強模型上下文學習能力的數據分布。具體細節可以查看論文4.5部分。

指令微調

我們想要探討在輕量級模型上,不同類別數據集的指令微調會有什么樣的性能表現。下表是我們使用的指令微調數據集,包含我們重新構造的中文數據集MingLi、公開數據集Tulu(英文)和中英雙語數據集MOSS。

圖片

對于MindLLM來說,指令微調的數據質量要比數據數量更加重要。

MindLLM-1.3B和MindLLM-3B模型在不同數據下指令微調后在C-Eval上的性能表現如下。從實驗結果看,使用精心挑選的50,000條指令微調數據集訓練的模型性能要高于多樣性高、數據量大的指令微調數據集訓練的模型性能。同樣,在英文指標MMLU上,模型也表現出相同的性能(詳見論文Table 14)。因此,對于輕量級模型來說,如何定義和篩選出高質量的指令微調數據集是非常重要的。

圖片

基于數據熵的指令微調數據篩選策略

如何定義高質量的指令微調數據?有學者提出指令微調數據的多樣性可以代表指令微調數據集的數據質量。然而根據我們的實驗發現,指令微調的數據熵和數據長度會更加影響輕量級模型的性能。我們將每條數據在預訓練模型上的交叉熵損失定義為該數據的數據熵,并通過K-Means算法依據數據熵對數據進行聚類得到不同的數據簇。MindLLM經過每個數據簇的指令微調后再C-Eval的結果如下表所示(MMLU的結果詳見論文Table19):

圖片

依據表中結果可知,MindLLM-1.3B和MindLLM-3B在不同數據簇上的表現相差明顯。進一步的,我們對數據熵和模型在C-Eval和MMLU上的準確率的關系進行和函數擬合分析,如圖所示:

圖片

圖像中紅色五角星的點為預訓練模型的熵值。根據分析可知,當數據的熵比預訓練模型的熵高1-1.5時,模型經過該區間的數據指令微調后性能最佳。因此,我們通過數據熵定義了高質量數據,并且提出了篩選高質量數據的方法。

MindLLM可以經過指定指令微調數據集獲得特定能力

為了探究MindLLM能否經過指令微調有效的提升其特定能力,我們使用萬卷數據集中的exam數據部分微調模型,目的是為了增強模型的學科知識能力。我們在C-Eval上進行了評估,結果如下:

圖片

可以看到,經過指令微調之后,模型在學科知識能力上有了很大的提升,1.3B的MindLLM的性能甚至超過ChatGLM-6B、Chinese-Alpaca-33B等更大規模的模型。因此我們認為MindLLM在指令微調后可以提升其特定能力,又鑒于其輕量級的特點,更適合部署在下游垂直領域任務之中。

領域應用

為了展示小模型在具體領域應用的效果,我們采用了在金融和法律兩個公開數據集來做出驗證。從結果中可以觀察到,模型的參數大小對領域性能有一定影響,但表現并不明顯。MindLLM的性能在領域應用內超越了其它同等規模的模型,并且與更大的模型有可比性。進一步證明了小模型在領域應用落地有極大潛力。

金融領域

在該領域,對金融數據進行情緒感知分類任務。首先,我們從東方財富網爬取了2011年5月13日至2023年8月31日的數據,并根據接下來的股價波動對數據進行了標記。隨后,按照日期將數據劃分為訓練集和測試集。考慮到類別的不平衡性,我們對數據進行了采樣,最終使用了32萬條數據作為訓練集,而測試集則采用了2萬條數據。

圖片

我們通過兩種不同的訓練方法來比較不同模型的表現。第一,僅適用簡單的監督微調(Supervised Fine-Tuning, SFT)對文本進行分類訓練。第二,從ChatGPT中蒸餾推理過程數據,并將其作為輔助數據添加到訓練中,具體采用了COT(Chain-Of-Thought)訓練方式。

圖片

實驗結果表明,通過補充輔助信息,可以在不同程度上提升所有baseline模型和MindLLM模型效果。進一步可觀察到,COT 訓練使得 MindLLM-1.3B 和 3B 的性能比 SFT訓練性能分別提高了 27.81% 和 26.28%,除了Baichuan-7B以外,MindLLM比其他模型提高幅度更加顯著。此外,MindLLM-1.3B 和 3B 在相同規模下達到了最佳性能,而且超過了 ChatGLM2-6B 和 Open-LLaMA-7B。

法律領域

我們收集了一些公開的法律相關數據,并結合了一些通用指令數據對 MindLLM 進行指令微調 (SFT)。為了探究數據的 token 長度是如何影響模型在具體領域上的性能的,我們使用不同數據長度的數據來分別訓練 MindLLM。我們首先篩選了長度小于450的全部數據,然后分別使用 MindLLM-1.3B 和 MindLLM-3B 的Tokenizer篩選出長度在200-300和300-450之間的數據。數據統計和所對應的訓練模型如下表所示:

圖片

為了避免人類評估產生的偏差和專業知識不足造成的錯誤,我們使用采用chatgpt作為評估器,具體方法如下。由ChatGPT生成的多輪法律咨詢對話數據集,提取了其中100個對話作為我們的評估數據。我們使用ChatGPT來評估模型對于法律咨詢的回復,讓ChatGPT對于模型的回復進行排序,再根據排序結果計算Elo分數。最終篩選出一個最佳模型作為 MindLLM-Law 和其它開源模型相比較。

對于 Bloom,GPT-Neo 和 Open-LLaMA 模型使用了和 MindLLM-Law 一樣的數據集進行了微調,比較結果如下所示:

圖片

結果顯示 MindLLM-Law 尚未超越具有 13B 參數的模型和 ChatGLM2-6B,其主要原因是我們在預訓練階段法律方面數據不足,未能帶來更大的增益。但是,MindLLM相較于 Baichuan2-7B-Chat、微調后的 Open-LLaMA-7B 和其他同規模模型來講,整體優勢非常明顯。

總結

本文介紹了 MindLLM 系列模型,目前包括兩款輕量級大語言模型。我們詳細探討了它們的訓練過程,包括數據處理、預訓練、微調、以及領域應用,分享了在這些領域所積累的寶貴經驗和技術應用。盡管 MindLLM 的參數規模相對較小,但它們在多個性能評測中表現出色,甚至在某些方面超越了一些更大體量的模型。MindLLM 在領域適應方面相對于其他輕量模型表現出更卓越的性能。同時,與更大規模的模型相比,它們能夠以更快的訓練速度和更少的訓練資源取得相當的成績。基于以上分析,我們認為小模型仍然具有極大的潛力。我們將進一步提升數據質量,優化模型訓練過程和擴展模型規模,以多維度方式提升 MindLLM 的性能。未來,我們計劃在更多下游任務和特定領域進行嘗試,以更深入地實現輕量級大模型的具體應用。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-10-27 07:49:33

AI大模型

2024-12-05 13:30:00

2023-12-13 12:55:39

模型數據

2024-08-16 14:20:00

模型微調

2024-04-15 13:51:03

模型LLMLLMs

2023-11-03 07:47:12

機器資源大模型:

2022-06-02 10:29:23

神經網絡AI計算機

2024-10-31 15:00:00

AI模型

2024-02-06 10:38:10

昆侖萬維大模型

2022-11-10 10:14:12

人工智能

2024-12-02 01:18:54

2024-11-25 11:00:00

模型訓練

2024-04-16 14:13:03

人工智能語言模型

2025-02-17 12:30:00

2025-07-02 09:17:13

2025-03-06 07:28:31

DeepSeek大模型人工智能

2025-03-31 00:33:00

點贊
收藏

51CTO技術棧公眾號

色青青草原桃花久久综合 | 日韩精品91亚洲二区在线观看 | 国产精品一区二区人妻喷水| 2020国产在线| 国产情人综合久久777777| 国产九九精品视频| 久久综合激情网| 九九综合久久| 欧美丰满一区二区免费视频| 日本老太婆做爰视频| 丰满少妇一级片| 国产精品亚洲欧美| 久久九九全国免费精品观看| 秘密基地免费观看完整版中文| 欧美美女日韩| 一区二区成人在线| 亚洲精品第一区二区三区| 午夜精品久久久久久久爽| 视频一区二区中文字幕| 欧美猛交免费看| 三区四区在线观看| 精品视频自拍| 91精品国产综合久久久蜜臀粉嫩 | 免费看欧美美女黄的网站| 欧美激情中文字幕在线| 欧美一级特黄高清视频| 小说区图片区色综合区| 日韩午夜激情av| 日日干夜夜操s8| 欧美日韩国产v| 亚洲国产精品视频| 熟妇熟女乱妇乱女网站| 国产在线视频你懂得| 波多野结衣中文字幕一区二区三区| 国产欧美精品日韩| 成年人晚上看的视频| 亚洲国产裸拍裸体视频在线观看乱了中文 | 国产伦精品一区二区三区视频| 欧美v国产在线一区二区三区| 亚洲免费一级视频| 姬川优奈av一区二区在线电影| 亚洲一区欧美一区| 日本丰满少妇黄大片在线观看| 福利成人在线观看| 91免费视频大全| 国内一区在线| 蜜臀久久99精品久久久| 国产一区久久久| 国产一区欧美二区三区| 欧美日韩在线视频播放| 久久久久91| 欧洲中文字幕国产精品| 99热国产在线观看| 亚洲美女视频在线免费观看| 久久久久亚洲精品| 久久精品视频日本| 在线免费观看欧美| 欧美精品激情在线| 日韩免费av片| 国产欧美日韩亚洲一区二区三区| 欧美精品电影在线| 999这里只有精品| 亚洲欧美日韩国产一区| 欧美影院在线播放| 国产寡妇亲子伦一区二区三区四区| 亚洲国产精品第一区二区三区| 97精品国产91久久久久久| 国产污片在线观看| 免费日韩av| 国产精品久久久久久久久久三级| 中文字幕日韩免费| 美国毛片一区二区三区| 91色p视频在线| 亚洲va久久久噜噜噜无码久久| 国产精品自在在线| 国产伦精品一区二区三区高清版| 老熟妇高潮一区二区高清视频| kk眼镜猥琐国模调教系列一区二区 | 国产午夜久久久久| 在线观看成人av| 日韩免费影院| 欧美午夜影院在线视频| 爱情岛论坛vip永久入口| 欧美综合影院| 精品电影一区二区| 波多野结衣a v在线| 首页国产精品| 久久免费高清视频| 91黑人精品一区二区三区| 九九久久精品视频| 国产专区一区二区| 在线视频婷婷| 精品国产91乱高清在线观看| 九九视频精品在线观看| 国产精久久一区二区| 亚洲国产精品福利| 亚洲精品国产精品乱码在线观看| 欧美欧美全黄| 日本一区二区不卡| 草逼视频免费看| 国产亚洲一区字幕| 91亚洲精品国产| 色综合天天色| 亚洲第一视频网| 国精产品一区一区| 国产视频一区三区| 91在线观看免费网站| 日韩精品系列| 亚洲乱码精品一二三四区日韩在线 | 摸摸摸bbb毛毛毛片| 女人香蕉久久**毛片精品| 日本久久久久久久久| www.久久成人| 欧美高清在线一区| 免费成人午夜视频| 精品视频91| 色噜噜狠狠狠综合曰曰曰88av| 日韩和一区二区| 精品中文av资源站在线观看| 免费精品视频一区| av影院在线免费观看| 欧美精品久久一区二区三区| 影音先锋黄色资源| 欧美jizzhd精品欧美巨大免费| 国产精品国产三级国产专播精品人 | 97se综合| 亚洲第一精品久久忘忧草社区| 亚洲一区电影在线观看| 日韩中文字幕91| 免费一区二区三区| 2020国产在线| 欧美精品一区二区在线播放| 成人涩涩小片视频日本| 日本女人一区二区三区| 欧美日韩国产不卡在线看| 国产精品偷拍| 日韩欧美色综合| 在线看的片片片免费| 美女网站在线免费欧美精品| 美日韩免费视频| 色偷偷偷在线视频播放| 亚洲国产精品人人爽夜夜爽| 国产小视频在线看| 国产成人精品亚洲午夜麻豆| 国产又粗又大又爽的视频| 亚洲免费资源| 精品国产一区二区三区久久久| 中文字幕在线观看欧美| 国产精品水嫩水嫩| www.com黄色片| 日本一二区不卡| 国产精品亚洲欧美导航| 亚洲成a人v欧美综合天堂麻豆| 欧美午夜激情小视频| 精品国产av无码| 日韩av在线发布| 亚洲精品一区二区三区av| 国产精品xxx| 在线播放国产精品| 亚洲天堂avav| 亚洲色欲色欲www| 中文字幕欧美视频| 亚洲视频日本| 久久精品第九区免费观看 | 狠狠色狠色综合曰曰| 国产精品一区二区入口九绯色| 亚洲中字黄色| 神马影院我不卡| 午夜不卡一区| 久久久久久亚洲精品| 婷婷在线免费观看| 一本一道波多野结衣一区二区| 性猛交娇小69hd| 国内精品久久久久影院色| 国产乱人伦精品一区二区三区| 日韩在线观看中文字幕| 91极品女神在线| 国产青青草在线| 8v天堂国产在线一区二区| 美女的奶胸大爽爽大片| www.亚洲国产| 国产一二三四在线视频| 亚洲国产精品综合久久久| 国产在线视频欧美一区二区三区| **在线精品| 久久不射电影网| 日本ー区在线视频| 在线电影一区二区三区| 国产精品自拍视频一区| 亚洲国产激情av| 无码人妻久久一区二区三区蜜桃| 亚洲欧美视频一区二区三区| 亚洲精品视频一区二区三区| 亚洲高清999| 国产高清在线不卡| 怡红院红怡院欧美aⅴ怡春院| 亚洲国产欧美日韩精品| 亚洲视频在线免费播放| 午夜激情综合网| 人人艹在线视频| 91网上在线视频| 欧美一级免费在线| 久久精品动漫| 日韩欧美猛交xxxxx无码| 精品视频亚洲| 国产一区在线免费| 欧美成人精品一级| 国产精品日韩在线一区| 51精品在线| 色中色综合影院手机版在线观看| 欧美3p视频在线观看| 日韩精品一区二区三区视频 | 18video性欧美19sex高清| 色综久久综合桃花网| 四虎精品成人影院观看地址| 制服丝袜中文字幕一区| 最近国语视频在线观看免费播放| 亚洲第一成人在线| 黄色片在线观看网站| 欧美激情一区在线观看| 精品夜夜澡人妻无码av| 成人av影院在线| 国产黑丝在线视频| 麻豆成人免费电影| 92看片淫黄大片一级| 伊人成人网在线看| 午夜久久久久久久久久久| 欧美日韩伦理在线免费| 久久久久久久久四区三区| 999国产精品一区| 91网站在线免费观看| 99re久久| 国产精品久久999| 亚洲欧洲高清| 欧美亚洲午夜视频在线观看| 国产天堂在线播放视频| 欧美成人高清视频| 国产激情视频在线| 久久久999国产精品| 1024视频在线| 最近2019好看的中文字幕免费| 国产精品天堂| 一区二区亚洲精品国产| 国产免费av在线| 国产亚洲精品久久久| 国产亚洲依依| 夜夜嗨av一区二区三区免费区| 欧美香蕉爽爽人人爽| 亚洲女人被黑人巨大进入| 天堂av在线资源| 亚洲欧美www| 黄色影院在线播放| 亚洲视频在线观看免费| 国产乱理伦片a级在线观看| 一本色道久久88综合亚洲精品ⅰ| jizz在线观看| 日韩在线观看免费高清| 91黄色在线| 久久频这里精品99香蕉| 精品极品在线| 国产mv免费观看入口亚洲| 日韩一级二级| 欧美国产精品| 7777精品伊人久久久大香线蕉的| 日韩欧美不卡视频| 午夜久久久影院| 日韩在线视频不卡| 欧美日韩一区二区三区免费看| 亚洲视频在线免费播放| 日韩欧美国产精品一区| 午夜18视频在线观看| 亚洲欧洲在线免费| 三区四区在线视频| 欧美黄色成人网| 亚洲精品福利电影| 91精品国产综合久久香蕉的用户体验 | 亚洲男人的天堂在线aⅴ视频| 久久久久久久极品内射| 欧美性猛交xxxxx免费看| 一级久久久久久| 欧美一区二区人人喊爽| 少妇高潮一区二区三区69| 亚洲天堂色网站| 黄色免费网站在线| 国内精品小视频| 写真福利精品福利在线观看| 成人免费福利在线| 偷窥自拍亚洲色图精选| 亚洲一区美女| 亚洲国产专区| 99sesese| 91玉足脚交白嫩脚丫在线播放| 国产1区2区在线观看| 一卡二卡三卡日韩欧美| 欧美一区免费看| 日韩欧美区一区二| 成人高清免费观看mv| 欧美精品久久久久久久| 成人黄色图片网站| 国产一区二区无遮挡| 欧美电影免费| 爱福利视频一区二区| 国产主播一区二区| 中文字幕在线1| 亚洲一二三级电影| 一级黄色片网站| 亚洲男人天堂视频| 96av在线| 51国产成人精品午夜福中文下载| 国产欧美日韩精品一区二区三区 | 欧洲国产精品| 亚洲天堂偷拍| 超碰中文字幕在线观看| 国产精品美女久久久久久久久久久 | 99视频免费观看蜜桃视频| 波多野结衣在线观看一区二区三区| 日本一本中文字幕| 国产在线国偷精品产拍免费yy| 日韩av在线看免费观看| 亚洲成人av电影在线| 99国产成人精品| 三级精品视频久久久久| 欧美××××黑人××性爽 | 午夜精品一区二区三区免费视频| 一区二区久久精品66国产精品| 亚洲欧美日韩国产中文专区| 超碰资源在线| 成人一区二区三区四区| 久久精品久久久| the porn av| 国产日韩精品一区| wwwwww国产| 亚洲精品影视在线观看| 九色porny自拍视频在线播放| 91精品国产一区二区三区动漫 | 免费观看不卡av| 可以在线看的av网站| 成人精品视频一区二区三区| 九九精品在线观看视频| 日韩网站在线看片你懂的| a级在线观看| 91在线播放国产| 亚洲久久久久| 中文字幕一区二区在线观看视频| 国产精品久久毛片a| 国产精品怡红院| 久久精品人人做人人爽| 宅男噜噜噜66国产精品免费| 在线视频不卡国产| 国产一区二区三区在线观看免费| 欧美一级片在线视频| 欧美一区二区三区在线观看| 国产精品实拍| 91精品国产99久久久久久红楼| 国自产拍偷拍福利精品免费一| 国产调教打屁股xxxx网站| 亚洲一二三四在线| 性感美女一级片| 奇门遁甲1982国语版免费观看高清| 久久99国产成人小视频| 亚洲色图久久久| 亚洲欧洲成人精品av97| 亚洲精品一级片| 91精品国产91| 欧美日韩激情在线一区二区三区| 亚洲欧美国产中文| 亚洲精品欧美激情| 天天操天天射天天| 国产精品99久久久久久www | 北条麻妃一区二区三区中文字幕| 3d动漫一区二区三区在线观看| 四虎精品欧美一区二区免费| 成人午夜视频免费看| 亚洲精品成人在线视频| 三级精品视频久久久久| 亚洲免费一区三区| 丰满少妇久久久| 国产欧美一二三区| 亚洲a视频在线观看| 日韩av成人在线| 99久久国产综合精品成人影院| 国产情侣久久久久aⅴ免费| 色先锋aa成人| 最爽无遮挡行房视频在线| 精品日本一区二区三区在线观看| 日韩国产欧美视频| 中文字幕影音先锋| 亚洲欧洲美洲在线综合| 99久久999| 妞干网在线免费视频| 亚洲手机成人高清视频| 亚洲 小说区 图片区 都市| 国产精品麻豆va在线播放| 国产精品观看| 四虎国产成人精品免费一女五男| 91精品国产入口在线| 久久99久久99精品免观看软件| 伊人网在线免费| 中文字幕免费在线观看视频一区| 好吊色一区二区|