精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐

發(fā)布于 2025-6-13 06:57
瀏覽
0收藏

一、背景

筆者之前寫過 FP8 訓(xùn)練的綜述文章以及 FP4 訓(xùn)練和推理的綜述文章,本文對其進一步補充,介紹 NVIDIA 最新的使用 MXFP8 預(yù)訓(xùn)練的方案。

對應(yīng)的論文:[2506.08027] Recipes for Pre-training LLMs with MXFP8 [1]

二、摘要

精度縮放——即在預(yù)訓(xùn)練過程中使用更少的比特來表示模型參數(shù)及相關(guān) Tensor——已成為一種在不犧牲精度前提下提升 GPU 效率的有效技術(shù)。NVIDIA 最新 Blackwell GPU 中引入 Microscaling (MX) 格式,為 Tensor 量化提供了細(xì)粒度解決方案。

盡管 MX 格式相較于其他低精度表示法有望提升數(shù)值穩(wěn)定性,但在實際應(yīng)用中仍需謹(jǐn)慎使用。本文研究表明:當(dāng)采用 OCP 規(guī)范建議的舍入模式進行 LLM 預(yù)訓(xùn)練時,會導(dǎo)致模型不收斂。為此,作者提出了一種改進的舍入模式——通過采用"向無窮大舍入"方式計算縮放因子,成功實現(xiàn)了 8B 參數(shù)模型在 15T Token 上采用 MXFP8 格式的預(yù)訓(xùn)練。

PS:可能是因為采用 Hopper GPU 模擬的方式,而不是真實的 Blackwell 訓(xùn)練,因此論文并沒有提供相應(yīng)的效率提升數(shù)據(jù)。

三、引言

3.1 MXFormat

2023 年,OCP(Open Compute Project) 在 AMD, Arm, Intel, Meta, Microsoft, NVIDIA, Qualcomm 的參與下提出 Microscaling(MX)Format 規(guī)范(OCP Microscaling Formats (MX) Specification Version 1.0 [2]),主要是為了對跨硬件/軟件平臺可實施的新功能及格式進行標(biāo)準(zhǔn)化,有效減少軟件與基礎(chǔ)設(shè)施成本,并消除定制化解決方案帶來的各類附加費用或管理負(fù)擔(dān),推動硬件性能與效率的提升。

如下圖所示,MX 最主要的特點是其包含三部分內(nèi)容(很類似于常見的 Per-Block 細(xì)粒度量化方式,只不過這里是制定了一個統(tǒng)一的規(guī)范):

  • P:規(guī)定了 d 個 bit 數(shù)據(jù)的表示(編碼)方式,比如 FP8 的 E5M2 是怎么表示的。
  • k:k 個元組作為一個 Block。
  • X:上述 k 個元素的 Block 會對應(yīng)一個共享的 Scale 值。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

我們在之前的文章中提到過,即使都是 E5M2 或者 E4M3,不同公司的硬件可能采用不同的格式。比如 NVIDIA Hopper GPU 上的 E5M2 符合 IEEE 754 Style,而 E4M3 卻不符合 IEEE 754 Style。如下圖所示,IEEE 754 Style 的 E4M3 的范圍為 [-240, 240],而 ARM-Intel-Nvidia Style 的 E4M3 的范圍是 [-448, 448]: 

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

在 MX 中也對上述問題進行了規(guī)范化,以 MXFP8 為例,其規(guī)定的 E4M3 和 E5M2 編碼方式如下圖 Table 1 和 Table 2 所示:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

3.2 細(xì)粒度量化

更低的精度通常意味著更難量化,為了維持精度需要更細(xì)力度的 Scaling Factor,比如:

  • FP16:早期使用 FP16 進行混合精度訓(xùn)練時通常整個模型一個 Scaling Factor 即可。
  • FP8:在 Inference 時通常 Per-Tensor 的 Scaling Factor 即可比較好的維持精度;而 Training 時往往需要 Per-Block 或 Per-Channel,不過 Block 通常比較大,比如 128x128 或 128x1。
  • FP4:需要 Per-Block 量化,并且 Block 需要比較小,比如 32 或 16。

更細(xì)粒度的量化也意味著更高的額外成本,Block 越?。6仍郊?xì)),額外成本越高。如下圖所示,對于一個常見的內(nèi)積操作:

  • Per-Tensor 量化:需要額外執(zhí)行 1 次 Scaling Factor 處理。
  • Per-Block 量化:需要額外執(zhí)行很多次 Scaling Factor 處理。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

為了更好的解決上述問題,NVIDIA 在新的 Blackwell Tensor Core 中支持了新的 Block-Scaled 類型,原生支持 Microscaling Formats,如下圖 Table 1 所示,其支持 MXFP8、MXFP6、MXFP4:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如下圖所示,在 Tensor Core 計算時,可以將數(shù)據(jù) A/B 及它們對應(yīng)的 Scaling Factor A/B 一起輸入,并全部在 Tensor Core 內(nèi)完成。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

當(dāng)然,其對數(shù)據(jù)類型也有一定的要求,如下圖所示:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

四、MXFP8 預(yù)訓(xùn)練

4.1 轉(zhuǎn)換 FP32 到 MXFP8

在訓(xùn)練的 Forward 與 Backward 過程中,模型 Weight、Activation 及 Gradient Tensor 均由 FP32 量化到 MXFP8 格式。量化后的 MXFP8 Tensor 隨后存儲于硬件中并執(zhí)行運算。作者首先闡述了轉(zhuǎn)換過程 Quantize_to_fp8(Vi/2X)。下文所述的量化方法統(tǒng)一適用于所有 MX 格式(包括 E4M3、E5M2、E2M3、E3M2 及 E2M1),僅 MX 數(shù)據(jù)類型存在差異。

計算 X 值:通常情況下,Tensor 中各 Block 內(nèi)的大部分?jǐn)?shù)值會超出目標(biāo) MX 格式的可表示范圍,既可能低于最小可表示數(shù)(下溢),也可能高于最大可表示數(shù)(上溢)。為解決這一問題,需將 Block 內(nèi)所有數(shù)值乘以一個 Scale 因子,使絕大多數(shù)數(shù)值被調(diào)整至可表示范圍內(nèi)。

該 Scale 因子 X 的計算基于 32 個(MX 規(guī)范,k)高精度輸入值中的絕對最大值(amax),即amax = max(‖Vi‖); 1≤i≤32。其核心目標(biāo)是將輸入中的 amax 映射為 MX 格式中的最大可表示值。當(dāng)輸入數(shù)據(jù)包含無窮大(Infinity)或非數(shù)值(NaN)時需特殊處理:若某 Block 的 amax 為 0,則設(shè)定 X=-127,此時 X 為 2-127,且該情況下所有 Qi’ 均置為 0。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

根據(jù) OCP 規(guī)范,當(dāng) X 不為 Inf、NaN 或 0 時,X 應(yīng)設(shè)定為不超過 “amax 除以 MX 格式類型最大可表示二次冪” 的最大二次冪。以 E4M3 類型為例,由于 448 是其最大幅值,故 X 的計算公式為X=floor(log?(amax))/floor(log?(448))。值得注意的是,OCP 規(guī)范在此計算過程中忽略了該比率浮點數(shù)尾數(shù)部分的影響。

作者觀察到遵循 OCP 規(guī)范時存在精度下降現(xiàn)象。如下圖 Figure 2 所示為兩種 Token 規(guī)模(300B 和 1T)下訓(xùn)練的 843M 參數(shù)量 Transformer 模型的訓(xùn)練損失曲線。其采用兩種不同配置方案:

  • cfg1:所有 Tensor(Weight W、Activation A、Gradient G)均采用 E4M3 格式。
  • cfg2:Weight W、Activation A 采用 E4M3 格式,Gradient G 采用 E5M2 格式。

E5M2 格式相較于 E4M3 具有約 1.8 倍的 binades 優(yōu)勢。鑒于 Gradient 通常具有更大的動態(tài)范圍,早期的工作 [2209.05433] FP8 Formats for Deep Learning [3] 主張采用 E5M2 格式進行 Tensor 縮放。實驗結(jié)果表明,在 cfg1 與 cfg2 中,使用 OCP 方法計算縮放因子均會導(dǎo)致訓(xùn)練發(fā)散(如下圖 Figure 2a)或相對于 BF16 基準(zhǔn)的損失差距擴大(如下圖 Figure 2b)。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如下圖 Algorithm 1 概述了作者計算 Scale 因子的方法。其核心改進在于:當(dāng)處理 amax 與 MX 格式最大可表示值 destmax 的比值指數(shù)時,采用向正無窮方向的 round-up 策略(同時飽和至 UE8M0 格式的極值邊界)。這與 OCP 方案形成鮮明對比,后者實質(zhì)上是建議對 Scale 值執(zhí)行 round-down 操作。由于高精度值 Vi 需通過 Scale 因子 2X 進行縮放,對分?jǐn)?shù)項 (Vi/2X) 分母實施 round-up 操作,會更傾向于將 amax 映射至 destmax 以下;反之,OCP 方法則傾向于使 amax 超過 destmax(后續(xù)必須通過截斷處理使其可表示)。作者推測 OCP 取整方法帶來的飽和效應(yīng)會影響模型精度。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如上圖 Figure 2 所示,采用提出的舍入方案后,Gradient 位寬配置為 E4M3 的 MXFP8(藍(lán)色曲線)與 E5M2 的 MXFP8(紫色曲線)在 300B 和 1T Token 的訓(xùn)練過程中,其損失曲線均與 BF16 完全重合。

FP32 數(shù)值到 MX 格式的量化過程:當(dāng)縮放因子 X 確定后,Tensor Vi 通過乘以 2X 進行尺度變換,隨后量化至最接近的 FP8 可表示數(shù)值(即 Quantize_to_fp8())。該量化步驟采用“就近取偶(Round-to-nearest-ties-to-even,RN)”舍入法,且轉(zhuǎn)換過程具有飽和特性——若舍入結(jié)果超出 FP8 最大值或低于最小值,則將結(jié)果截取至相應(yīng)的極值。

這種轉(zhuǎn)換機制在低精度 LLM 預(yù)訓(xùn)練中的典型應(yīng)用場景是:矩陣乘積累加運算(MMA)的輸出(通常以 FP32 格式存儲)需要映射為 MXFP8 格式,相比存儲 FP32 數(shù)值可顯著節(jié)省寫入帶寬和存儲容量。模型后續(xù)運算讀取 MXFP8 數(shù)值時,相較加載 FP32 數(shù)據(jù)也能減少讀取帶寬消耗。此外,由于 Tensor Core 可直接處理 MX 格式輸入,低精度 MMA 操作不僅能降低能耗,還能獲得更高的計算吞吐量。

4.2 所有 Tensor 采用 E4M3

在 Blackwell 架構(gòu)中,F(xiàn)P8 浮點格式包含兩種變體:E4M3 與 E5M2。實驗研究表明:

Weight 與 Activation 量化性能對比:采用 E4M3 格式量化 Weight 和 Activation 時展現(xiàn)出更優(yōu)的訓(xùn)練收斂性。如下圖 Figure 3a 所示(測試模型與 Figure 2b 相同,參數(shù)量 843M),當(dāng) Activation(紫色曲線)或 Weight(藍(lán)色曲線)采用 E5M2 格式時,其損失函數(shù)收斂性顯著差于所有 Tensor 采用 E4M3 量化方案(橙色曲線)。值得注意的是,僅 Gradient 采用 E5M2 時(黃色曲線)仍能維持較好的收斂特性。

Gradient Tensor 量化分析:E4M3 格式在 Gradient 量化中能保持與 BF16 預(yù)訓(xùn)練相當(dāng)?shù)膿p失,這一優(yōu)勢在參數(shù)量 ≥2B 的模型中尤為顯著。如下圖 Figure 3c 展示了 8B LLM(1T Token 訓(xùn)練)的對比結(jié)果:E4M3 Gradient 量化(橙色曲線)的最終損失值顯著低于 E5M2 方案(黃色曲線),且該差距隨訓(xùn)練 Token 數(shù)量增加而擴大。這一現(xiàn)象揭示了模型參數(shù)量對數(shù)值格式選擇的敏感性,強調(diào)需在不同規(guī)模模型中系統(tǒng)評估格式的數(shù)值特性(PS:這也是為什么筆者一直提到之前很多文章只在小規(guī)模模型、數(shù)據(jù)量下做實驗不夠有說服力的原因)。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

既往研究采用的 Tensor 級縮放 FP8 方案及 DeepSeek V3([2412.19437] DeepSeek-V3 Technical Report [4]) 提出的粗粒度 Block-Scaled 方案均默認(rèn)選用 E5M2 格式處理 Gradient Tensor(PS:論文這里表述有問題,DeepSeek V3 中其實所有 Tensor 都已經(jīng)采用 E4M3 格式;此外,這里的粗粒度是相對 32 的 Block 大小而言,在 DeepSeek 中為了效率采用的是 128 或者 128x128 的 Block 大?。?。本研究發(fā)現(xiàn):當(dāng)采用細(xì)粒度縮放(32 元素 Block)時,E4M3 格式的 17.8 個 binades 可充分滿足動態(tài)范圍需求。在滿足動態(tài)范圍前提下,量化精度成為關(guān)鍵因素——E4M3 每個指數(shù)區(qū)間包含 8 個量化樣本,其采樣密度是 E5M2(4樣本/區(qū)間)的 2 倍。因此,提出的 MXFP8 預(yù)訓(xùn)練方案對所有三類 Tensor(Weight、Activation、Gradient)均采用 E4M3 數(shù)據(jù)類型進行量化。

MXFP8 實例化層級及訓(xùn)練流程:論文所有研究均采用基于語言的 Transformer 模型,未來工作將探索該方案在語音與視覺模型中的應(yīng)用。研究表明,量化策略建議:

  • 將模型中所有 Transformer  Block 的 QKV、Proj 以及 FFN 的 Up-proj 和 Down-proj 轉(zhuǎn)換為 MXFP8 格式。
  • Self-Attention 中的批量矩陣乘法(BMM1:Query-Key 點積和 BMM2:Attention Score-Value 乘積)以及 Softmax、激活函數(shù)和殘差相加等運算仍保持高精度計算。
  • 輸入 Embedding 層和最終輸出 LM-head 同樣采用 BF16 或 FP16 格式。

如下圖 Figure 4 所示,這種配置能最可靠地維持與 BF16 預(yù)訓(xùn)練相當(dāng)?shù)木人?,論文所有實驗均遵循此?zhǔn)則。在 MXFP 量化訓(xùn)練過程中,框架需為 Tensor(Weight、Activation 和 Gradient)保持兩個副本:每個副本沿點積歸約(dot-product reduction)軸(行與列)分別量化。Figure 4 展示了訓(xùn)練迭代中各 Tensor 在 Forward(FPROP)、Weight Gradient(WGRAD)和 Activation Gradient(DGRAD)計算中的使用方式。由于每個 Tensor 需以原始和轉(zhuǎn)置兩種形態(tài)參與運算,量化需沿行列兩個獨立軸向分別執(zhí)行。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

當(dāng)前研究總結(jié):提出的 MX Scale 因子舍入方案解決了基于 OCP 方法導(dǎo)致的不收斂問題,在 843M 參數(shù)模型上實現(xiàn)了 1T Token 訓(xùn)練下與 BF16 相當(dāng)?shù)木取=Y(jié)合 Algorithm 1 中的 E4M3 格式及 Scale 因子計算方法,該方案可擴展至 8B 參數(shù)模型(15T Token 訓(xùn)練)——作者聲稱,這是目前采用 MXFP 格式的最大規(guī)模 LLM 預(yù)訓(xùn)練案例。

如下圖 Figure 6 所示,W16A2.5 規(guī)模 MoE 模型,1T Token 預(yù)訓(xùn)練也能實現(xiàn)同樣的效果:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

4.3 15T Token MXFP8 預(yù)訓(xùn)練結(jié)果

作者采用 Megatron-LM 框架預(yù)訓(xùn)練了一個 8B 參數(shù)的 Nemotron 模型。該模型包含 32 個 Transformer Block,每個 Block 32 個 Attention Head,隱層維度為 4096,采用 GQA 且 Group 大小為 8,KV 通道數(shù)為 128,預(yù)訓(xùn)練階段序列長度為 8192。共訓(xùn)練 15T Token,Batch Size 為 768。初始學(xué)習(xí)率設(shè)為 6×10??,并通過 cosine decay 到 6×10??。如下圖 Table 2 為幾個模型的詳細(xì)配置:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

采用分階段數(shù)據(jù)混合策略進行訓(xùn)練:第一階段使用促進數(shù)據(jù)多樣性的混合數(shù)據(jù)集,第二階段則轉(zhuǎn)向高質(zhì)量數(shù)據(jù)集(如維基百科),在訓(xùn)練進度達到 60% 時切換至第二階段。此類混合策略在其他大規(guī)模預(yù)訓(xùn)練框架中亦有應(yīng)用。

模型預(yù)訓(xùn)練在 3072 Hopper GPU 上完成(實驗周期內(nèi)缺乏支持 MX 格式的 Bloackwell 硬件平臺)。通過在 Hopper GPU 上模擬 MX 格式實現(xiàn):輸入矩陣乘法加速器(MMA)的 Tensor 先量化為 MX 格式,在執(zhí)行 BF16 MMA 運算前轉(zhuǎn)換回 BF16 格式。為驗證模擬方案的數(shù)值保真度,作者與 Blackwell 平臺上采用真實 MXFP8 格式訓(xùn)練的 2B 參數(shù) LLM 進行對比實驗,確認(rèn)二者輸出結(jié)果完全一致。

如下圖 Figure 5 展示了 8B 預(yù)訓(xùn)練模型的訓(xùn)練損失及任務(wù)級準(zhǔn)確率??梢钥闯觯瑑山M下游任務(wù)的評估分?jǐn)?shù):

  • MMLU 上的 5-shot 分?jǐn)?shù)。
  • 9 個通用 Reasoning 基準(zhǔn)(ARC-Challenge 與ARC-Easy、Race、PIQA、Winogrande、Hellaswag、OpenBookQA、Social IQA 和 Commonsense QA)上 1-shot 分?jǐn)?shù)的平均值。

主要結(jié)果如下:

  • 采用 MXFP8 預(yù)訓(xùn)練時,模型的驗證困惑度與 BF16 預(yù)訓(xùn)練結(jié)果持平(Figure 5 左圖)。在整個預(yù)訓(xùn)練過程中,MXFP8 與 BF16 的驗證困惑度差異始終小于 0.50%。
  • Figure 5 中、右兩圖顯示了兩組下游任務(wù)的評估分?jǐn)?shù)。MXFP8 訓(xùn)練模型的得分與 BF16 訓(xùn)練模型完全匹配,證明 MXFP8 可作為 LLM 預(yù)訓(xùn)練的有效候選方案。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

MXFP8 與 FP8 對比:除 MXFP8 和 BF16 外,F(xiàn)igure 5 還展示了傳統(tǒng) FP8 精度訓(xùn)練同模型的任務(wù)級分?jǐn)?shù)。FP8 方案采用軟件模擬的分塊縮放技術(shù),通過整體 Tensor 縮放使多數(shù) Tensor 值落入量化格式的可表示范圍。遵循 [2504.03624] Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [5] 的 FP8 預(yù)訓(xùn)練設(shè)置建議:模型首尾 Transformer Block 保持 BF16 精度,其余 Block 的線性層量化為 FP8,該配置適用于 20T Token 規(guī)模的 8B 和 56B 參數(shù) LLM 預(yù)訓(xùn)練。但保留部分 BF16 層會影響端到端加速比,并增加預(yù)訓(xùn)練復(fù)雜性——需額外決策哪些層維持高精度。實驗表明,MXFP8 在這兩組任務(wù)上無需任何 BF16 層即可達到與 FP8 相當(dāng)?shù)木取?/p>

MXFP8 與分塊 FP8 的對比:進一步地,諸如 Deepseek-V3 等研究表明,在使用 FP8 時需要縮小 Block 規(guī)模。在此配置下,部分 Tensor 需采用 1x128 向量級縮放,而其他 Tensor 則需實施分塊(如 128x128)縮放,這增加了 GEMM Kernel 函數(shù)設(shè)計的復(fù)雜度。MXFP8 的原生支持則簡化了這一過程——其細(xì)粒度縮放機制提供了更優(yōu)的數(shù)值魯棒性,同時規(guī)避了小 Block 尺寸與硬件速度之間的權(quán)衡問題。

綜上所述,相比于 BF16 或 FP8 預(yù)訓(xùn)練,MXFP8 能保持同等精度。在 GB200 Blackwell 系統(tǒng)上,MXFP8 的吞吐量是 BF16 的 2 倍,這使得端到端 MXFP8 預(yù)訓(xùn)練速度超越 BF16 預(yù)訓(xùn)練。與 FP8 相比,MXFP8 方案還更加簡便(所有層均可量化且縮放由硬件處理),同時保持同等或更優(yōu)的吞吐性能。

五、參考鏈接:

  • [1] https://arxiv.org/abs/2506.08027
  • [2] https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
  • [3] https://arxiv.org/abs/2209.05433
  • [4] https://arxiv.org/abs/2412.19437
  • [5] https://arxiv.org/abs/2504.03624

本文轉(zhuǎn)載自??AI閑談??,作者:AI閑談


已于2025-6-13 10:37:59修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
精品推荐蜜桃传媒| 激情无码人妻又粗又大| 亚洲插插视频| 91视频精品在这里| 日韩免费av在线| 在线观看日本中文字幕| 国产精品久久久久久妇女| 国产嫩草影院久久久久| 91网站在线免费观看| 久久久久成人精品无码| 丝袜久久网站| 欧美婷婷六月丁香综合色| 久久综合色一本| 中文字幕一区2区3区| 日韩一区二区在线免费| 日韩一区二区三区电影| 男人的天堂狠狠干| 高清av电影在线观看| 国产在线播放一区三区四| 久久久久成人网| 国产毛片久久久久久久| 成人在线日韩| 欧美日韩国内自拍| 亚洲日本精品国产第一区| 国产激情久久久久久熟女老人av| 国产一区二区三区的电影| 中文字幕日韩精品在线| 国产吃瓜黑料一区二区| 色豆豆成人网| 亚洲精品成人悠悠色影视| 蜜桃传媒视频麻豆第一区免费观看 | 高清av免费看| 九七久久人人| 不卡av免费在线观看| 国产精品成人一区二区| 国产在线观看无码免费视频| 日韩一区二区三免费高清在线观看| 亚洲视频在线一区观看| 久久久久九九九| 国产视频在线免费观看| 久久在线精品| 久久久之久亚州精品露出| 中文字幕黄色网址| 久久99偷拍| 欧美高清性hdvideosex| 国产精品亚洲αv天堂无码| caoporn免费在线视频| 国产视频一区在线播放| 精品日产一区2区三区黄免费| 91亚洲欧美激情| 久久综合亚州| 91tv亚洲精品香蕉国产一区7ujn| 妺妺窝人体色www婷婷| 国产不卡av一区二区| 精品国产91洋老外米糕| 想看黄色一级片| 99久久er| 欧美少妇xxx| 成人黄色一区二区| 欧洲av不卡| 精品久久久久久电影| 国产 国语对白 露脸| 麻豆视频在线观看免费| 欧美国产日韩在线观看| 蜜桃成人免费视频| 午夜在线视频观看| 国产精品资源网| 成人h猎奇视频网站| 中文字幕日产av| 日韩av网站在线观看| 欧洲成人午夜免费大片| 国产情侣自拍av| 亚洲国产高清一区| 欧美极品欧美精品欧美视频| 九九热这里有精品视频| 午夜久久影院| 欧美高跟鞋交xxxxhd| 青青草激情视频| 色97色成人| 伊人久久久久久久久久| 色欲狠狠躁天天躁无码中文字幕 | 麻豆tv入口在线看| 国产精品第四页| 在线视频91| 3d玉蒲团在线观看| 一区二区三区国产豹纹内裤在线| 久久国产精品免费观看| caopon在线免费视频| 中文字幕一区二区三区不卡| 欧美日韩一级在线| 黄色视屏免费在线观看| 亚洲婷婷在线视频| 成人短视频在线观看免费| 青青在线视频| 欧美日韩国产丝袜另类| 成人免费aaa| 日韩久久一区二区三区| 欧美美女喷水视频| 久久黄色一级视频| 久久久久久毛片免费看| 亚洲电影第1页| 受虐m奴xxx在线观看| 91亚洲国产| 欧美激情亚洲另类| 69国产精品视频免费观看| 亚洲一卡久久| 国产女人精品视频| 精品人妻无码一区二区三区蜜桃一| 成人av在线网| 日韩一区国产在线观看| 成年人视频在线免费观看| 亚洲欧美一区二区三区极速播放 | 秋霞影院一区二区| 99国产视频| 99视频在线观看地址| 性欧美疯狂xxxxbbbb| 亚洲综合色在线观看| 国产精品黄网站| 日韩在线免费视频| 日产精品久久久| 国产精品亚洲视频| 亚洲一卡二卡区| gay欧美网站| 精品国偷自产国产一区| 亚洲精品卡一卡二| 日本欧美一区二区在线观看| 国产九色91| av观看在线| 欧美高清性hdvideosex| 国产精品久久久久久久av| 国产农村妇女精品一二区| 国产精品三区在线| 国产福利视频在线| 精品1区2区3区| 波多野吉衣中文字幕| 在线欧美亚洲| 成人情视频高清免费观看电影| 欧美日韩在线看片| 欧美视频你懂的| 白白色免费视频| 欧美亚洲一区| 久久综合九色综合久99| 国产理论在线| 日韩精品www| 在线能看的av| 99久久99久久久精品齐齐| 成人一级生活片| 日韩一区二区三区在线看| xxx一区二区| 欧美一级淫片免费视频黄| 26uuu亚洲综合色欧美| av黄色在线网站| 台湾亚洲精品一区二区tv| 97成人在线视频| 无码精品视频一区二区三区| 午夜一区二区三区视频| 欧美xxxxx精品| 国产欧美综合一区二区三区| 国产在线精品二区| 日本乱码一区二区三区不卡| 日韩精品在线影院| 精品人妻一区二区三区潮喷在线 | 日本一级片免费| 九九在线精品视频| 欧美另类videos| julia中文字幕一区二区99在线| 久久91精品国产91久久久| 亚洲黄色在线播放| 婷婷丁香久久五月婷婷| 亚洲调教欧美在线| 毛片一区二区| 午夜老司机精品| 国产一区二区三区视频在线| 欧美黑人性视频| 天堂中文在线资源| 色婷婷av一区二区三区软件| 欧美黄色高清视频| 久久99久久精品| www.avtt| 精品不卡一区| 147欧美人体大胆444| 18aaaa精品欧美大片h| 亚洲美女av在线播放| 伊人免费在线观看| 一二三区精品视频| 色无极影院亚洲| 国产毛片一区二区| 日韩精品xxxx| 日本久久黄色| 国产精品视频免费一区| 日韩三级影视| 欧美不卡视频一区发布| 五月天男人天堂| 一区二区三区四区五区精品| koreanbj精品视频一区| 少妇按摩一区二区三区| 亚洲大尺度网站| 中文字幕第一页久久| www.亚洲自拍| 亚洲理论在线| 三年中文高清在线观看第6集| 国产伦精品一区二区三区在线播放| 国产成人精品电影| 天天色天天射天天综合网| 国产偷国产偷亚洲清高网站| 一区二区三区www污污污网站| 亚洲国产视频网站| 特黄一区二区三区| 99国产精品久久久久久久久久| 我要看一级黄色大片| 亚洲人人精品| 最新av网址在线观看| 一区二区导航| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 欧美亚洲国产日韩2020| 在线免费观看黄色av| 亚洲国产精品中文| 亚洲系列在线观看| 欧美性猛交xxxx富婆弯腰| 国产十六处破外女视频| 国产日韩v精品一区二区| 日韩精品视频一区二区| 国产原创一区二区| 999精品视频在线| 亚洲一区成人| 国产不卡一区二区视频| 中文字幕午夜精品一区二区三区| 日韩欧美精品一区二区| 天堂网av成人| 精品产品国产在线不卡| 久久亚洲国产精品尤物| 国产成人精品国内自产拍免费看| 538视频在线| 欧美激情久久久久| 2021国产在线| 久久福利网址导航| 午夜免费福利在线观看| 色婷婷av一区二区三区之一色屋| 水蜜桃亚洲精品| 国产精品99久久免费观看| 91在线色戒在线| 日本成人一区二区| 西野翔中文久久精品国产| 91精品美女在线| 九色成人搞黄网站| 国产精品成人观看视频国产奇米| 在线观看爽视频| 26uuu另类亚洲欧美日本老年| h片在线播放| 欧美富婆性猛交| 免费在线观看的电影网站| 欧美激情手机在线视频 | 国产亚洲一区二区三区四区 | 外国成人在线视频| 久久久福利视频| 免费成人av| 欧美重口乱码一区二区| 国产一区二区在线| 亚洲欧美日韩另类精品一区二区三区| 国产欧美日韩精品一区二区三区| 欧美一区激情视频在线观看| 红桃成人av在线播放| 午夜欧美一区二区三区免费观看| 欧美色女视频| 中文字幕一区二区三区5566| 五月婷婷六月综合| 欧美一二三不卡| 亚洲福利精品| 成年人免费在线播放| 日韩成人精品在线观看| 五月天婷婷亚洲| 福利一区二区在线| 亚洲国产第一区| 国产欧美日韩在线视频| 开心激情五月网| 亚洲高清免费观看 | 亚洲精品一二| 日日碰狠狠躁久久躁婷婷| 欧美a级一区二区| 天天色天天干天天色| 99久久精品免费看国产免费软件| 亚洲AV无码国产精品| 国产精品久久久久婷婷| 久操免费在线视频| 欧美性生交xxxxx久久久| 日批视频免费观看| 欧美大片一区二区三区| 欧美女同网站| 久久久国产一区| brazzers在线观看| 国产精品入口免费视| 天堂va欧美ⅴa亚洲va一国产| 极品日韩久久| 888久久久| 毛片一区二区三区四区| 国产美女娇喘av呻吟久久| 人人妻人人澡人人爽人人精品 | 国产一区二区日韩精品| 日本黄色免费观看| 日韩久久一区二区| 日本天堂网在线| 日韩午夜三级在线| 搞黄视频在线观看| 久久男人av资源网站| 91福利精品在线观看| 国产区日韩欧美| 91精品一区国产高清在线gif | 国产99在线| 成人av番号网| 蜜臀久久99精品久久一区二区| 2021国产视频| 老司机精品视频导航| 精品夜夜澡人妻无码av| 亚洲国产伊人| 欧美日本在线观看| 亚洲永久精品视频| 亚洲开心激情网| 五月天激情在线| 国产欧美亚洲精品| 日韩极品少妇| 久久99久久99精品| 极品尤物av久久免费看| x88av在线| 欧美色另类天堂2015| 国产 日韩 欧美 精品| 久久综合五月天| 久久青草视频| 亚洲国产精品视频一区| 国产农村妇女精品一区二区| a级片在线观看视频| 怡红院av一区二区三区| 国产精品久久久久久久一区二区 | 欧美午夜美女看片| 好吊色一区二区| 欧美风情在线观看| 日韩精品一级| 少妇高潮大叫好爽喷水| 久久 天天综合| 内射毛片内射国产夫妻| 在线免费观看日韩欧美| 青青草免费在线视频| 2018中文字幕一区二区三区| а√中文在线天堂精品| www婷婷av久久久影片| 狠狠久久亚洲欧美| 神马久久精品综合| 欧美久久一二三四区| 免费网站看v片在线a| 91人人爽人人爽人人精88v| 欧美aaaa视频| 污网站在线免费| 中文字幕在线观看一区二区| 91麻豆成人精品国产| zzjj国产精品一区二区| 国产精品高清一区二区| 国产美女视频免费| 国产精品原创巨作av| 久久久久成人精品无码| 亚洲福利精品在线| 伊人久久av| 天天好比中文综合网| 精品一区二区免费| 日本黄色小说视频| 精品欧美乱码久久久久久1区2区 | 亚洲图片欧美视频| 日韩中文字幕免费在线观看| 91chinesevideo永久地址| 国产精品免费大片| 岛国av在线免费| 亚洲激情中文1区| 天天干天天色天天| 国产精品高潮视频| 91欧美国产| 丰满人妻一区二区三区免费视频棣| 亚洲va欧美va人人爽| 精品av中文字幕在线毛片| 国产日本欧美视频| 国产精品v亚洲精品v日韩精品| 在线观看国产免费视频| 欧美在线免费观看亚洲| 操你啦在线视频| 精品国产乱码久久久久软件| 日本成人在线不卡视频| 永久久久久久久| 日韩精品在线私人| 免费成人毛片| 欧美精品久久久久久久久久久| 久久久综合网站| 国产精品久久久久久久免费看 | 欧美亚韩一区二区三区| 亚洲人在线观看| 精品国产三级| 国产免费黄色小视频| 国产精品麻豆一区二区| 黑人乱码一区二区三区av| 国产精品视频一区二区高潮| 亚洲午夜一级| 午夜激情视频在线播放| 亚洲激情视频在线| 四虎国产精品永久在线国在线|