精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

幻方 AI DeepSeek 模型背后的萬卡集群建設 精華

發布于 2024-9-19 12:55
瀏覽
0收藏

?一、背景

幻方 AI 團隊發布了一系列 DeepSeek 大模型,比如 DeepSeek-V2、DeepSeek-Math、DeepSeek-Coder 等。在 DeepSeek V2 中提出的 MLA(Multi-head Latent Attention)也廣受好評。此外,DeepSeek V2 在強大性能的情況下還將 API 定價降低到 GPT-4 的百分之一,被稱為“價格屠夫”,也由此引發大模型 API 的價格戰。

本文中我們介紹一下幻方 AI 訓練 DeepSeek 系列模型使用的大規模 GPU 集群以及相應的各種優化手段。

對應的論文為:[2408.14158] Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

二、摘要

深度學習 (DL) 和大型語言模型 (LLM) 的快速發展對計算能力和帶寬的需求呈指數增長。此外,更快的計算芯片和互聯的成本也往往很高,這大大增加了高性能計算(HPC)的構建成本。為了應對這些挑戰,作者提出了 Fire-Flyer AI-HPC 架構、軟硬件協同設計框架及其最佳實踐。對于深度學習訓練,作者部署了配備 10000 個 PCIe A100 GPU 的 Fire-Flyer2,實現了接近 DGX-A100 的性能,同時將成本降低一半,能耗降低 40%。作者還專門設計了 HFReduce 來加速 AllReduce 通信,并采用許多措施來保證計算-存儲網絡無阻塞。其軟件棧包括 HaiScale、3FS 和 HAI-Platform,作者通過重疊計算和通信實現了更好的可擴展性。

本文中涉及的關鍵技術點為:

  • Network Co-Design:集成了計算-存儲網絡的兩層 Fat-Tree 網絡。
  • HFReduce:為了適配器 PCIe 架構的集合通信庫。
  • HaiScale:基于 PCIe 架構優化的分布式并行方案。
  • 3FS Distributed File System:解決 AI 任務下大數據的 I/O 瓶頸問題。
  • HAI Platform:提供任務調度,容錯等能力,以便增加利用率,降低成本。

PS:

  • 本文中提到的 10000 卡 A100 集群最開始應該不是為了大規模 LLM 訓練搭建,可能沒有太大的網絡通信需求;而隨著大模型的發展,向這個方向轉換時為了解決網絡問題進而提供了一系列的解決方案,比如增加 NVLink Bridge。實際上針對大規模 LLM 推理場景,采用 PCIe GPU + NVLink Bridge 也是個不錯的方案。
  • 本文中的各種實驗都是針對 PCIe 架構展開,也并沒有提供業內比較常見的 MFU 指標,雖然其相比 Baseline 確實提升很多,但依然沒有一個明確的對比。比如當前在 DGX A100 上的大規模訓練通常能達到 50%-60% 的 MFU。

三、Fire-Flyer 2:網絡架構

3.1 PCIe A100 GPU 架構

在 NVIDIA 官方 DGX 方案中,通常會采用 SXM GPU,有 NVLink 和 NVSwitch 實現高速互聯,而且通常也會為每個 GPU 配備一個高速 IB 網卡(A100 通常是 200 Gbps)。而本文中作者采用的是 A100 PCIe GPU,無法使用 NVLink 和 NVSwitch 高速互聯。此外 PCIe A100 和 SXM A100 在性能上也會略有差異,如下圖 Table 2 所示。當然,PCIe GPU 服務器的成本和功耗也會更低一些。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

實際上 A100 的各個版本中(甚至 A800 系列),理論算力都是相同的,比如 FP16 Tensor Core 算力都是 312 TFLOPS。作者上圖中 A100 PCIe 是 A100 SXM 的 83% 應該是實測性能:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

成本低的另一個原因是服務器中只配備一個 200Gbps 的 Mellanox CX6 IB 網卡,并且直連到 CPU,沒有經過 PCIe Switch,類似于下圖紅框 NIC 和綠框 NIC 的區別。當然,這里其實還會引入一個問題,不同 NUMA(CPU)下的 GPU 通信,或者 CPU1 下的 GPU 要通過 NIC 通信則都需要通過 UPI,這也額外增加了一些開銷。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

上面提到,作者采用的 PCIe A100,沒有使用 NVLink + NVSwitch 實現全互聯。為了緩解 GPU 間數據交互的瓶頸,作者采用折衷的方案,每兩個 GPU 通過 NVLink Bridge 實現高速互聯,如下圖所示,8 個 GPU 共分為 4 組,每組 2 個 GPU 通過 NVLink Bridge 連接。(PS:需要說明的是,作者早期的服務器沒有 NVLink Bridge,而是后期為了適應 LLM 的需求新增加的)

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

3.2 網絡拓撲

如下圖所示為本文作者提出的兩層 Fat-Tree 網絡拓撲:

  • 共包含兩個 Zone。兩個 Zone 的 Leaf Switch 直接通過 2 個 40-Port 的 Switch 互聯(我們這里稱作 Zone Switch),而不用經過 Zone 內的 Spine Switch。也就是2 個 40-Port 的 Switch 共連接了 80 個 Leaf Switch。
  • 每個 Zone 大概包含:

20 個 Spine Switch 和 40 個 Leaf Switch,Spine 和 Leaf 之間 Full Mesh 連接。

800 個 Node(包含 GPU Node 和 Storage Node,還有一些管理 Node)。

每個 Leaf Switch 40 個 Port:

  • 20 個 Port連接 Spine Switch。
  • 1 個 Port連接中間的 Zone Switch。
  • 15 或 16 個 Port連接 GPU Node,也就是每個 Zone 有 [40*15=600, 40*16=640] 個 GPU Node。(PS:論文中只說總共大約 1250 GPU Node,每個 Zone 大約 600 GPU Node,因此這里只能推測)
  • 2 或 4 個 Port 連接 Storage Node。(PS:論文中提到兩個 Zone 總共大約 200 個 Storage Node,但又介紹每個 Zone 800 個 Node。后文還提到包含 180 個 Storage Node,平均來看每個 Leaf Switch 會連接 2-3 個 Storage Node,Storage Node 包含 2 個 200 Gbps 的 NIC,不確定是否會將一個 Storage Node 連接到不同的 Leaf Switch)?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

3.3 成本

作者對比了本文的方案與其他方案需要的 Switch 數量以及成本,具體如下圖 Table 3 所示:

  • 本文:122 個 Switch:(40+20)*2+2。
  • PCIe 架構 + 3 層 Fat-Tree:每個 Node 1 個 NIC,則共需要 1600/20=80 Leaf Switch,80 Spine Switch 和 40 Core Switch,共 200 Switch。
  • DGX-A100 GPU + 3 層 Fat-Tree:每個 Node 包含 8 個 GPU,有 8 個后向網絡 NIC,因此 10000 個 GPU(NIC) 至少需要 10000/(40/2)=500 個 40-Port 的 Leaf Switch,500 個 40-Port 的 Spine Switch 和 320 個 Core Switch(PS:考慮 Full Mesh,這里不是 250),所以總共需要 1320 個 Switch。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

從上也可以看出,作者方案可以以 11600/23000=50.4% 的成本獲得 83% 的 GPU性能。

3.4 下一代網絡拓撲

作者也在準備構建下一代的 PCIe 架構集群來支持 MoE LLM 的訓練,其包含大量的 All2All 通信,因此下一代架構中 GPU 和 NIC 會采用 1:1 配比,也就是每個 GPU 都有一個對應的 NIC,也考慮采用多平面網絡。此外,會使用 RoCE 替代 IB Switch 以降低成本。使用 128 Port 的 400 Gbps RoCE Switch,4 平面的 2 層 Fat-Tree 網絡可以支持 32,768 個 GPU。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

四、HFReduce:軟硬協同網絡設計

4.1 HFReduce 算法

在大規模分布式訓練中,AllReduce 是一種非常常見的集合通信操作,比如不同 Data Parallelism 之間的梯度聚合操作。而 NCCL 通常是針對節點內有 NVLink 高速互聯或者都通過 NIC 方式通信的范式進行優化的。針對本文這種網絡拓撲不一定能發揮最優的性能。如下圖 Figure 6 所示為作者優化之后的 HFReduce 概覽,其包含幾步:

  • 第一步:節點內 Reduce 操作。
  • 第二步:節點間在 CPU 上進行 Reduce 操作。
  • 第三步:將 CPU 上 Reduce 后的數據傳輸會 GPU。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

節點內的 Reduce 操作算法如下圖 Algorithm 1 所示:

  • 將數據分成多個 Chunk 分別處理,這樣可以將 IO 和 Compute 充分 Overlap。
  • 每個 Chunk 的數據都通過異步的方式傳輸到 CPU 內存,拷貝操作也可以使用 GPUDirect 來拷貝小數據(可以參考 NVIDIA 的GitHub - NVIDIA/gdrcopy: A fast GPU memory copy library based on NVIDIA GPUDirect RDMA technology),或者使用 cudaMemcpyAsync 來拷貝大數據。
  • 已經拷貝到CPU 內存上的 Chunk 可以執行 Reduce 操作,最終的結果也都是在 CPU 內存中。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

節點間的 Reduce 操作算法如下圖 Algorithm 2 所示:

  • 使用 Double Binary Tree Algorithm 算法實現節點間的 AllReduce 操作,節點間傳輸通過 RDMA 實現。
  • 最后將計算完的數據通過 PCIe 傳輸到 GPU 顯存中。此處的 Host to Device 操作也可以通過 GPUDirect 操作來同時寫到同一個 NUMA 下的 4 個 GPU,而減少對 Host Memory 的讀取(利用 CPU Cache)。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

4.2 HFReduce 對比 NCCL

針對本文的網絡拓撲,作者提出的方案相比 NCCL 有 2 個優勢:

  • 減少了 PCIe 帶寬開銷:假設有 n 個 GPU 參與通信,在 NCCL 的 Ring 拓撲中每個數據單元需要 2n-1 次傳輸,對 PCIe 通信要求比較高。而 HFReduce 中,每個數據單元只需一次 D2H 和一次 H2D,這對于本文這種 PCIe 受限場景更加友好。
  • 沒有 GPU Kernel 開銷:HFReduce 使用 GPU 的 Copy Engine(CE) 來執行異步的數據傳輸,而 NCCL 的 AllReduce 操作是使用 GPU Kernel 來完成。

如下圖(a) 所示,本文的方案在執行 186MiB 數據的 AllReduce 時相比 NCCL獲得了更高的帶寬。 

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

4.3 HFReduce with NVLink

我們前面提到過,作者在每兩個 GPU 上添加了 NVLink Bridge,可以達到 600 GB/s 的高速通信帶寬。而上述標準 HFReduce 并沒有利用上 NVLink,因此作者也進一步探索了帶有 NVLink 的 HFReduce。具體來說,在數據傳輸到 CPU Memory 之前,先在 2 個 GPU 上執行 Reduce;然后在結果返回時再將結果切分到對應的 2 個 GPU。

作者進一步測試了相應的通信帶寬,如下圖(b)所示,基本可以達到上述(a)中不帶 NVLink 的 2x。其中藍色為跨 Zone 的情況,因為一個 Leaf Switch 下有 15 或16個 Node,也就是 128 GPU,因此也只考慮超過 128 GPU 的情況:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

4.4 深入分析 HFReduce

實現中的關鍵技術決策:

  • GPUDirect:使用 GPUDirect 加速 D2H 中的小數據拷貝,同時使用 GPUDirect 減少 3 倍的 H2D 開銷。
  • 節點內規約:使用SIMD 指令完成 CPU 上的規約操作,支持 FP32、FP16、BF16 和 FP8。
  • NUMA 感知:D2H 的目標內存會分配到 2 個 NUMA 對應的內存,以實現最大帶寬。CPU Reduce 和網絡傳輸的數據內存綁定在 IB NIC 對應的 NUMA,以盡量減少通過 UPI。
  • 節點間規約:使用 Double Binary Tree 實現 AllReduce,避免額外的開銷。

克服 EPYC Rome CPU 的限制:作者找 AMD 和 NVIDIA 的工程師幫忙定位了 PCIe 架構下通信的次優問題。最終發現 EPYC Rome CPU 不支持 chained write 功能,這個功能可以大幅提升 GPU 和 IB 之間的 PCIe P2P 帶寬。作者測試發現,Rome CPU 上 IB NIC 和 GPU 的極限帶寬在 9GiB/s,這也就可以解釋上述 NCCL 的 AllReduce 帶寬不超過 4GB/s。而 HFReduce 通過在 CPU 上進行 Reduce,在 CPU 和 IB 之間傳輸數據來規避這一問題。

HFReduce 的瓶頸:作者統計了一個 Node 上的所有內存操作:

  • D2H 需要 8 次寫操作(8 個 GPU)。
  • 節點內 Reduce 涉及 8 次讀操作和 1 次寫操作。
  • 節點間 Reduce 涉及 IB send 2 次讀操作,IB receive 2 次寫操作,以及 1 次 add 操作。
  • H2D 利用 GPUDirect 執行 2 次讀操作(8 次降低到 2 次)。

整體來說,上述內存操作相比 GPU 上的數據大小涉及 24x 的放大。一個 16 Channel 的 DDR4-3200MHz 內存,理論最大內存帶寬為 320GB/s,對應理論最大 HFReduce 帶寬為 320/24=13.3GB/s,而作者實測只有 8GB/s。

上述問題的主要原因是 EPYC CPU 的另一個限制,本文中作者的 GPU5 和 GPU6 直接通過相同的 PCIe Host Bridge 連接到 CPU。而 AMD EPYC Rome 和 Milan CPU 中 PCIe Host Bridge 的最大帶寬為 37.5GB/s,即使 PCIe 4.0x16 從 GPU 到 CPU 可以實現 27GB/s。但是當 2 個 GPU 同時傳輸數據時將受到上述 37GB/s 的限制,也就是說平均最大只能達到 19GB/s。如果考慮雙向傳輸,帶寬瓶頸會更加明顯。而作者加裝的 NVLink Bridge (GPU5 和 GPU6 通過 NVLink Bridge 互聯)可以提供一種有效的方案來緩解這個問題。此外,即使 AMD EPYC Genoa 也同樣面對這個問題。

五、HaiScale:針對 DL 訓練優化

5.1 HaiScale DDP

Pytorch DDP 會使用 NCCL 用于梯度聚合時的 AllReduce 操作,而本文中,作者使用 HFReduce 替換 NCCL。如下圖(a)所示,訓練 VGG 模型時,基于 HFReduce 的時延幾乎是 Pytorch DDP(NCCL)的一半。同時,從 32 GPU 擴展到 512 GPU 時可以獲得 88% 的線性加速。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

5.2 LLM 訓練優化

針對 LLM 訓練,作者同樣優化了 DP、PP、TP 和 EP。

將 NVLink Bridge 連接的 2 個 GPU 用于 TP,實現高速互聯。(PS:通常使用 NVLink + NVSwitch 的方案可以更好的是指 8 GPU 的 TP)

針對 PCIe 架構優化 PP。一臺機器只有 1 個 NIC,使用 PP 時可能存在瓶頸,為此,作者在調度時將不同的 DP Rank 調度到同一個 Node 上,這樣可以交錯 DP 和 PP。如下圖 Figure 9(a)所示,訓練 LLaMA 13B 時,GPU 數從 32 擴展到 512,每一個 Step 的 Latency 從 64.118s 減少到 9.717s,獲得了理論加速 91% 的加速效果。如下圖 Figure 9(b)所示,DeepSeek-MoE 16B 訓練時同樣獲得了理論加速的 92.92%。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

HaiScale FSDP:此外,作者也對 FSDP 進行了適配和優化,如下圖(b)所示,從 16 GPU 到 128 GPU,HaiScale 可以獲得 95% 的加速。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

六、聯合優化

6.1 計算-存儲網絡擁塞最小

如前所述,作者的網絡方案中計算和存儲在一個網絡中,相較而言,之前的方案中往往是計算網絡是高速后向網絡,而存儲網絡是前向網絡。因此,為了實現最大帶寬,必須隔離不同類型的流量,避免相互干擾并造成網絡擁塞。具體來說,作者實施了以下幾個措施。

不同流量區分:在典型的訓練任務中,有 4 種不同類型的流量:HFReduce 通信,NCCL 通信,3FS 存儲流量和其他流量。作者利用 IB 的 Service Level(SL)技術,在節點之間建立連接時為其分配不同的 SL 值,并將 SL 映射到 IB 物理隊列虛擬通道(VL),使用虛擬通道可以確保不同通道中的流量不會相互干擾。最終,通過配置它們的比例實現流量隔離,從而防止 Head-of-Line(HOL)阻塞和不同的流量沖突引起的網絡阻塞。

拓撲調整和路由優化:在高吞吐存儲場景中,存在許多 incast 通信模式,導致擁塞。針對這種情況,作者采用靜態路由策略,將存儲流量均勻分散在不同 Leaf -> Spine 連接,并將各種節點(存儲、計算、管理)均勻分配到 Leaf -> Spine 連接。

NCCL 優化:調整了 NCCL 拓撲,以便調整同一個 Node 內的 IB NIC 和 GPU 的路由。可以減少 CPU chiplet 互聯導致的 PCIe 擁塞。此外,通過使用 PCIe Relaxed Ording 進一步減少擁塞并增加帶寬。

3FS 網絡調優:3FS 實現了一個請求到發送的控制機制來緩解擁塞。

6.2 3FS 高吞吐分布式存儲

如下圖 Table IV 為本文的 Storage Node 配置,可以看出,其包含 1 個 CPU,2 個 200 Gbps NIC 和 16 個 15.36TB 的 SSD。

  • 總共 2880 NVMe SSD,可以提供20 PiB 的存儲(有1個額外的存儲副本)。
  • 總共可以提供 180*2*200 Gbps = 72 Gbps = 9 TB/s 的理論帶寬,實測可以達到8 TB/s。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

3FS 系統包含 4 個角色:Cluster Manager、Meta Service、Storage Service 和 Client。其中 Storage Service 會部署在每個 Storage Node 上,每個 Storage Service 都能提供等分的帶寬。根據這個設計,每個 Client 都可以訪問每個 Storage Service。峰值負載時,作者在 Client 觀察到 Incast 擁塞,為了緩解這個擁塞,作者在 Storage Service 和 Client 之間實現了一種請求發送控制機制(request-to-send),這種機制會增加端到端 IO 延遲,但又是實現可持續高吞吐的必要手段。

除此之外,還基于 3FS 實現了 3FS-KV,是 DeepSeek LLM Inference 中實現分布式 Context Caching 的關鍵所在。

6.3 HAI Platform

作者很早就開源了其對應的分布式訓練平臺,具體可以參考源碼(GitHub - HFAiLab/hai-platform: 一種任務級GPU算力分時調度的高性能深度學習訓練平臺)和文檔(歡迎來到HAI Platform 官方文檔)。這里不再介紹。

七、穩定性和魯棒性

7.1 Checkpoint 管理

在超大規模訓練中,各種異常是在所難免的,為了減少異常導致的計算浪費,通常都會采用 Checkpointing 機制,定期保存 Checkpoint。本文中 Checkpoint 的保存同樣依賴上述的 3FS,每個 Node 可以提供 10 GiB 的帶寬,所以通常可以在幾秒時間完成 Checkpoint 的保存。在作者的訓練過程中,通常是每 5 分鐘保存一次,也就是每次異常最多浪費 5 分鐘的訓練。

7.2 驗證

增強設備穩定性最好的手段就是在發生異常之前檢測到異常。因此作者開發了一系列的驗證工具來識別是否存在硬件故障,然后平臺可以自動進行一些運維工作。比如從集群中屏蔽異常機器,不允許調度。驗證主要包括下述部分:

  • 經常檢測硬件,比如連接速度,狀態。
  • CPU 壓測及內存帶寬壓測。
  • GPU Memory 測試。
  • GPU 運行 GEMM 測試。
  • 節點內 AllReduce 測試。
  • 存儲帶寬壓測。

7.2 硬件故障

最常見的硬件問題包含兩種:GPU Xid Error 和網絡抖動。

如下圖 Table V 所示,作者展示了常見的 Xid Error 和對應的原因:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

如下圖 Table VI 所示,作者也展示了不同 Xid Error 的數量和比例,可以看出,NVLink Error 占比 42.57%,這可能和作者使用的 NVLink Bridge 有關。而 Xid 31 和 Xid 43 的軟件錯誤總共超過了 50%,這種情況大部分是程序問題,如果排除程序問題那也基本可以確定是硬件故障。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

如下圖 Figure 11 所示,作者同樣頻繁受到網絡抖動的影響:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

八、參考鏈接

  1. ??https://www.arxiv.org/abs/2408.14158??
  2. ??https://github.com/NVIDIA/gdrcopy??
  3. ??https://github.com/HFAiLab/hai-platform??
  4. ??https://hfailab.github.io/hai-platform/??

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
国产农村妇女毛片精品久久麻豆| 欧美日韩午夜| 欧美日韩视频在线第一区| 99亚洲精品视频| 黑人精品一区二区| 日韩av二区在线播放| 欧美成人激情在线| 9.1成人看片| 91福利精品在线观看| 一区二区三区四区国产精品| 精品免费二区三区三区高中清不卡| 波多野结衣视频在线看| 欧美日韩国产综合网| 亚洲欧美日韩爽爽影院| 在线观看视频在线观看| av综合电影网站| 亚洲免费视频成人| 日韩精彩视频| 天天操天天操天天| 国内成+人亚洲+欧美+综合在线| 91爱视频在线| 黄色一级片中国| 不卡在线一区二区| 日韩精品免费在线| 97中文字幕在线观看| 精品69视频一区二区三区| 精品国产成人在线| 久久久无码中文字幕久...| 国产在线视频你懂得| 成人av电影免费在线播放| 成人乱人伦精品视频在线观看| 国产精品男女视频| 伊人久久综合| 久久国产精品偷| 久久久久99精品成人| 少妇高潮一区二区三区| 日韩欧美激情一区| 97超碰人人爽| yiren22亚洲综合| 色网综合在线观看| 国产淫片免费看| segui88久久综合| 亚洲精品国久久99热| 一区二区三区av在线| 国产九九在线| 久久青草欧美一区二区三区| 精品乱码一区| 少妇av在线播放| 成人深夜视频在线观看| 99精彩视频在线观看免费| 国产精品一级二级| 美腿丝袜一区二区三区| 国产精品视频成人| 在线观看免费中文字幕| 另类人妖一区二区av| 国产精品久久久久久久久免费看| 在线永久看片免费的视频| 午夜亚洲影视| 欧美亚洲日本黄色| 亚洲视频 欧美视频| 久久精品导航| 国产精品v片在线观看不卡| 亚洲欧美自拍视频| 久久亚洲风情| 国产精品旅馆在线| 国产乱人乱偷精品视频| 在线观看wwwxxxx| 欧美舌奴丨vk视频| 欧美午夜宅男影院在线观看| 欧美国产亚洲一区| 成人短视频app| 91九色最新地址| 在线观看的毛片| 男人亚洲天堂| 欧美一级生活片| 怡红院一区二区| 人体久久天天| 在线成人激情黄色| 亚洲av无一区二区三区| 亚洲综合五月| 97视频网站入口| 国产一区二区视频免费| 日本vs亚洲vs韩国一区三区二区 | 中文字幕在线看高清电影| 天堂俺去俺来也www久久婷婷| 国产午夜精品免费一区二区三区 | 18岁视频在线观看| 欧美亚洲二区| 亚洲成年人在线| 人人人妻人人澡人人爽欧美一区| 99久久亚洲精品蜜臀| 欧美精品第一页在线播放| 狠狠人妻久久久久久| 久久er精品视频| 国产一区高清视频| 99se视频在线观看| 亚洲一区二区影院| 日日干夜夜操s8| 精品久久对白| 日韩日本欧美亚洲| 亚洲不卡视频在线观看| 国产剧情一区二区三区| 久久久人人爽| 天堂av最新在线| 欧美亚洲高清一区二区三区不卡| 中文字幕无码毛片免费看| 精品一区免费| 精品国偷自产在线视频| 中文字幕第15页| 国产精品一二三四五| 日本成人三级| 黑人玩欧美人三根一起进 | 97人妻精品一区二区三区视频| 成人一级视频在线观看| 亚洲巨乳在线观看| 五月天国产在线| 日韩欧美一区中文| jizzjizzjizz国产| 六月婷婷一区| 国产99在线播放| 国产福利视频在线观看| 91黄视频在线观看| 性色av蜜臀av浪潮av老女人| 亚洲国产日韩欧美在线| 国产精品久久久久久久久久ktv| 日韩在线视频观看免费| 亚洲欧美一区二区三区极速播放 | 亚洲成人av资源网| 日韩一区二区不卡视频| 日韩二区在线观看| 久久精品丝袜高跟鞋| 日本欧美电影在线观看| 在线综合亚洲欧美在线视频| 国产黄色大片免费看| 制服诱惑一区二区| 国产三区二区一区久久| 中国av在线播放| 69成人精品免费视频| 久久婷婷五月综合| 久久久久久自在自线| 精品国产一区二区三区日日嗨 | 免费成人网www| 高清视频欧美一级| 理论片中文字幕| 亚洲乱码精品一二三四区日韩在线 | 亚洲免费视频一区二区三区| 欧美在线播放高清精品| 在线视频第一页| 日本视频在线一区| 亚洲黄色一区二区三区| 国产精品99精品一区二区三区∴| 亚洲天堂av在线免费| 亚洲成人第一网站| 久久久美女毛片| 亚洲乱码国产一区三区| 大片网站久久| 国产日韩综合一区二区性色av| 永久av在线| 欧美日韩电影在线播放| 91香蕉一区二区三区在线观看| 国产又黄又大久久| 中国女人做爰视频| 久久人人爽人人爽人人片av不| 久久人人看视频| 天堂在线一二区| 在线中文字幕一区二区| 人妻无码一区二区三区免费| 精品在线免费视频| 日韩国产成人无码av毛片| 欧美色资源站| 国产精品免费久久久久影院| 精品黄色免费中文电影在线播放| 日韩视频123| 日韩字幕在线观看| 国产日韩欧美一区二区三区综合| 久久久精品麻豆| 亚洲先锋影音| 国产女主播一区二区| 你懂得影院夜精品a| 日韩网站在线观看| 丰满人妻一区二区三区免费视频| 欧美日韩国产在线| 国产成人精品无码免费看夜聊软件| 蜜桃av一区二区| 欧美激情亚洲天堂| 视频一区中文| 成人黄色片视频网站| 亚洲精华液一区二区三区| 日韩中文字幕在线播放| 欧美一级在线免费观看 | 一区二区三区精彩视频| 亚洲综合男人的天堂| 受虐m奴xxx在线观看| 国产资源在线一区| 欧美亚洲一二三区| 999国产精品视频| 精品国产乱码一区二区三区四区| 久久不卡日韩美女| 38少妇精品导航| 黄色免费在线网站| 亚洲人成电影网| 国产黄色美女视频| 欧美日免费三级在线| 日产电影一区二区三区| 国产精品国产a级| 大地资源二中文在线影视观看| 国产一区视频在线看| 无码aⅴ精品一区二区三区浪潮| 91精品精品| 日韩中文一区| 欧美日韩一区二区三区四区不卡| 91久久久久久久久久久久久| 日韩欧美看国产| 欧美极品少妇xxxxⅹ裸体艺术| 日本中文字幕在线2020| 亚洲人午夜色婷婷| 视频污在线观看| 91精品国产91热久久久做人人 | 国产又黄又粗视频| 97久久超碰国产精品| 精品国产aⅴ一区二区三区东京热| 蜜桃精品视频在线| 粉嫩虎白女毛片人体| 日韩一级精品| 欧洲精品视频在线| 99国内精品久久久久久久| 日本一区视频在线播放| 天海翼精品一区二区三区| 国产99在线免费| 视频一区中文字幕精品| 亚洲在线第一页| 日韩第二十一页| 国产精品视频免费观看www| 国产欧美一区二区三区精品酒店| 高清欧美性猛交xxxx黑人猛交| 天堂av资源在线观看| 久久色在线播放| 久cao在线| 久久精品色欧美aⅴ一区二区| √天堂资源地址在线官网| 亚洲人成在线观看网站高清| 天天舔天天干天天操| 亚洲电影免费观看高清完整版在线| 99热在线只有精品| 日韩一区二区三区精品视频| 国产色视频在线| 日韩一级黄色片| 99久久精品日本一区二区免费| 91精品国产欧美一区二区| 国产又大又粗又硬| 日韩欧美一二区| 国产不卡精品视频| 日韩精品影音先锋| 蜜桃视频在线观看www| 亚洲成人黄色在线观看| 天天摸天天干天天操| 亚洲国产欧美一区二区丝袜黑人| 色呦呦视频在线| 亚洲男人av电影| 成人p站proumb入口| 日韩三级影视基地| 日本色护士高潮视频在线观看| 久久免费成人精品视频| 国产中文在线播放| 国产成人精品电影久久久| 欧美最新精品| 国产日韩在线一区| 91精品短视频| 精品一区二区三区日本| 国产真实有声精品录音| 亚洲最新在线| 国内揄拍国内精品久久| 亚洲成熟丰满熟妇高潮xxxxx| 日本女优在线视频一区二区| 亚洲美女爱爱视频| 成人av网在线| 欧美福利第一页| 亚洲女人的天堂| 日本视频免费在线| 欧美亚洲一区二区在线| 国产激情无套内精对白视频| 亚洲精品福利免费在线观看| 99se视频在线观看| 欧美极品在线视频| 成人精品三级| 91在线在线观看| 久久综合色占| 99久久久无码国产精品性色戒| 亚洲狼人精品一区二区三区| 国产又黄又猛又粗又爽的视频| 国产精品538一区二区在线| 538国产视频| 最新不卡av在线| 欧美h在线观看| 欧美一区二区视频观看视频| 午夜成人免费影院| 久久精品国产亚洲7777| 漫画在线观看av| 亚洲精品日韩av| 亚洲精品动态| 成年在线观看视频| 日韩av一区二区三区| 亚洲一二三四五| 国产精品久久三| 国产成人免费看| 免费观看日批视频| 亚洲电影免费观看高清完整版在线| 98在线视频| 欧美亚洲国产视频| 在线日韩成人| 一区二区视频国产| 老司机亚洲精品| a级片在线观看视频| 亚洲三级电影网站| 中文字幕欧美在线观看| 日韩av在线电影网| 色呦呦在线播放| 成人a免费视频| 日韩精品四区| 国产无套内射久久久国产| 国产69精品一区二区亚洲孕妇| 国产成人精品视频免费| 色噜噜偷拍精品综合在线| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的 | 全网免费在线播放视频入口| 欧美优质美女网站| 日韩a在线观看| 性欧美亚洲xxxx乳在线观看| 日韩精品一级| 熟妇熟女乱妇乱女网站| 蜜桃精品视频在线| 亚洲色图 激情小说| 在线欧美一区二区| 欧美一区二区视频| 欧美一级高清免费播放| 里番精品3d一二三区| 免费网站在线观看视频| 久久er精品视频| av最新在线观看| 欧美人妇做爰xxxⅹ性高电影| 国产对白叫床清晰在线播放| 2018日韩中文字幕| 日韩啪啪网站| 精品中文字幕av| 91网站在线播放| 天堂а√在线中文在线新版 | 中国黄色片视频| 亚洲国产日韩精品| 黄色美女一级片| 午夜精品久久久久久99热软件| 免费日韩一区二区三区 | 蜜桃精品视频在线观看| www成人啪啪18软件| 欧美精品一卡两卡| 高h视频在线观看| 97超碰最新| 999亚洲国产精| 亚洲av无码一区二区三区观看 | 日韩免费视频播放| 久久综合一区二区| 正在播放亚洲精品| 久久香蕉频线观| 成人盗摄视频| aaaaaa亚洲| 日韩美女啊v在线免费观看| 国产绳艺sm调教室论坛| 性欧美视频videos6一9| 亚洲成a人片77777在线播放| 女人另类性混交zo| 中文字幕色av一区二区三区| aaa国产视频| 69久久夜色精品国产69乱青草 | 大地资源第二页在线观看高清版| 国产黑丝在线一区二区三区| 日韩欧美三级视频| 中文字幕在线精品| 蜜桃在线一区| 国产精品裸体瑜伽视频| 国产清纯白嫩初高生在线观看91| 国产一区二区视频免费观看| 色在人av网站天堂精品| 妖精一区二区三区精品视频| 亚洲人视频在线| 亚洲综合色自拍一区| 免费看男男www网站入口在线| 成人午夜激情网| 一区二区毛片| 91无套直看片红桃在线观看| 欧美xxxxx牲另类人与| 日本不卡一二三| 超级碰在线观看| 久久精品无码一区二区三区| 精品久久无码中文字幕| 日本精品性网站在线观看| 欧美在线三区| 在线观看国产精品一区| 精品国产一区二区亚洲人成毛片 | 久草免费在线| 欧美人xxxxx| 国产九色精品成人porny|