精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

僅需1% Embedding參數(shù),硬件成本降低十倍,開源方案單GPU訓(xùn)練超大推薦模型

人工智能 新聞
自然開源以來,Colossal-AI 已經(jīng)多次在 GitHub 及 Papers With Code 熱榜位列世界第一。

深度推薦模型(DLRMs)已經(jīng)成為深度學(xué)習(xí)在互聯(lián)網(wǎng)公司應(yīng)用的最重要技術(shù)場(chǎng)景,如視頻推薦、購(gòu)物搜索、廣告推送等流量變現(xiàn)業(yè)務(wù),極大改善了用戶體驗(yàn)和業(yè)務(wù)商業(yè)價(jià)值。但海量的用戶和業(yè)務(wù)數(shù)據(jù),頻繁地迭代更新需求,以及高昂的訓(xùn)練成本,都對(duì) DLRM 訓(xùn)練提出了嚴(yán)峻挑戰(zhàn)。

在 DLRM 中,需要先在嵌入表(EmbeddingBags)中進(jìn)行查表(lookup),再完成下游計(jì)算。嵌入表常常貢獻(xiàn) DLRM 中 99% 以上的內(nèi)存需求,卻只貢獻(xiàn) 1% 的計(jì)算量。借助于 GPU 片上高速內(nèi)存(High Bandwidth Memory)和強(qiáng)大算力的幫助,GPU 成為 DLRM 訓(xùn)練的主流硬件。但是,隨著推薦系統(tǒng)研究的深入,日益增長(zhǎng)的嵌入表大小和有限的 GPU 顯存形成顯著矛盾。如何讓利用 GPU 高效訓(xùn)練超大 DLRM 模型,同時(shí)突破 GPU 內(nèi)存墻的限制,已成為 DLRM 領(lǐng)域亟待解決的關(guān)鍵問題。

圖片

Colossal-AI此前已成功利用異構(gòu)策略將相同硬件上訓(xùn)練NLP模型的參數(shù)容量提升上百倍,近期成功將其拓展到推薦系統(tǒng)中,通過軟件緩存(Cache)方法在 CPU 和 GPU 內(nèi)存中動(dòng)態(tài)存儲(chǔ)嵌入表。基于軟件 Cache 設(shè)計(jì),Colossal-AI 還添加流水預(yù)取,通過觀察未來即將輸入的訓(xùn)練數(shù)據(jù),降低軟件 Cache 檢索和數(shù)據(jù)移動(dòng)開銷。同時(shí),它以同步更新方式在 GPU 上訓(xùn)練整個(gè) DLRM 模型,結(jié)合廣泛使用的混合并行訓(xùn)練方法,可以擴(kuò)展到多個(gè) GPU。實(shí)驗(yàn)表明,Colossal-AI 僅需在 GPU 中保留 1% 的嵌入?yún)?shù),仍能保持優(yōu)秀的端到端訓(xùn)練速度。相比 PyTorch 其他方案,顯存需求降低一個(gè)數(shù)量級(jí),單塊顯卡即可訓(xùn)練 TB 級(jí)推薦模型。成本優(yōu)勢(shì)顯著,例如僅需 5GB 顯存即可訓(xùn)練占據(jù) 91GB 空間 Embedding Bag 的 DLRM,訓(xùn)練硬件成本從兩張約 20 萬元的 A100,降低十倍至僅需 2000 元左右的 RTX 3050 等入門級(jí)顯卡。

開源地址:https://github.com/hpcaitech/ColossalAI

現(xiàn)有的嵌入表擴(kuò)展技術(shù)

嵌入表將離散的整型特征映射成連續(xù)的浮點(diǎn)特征向量,下圖展示了 DLRM 中的嵌入表訓(xùn)練過程。首先,在嵌入表中對(duì)每個(gè)特征查找 Embedding Table 對(duì)應(yīng)的行,然后通過規(guī)約操作,比如 max,mean, sum 操作,變成一個(gè)特征向量,傳遞給后續(xù)的稠密神經(jīng)網(wǎng)絡(luò)。可見,DLRM 的嵌入表訓(xùn)練過程主要是不規(guī)則的內(nèi)存訪問操作,因此嚴(yán)重受限于硬件訪存速度。

圖片

而工業(yè)級(jí) DLRM 的嵌入表可能達(dá)到數(shù)百 GB 甚至 TB 級(jí)別,遠(yuǎn)超單 GPU 最高數(shù)十 GB 的顯存容量。突破單 GPU 的內(nèi)存墻來增大 DLRM 的嵌入表規(guī)模有很多方法。根據(jù)下圖展示的 GPU 集群的內(nèi)存層級(jí)圖為例,讓我們來分析幾種常見方案的優(yōu)劣。

GPU 模型并行:將嵌入表切分后分布在多個(gè) GPU 的內(nèi)存中,訓(xùn)練中通過 GPU 之間互聯(lián)網(wǎng)絡(luò)同步中間結(jié)果。這種方式的缺點(diǎn)首先是嵌入表切分負(fù)載并不均勻,擴(kuò)展性問題難以解決。其次,增加 GPU 的前期硬件成本大,而且 DLRM 訓(xùn)練時(shí) GPU 的計(jì)算能力并沒有被充分利用,而是僅僅利用了它的 HBM 帶寬優(yōu)勢(shì),導(dǎo)致 GPU 使用率不高。

CPU 部分訓(xùn)練:將嵌入表分割成兩部分,一部分在 GPU 上訓(xùn)練,另一部分在 CPU 上訓(xùn)練。通過利用數(shù)據(jù)分布的長(zhǎng)尾效應(yīng),我們可以讓 CPU 計(jì)算比例盡可能少,讓 GPU 計(jì)算比例盡可能大。但是,隨著 batch size 增大,讓 mini-batch 的數(shù)據(jù)全部命中 CPU 或者 GPU 很困難,如果同時(shí)命中 CPU 或 GPU 這種方法很難處理。另外,由于 DDR 帶寬和 HBM 相差一個(gè)數(shù)據(jù)量級(jí),即使 10% 的輸入數(shù)據(jù)在 CPU 上訓(xùn)練,整個(gè)系統(tǒng)也會(huì)有至少一半速度下降。此外,CPU 和 GPU 需要傳輸中間結(jié)果,這也有不小的通信開銷,進(jìn)一步拖慢訓(xùn)練速度。因此,研究人員設(shè)計(jì)了異步更新等方式來避免這些性能缺陷,但是異步方式會(huì)造成訓(xùn)練結(jié)果的不確定性,在實(shí)踐中并不是算法工程師的首選方案。

軟件 Cache:保證訓(xùn)練全部在 GPU 上進(jìn)行,嵌入表存在 CPU 和 GPU 組成的異構(gòu)空間中,每次通過軟件 Cache 方式,將需要的部分換入 GPU。這種方式可以廉價(jià)擴(kuò)展存儲(chǔ)資源,滿足嵌入表不斷增大的需求。而且,相比使用 CPU 來計(jì)算,這種方式的整個(gè)訓(xùn)練過程完全在 GPU 上完成,充分利用 HBM 帶寬優(yōu)勢(shì)。但 Cache 的查詢、數(shù)據(jù)移動(dòng)會(huì)帶來額外性能損耗。

目前已經(jīng)有一些針對(duì)嵌入表優(yōu)秀的軟件 Cache 方案實(shí)現(xiàn),但是它們往往使用定制的 EmbeddingBags Kernel 實(shí)現(xiàn),比如 fbgemm,或者借助第三方深度學(xué)習(xí)框架。而 Colossal-AI 在原生 PyTorch 基礎(chǔ)上不做任何 Kernel 層次改動(dòng),提供了一套開箱用的軟件 Cache EmbeddingBags 實(shí)現(xiàn),還進(jìn)一步針對(duì) DLRM 訓(xùn)練流程進(jìn)行優(yōu)化,提出預(yù)取流水來進(jìn)一步降低 Cache 開銷。

圖片

Memory Hierarchy

Colossal-AI 的嵌入表軟件 Cache

Colossal-AI 實(shí)現(xiàn)了一個(gè)軟件 Cache 并封裝成 nn.Module 提供給用戶在自己模型中使用。DLRM 的嵌入表,一般是由多個(gè) Embedding 組成的 EmbeddingBags,駐留在 CPU 內(nèi)存中。這部分內(nèi)存空間被命名為 CPU Weight。而 EmbeddingBags 一小部分?jǐn)?shù)據(jù)存儲(chǔ)在 GPU 內(nèi)存中,它包括即將被訓(xùn)練用到的數(shù)據(jù)。這部分內(nèi)存空間被命名為 CUDA Cached Weight。在 DLRM 訓(xùn)練期間,首先需要確定本次迭代輸入 mini-batch 的數(shù)據(jù)所對(duì)應(yīng)嵌入表的行,如果有的行不在 GPU 中,需要將它們從 CPU Weight 傳輸?shù)?CUDA Cached Weight 中。如果 GPU 中沒有足夠的空間,它會(huì)使用 LFU 算法,根據(jù)訪問緩存的歷史頻率來淘汰被使用最少數(shù)據(jù)。

為了實(shí)現(xiàn) Cache 的檢索,需要一些輔助數(shù)據(jù)結(jié)構(gòu)幫忙:cached_idx_map 是一維數(shù)組,存儲(chǔ) CPU Weight 中行號(hào)和 CUDA Cached Weight 的行號(hào)對(duì)應(yīng)關(guān)系,以及對(duì)應(yīng)行在 GPU 被訪問的頻率信息。CUDA Cached Weight 大小與 CPU Weight 大小的比值命名為 cache_ratio,默認(rèn)為 1.0%。

Cache 在每個(gè)迭代 forward 之前運(yùn)行,以調(diào)整 CUDA Weight 中的數(shù)據(jù),具體來說分三個(gè)步驟。

Step1:CPU 索引:檢索 CPU Weight 中需要被 Cache 的行號(hào)

它需要對(duì)輸入 mini-batch 的 input_ids 和 cached_idx_map 取交集,找到 CPU Weight 中需要從 CPU 移動(dòng)到 GPU 的行號(hào)。

Step2:GPU 索引:根據(jù)使用頻率找到 CUDA Weight 中可以被驅(qū)逐的行

這需要我們根據(jù)頻率以從低到高順序,對(duì) cache_idx_map 和 input_ids 取差集合之后的部分進(jìn)行 top-k(取最大值 k 個(gè)數(shù))操作。

Step3:數(shù)據(jù)搬運(yùn):

將 CUDA Cached Weight 中的對(duì)應(yīng)行移動(dòng)到 CPU Weight 中,然后將 CPU Weight 中的對(duì)應(yīng)行移動(dòng)到 CUDA Weight 中。

數(shù)據(jù)傳輸模塊負(fù)責(zé) CUDA Cached Weight 和 CPU Weight 之間的數(shù)據(jù)雙向傳輸。不同于低效的逐行傳輸,它采用先緩存再集中傳輸方式來提升 PCI-e 的帶寬利用率。分散在內(nèi)存中的嵌入行在源設(shè)備的本地內(nèi)存中集中為連續(xù)的數(shù)據(jù)塊,然后塊在 CPU 和 GPU 之間傳輸,并分散到目標(biāo)內(nèi)存的相應(yīng)位置。以塊為單位移動(dòng)數(shù)據(jù)可以提高 PCI-e 帶寬利用率,merge 和 scatter 操作只涉及 CPU 和 GPU 的片上內(nèi)存訪問,因此開銷并不是很大。

Colossal-AI 用一個(gè)尺寸受限的緩沖區(qū)來傳輸 CPU 和 GPU 之間數(shù)據(jù)。在最壞的情況下,所有輸入 id 都未命中緩存 cache,那就需要需要傳輸大量元素。為了防止緩沖區(qū)占用過多內(nèi)存,緩沖區(qū)大小被嚴(yán)格限制。如果傳輸?shù)臄?shù)據(jù)大于緩沖區(qū),會(huì)分為多次完成傳輸。

圖片

Cached EmbeddingBag Workflow

軟件 Cache 性能分析

上述 Cache Step1 和 Step2 的操作都是訪存密集的。因此為了能利用 GPU 的 HBM 的帶寬,它們是在 GPU 上運(yùn)行的,并使用深度學(xué)習(xí)框架封裝好的 API 來實(shí)現(xiàn)。盡管如此,與嵌入表在 GPU 上的訓(xùn)練操作相比,Cache 操作的開銷尤為突出。

比如在一次總計(jì) 199 秒訓(xùn)練任務(wù)中,Cache 操作的開銷為 99 秒,占比總計(jì)算時(shí)間接近 50%。經(jīng)過分析,Cache 的主要開銷主要是 Step1 和 Step2 引起。下圖 base 位置展示了此時(shí)的 Cache 開銷時(shí)間分解,Cache 的 step1,2 紅色和橙色兩階段占 Cache 總開銷的 70%。

圖片

Cache 操作的時(shí)間分解

而上述問題的原因,是因?yàn)閭鹘y(tǒng)的 Cache 策略有些“短視”,只能根據(jù)當(dāng)前 mini-batch 情況調(diào)整 Cache,因此大部分時(shí)間浪費(fèi)在查詢操作上。

Cache 流水預(yù)取

為了縮減 Cache 的開銷,Colossal-AI 設(shè)計(jì)了一套 “高瞻遠(yuǎn)矚” 的 Cache 機(jī)制。與其只對(duì)前 mini-batch 進(jìn)行 Cache 操作,Colossal-AI 預(yù)取后續(xù)將會(huì)被使用的若干 mini-batch,統(tǒng)一進(jìn)行 Cache 查詢操作。

如下圖所示,Colossal-AI 使用預(yù)取來合并多個(gè) mini-batch 數(shù)據(jù)統(tǒng)一進(jìn)行 Cache 操作,同時(shí)采用流水線方式來重疊數(shù)據(jù)讀取和計(jì)算的開銷。例子中預(yù)取 mini-batch 數(shù)量是 2。在開始訓(xùn)練前,先從磁盤讀取 mini-batch 0,1 數(shù)據(jù)到 GPU 內(nèi)存,隨后開始 Cache 操作,然后執(zhí)行這兩個(gè) mini-batch 的正、反向傳播和參數(shù)更新。與此同時(shí),可以和對(duì) mini-batch 2,3 的開始數(shù)據(jù)讀取,這部分開銷可以和計(jì)算重疊。

圖片

和 baseline Cache 執(zhí)行方式相比,圖【Cache 操作的時(shí)間分解】對(duì)比了 prefetch 8 個(gè) mini-batch 和 baseline 的 Cache 時(shí)間分解。訓(xùn)練總時(shí)間從 201 秒下降到 120 秒,圖中所示的 Cache 階段操作時(shí)間占比也顯著下降。可以看到和每個(gè) mini-batch 獨(dú)立進(jìn)行 Cache 操作相比,各部分時(shí)間都減少了,尤其是 Cache 的前兩步操作。

總結(jié)起來,Cache 流水預(yù)取帶來兩個(gè)好處。

a.攤薄 Cache 索引開銷

預(yù)取最顯而易見的好處是減少了 Step1 和 Step2 的開銷,使這個(gè)兩步操作在總的訓(xùn)練過程占比小于 5%。如【Cache 操作的時(shí)間分解】所示,通過預(yù)取 8 個(gè) mini-batch 數(shù)據(jù),和沒有預(yù)取的 baseline 相比,Cache 查詢的開銷顯著降低。

b.增加 CPU-GPU 數(shù)據(jù)移動(dòng)帶寬

通過集中更多數(shù)據(jù),提升數(shù)據(jù)傳輸粒度,從而充分利用 CPU-GPU 傳輸帶寬。對(duì)于上面例子,CUDA->CPU 帶寬從 860MB/s 提升到 1477 MB/s,CPU->CUDA 帶寬從 1257 MB/s 提升到 2415 MB/s,幾乎帶來了近一倍的性能增益。

便捷使用

和 Pytorch EmbeddingBag 用法一致,在構(gòu)建推薦模型時(shí),僅需如下數(shù)行代碼進(jìn)行初始化,即可大幅提升嵌入表容納量,低成本實(shí)現(xiàn) TB 級(jí)超大推薦模型訓(xùn)練。

Bashfrom colossalai.nn.parallel.layers.cache_embedding import CachedEmbeddingBag
emb_module = CachedEmbeddingBag(num_embeddings=num_embeddings,embedding_dim=embedding_dim,mode="sum"include_last_offset=True,sparse=True,_weight=torch.randn(num_embeddings, embedding_dim),warmup_ratio=0.7,cache_ratio = 0.01,)

性能測(cè)試

在 NVIDIA A100 GPU (80GB)和 AMD EPYC 7543 32-Core Processor (512GB)硬件平臺(tái)上,Colossal-AI 以 Meta 的 DLRM 模型作為測(cè)試目標(biāo),用超大數(shù)據(jù)集 Cretio 1TB 和 Meta 的 dlrm_datasets 生成數(shù)據(jù)集作為測(cè)試模型。實(shí)驗(yàn)中采用將嵌入表全部存儲(chǔ) GPU 上的 PyTorch 訓(xùn)練速度作為 baseline。

Cretio 1TB

Cretio 1TB嵌入表總共 177944275 行,設(shè)置 embedding dim=128,其嵌入表內(nèi)存需求 91.10 GB。想把 EmbeddingBags 全部存儲(chǔ)在單個(gè) GPU 內(nèi)存中,即使是最高端的英偉達(dá) A100 80GB 也無法滿足其內(nèi)存需求。 

但使用 Colossal-AI 仍然在單 GPU 上完成訓(xùn)練,當(dāng) cache ratio=0.05,顯存消耗僅為 5.01 GB,直接降低約 18 倍,可進(jìn)一步擴(kuò)展到在單張 GPU 上實(shí)現(xiàn) TB 級(jí)推薦系統(tǒng)模型的訓(xùn)練。在訓(xùn)練速度上,如下圖所示,展示了不同 batch size 下訓(xùn)練 100M 個(gè)樣本的延遲。綠色 Prefetch1 是不使用預(yù)取,藍(lán)色 Prefetch8 是使用預(yù)取(prefetch mini-batch=8)的延遲,可見預(yù)取流水優(yōu)化對(duì)整體性能提升發(fā)揮了重要作用。圖中每個(gè)柱子深色部分為 Cache 開銷,使用預(yù)取后,Cache 開銷控制在訓(xùn)練總時(shí)間的 15% 范圍內(nèi)。

圖片

多 GPU 擴(kuò)展性

用 8192 作為全局 batch size,在 8 張 GPU 卡上使用 table-wise sharding 作為 EmbeddingBags 并行方式訓(xùn)練 DLRM,訓(xùn)練 100M samples。此時(shí)設(shè)置 Prefetch 大小為 4,ColossalAI-mem-cr0.05 是 cache ratio=0.05,ColossalAI-mem-cr0.5=0.5。下圖展示了不同 GPU 情況下的訓(xùn)練延遲。除了 1 GPU 時(shí) PyTorch OOM 無法訓(xùn)練之外,其余情況 PyTorch 和 Colossal-AI 訓(xùn)練時(shí)間類似。可以觀察到使用 4 和 8 GPU 并沒有帶來明顯性能提升,這是因?yàn)椋?. 同步結(jié)果需要通信開銷巨大。2. table-wise sharding 會(huì)導(dǎo)致切分負(fù)載不均衡。也說明使用多 GPU 來擴(kuò)展 embedding table 訓(xùn)練擴(kuò)展性并不是很好。

圖片

下圖展示了顯存使用,顯存使用在不同卡上并不相同,這里展示最大顯存數(shù)值。在僅使用一張 GPU 時(shí),只有 Colossal-AI 的軟件 Cache 方法可以訓(xùn)練,多卡并行的占用內(nèi)存也顯著減少數(shù)倍。

圖片

Meta Research 的合成數(shù)據(jù)集 dlrm_datasets 模仿了工業(yè)界嵌入表的訓(xùn)練訪問行為,因此常在研究中作為推薦系統(tǒng)相關(guān)的軟硬件設(shè)計(jì)的測(cè)試參考。選取其中的 5 億行嵌入表項(xiàng)的作為子數(shù)據(jù)集,構(gòu)造 256GB 和 128GB 大小的兩個(gè) EmbeddingBags 用于測(cè)試。

圖片

PyTorch 由于顯存內(nèi)存不足無法在單卡 A100 上訓(xùn)練。作為對(duì)比, Colossal-AI 的軟件 cache 將顯著降低 GPU 內(nèi)存需求,足以訓(xùn)練大至 256GB 的嵌入表,并可進(jìn)一步擴(kuò)展至 TB 級(jí)別。而且,流水預(yù)取也能體現(xiàn)出加速效果,當(dāng)預(yù)取數(shù)為 32 時(shí),相比沒有預(yù)取總時(shí)間下降 60%,而且對(duì) GPU 的存儲(chǔ)的需求卻沒有增大。

One More Thing


圖片

面向大模型時(shí)代的通用深度學(xué)習(xí)系統(tǒng) Colossal-AI,通過多項(xiàng)自研領(lǐng)先技術(shù)如高效多維自動(dòng)并行、異構(gòu)內(nèi)存管理、大規(guī)模優(yōu)化庫、自適應(yīng)任務(wù)調(diào)度等實(shí)現(xiàn)高效快速部署 AI 大模型訓(xùn)練和推理,降低 AI 大模型應(yīng)用成本。

Colossal-AI 相關(guān)解決方案已成功在自動(dòng)駕駛、云計(jì)算、零售、醫(yī)藥、芯片等行業(yè)知名廠商落地應(yīng)用,廣受好評(píng)。

Colossal-AI 注重開源社區(qū)建設(shè),提供中文教程,開放用戶社群及論壇,對(duì)于用戶反饋進(jìn)行高效交流與迭代更新,不斷添加 PaLM、AlphaFold、OPT 等前沿應(yīng)用。

自然開源以來,Colossal-AI 已經(jīng)多次在 GitHub 及 Papers With Code 熱榜位列世界第一,與眾多已有數(shù)萬 star 的明星開源項(xiàng)目一起受到海內(nèi)外關(guān)注!

項(xiàng)目開源地址:https://github.com/hpcaitech/ColossalAI


責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-11-09 13:53:45

AI圖像

2024-04-03 12:32:00

數(shù)據(jù)訓(xùn)練

2009-12-15 21:49:05

2017-12-06 08:06:47

IBMGPU機(jī)器學(xué)習(xí)

2022-05-30 15:44:33

模型訓(xùn)練GAN

2025-07-21 09:26:00

AI開源模型

2009-11-19 08:46:16

Windows 7系統(tǒng)驅(qū)動(dòng)

2022-04-26 15:09:14

優(yōu)化模型訓(xùn)練

2021-08-10 15:37:45

AI 數(shù)據(jù)機(jī)器學(xué)習(xí)

2025-03-13 12:39:22

2020-12-09 09:47:05

數(shù)據(jù)中心IT硬件能源消耗

2025-04-21 08:30:00

微軟開源模型

2025-11-06 09:05:00

2025-09-12 17:19:38

2022-09-13 21:32:09

毫末

2020-02-24 10:51:25

微軟開源Windows

2024-06-25 12:45:02

2025-03-18 08:19:01

2025-07-28 08:42:00

2023-01-05 21:25:06

毫末
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

精品国产www| 人妻 日韩 欧美 综合 制服| 黄色av电影在线观看| 国内成人精品2018免费看| 久久综合久中文字幕青草| 黑人性生活视频| 国产高清在线a视频大全| 91在线视频官网| 国产精品电影久久久久电影网| 国产成人精品视频免费| av成人综合| 91黄视频在线| 免费在线精品视频| 天堂av2024| 久久99国产乱子伦精品免费| 欧美精品久久久久久久免费观看 | 老司机午夜精品| 欧美日韩成人精品| 欧美波霸videosex极品| 亚洲视频一起| 在线精品亚洲一区二区不卡| 成人一区二区av| 成人在线免费观看| 懂色av一区二区夜夜嗨| 国产精品自拍视频| 国产精品久久久免费视频| 亚洲电影在线一区二区三区| 亚洲精品一二区| 国产探花一区二区三区| 外国电影一区二区| 婷婷综合五月天| a级网站在线观看| 国产二区视频在线观看| 成人免费观看av| 成人在线免费观看视视频| 五月婷婷亚洲综合| 狠色狠色综合久久| 久久精品视频中文字幕| 国产jk精品白丝av在线观看| 黄色美女久久久| 制服.丝袜.亚洲.另类.中文| 91人人澡人人爽人人精品| 激情国产在线| 亚洲成人免费在线观看| 久久久久久久久网| 久操视频在线观看| 国产精品每日更新| 日韩精品久久久免费观看| 色视频免费在线观看| 成人精品一区二区三区中文字幕| 亚洲影院在线看| 国产三级第一页| 久久国产人妖系列| 国产精品黄色av| 欧美一区免费看| 久久久久久久波多野高潮日日| 国外成人在线直播| 国产午夜免费视频| 亚洲一本视频| 午夜精品在线视频| 国产一级做a爰片在线看免费| 久久精品国内一区二区三区水蜜桃| 国产一区二区av| 成人小视频免费看| 成久久久网站| 中国china体内裑精亚洲片| 在线观看国产精品一区| 国内精品视频在线观看| 国产午夜精品免费一区二区三区| 色一情一交一乱一区二区三区| 欧洲grand老妇人| 在线观看不卡av| 一本一本久久a久久| 99九九热只有国产精品| 美女啪啪无遮挡免费久久网站| 久久久久亚洲av片无码| 欧美成人精品| 久久久亚洲国产| 在线视频一区二区三区四区| 视频一区二区欧美| 国产精品爽爽爽| 国产精品亚洲欧美在线播放| 国产激情一区二区三区四区| 韩国成人一区| 国产女人在线观看| 亚洲人吸女人奶水| 精品一区二区三区无码视频| 蜜桃视频m3u8在线观看| 欧美综合久久久| 亚洲男人天堂2021| 欧美深夜视频| 最新69国产成人精品视频免费| 亚洲欧美精品aaaaaa片| 亚洲激情国产| 国产精品视频26uuu| 国产999久久久| 91丨porny丨蝌蚪视频| 亚洲v国产v在线观看| 91小视频xxxx网站在线| 欧美日韩国产丝袜美女| 中文字幕第38页| 大型av综合网站| 在线视频免费一区二区| 成人免费看片98| 免费观看日韩av| 国产精品免费一区二区三区| 69视频在线观看| 亚洲成在人线在线播放| 最新天堂中文在线| 日本福利一区| 久久五月情影视| caoporn国产| 国产成人精品综合在线观看| 日本视频精品一区| 青青草原国产在线| 欧美日韩五月天| 亚洲av人人澡人人爽人人夜夜| 欧美三级情趣内衣| 91精品国产91久久久久久不卡| 中文字幕一区二区三区四区免费看| 福利电影一区二区三区| 亚洲午夜精品一区二区三区| 免费h视频在线观看| 日韩一本二本av| 99热6这里只有精品| 亚洲永久字幕| 国产 高清 精品 在线 a| 日本中文字幕伦在线观看| 精品福利在线视频| 中文字幕永久免费| 亚洲人体av| 国产精品三级久久久久久电影| 四虎精品一区二区三区| 一二三四区精品视频| www.亚洲高清| 成人情趣视频| 国产不卡av在线| 日韩精品系列| 激情久久av一区av二区av三区| 国产又黄又嫩又滑又白| 国产精品成人a在线观看| 国产精品久久精品| 成人在线观看黄色| 欧美性高潮在线| 久久久久麻豆v国产精华液好用吗| 欧美不卡一区| 91香蕉视频在线下载| 国产在线观看a视频| 欧美日本韩国一区二区三区视频| 中字幕一区二区三区乱码| 嫩草成人www欧美| 久久婷婷人人澡人人喊人人爽| 成全电影大全在线观看| 亚洲国产成人在线播放| 国产网址在线观看| 99视频精品免费视频| 国内性生活视频| 日本午夜精品久久久| 2019中文在线观看| 欧美女优在线观看| 在线观看免费视频综合| 微拍福利一区二区| 老司机精品视频在线| 亚洲最大色综合成人av| 欧美亚洲综合视频| 久精品免费视频| 亚洲第一色网站| 亚洲动漫第一页| av无码av天天av天天爽| 久久尤物视频| 亚洲伊人婷婷| 秋霞影院一区| 91av在线看| 国产福利电影在线| 欧美精品色一区二区三区| 亚洲熟女www一区二区三区| 国产成人亚洲综合a∨婷婷| 国产爆乳无码一区二区麻豆| 欧美激情99| 国产精品久久久久久久app| 黄色动漫在线| 亚洲国产精品久久久久秋霞不卡| 天天综合网入口| 日本一区二区成人在线| 亚洲高清av一区二区三区| 国产一区二区三区自拍| 欧美激情视频一区二区三区| 日日夜夜亚洲| 久久人人爽人人爽人人片av高清| 久草福利在线| 91精品国产综合久久久久久久| 精品在线视频免费| 国产亚洲视频系列| 国产伦精品一区二区三区妓女下载 | 日韩亚洲欧美高清| 天堂中文字幕在线观看| 亚洲欧美在线aaa| 特级西西人体wwwww| 久久国产精品99久久人人澡| 日本a视频在线观看| 精品美女久久| 99久久精品无码一区二区毛片 | 欧美性生交xxxxx久久久| 日本二区三区视频| 91一区在线观看| 亚洲av无日韩毛片久久| 午夜亚洲视频| japanese在线播放| 精品国产一区二区三区噜噜噜| 7777精品伊久久久大香线蕉语言| 欧美三级网址| 久久人91精品久久久久久不卡| 无遮挡的视频在线观看 | 欧美视频中文字幕| 日本一级片免费看| 亚洲乱码国产乱码精品精的特点| 日韩在线免费观看av| 成人激情免费网站| 久久出品必属精品| 美女精品在线| 欧美视频在线观看网站| 自拍欧美日韩| 亚洲精品视频一区二区三区| 综合综合综合综合综合网| 97久久夜色精品国产九色| 亚洲伦理一区二区| 日韩免费av片在线观看| 麻豆国产在线| 欧美激情a∨在线视频播放| 国产色在线观看| 中文字幕日韩精品有码视频| 日韩一区二区三区中文字幕| 精品第一国产综合精品aⅴ| 国产精品久久久久久久久久久久久久久久久久 | а天堂中文最新一区二区三区| 日韩美女视频中文字幕| 亚洲v.com| 7777精品久久久久久| 女囚岛在线观看| 欧美精品制服第一页| 国产精品一区二区三区视频网站| 中文字幕欧美亚洲| 永久免费av在线| 在线成人一区二区| 2021av在线| 视频在线观看99| 日韩在线免费电影| 日韩在线观看免费全| 91大神在线网站| 久久精品99久久久久久久久| 免费在线观看av| 久久人人爽人人爽人人片亚洲| 黄色网页网址在线免费| 欧美成人午夜剧场免费观看| 91在线中文| 久久人91精品久久久久久不卡| 黄色在线观看www| 日韩免费av一区二区| 成人做爰视频www| 成人性生交大片免费看视频直播 | 黄色一区三区| 日本欧美三级| 色播亚洲婷婷| 久久激情电影| 四虎4hu永久免费入口| 欧美久久一区| 国产特级黄色大片| 玖玖国产精品视频| 久热在线视频观看| 成人禁用看黄a在线| 精品夜夜澡人妻无码av| 国产欧美综合色| 成人高潮免费视频| 亚洲一区在线视频观看| 影音先锋亚洲天堂| 欧美三级三级三级爽爽爽| 国产人妖一区二区| 日韩电视剧免费观看网站| 国产人成在线视频| 欧美区二区三区| 二区三区不卡| 91精品在线影院| 日韩欧美美女在线观看| 亚洲激情啪啪| 欧美久久99| 欧美a在线视频| 青青国产91久久久久久| 亚洲欧美自拍另类日韩| 粉嫩av一区二区三区在线播放| 久久人妻一区二区| 国产人成一区二区三区影院| h色网站在线观看| 午夜av一区二区| 黄色激情视频在线观看| 欧美日韩视频第一区| 国产高清视频免费| 国产一区二区三区视频| 国产福利视频在线观看| 国内精品视频在线| 亚洲精品毛片| 国产视频一区二区三区四区| 九九亚洲精品| 一本久道高清无码视频| 日韩精品1区2区3区| 精品综合久久久久| 97国产一区二区| 欧美爱爱小视频| 在线免费av一区| 亚洲AV无码国产精品午夜字幕 | 四虎在线免费观看| 精品亚洲一区二区三区| 国产素人视频在线观看| 日本久久久久久久| 日韩中文一区二区| 久久免费99精品久久久久久| 亚洲高清资源在线观看| 免费看黄色一级大片| 丁香婷婷综合色啪| 天天干天天舔天天操| 欧美日韩另类字幕中文| 国产精品一区二区三区在线免费观看 | 欧美精品一区二区性色a+v| 国产欧美日韩一级| 中文字幕一区二区三区四| 久久久久久久久伊人| 亚洲欧美在线视频免费| 制服丝袜亚洲网站| 二区在线观看| 7777精品久久久久久| 国产一区二区| 中文有码久久| 日韩av一区二区三区四区| 成人免费看片载| 一区二区三区在线高清| 中文字幕在线视频第一页| 国产午夜精品视频免费不卡69堂| 丁香影院在线| 亚洲xxx视频| 欧美片第1页综合| 亚洲天堂国产视频| 91在线高清观看| 六月丁香在线视频| 亚洲成人av中文字幕| 深夜国产在线播放| 91精品一区二区| 国产欧美亚洲精品a| 免费男同深夜夜行网站| 99久久99久久免费精品蜜臀| 日韩精品成人一区| 欧美www视频| 欧美jizzhd69巨大| 91在线免费网站| 色琪琪久久se色| 亚洲精品乱码久久久久久动漫| 国产精品私人影院| 日本久久综合网| 日韩在线观看免费高清| 日本一区二区中文字幕| 四虎影院一区二区| 精品一区二区成人精品| 久久久久久久麻豆| 3751色影院一区二区三区| 高潮毛片在线观看| 岛国视频一区| 日韩午夜免费| 国产精品理论在线| 欧美三级三级三级爽爽爽| dy888亚洲精品一区二区三区| 成人信息集中地欧美| 亚洲大全视频| 国产精品成人无码专区| 亚瑟在线精品视频| 成年人在线看| 成人乱色短篇合集| 日韩欧美一区免费| 亚洲国产欧美日韩在线| 香蕉久久一区二区不卡无毒影院| 欧洲天堂在线观看| 国产精品美女av| 欧美日韩福利| 五月天激情小说| 色婷婷激情久久| 午夜小视频福利在线观看| 国产日韩一区二区| 麻豆精品视频在线观看| 粉嫩av性色av蜜臀av网站| 精品一区二区三区四区在线| 国产精品高清乱码在线观看| 日本在线免费观看一区| 国产精品一区二区三区网站| 精品在线视频免费| 中文字幕亚洲国产| 亚洲精品福利| 国产成人综合一区| 亚洲天堂福利av| 色播色播色播色播色播在线| 国产剧情久久久久久| 狠狠入ady亚洲精品经典电影| 欧美激情视频二区| 欧美xxxx老人做受|