精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大規模分布式 AI 模型訓練—張量并行

發布于 2024-9-3 12:17
瀏覽
0收藏

一、背景

本文中我們繼續介紹分布式訓練中的張量并行(Tensor Parallelism,TP),包括 AlexNet、Google、Facebook、NVIDIA 以及 Colossal-AI 的一系列 Tensor Parallelism 方案。涉及 1D TP,2D 和 3D TP,也包含行切分和列切分等。

這里說的 Tensor Parallelism 和 Zero DP 以及 Pytorch FSDP 中的模型切分方式不一樣,Zero DP 和 FSDP 中的模型切分在實際使用的時候還會將相應的參數 AllGather 到當前設備,使用全部的參數進行計算。而 Tensor Parallelism 中的參數都始終在當前設備,最終聚合的是結果(Activation)。當然,在后續的文章中我們也會介紹 Zero 和 FSDP 相關方案。

二、分布式矩陣乘

Tensor Parallelism 的核心就是分布式矩陣乘法,其在高性能計算領域已經有很長的歷史,也已被廣泛研究。在 Tensor Parallelism 中有兩種常見的切分方式,Column Parallelism 和 Row Parallelism。如果從模型的的角度考慮,通常指的是 Y=XW 的形式,其中 X 為輸入,W 為權重參數,Y 為輸出。而具體是哪種切分方式也可以看 W 矩陣是在哪個維度切分的。(PS:這個小節的圖片來自 Tensor Parallelism — PyTorch Lightning 2.4.0 documentation)

2.1 Column Parallelism

如下圖所示為 Column Parallelism,其中的 Column 就是指權重參數 W 按照 Column 維度切分。每個 GPU 都包含一部分權重參數,并使用整個輸入 X 計算,得到 Y 的一部分,最后通過 AllGather 操作可以獲得全量結果。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

2.2 Row Parallelism

如下圖所示為 Row Parallelism,其中的 Row 就是指權重參數 W 按照 Row 維度切分。每個 GPU 都包含一部分權重參數,并使用部分輸入 X 計算,結果和 Y 的 Shape 相同,但結果不完整,最后通過 AllReduce 操作可以獲得全量結果。因為 AllReduce 可以通過 ReduceScatter 和 AllGather 的方式實現,而 Column Parallelism 中的 AllGather 和 Row Parallelism 中 AllGather 通信量是一樣的,因此,總體來說 Column Parallelism 的通信量更少:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

2.3 Column Parallelism + Row Parallelism

在 Transformer 等模型中會存在連續兩個矩陣乘法(Linear Layer)的情況,此時通常都會采用先 Column Parallelism,之后 Row Parallelism 的方式切分,可以在兩個 Linear 之間減少一次通信操作。如下圖所示,W 是第一個 Linear 權重,V 是第二個 Linear 權重。只用在最后進行一次 AllReduce 操作即可:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

三、AlexNet

Tensor Parallelism 在 AI 模型中的應用最早可以追溯到著名的論文(2012: ImageNet Classification with Deep Convolutional Neural Networks),也就是 AlexNet,作者是 Alex Krizhevsky,Ilya Sutskever 和 Geoffrey E. Hinton。如下圖所示為 AlexNet 模型的網絡結構:其整個模型由 8 個可學習層組成,包括 5 個 Convolutional 層 和 3 個 Fully Connected 層;此外還有幾個 Max Pooling 和 ReLU 層。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

然而,當時流行的消費級 GPU 為 GTX 580,只有 3GB 顯存,無法訓練這么大的模型,因此作者采用 Tensor Parallelism 的方式,當然,那個時候還沒叫 Tensor Parallelism。其切分也很簡單,如下圖所示,Conv 層按照卷積核(Kernel)切分,而 FC 層按照神經元(Neuron)切分。由于 Conv 層也可以等價于矩陣乘操作,所以 Conv 和 FC 的切分也都可以理解為矩陣乘中將 Weight 按行切分。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

2012 年賈揚清的 Caffe 還沒有誕生,Alex Krizhevsky 自己實現了一個 cuda-convnet 庫(Google Code:cuda-convnet),為了支持 AlexNet 的 Tensor Parallelism,也繼續開發了 cuda-convnet2(Google Code:cuda-convnet2)。

PS:冷知識,NVIDIA 的 K20 GPU 是 2012 年發布的,只有 5GB 顯存;P100 是 2016 年發布的,最大也只有 16GB 顯存,也是在 P100 GPU 中首次引入 NVLink;NVIDIA 的集合通信庫 NCCL 也是在 2016 年發布。作者本人也是在這一年用 CUDA 重構了熊廠的圖像檢索系統,用的還是 K1200 GPU。

四、Google DistBelief

和 AlexNet 同年,Google 團隊也發表了 DistBelief 論文( 2012:Large Scale Distributed Deep Networks)。論文主要討論了如何使用大規模分布式計算集群(CPU)來訓練具有數十億參數的深度神經網絡。論文的核心貢獻是開發了 DistBelief 軟件框架,該框架能夠利用數千臺機器來訓練大型模型(1.7B,現在的 1.7B 已經是 Tiny Model 了 (⊙o⊙)…)。

如下圖所示為 DistBelief 中的模型并行(Model Parallelism)方案,這里已經涉及 Tensor Parallelism 和 Pipeline Parallelism。下圖中是一個 5 層的深度神經網絡,被切分到了 4 個機器上。由于每一層不是 Fully Connected 的,而是部分連接,因此只有切分的邊緣需要跨設備通信:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

此外,模型訓練也不是采用的集合通信方式,而是使用了 Parameter Server 架構,如下圖所示。也就是說模型權重的更新都是在專有的 Parameter Server 上進行,更新完后會 Broadcast 給相應的 Training Worker:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖所示,作者在 2012 年已經訓練了 1.7B 參數量的模型。(PS:可能是模型結構或者訓練資源的制約,最終并沒有在 ImageNet 上大規模訓練,和 AlexNet 同期但并沒有在效果上超越 2個 GPU 上訓練的 AlexNet)

大規模分布式 AI 模型訓練—張量并行-AI.x社區

五、Facebook TP + DP

Facebook AI 團隊在 [1312.5853] Multi-GPU Training of ConvNets 中將數據并行(Data Parallelism)和 AlexNet 的 Tensor Parallelism 相結合。如下圖 Figure 5 所示,GPU 1 和 GPU 2 共同包含了一份完整的模型副本,并通過 Tensor Parallelism 的方式切分模型;GPU 3 和 GPU 4 包含另外一份模型副本,兩個模型部分使用不同的數據訓練,并在每個 Iter 進行聚合同步: 

大規模分布式 AI 模型訓練—張量并行-AI.x社區

作者也對比了不同的分布式策略,最終使用 Tensor Parallelism + Data Parallelism 的方式獲得最優的加速比:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

六、Google TP + DP

Google 在 [1404.5997] One weird trick for parallelizing convolutional neural networks 中進一步對 TP + DP 進行了優化(PS:其實作者還是 Alex Krizhevsky,從 Google 離職后似乎不再進行 AI 研究相關工作;現在 AlexNet 的二作 Ilya Sutskever 更為人熟知,尤其是 OpenAI 火了之后)。如下圖 Figure 1 所示,具體來說,作者發現其模型的大部分參數集中在最后的 Fully Connected 層,因此在前面的 Conv 層采用 DP,而在后面的 FC 層采用 TP。其中 DP 里每個 Work 使用不同的 Batch 數據,而 TP 中使用相同的 Batch 數據:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Table 1 所示,在 2GPU 和 4GPU 幾乎都獲得了線性加速:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

七、UC Berkeley TP + DP

之前方案中討論了 Model Parallelism 和 Tensor Parallelism,其主要都是指權重參數按 Column 的切分方式。而在 [1712.04432] Integrated Model, Batch and Domain Parallelism in Training Neural Networks 中(PS:本文中作者用的是 Y=WX 的方式,所以雖然 Weight 按照 Row 切分了,但是實際對應 Y=XA 中的 Column Parallelism),UC Berkeley 等作者進一步討論了輸入(Activation,X)相關的切分方式(作者稱作 Domain Parallelism),且與 Data Parallelism 和 Column Parallelism 一起分析(比如分析通信量)、整合,并證明 Data Parallelism 或 Tensor Parallelism 單獨使用都不是最優的方案。

當然,本文中作者的討論也有一定的局限性,比如主要針對 AlexNet,并且假定所有設備之間都使用相同的拓撲連接。

如下圖 Figure 5 所示,作者首先評估了 Data Parallelism + Column Parallelism 的方案。其相當于 TP=2,DP=3:

  • 第一行:Forward 過程,采用的 Column Parallelism,所以計算完之后需要 AllGather 操作拿到完整數據。
  • 第二行:Backward 權重梯度過程,相當于 Row Parallelism,所以計算完之后需要 AllReduce 操作。
  • 第三行:Backward 鏈式法則(輸入梯度)過程,相當于 Row Parallelism,所以計算完之后需要 AllReduce 操作。?

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Figure 3 就是其所述的 Domain Parallelism,因為其數據實際是按 NCHW 方式存儲的,因此這里按照 Width 切分為 4 部分。這里實際就是對輸入的切分:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

作者對 Domain Parallelism 的通信也進行了分析,對于 AlexNet,前積層都是 Conv 層,Activation 比較大,適合 Domain Parallelism(切分輸入);后幾層是 FC 層,參數量比較大,適合切分 Weight。

八、Google Mesh-TensorFlow

Google 團隊在 2017 年發表著名的 [1706.03762] Attention Is All You Need,此后模型規模不斷擴大,Model Parallelism 已經成為不可或缺的分布式訓練方案。然而,當時并沒有一個高效的 Model Parallelism 的訓練框架,因此 Google 的作者提出了 Mesh-TensorFlow([1811.02084] Mesh-TensorFlow: Deep Learning for Supercomputers)框架,它是一個通用的分布式 Tensor 計算框架,用戶可以在多維網格的任何維度上分割任何的張量,也就天然可以支持 Data Parallelism 以及 Tensor Parallelism(包括 Column Parallelism 和 Row Parallelism)。

此外,作者也在 512 個 TPU 上訓練了 5B 參數量的 Transformer 模型(PS:本文的一作也是 Attention Is All You Need 的二作 Noam Shazeer)。

也是在這篇文章中作者對 Transformer 模型里這種 2 個 FC 層相鄰的 Model Parallelism 切分方式進行了介紹。如下圖所示,其中 w 和 v 是兩個權重矩陣,x 為輸入,y 為輸出,中間激活為 Relu:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

針對上述 2 個 FC 相鄰(比如 FFN,Attention)的計算,作者提出了可以第一個 FC 的 Weight(w)采用列切,第二個 FC 的 Weight(v)采用行切的方案。如下圖所示,這樣的好處是在第一個矩陣乘之后并不用通信,只用在最后的 y 這里 AllReduce 即可:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

其實作者也探討了更復雜的 2D Parallelism 切分方式,如下圖 Figure 5 所示。不過最終在 GitHub - tensorflow/tensor2tensor 中實現的還是上面提到的方式:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

九、NVIDIA Megatron-LM

Google 在 Mesh-TensorFlow 中已經提供了比較豐富的 Tensor Parallelism 的支持,然而它是一種新的框架,用戶如果想要使用會有比較大的改造成本。因此 NVIDIA 在 [1909.08053] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 中發布了 Megatron-LM 框架,只用對已有的 Pytorch Transformer 模型進行少量修改就可以實現,相應的更加簡單、方便。

如下圖 (a)所示,其和 Mesh-Tensorflow 類似,MLP 層的兩個 FC 采用先列切(A,Column Parallelism),然后行切(B,Row Parallelism)的方案,這樣兩個 FC 之間不用通信:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖(b)所示,由于每個 Head 的 Attention,softmax 都是獨立的,因此可以采用按照 Head 的方式切分(等價于 Column Parallelism),然后對之后的 FC 采用行切分(B,Row Parallelism),這樣 Self-Attention 中間也不用通信:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

需要說明的是,作者在其中引入了 f 和 g 模塊,其主要就是一個通信的抽象,比如如下圖所示,f 的 Forward 就是一個 Identify 操作,Backward 是一個 AllReduce 操作;而 g 正好相反,Forward 是一個 AllReduce 操作,Backward 是一個 Identify 操作。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Figure 4 所示,采用這種 Tensor Parallelism 的 Transformer 模型的每一層在 Forward 和 Backward 都各只有 2 次 AllReduce 操作:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

十、Colossal-AI 2D Tensor Parallelism

在 [2104.05343] An Efficient 2D Method for Training Super-Large Deep Learning Models 中,作者進一步提出了 2D Tensor Parallelism 的方案 Optimus,它是一種高效的 2D Tensor Parallelism 并行范式,可以進一步促進無限大 LLM 的訓練,Colossal-AI 作者也在 GitHub - hpcaitech/ColossalAI 中開源了相應代碼。

作者提出 2D Tensor Parallelism 是因為觀察到之前的方案(比如 Megatron-LM,1D)中雖然將模型的參數分配到了多個設備上,但是每個設備上 Forward 和 Backward 的 Activation 并沒有被有效切分,還會占用相應的顯存空間。此外,雖然 Mesh-Tensorflow 中進行了多維 Tensor Parallelism 的抽象,但是并沒有很好的實現。因此,作者提出了 Optimus 方案,以最大化通信效率,最小化顯存占用。

PS:這里有個約束,2D 的兩個維度需要是相等的,也就是說 2D 的數量只能是 2x2=4, 4x4=16, 6x6=36, 8x8=64 這些。

如下圖所示為 Megatron-LM 對 Transformer 模型的切分方案,其中綠色為激活,藍色為權重。可以看出,權重都在各個設備上進行了 1 維切分,而 Input 和 Output 在每個設備上都是保存的整個副本,也就是存在存儲上的冗余。作者將這種方式稱為 1D Tensor Parallelism。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

對于 1D Tensor Parallelism,給定 P 個設備,其計算、內存和通信成本如下所示:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖所示為本文的 2D Tensor Parallelism 切分方案,可以看出,不管是權重還是 Input、Output 都按照設備進行了切分,此時設備也是按照 2D Mesh (q,q)進行排布。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

對于 2D Tensor Parallelism,給定 P = q x q 個設備,其計算、內存和通信成本如下所示:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Table 1 所示,作者也統計了 Megatron-LM 和 Optimus 的通信量和計算量,可以看出,兩者計算量相同(分塊計算并不會增加計算量),而通信量有所差距,當 p 比較大時 Optimus 的 2D 方式可以有一定優勢。不過當前通常都會將一個 TP 分組放在一臺機器內(通常不超過 8 個 GPU),此時 Optimus 在通信上并沒有什么優勢,不過在顯存上會更有優勢,當然也會增加實現和調度的復雜度。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

十一、Colossal-AI 3D Tensor Parallelism

在 [2105.14450] Maximizing Parallelism in Distributed Training for Huge Neural Networks 中,作者在 2D Tensor Parallelism 的基礎上進一步提出了 3D Parallelism。通過實現完美的負載均衡,提出的方法提供比當時最先進的 1D 和 2D Tensor Parallelism 更小的內存和通信成本。在 64 個 V100 GPU 上的實驗結果表明,提出的 3D 并行比 1D 和 2D 并行分別加速 2.32x 和 1.57x。

PS:這里同樣有個約束,3D 的三個維度需要是相等的,也就是說 3D 的數量只能是 2x2x2=8, 4x4x4=64 這些,無法支持 4 個設備的 Tensor Parallelism。

如下圖 Figure 2 所示為一個 3D 矩陣乘的示例,其中 A 和 B 的箭頭表示  Broadcast 的方向,C 中的箭頭是 Reduce 的方向:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Figure 6 所示是 Transformer Layer 的 3D Tensor Parallelism 方案:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

對于 3D Tensor Parallelism,給定 P = q x q x q 個設備,其計算、內存和通信成本如下所示:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Table 2 所示,作者對 1D,2D 和本文提出的 3D Tensor Parallelism 的方案進行了驗證,其中的 Average step time(s) 為 (Forward time + Backward time) / Batch Size。從中可以看出:

  • 2D Tensor Parallelism相比 1D 只在 64 GPU 時略微有優勢;而在更少的 GPU 時,反而不如 1D Tensor Parallelism。
  • 3D Tensor Parallelism相比 1D 有比較大的提升。(PS:3D 更節約顯存,可以使用更大的 Batch Size,如果是 Zero-DP 或者 FSDP 的方式,通過增加 Batch Size 是否可以達到同樣的效果?)

大規模分布式 AI 模型訓練—張量并行-AI.x社區

PS:當前除了 Zero-DP 和 FSDP 外,也有 Pipeline Parallelism,Sequence Parallelism,使用 2D 或者 3D Tensor Parallelism 的場景比較少;此外,GPU 算力越來越強,3D 方式會將矩陣計算切分得更加小,不一定能充分發揮 GPU 算力,還是需要綜合考慮。

十二、Megatron-LM TP+DP

NVIDIA 在上述的 Megatron-LM 中也介紹了 Tensor Parallelism 和 DP Parallelism 混合的方案。當前大規模 GPU 集群廣泛采用 NVIDIA GPU 構建,比如 H100、A100、V100,以及后續的 B200。通常每臺機器有 8 個 GPU,每臺機器內由 NVLink 高速互聯,通信帶寬更高。因此,在排布分布式并行策略時,通常將通信量比較大且有些時候無法有效 Overlap 的 Tensor Parallelism 放在一臺機器內部,而不同機器之間采用 Data Parallelism 或 Pipeline Parallelism。

如下圖 Figure 8 所示為 Megatron-LM 中一個 DP + TP 的混合分布式并行方案,總共采用 64 臺 8 GPU 機器,共 512 GPU。

  • 每臺機器的 8 個 GPU 組成一個 Model Parallelism Group(TP),共 64 個 TP Group;每個TP Group 內的 GPU 包含不同的模型參數,并且使用相同的訓練數據。
  • 所有設備的同號 GPU(比如 GPU 1,9,...,505)組成一個 Data Parallelism Group(DP),共 8 個 DP Group;每個 DP Group 內的 GPU 都有相同的模型參數,但是使用不同的訓練數據。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

基于以上的分布式排布方案,反向傳播和梯度更新的過程如下所示(當然,下述兩個階段可以一定程度上 Overlap,以提升訓練速度):

  1. 各個 TP Group 獨立的進行 Backward,Backward 涉及的 AllReduce 也只在 Group 內部,也就是單個機器內。每個 GPU 上也只有對應權重參數的梯度。
  2. 各個 DP Group 獨立地進行梯度 AllReduce 以及權重參數更新。

如下圖所示,我們在之前的文章中介紹過,當前的大規模 GPU 訓練集群的網絡拓撲中,同一個 Group 里不同機器的同號 GPU 對應的 NIC 會連接到同一個 Leaf 交換機,比如所有機器的 2 號 NIC 都連接到了 2 號 Leaf 交換機。這也與上述的分布式排布方案相對應,所有 TP Group 的通信都在機器內,所有 DP Group 的通信都只用經過 Leaf 交換機,此外在交換機上執行規約計算也變成了一種可能。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

大規模分布式 AI 模型訓練—張量并行-AI.x社區

十三、分布式 LLM 推理:DP+TP

在 LLM 的推理場景也會存在 DP + TP 的組合,比如為了支持更大的吞吐、考慮容災等場景,通常會有多個 Instance;每個 Instance 都會有完整的模型參數,這些 Instance 可以獨立、并行的處理各自的 Request,這種方式可以理解為 DP,只是因為推理只有 Forward,所以不涉及權重更新,各個 Instance 之間也就不必通信。而單個 GPU 的顯存或者算力可能不足,每個 Instance 可能使用多個 GPU 來推理,在 LLM 場景最常見的就是采用 TP 的方案。

然而,此時使用 TP 也可能有其局限性。如下圖所示(圖片來自 [2312.03134] A Hardware Evaluation Framework for Large Language Model Inference),我們之前已經分析過,一個 Transformer Layer 中會有兩次 AllReduce 通信,一次是 MHA 中的最后一個 Linear,一次是 FFN 中的最后一個 Linear。以 GPT-3 175B 模型為例,其共 96 個 Layer,也就是說一次 Forward 要有 192 次 AllReduce(忽略非 Transformer Layer 之外的通信)。每次的通信量與 Hidden Dim 和 Batch Size 成正比,模型確定后 Hidden Dim 確定,其通信量就與 Batch Size 成正比。 

大規模分布式 AI 模型訓練—張量并行-AI.x社區

由于 LLM 推理通常會使用 Continuous Batching 的方式提升吞吐,隨著 Batch Size 增加,MHA 和 FFN 的 Kernel 計算時延不會明顯增加(序列不太長);而 AllReduce 的通信量卻線性增加,相應的通信時延增加的更加明顯,以至于 AllReduce 通信可能成為瓶頸。GPU 間的通信時延與 GPU 之間的互聯方式有關,節點內通常通過 PCIe 或 NVLink 互聯,在 PCIe 互聯方式下就需要密切關注 AllReduce 相應的性能問題,尤其還會涉及跨 PCIe Switch 或 跨 NUMA 通過 UPI 通信的場景。

如下圖所示為 Batch size 等于 1 和 512 時 LLM 中幾個主要 OP 的計算耗時,可以看出,將 Batch size 從 1 增加到 512,計算量增加 512 倍,但是其整體時間只增加到原來的 3 倍左右(圖片來自 openppl-public · GitHub):

大規模分布式 AI 模型訓練—張量并行-AI.x社區

除此之外,Continuous Batching 的方式會希望組合盡可能大的 Batch Size,也就意味著同一時間可能只有一個 Batch 的數據在計算,AllReduce 通信與計算無法充分 Overlap,出現算力的浪費。針對這個問題,也有一些優化方案,比如:

  • Prefill 階段和 Decoding 階段的細粒度 Overlap,比如新到的 Request 在執行 Prefill 計算時,可以執行之前已經 Batching 的 Decoding 的通信;而 Prefill 在通信時,可以執行 Decoding 的計算。當然,實現這種細粒度的計算、通信 Overlap 的代價也比較高。
  • Pipeline Parallelism、Sequence Parallelism 以及其組合方案,這里先不展開。

十四、參考鏈接

  1. https://lightning.ai/docs/pytorch/stable/advanced/model_parallel/tp.html
  2. https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
  3. https://code.google.com/archive/p/cuda-convnet/
  4. https://code.google.com/archive/p/cuda-convnet2/
  5. https://www.cs.toronto.edu/~ranzato/publications/DistBeliefNIPS2012_withAppendix.pdf
  6. https://arxiv.org/abs/1312.5853
  7. https://arxiv.org/abs/1404.5997
  8. https://arxiv.org/abs/1712.04432
  9. https://arxiv.org/abs/1706.03762
  10. https://arxiv.org/abs/1811.02084
  11. https://github.com/tensorflow/tensor2tensor
  12. https://arxiv.org/abs/1909.08053
  13. https://arxiv.org/abs/2104.05343
  14. https://github.com/hpcaitech/ColossalAI
  15. https://arxiv.org/abs/2105.14450
  16. https://arxiv.org/abs/2312.03134

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
在线中文字幕-区二区三区四区| 久久久久久久久久久久| 成人欧美在线| 国产suv精品一区二区三区| 欧美—级高清免费播放| 老司机午夜免费福利| 樱花草涩涩www在线播放| 欧美经典三级视频一区二区三区| 成人xvideos免费视频| 久久久久无码国产精品不卡| 免费看日本一区二区| 欧美日免费三级在线| 欧美日韩dvd| 狠狠狠综合7777久夜色撩人 | 国产91xxx| www亚洲人| 91精彩视频在线播放| 一区二区三区日本久久久| 精品视频1区2区3区| 日本中文字幕亚洲| 午夜激情视频在线| 91视频免费观看| 91久久精品国产91久久性色tv | 在线观看欧美黄色| 人妻激情另类乱人伦人妻| 精品成人一区二区三区免费视频| 国产精一区二区三区| 国产成人精品国内自产拍免费看| 精品亚洲永久免费| 久久人人88| 亚洲欧美日韩一区二区三区在线| 亚洲av无一区二区三区久久| 在线观看精品| 亚洲成a人v欧美综合天堂| 中文字幕日韩精品一区二区| 日本福利在线观看| 国产精品12区| 亚洲va电影大全| 日本一区二区三区久久| 亚洲欧美久久久| 一区二区亚洲欧洲国产日韩| 自拍视频一区二区| 韩国女主播一区二区三区| 在线不卡a资源高清| 三级在线免费看| 三上悠亚亚洲一区| 欧美色视频日本高清在线观看| 日产精品久久久久久久蜜臀| 免费a在线看| 国产精品美女久久久久久2018| 老牛影视免费一区二区| 色窝窝无码一区二区三区| 国产成人精品免费视频网站| 91|九色|视频| 精品人妻无码一区二区| 国产美女主播视频一区| 91精品视频免费观看| 97国产精品久久久| 国产一区在线视频| 亚洲最大的网站| 精品久久久免费视频| 国产精品99久久久久久宅男| 91九色在线视频| 国产精品视频久久久久久| 久久精品国产99国产精品| 国产在线播放不卡| 国产男男gay体育生白袜| 激情综合五月天| 91精品国产一区二区三区动漫| av一区二区三| 国产91在线看| 国产一区自拍视频| 亚洲欧洲精品视频| 久久亚洲二区三区| 婷婷久久青草热一区二区| 东热在线免费视频| 中文字幕第一区综合| 国产精品久久久久久久久久久久冷 | 成人免费在线视频网址| 99久久精品国产一区二区成人| 国产精品一区二区在线观看网站 | 亚洲欧美aⅴ...| 国产美女作爱全过程免费视频| 国产色婷婷在线| 色一情一伦一子一伦一区| 国产喷水theporn| 免费精品一区| 亚洲精品久久久久中文字幕二区 | 欧美大片aaaa| 欧美激情第99页| 亚洲天堂一区在线| 另类成人小视频在线| 成人动漫在线视频| 国产中文在线视频| 亚洲日本一区二区| 欧美日本视频在线观看| 91精品国产66| 精品少妇一区二区三区日产乱码| 亚洲av成人片色在线观看高潮| 欧美人体视频| 久久精品免费电影| 伊人久久综合视频| 蜜臀av在线播放一区二区三区 | 亚洲精品18在线观看| 久久久99免费| 国产精品无码免费专区午夜| 另类图片综合电影| 日韩欧美中文字幕一区| 亚欧洲乱码视频| 国内精品福利| 国产精品直播网红| 午夜av免费在线观看| 亚洲欧洲国产日本综合| www.中文字幕在线| 精品视频在线观看免费观看| 亚洲精选一区二区| 久草视频在线资源| 久久国产生活片100| 精品视频一区在线| 色yeye免费人成网站在线观看| 色诱视频网站一区| 99精品一区二区三区无码吞精| 久久一区二区三区喷水| 4438全国成人免费| 国内老熟妇对白xxxxhd| 欧美—级在线免费片| 老太脱裤让老头玩ⅹxxxx| 电影一区中文字幕| 最近2019中文字幕大全第二页| 精品久久免费视频| 国产精品一区二区视频| 亚洲午夜高清视频| 黄瓜视频成人app免费| 亚洲第一天堂无码专区| 欧美 日韩 国产 一区二区三区| 日韩电影免费一区| 欧美久久久久久久| 日韩精品美女| 亚洲精品国产美女| 国产午夜精品无码| 国产不卡高清在线观看视频| 正在播放一区| 免费成人高清在线视频| 一道本无吗dⅴd在线播放一区| 成年人免费看毛片| 成人午夜激情片| 欧美国产综合在线| 在线视频成人| 久久成人av网站| 国产喷水吹潮视频www| 亚洲欧美自拍偷拍色图| gogogo高清免费观看在线视频| 精品久久成人| 国产精品电影网| av网站在线播放| 欧美性生活久久| 制服丨自拍丨欧美丨动漫丨| 日本va欧美va精品| 亚洲图色在线| 成人在线视频区| 欧美激情三级免费| 免费观看a视频| 欧美日韩精品在线视频| 亚洲国产精品无码久久久久高潮| 亚洲青涩在线| 欧美日韩精品一区| 成人精品高清在线视频| 久久激情视频久久| 亚洲AV无码国产精品午夜字幕| 一区二区三区在线看| 国产51自产区| 麻豆九一精品爱看视频在线观看免费| 欧美一区二区三区四区夜夜大片| 欧美精品总汇| 精品国产一区二区三区久久久狼| 国产女18毛片多18精品| 一区二区三区丝袜| 精品夜夜澡人妻无码av| 美女精品在线观看| 中文字幕成人一区| 粉嫩av一区二区| 日韩av电影在线播放| 色大18成网站www在线观看| 欧美一区二区三区免费| 亚洲国产综合久久| 国产女同互慰高潮91漫画| 潘金莲激情呻吟欲求不满视频| 欧美日韩一卡| 欧美一区二区视频17c| 日韩免费大片| 午夜精品在线观看| 中文字幕在线视频区| 欧美成人在线直播| 日本免费精品视频| 一区二区三区日韩欧美| 亚洲午夜久久久久久久久| 久久综合影视| 真人做人试看60分钟免费| 日韩av三区| 川上优av一区二区线观看| 热三久草你在线| 久久久国产精品x99av| 五月天婷婷在线播放| 欧美日韩精品一区二区三区四区 | 日韩欧美亚洲国产另类| 免费av网站在线| 亚洲女与黑人做爰| 少妇饥渴放荡91麻豆| 国产又黄又大久久| 丰满少妇在线观看| 亚洲国产二区| 九一免费在线观看| 欧美三级伦理在线| 国产久一道中文一区| 色婷婷成人网| 国产激情久久久| 国模精品视频| 久热在线中文字幕色999舞| 欧美日韩激情视频一区二区三区| 日韩三级高清在线| 国产农村妇女毛片精品| 欧美性videosxxxxx| av资源免费观看| 亚洲一区二区精品3399| 极品色av影院| 欧美国产乱子伦| 国产男女猛烈无遮挡a片漫画| 国产精品自拍网站| 日本黄色福利视频| 日韩电影免费在线看| 97xxxxx| 最新国产乱人伦偷精品免费网站| 在线观看免费91| 成人在线亚洲| 日韩久久精品一区二区三区| 亚洲午夜精品| 亚洲在线观看视频| 亚洲最大的免费视频网站| 国产精品九九久久久久久久| 成人av观看| 欧美在线观看网址综合| aa视频在线观看| 久久久久国产一区二区三区| 影院在线观看全集免费观看| www国产亚洲精品久久网站| 成人全视频高清免费观看| 日韩精品极品在线观看播放免费视频| 色噜噜一区二区三区| 亚洲国产中文字幕久久网| 亚洲男人第一天堂| 精品国产乱码久久久久久蜜臀| 精品人妻一区二区三区含羞草| 51精品秘密在线观看| 国产模特av私拍大尺度| 日韩一区二区三区四区五区六区| 国产精品一级二级| 欧美一卡二卡在线| 亚洲精品字幕在线观看| 精品国精品自拍自在线| 欧美自拍偷拍一区二区| 亚洲国产精品成人av| 头脑特工队2在线播放| 亚洲激情久久久| 免费在线观看污视频| 国产午夜一区二区| 91看片在线观看| 欧美成人剧情片在线观看| 日本性爱视频在线观看| 久久全国免费视频| 亚洲欧美韩国| 国产欧美精品在线| 久久国产精品美女| 狠狠干一区二区| 国产精品羞羞答答在线观看| 日韩成人av电影在线| 999久久久亚洲| 97免费视频观看| 久久国产欧美| 欧美激情国内自拍| 99热99精品| 超碰人人人人人人人| 亚洲视频在线一区| 日韩 欧美 精品| 欧美无砖专区一中文字| 99在线精品视频免费观看软件| 精品三级av在线| 国产专区在线播放| 欧美成人高清视频| 亚洲黄色中文字幕| 成人av.网址在线网站| 国产精品白浆| 亚洲永久一区二区三区在线| 欧美日韩亚洲一区二区三区在线| 北条麻妃69av| 国产一二三精品| 强伦人妻一区二区三区| 亚洲免费在线观看视频| 六月丁香激情综合| 3d动漫精品啪啪一区二区竹菊| 开心激情综合网| 日韩中文在线中文网三级| a毛片不卡免费看片| 国产精品网址在线| 久久91在线| 国产成人精品免费看在线播放 | 中文字幕第88页| www.99精品| 欧美一区免费观看| 色综合久久精品| 亚洲美女综合网| 久久五月天色综合| 香蕉视频亚洲一级| 动漫精品视频| 欧美激情电影| 日本老熟妇毛茸茸| www..com久久爱| 青青草手机视频在线观看| 欧美亚男人的天堂| 亚洲 欧美 激情 另类| 久久99精品久久久久久噜噜 | 超碰个人在线| 国产精品入口免费视频一| 日韩mv欧美mv国产网站| 免费看日b视频| 国产一区视频网站| 女人裸体性做爰全过| 欧美小视频在线观看| 亚洲男人天堂久久| 久久99热精品| 精品视频一二| 国产三级中文字幕| 免费在线观看一区二区三区| 亚洲第一成人网站| 天涯成人国产亚洲精品一区av| av中文字幕免费在线观看| 色偷偷888欧美精品久久久| 偷拍视频一区二区三区| 久久久久久国产精品免费免费| 亚洲调教视频在线观看| 亚洲精品无码久久久久久久| 中文字幕亚洲综合久久菠萝蜜| 国产精品无码粉嫩小泬| 亚洲性视频网址| 亚洲精品一区三区三区在线观看| 麻豆av一区二区| 亚洲欧美视频一区二区三区| 最近日本中文字幕| 精品免费在线观看| 十八禁一区二区三区| 久久久人成影片一区二区三区观看 | 午夜久久影院| 亚洲熟女一区二区三区| 亚洲最快最全在线视频| 亚洲精品字幕在线观看| 久久久久在线观看| 女仆av观看一区| 一区二区传媒有限公司| 91麻豆福利精品推荐| 天干夜夜爽爽日日日日| 国产一区二区三区久久精品| 天堂久久午夜av| 伊人色综合久久天天五月婷| 九九国产精品视频| 69av.com| 亚洲国产美女久久久久| 中国色在线日|韩| 视频一区二区在线观看| 久久精品国产久精国产| 久草视频免费在线| 亚洲国产精品高清久久久| 亚洲精品mv| 亚洲在线色站| 国产精品123区| 丰满少妇xoxoxo视频| 中文字幕不卡在线视频极品| 国产电影一区二区| 国产 日韩 亚洲 欧美| 久久伊人中文字幕| 在线观看xxxx| 久久久午夜视频| 精品视频国产| 免费观看一区二区三区| 精品免费在线视频| 午夜在线播放| 国产精品一区在线播放| 天堂久久一区二区三区| 情侣偷拍对白清晰饥渴难耐| 日韩欧美一级二级| 625成人欧美午夜电影| 正在播放亚洲| ww亚洲ww在线观看国产| 亚洲最大成人在线视频| 欧美激情高清视频| 成人嘿咻视频免费看| 无码人妻丰满熟妇区毛片蜜桃精品| 欧美午夜激情视频| 国产激情小视频在线| 久久精品国产美女| 国产在线日韩欧美| 一级做a爰片久久毛片|