精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

TPU Deep Dive:Google TPU 架構深度分析

人工智能
TPU 的主要優勢在于其可擴展性。這是通過硬件層面(例如能效方面和模塊化)與軟件層面(例如 XLA compiler)的協同設計實現的。

最近我大量使用 TPU,發現它們與 GPU 的設計理念非常不同,感覺很有趣。

TPU 的主要優勢在于其可擴展性。這是通過硬件層面(例如能效方面和模塊化)與軟件層面(例如 XLA compiler)的協同設計實現的。

1.背景信息

簡單介紹一下 TPU,它是谷歌的專用集成電路(ASIC),其設計聚焦于兩大要素:極高的矩陣運算(matmul)吞吐量和能源效率。

它們的起源可追溯到 2006 年的谷歌。當時,他們正在評估是采用 GPU、FPGA 還是定制的 ASIC。當時,只有少數應用需要使用專用硬件,他們判斷通過從大型數據中心調配多余的 CPU 算力即可滿足這些需求。但這一情況在 2013 年發生了變化,當時谷歌的語音搜索功能運行在神經網絡上,而內部預測認為,如果該功能發展起來,將需要遠超以往的算力。

時至今日,TPU 已為谷歌的大多數人工智能服務提供算力支撐。當然,也包括 Gemini 或 Veo 的訓練和推理,也包括他們的推薦模型。

讓我們從底層開始,深入了解一下 TPU 的內部構造。

2.單個 TPU 芯片內部的架構層級

下文圖示均以 TPUv4 為例,但其整體布局基本也適用于最新一代 TPU(如 TPUv6p “Trillium”。TPUv7 “Ironwood” 的細節截至 2025 年 6 月尚未公布)。

單顆 TPUv4 芯片的結構如下:

TPU Single Chip + TensorCoreTPU Single Chip + TensorCore


每顆芯片內含兩個 TPU TensorCore,負責所有計算。(注:面向推理的專用 TPU 僅有一個 TensorCore)。兩個 TensorCore 共享同一份內存:CMEM(128 MiB)和 HBM(32 GiB)。

而在每個 TensorCore 內部,都有計算單元和較小的內存緩沖區:

1)矩陣乘法單元 (MXU)

  • 這是 TensorCore 的核心部件,是一個 128x128 的脈動陣列(systolic array)。

脈動陣列的原理稍后說明。

2)向量單元(VPU)

  • 負責執行通用的逐元素操作(例如 ReLU、點加/點乘、歸約操作)

3)向量內存(VMEM;32 MiB)

  • 內存緩沖區。HBM 中的數據需先復制到 VMEM,TensorCore 才能開始計算。

4)標量單元 + 標量內存(SMEM;10 MiB)

  • 用于調度 VPU 和 MXU 的執行指令。
  • 負責管理控制流、標量運算和內存地址生成。

如果你使用的是英偉達(NVIDIA)GPU,那么一些初步觀察結果可能會讓你大吃一驚:

1)TPU 的片上內存單元(CMEM、VMEM、SMEM)遠大于 GPU 的 L1/L2 緩存。

2)TPU 的 HBM 容量卻遠小于 GPU 的 HBM。

3)負責計算的"核心"(cores)數量明顯更少。

這與 GPU 架構完全相反 —— GPU 擁有較小的 L1/L2 緩存(以 H100 為例,分別為 256KB 和 50MB)、更大的 HBM(H100 為 80GB)以及數以萬計的計算核心(cores)。

在我們進一步討論之前,需明確的是,TPU 與 GPU 同樣具備極高的吞吐量。單顆 TPU v5p 芯片可達 500 TFLOPs/sec,由 8960 顆芯片組成的完整 pod 集群可實現約 4.45 ExaFLOPs/sec。而最新的 "Ironwood" TPUv7 每個 pod(9216 顆芯片)據稱可達 42.5 ExaFLOPS/sec。

要理解 TPU 如何實現這種性能,我們需要深入探究其設計理念。

3.TPU 的設計理念

TPU 通過兩大技術支柱和一個核心前提實現了驚人的吞吐量與能源效率:systolic array(脈動陣列) + pipelining(流水線)、Ahead-of-Time (AoT) compilation(預先編譯),以及假設絕大多數運算都可通過適配 systolic array(脈動陣列)的方式表達。幸運的是,在現代深度學習(DL)領域,計算的大部分都是矩陣運算,而這些運算都適合使用 systolic array(脈動陣列)。

3.1 TPU 設計選擇之一:Systolic Array + Pipelining

問:什么是 Systolic Array?

答:Systolic Array 是一種硬件設計架構,由相互連接的處理單元(PE)網格組成。每個 PE 執行少量運算(例如乘法和累加運算),并將結果傳遞給相鄰 PE。

image.pngimage.png

這種設計的好處是,數據一旦輸入 systolic array(脈動陣列),便無需額外的控制邏輯來處理數據。此外,當脈動陣列的規模足夠大時,除輸入輸出外再無內存讀寫操作。

由于脈動陣列的剛性結構設計(rigid organization),其僅能處理具有固定數據流模式的操作,但幸運的是,矩陣乘法和卷積運算(convolutions)恰好完美適配這種架構范式。

不僅如此,pipelining(流水線技術)顯然有機會將計算與數據移動重疊執行。下圖展示了 TPU 架構上 pipelined pointwise operation (通過流水線技術,加速 pointwise operation(逐點操作) 的執行過程。)的示意圖。

圖片圖片

Pipelined Pointwise Operation (from "How to Scale Your Model" [4])

旁注:Systolic Arrays(脈動陣列)的局限性 —— 稀疏性

我們可以看到,脈動陣列(systolic arrays)非常喜歡稠密矩陣(dense matrices)(即每個 PE 幾乎每個時鐘周期都處于活躍狀態)。然而,其劣勢是,相同規模的稀疏矩陣(sparse matrices)無法獲得性能提升 —— 即使對于零值元素(zero-valued elements),PE 仍需執行相同數量的計算周期(cycles),導致資源浪費。

如若深度學習(DL)領域更傾向于采用更不規則的稀疏性(例如 MoE 架構),應對脈動陣列的這一系統性局限將變得愈發重要。

3.2 TPU 設計選擇之二:預先(AoT)編譯 + 減少對緩存的依賴

本節將回答 TPU 如何通過軟硬件協同設計(TPU + XLA 編譯器)來避免使用緩存,從而實現高能效。

首先,請記住傳統緩存是為了處理不可預測的內存訪問模式而設計的。一個應用程序的內存訪問模式(memory access patterns),可能與另一個應用程序大相徑庭。從本質上講,緩存允許硬件靈活地適應各種應用場景。這也是 GPU(相較于 TPU)靈活性極高的一個重要原因。

然而,緩存訪問(以及一般意義上的內存訪問)會消耗大量能源。下面是對芯片(45納米,0.9V;[18])上各類操作的能耗粗略估計。這里的主要啟示是,內存的訪問和控制占用了大部分的能耗,而算術操作本身的能耗占比則小得多。

image.pngimage.png

但是,如果你的應用非常特殊,而且其計算和內存訪問模式具有很高的可預測性呢?

舉個極端的例子,如果我們的編譯器能提前確定所有需要的內存訪問,那么硬件僅需一個暫存器作為緩沖區就足以滿足需求,根本不需要緩存。

這正是 TPU 的設計理念所追求的,也是 TPU 使用 XLA 編譯器設計以實現這一目標的根本原因。XLA 編譯器通過提前分析計算圖來生成優化過的程序。

問:但 JAX 在 TPU 上也運行良好,它們使用 @jit 嗎?

TPU 上的 JAX+XLA 實際處于 JIT 與 AOT 的混合模式,因此容易產生混淆。當首次調用 JAX 中被 @jit 修飾的函數時,JAX 會進行代碼追蹤并生成靜態計算圖。然后將其傳遞給 XLA 編譯器,在那里被轉化為適用于 TPU 的完全靜態二進制文件。在最后的轉化階段,編譯器會實施針對 TPU 的優化(例如,最大限度地減少內存訪問),使整個過程適合 TPU。

但有一點需要注意:當輸入張量的形狀(shape)發生變化時,已編譯的 JIT 函數需重新編譯并緩存。這就是為什么 JAX 在處理動態填充(dynamic padding)或長度隨輸入變化的 for 循環層時表現不佳。

當然,這種方案雖有優勢,卻也存在明顯的局限。它缺乏靈活性,而對編譯器的重度依賴猶如一把雙刃劍。

那么,Google 為何仍要堅持這種設計理念?

TPU 及其能源效率(TPUv4)

前文的能耗示意圖并不能精確反映 TPU 的實際情況,此處是 TPUv4 的能耗細目。注意,TPUv4 采用 7nm 工藝,表中 45nm 的數據僅用于對比([3], [16])。

image.pngimage.png

單次操作能耗對比(TPUv4, 7 nm)單次操作能耗對比(TPUv4, 7 nm)

上方的柱狀圖展示了具體數值,但需注意,現代芯片采用的是 HBM3 內存,其能耗遠低于本圖表中顯示的 DDR3/4 DRAM。盡管如此,該圖仍表明內存操作的能耗仍高出計算操作數個數量級。

這恰與 scaling laws 形成呼應:我們非常樂意通過增加浮點運算量(FLOPS)來換取更少的內存操作。因此減少內存操作能帶來雙重優化收益——不僅提升程序運行速度,還可顯著降低能耗。

4.TPU 的多芯片互聯層級結構

現在升級到更高層級,觀察 TPU 在多芯片環境中的運作方式。

4.1 托盤層級(即"板卡";含4個芯片)

image.pngimage.png

單塊 TPU 托盤包含 4 個 TPU 芯片或 8 個 TensorCore(簡稱"核心")。每塊托盤配備獨立 CPU 主機(注:推理型 TPU 的每個主機可訪問 2 塊托盤,因其每芯片僅含 1 個核心)。

主機(Host) ? 芯片(Chip)的連接采用 PCIe 接口,但芯片(Chip)?芯片(Chip)之間通過 Inter-Core Interconnect(ICI)連接,該接口具備更高帶寬。

不過 ICI 連接還可進一步擴展至多塊托盤。為此,我們需要繼續提升到機架層級(Rack level)。

4.2 機架層級(4x4x4 芯片)

TPU 最令人興奮的特性在于其可擴展性,這一點從機架層級開始顯現。

一個 TPU 機架包含 64 個 TPU 芯片,通過 4x4x4 三維環面網絡互聯。如果您看過谷歌的 TPU 宣傳資料(如下圖),這張圖展示的是 8 個 TPU 機架的集群。

單次操作能耗對比(TPUv4, 7 nm)單次操作能耗對比(TPUv4, 7 nm)

但在深入討論機架之前,我們需要澄清幾個容易混淆的術語:機架(Rack)、Pod 和切片(Slice)的區別。

問:TPU 機架、TPU Pod 和 TPU 切片有何不同?

不同谷歌資料對這些術語的使用存在差異,有時甚至混用"TPU Pod"和"TPU Slice"。本文采用谷歌 TPU 論文和 GCP 官方文檔的定義([3][7][9]):

1)TPU 機架(Rack)

  • 包含 64 塊芯片的物理單元,也稱為“立方體(cube)”。

2)TPU Pod

  • 通過 ICI 和光纖連接的 TPU 最大單元。
  • 又稱"Superpod"或"Full Pod"。例如 TPUv4 的 TPU Pod 包含 4096 塊芯片(或 64 個機架)。

3)TPU 切片(Slice)

  • 介于 4 塊芯片到 Superpod 規模之間的任何 TPU 配置組合。

主要區別在于,TPU 機架和 TPU Pod 是物理計量單位,而 TPU 切片是抽象計量單位。當然,TPU 切片的設置涉及重要的物理拓撲約束,但現階段我們暫不展開討論。

現在,我們將聚焦物理計量單位:TPU 機架和 TPU Pod。這是因為,理解 TPU 系統的物理連接方式,能更深入地掌握其設計哲學。

現在回到 TPUv4 機架的具體結構:

單個 TPU 機架通過 ICI 和 OCS(Optical Circuit Switching)技術連接 64 個芯片。實質上,我們通過組合多個托盤(trays)來構建一個 64 芯片的完整系統。這種"將小型單元組裝成超級計算機"的設計理念將持續貫穿后續層級。

下圖展示了 TPUv4 單個機架的拓撲結構。它采用 4x4x4 三維環面網絡,其中每個節點都代表一塊芯片,藍色箭頭表示 ICI 鏈路,而各個面上的連接線則代表 OCS(根據文獻 [7] 重繪)。

使用 OCS 的 TPU 單機架架構使用 OCS 的 TPU 單機架架構

然而,這張圖表引出了兩個關鍵問題:為何 OCS 僅應用于環面結構的表面?換句話說 —— 使用 OCS 的核心優勢是什么?共有三大核心優勢,我們將在后文再詳述另外兩點。

OCS 的優勢 #1:環繞連接 (Wraparound)

通過環形拓撲優化節點間的通信效率。

OCS 還承擔特定 TPU 配置的環繞連接功能。該設計將兩節點間的跳數從最壞情況下 N-1 跳降至每軸 (N-1)/2 跳,因為每條軸均形成一個環形(一維環面拓撲)。

隨著規模的進一步擴大,這種影響變得更加重要,因為降低芯片間的通信延遲對于高度并行化的實現至關重要。

附注:并非所有 TPU 都采用 3D 環面拓撲

注意,早期 TPU(如 TPUv2/v3)及推理專用 TPU(如 TPUv5e/v6e)使用 2D 環面拓撲而非下文所述的 3D 環面。不過 TPUv7"Ironwood" 雖定位為推理芯片,但其拓撲疑似 3D 環面(注:僅根據官方宣傳材料推測)。

2D環面拓撲示意圖2D環面拓撲示意圖

4.3 Full Pod 層級(又稱 "Superpod";TPUv4 為 4096 塊芯片)

正如我們通過互聯多個芯片構建 TPU 機架,我們也可連接多個機架組成大型 Superpod。

Superpod 特指僅通過 ICI 和 OCS 互聯的最大 TPU 集群規模。雖然存在 multi-pod 層級,但這種層級需依賴更慢速的連接方式,后續將展開說明。

芯片數量會因版本不同而變化,但 TPUv4 的芯片數量為 4096(即 64 個 4x4x4 芯片的機架)。最新的 TPUv7 "Ironwood" 則高達 9216 塊芯片。

下圖展示了 TPUv4 的一個 Superpod:

TPUv4 Superpod 架構(64 個機架)TPUv4 Superpod 架構(64 個機架)

請注意,每個立方體(即 TPU 機架)是如何通過 OCS 相互連接的,這種設計也支持在 Pod 內靈活劃分 TPU 切片。

采用 OCS 的 TPU 切片

我們可在 Pod 內申請 TPU 子集,即 TPU 切片。但即使所需芯片數(N)相同,也存在多種拓撲結構可供選擇。

例如,若總共需要 512 塊芯片,可選擇立方體(8x8x8)、條狀拓撲(4x4x32)或矩形拓撲(4x8x16)。選擇切片的拓撲結構本身就是一個超參數。

所選拓撲結構直接影響節點間通信帶寬,進而影響各類并行策略的性能表現。

以立方體結構(如8x8x8)為例,它特別適合需要全連接通信的并行計算模式,比如數據并行或張量并行,因為這種拓撲結構能提供最高的二分帶寬(bisection bandwidth)。而條狀結構(如4x4x32)則更適用于流水線計算,這種布局可以讓順序排列的計算層之間實現更快速的數據傳輸(前提是單個計算層能夠適配 4x4 芯片的子切片配置)。

典型 TPU 拓撲示例典型 TPU 拓撲示例

當然,最優拓撲取決于具體模型結構,其尋優過程本身即是一門學問。TPUv4 論文[9]實測表明,拓撲優化可大大提升吞吐量(注:我不確定第一行指的是哪種 LLM 架構,因為沒有具體說明)。

不同拓撲結構的吞吐量優化對比不同拓撲結構的吞吐量優化對比

前文闡述了 TPU 切片,但另有一項重要的特性有助于提高 TPU 的運行穩定性。

借助 OCS 技術,這些切片無需占據物理連續的機架空間。這正是 OCS 的第二大優勢 —— 可能也是其最大優勢,但我們此前尚未展開討論。

OCS 的優勢 #2:可重新配置的非連續多節點切片

需注意,這不同于將多個節點硬連在一起來模擬非連續切片。由于 OCS 采用光交換技術而非硬連線架構,跨節點間的物理線纜數量大幅減少,從而支持更大規模的集群擴展(即可構建超大規模 TPU Pod)。

這樣就可以進行靈活的節點規模配置。例如,假設我們想在單個 Pod 上運行三個任務。雖然傳統的調度方式不允許這樣做,但 OCS 連接允許我們抽象出節點的物理位置,使整個 Pod 可視為一個"節點資源池"(根據參考文獻[6]重繪)。

單任務可將 Pod 內機架視為"節點資源池"單任務可將 Pod 內機架視為"節點資源池"

此舉不僅提高了 Pod 的利用率,而且能在節點出現故障的情況下簡化維護流程。谷歌將其描述為"故障節點的影響范圍很小"。但尚不確定其液冷系統在部分節點停機時如何運作。

最后,這種靈活的 OCS 還有項延伸應用:我們還可以改變 TPU 切片的拓撲結構(例如將規則環面調整為扭曲環面)。

OCS 的優勢 #3:扭曲環面拓撲

此前我們通過改變固定芯片數量下的 (x,y,z) 維度來實現不同的 TPU 切片拓撲結構。本節則聚焦固定維度配置,通過改變布線方式構造新型拓撲。

典型案例如下:將常規條狀環面改造為扭曲條狀環面。

單任務可將 Pod 內機架視為"節點資源池"


單任務可將 Pod 內機架視為"節點資源池"

扭曲環面拓撲結構能加速扭曲二維平面上的芯片之間的通信,該特性對提升全局通信效率尤其有用。

下文將深入分析其具體應用場景。

使用扭曲環面加速訓練

理論上,扭曲環面對張量并行(TP)的加速效益最大,因為每層涉及多次 all-gather 和 reduce-scatter 操作。對數據并行(DP)也有適度提升,因為每個訓練步需執行 all-reduce 操作,但發生頻率較低。

想象一下,假設我們訓練一個標準的僅解碼器架構的 Transformer 模型,并采用多種并行策略來加速訓練。下面我們將看到兩種場景:

場景 #1:4x4x16 拓撲結構(TP+PP;共 256 塊芯片)

設定 z 軸為流水線(PP)維度,二維 TP 維度為 4x4。本質上,假設第 k 層位于 z=k 平面,且每層分片至 16 塊芯片。若未明確繪制,默認采用 OCS 最近鄰連接。

TP+PP 的 4x4x16 拓撲架構TP+PP 的 4x4x16 拓撲架構

通過在每個 z=k 平面實施 2D 環面扭曲,可加速 TP 層內芯片通信。由于 PP 層主要依靠點對點通信,因此沒有必要沿 PP 層扭曲。

注:實際應用中,扭曲環面在芯片數>4x4 時效益顯著。本示例使用 4x4 僅出于可視化的目的。

場景 #2:16x4x16 拓撲(DP+TP+PP;共 1024 塊芯片)

作為延伸方案,我們在前一場景基礎上增加 DP 維度(x 軸 4 個實例),即沿 x 軸部署 4 組場景 #1 的模型。

DP+TP+PP 的 16x4x16 拓撲架構DP+TP+PP 的 16x4x16 拓撲架構

請注意,扭曲環面僅應用于每個 DP 模型內的每個 TP 維度(即對每個 z=k 平面實施 4x4 二維扭曲,k 取值 1…16)。DP 維度僅維持基礎的環繞連接,使每行構成長度為 16 的水平環。

你可能已經發現還有一種拓撲結構方案(如 8x8x16,即 2x2 DP 維度),但這會混合 DP 與 TP 維度 —— 這就變得更加復雜了。具體來說,我們還不清楚如何在 y 軸構建 OCS 環繞連接的同時兼容各 TP 維度的扭曲環面?

4.4 Multi-Pod 層級(即"Multislice";TPUv4 支持 4096+ 塊芯片)

image.pngimage.png

TPU 層次結構的最終層級是 Multi-pod 架構。此時可將多個 Pod 視為一臺大型機器,但 Pod 之間的通信需通過數據中心網絡(DCN) 進行 —— 其帶寬低于 ICI。

通過 DCN 互聯的雙 Pod 架構 [1]通過 DCN 互聯的雙 Pod 架構 [1]

PaLM 模型即采用此方案進行訓練。在 6144 個 TPUv4 芯片(2 個 Pod)上耗時 56 天完成。下圖是 6 個 Pod 中的 TPU 任務分配情況:綠色為 PaLM 任務,紅色為空閑狀態,其余為其他任務。注意每個方格代表一個 4x4x4 的 TPU 芯片立方體。

PaLM 訓練過程中的 TPU Pod 利用率 [6]PaLM 訓練過程中的 TPU Pod 利用率 [6]

實現這一架構已屬不易,但更關鍵的是開發者體驗設計,具體來說,就是要關注:如何實現模型擴展過程中系統/硬件層面的最大程度抽象化?

谷歌的解決方案是:由 XLA 編譯器在大規模計算場景下協調芯片間的通信。研究人員只需配置相關參數(如 DP、FSDP、TP 等并行維度及切片數量),XLA 編譯器即會根據當前 TPU 拓撲結構自動插入分層集合通信操作(Xu et al, 2021: GSPMD [2])。我們的目標是在盡可能少修改代碼的情況下實現大規模訓練。

例如,谷歌博客[1]展示了跨多 TPU 切片的 all-reduce 操作分解流程:

XLA 實現的跨 Pod All-Reduce 規約操作XLA 實現的跨 Pod All-Reduce 規約操作

這表明 XLA 編譯器可以同時處理切片內與切片間的集合通信操作。

舉個具體例子,在訓練模型時,TPU 的拓撲結構可能如下所示。激活值的通信在切片內通過 ICI 進行,而梯度的通信則需跨切片通過 DCN 完成(即在 DCN 的 DP 維度上)[1]。

TPU data movement visualizedTPU data movement visualized

5.實物圖示對照解析

結合硬件實拍圖理解架構圖會更直觀,以下為綜合解析。

若看過谷歌 TPU 宣傳資料,可能見過下圖:

8 個 TPU 機架(TPUv4)8 個 TPU 機架(TPUv4)

此圖為 8 個 TPU Pods 的集群,每個單元即前述的 4x4x4 三維環面架構。一個 Pod 中的每一行有 2 個托盤,這意味著每一行有 8 個 TPU 芯片。

單塊 TPUv4 托盤實拍圖:

image.pngimage.png

請注意,圖中簡化為只有一個 PCIe 端口,但實際托盤上有 4 個 PCIe 端口(在左側) —— 每個 TPU 一個。

單芯片結構圖:

TPUv4 芯片:中央是 ASIC + 4 組 HBM 內存堆棧TPUv4 芯片:中央是 ASIC + 4 組 HBM 內存堆棧

中央區域為 ASIC 芯片,周圍 4 個區塊為 HBM 內存堆棧。因 TPUv4 內含 2 個 TensorCore,故配置 4 組 HBM 內存堆棧。

未找到 TPUv4 芯片平面圖,此處展示結構近似的 TPUv4i(推理芯片),其僅含 1 個TensorCore[3]:

可見 CMEM(芯片內存)在 TPUv4i 的布局中占據了相當大的空間。可見 CMEM(芯片內存)在 TPUv4i 的布局中占據了相當大的空間。



References

[1] Google Blog: TPU Multi-Slice Training(https://cloud.google.com/blog/products/compute/using-cloud-tpu-multislice-to-scale-ai-workloads)

[2] Xu, et al. "GSPMD: General and Scalable Parallelizaton for ML Computation Graphs"(https://arxiv.org/pdf/2105.04663)

[3] Jouppi et al. "Ten Lessons From Three Generations Shaped Google's TPUv4i"(https://gwern.net/doc/ai/scaling/hardware/2021-jouppi.pdf)

[4] How to Scale Your Model - TPUs(https://jax-ml.github.io/scaling-book/tpus/)

[5] Domain Specific Architectures for AI Inference - TPUs(https://fleetwood.dev/posts/domain-specific-architectures#google-tpu)

[6] HotChips 2023: TPUv4(https://hc2023.hotchips.org/assets/program/conference/day2/ML+training/HC2023.Session5.ML_Training.Google.Norm_Jouppi.Andy_Swing.Final_2023-08-25.pdf)

[7] Google Cloud Docs: TPUv4(https://cloud.google.com/tpu/docs/v4)

[8] Jouppi et al. "In-Datacenter Performance Analysis of a Tensor Processing Unit" -- TPU origins paper(https://arxiv.org/abs/1704.04760)

[9] Jouppi et al. "TPU v4"-- TPUv4 paper(https://arxiv.org/abs/2304.01433)

[10] PaLM training video(https://www.youtube.com/watch?v=0yPFBxkOKRY)

[11] HotChips 2021: "Challenges in large scale training of Giant Transformers on Google TPU machines"(https://hc33.hotchips.org/assets/program/tutorials/HC2021.Google.Sameer+Kumar.pdf)

[12] HotChips 2020: "Exploring Limits of ML Training on Google TPUs"(https://hc32.hotchips.org/assets/program/tutorials/HC2020.Google.SameerKumarDehaoChen.v02.pdf)

[13] Google Blog: Ironwood(https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/)

[14] HotChips 2019: "Cloud TPU: Codesigning Architecture and Infrastructure"(https://old.hotchips.org/hc31/HC31_T3_Cloud_TPU_Codesign.pdf)

[15] ETH Zurich's Comp Arch Lecture 28: Systolic Array Architectures(https://www.youtube.com/watch?v=XkgtANeDrm8)

[16] Patterson presentation: "A Decade of Machine Learning Accelerators: Lessons Learned and Carbon Footprint"(https://www.cs.ucla.edu/wp-content/uploads/cs/PATTERSON-10-Lessons-4-TPU-gens-CO2e-45-minutes.pdf)

[17] Camara et al. "Twisted Torus Topologies for Enhanced Interconnection Networks."(https://personales.unican.es/vallejoe/Publications/C%C3%A1mara+-+TPDS'10+-+Twisted+Torus+Topologies+for+Enhanced+Interconnection+Networks.pdf)

[18] Horowitz article: "Computing's Energy Problem(and what we can do about it)"(https://gwern.net/doc/cs/hardware/2014-horowitz-2.pdf)

責任編輯:武曉燕 來源: Baihai IDP
相關推薦

2018-11-13 13:10:10

CPUGPUTPU

2023-04-11 08:37:30

TPUAI芯片

2017-05-23 18:59:56

2021-01-05 08:23:20

CPUGPUTPU

2024-02-28 18:22:13

AI處理器

2023-05-06 07:43:00

ASIC谷歌TPU

2018-06-22 11:05:14

谷歌

2019-09-03 10:44:59

TPUGPUCPU

2024-09-12 22:45:47

2019-07-18 08:54:42

谷歌Android開發者

2019-10-14 09:58:00

機器學習人工智能計算機

2020-02-28 15:27:31

代碼開發工具

2025-08-25 09:12:00

2020-12-22 11:05:12

深度學習GPU人工智能

2022-05-16 09:00:00

機器學習模型算力

2021-04-13 10:25:33

人工智能深度學習
點贊
收藏

51CTO技術棧公眾號

综合久久一区| xxxxxx欧美| 国产精品123| 久久久久久久一区二区三区| 熟妇高潮精品一区二区三区| 岛国av中文字幕| 欧美一区二区麻豆红桃视频| 欧美一区二区日韩一区二区| 欧美,日韩,国产在线| 成人av毛片| 国产成人免费视频精品含羞草妖精 | 欧美中文字幕在线视频| 蜜桃av免费观看| 盗摄系列偷拍视频精品tp| 色婷婷综合久久久中文一区二区| 亚洲精品日韩av| 中国一级特黄毛片| 天天做天天爱天天爽综合网| 亚洲精品黄网在线观看| 日本一本中文字幕| 日本精品在线| www国产精品av| 亚洲精品女av网站| 久操视频在线免费观看| 亚洲国产高清视频| 精品少妇一区二区三区视频免付费| 日本毛片在线免费观看| 免费在线你懂的| 久久久www成人免费毛片麻豆| 亚洲最大福利网站| 青青操国产视频| 欧美另类69xxxxx| 色8久久精品久久久久久蜜| 狠狠精品干练久久久无码中文字幕 | 日韩欧美高清在线| 男人插女人下面免费视频| 高清精品在线| 依依成人综合视频| 午夜啪啪免费视频| 最新97超碰在线| 久久精品网站免费观看| 久久99欧美| 隣の若妻さん波多野结衣| 国产精品一区专区| 国产日韩欧美91| 姑娘第5集在线观看免费好剧| 国产精品久久久一区二区| 久久久久国产视频| 欧美三级日本三级| 影音先锋日韩在线| 久久精品欧美视频| 91n在线视频| 91一区二区| 欧美一级免费大片| www.国产视频.com| 电影在线观看一区二区| 在线视频亚洲一区| 别急慢慢来1978如如2| 韩国主播福利视频一区二区三区| 狠狠爱在线视频一区| 精品久久一二三| 欧美aa在线观看| 激情久久av一区av二区av三区| 久久久99精品视频| 日本无删减在线| 亚洲成人激情综合网| 久久视频这里有精品| 国产传媒在线观看| 日韩欧美精品网址| 亚洲第一综合网站| 超碰在线观看免费版| 亚洲精品国产品国语在线app| 潘金莲一级淫片aaaaa免费看| 黄色av电影在线播放| 91亚洲精品久久久蜜桃| 久久亚洲一区二区| 国产经典自拍视频在线观看| 中文字幕av不卡| 福利网在线观看| 福利写真视频网站在线| 中文在线免费一区三区高中清不卡| 五月天亚洲综合| 精产国品自在线www| 亚洲精品视频免费看| 又大又硬又爽免费视频| 桃色一区二区| 亚欧色一区w666天堂| www国产精品内射老熟女| 麻豆影视国产在线观看| 一区二区三区视频在线观看| 在线免费观看成年人视频| 香蕉久久精品日日躁夜夜躁| 亚洲午夜久久久影院| 亚洲天堂精品一区| 国产精品99免费看| 日本一区二区三区在线播放| 中文字幕激情视频| 国产一区二区三区免费| 国产一区二区三区黄| h视频在线观看免费| 一区二区在线观看视频在线观看| 日本韩国欧美在线观看| 国产精品蜜月aⅴ在线| 日韩一二三四区| 91网站免费视频| 一区二区三区网站| 国产91久久婷婷一区二区| 国产喷水吹潮视频www| 91视频一区二区| 天天综合五月天| 成人自拍视频网| 亚洲黄在线观看| 亚洲xxxx3d动漫| 日本成人在线电影网| 国产精品久久久久久久小唯西川 | 久久国产人妖系列| 成人av男人的天堂| av女优在线| 婷婷六月综合网| 91蝌蚪视频在线| 红桃成人av在线播放| 久久久久亚洲精品| 国产又粗又猛又色又| 久久亚洲一区二区三区四区| 日韩精品一区二区在线视频| 性感美女视频一二三| 亚洲欧洲精品一区二区三区 | 精精国产xxxx视频在线野外| 欧美高清一级片在线| 久久成人激情视频| 亚洲影视综合| 国产一区二区高清视频| av黄色在线| 56国语精品自产拍在线观看| 国产三级短视频| 亚洲欧美成人综合| 精品一区二区三区免费毛片| 污影院在线观看| 在线综合亚洲欧美在线视频| 99国产精品免费| 老牛嫩草一区二区三区日本| 免费成人深夜夜行视频| 无码小电影在线观看网站免费 | 国产精品久久久久91| 青青草在线免费视频| 欧美日韩激情网| 在线免费播放av| 在线日韩欧美| 国产一区精品视频| 国产无遮挡裸体视频在线观看| 欧美日韩精品免费观看视频| 国产欧美日韩一区二区三区| 北岛玲一区二区三区| 91黄色小视频| 受虐m奴xxx在线观看| 久久综合九色| 天天综合色天天综合色hd| 刘亦菲一区二区三区免费看| 国产视频在线观看一区二区| 久久久久99精品成人片我成大片 | 日本大片在线播放| 欧美成人性福生活免费看| 久草网视频在线观看| 成人久久视频在线观看| 黄网站欧美内射| 日韩精品社区| 国产激情久久久| 天天综合视频在线观看| 欧美另类高清zo欧美| 日韩激情综合网| 国产美女视频一区| 少妇高潮毛片色欲ava片| 日韩极品在线| 国产精品视频一| fc2ppv国产精品久久| 亚洲第一精品久久忘忧草社区| 国产手机在线视频| 国产日产欧美一区二区三区| 一区二区三区三区在线| 伊人亚洲精品| 欧美激情亚洲视频| 男女视频在线观看| 欧美另类久久久品| 日本少妇毛茸茸高潮| 久久久久久麻豆| 色国产在线视频| 欧美三级不卡| 欧美一二三区| 678在线观看视频| 亚洲精品中文字幕av| 在线免费一级片| 久久久.com| www.污污视频| 国产日韩欧美三区| 伊人久久大香线蕉午夜av| 亚洲专区**| 国产精品成人v| 午夜伦理在线视频| 国产亚洲美女精品久久久| 99热这里只有精品在线观看| 国产精品久久久久影院亚瑟| 欧美日韩一区二区区别是什么| 亚洲欧美日韩一区在线观看| 一区二区三区电影| 日韩高清电影免费| 97se亚洲综合在线| 影音成人av| 久久久久久成人| 色开心亚洲综合| 亚洲国产精品va在线看黑人动漫| 在线观看亚洲一区二区| 日韩欧美第一页| 精品99久久久久成人网站免费| 久久亚洲欧美国产精品乐播| 亚洲精品一二三四| 免费高清视频精品| 成年网站在线免费观看| 狠狠综合久久av一区二区老牛| 污视频在线免费观看一区二区三区| 国产精品毛片av| 91探花福利精品国产自产在线| 97久久香蕉国产线看观看| 欧美精品videossex88| 黄网址在线观看| 国产亚洲欧美视频| 青梅竹马是消防员在线| 亚洲福利在线看| 精品国产亚洲av麻豆| 欧美日韩精品三区| 免费又黄又爽又猛大片午夜| 色综合天天综合在线视频| 国产亚洲欧美精品久久久久久| 中文字幕一区二区三| 亚洲天堂av中文字幕| 久久久国产一区二区三区四区小说 | 刘亦菲一区二区三区免费看| 97视频在线观看网址| av福利在线导航| 久久久久亚洲精品国产| 污网站在线免费看| 欧美成人四级hd版| 国产高清一区二区三区视频| 日韩中文字幕免费| 精品人妻一区二区三区浪潮在线| 欧美性大战久久久久久久蜜臀 | 国产精品高清无码在线观看| a级精品国产片在线观看| 无码人妻精品一区二区三区99不卡| 国产精品主播直播| 亚洲女则毛耸耸bbw| 成人免费看视频| 丰满大乳奶做爰ⅹxx视频| 99re免费视频精品全部| 国产精品1000部啪视频| 久久久亚洲精品一区二区三区| 黄色a一级视频| 久久精品亚洲一区二区三区浴池| 欧美三级视频网站| 国产精品无码永久免费888| 91ts人妖另类精品系列| 国产91精品在线观看| 日韩精品无码一区二区三区免费| 亚洲永久免费精品| 九九九在线观看视频| 美国三级日本三级久久99| 伊人成人222| 国产乱码一区二区三区| 日本人妻一区二区三区| 91在线精品秘密一区二区| 自拍偷拍视频亚洲| 亚洲欧美在线视频| 九九热精品免费视频| 午夜伦欧美伦电影理论片| 久久久久久久久久久影院 | 国产露脸91国语对白| 日韩女优av电影| 同心难改在线观看| 最近2019中文字幕一页二页| av片在线观看| 欧美一区二区三区四区在线| 九七影院97影院理论片久久| 亚洲一区二区免费在线| 欧美挤奶吃奶水xxxxx| 91视频国产精品| 国产丝袜一区| 视频一区国产精品| 中出一区二区| av观看免费在线| 精品一区二区三区不卡| 欧美精品成人网| 黄页视频在线91| 亚洲精品在线视频免费观看| 国产精品久久午夜夜伦鲁鲁| 国产乱码久久久久久| 欧洲激情一区二区| 性生活免费网站| 日韩一级欧美一级| 欧美美女色图| 欧美久久精品午夜青青大伊人| 激情黄产视频在线免费观看| 国产精品自拍视频| 黑色丝袜福利片av久久| 亚洲精品高清国产一线久久| 一区二区亚洲精品| 午夜剧场高清版免费观看| 93久久精品日日躁夜夜躁欧美| 性生交大片免费全黄| 一本久久a久久免费精品不卡| 精品人妻一区二区三区蜜桃 | 亚洲中字黄色| 亚洲一区二区三区四区精品| 久久久久国产精品麻豆ai换脸 | 一本久久a久久精品亚洲| www.成人精品| 日韩视频免费观看| 欧美黑人一区| 韩国精品一区二区三区六区色诱| 91精品啪在线观看国产18| 男女啪啪网站视频| 91在线云播放| 国产无套内射又大又猛又粗又爽| 欧美麻豆精品久久久久久| 国产在线三区| 欧美亚洲第一区| 白嫩白嫩国产精品| 永久免费网站视频在线观看| 久久精品国产亚洲一区二区三区| 亚洲av无码国产精品久久| 亚洲成人动漫精品| 国产黄色一区二区| 久久九九有精品国产23| 久久免费资源| 亚洲高清资源综合久久精品| 噜噜爱69成人精品| 爱爱免费小视频| 欧美日韩视频免费播放| 天堂在线视频免费观看| 午夜精品久久久久久久99黑人 | 日本黄色片免费观看| 欧美日韩综合不卡| eeuss影院www在线播放| 国产精品美女午夜av| 奇米色欧美一区二区三区| www黄色av| 久久久久久久久久久电影| 亚洲黄色免费观看| 亚洲色图美腿丝袜| 亚洲wwww| 一区二区不卡在线视频 午夜欧美不卡' | 在线观看国产小视频| 日韩在线免费观看视频| 亚洲aⅴ网站| 男女裸体影院高潮| 成人福利视频网站| 日本少妇性高潮| 亚洲精品一区二区三区婷婷月| 亚洲欧美电影| 视频一区二区三| 九九精品视频在线看| 欧美成人777| 亚洲国产精久久久久久 | 中国xxxx性xxxx产国| 亚洲第一成年网| 深夜视频在线免费| 国产精品白嫩美女在线观看| 色综合天天综合网中文字幕| 亚洲天堂一区二区在线观看| 一区二区三区在线免费视频| 欧美一区二不卡视频| 青草成人免费视频| 日韩欧美一区二区三区在线视频| 三区视频在线观看| 亚洲综合色网站| 麻豆导航在线观看| 国产精品一区二区久久| 欧美高清一区| 最新中文字幕视频| 欧美挠脚心视频网站| 欧美xxx黑人xxx水蜜桃| 精品视频高清无人区区二区三区| 视频一区免费在线观看| 国产老头老太做爰视频| 亚洲国产成人精品久久久国产成人一区 | 亚洲女同一区二区| 日韩成人黄色| 成人国产精品av| 亚洲欧美日韩国产综合精品二区| 网爆门在线观看| 亚洲精品久久久久中文字幕二区| av亚洲一区| 热99这里只有精品| 国产精品久久久久久久第一福利| 免费看黄色一级视频| 国产精品美女久久| 亚洲第一区色| 日本黄区免费视频观看| 亚洲精品电影在线观看| 亚洲一区导航| 日本在线视频www| 亚洲自拍另类综合|