精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<sup id="u6cwg"><delect id="u6cwg"></delect></sup>

<tfoot id="u6cwg"><input id="u6cwg"></input></tfoot>

<del id="u6cwg"></del>

<strike id="u6cwg"><rt id="u6cwg"></rt></strike>

<strike id="u6cwg"><input id="u6cwg"></input></strike>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

只需百行代碼，讓H100提速30%，斯坦福開(kāi)源全新AI加速框架

作者：機(jī)器之心 2024-05-13 12:58:30

人工智能新聞

文章用大量篇幅討論了如何讓 GPU 更快的運(yùn)行，并發(fā)布了一個(gè)庫(kù) ThunderKittens，用戶可以很容易地在 CUDA 上編寫(xiě)快速的深度學(xué)習(xí)內(nèi)核。

AI 的快速發(fā)展，伴隨而來(lái)的是大計(jì)算量。這就自然而然的引出了一個(gè)問(wèn)題：如何減少 AI 對(duì)計(jì)算的需求，并提高現(xiàn)有 AI 計(jì)算效率。

為了回答這一問(wèn)題，來(lái)自斯坦福的研究者在博客《GPUs Go Brrr》中給出了答案。

圖片

博客地址：https://hazyresearch.stanford.edu/blog/2024-05-12-tk

文章主要專(zhuān)注于兩個(gè)問(wèn)題：一是硬件真正需要什么？二是如何滿足硬件需求？

文章用大量篇幅討論了如何讓 GPU 更快的運(yùn)行，并發(fā)布了一個(gè)庫(kù) ThunderKittens，用戶可以很容易地在 CUDA 上編寫(xiě)快速的深度學(xué)習(xí)內(nèi)核。其具有以下特點(diǎn)：

簡(jiǎn)單，ThunderKittens 寫(xiě)起來(lái)非常簡(jiǎn)單?？蓴U(kuò)展性，如果用戶需要 ThunderKittens 無(wú)法提供的功能，可以進(jìn)行功能擴(kuò)展。速度快。

圖片

GitHub 鏈接：https://github.com/HazyResearch/ThunderKittens

ThunderKittens 使得一些棘手的事情變得非常簡(jiǎn)單，從而在現(xiàn)代硬件上實(shí)現(xiàn)了非常高的利用率。項(xiàng)目中，作者用 ThunderKittens 編寫(xiě)了一個(gè) RTX 4090 簡(jiǎn)單的 FlashAttention-2 內(nèi)核，代碼總共有 58 行代碼（不包括空格），結(jié)果顯示，ThunderKittens 在 RTX 4090 上實(shí)現(xiàn)了大約 122 TFLOP（理論最大值的 74%）。此外，內(nèi)核程序只有 100 行的情況下，ThunderKittens 在 H100 上的性能比 FlashAttention-2 高出約 30%。

英偉達(dá) H100 有些小怪癖

該研究重點(diǎn)關(guān)注 NVIDIA H100，不過(guò)所介紹的內(nèi)容也適用于其他 GPU。

圖片

H100 SXM GPU 包含：

80 GB HBM3，帶寬為 3 TB/s（實(shí)際上帶寬會(huì)少一些）；50 MB 二級(jí)緩存，帶寬 12 TB/s，在 GPU 上分成兩個(gè) 25MB 的部分，通過(guò) crossbar 連接；132 個(gè)流多處理器 (SM，streaming multiprocessors)。

除了上述這些，H100 SXM GPU 還有很多可關(guān)注的東西，例如內(nèi)存控制器、指令緩存等。

研究者表示保持張量核心的運(yùn)行流暢并不容易。他們發(fā)現(xiàn)了一些 AI 硬件上的怪癖，這些怪癖中的很多內(nèi)容也適用于非 H100 GPU，但 H100 尤其棘手。（相比之下，RTX 4090 則非常容易使用），這些怪癖包括：

WGMMA 指令是必需的，但使用起來(lái)也非常令人惱火；共享內(nèi)存實(shí)際上并沒(méi)有那么快，并且需要非常小心；地址生成成本很高；占用率仍然有幫助，寄存器通常是關(guān)鍵資源。

圖片

文章進(jìn)一步描述了 GPU 這些怪癖的具體內(nèi)容。

WGMMA 指令令人惱火

H100 有一組新指令，稱(chēng)為「warp group matrix multiply accumulate，WGMMA」（PTX 中的 wgmma.mma_async，或 SASS 中的 HGMMA/IGMMA/QGMMA/BGMMA）。以前的 GPU 上可用的張量核心指令是 wmma.mma.sync 和 mma.sync 。通過(guò)這些指令，SM 單個(gè)象限上的 32 個(gè)線程將同步地將其數(shù)據(jù)塊饋送到張量核心并等待結(jié)果。

不同的是，wgmma.mma_async 指令并非如此，128 個(gè)連續(xù)線程（分布在 SM 的所有象限中）協(xié)作同步，并直接從共享內(nèi)存（也可以選擇寄存器）異步啟動(dòng)矩陣乘法。

在基準(zhǔn)測(cè)試中，研究團(tuán)隊(duì)發(fā)現(xiàn)這些指令對(duì)于提取 H100 的完整計(jì)算是必要的。如果沒(méi)有它們，GPU 的峰值利用率似乎只能達(dá)到峰值利用率的 63% 左右。

圖片

共享內(nèi)存

共享內(nèi)存的單次訪問(wèn)延遲約為 30 個(gè)周期，這聽(tīng)起來(lái)似乎不算多，但在這段時(shí)間內(nèi)，SM 的張量核心幾乎可以完成兩個(gè)完整的 32x32 矩陣乘法運(yùn)算。

共享內(nèi)存處理起來(lái)有些棘手，因?yàn)樗淮鎯?chǔ)（banked）在 32 個(gè)獨(dú)立的內(nèi)存存儲(chǔ)中。如果不小心，這可能會(huì)導(dǎo)致所謂的 bank 沖突，即同一內(nèi)存 bank 被要求同時(shí)提供多個(gè)不同的內(nèi)存片段，導(dǎo)致請(qǐng)求被串行化，這可能會(huì)不成比例地減慢內(nèi)核的速度 - 而 wgmma 和 mma 指令所需的寄存器布局會(huì)受到這些 bank 沖突的影響。解決方法是使用各種交錯(cuò)模式重新排列共享內(nèi)存，以避免這些沖突。

地址生成

H100 其中一個(gè)特點(diǎn)是張量核心和內(nèi)存都足夠快，以至于僅僅生成用于獲取數(shù)據(jù)的內(nèi)存地址就占據(jù)了芯片資源的相當(dāng)一部分。

NVIDIA 似乎已經(jīng)意識(shí)到了這一點(diǎn)，因?yàn)樗麄冑x予了 GPU 張量?jī)?nèi)存加速器（或稱(chēng)之為 TMA）。TMA 允許用戶在全局和共享內(nèi)存中指定多維張量布局，這節(jié)省了所有的地址生成成本，并且還使得構(gòu)建 pipeline 更加容易。

研究團(tuán)隊(duì)還發(fā)現(xiàn) TMA 和 wgmma.mma_async 一樣，在實(shí)現(xiàn) H100 的全部潛力方面是完全不可或缺的。

占用

在某些方面，與前幾代硬件相比，H100 對(duì)占用率的依賴程度較低。NVIDIA 確實(shí)在設(shè)計(jì) GPU 時(shí)考慮了占用率。雖然對(duì)于 H100 來(lái)說(shuō)，占用率只能說(shuō)有用，但作用不大。研究者發(fā)現(xiàn)在 A100 和 RTX 4090 上它變得越來(lái)越重要。

ThunderKittens

那么，如何才能更輕松地編寫(xiě)內(nèi)核，同時(shí)仍兼具硬件的全部功能？

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嵌入 CUDA 中的 DSL，被命名為 ThunderKittens。

圖片

ThunderKittens 旨在盡可能簡(jiǎn)單，并包含四種模板類(lèi)型：

寄存器 tile—— 寄存器文件中的 2D 張量。寄存器向量 —— 寄存器文件中的 1D 張量。共享 tile—— 共享內(nèi)存中的 2D 張量。共享向量 —— 共享內(nèi)存中的 1D 張量。

tile 通過(guò)高度、寬度和布局進(jìn)行參數(shù)化，寄存器向量由長(zhǎng)度和布局參數(shù)化，共享向量?jī)H由長(zhǎng)度參數(shù)化。這樣通常不會(huì)遭受 bank 沖突的困擾。

研究團(tuán)隊(duì)還提供了一些必要操作：

初始化，如將共享向量清零

一元運(yùn)算，如 exp二元運(yùn)算，如 mul行 / 列操作，如 row_sum

該研究給出了一個(gè)用 ThunderKittens 編寫(xiě)的，用于 RTX 4090 的簡(jiǎn)單前向 flash attention 內(nèi)核：


#define NUM_WORKERS 16 // This kernel uses 16 workers in parallel per block, to help issue instructions more quickly.
using namespace kittens; // this kernel only handles headdim=64 for simplicity. Also n should be a multiple of 256 here.
__global__ void attend_ker64(int n, const bf16* __restrict__ __q__, const bf16* __restrict__ __k__, const bf16* __restrict__ __v__, bf16* __o__) {

    auto warpid        = kittens::warpid();
    auto block_start   = blockIdx.x*(n*64);
    const bf16 *_q = __q__ + block_start, *_k = __k__ + block_start, *_v = __v__ + block_start;
          bf16 *_o = __o__ + block_start;

    extern __shared__ alignment_dummy __shm[]; // this is the CUDA shared memory
    shared_allocator al((int*)&__shm[0]);
    
    // K and V live in shared memory -- this is about all that will fit.
    st_bf_1x4<ducks::st_layout::swizzle> (&k_smem)[NUM_WORKERS] = al.allocate<st_bf_1x4<ducks::st_layout::swizzle>, NUM_WORKERS>();
    st_bf_1x4<ducks::st_layout::swizzle> (&v_smem)[NUM_WORKERS] = al.allocate<st_bf_1x4<ducks::st_layout::swizzle>, NUM_WORKERS>();

    // Initialize all of the register tiles.
    rt_bf_1x4<> q_reg, k_reg, v_reg; // v_reg need to be swapped into col_l
    rt_fl_1x1<> att_block;
    rt_bf_1x1<> att_block_mma;
    rt_fl_1x4<> o_reg;
    rt_fl_1x1<>::col_vec max_vec_last, max_vec; // these are column vectors for the attention block
    rt_fl_1x1<>::col_vec norm_vec_last, norm_vec; // these are column vectors for the attention block
    
    int qo_blocks = n / (q_reg.rows*NUM_WORKERS), kv_blocks = n / (q_reg.rows*NUM_WORKERS);

    for(auto q_blk = 0; q_blk < qo_blocks; q_blk++) {

        // each warp loads its own Q tile of 16x64, and then multiplies by 1/sqrt(d)
        load(q_reg, _q + (q_blk*NUM_WORKERS + warpid)*q_reg.num_elements, q_reg.cols);
        mul(q_reg, q_reg, __float2bfloat16(0.125f)); // temperature adjustment

        // zero flash attention L, M, and O registers.
        neg_infty(max_vec); // zero registers for the Q chunk
        zero(norm_vec);
        zero(o_reg);

        // iterate over k, v for these q's that have been loaded
        for(auto kv_idx = 0; kv_idx < kv_blocks; kv_idx++) {

            // each warp loads its own chunk of k, v into shared memory
            load(v_smem[warpid], _v + (kv_idx*NUM_WORKERS + warpid)*q_reg.num_elements, q_reg.cols);
            load(k_smem[warpid], _k + (kv_idx*NUM_WORKERS + warpid)*q_reg.num_elements, q_reg.cols);
            __syncthreads(); // we need to make sure all memory is loaded before we can begin the compute phase

            // now each warp goes through all of the subtiles, loads them, and then does the flash attention internal alg.
            for(int subtile = 0; subtile < NUM_WORKERS; subtile++) {

                load(k_reg, k_smem[subtile]); // load k from shared into registers

                zero(att_block); // zero 16x16 attention tile
                mma_ABt(att_block, q_reg, k_reg, att_block); // Q@K.T

                copy(norm_vec_last, norm_vec);
                copy(max_vec_last,  max_vec);

                row_max(max_vec, att_block, max_vec); // accumulate onto the max_vec
                sub_row(att_block, att_block, max_vec); // subtract max from attention -- now all <=0
                exp(att_block, att_block); // exponentiate the block in-place.

                sub(max_vec_last, max_vec_last, max_vec); // subtract new max from old max to find the new normalization.
                exp(max_vec_last, max_vec_last); // exponentiate this vector -- this is what we need to normalize by.
                mul(norm_vec, norm_vec, max_vec_last); // and the norm vec is now normalized.

                row_sum(norm_vec, att_block, norm_vec); // accumulate the new attention block onto the now-rescaled norm_vec
                div_row(att_block, att_block, norm_vec); // now the attention block is correctly normalized

                mul(norm_vec_last, norm_vec_last, max_vec_last); // normalize the previous norm vec according to the new max
                div(norm_vec_last, norm_vec_last, norm_vec); // normalize the previous norm vec according to the new norm

                copy(att_block_mma, att_block); // convert to bf16 for mma_AB

                load(v_reg, v_smem[subtile]); // load v from shared into registers.
                rt_bf_1x4<ducks::rt_layout::col> &v_reg_col = swap_layout_inplace(v_reg); // this is a reference and the call has invalidated v_reg

                mul_row(o_reg, o_reg, norm_vec_last); // normalize o_reg in advance of mma_AB'ing onto it
                mma_AB(o_reg, att_block_mma, v_reg_col, o_reg); // mfma onto o_reg with the local attention@V matmul.
            }
            __syncthreads(); // we need to make sure all warps are done before we can start loading the next kv chunk
        }

        store(_o + (q_blk*NUM_WORKERS + warpid)*q_reg.num_elements, o_reg, q_reg.cols); // write out o. compiler has an issue with register usage if d is made constexpr q_reg.rows :/
    }
}

總共大約有 60 行 CUDA 代碼，硬件利用率為 75%，雖然非常密集，但大部分復(fù)雜性在于算法，而不是混合模式或寄存器布局。

TMA、WGMMA、swizzling 模式和描述符的復(fù)雜度又如何呢？如下是用 ThunderKittens 編寫(xiě)的， H100 的 FlashAttention-2 前向傳遞：


template<int D>
__global__  __launch_bounds__((NUM_WORKERS)*kittens::WARP_THREADS, 2)
void fwd_attend_ker_dim(int N, const CUtensorMap* tma_q, const CUtensorMap* tma_k, const CUtensorMap* tma_v, CUtensorMap* tma_o) {
    extern __shared__ int __shm[]; // this is the CUDA shared memory
    tma_swizzle_allocator al((int*)&__shm[0]);

    constexpr int tile_width = fwd_attend_ker_tile_dims<D>::tile_width; // constants
    constexpr int qo_height  = fwd_attend_ker_tile_dims<D>::qo_height;
    constexpr int kv_height  = fwd_attend_ker_tile_dims<D>::kv_height;

    st_bf<qo_height, tile_width, layout_q>          (&q_smem)   [NUM_WARPGROUPS] = al.allocate<st_bf<qo_height, tile_width, layout_q>,          NUM_WARPGROUPS>();
    st_bf<kv_height, tile_width, layout_k>          (&k_smem)[2][NUM_WORKERS_KV] = al.allocate<st_bf<kv_height, tile_width, layout_k>, 2,       NUM_WORKERS_KV>();
    st_bf<kv_height, tile_width, layout_v>          (&v_smem)[2][NUM_WORKERS_KV] = al.allocate<st_bf<kv_height, tile_width, layout_v>, 2,       NUM_WORKERS_KV>();

    int tic = 0, toc = 1;
 
    rt_fl<1, kv_height> att_block;
    rt_bf<1, kv_height> att_block_mma;
    rt_fl<1, qo_height> o_prev;
    col_vec<rt_fl<1, kv_height>> max_vec_last, max_vec;
    col_vec<rt_fl<1, kv_height>> norm_vec_last, norm_vec;

    int warpid      = kittens::warpid();
    int warpgroupid = warpid/kittens::WARPGROUP_WARPS;

    int kv_blocks = N / (NUM_WORKERS_KV*k_smem[0][0].rows);

    __shared__ uint64_t qsmem_barrier, kvsmem_barrier;//, vsmem_barrier;

    int q_phasebit = 0;
    int kv_phasebit = 0;

    if (threadIdx.x == 0) {
        tma::init_barrier<st_bf<qo_height, tile_width, layout_q>, NUM_WARPGROUPS>(qsmem_barrier, 1);
        tma::init_barrier<st_bf<kv_height, tile_width, layout_k>, NUM_WORKERS_KV*2>(kvsmem_barrier, 1); 
    }

    if (warpid == 0) {
        for (int wg = 0; wg < NUM_WORKERS/kittens::WARPGROUP_WARPS; wg++) { // load q
            int tile_idx = (blockIdx.y * NUM_WARPGROUPS * gridDim.x) + (blockIdx.x * NUM_WARPGROUPS) + wg;
            tma::load_async((q_smem[wg]), tma_q, qsmem_barrier, tile_idx); 
        }
        for (int w = 0; w < NUM_WORKERS_KV; w++) { // load k, v      
            int tile_idx = (blockIdx.y * NUM_WORKERS_KV * kv_blocks) + (0 * NUM_WORKERS_KV) + w; 
            tma::load_async((k_smem[tic][w]), tma_k, kvsmem_barrier, tile_idx); 
            tma::load_async((v_smem[tic][w]), tma_v, kvsmem_barrier, tile_idx); 
        }
    }

    neg_infty(max_vec); // zero registers for the Q chunk
    zero(norm_vec);
    zero(o_prev);
    __syncthreads();

    tma::arrive_and_wait(qsmem_barrier, q_phasebit);
    q_phasebit ^= 1;

    if constexpr (D == 64) { warpgroup::mul(q_smem[warpgroupid], q_smem[warpgroupid], __float2bfloat16(0.125f)); } 
    else { warpgroup::mul(q_smem[warpgroupid], q_smem[warpgroupid], __float2bfloat16(0.08838834764f)); }

    for (auto kv_idx = 0; kv_idx < kv_blocks; kv_idx++, tic ^= 1, toc ^= 1) {
        tma::arrive_and_wait(kvsmem_barrier, kv_phasebit);
        kv_phasebit ^= 1;

        __syncthreads();
        if (warpid == 0) {
            tma::set_bytes(kvsmem_barrier, 2 * NUM_WORKERS_KV * k_smem[0][0].num_elements * sizeof(bf16));

            if (kv_idx + 1 < kv_blocks) {
                for (int w = 0; w < NUM_WORKERS_KV; w++) {        
                    int tile_idx = (blockIdx.y * NUM_WORKERS_KV * kv_blocks) + ((kv_idx + 1) * NUM_WORKERS_KV) + w; 
                    tma::load_async((k_smem[toc][w]), tma_k, kvsmem_barrier, tile_idx); 
                    tma::load_async((v_smem[toc][w]), tma_v, kvsmem_barrier, tile_idx);
                }
            }
        }

        warpgroup::mma_fence(att_block);
        warpgroup::mm_ABt(att_block, q_smem[warpgroupid], k_smem[tic][0]);
        warpgroup::mma_commit_group();

        copy(norm_vec_last, norm_vec);
        copy(max_vec_last,  max_vec);

        warpgroup::mma_async_wait();

        row_max(max_vec, att_block, max_vec); // accumulate onto the max_vec
        sub_row(att_block, att_block, max_vec);
        exp(att_block, att_block);

        sub(max_vec_last, max_vec_last, max_vec);
        exp(max_vec_last, max_vec_last);
        mul(norm_vec, norm_vec, max_vec_last);

        row_sum(norm_vec, att_block, norm_vec); // accumulate onto the norm_vec
        div_row(att_block, att_block, norm_vec);

        mul(norm_vec_last, norm_vec_last, max_vec_last);
        div(norm_vec_last, norm_vec_last, norm_vec);

        copy(att_block_mma, att_block); // convert to bf16 for mma
        mul_row(o_prev, o_prev, norm_vec_last); // normalize o_prev in advance of mma'ing onto it

        warpgroup::mma_fence(o_prev);
        warpgroup::mma_AB(o_prev, att_block_mma, v_smem[tic][0]);
        warpgroup::mma_commit_group();
    }

    auto (*o_smem) = reinterpret_cast<st_bf<qo_height, tile_width, layout_o>(*)>(q_smem); // reuse q memory
    warpgroup::store(o_smem[warpgroupid], o_prev); 
    __syncthreads();
    
    if (warpid % 4 == 0) { // store o
        int tile_idx = (blockIdx.y * NUM_WARPGROUPS * gridDim.x) + (blockIdx.x * NUM_WARPGROUPS) + warpgroupid;
        tma::store_async(tma_o, (o_smem[warpgroupid]), tile_idx); 
        tma::store_commit_group(); 
    }

    tma::store_async_wait();
}

這個(gè)內(nèi)核只有 100 行代碼，它在 H100 上的性能比 FlashAttention-2 高出約 30%。ThunderKittens 負(fù)責(zé) wrap up 布局和指令，并提供一個(gè)可以在 GPU 上使用的 mini-pytorch。

圖片

H100 SXM 上各種配置的 FlashAttention-2（Pytorch）與 ThunderKittens 的比較。

此外，研究團(tuán)隊(duì)還發(fā)布了基于線性注意力的內(nèi)核和其他架構(gòu)。基于線性注意力內(nèi)核的運(yùn)行速度為 215 TFLOP（如果考慮算法中固有的重計(jì)算，則運(yùn)行速度超過(guò) 300 TFLOP）。

雖然理論上線性注意力更高效，但從實(shí)踐經(jīng)驗(yàn)來(lái)看，線性注意力在硬件上的效率大大降低。因此，ThunderKittens 有望開(kāi)辟?gòu)V泛的高吞吐量應(yīng)用。

圖片使用 ThunderKittens 可以非?？斓貙?shí)現(xiàn)線性注意力。

tile 看起來(lái)是個(gè)好點(diǎn)子

在研究團(tuán)隊(duì)看來(lái)，ThunderKittens 之所以運(yùn)行良好，是因?yàn)樗粫?huì)試圖做所有事情。CUDA 確實(shí)比 ThunderKittens 更有表現(xiàn)力，而 ThunderKittens 又小又簡(jiǎn)單。

不過(guò)，ThunderKittens 具有很好的抽象能力，它具有小的 tile，這與 AI 和硬件的發(fā)展相匹配。ThunderKittens 不支持任何少于 16 的維數(shù)。但在研究團(tuán)隊(duì)看來(lái)，這一點(diǎn)并不重要，尤其對(duì)于硬件而言。如果你的矩陣乘法小于 16x16，你確定自己做的還是 AI 嗎？

從哲學(xué)的視角來(lái)看，研究團(tuán)隊(duì)認(rèn)為框架遷移是合理的?！讣拇嫫鳌巩?dāng)然不應(yīng)該像舊 CPU 那樣的 32 位。CUDA 使用的 1024 位寬向量寄存器無(wú)疑朝著正確方向邁出了一步。但對(duì)研究團(tuán)隊(duì)而言，「寄存器」是 16x16 的數(shù)據(jù) tile。他們認(rèn)為 AI 想要這樣，它仍然只是矩陣乘法、規(guī)約和重塑。當(dāng)然硬件也想要這樣，小的矩陣乘法尋求硬件支持，而不僅僅是 systolic mma。

實(shí)際上，從更廣泛的視角來(lái)看，研究團(tuán)隊(duì)認(rèn)為應(yīng)該圍繞硬件的良好映射來(lái)重新調(diào)整 AI 思路。比如，循環(huán)狀態(tài)應(yīng)該有多大？SM 能夠容納多大尺寸？計(jì)算密度是多少？這些都不亞于硬件的要求。

研究團(tuán)隊(duì)表示，這項(xiàng)工作未來(lái)的一個(gè)重要方向是利用他們對(duì)硬件的了解來(lái)幫助設(shè)計(jì)與硬件相匹配的 AI。

最后，AMD 硬件上適配的 ThunderKittens 也將很快推出。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

中文字幕亚洲欧美在线不卡| 亚洲黄色成人| 欧美精品xxxxbbbb| 草草草视频在线观看| 视频一区中文字幕| 久久国产精品99国产| 中文字幕不卡在线视频极品| 精产国品一区二区三区| 亚洲天堂导航| 亚洲精品免费看| 久久综合色一本| 91在线公开视频| 亚洲毛片播放| 久久久999精品免费| 30一40一50老女人毛片| 亚洲成人精品综合在线| 精品福利视频导航| 最新视频 - x88av| 男同在线观看| 懂色av中文一区二区三区| 日本午夜人人精品| 免费看一级一片| 成人在线免费观看网站| 日韩成人激情视频| 国产伦理在线观看| 亚洲精品tv| 欧美无砖砖区免费| wwwxxx黄色片| 91九色国产在线播放| 国产精品乱码一区二区三区软件| 久草热久草热线频97精品| 99热这里只有精品1| 免费高清不卡av| 青青草成人在线| 国产无码精品在线播放| 91精品啪在线观看国产18| 亚洲人成五月天| 亚洲色图欧美日韩| 精品麻豆剧传媒av国产九九九| 欧洲亚洲国产日韩| 国产淫片av片久久久久久| 久久青草伊人| 午夜电影网一区| 97超碰在线人人| 日本aa在线| 亚洲免费观看高清完整版在线观看熊 | 日本三级黄色大片| 欧美日韩三级| 欧美激情综合亚洲一二区| 久久久精品99| 国产一区久久| 久久久久一本一区二区青青蜜月| 中文字幕五月天| 小说区亚洲自拍另类图片专区 | 好吊色欧美一区二区三区四区| 精品欧美一区二区精品少妇| 国产精品77777| 成人免费视频视频在| 性生活黄色大片| 成人av资源站| 欧美日韩一区在线视频| 大片免费播放在线视频| 国产精品热久久久久夜色精品三区 | 亚洲aaa在线观看| 久久久亚洲高清| 亚洲国产高清国产精品| 日本中文字幕伦在线观看| 中文字幕一区日韩精品欧美| 欧美做受777cos| 18video性欧美19sex高清| 丰满岳妇乱一区二区三区| 国产美女三级视频| 欧美a一级片| 日韩美女视频在线| 2一3sex性hd| 国产欧美日韩影院| 久久精品在线播放| 国产一卡二卡在线播放| 久久婷婷影院| 成人情趣片在线观看免费| 成人免费视频国产| 久久久久久99精品| 男插女免费视频| 国产网站在线| 精品视频一区二区不卡| 久久精品无码一区二区三区毛片| 久久a级毛片毛片免费观看| 亚洲一级黄色av| 欧美日韩精品在线观看视频 | 国产精品大陆在线观看| 国产一区二区三区三州| 99视频一区二区| 天堂影院一区二区| 8x拔播拔播x8国产精品| 亚洲精品无码久久久久| 国产一区二区三区黄视频 | 国模吧精品人体gogo| 国产精品传媒入口麻豆| 久无码久无码av无码| 久久精品女人天堂av免费观看 | 污污污www精品国产网站| 成人精品中文字幕| 欧美激情18p| 中文字幕久久熟女蜜桃| av一区二区三区在线| 一道精品一区二区三区| 人人草在线视频| 欧美一区二区精品在线| 国产又粗又猛又爽又黄av| 雨宫琴音一区二区三区| 国产精品久久久久久av福利| 亚洲精品视频专区| 国产精品第13页| 亚洲国产精品毛片av不卡在线| av成人app永久免费| 日韩中文字幕在线精品| 久久青青草原亚洲av无码麻豆| 国产成人综合在线| 在线观看成人一级片| jizz内谢中国亚洲jizz| 精品国产成人系列| 天天操天天操天天操天天操天天操| 久久久久久9| 久久99精品久久久久久久久久 | 欧美日韩在线视频观看| 久久久久久国产精品日本| 久久伦理在线| 国产精品日韩在线观看| 国产免费av高清在线| 欧美日韩亚洲成人| 国产伦精品一区二区三区88av| 911久久香蕉国产线看观看| 国产一区二区色| 在线免费看av| 欧美日韩精品一区二区在线播放 | 亚洲视频欧洲视频| 在线观看av网页| 青青草成人av| 麻豆精品精品国产自在97香蕉| 美国av一区二区三区| av日韩中文| 亚洲精品一区二区在线观看| 欧美精品99久久久| 国产精品一区二区免费不卡| 咪咪色在线视频| 成人久久精品| 久久久精品日本| 国产美女免费看| 亚洲美女视频一区| 中文字幕avav| 欧美视频网站| 国产亚洲二区| 男人av在线播放| 亚洲男人天堂古典| 中文字幕永久在线| 国产精品欧美久久久久一区二区| 国产色视频在线播放| 久久综合电影| 亚洲一区二区日本| 日本乱理伦在线| 亚洲精品一区二区在线观看| 国产www在线| 国产欧美一区二区三区鸳鸯浴 | 国产美女精品一区二区三区| 三年中文高清在线观看第6集| 国产亚洲亚洲国产一二区| 久久99青青精品免费观看| 免费av网站观看| 日韩欧美亚洲范冰冰与中字| 中文字幕成人动漫| 久久成人免费网| 青青青青在线视频| 亚洲婷婷影院| 成人黄色生活片| 国产精品探花在线| 亚洲免费电影一区| 国产精品国产av| 午夜视黄欧洲亚洲| 免费视频91蜜桃| 国产精品一区二区久久精品爱涩| 日本网站免费在线观看| 日韩av二区| 成人18视频| 春暖花开亚洲一区二区三区| 菠萝蜜影院一区二区免费| 人妻精品一区二区三区| 91国偷自产一区二区使用方法| 欧美特黄一级片| 成人福利视频在线| 丝袜制服一区二区三区| 欧美福利电影在线观看| 欧美日韩成人一区二区三区| 国产精品成人3p一区二区三区| 午夜精品久久久久久久男人的天堂 | 中文字幕不卡在线| jjzzjjzz欧美69巨大| 日韩av中文字幕一区二区| 日韩a级黄色片| 欧美午夜精彩| 久久精品aaaaaa毛片| 亚洲伦理网站| 欧美主播福利视频| 性直播体位视频在线观看| 亚洲午夜精品久久久久久性色| 精品人妻无码一区二区三区蜜桃一| 黄网站色欧美视频| 国产黄在线免费观看| 国产精品99999| 日韩免费电影一区| 97人妻精品视频一区| 午夜电影久久久| 极品盗摄国产盗摄合集| 国产日韩在线不卡| 免费a在线观看播放| 国产一区在线不卡| 韩国中文字幕av| 麻豆久久精品| 国产精品网站免费| 午夜激情一区| 韩国黄色一级大片| 欧美理论电影大全| 久久精品国产精品国产精品污| 久久在线观看| 91亚洲国产成人精品性色| 成人不卡视频| 国产精品国产亚洲伊人久久| 色戒汤唯在线| 亚洲**2019国产| 韩国成人免费视频| 久久99精品久久久久久琪琪| а√资源新版在线天堂| 日韩中文字幕欧美| 成人影院免费观看| 亚洲网在线观看| 电影在线一区| 伊人激情综合网| 精品推荐蜜桃传媒| 亚洲性猛交xxxxwww| 精品久久av| 亚洲欧洲美洲在线综合| 青草久久伊人| 亚洲欧美在线看| 国产视频网址在线| 一区二区三区回区在观看免费视频| 九色在线播放| 在线成人免费网站| 91高清在线| 日韩一区二区福利| 搞黄网站在线观看| 插插插亚洲综合网| 五月天激情在线| 久久久免费电影| 国产白浆在线免费观看| 日本电影亚洲天堂| 天天综合网天天| 国产日韩欧美视频| 精品三级国产| 国产精品日韩一区二区| 日韩精品丝袜美腿| 日本一区二区视频| 久久久久久久久久久9不雅视频| 国产一二三四五| 激情婷婷欧美| 国产精品亚洲αv天堂无码| 奇米精品一区二区三区在线观看一| 乌克兰美女av| 国产精品一级片在线观看| 艳妇乳肉亭妇荡乳av| 国产欧美一区二区三区网站| 五月综合色婷婷| 亚洲综合免费观看高清在线观看| 国产黄色片免费看| 欧美丝袜丝交足nylons图片| 国产特级黄色片| 日韩精品视频三区| 五月天婷婷在线视频| 欧美激情综合色| 日韩一区二区三区在线免费观看| 91在线精品视频| 日韩理论电影中文字幕| 亚洲午夜久久久影院伊人| 红桃视频亚洲| 国产精品v日韩精品v在线观看| 国产99久久久国产精品潘金| 亚洲人成人无码网www国产| 亚洲天堂免费看| 国产99久久久| 日韩三级视频在线看| 国内在线精品| 久久久免费观看| 日本免费成人| 乱一区二区三区在线播放| 久久久久久美女精品| 日本一区二区黄色| 国产高清亚洲一区| 国产精品国产三级国产专业不| 亚洲激情图片一区| 国产在线一级片| 亚洲黄页视频免费观看| 伊人免费在线| 欧美又大粗又爽又黄大片视频| 高清一区二区三区av| 欧美成ee人免费视频| 午夜久久福利| 冲田杏梨av在线| 91在线观看地址| 青娱乐国产在线视频| 欧美日韩在线三级| 日韩三级电影网| 欧美激情欧美激情在线五月| 久久婷婷五月综合色丁香| 精品国产免费人成电影在线观...| 亚洲午夜精品一区二区国产| 久久久精品麻豆| 久久久久久久网| 国产成人精品一区二三区| 欧美成人福利视频| 成人av福利| 国产欧美日韩视频| 精品国产乱码久久久| 那种视频在线观看| 97超碰欧美中文字幕| 1级黄色大片儿| 精品国一区二区三区| av免费在线免费| 成人欧美一区二区三区黑人| 日韩精品一区二区三区免费观影| 一本久道中文无码字幕av| eeuss影院一区二区三区| 精品无码人妻一区二区三| 欧美一级高清大全免费观看| 看女生喷水的网站在线观看| 国产精品中文字幕在线| 欧美码中文字幕在线| 成人中文字幕av| 国产欧美日韩精品一区| 波多野结衣大片| 亚洲最新av网址| 成人自拍视频网| 亚洲春色在线视频| 美女视频免费一区| 亚洲色图欧美色| 欧美日韩一区精品| 香蕉视频国产在线观看| 国产一区二区丝袜高跟鞋图片| 9999国产精品| 91精产国品一二三产区别沈先生| 最新成人av在线| 亚洲AV午夜精品| 韩国国内大量揄拍精品视频| 亚欧洲精品视频在线观看| av动漫免费看| 欧美激情在线一区二区| 一级黄色a视频| 欧美成人h版在线观看| 亚洲精品一区二区三区中文字幕 | 99热精品在线观看| 亚洲成人av免费在线观看| 色综合中文综合网| www.在线视频.com| 91丝袜美腿美女视频网站| 欧美在线亚洲综合一区| 99久久久无码国产精品性波多 | 操欧美老女人| 中文字幕在线观看日| 夜夜揉揉日日人人青青一国产精品| 秋霞av鲁丝片一区二区| 日韩**中文字幕毛片| 日韩欧美网址| 色诱av手机版| 色婷婷综合久色| 黄色免费在线观看| 国产一区高清视频| 日韩高清电影一区| 蜜臀久久精品久久久用户群体| 欧美精品一区二区三区蜜桃视频 | 在线看片成人| 欧美激情一区| 91麻豆精品国产无毒不卡在线观看| 三级资源在线| 色狠狠久久av五月综合|| 国产一区二区看久久| 97久久久久久久| 日韩中文在线观看| 玖玖玖免费嫩草在线影院一区| 日本999视频| 亚洲国产日韩a在线播放| 1区2区3区在线观看| 国内精品久久久久久久果冻传媒| 蜜桃91丨九色丨蝌蚪91桃色| 欧美人妻一区二区| 一级做a爰片久久毛片美女图片| 久久99成人| 亚洲乱码国产一区三区| 亚洲午夜精品网| 日本视频在线观看| 欧美在线播放一区| 国产a精品视频| 91亚洲国产成人精品一区| 欧美最顶级丰满的aⅴ艳星|

<strike id="04sgi"><rt id="04sgi"></rt></strike>

<ul id="04sgi"><dfn id="04sgi"></dfn></ul>

<fieldset id="04sgi"><menu id="04sgi"></menu></fieldset>

<tfoot id="04sgi"><input id="04sgi"></input></tfoot>

<fieldset id="04sgi"><menu id="04sgi"></menu></fieldset>

<tfoot id="04sgi"></tfoot>