精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

字節(jié)Seed團隊PHD-Transformer突破預訓練長度擴展!破解KV緩存膨脹難題

人工智能 新聞
來自 ByteDance Seed 團隊的研究者提出了更簡單的方法:直接重復輸入 tokens(1/2/3/4 次),不做中間層處理。

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后訓練階段探索了長度擴展(length scaling),通過強化學習(比如 PPO、GPRO)訓練模型生成很長的推理鏈(CoT),并在奧數(shù)等高難度推理任務上取得了顯著的效果提升。

受此啟發(fā),研究人員開始探索預訓練階段的長度擴展,已有方法包括在序列中插入文本、插入潛在向量(如 Coconut)、復用中間層隱藏狀態(tài)(如 CoTFormer)以及將中間隱藏狀態(tài)映射為概念(如 COCOMix)。不過,這些方法普遍存在問題,比如需要更大的 KV 緩存導致推理慢 / 占內(nèi)存多。

本文中,來自 ByteDance Seed 團隊的研究者提出了更簡單的方法:直接重復輸入 tokens(1/2/3/4 次),不做中間層處理。他們觀察到了訓練損失和模型性能隨重復倍數(shù)擴展的趨勢,如下圖 1a 和 1b 所示。但是,直接重復 tokens 也帶來了新問題,包括 KV 緩存規(guī)模線性增加,內(nèi)存壓力大;預填充時間超線性增加;解碼延遲變長。這些都是實現(xiàn)預訓練長度擴展需要重點解決的挑戰(zhàn)。

圖片

  • 論文標題:Efficient Pretraining Length Scaling
  • arXiv 地址:https://arxiv.org/pdf/2504.14992

研究者提出了一種推理友好的新穎長度擴展方法,核心是 PHD-Transformer(Parallel Hidden Decoding Transformer),它保持了與原始 transformer 相同的 KV 緩存大小,同時實現(xiàn)有效的長度擴展。PHD-Transformer 通過創(chuàng)新的 KV 緩存管理策略實現(xiàn)了這些能力。

具體來講,研究者將第一個 token 表示原始 token,將重復的 token 表示為解碼 token。同時僅保留從原始 token 生成的 KV 緩存來用于長距離依賴建模,并在隱藏解碼 token 用于下一個 token 預測之后丟棄它們的 KV 緩存。因此,PHD-Transformer 提供了與原始 transformer 相同的 KV 緩存,同時相較于簡單的 token 重復實現(xiàn)了顯著的推理加速(如圖 1d 所示)。

另外,為了更好地保留隱藏解碼 token 的 KV 緩存的性能優(yōu)勢,研究者引入了一種滑動窗口注意力 ——PHD-SWA,保持了這些 token 的局部滑動窗口緩存,在實現(xiàn)顯著性能提升的同時,僅需要圖片的額外 KV 緩存內(nèi)存。

研究者還注意到,在 PHD-SWA 中,隱藏解碼 token 的 KV 緩存表現(xiàn)出了順序依賴關(guān)系,這導致預填充時間呈線性增長。為了解決這個問題,研究者提出了逐塊滑動窗口注意力 —— PHD-CSWA,從而限制了每個塊內(nèi)的順序依賴關(guān)系。

因此,得益于只有最后一個塊的預填充時間呈線性增長,PHD-CSWA 顯著縮短了預填充時間(如圖 1c 所示)。

圖片

方法概覽

PHD 的架構(gòu)下圖 2 所示,與原始 Transformer 相比,PHD 保留了相同的模型架構(gòu),僅在輸入序列和注意力矩陣的設計上有所不同。具體而言,他們僅允許原始 token圖片生成 KV 緩存,并且可以被所有 token 全局關(guān)注;同時隱藏狀態(tài)的 KV 緩存在并行隱藏解碼后會被立即丟棄。注意力矩陣的策略具體如下: 

研究者在推理過程中實現(xiàn)了與原始 Transformer 相同的 KV 緩存大小和內(nèi)存訪問模式。雖然需要 K 次 FLOP,但這些計算可以并行處理,從而在內(nèi)存受限的推理場景中最大限度地降低延遲開銷。該架構(gòu)的核心優(yōu)勢在于原始 token 和隱藏解碼 token 之間的解耦。在預填充期間,只有原始 token 需要計算。

這種設計確保預填充時間與原始 Transformer 相同,并且無論擴展因子 K 如何變化,預填充時間都保持不變。而對于損失計算,研究者僅使用 token 的最終副本進行下一個 token 的預測。總之,使用 token 的第一個副本進行 KV 緩存生成,使用 token 的最后一個副本進行下一個 token 的預測。

圖片

內(nèi)核設計

M^ij_mn 的簡單實現(xiàn)會導致注意力層計算量增加 K^2 倍,F(xiàn)FN 層計算量也增加 K 倍。然而,由于注意力是稀疏計算的,圖片的注意力可以大幅降低。因此,研究者將原始 token 和隱藏解碼 token 分成兩組,并將它們連接在一起。

下圖 3 展示了 K = 3 的示例,可以得到一個包含 t 個原始 token 的序列和一個包含 2t 個隱藏解碼序列的序列。通過重新排列 token 的位置,研究者將掩碼注意力的位置保留在一個連續(xù)塊中,從而優(yōu)化了注意力計算,將注意力計算復雜度降低到圖片

圖片

PHD-SWA 和 PHD-CSWA

與簡單的 token 重復相比,PHD-Transformer 在保持原始 KV 緩存大小的同時實現(xiàn)了長度擴展。然而通過經(jīng)驗觀察到,為隱藏解碼 token 保留一些 KV 緩存可以帶來顯著的性能提升。因此,為了在保持效率的同時獲得這些優(yōu)勢,研究者引入了 PHD-SWA,將滑動窗口注意力限制在 W 個先前的隱藏解碼 token 上。

如下圖 4 所示,PHD-SWA 的注意力模式將對原始 token 的全局訪問與對 W 個最近隱藏解碼 token 的局部訪問相結(jié)合。這種改進的注意力機制實現(xiàn)了顯著的性能提升,同時僅需要圖片的額外 KV 緩存內(nèi)存。

雖然 PHD-SWA 滑動窗口方法提升了模型性能,但由于隱藏解碼 token 的 KV 緩存中存在順序依賴關(guān)系,它會產(chǎn)生 K 倍的預填充開銷。為了解決這個問題,研究者引入了 PHD-CSWA,它可以在獨立的塊內(nèi)處理注意力。 

如下圖 4 所示,PHD-CSWA 將滑動窗口注意力限制在單個塊內(nèi)運行。這種架構(gòu)創(chuàng)新將額外的預填充開銷減少到最終塊內(nèi)的 K 次重復,而不是整個序列重復,這使得額外的計算成本幾乎可以忽略不計,同時保留了局部注意力模式的優(yōu)勢。

圖片

實驗結(jié)果

在實驗中,研究者使用 OLMo2 作為代碼庫,并在 ARC、HellaSwag、PIQA、Winogrande、MMLU 和 CommonsenseQA 等公開基準測試集上進行了評估。

訓練細節(jié):研究者使用 1.2B 參數(shù)規(guī)模的模型,它是一個 16 層的密集模型。每個 token 的隱藏層維數(shù)設置為 2048,F(xiàn)FN 層的隱藏層大小設置為 16384。同時使用組查詢注意力 (Group-Query Attention,GQA),它包含 32 個查詢頭和 8 個鍵 / 值頭,每個頭的隱藏層維數(shù)設置為 64。研究者使用 500B 個 token 訓練該模型。

對于本文提出的 PHD 系列設置,研究者預訓練了以下兩種 PHD-CSWA 變體:

  • PHD-CSWA-2-16-32,其中訓練 token 重復兩次。保留一個包含 16 個 token 的局部窗口,并將塊大小設置為 32 個 token。 
  • PHD-CSWA-3-16-32,其中訓練 token 重復三次。局部窗口大小和塊大小與 PHD-CSWA-2-16-32 的設置相同。

PHD-CSWA 在各個基準測試中均實現(xiàn)了持續(xù)的性能提升。下圖 5 中展示了訓練曲線,下表 1 中展示了主要結(jié)果。本文提出的 PHD-CSWA-2-16-32 在這些基準測試中平均實現(xiàn)了 1.5% 的準確率提升,訓練損失降低了 0.025;而 PHD-CSWA-3-16-32 在這些基準測試中平均實現(xiàn)了 2.0% 的準確率提升,訓練損失降低了 0.034。

圖片

圖片

研究者還分析了 PHD 和 PHD-SWA 的擴展性能,以分析擴展解碼計算的性能。 訓練細節(jié):使用相同的 550M 模型配置,將窗口大小 W 設置為 16,并在 {2, 3, 5} 范圍內(nèi)改變擴展因子 K。對于局部窗口大小,研究者在所有實驗中都將窗口大小設置為 16。

PHD-SWA 的性能在增加擴展因子時有效擴展。如下圖 8 所示,使用固定窗口大小時,損失曲線和下游性能會隨著 token 重復次數(shù)而有效擴展。通過將擴展因子設置為 5,可以實現(xiàn)接近 0.06 的損失降低,同時顯著提升下游性能。

下表 2 中的定量結(jié)果表明,當擴展至 K = 5 時,所有基準測試的平均準確率提高了 1.8%,這證實了本文的方法在更激進的擴展方面仍然有效。

圖片

圖片

更多實驗結(jié)果請參閱原論文。

責任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-11-04 16:02:42

模型訓練AI

2025-11-05 08:53:45

語言模型訓練AI

2024-10-06 12:32:42

2024-11-07 15:10:00

2022-04-11 09:20:00

模型訓練

2025-06-27 08:50:40

2022-03-03 10:06:41

Transforme模型機器學習

2020-10-18 18:02:32

AI機器學習微軟

2025-07-09 08:40:00

2025-06-19 08:49:00

2025-08-05 09:02:00

2025-07-15 02:00:00

UIUCEBT架構(gòu)

2024-11-01 13:30:56

2025-05-15 09:08:00

2013-02-27 09:46:59

2013-07-23 11:00:32

2018-07-29 15:27:04

AI訓練光速運算人工智能

2025-11-19 08:59:15

2023-07-09 15:21:05

AI模型LongNet

2020-07-29 12:16:12

預訓練自訓練神經(jīng)網(wǎng)絡
點贊
收藏

51CTO技術(shù)棧公眾號

国产美女永久免费| 玖草视频在线观看| 国产精品—色呦呦| 99久久精品费精品国产一区二区| 欧美一级视频免费在线观看| 欧美一区二区三区粗大| 久久久久九九精品影院| 狠狠躁夜夜躁人人爽超碰91 | 亚洲图色一区二区三区| 精品久久久久久久久中文字幕| 日韩中文不卡| 人妻无码中文字幕| 日本伊人午夜精品| 久久久久久久久久久91| 中文字幕精品亚洲| 日韩av不卡一区| 在线综合视频播放| 日本wwww视频| 日韩av激情| 国产精品免费视频一区| 精品一区二区三区国产| av高清一区二区| 日本欧美一区二区在线观看| 国模gogo一区二区大胆私拍| 国产午夜精品理论片| 日韩超碰人人爽人人做人人添| 欧美一二三区在线| 日本三级黄色网址| 刘亦菲一区二区三区免费看| 亚洲成av人在线观看| 国产av不卡一区二区| 国产高清自拍视频在线观看| 99免费精品在线| 亚洲一区二区久久久久久久| 亚洲综合成人av| 国产日本精品| 性欧美亚洲xxxx乳在线观看| 韩国一级黄色录像| 成人综合久久| 伊人久久五月天| jizz日本免费| 欧美日韩夜夜| 亚洲精品mp4| 亚洲欧美日韩偷拍| 亚洲一区二区电影| 欧美一级在线视频| 无套白嫩进入乌克兰美女| 久久精品97| 欧美在线观看视频一区二区 | 美国毛片一区二区三区| 国产成人一区三区| 波多野结衣一区二区三区在线| 模特精品在线| 欧美一级片免费在线| www.com国产| 久久国产精品毛片| 国产成人精品免高潮在线观看| 在线观看中文字幕视频| 午夜一区在线| 日韩免费观看在线观看| 无码人妻一区二区三区免费| 天堂av在线一区| 国产成人精品日本亚洲| 影音先锋国产在线| 另类欧美日韩国产在线| 91网站在线免费观看| 国内精品偷拍视频| 粉嫩av一区二区三区粉嫩 | 亚洲精品18p| 成人av免费网站| 免费在线国产精品| 一区二区三区视频网站 | 亚洲免费av网址| 少妇无套高潮一二三区| 欧美电影《睫毛膏》| 久久香蕉国产线看观看网| 欧美激情图片小说| 亚洲精品美女| 国产精品露脸自拍| 国产肥老妇视频| 91麻豆产精品久久久久久| 日韩免费电影一区二区三区| 国产激情视频在线| 精品久久久久久久久久| 91热这里只有精品| 深夜福利一区| 亚洲精品中文字幕女同| 亚洲激情图片网| 136国产福利精品导航网址| 欧美一级大片在线免费观看| 在线视频免费观看一区| 国产成人av电影在线观看| 欧美xxxx黑人又粗又长密月| 秋霞a级毛片在线看| 亚洲国产aⅴ成人精品无吗| 免费av网址在线| 日韩第一区第二区| 亚洲色图美腿丝袜| 久久久久久久中文字幕| 日日摸夜夜添夜夜添国产精品| 国产欧美精品va在线观看| 天天干天天操av| 国产精品传媒视频| 亚洲精品无码久久久久久| 999久久久国产999久久久| 日韩激情视频在线播放| 午夜爱爱毛片xxxx视频免费看| 99视频精品| 91在线观看免费观看| 欧美孕妇孕交xxⅹ孕妇交| 亚洲靠逼com| 成人性视频欧美一区二区三区| 一区二区中文字幕在线观看| 中文字幕精品在线| 欧美日韩乱国产| 国产激情视频一区二区三区欧美 | 国偷自产av一区二区三区麻豆| 香蕉视频一区二区三区| 精品中文字幕乱| 一级特黄aa大片| 久久蜜桃av一区二区天堂 | 久久亚洲一区| 国产一区二区无遮挡| 黄av在线播放| 欧美三级乱人伦电影| 五级黄高潮片90分钟视频| 国户精品久久久久久久久久久不卡| 国产精品久久久久久久久久ktv| 亚州视频一区二区三区| 亚洲国产中文字幕在线视频综合 | 本田岬高潮一区二区三区| 日本黄色播放器| 精品美女一区| 国产一区二区三区在线| 少妇高潮av久久久久久| 99re这里都是精品| 日本一本中文字幕| 一区二区三区四区高清视频 | 久久av红桃一区二区禁漫| 玖玖在线精品| 日韩国产在线一区| 日韩新的三级电影| 亚洲人午夜色婷婷| 日韩一级片中文字幕| 久久久久久久电影| 久久久久免费精品| 精品国产一区二区三区av片| 国产z一区二区三区| 男生女生差差差的视频在线观看| 午夜欧美在线一二页| 完美搭档在线观看| 日韩天堂av| 精品国产一区二区三区四区vr| av在线加勒比| 亚洲国产精品嫩草影院久久| 亚洲国产成人精品激情在线| 91在线国产福利| 欧美激情成人网| 精品视频免费| 国产在线精品成人一区二区三区| 麻豆系列在线观看| 日韩亚洲欧美高清| 日本一区二区免费在线观看| 99re这里都是精品| 妓院一钑片免看黄大片| 日韩中文首页| 亚洲一区精品电影| 国产91足控脚交在线观看| 亚洲成色777777女色窝| 9i看片成人免费看片| 国产亲近乱来精品视频| 中文字幕 欧美日韩| 女同性一区二区三区人了人一| 国产精品三区www17con| 成人性生活视频| xx视频.9999.com| www三级免费| 富二代精品短视频| 中文字幕伦理片| 国产一区二区女| 欧美日韩精品在线一区二区| 少妇精品久久久一区二区三区| 国产欧美一区二区白浆黑人| 色婷婷视频在线观看| 亚洲欧美日韩国产中文| 91亚洲国产成人精品一区| 亚洲第一精品在线| 免费看91的网站| 国产成人啪午夜精品网站男同| 一区二区传媒有限公司| 欧美激情黄色片| 精品国产乱码久久久久久久软件| 国产精品天堂蜜av在线播放 | 在线国产成人影院| 欧美精品性视频| 国内三级在线观看| 日韩精品资源二区在线| 天天干天天操天天爱| 亚洲免费伊人电影| 中文字幕成人动漫| 粉嫩欧美一区二区三区高清影视| 999在线免费视频| 激情五月***国产精品| 亚洲成人蜜桃| 久久夜色电影| 91色在线视频| 在线日本欧美| 8x拔播拔播x8国产精品| 国产精品va在线观看视色| 亚洲人成电影网站色xx| 欧美熟女一区二区| 在线播放/欧美激情| 欧美一区免费看| 午夜亚洲国产au精品一区二区| 久久精品在线观看视频| 国产亚洲精品bt天堂精选| 国产成人精品无码片区在线| 国产伦精品一区二区三区免费 | 日本视频www| 亚洲欧美日韩在线| 能直接看的av| 久久久久久久久97黄色工厂| 国产一级二级视频| 国产成人小视频| 三日本三级少妇三级99| 蜜桃视频免费观看一区| 中文字幕在线观看第三页| 99在线|亚洲一区二区| 欧美乱做爰xxxⅹ久久久| 99精品综合| 亚洲精品一卡二卡三卡四卡| 少妇精品久久久一区二区| 久久久99国产精品免费| 福利电影一区| 国产精品一区二区在线观看 | 欧美成人官网二区| 国产高清免费av| 欧美一区二区二区| 国产精品久久久久久久久久久久久久久久久久 | 精品成人免费视频| 亚洲国产精品综合小说图片区| 成人观看免费视频| 亚洲精选在线视频| 亚洲综合网在线| 亚洲黄色在线视频| 久久r这里只有精品| 一区二区三区在线视频播放| 69av.com| 舔着乳尖日韩一区| a v视频在线观看| 欧美午夜xxx| 国产又大又黄又粗| 欧美午夜理伦三级在线观看| 波多野结衣在线电影| 欧美性受xxxx黑人xyx性爽| 国产在线一级片| 51精品秘密在线观看| 国产成人三级在线播放| 精品电影一区二区| 五月天婷婷激情网| 亚洲欧美综合另类中字| 91成人高清| 欧美裸身视频免费观看| 超级碰碰不卡在线视频| 91精品国产高清| 日韩在线免费| 成人在线视频网站| jizz国产精品| 玖玖玖精品中文字幕| 欧美色婷婷久久99精品红桃| 在线一区亚洲| 伊人久久成人| 日韩在线第三页| 国产一区二区三区综合| 无码一区二区精品| 亚洲国产激情av| 久久久久黄色片| 一本色道久久综合亚洲aⅴ蜜桃| 性高潮视频在线观看| 欧美一区二区三区在| 色婷婷av一区二区三| 国产亚洲精品久久| 1区2区在线观看| 日本久久91av| 国产精品久久久久久av公交车| 国产精品毛片va一区二区三区| 免费久久精品| 免费看污污视频| 性色一区二区三区| 色网站在线视频| 久久蜜桃av一区精品变态类天堂 | 狠狠做深爱婷婷久久综合一区 | 精品av综合导航| 成年人在线观看视频| 欧美国产第一页| 成人交换视频| 国产在线精品一区二区三区| 久久人体视频| 日韩在线视频在线观看| 国产在线不卡一区| 性欧美一区二区| 五月天国产精品| 国产精品乱码一区二区| 亚洲精品一区二区久| 色呦呦网站在线观看| 国产欧美日韩精品专区| 亚洲欧美校园春色| 欧美 日韩 国产精品| 免费观看在线色综合| 爱爱的免费视频| 一区二区三区国产| 在线观看视频二区| 亚洲久久久久久久久久| 欧美理论电影| 成人xvideos免费视频| 欧美精品乱码| 北条麻妃69av| 成人听书哪个软件好| 欧美三级小视频| 69av一区二区三区| 爱爱爱免费视频在线观看| 欧美中文在线观看| 精品按摩偷拍| 999一区二区三区| 国产乱码精品一区二区三| 九九热久久免费视频| 色综合天天狠狠| 欧美色综合一区二区三区| 97视频在线播放| 久久久久久久久久久久久久久久久久久久 | 外国精品视频在线观看| 久久久久中文字幕| 91精品国产乱码久久久竹菊| 99热这里只有精品7| 国产在线精品一区二区不卡了| 中文字幕第二区| 欧美丝袜丝nylons| av国产在线观看| 国产精品美女免费| 操欧美老女人| www.com黄色片| 国产精品免费看片| 亚洲性生活大片| 日韩中文字幕网址| 91精品国产色综合久久不卡粉嫩| 一区二区三区四区不卡| 久久成人精品无人区| 欧美一级片在线视频| 91精品国产综合久久婷婷香蕉| 国精产品一区| 粉嫩高清一区二区三区精品视频| 国产综合婷婷| 91精品国产自产| 欧美影视一区在线| 欧美边添边摸边做边爱免费| 91亚洲va在线va天堂va国 | 国产不卡av在线播放| 九九精品在线观看| 大奶在线精品| 国产免费毛卡片| 欧美国产日韩一二三区| 亚洲特级黄色片| 九九热这里只有在线精品视| 动漫视频在线一区| 人妻少妇被粗大爽9797pw| 国产亚洲午夜高清国产拍精品| 最近中文字幕在线观看| 欧美精品手机在线| 欧美成人午夜77777| 波多野结衣作品集| 一区二区中文字幕在线| wwwav网站| 欧洲精品在线视频| 色综合色综合| a级片在线观看视频| 在线观看亚洲成人| 亚洲欧美成人影院| 蜜桃传媒视频第一区入口在线看| 日本特黄久久久高潮| 在线免费日韩av| 亚洲香蕉成人av网站在线观看| 欧美综合社区国产| 亚洲国产成人精品无码区99| 国产午夜精品在线观看| 国产福利第一页| 日本一区二区不卡| 欧美成人tv| 人妻一区二区视频| 日韩精品资源二区在线| 九九热线视频只有这里最精品| 日本xxx免费| 久久亚洲欧美国产精品乐播 | 艳母动漫在线免费观看| 99久精品国产| 国产欧美一区二区三区视频在线观看| 91精品国产沙发| 亚洲精品91| 男人舔女人下部高潮全视频 | 成人福利在线观看| 亚洲欧美久久|