精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

比Adam更有效,POET從譜不變原理出發,讓LLM訓練又穩又快

人工智能 新聞
研究者們提出了一種基于第一性原理的全新方法——POET(Reparameterized Training via Orthogonal Equivalence Transformation),該方法通過重參數化優化策略,旨在從第一性原理出發提升訓練效率與穩定性。

Zeju Qiu和Tim Z. Xiao是德國馬普所博士生,Simon Buchholz和Maximilian Dax擔任德國馬普所博士后研究員,Bernhard Sch?lkopf是德國馬普所所長,Weiyang Liu是香港中文大學計算機系助理教授。

隨著大型語言模型(LLM)推動人工智能領域取得突破性進展,如何實現高效、穩定的超大規模模型訓練,始終是該領域最富挑戰性的核心議題之一。

針對這一關鍵問題,研究者們提出了一種基于第一性原理的全新方法——POET(Reparameterized Training via Orthogonal Equivalence Transformation),該方法通過重參數化優化策略,旨在從第一性原理出發提升訓練效率與穩定性。

圖片

Paper:Reparameterized LLM Training via Orthogonal Equivalence Transformation

Project page:https://spherelab.ai/poet/

Arxiv:https://www.arxiv.org/abs/2506.08001

POET:基于第一性原理的大型語言模型全新訓練范式

POET 的關鍵思想是:通過對每個神經元進行結構性重參數化,引入兩個可學習的正交矩陣以及一個固定的隨機權重矩陣,從而構建一個正交等價的變換結構。該方法在訓練過程中嚴格保持權重的奇異值分布,并天然擁有較低的球面能量,這是 POET 有效性的核心來源。

通過聯合建模奇異值不變性與最小超球能量,POET為大模型訓練提供了一種兼具物理解釋性與泛化能力的新范式。由于該方法嚴格保持權重矩陣的譜結構,不僅能穩定優化過程,還顯著提升了模型的泛化性能。為兼顧計算效率與實用性,研究者還開發了高效的近似算法,使POET可擴展至超大規模神經網絡訓練。實驗結果表明,該方法在大型語言模型訓練中表現出卓越的性能與可擴展性。

圖片

圖 POET 的三個學習階段:左—示意圖;中—角度;右—損失值與驗證。

譜性質與泛化

當前訓練大型語言模型的事實標準是直接使用Adam優化器對權重矩陣進行更新。盡管這一做法實現簡單,但在計算上往往代價高昂,隨著模型規模的擴大,其復雜度迅速增長。此外,該方法對超參數極為敏感,需精細調整以保證訓練穩定收斂。

更為關鍵的是,即便訓練損失已經被有效最小化,模型的泛化性能仍可能表現不佳。為緩解這一問題,本文提出了多種權重正則化與歸一化技術,其核心目標往往可歸結為:顯式或隱式地改善權重矩陣的譜結構(即奇異值分布)。

從直觀角度看,權重矩陣的譜范數(最大奇異值)描述了其對輸入向量的放大上界,因此與模型的平滑性和泛化能力密切相關。一般認為,較小的譜范數(意味著更溫和的變換)往往有助于提升泛化性能。這一觀點促使越來越多研究致力于對譜性質進行精細控制。理論研究亦表明,若能有效約束權重矩陣的譜結構,便可形式化地為模型提供泛化上的保證。

譜保持(Spectrum-preserving)權重更新

為在避免上述局限的同時實現有效的權重量譜控制,文章提出一種基于正交等價變換(OrthogonalEquivalenceTransformation)的重參數化訓練算法,用于間接學習權重矩陣。具體而言,POET 將權重矩陣圖片 重參數化為圖片,其中圖片為隨機初始化的權重矩陣,圖片圖片為兩個可學習的正交矩陣。在訓練過程中,POET 不直接優化權重矩陣,而是保持隨機初始化矩陣圖片不變,通過學習正交矩陣圖片圖片來變換圖片。這種重參數化策略在允許奇異向量靈活調整的同時,能夠嚴格保持權重矩陣的奇異值譜,從而實現譜保持的權重更新。

圖片

圖 LLaMA模型中同一權重矩陣奇異值的訓練動態。左圖為標準訓練,嚴格遵循大型語言模型的常規做法(使用AdamW直接優化);右圖為POET,其采用本文提出的近似方法以支持大規模LLM訓練。POET的奇異值僅出現輕微(幾乎可忽略)的變化,主要歸因于數值誤差和近似誤差。

奇異值譜的訓練動態

受 Muon [4]的啟發,研究者對 AdamW、Muon與 POET 的奇異值譜進行了譜分析。在訓練的不同迭代點,可對訓練后的模型計算 SVD 熵。

圖片

該指標用于衡量奇異值的多樣性;熵值越高,表示譜分布越均勻、越豐富。[4] 將 Muon 相較于 AdamW 的優越性能歸因于其權重矩陣更新所帶來的更豐富譜分布。正如下圖所示,由于采用正交等價變換,POET 在整個訓練過程中始終保持較高的譜多樣性。

圖片

POET方法具備兩項核心優勢:

  • 高效的譜控制

由于正交變換并不改變權重矩陣的奇異值,POET在訓練全程都能保持權重譜與隨機初始化矩陣一致——即便采用近似實現,這一點也已得到實證驗證。借助恰當的初始化方案,POET可直接約束奇異值分布,避免標準LLM訓練后權重出現過大的奇異值。為進一步增強算法效果,研究者們提出了兩種新初始化策略:歸一化高斯初始化(normalizedGaussianinitialization)和 均勻譜初始化(uniformspectruminitialization),均可確保生成的權重矩陣具有有界奇異值。

  • 高效近似

直接進行POET訓練的計算開銷較高,但方法本身的靈活性為高效、可擴展訓練提供了空間。針對大規模正交矩陣優化這一關鍵難題,文章提出兩級近似方案:

隨機基元優化:將大正交矩陣分解為若干參數量更少的基元正交矩陣,并結合“合并再初始化”策略提高效率;

基于Cayley?Neumann參數化的近似正交性:通過 Neumann 級數近似 Cayley 正交參數化,以較低計算成本保持正交性,同樣借助“合并再初始化”策略抑制誤差累積。

LLaMA架構的大規模語言模型預訓練

本文在多種規模的LLaMATransformer(60M、130M、350M、1.3B 參數)上對POET進行了預訓練實驗。使用的數據集為C4——從CommonCrawl清洗得到的網頁語料,已被廣泛用于大型語言模型的預訓練。下文匯總了實驗結果,報告了驗證困惑度(perplexity)及可訓練參數量。

圖片

圖片

圖 AdamW和POET在模型規模為350M和1.3B下的可訓練參數規模及驗證困惑度(perplexity)。

訓練加速

為突出POET在性能上的顯著改進,文章將AdamW的訓練步數(即模型實際看到的token數量)大幅提升至原來的近三倍。即便如此,采用 b=1/2 設置的POET?FS仍在性能上超越AdamW。

圖片

參數與內存復雜度

通過將超參數 b 作為采樣預算引入,完全隨機 SPO(StochasticPrimitiveOptimization)成功將參數復雜度與權重矩陣規模解耦。當 b 取較小值時,POET 的參數效率顯著提升,但收斂速度有所下降,為使用者提供了效率與速度之間的靈活權衡。相比之下,塊隨機 SPO 的參數復雜度與矩陣尺寸(m+n)成正比,因而較 AdamW(需要 mn 個可訓練參數)更具可擴展性。在內存占用方面,只要采樣預算 b 設置得當,兩種 POET 變體均可顯著優于 AdamW。下文給出了參數與內存復雜度的詳細對比。

圖片

訓練算法

步驟1:權重初始化使用歸一化高斯初始化為權重矩陣賦值:圖片

步驟2:正交矩陣初始化

完全隨機SPO(fullystochasticSPO):隨機采樣索引集合 圖片,并使用CNP(Cayley?NeumannParameterization)對圖片圖片進行參數化。圖片圖片二者均以單位矩陣開始。

塊隨機SPO(block?stochasticSPO):隨機采樣置換矩陣圖片圖片,同樣采用CNP對圖片與進行參數化,并將它們初始化為單位矩陣。同樣,圖片圖片二者均以單位矩陣開始。

步驟3:高效正交參數化

對于完全隨機SPO可得:圖片圖片。

對于塊隨機SPO可得:圖片圖片。

步驟4:正交矩陣內層訓練循環更新

前向傳播中的等效權重矩陣為圖片

反向傳播通過圖片圖片計算梯度,進而更新完全隨機SPO圖片的或塊隨機SPO中的圖片;該內循環迭代次數固定。

步驟5:合并并重新初始化(merge?then?reinitialize) 

將已學習的正交矩陣合并進權重:圖片。

若訓練未結束,則返回步驟2,重新初始化圖片圖片,繼續下一階段訓練。

POET的優異表現來自于超球能量與譜保持

神經元初始化

鑒于 POET 在訓練過程中會保留初始權重矩陣的譜特性,初始化策略顯得至關重要。文章運用了歸一化高斯初始化:先從零均值、固定方差的高斯分布中抽取神經元權重,再對其進行歸一化。下表對多種隨機初始化方案進行了實證比較,結果顯示歸一化高斯初始化取得了最佳最終性能。研究者推測,這一優異表現源于 POET 在該初始化下能夠在訓練過程中同時保持超球能量與譜特性。

圖片

訓練中的超球能量

超球能量 HE 用于衡量神經元在單位超球面上的均勻分布程度,可作為刻畫各層神經表征的一種度量。文獻[2,3]表明,滿足正交約束的訓練過程可在訓練期間保持這一超球能量不變,從而避免表征退化并提升泛化性能。

歸一化高斯初始化下的POET 可同時保持能量與奇異值分布

在零均值、各向同性的高斯初始化條件下,POET 能夠同時實現譜保持訓練與能量保持訓練。這一特性為歸一化高斯初始化方法的最優性能提供了理論解釋(詳細證明參見附錄 B)。

圖片

POET訓練機理解析

為深入理解POET的運行機制,我們用向量探測(vector probing)分析正交矩陣的學習動態。具體做法是:固定隨機生成的單位向量圖片,計算圖片,即圖片圖片之間的余弦相似度,以評估正交矩陣圖片圖片的演化。

對七個可學習的正交矩陣在訓練過程中的余弦相似度進行跟蹤后,可以將其學習過程劃分為三個階段(見圖1):

  • 錐殼搜索階段(Conical shell searching)

余弦相似度從1(即圖片為單位矩陣)逐漸下降并收斂到[0.60,0.65]。這一現象在所有正交矩陣上均一致,說明圖片圖片映射到其原始方向附近的狹窄錐殼上。


  • 錐殼上的穩定學習階段(Stable learning on the conical shell)

余弦相似度保持在該區間內不再顯著變化,但模型開始進入穩定學習期;盡管余弦值趨于穩定,驗證困惑度仍在線性下降。

  • 最終階段微調(Final adjusting)

隨著學習率逐步衰減至零,學習速度放緩并最終停止。

更為詳盡的討論與實證結果見論文附錄。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-12-04 13:54:19

pnpm存儲項目

2010-06-10 15:30:54

路由協議

2011-04-28 16:36:17

投影機

2025-11-05 08:48:39

2024-11-21 16:46:12

2019-11-11 13:40:45

Python 開發編程語言

2021-12-27 13:57:34

Vite 工具項目

2022-01-04 14:21:56

Vite組件React

2013-12-06 10:11:48

Windows 8Windows 7Windows 8.1

2019-07-18 09:17:19

Kafka消息隊列服務器

2022-03-04 12:09:25

SQL數據量多表查詢

2020-10-27 15:01:25

編程語言PythonJava

2022-03-24 14:51:33

深度學習AI研究

2023-07-18 19:11:21

配置信令系統

2015-04-17 09:34:42

程序員

2019-08-06 08:47:18

運營商流量套餐4G服務

2021-11-14 22:20:45

人工智能機器學習技術

2023-05-26 10:15:34

模型訓練
點贊
收藏

51CTO技術棧公眾號

99视频在线视频| 成人春色激情网| 黄色录像a级片| 欧美日韩美女| 国产精品伦理在线| 成人永久免费| 99精品在线播放| 天天做天天爱综合| 精品国产制服丝袜高跟| 欧美成人高潮一二区在线看| 国内三级在线观看| 久久成人综合网| 欧美丰满老妇厨房牲生活| www.免费av| 精品视频91| 欧美午夜激情视频| 成人免费看片视频在线观看| 天天干天天爱天天操| 久久av一区二区三区| 久久香蕉国产线看观看网| bl动漫在线观看| 久久er热在这里只有精品66| 亚洲影视在线观看| 天堂√在线观看一区二区| 亚洲国产日韩在线观看| 日本午夜一本久久久综合| 欧美精品videossex性护士| 日本一二三不卡视频| 超碰精品在线观看| 欧美日本一道本| 国产91xxx| 四虎影视国产在线视频| 中文字幕在线视频一区| 欧美婷婷久久| 天天干天天色天天| 国产91精品一区二区| 91香蕉电影院| 在线观看视频二区| 日本成人在线一区| 日韩av手机在线看| 精品在线播放视频| 欧美日本二区| 麻豆成人在线看| 久久爱一区二区| 欧美亚洲精品在线| 亚洲三级av在线| 网站免费在线观看| 国产美女撒尿一区二区| 精品成人免费观看| 佐佐木明希电影| 亚洲视频三区| 精品美女被调教视频大全网站| 中日韩av在线播放| 亚洲青青一区| 乡村艳史在线观看| 久久精品日产第一区二区 | 欧美亚洲国产精品久久| 亚洲精品久久久久久久久久久| 国内精品国产三级国产aⅴ久| 激情亚洲小说| 欧美人伦禁忌dvd放荡欲情| 性刺激的欧美三级视频| 成人看片在线观看| 欧美最猛黑人xxxxx猛交| av无码精品一区二区三区| 自由日本语热亚洲人| 欧美日韩免费在线| 中文字幕无码精品亚洲35| aa视频在线观看| 图片区小说区区亚洲影院| 国产精品又粗又长| 色黄视频在线观看| 色婷婷久久综合| 一区二区成人网| 亚洲欧美专区| 精品国产伦一区二区三区免费 | 91禁在线观看| 国产美女久久久久| 国产成人看片| 无码国产色欲xxxx视频| 91麻豆6部合集magnet| 久久影视中文粉嫩av| 国产区av在线| 亚洲欧洲99久久| 国产传媒久久久| 久草在线中文最新视频| 色老综合老女人久久久| 污污网站免费观看| 91蝌蚪精品视频| 精品视频www| 丰满的亚洲女人毛茸茸| 亚洲欧洲日韩| 97在线观看免费| 黄色网址中文字幕| 国产精品原创巨作av| 国产一区二区三区高清视频| 成年人视频在线免费观看| 亚洲三级在线播放| 欧美 日韩 国产 高清| 懂色aⅴ精品一区二区三区| 91精品久久久久久久久99蜜臂 | 国产亚洲欧洲997久久综合| 亚洲一区二区三区精品在线观看| 黄色网在线看| 日韩欧美一区视频| 国产又粗又长又爽又黄的视频| 国产精品一线| 精品国偷自产在线| 五月婷婷激情网| 久久国产精品区| 久久久久资源| 日本大片在线播放| 欧美怡红院视频| 男人网站在线观看| 97色伦图片97综合影院| 91成人在线视频| 国产精品无码白浆高潮| 久久亚洲综合色一区二区三区| 国产又粗又长又爽视频| 日韩精品一区二区三区av| 精品国产1区2区3区| 日本 欧美 国产| 久久久久看片| 国产日韩一区二区三区| 里番在线观看网站| 91精品福利视频| 亚洲精品国产成人av在线| 91精品国产调教在线观看| 国产精品夫妻激情| 日本视频在线观看一区二区三区| 一区二区三区欧美激情| 在线观看岛国av| 国产最新精品| 91av在线免费观看视频| 精品人妻少妇AV无码专区| 国产精品色哟哟网站| 日日鲁鲁鲁夜夜爽爽狠狠视频97| 99精品国产一区二区三区2021| 精品国产一区二区三区久久狼5月| 国产免费一级视频| 91丝袜美腿高跟国产极品老师 | 欧美一区二区三区在线播放| а√在线天堂官网| 日韩免费看网站| 希岛爱理中文字幕| 久久99国产乱子伦精品免费| 日本不卡一区二区三区在线观看| 日本黄色免费在线| 亚洲国产精品成人av| 久草福利资源在线观看| 国产精品一二三区| www.99riav| 激情综合婷婷| 欧美成人在线影院| 精品国产av一区二区| 亚洲欧美一区二区不卡| 999热精品视频| 午夜国产欧美理论在线播放| 亚洲综合大片69999| 国产不卡在线| 日韩一二三四区| a级黄色片免费看| 国产传媒日韩欧美成人| 大荫蒂性生交片| 极品国产人妖chinesets亚洲人妖| 欧美激情视频一区二区| 亚洲AV无码成人片在线观看| 亚洲午夜激情av| 日本黄色录像片| 裸体素人女欧美日韩| 日韩欧美一区二区视频在线播放 | 欧美在线你懂得| 在线观看亚洲大片短视频| 奇米精品一区二区三区在线观看一| 日韩三级电影网站| 亚洲免费资源| 欧美精品xxx| 国产在线一在线二| 精品视频在线免费看| 91成人福利视频| 成人av在线播放网址| 亚洲色欲综合一区二区三区| 欧美精品尤物在线观看| 成人啪啪免费看| gogo久久| 国产午夜精品一区理论片飘花| 在线观看黄色国产| 亚洲一区二区欧美激情| 日本黄色网址大全| 韩国毛片一区二区三区| 日韩黄色片在线| 亚洲综合小说图片| 成人午夜激情网| 免费v片在线观看| 中文字幕久精品免费视频| 国产极品久久久| 欧美性猛xxx| 久久噜噜色综合一区二区| 成人黄色网址在线观看| 一区二区三区免费播放| 国产精品a久久久久| 欧美精品欧美精品| 国产精品亚洲综合在线观看| 午夜精品美女自拍福到在线| yourporn在线观看中文站| 日韩欧美成人一区| 日本视频网站在线观看| 一区二区欧美国产| 精品国产成人亚洲午夜福利| 国产精品一区在线观看乱码| 播放灌醉水嫩大学生国内精品| 亚洲有吗中文字幕| 日本高清一区| 97se亚洲| 国产中文欧美精品| 成人va天堂| 久久全国免费视频| 麻豆传媒在线完整视频| 亚洲人成在线观| 人妻91麻豆一区二区三区| 欧美日韩在线不卡| 天堂网av手机版| 亚洲女爱视频在线| 九一在线免费观看| 2020国产成人综合网| 精品久久久久久无码人妻| 久久国产剧场电影| 激情六月丁香婷婷| 亚洲黄色一区| 精品人妻大屁股白浆无码| 久久久影院免费| 日韩欧美一区二区三区四区五区| 日韩电影不卡一区| 国产成人免费观看| 日韩国产在线不卡视频| 91免费欧美精品| 成人午夜毛片| 国产精品久久久久久av下载红粉| 亚洲国产成人二区| 97精品伊人久久久大香线蕉 | 国产精品999| 成人av观看| 日韩av电影院| 日韩精品99| 国产精品成人在线| 久久uomeier| 国产suv精品一区二区| 伊人成综合网站| 性色av一区二区三区免费| 欧美黄色视屏| 欧美精品免费播放| 在线免费av导航| 欧美成人免费小视频| 在线观看小视频| 欧美激情伊人电影| 国内小视频在线看| 97色在线观看| 自由日本语热亚洲人| 国产精品99久久久久久www| 台湾佬成人网| 国产精品偷伦一区二区 | 亚洲免费中文| 999在线免费视频| 毛片av一区二区| 最新天堂在线视频| 国产成人在线视频播放| 在线观看免费视频国产| 99久久久久久| 亚洲一区二区三区日韩| 国产精品乱人伦中文| 中日韩一级黄色片| 亚洲主播在线播放| 圆产精品久久久久久久久久久| 欧美小视频在线| 日韩电影在线观看一区二区| 欧美日韩高清在线| 亚洲精品18p| 亚洲欧美日韩另类| 日韩伦理在线观看| 欧美—级a级欧美特级ar全黄| 黄色激情在线播放| 国产精品视频最多的网站| 国产电影一区二区| 韩国一区二区三区美女美女秀 | 你真棒插曲来救救我在线观看| 国产日韩欧美一区| 天天爽人人爽夜夜爽| 国产成人综合亚洲91猫咪| 国产黄色三级网站| 国产精品午夜在线观看| 国产极品国产极品| 日韩欧美在线国产| 国产色综合视频| 日韩av在线网址| 欧美另类极品| 4444欧美成人kkkk| 国产精品日韩精品在线播放| 久久精品国产综合精品| 91精品啪在线观看国产18| 国内性生活视频| 国产一区999| av电影在线不卡| 亚洲一区二区三区四区五区黄| 国语对白做受69按摩| 亚洲第一av在线| 午夜老司机在线观看| 91国内免费在线视频| 成人污版视频| 午夜精品美女久久久久av福利| 亚洲性感美女99在线| 亚洲欧美自偷自拍另类| av动漫一区二区| 欧洲猛交xxxx乱大交3| 欧美亚洲一区二区在线| 深爱激情五月婷婷| 久久亚洲综合国产精品99麻豆精品福利 | 欧美日韩精品区别| 久久综合九色欧美综合狠狠| 欧美日韩在线观看成人| 精品视频在线免费| 九九九伊在人线综合| 久久久久亚洲精品成人网小说| 欧美爱爱视频| 色综合电影网| 美女尤物久久精品| 无码人妻精品一区二区三应用大全| 一区二区三区精密机械公司| 97国产成人无码精品久久久| 国产亚洲激情视频在线| 芒果视频成人app| 精品网站在线看| 亚洲免费大片| 韩国黄色一级片| 一级中文字幕一区二区| 国产手机av在线| www.久久久久久.com| 成人免费av电影| 日韩精品欧美在线| 天堂蜜桃91精品| 精品夜夜澡人妻无码av | 欧美国产亚洲视频| 欧洲大片精品免费永久看nba| 中文字幕一区二区三区乱码| 久久精品国产亚洲aⅴ| 亚洲av毛片基地| 欧美三日本三级三级在线播放| 搞黄视频免费在线观看| 国产成人综合精品| 欧美精品乱码| 在线观看日本一区二区| 中文字幕一区二区三区色视频| 亚洲一线在线观看| 精品精品国产国产自在线| 天天综合91| 女女百合国产免费网站| 国产精品一区免费在线观看| 久久高清无码视频| 亚洲成人性视频| 神马午夜在线视频| 日韩欧美亚洲日产国| 麻豆国产欧美日韩综合精品二区| 成人欧美一区二区三区黑人一| 欧美精品粉嫩高潮一区二区| 91亚洲天堂| 国产一区二区三区av在线| 久久电影一区| 成人信息集中地| 日韩欧美激情四射| 国产精品高颜值在线观看| 欧美美乳视频网站在线观看| 日本一区中文字幕| 91嫩草|国产丨精品入口| 欧美成人a在线| 91av亚洲| 一区视频二区视频| 国产99一区视频免费| 波多野结衣国产| 日韩综合中文字幕| 中文字幕一区图| 日韩视频在线免费看| 日韩美女视频一区二区| 色婷婷综合视频| 国产精品久在线观看| 国内视频精品| 日本成人免费视频| 欧美一级电影网站| 日本在线影院| 国产精品av免费| 91在线云播放| 国产又粗又猛又爽又黄视频 | 亚洲国产精品久久久久久女王| 国产精品一区二区91| 国产一级片毛片| 久久国产精品久久久久| 亚洲国产最新| 在线免费黄色小视频| 日韩欧美高清在线视频| 快射av在线播放一区| 欧美日韩最好看的视频| 国产二区国产一区在线观看|