精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

又有人來問MOE和Dense模型到底差哪了?

發布于 2025-9-29 07:29
瀏覽
0收藏

最近更新的比較少,因為一直在打街霸6的天梯,我已經沖到鉆石了,離大師一步之遙。

又有人來問MOE和Dense模型到底差哪了?-AI.x社區

然而...今天又被人問了MOE和dense到底區別在哪,但是他說的很多理解是完全錯的。其實我以前講過,但是可能沒那么細,所以我今天仔細澄清一下大家理解的誤區。

如果隨便答,其實什么推理省顯存,簡單的道理,因為activation 少了么,原來要激活整個MLP,現在激活的幾個expert之類的云答案,這種很好找的。

那么問題來了,激活experts(一般需要*N)就比你dense模型激活少么?

首先MOE的experts和dense的 MLP是什么關系?

估計大部分兄弟隨口一云,就會說per_expert_dim * expert_num= MLP

這對么?

看起來好像對的答案,其實是經不起推敲的。

我們知道transformer的layer的架構排布是下面這樣的。

又有人來問MOE和Dense模型到底差哪了?-AI.x社區圖片


因為我們為了簡單就用標準的causal LLM也就是右邊的這個來講。

首先MH attention 層要經過qkv矩陣之后算注意力然后由liner o 也就是output會產生出來送給MLP層的tensor,這個東西對mlp層計算的dim(維度)是和mlp層的input layer是相同的。

那就變了MOE就能不同?

想象都知道不可能得事嗎,維度不一樣,你怎么矩陣計算呢?

所以這個在互聯網上普及的看似正確的答案就是個純扯淡的意淫流答案。

那實際是怎么樣的呢?

我們分兩個思路來看

第一,假設你原有一個模型,你就想給它升級MOE

那你升級哪呢?

升級MLP么,對吧,基于我剛才講的,liner o出來的維度要和mlp維度等價,所以你如果有8個experts,就是相當于給你的整個MLP層擴大了8倍參數。

這么做的話呢,首先可以肯定的是,如果你會訓練,知道怎么穩定MOE梯度之類的操作,那么效果自然是好的,因為擴參數,想都不用想。

但是,你省資源了嗎?

那必然是沒省,因為你整個參數擴大了,對于transformer模型來講最大頭的參數肯定是MLP,也就是你放大了幾倍的參數,weight顯存,你占定了,同樣的激活,原來我激活一個mlp,哪怕你是最簡單的8 experts only激活2個,那也是2倍一樣的激活顯存,這個不管訓練還是推理,你都要投入對應的顯存容量來fulfill。

所以這個和你初始的要求不太一樣啊!

所以第二個思路,我重做一個,重頭design。

我們以qwen的32b和qwen 30B A3B來做一個對比。

又有人來問MOE和Dense模型到底差哪了?-AI.x社區圖片

這倆模型差不多大,對于weight顯存的占用肯定是差不多了。

那么我們現在來分析左邊的dense 32B 和右邊的MOE 30B-A3B的區別。

一、誰變了、變到哪

  • 層數 L
    dense: num_hidden_layers=64
    MoE: num_hidden_layers=48
    MoE 版顯著減少了層數。因為在總參受限了,就30B左右,所以FFN(MLP)大點,地方就那么大,那前面attention層就要受擠壓,MoE 會讓骨干深度變淺,把參數預算讓給 experts。
  • 模型隱維 d_model 與注意力dense: hidden_size=5120, num_attention_heads=64, head_dim=128(由圖左側 head_dim=128 可見)MoE: hidden_size=2048, num_attention_heads=32, head_dim=128MoE 版把 d_model 從 5120 降到 2048;注意力頭數也從 64 降到 32,但單頭寬度 head_dim 仍是 128。這意味著注意力與殘差主干被整體“瘦身”了,剛才把attention的層干淺了,這次把整個模型的dim寬度也干窄了,進一步為了維持30B左右的參數,繼續砍?
  • FFN/MLP 中間維(dense 的 intermediate_size)dense: intermediate_size=25600(≈5× d_model=5120)MoE: intermediate_size=6144(這是 MoE 層里每個 expert 的中間維度 d_ff_expert;≈3× d_model=2048)關鍵點:MoE 不是把 dense 的中間維切片,而是每個 expert 自己一套、但更“瘦”。這里清楚顯示了業界常用策略:保持輸入輸出維為 d_model,降低專家的中間寬度來控參控算。當然有人也會杠,那為什么沒有人在liner o,也就是proj o 后面加一個降為的liner來和mlp的expert對齊,這個問題我不回答,大家自己琢磨琢磨,留個彩蛋,當然你想明白這個問題就自然會心一笑。
  • MoE 相關字段"moe_intermediate_size": 768(圖右存在該字段,通常用于門控/共享投影等 MoE 內部維度,具體實現依賴庫)"num_experts": 128"num_experts_per_tok": 3(就是 top-k=3)還有 router/負載均衡的若干超參(如 router_aux_loss_coeff 等)這是一個較大 N 的 MoE(128 個專家),每個 token 激活 3 個。從訓練的角度這個確實省激活,其實推理就還好。別看好像省了125個experts,但是對于推理來講,它不是訓練,不用考慮反向。這種沒那么大的模型,activation的顯存能省,但是省不了你們想那么多,除非你input的seq特別長,batch太大。
  • KV headsdense: num_key_value_heads=64(與總頭數一致)
    MoE: num_key_value_heads=4(顯著更少,采用 GQA:少量 KV 頭共享給多查詢頭)
    這進一步壓縮了注意力狀態與推理緩存(KV cache),降低顯存與帶寬壓力。

二、從這些變化得出的結論

  • MoE 版把“共享、每 token 必算”的主干(d_model、注意力頭數、層數)都縮小了;把參數預算轉移到“稀疏激活”的專家集合上。在總參固定下,MoE 也沒有超能力,所以只能讓注意力/層數變小或變淺。
  • 每個 expert 的中間維度被降了:dense 的 25600(≈5×5120)對比 MoE 每 expert 的 6144(≈3×2048),其實單個的mlp(一個expert)的表達能力是被降低了,我們知道mlp層的核心訴求就是需求隱空間的語義信息,那降低了怎么辦?用多experts來承載多樣性。
  • 同時引入 GQA(num_key_value_heads 遠小于總頭數)來進一步節約注意力側的參數與 KV cache,適配大 N、top?k 的 MoE 設計,保障吞吐和顯存可行。

三、對訓練/推理與效果的含義

  • 訓練/推理 FLOPs
    每 token 的 MoE 計算量主要隨 k=3 與 d_ff_expert=6144 走;N=128 對單 token FLOPs 影響不大(更多影響參數量與路由)。
    注意力側因 d_model 變小、頭數變少、GQA 化,計算與 KV cache 顯著下降,有利于吞吐。
  • 表達力與路由
    雖然單個 expert 比 dense 的 FFN 更瘦,但有 128 個專家且 top?3 激活,整體表達多樣性提升;負載均衡和路由質量變得關鍵。
  • 長上下文與注意力質量
    d_model 與頭數變小對注意力分辨率不利,但通過層數/專家多樣性、訓練策略與數據規模可以部分補償。具體效果要看實際評測。這個也是moe的一個弱點(同等參數下),當然如果你能給upset做到671B又做到1T,那當我沒說

四、可復制的設計要點(如果你要做同類改型)

  • 保持子層輸入/輸出維一致為 d_model(方便殘差與實現),把“瘦身”放在 expert 的中間維 d_ff_expert。
  • 通過減少 L、d_model、注意力頭數和使用 GQA 來為 MoE 挪參數預算。
  • 選擇合適的 N 與 k,常見 k=1–2;這里采用 k=3,配合更強的路由/均衡與較瘦的 expert。
  • 關注 router 正則(如 router_aux_loss_coeff)與 capacity 設置,保證均衡與穩定訓練。

好,那么我們總結一下!

看這兩個模型config.json的配置,并對比,非常清晰地展示了標準業界的 MoE 的典型取舍:在總參相近時,MoE 模型顯著縮小了主干(d_model、層數、注意力頭/GQA),并把 FFN 從 dense 的單路大寬度,改成多專家的中等寬度;每個 expert 的維度被刻意降了,以換取“多專家 + 稀疏激活”的表達力與性價比。

本文轉載自??熵減AI??,作者:周博洋

已于2025-9-29 10:11:56修改
收藏
回復
舉報
回復
相關推薦
久操精品在线| 天堂在线中文资源| 亚洲成人精品| 精品成人一区二区三区| 成人毛片视频网站| 一区二区高清不卡| 成人18视频在线播放| 日本人成精品视频在线| 欧美性生给视频| 欧美色图婷婷| 91精品婷婷国产综合久久竹菊| 黄色成人在线看| 日本www在线观看| 成人免费精品视频| 国产精品专区h在线观看| 久久久久久久久久综合 | 日韩午夜av在线| 中文字幕久热精品视频在线| 精品人妻在线视频| 精品69视频一区二区三区| 一区二区三区**美女毛片| 欧洲亚洲一区二区| 亚洲免费国产视频| 久久成人久久爱| 欧美中文在线观看| 毛片a片免费观看| 国产精品久久久久久久免费观看 | 北条麻妃在线| 91一区二区在线| 亚洲japanese制服美女| 波多野结衣网站| 亚洲精选一区| 欧美人与性动交a欧美精品| xxxx日本黄色| 蜜臀91精品国产高清在线观看| 亚洲成人aaa| 男人女人拔萝卜视频| 精品三级在线| 欧美亚洲一区二区在线观看| 成人毛片视频网站| 理论片午夜视频在线观看| 一区二区三区在线观看网站| 最新精品视频| 久久久久久久久免费视频| 国产亚洲美州欧州综合国| 久久狠狠久久综合桃花| 五月天激情婷婷| 成人av电影在线| 国产一区二区网址| 久久五月天综合| 亚洲欧洲综合网| 欧美高清在线| 日韩视频在线一区| 青青操在线视频观看| 日本一区二区高清不卡| 伊人久久男人天堂| 91资源在线播放| 日韩一区二区中文| 中文字幕一区电影| 亚洲国产精品一区二区久久hs| 波多野结衣在线观看一区二区三区| 亚洲欧洲中文天堂| 久久久视频6r| 久久国产亚洲| 久久在线精品视频| 久久亚洲av午夜福利精品一区| 欧美女激情福利| 久久久噜噜噜久久| 亚洲免费在线观看av| 亚洲永久在线| 国产精品永久免费视频| 97人妻人人澡人人爽人人精品| 精品一区二区在线观看| 亚洲自拍中文字幕| 日本成人动漫在线观看| 久久嫩草精品久久久精品| 视频一区国产精品| 黄色片网站在线| 亚洲福利一区二区三区| 浮妇高潮喷白浆视频| 欧美成人性网| 777午夜精品视频在线播放| 美女又黄又免费的视频| 奇米777国产一区国产二区| 国产性色av一区二区| www欧美com| 国产日韩一区| 成人高h视频在线| 免费成人在线看| 欧美国产日本视频| 亚洲色婷婷久久精品av蜜桃| 一级毛片久久久| 91精品午夜视频| 在线亚洲精品福利网址导航| 久久精品国产sm调教网站演员| 中文字幕在线看片| 欧美精品免费视频| 亚洲精品中文字幕在线播放| 日韩精品中文字幕第1页| 色综合久综合久久综合久鬼88| 欧美日韩一级黄色片| 国产在线精品国自产拍免费| 久久亚裔精品欧美| av在线app| 在线观看国产一区二区| 国产精品久久久久久亚洲色| 91视频精品| 日本国产高清不卡| 国产夫妻性生活视频| 国产亚洲欧美在线| 青青草精品视频在线| 羞羞视频在线观看一区二区| 亚洲国产精品字幕| 永久看片925tv| 日韩福利电影在线| 久久国产精品 国产精品| 黄色成年人视频在线观看| 色av一区二区| 精品一区二区视频在线观看| 中文字幕亚洲精品乱码| 国产精品久久久久久超碰| 欧美一区二区在线观看视频| 亚洲婷婷在线视频| 一道本视频在线观看| 岳的好大精品一区二区三区| 久久久久久久久久国产| 国产美女自慰在线观看| 国产精品毛片久久久久久久| 亚洲国产精品久久久久婷蜜芽| 日韩成人视屏| www日韩中文字幕在线看| 中文字幕在线天堂| 91丨porny丨蝌蚪视频| 免费观看国产精品视频| 国内毛片久久| 午夜精品免费视频| 成人午夜视频一区二区播放| 亚洲精品免费视频| 国产精品探花在线播放| 图片区亚洲欧美小说区| 国产中文字幕日韩| 日本中文字幕电影在线免费观看| 国产一区二区av在线| 日韩欧美www| 蜜臀久久精品久久久用户群体| 蜜桃91丨九色丨蝌蚪91桃色| 日韩高清三级| 国产精品99| 中文字幕在线精品| 中日精品一色哟哟| 国产精品黄色在线观看| 久久99爱视频| 亚洲成人日韩| 成人国产一区二区| 俄罗斯一级**毛片在线播放| 亚洲精品在线免费播放| 麻豆久久久久久久久久| 久久精品一区二区三区不卡牛牛| 99免费视频观看| 欧洲杯什么时候开赛| 国产精品一区二区电影| 免费在线观看av| 日韩午夜激情免费电影| 久久婷婷国产麻豆91| 99热精品一区二区| 99草草国产熟女视频在线| 日韩欧美中文| 亚洲精品欧美日韩专区| 国产羞羞视频在线播放| 亚洲精品视频二区| 中文字幕av免费观看| 亚洲欧美日韩国产中文在线| 波多野结衣办公室双飞| 久久久久久黄| 免费观看国产视频在线| 国产精品极品在线观看| 日韩av电影在线网| 无遮挡的视频在线观看| 日韩一级二级三级| 亚洲黄色小说图片| 中文文精品字幕一区二区| 色婷婷一区二区三区在线观看| 韩日精品视频| 欧洲精品亚洲精品| 久久99精品久久久野外观看| 98精品在线视频| 搞黄视频免费在线观看| 欧美一级理论片| 国产精品视频123| 最新中文字幕一区二区三区 | 99精品国产高清一区二区麻豆| 1769国内精品视频在线播放| 成年人视频免费在线观看| 日韩一区二区三区免费看| 成人字幕网zmw| yiren22综合网成人| 日韩免费观看高清完整版在线观看| 久久久久久久久久免费视频| 国产女人水真多18毛片18精品视频| wwwxxx色| 久久狠狠亚洲综合| 欧美一级视频免费看| 日本激情一区| 久久伊人一区二区| 日韩欧国产精品一区综合无码| 久久久噜噜噜久久久| 毛片在线播放a| 亚洲天堂免费在线| 人妻视频一区二区三区| 337p亚洲精品色噜噜| 久久久久久久久黄色| 一区二区免费在线| 国产传媒视频在线| 91原创在线视频| 99免费观看视频| 国产精品一区在线观看你懂的| 欧美精品aaaa| 久久黄色网页| 欧美a v在线播放| 国内精品福利| 欧美 国产 精品| 久久婷婷蜜乳一本欲蜜臀| 狼狼综合久久久久综合网| 亚洲精品一区二区三区中文字幕| 国产精品永久免费视频| 免费欧美电影| 国产91在线播放九色快色| 国产无遮挡裸体视频在线观看| 久久成人免费视频| 麻豆网站在线免费观看| 中文字幕精品av| 国产九色在线| 国产午夜一区二区| 国产网站在线播放| 精品调教chinesegay| 人妻无码中文字幕| 精品国产凹凸成av人网站| 国产高清第一页| 日韩欧美在线123| 国产视频手机在线观看| 7878成人国产在线观看| 国产伦精品一区二区三区四区| 欧美日韩一区二区在线观看| 少妇一级淫片日本| 在线免费一区三区| 自拍偷拍第八页| 欧美日韩精品一区二区在线播放 | 日韩欧美视频一区| 国产成人a人亚洲精品无码| 7777女厕盗摄久久久| 91在线精品入口| 欧美一区二区三区视频免费 | 91污在线观看| 日韩一区二区a片免费观看| 91麻豆精品一区二区三区| 亚洲福利av| 黑人操亚洲女人| 欧美精品v国产精品v日韩精品| 一区二区三区亚洲视频| 欧美一区二区美女| 亚洲精品综合久久| 日韩电影在线观看中文字幕| 免费在线视频你懂得| 在线观看国产精品91| 久操视频在线观看| 欧美精品久久久久| 免费高潮视频95在线观看网站| 日本欧美精品在线| 日韩欧乱色一区二区三区在线| 99www免费人成精品| 三级小说欧洲区亚洲区| 日韩免费中文专区| 999久久久91| www.好吊操| 久久综合网络一区二区| 亚洲精品久久久中文字幕| 国产九色精品成人porny| 91丝袜在线观看| 日本一区二区久久| 国产一区二区视频在线观看免费| 亚洲超碰精品一区二区| 黄色av一级片| 日韩午夜激情免费电影| 天堂在线中文| 久久天天躁狠狠躁夜夜躁| 超碰在线网站| 国产精品欧美激情| 涩爱av色老久久精品偷偷鲁| 久久青青草综合| 久久精品亚洲欧美日韩精品中文字幕| 蜜臀精品一区二区| 男女男精品视频网| 国产情侣久久久久aⅴ免费| 国产丝袜在线精品| 精品在线免费观看视频| 欧美在线观看一区| 免费国产黄色片| 少妇高潮久久久久久潘金莲| 2001个疯子在线观看| 国产日本欧美视频| 日韩av网址大全| 黄色特一级视频| 久久精品国产77777蜜臀| www.日本高清| 亚洲另类一区二区| 波多野结衣视频免费观看| 精品少妇一区二区三区免费观看 | 国产日韩一级二级三级| 久艹视频在线观看| 欧美日韩国产乱码电影| 深夜福利在线视频| 欧美激情亚洲国产| 99久久99九九99九九九| 日韩精品电影网站| 国产精品乱看| 亚洲欧洲国产视频| 中文字幕亚洲一区二区va在线| 欧美a视频在线观看| 亚洲国产成人精品久久久国产成人一区 | 成人av一级片| 岛国精品一区二区| 91porn在线视频| 欧美疯狂性受xxxxx喷水图片| 六十路在线观看| 热久久美女精品天天吊色| 国产厕拍一区| 日本一本中文字幕| 国产成人自拍高清视频在线免费播放| 色婷婷国产精品免| 91精品福利在线| 精品av中文字幕在线毛片| 91精品国产网站| 精品国产一区二区三区不卡蜜臂 | 精品少妇一区二区三区日产乱码 | 欧美喷水一区二区| 国产小视频在线| 日韩av男人的天堂| 免费看成人哺乳视频网站| 波多野结衣家庭教师在线| av中文字幕不卡| 国内免费精品视频| 亚洲国产福利在线| 999福利在线视频| 国产日韩欧美一区二区| 亚洲看片一区| 黄色性生活一级片| 欧美视频在线观看免费| 日色在线视频| 国产不卡av在线| 欧美三级三级| 久热精品在线播放| 亚洲色图清纯唯美| 亚洲黄色小说网| 992tv成人免费影院| 亚洲尤物av| 中文字幕国产传媒| 中文字幕一区二区三区四区 | 色婷婷综合成人av| 亚洲网站三级| 国产精品国三级国产av| www.亚洲国产| 天堂网一区二区| 色吧影院999| 99re8这里有精品热视频免费 | 欧美人妻精品一区二区三区| 精品国产一区二区国模嫣然| 青青青免费在线视频| 日本在线一区| 国产真实精品久久二三区| 免费一级a毛片夜夜看| 亚洲国产又黄又爽女人高潮的| 免费日韩电影| 最新欧美日韩亚洲| www.日韩大片| 最近日韩免费视频| 久久综合电影一区| 欧美精品中文字幕亚洲专区| 99热手机在线| 亚洲综合久久av| 国产有码在线| 3d动漫精品啪啪一区二区三区免费| 亚洲精品乱码| а天堂中文在线资源| 精品国产百合女同互慰| 韩日一区二区| 18禁裸男晨勃露j毛免费观看| 国产视频亚洲色图| 精品人妻久久久久一区二区三区| 欧美亚洲日本黄色| 午夜精品久久久久久久四虎美女版| 一边摸一边做爽的视频17国产 | 制服丝袜中文字幕第一页| 亚洲一级二级在线| 成人影视在线播放| 成人精品一二区| 人人精品人人爱| 日本网站在线播放| 久久九九亚洲综合| 久久av免费看| 少妇激情一区二区三区视频|