精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

從GPT-OSS談談大模型算法和Infra演進

作者：zartbot 2025-08-08 04:11:00

gpt-oss開源了，整個模型架構的設計真的是非常的simple & elegant，本文結合一些前段時間一些Infra相關的爭議和自己開發Agent相關的分析, 來對未來模型架構演進做一些分析。

TL;DR

gpt-oss開源了，整個模型架構的設計真的是非常的simple & elegant。本文結合一些前段時間一些Infra相關的爭議和自己開發Agent相關的分析, 來對未來模型架構演進做一些分析。

1. Overview

OpenAI這次開源的是gpt-oss-20b 和 gpt-oss-120b兩個模型。

圖片

在自己的mac m4pro上運行了一下20b的模型, 基于LM Studio輸出為38 token/s, 非?？焖倭恕Ｒ恍I問題回答思路和格式都也很不錯, 這也使得很多小規模部署, 特別是基于它做一些簡單的Agent任務成為可能。

Attention使用了GQA和Sliding-window GQA交替的方式, 當然Llama 4也這么干過, 同時還有一個Attention Sink來解決一些long context的任務. 同時這樣的結構對于KVCache的處理有很多可以在推理優化中進一步挖掘的地方。

MoE上, 小的20b模型采用了4Active/32Routed, 而較大的120b采用了4Aactive/128Routed. 比較有趣的是Intermediate Size = Hidden Size = 2880. 為什么不升維度呢? 然后MLP還帶了Bias. 激活函數用了SwiGLU帶了clamp并且, 它的EP并行是如何實現的呢?

然后Reasoning的強度也有高中低的區別...另外和國內一些開源模型相比, 它的最大特點就是層數特別少. 120b只有36層....這樣就直接的提高了TPS。

這些疑問都有很多值得推敲的地方。

2. Attention

在Attention這一塊, 首先是使用了GQA和Sliding-window GQA交替的方式, 即Hybrid Attention. 在Llama 4中其實也見到過, 但是沒有像OAI這樣interleave的方式. 這樣的好處有幾點: 首先計算量少了很多, KVCache也少了很多, 特別是Long-context的情況下。

但是有一個疑問, 如果未來針對更大規模的模型例如一個1T參數左右的GPT-5如果還是這樣的方式, 模型可能要繼續加寬和加深? 那么勢必也會進行一些分布式的推理, EP并行或者AFD怎么處理呢? GQA應該是可以有效的使用AFD和EP的, 而對于Sliding-window GQA本身計算時間會短很多, 那么可能還是和MLP融合? 對于這類hybrid attention的模型如何overlap是一個很好玩的事情。

另外是對于不同的請求context-length在Agent場景也會存在很大的差異, 是不是還有一個根據context不同來配對Decoding的調度算法呢? 實際上對于一個Stateful且計算量和存儲長度都有很大差異的情況下, 類比于大數據中的一些Remote Shuffle方式處理數據偏斜, 通過layerwise的KVCache傳輸來處理呢? 這樣來實現一些長context請求驅逐出某個decoding cluster? 同時有一些額外的KVCache內存池作為Stateful的存儲似乎也有不少辦法去做一些事情?

而本質上,針對不同的context長度, 如果有一種大家計算時間都差異不大的方式那不是更好么?們注意到DeepSeek的NSA其實也是使用了Sliding window的方式, 然后使用Gated Output。同時又采用了block selection機制使得整體的計算時間并不會隨著context的差異變化過大。

圖片

其實從個人的視角來看, 我可能會更偏向于NSA, 特別是Agent場景. 很多工具返回的結果剛好像內存管理那樣, 按照Page可以填充到Block中。這樣Agent context engineering和NSA本身可以做很多的協同設計了。

另一方面最近在看Google的一篇論文《Learning without training:The implicit dynamics of in-context learning》^[1]

Attention本身產生兩種輸出, 一種是查詢x的輸出A(x), 另一種是有Context的輸出A(C,x)。兩者的delta就包含了上下文本身的信息. 當這個Delta經過MLP后, 等價于增加了一個很簡單的scratchpad。

圖片

然后這篇論文還有一個很好的結果, 使用原始的權重處理A(C,x)等同于使用新的權重處理x。這樣模型不用重新訓練又可以進一步的根據上下文更新參數了, 似乎很值得期待, 特別是結合Sutton的The Era of Experience。前段時間我也在考慮如何通過模型推理的經驗來動態改變prompt. 感覺這條路又可以做不少事情了。

另一方面Attention的一個比較好的實現是Sink Attention, 大致意思是context長了以后, 注意力全中多集中在開始的幾個token, 例如論文《Efficient Streaming Language Models with Attention Sinks》^[2]

另一篇論文是DeepMind的《Transformers need glasses! Information over-squashing in language tasks》^[3] 也提到了類似的問題。

圖片

SteamingLLM的做法就是通過Attention Sink來分散注意力, 使得中段和尾段注意力.. gpt-oss創建了一些可學習sink參數, 然后處理如下：

self.sinks = torch.nn.Parameter(
    torch.empty(config.num_attention_heads, device=device, dtype=torch.bfloat16)
)
        
t = sdpa(q, k, v, self.sinks, self.sm_scale, self.sliding_window)

def sdpa(Q, K, V, S, sm_scale, sliding_window=0):
    S = S.reshape(n_heads, q_mult, 1, 1).expand(-1, -1, n_tokens, -1)
    ...
    QK = torch.einsum("qhmd,khmd->hmqk", Q, K)
    ...
    QK = torch.cat([QK, S], dim=-1) #拼接Sink
    W = torch.softmax(QK, dim=-1) #計算帶Sink的softmax
    W = W[..., :-1] #丟棄Sink權重
    attn = torch.einsum("hmqk,khmd->qhmd", W, V)

其實我覺得還有一個補充的點是做一些自適應溫度的工作? 也是來自Deepmind 《Softmax is not Enough (for Sharp Size Generalisation) 》^[4]

圖片

最后還有一個小細節, attn head-dim =64 ? 小了很多, 查詢了一下蘇老師的文章《關于維度公式“n > 8.33 log N”的可用性分析》^[5],好像只有在Sliding-window GQA上是匹配的. 為了遷就這個而構成的一個Trade-off?

另一個問題就來了, 針對國產的各種NPU算力又要怎么搞呢?

3. MoE

其實對于120B的模型, 還是采用的Finegrain的Experts, 專家數128個. 但是沒有Shared Expert. 其實算法上去掉Shared也沒啥問題. 但是Fine grain本身的意義就不在多說了. 關鍵的問題回到Intermediate Size = Hidden Size = 2880. 為什么不升維度呢? 因為這個模型本來大小就相對小一點, 新的B200一類的卡顯存賊大. 4個Expert直接拼接在一起不就成了一個intermediate = 4 * hidden size大矩陣了么?

然后MLP還帶了Bias. 激活函數用了SwiGLU帶了clamp并且, 實際上也構成了一個殘差項的連接. 這些設計的動機是什么我不知道...

其實這一塊,如果我們要走hybrid attn的路, 做EP或者AFD似乎還有一些事情要處理. 特別是Sliding-window GQA的那一層. 突然想到一個idea, 兩批請求錯層去做overlap, 然后通過GreenContext去限制Full GQA和 Sliding-window GQA的計算資源是不是有收益呢?

至少我們看到的是在Attn上大家都在想方設法去解決long-context的各種效率問題, 這些問題解決了A和F之間的差異其實也就開始變小了...不過OAI這種Intermediate :hidden = 1:1 的設計是否在更大的模型上會采用, 還是針對小模型的時候拼接處理容易做的一些設計, 我不知道... 或許一些更大規模的模型, 例如1T參數的又繞到1:4. 感覺這里還是有不少設計空間的...

4. 總結

總體來看, 這次CloseAI再次Open帶來了不少變化, 這些變化似乎又給Infra賞了一口飯吃. 模型-系統-硬件的協同又有好多活干了~ 還有一些gpt-oss-mcp-server和tools的API挺有趣的, 后面再花時間學習吧！

參考資料

[1] Learning without training: The implicit dynamics of in-context learning: https://arxiv.org/pdf/2507.16003

[2] Efficient Streaming Language Models with Attention Sinks: https://arxiv.org/html/2309.17453v4

[3] Transformers need glasses! \faGlasses Information over-squashing in language tasks: https://arxiv.org/html/2406.04267v2

[4] Softmax is not Enough (for Sharp Size Generalisation): https://arxiv.org/html/2410.01104v3

[5] 關于維度公式“n > 8.33 log N”的可用性分析: https://kexue.fm/archives/8711

責任編輯：武曉燕來源： zartbot

GPT-OSS 大模型算法

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

奇米四色中文综合久久| 亚洲成avwww人| 国产精品亚洲天堂| 黄色小视频免费观看| 香蕉久久夜色精品| 日韩亚洲欧美成人| 97人妻精品一区二区三区免费| 成人性生交大片免费网站| 中文字幕在线观看不卡视频| 国产精品乱码| 中文字幕人妻色偷偷久久| 欧美1级日本1级| 永久免费看mv网站入口亚洲| av地址在线观看| 久久久人成影片一区二区三区在哪下载| 日韩毛片视频在线看| 美国av一区二区三区| 国产绿帽刺激高潮对白| 久草在线资源福利站| 欧美国产精品v| 国产欧美韩日| 国产三级精品在线观看| 丝袜亚洲另类欧美| 午夜精品99久久免费| 国产三级aaa| 国产一区二区三区四区五区| 欧美成人video| 一二三级黄色片| www.精品国产| 日韩欧美亚洲国产一区| 国产一级不卡视频| 黄色免费在线观看| 中文字幕av不卡| 你懂的视频在线一区二区| 国精品人妻无码一区二区三区喝尿| 免费的成人av| 国产精品扒开腿做爽爽爽的视频| 日本中文字幕网| 在线欧美视频| 欧美激情精品久久久| 久久国产高清视频| 999视频精品| 一区二区福利视频| 色一情一交一乱一区二区三区| 久久精品66| 亚洲二区中文字幕| 国产又粗又长又爽| 美女网站色精品尤物极品姐弟| 欧美mv日韩mv亚洲| aaa黄色大片| 99久久香蕉| 精品国产91久久久久久久妲己| 一级片免费在线观看视频| 999精品视频在线观看| 欧美日韩视频在线一区二区| 亚洲色图久久久| 日本美女高清在线观看免费| 国产精品欧美一区二区三区| 视频一区视频二区视频三区高| 蝌蚪视频在线播放| 国产日韩精品视频一区| 日本午夜精品一区二区| 高清性色生活片在线观看| 欧美激情一区在线| 中文字幕一区二区三区最新| 日本视频不卡| 樱花草国产18久久久久| 分分操这里只有精品| 欧美男男tv网站在线播放| 色av成人天堂桃色av| 欧美黄色性生活| **日韩最新| 亚洲爱爱爱爱爱| 亚洲第一成人网站| 菠萝蜜一区二区| 久久视频中文字幕| 国产一级黄色av| 国产模特精品视频久久久久| 国产精品va在线播放| 中文字幕乱码中文字幕| 国产成人精品一区二区三区四区 | 国产又粗又长又爽视频| 波多野结衣乳巨码无在线观看| 午夜视频一区二区三区| 国产美女三级视频| www一区二区三区| 亚洲国模精品私拍| 99精品欧美一区二区| 在线观看日韩| 欧美最顶级的aⅴ艳星| 在线观看免费黄色小视频| 国产高清在线观看免费不卡| 国产综合av一区二区三区| 国产精品一级伦理| 一区二区三区视频在线观看| 日韩久久一级片| 一区二区三区日本视频| 日韩成人av在线| 女同久久另类69精品国产| 雨宫琴音一区二区在线| 国产精品国产三级国产aⅴ9色| 精品国自产拍在线观看| 久久亚洲一区二区三区四区| 日本一区二区免费高清视频| 亚洲最大成人| 精品国产乱子伦一区| 日本成人午夜影院| 一本色道88久久加勒比精品| 成人两性免费视频| 精品推荐蜜桃传媒| 亚洲午夜羞羞片| 在线观看av网页| 日韩高清影视在线观看| 精品久久久999| 国产一区二区视频免费| 成人在线视频首页| 国产欧美综合一区| 国产亚洲人成a在线v网站| 欧美一卡二卡在线| 一级黄色毛毛片| 亚洲永久免费| 国产免费一区| 丝袜中文在线| 3d动漫精品啪啪一区二区竹菊| 欧洲女同同性吃奶| 亚洲激情偷拍| 成人在线观看91| 国产福利视频在线观看| 在线欧美小视频| 人妻精品久久久久中文字幕| 亚洲国产日韩在线| 国产高清自拍一区| 四虎影视国产在线视频| 91精品久久久久久久99蜜桃 | 清纯唯美亚洲激情| 色屁屁草草影院ccyycom| 亚洲乱码中文字幕| www.色就是色.com| 一级欧洲+日本+国产| 国产日韩精品在线播放| 岛国视频免费在线观看| 色综合久久88色综合天天免费| 性色av蜜臀av浪潮av老女人| 国产一区日韩一区| 国产精品99久久久久久久| 羞羞视频在线免费国产| 日韩一区二区在线免费观看| 九九热最新地址| 韩国成人精品a∨在线观看| 一本一道久久久a久久久精品91| 欧美日韩国产网站| 日韩中文字幕视频| 国产丝袜在线视频| 一区二区三区加勒比av| 欧美xxxxx少妇| 夜夜嗨一区二区| 精品一区二区三区视频日产| 亚洲校园激情春色| 在线播放精品一区二区三区 | aa视频在线播放| 久久99精品国产自在现线| 2018国产精品视频| 国产在线观看免费网站| 欧美视频一区二区三区四区 | 亚洲国产人成综合网站| 免费a在线观看播放| 久久婷婷丁香| 一级做a爰片久久| 欧美日韩黄网站| 97激碰免费视频| 国产原创av在线| 91精品国产日韩91久久久久久| 久艹视频在线观看| 97久久精品人人爽人人爽蜜臀| 日韩中文字幕免费在线 | 300部国产真实乱| 风间由美性色一区二区三区四区| 97在线视频免费观看| 蜜桃视频在线播放| 678五月天丁香亚洲综合网| 欧美日韩精品一区二区三区视频播放 | 亚洲瘦老头同性70tv| 国产精品一香蕉国产线看观看| 国产原创精品视频| 亚洲娇小xxxx欧美娇小| 一级久久久久久| 亚洲毛片av在线| 白丝女仆被免费网站| 黄页网站大全一区二区| 3d动漫一区二区三区| 久久福利综合| 精品999在线观看| 国产激情久久| 97精品欧美一区二区三区| 成人高清免费观看mv| 欧美草草影院在线视频| 波多野结衣黄色| 亚洲国产人成综合网站| 欧美精品日韩在线| 99在线视频精品| 午夜精品免费看| 老鸭窝91久久精品色噜噜导演| 一卡二卡3卡四卡高清精品视频| 精品久久对白| 亚洲一区国产精品| 国产精成人品2018| 国语自产精品视频在线看一大j8| av国产在线观看| 日韩av在线免费播放| 国产夫妻在线观看| 在线观看91视频| 免费在线不卡视频| 亚洲综合999| 国产尤物在线播放| 欧美国产欧美综合| 这里只有精品在线观看视频| 精品中文字幕一区二区| 秋霞久久久久久一区二区| 国产精品中文| 国产日韩av高清| 欧美韩国亚洲| 欧日韩不卡在线视频| 先锋成人av| 萌白酱国产一区二区| av网站在线免费播放| 日韩精品中文字幕在线观看| 亚洲国产www| 91精品在线一区二区| 中文字幕在线观看免费| 色悠悠久久综合| 中文字幕超碰在线| 午夜激情综合网| 国产精品自拍视频一区| 一区二区三区四区精品在线视频 | 亚洲一区二区成人在线观看| 欧美大片xxxx| 亚洲天堂免费在线观看视频| 国产又粗又硬视频| 国产精品久久久久久亚洲毛片 | 91久久精品国产| 日日夜夜亚洲| 成人两性免费视频| 国产精品久久免费视频| 成人在线视频网站| 成人国产精品久久| 91丨九色丨国产在线| 曰本一区二区| 亚洲自拍另类欧美丝袜| 蜜桃精品视频| 成人h视频在线观看| 婷婷综合国产| 国产亚洲精品美女久久久m| 免费看成人人体视频| 久久久久久久免费| 九九精品久久| 亚洲精品中字| 亚洲蜜桃视频| 国内少妇毛片视频| 99国产精品| 久久久久久久激情| 青娱乐精品在线视频| 超碰人人草人人| 国产精品一区免费视频| 少妇无码av无码专区在线观看 | 男人天堂成人在线| 奇米精品一区二区三区在线观看 | 97人妻一区二区精品免费视频| 欧美肥胖老妇做爰| www.久久成人| 国产视频欧美视频| 中文字幕在线免费| 久久精品视频在线播放| 欧美卡一卡二| 日本欧美一级片| 国产精品777777在线播放| 不卡视频一区| 国产免费av一区二区三区| 一区二区三区在线视频看| 欧美精品一区二区三区久久久竹菊| 日韩欧美猛交xxxxx无码| 亚洲伊人网站| 99精品视频国产| 99精品偷自拍| 天天操夜夜操av| 精品久久久久久中文字幕| 日本欧美www| 亚洲成人黄色网址| 91在线不卡| 久久久久久中文| 国产精品第一国产精品| 91久久国产自产拍夜夜嗨| 伊人久久大香线蕉| 国产女人18毛片| 日韩精彩视频在线观看| 毛片在线播放视频| 日本不卡的三区四区五区| 日韩高清一二三区| 欧美国产综合一区二区| 国产亚洲精品成人| 欧美三区免费完整视频在线观看| 成人午夜免费在线观看| 一本一道久久a久久精品逆3p| 七七成人影院| 成人免费自拍视频| 色综合综合网| av日韩一区二区三区| 蜜臀av性久久久久蜜臀aⅴ流畅| 人妻av一区二区| 日韩理论片网站| 国产美女www爽爽爽| 亚洲成人在线网| av网站大全在线| 国产精品热视频| 免费观看久久av| 99久久免费观看| 国产一区二区三区免费| 国产在线综合视频| 色中色一区二区| 午夜成人鲁丝片午夜精品| 毛片精品免费在线观看| 久久女人天堂| 日本免费高清一区| 国产精品普通话对白| 白嫩情侣偷拍呻吟刺激| 亚洲欧美成人一区二区三区| 精品国产青草久久久久96| 亚洲乱码一区av黑人高潮| 国产后进白嫩翘臀在线观看视频| 成人字幕网zmw| 第九色区aⅴ天堂久久香| 亚洲中文字幕日韩无码| 91免费视频大全| 国内精品福利视频| 日韩精品视频在线观看网址| 国产夫妻在线播放| 国产福利久久精品| 亚洲小说区图片区| 亚洲妇女无套内射精| 亚洲精品欧美激情| 国产熟女精品视频| 久久国产精品影片| 国产乱码精品一区二区三区亚洲人 | 91亚洲国产| 国产福利在线免费| 国产精品久久久久久久蜜臀| 日韩免费av网站| 色先锋资源久久综合5566| av超碰免费在线| 91亚洲国产精品| 综合久久一区| 美国黄色一级视频| 午夜激情一区二区| 亚洲aaa在线观看| 日韩av理论片| 日韩理论电影院| 五月天开心婷婷| 一区二区视频在线| 日韩一级中文字幕| 热久久美女精品天天吊色| 国产探花一区| 成人日韩在线视频| 亚洲欧美日韩精品久久久久| 国产精品无码在线播放| 欧美美女15p| 欧美爱爱网站| 激情综合网俺也去| 国产精品久久久久久福利一牛影视| 97国产精品久久久| 欧美黑人国产人伦爽爽爽| 青青操综合网| 久久撸在线视频| 亚洲免费在线看| 熟妇人妻av无码一区二区三区| 欧美一级大片视频| 久久在线视频| 亚洲午夜久久久久久久久| 一本一道波多野结衣一区二区| 91短视频版在线观看www免费| 亚洲中国色老太| 久久青草久久| 成年人二级毛片| 日韩精品亚洲精品| 国产精品一区免费在线 | 奇米精品一区二区三区在线观看| 无码黑人精品一区二区| 亚洲国产精品系列| 国产精品第一| 欧美极品欧美精品欧美| 中文字幕av一区二区三区免费看 | 国产成人精品一区二区三区网站观看| 国产成人无码一区二区三区在线 | 麻豆av一区二区三区| 久久www免费人成看片高清| 国产精品99精品无码视| 在线精品国产欧美| 都市激情亚洲欧美| 日韩成人精品视频在线观看| 精品国产31久久久久久| 在线激情网站| 欧美日韩国产一二|