精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從GPT-2到gpt-oss,深度詳解OpenAI開放模型的進化之路

人工智能 新聞
近日,我們熟悉的 Sebastian Raschka 也發(fā)布了一篇深度技術博客,對 gpt-oss 進行了詳細分析,并回顧了自 GPT-2 以來 AI 社區(qū)取得的進步;此外,他還將其與 Qwen 3 進行了比較。

眾所周知,OpenAI 并不夠 Open,不僅研究論文發(fā)得越來越少,開源模型也是千呼萬喚始出來。其近日發(fā)布的兩個 gpt-oss 開源模型已經(jīng)吸引了無數(shù)關注,網(wǎng)上也已經(jīng)出現(xiàn)了不少解讀文章或視頻。

近日,我們熟悉的 Sebastian Raschka 也發(fā)布了一篇深度技術博客,對 gpt-oss 進行了詳細分析,并回顧了自 GPT-2 以來 AI 社區(qū)取得的進步;此外,他還將其與 Qwen 3 進行了比較。

  • 博客標題:From GPT-2 to gpt-oss: Analyzing the Architectural Advances, And How They Stack Up Against Qwen3
  • 博客地址:https://sebastianraschka.com/blog/2025/from-gpt-2-to-gpt-oss.html

以下為該博客文章的主要內(nèi)容:

gpt-oss-120b 和 gpt-oss-20b 是自 2019 年 GPT-2 發(fā)布以來 OpenAI 發(fā)布的首批開放權(quán)重模型。得益于一些巧妙的優(yōu)化,它們可以在本地運行。

我花了幾天時間閱讀代碼和技術報告,總結(jié)出了其中最有趣的細節(jié)。

本文主要包括以下內(nèi)容:

  • 與 GPT-2 的模型架構(gòu)比較
  • MXFP4 優(yōu)化,使 gpt-oss 模型能夠在單 GPU 上運行
  • 寬度與深度的權(quán)衡(gpt-oss 與 Qwen3)
  • 注意力偏差和 sinks
  • 基準結(jié)果以及與 GPT-5 的比較

1、模型架構(gòu)概述

在更詳細地討論架構(gòu)之前,我們先大概了解一下這兩個模型:gpt-oss-20b 和 gpt-oss-120b。

圖 1:兩個 gpt-oss 模型的架構(gòu)示意圖

如果你對 LLM 架構(gòu)有所了解,可能乍一看會覺得這兩個 gpt-oss 并沒有什么新穎或不尋常之處。

這并不奇怪,因為領先的 LLM 開發(fā)商傾向于使用相同的基礎架構(gòu),然后進行一些較小的調(diào)整。這純粹是我的猜測,但我認為這是因為:

  • 這些實驗室之間存在大量的人員流動。
  • 我們?nèi)匀粵]有找到比 Transformer 架構(gòu)更好的架構(gòu)。盡管現(xiàn)在已經(jīng)有了狀態(tài)空間模型(SSM)和文本擴散模型,但據(jù)我所知,還沒有人證明它們在這種規(guī)模下的性能可媲美 Transformer。
  • 大部分改進可能來自數(shù)據(jù)和算法的調(diào)整,而非重大的架構(gòu)變更。

話雖如此,它們的設計選擇仍然有很多有趣的方面。其中一些在上圖中有所展示(也有一些沒有,但我們稍后也會討論)。在本文的其余部分,我將重點介紹這些特性,并逐一將它們與其他架構(gòu)進行比較。

這里簡單說明一下,gpt-oss-20b 模型可以在配備了 16 GB RAM 的消費級 GPU 上運行。gpt-oss-120b 模型可在配備 80 GB RAM 或更高配置的單塊 H100 處理器上運行。但后面還會提到一些重要的注意事項。

2、自 GPT-2 以來的變化

在比較 gpt-oss 和更新的架構(gòu)之前,讓我們先回到過去,將其與 GPT-2 對比一番(圖 2),看看它到底取得了多大的進展。

圖 2:gpt-oss-20b 與 GPT-2 XL 1.5B 的比較。

gpt-oss 和 GPT-2 都是基于 2017 年的論文《Attention Is All You Need》中提出的 Transformer 架構(gòu)構(gòu)建的僅解碼器 LLM。

但多年時間已過,許多細節(jié)已經(jīng)變化。

然而,這些變化并非 gpt-oss 獨有。正如后面介紹的,它們也出現(xiàn)在許多其他 LLM 中。

2.1 移除 Dropout

2012 年提出的 Dropout 是一種傳統(tǒng)的防止過擬合的技術,其實現(xiàn)方式是在訓練過程中隨機「丟棄」(即將其設置為零)一部分層激活值或注意力分數(shù)(圖 3)。然而,Dropout 在現(xiàn)代 LLM 中很少使用,GPT-2 之后的大多數(shù)模型都已放棄這種技術。

圖 3:將 Dropout 應用于注意力分數(shù)矩陣的示意圖

我推測,GPT-2 之所以使用 Dropout,是因為它繼承自原始的 Transformer 架構(gòu)。研究者可能后面注意到,它并沒有真正提升 LLM 的性能(我在小規(guī)模的 GPT-2 復現(xiàn)運行中也觀察到了同樣的情況)。這可能是因為 LLM 通常只在海量數(shù)據(jù)集上進行單輪訓練,這明顯不同于 Dropout 最初引入時針對的數(shù)百輪訓練方案。因此,由于 LLM 在訓練過程中每個 token 只被識別一次,因此過擬合的風險很小。

有趣的是,雖然 Dropout 在 LLM 架構(gòu)設計中多年來一直被忽略,但我找到了一篇 2025 年的研究論文《Drop Dropout on Single-Epoch Language Model Pretraining》—— 其中包含小規(guī)模的 LLM 實驗 (Pythia 1.4B),證實了 Dropout 在這些單輪訓練方案中會導致下游性能下降。

2.2 RoPE 取代絕對位置嵌入

在基于 Transformer 的 LLM 中,由于注意力機制的存在,位置編碼是必需的。默認情況下,注意力機制會將輸入 token 視為無序的。在原始 GPT 架構(gòu)中,絕對位置嵌入會通過為序列中的每個位置添加一個學習到的嵌入向量(圖 4)來解決這個問題,然后將其添加到 token 嵌入中。

圖 4:絕對位置嵌入示意圖

RoPE(旋轉(zhuǎn)位置嵌入)則是一種不同的方法:它不是將位置信息添加為單獨的嵌入,而是通過根據(jù)每個 token 的位置對查詢和鍵向量執(zhí)行旋轉(zhuǎn)來編碼位置。

RoPE 于 2021 年首次提出,并隨著 2023 年原始 Llama 模型的發(fā)布而得到廣泛采用,此后已成為現(xiàn)代 LLM 的主要組成部分。

2.3 Swish/SwiGLU 取代 GELU

早期的 GPT 架構(gòu)使用 GELU。為什么現(xiàn)在的使用 Swish 而不是 GELU?

在我看來,Swish 的計算成本略低,這就是它的全部優(yōu)勢。在不同的論文中,兩者的建模性能都可能更優(yōu)。在我看來,這些細微的差異可能在標準誤差范圍內(nèi),實際結(jié)果會根據(jù)超參數(shù)敏感度而有所不同。

激活函數(shù)曾經(jīng)是一個熱門的爭論話題,直到十多年前深度學習社區(qū)基本確定采用 ReLU 函數(shù)。此后,研究者提出并嘗試了許多類似 ReLU 的變體,這些變體具有更平滑的曲線,而 GELU 和 Swish(圖 5)是其中最受青睞的變體。

圖 5:Swish 和 GELU 激活函數(shù)的比較,它們都是 ReLU 的更平滑版本。

早期的 GPT 架構(gòu)使用 GELU,其定義為 0.5x * [1 + erf (x /sqrt (2))]。其中,erf(誤差函數(shù)的縮寫)是高斯積分,它使用高斯積分的多項式近似來計算,這使得它的計算成本比 Swish 中使用的 S 型函數(shù)(其中 Swish 只是 x * sigmoid (x))等更簡單的函數(shù)更高。

實際上,Swish 的計算成本略低于 GELU,這可能就是它在大多數(shù)較新的模型中取代 GELU 的主要原因。

如今,Swish 已被應用于大多數(shù)架構(gòu)。然而,GELU 并未被完全遺忘;例如,谷歌的 Gemma 模型仍然使用 GELU。

然而,更值得注意的是,前向模塊(一個小型多層感知器)已被門控的「GLU」所取代,其中 GLU 代表門控線性單元,是在 2020 年的一篇論文中提出的。具體來說,2 個全連接層被 3 個全連接層所取代。

乍一看,GEGLU/SwiGLU 變體似乎比常規(guī)前向?qū)痈茫驗閮H僅是因為增加了一層,參數(shù)就更多了。但這并非易事,因為在實踐中,SwiGLU/GEGLU 中的 W 和 V 權(quán)重層通常被選擇為傳統(tǒng)前向?qū)又?W_1 層大小的一半。

為了更好地說明這一點,來看看常規(guī)和 GLU 變體的具體代碼實現(xiàn):

圖 7:常規(guī)前向模塊(上)和 SwiGLU 變體(下)

因此,假設嵌入維度為 1024。在常規(guī)前向情況下,將會有:

  • fc1:1024 × 4096 = 4,194,304
  • fc2:1024 × 4096 = 4,194,304

也就是說,fc1 + fc2 = 8,388,608 個參數(shù)。

對于 GLU 變體,則有:

  • fc1:1024 × 1024 = 1,048,576
  • fc2:1024 × 1024 = 1,048,576
  • fc3:1024 × 1024 = 1,048,576

即 3 × 1,048,576 = 3,145,728 個權(quán)重參數(shù)。

因此,總體而言,使用 GLU 變體可以減少參數(shù)數(shù)量,并且性能也更好。性能更佳的原因是這些 GLU 變體提供了額外的乘法交互,從而提高了表示能力(這與深度細長的神經(jīng)網(wǎng)絡比淺層寬廣的神經(jīng)網(wǎng)絡表現(xiàn)更好的原因相同,前提是它們訓練得當)。

2.4 混合專家取代單個前向模塊

除了將前向模塊升級為 SwiGLU 之外,gpt-oss 還將單個前向模塊替換為了多個前向模塊,每個 token 生成步驟僅使用一個子集。這種方法被稱為混合專家模型 (MoE),如下圖 8 所示。

圖 8:前向模塊被混合專家 (MoE) 取代。

因此,用多個前向模塊替換單個前向模塊(就像在 MoE 設置中所做的那樣)會顯著增加模型的總參數(shù)數(shù)量。然而,關鍵在于我們不會為每個 token 使用(「激活」)所有專家模型。相反,路由器只會為每個 token 選擇一小部分專家模型。

由于每次只有少數(shù)專家模型處于活動狀態(tài),因此 MoE 通常被描述為稀疏模塊,而密集模塊則始終使用完整的參數(shù)集。然而,通過 MoE 形式積累的大量參數(shù)會增加 LLM 的容量,這意味著它在訓練過程中會積累更多知識。同時,稀疏性可保證推理的高效性,因為我們不會同時使用所有參數(shù)。

(有趣的事實:在大多數(shù) MoE 模型中,專家權(quán)重占模型總參數(shù)的 90% 以上。)

2.5 分組查詢注意力取代多頭注意力

近年來,分組查詢注意力 (GQA) 興起,成為了一種比多頭注意力 (MHA) 計算效率和參數(shù)效率更高的替代方案。

在 MHA 中,每個注意力頭都有自己的一組鍵和值。GQA 通過將多個注意力頭分組以共享相同的鍵和值投影來減少內(nèi)存占用。

例如,如圖 9 所示,如果有 2 個鍵值組和 4 個注意力頭,則注意力頭 1 和 2 可能共享一組鍵和值,而注意力 3 和 4 則共享另一組鍵和值。這種分組會減少鍵和值的計算總量,從而降低內(nèi)存占用并提高效率,而且根據(jù)消融研究,這不會顯著影響建模性能。

圖 9:MHA 與 GQA 的比較。此處,分組大小為 2,其中鍵值對在 2 個查詢之間共享。

因此,GQA 的核心思想是通過在多個查詢頭之間共享鍵和值頭來減少鍵和值頭的數(shù)量。這可 (1) 降低模型的參數(shù)數(shù)量,(2) 減少推理過程中鍵和值張量的內(nèi)存帶寬占用,因為需要從鍵值緩存中存儲和檢索的鍵和值更少。

雖然 GQA 主要是為了提高 MHA 的計算效率,但一些消融研究(例如原始 GQA 論文和 Llama 2 論文中的研究)表明,它在 LLM 建模性能方面與標準 MHA 相當。

2.6 滑動窗口注意力

滑動窗口注意力(下圖 10)最早在 LongFormer 論文(2020 年)中提出,后來由 Mistral 推廣。有趣的是,gpt-oss 每隔一層就應用一次它。你可以將其視為多頭注意力(在本例中為分組查詢注意力 (GQA))的一種變體,其中注意力上下文被限制在較小的窗口中,從而可同時降低內(nèi)存使用量和計算成本。

圖 10:常規(guī)注意力(左)與滑動窗口注意力(右)的比較。

具體來說,gpt-oss 會交替關注完整上下文的 GQA 層和滑動窗口限制為 128 個 token 的 GQA 層。

實際上,Gemma 2 (2024) 也使用了類似的 1:1 比例。今年早些時候發(fā)布的 Gemma 3 則更進一步,改為 5:1 的比例,這意味著每五個滑動窗口(局部)注意力層只有一個完整的注意力層。

根據(jù) Gemma 的消融研究,滑動窗口注意力對建模性能的影響微乎其微,如下圖所示。需要注意的是,Gemma 2 中的窗口大小為 4096 個 token,而 Gemma 3 將其減少到 1024 個 token。在 gpt-oss 中,窗口只有 128 個 token,非常小。

另外,有趣的是,OpenAI 的官方文章指出,滑動窗口注意力顯然已在 GPT-3 中使用:「這些模型使用了交替的密集和局部帶狀稀疏注意力模式,類似于 GPT-3」

我回顧了 GPT-3 的原始論文,那里確實提到了這一點:「我們使用了與 GPT-2 相同的模型和架構(gòu),包括其中描述的修改后的初始化、預歸一化和可逆 token 化,不同之處在于,我們在 Transformer 的各層中使用交替的密集和局部帶狀稀疏注意力模式,類似于 Sparse Transformer。」

2.7 RMSNorm 替換 LayerNorm

最后一個不同于 GPT-2 的小調(diào)整是用 RMSNorm (2019) 替換 LayerNorm (2016),這是近年來的一個常見趨勢。

類似于用 Swish 和 SwiGLU 替換 GELU,RMSNorm 也是合理的效率小改進之一。 RMSNorm 與 LayerNorm 類似,其目的都是對層激活進行歸一化,如下圖 11 所示。

你可能還記得,不久前,BatchNorm 還是這項任務的首選。但后來它逐漸失寵,主要是因為它難以高效并行化(由于均值和方差的批次統(tǒng)計數(shù)據(jù)),并且在小批量下表現(xiàn)不佳。

圖 11:LayerNorm(左)和 RMSNorm(右)在小型線性層中的比較。

如上圖 11 所示,LayerNorm 和 RMSNorm 都會將層輸出縮放到合理的范圍內(nèi)。

LayerNorm 的做法是減去均值并除以標準差,使得層輸出具有零均值和單位方差(方差為 1,標準差為 1)。

RMSNorm 則是將輸入除以均方根。這不會強制要求均值和方差為零,但均值和方差應處于合理范圍內(nèi):均值在 -1 到 1 之間,方差在 0 到 1 之間。在圖 11 所示的特定示例中,均值為 0.77,方差為 0.41。

LayerNorm 和 RMNSorm 都能穩(wěn)定激活尺度并改善優(yōu)化效果,但 RMNSorm 通常更適合大規(guī)模 LLM,因為它的計算成本更低。與 LayerNorm 不同,RMNSorm 沒有偏差(平移)項,并將昂貴的均值和方差計算簡化為一次均方根運算。這將跨特征約簡的次數(shù)從兩次減少到一次,從而降低 GPU 的通信開銷并提高訓練效率。

2.8 GPT-2 的遺產(chǎn)

我仍然認為,在學習 LLM 時,GPT-2 是一個優(yōu)秀的入門架構(gòu)。它足夠簡單易懂,不會迷失在層層優(yōu)化技巧中,但又足夠復雜,能夠讓你扎實掌握現(xiàn)代 Transformer 模型的工作原理。

從 GPT-2 開始,你可以專注于基礎知識(注意力、位置嵌入、規(guī)范化和整體訓練流程),而不會被新架構(gòu)中的額外功能和調(diào)整所淹沒。

事實上,我認為在嘗試疊加新的變化之前,先花時間了解甚至實現(xiàn) GPT-2 是值得的。你不僅能更容易地理解這些變化,而且你可能會更加欣賞它們,因為你將更好地理解它們試圖解決的局限性或問題。

例如,我最近從我的 GPT-2 代碼入手,從零開始實現(xiàn)了 Qwen3 架構(gòu),它與 gpt-oss 非常相似,這就引出了下一個話題:將 gpt-oss 與更新的架構(gòu)進行比較。

從頭開始實現(xiàn) Qwen3:https://github.com/rasbt/LLMs-from-scratch/tree/main/ch05/11_qwen3

3、比較 gpt-oss 與最新架構(gòu) (Qwen3)

現(xiàn)在我們已經(jīng)了解了從 GPT-2 到 gpt-oss 的演變過程,接下來我們將 gpt-oss 與更新的架構(gòu) Qwen3 進行比較,后者于三個月前(2025 年 5 月)發(fā)布。

我之所以選擇 Qwen3,是因為截至撰寫本文時,它是頂級的開放權(quán)重模型之一。此外,Qwen3 也是 MoE 模型,由于其可訓練參數(shù)的總體規(guī)模相對相似,幾乎可以直接與 gpt-oss 相比。

下圖對比了 gpt-oss-20B 與大小相當?shù)?Qwen3 模型。

圖 13:大小相當?shù)?gpt-oss 和 Qwen3 模型。

可以看到,gpt-oss 20B 和 Qwen3 30B-A3B 在架構(gòu)組件上非常相似。除了尺寸之外,主要區(qū)別在于 gpt-oss 采用了滑動窗口注意力,而 Qwen3 則沒有。

我們將在以下小節(jié)中逐一介紹值得注意的細節(jié)。

3.1 寬度與深度

仔細觀察這兩個模型,我們會發(fā)現(xiàn) Qwen3 的架構(gòu)更深,它有 48 個 Transformer 模塊,而不是 24 個。

另一方面,gpt-oss 的架構(gòu)更寬:

  • 嵌入維度為 2880,而非 2048
  • 中間的專家(前向)投影維度也為 2880,而非 768

還值得注意的是,gpt-oss 使用了兩倍的注意力頭,但這并不會直接增加模型的寬度。寬度由嵌入維度決定。

在參數(shù)數(shù)量固定的情況下,哪種方法更有優(yōu)勢?根據(jù)經(jīng)驗,更深的模型更靈活,但由于梯度爆炸和梯度消失(RMSNorm 和 shortcut 連接旨在緩解這些問題)導致的不穩(wěn)定性問題,訓練起來可能更困難。

更寬的架構(gòu)具有推理速度更快的優(yōu)勢(每秒 token 吞吐量更高),這是因為并行化程度更高,但內(nèi)存成本也更高。

就建模性能而言,遺憾的是,據(jù)我所知,除了 Gemma 2 論文(表 9)中的一項消融研究(ablation study)之外,目前尚無很好的同類比較(在參數(shù)大小和數(shù)據(jù)集保持不變的情況下)。該研究發(fā)現(xiàn),對于 9B 參數(shù)架構(gòu),較寬的設置略優(yōu)于較深的設置。在 4 個基準測試中,較寬的模型平均得分為 52.0,而較深的模型平均得分為 50.8。

3.2 少量大型專家 vs. 大量小型專家

如上圖 14 所示,值得注意的是,gpt-oss 的專家數(shù)量出奇地少(32 個而不是 128 個),并且每個 token 僅使用 4 個而不是 8 個活躍專家。然而,每個專家的數(shù)量都比 Qwen3 中的專家數(shù)量要多得多。

這很有意思,因為最近的趨勢和發(fā)展表明,更多、更小的模型是有益的。在總參數(shù)大小不變的情況下,這種變化在來自 DeepSeekMoE 論文的下圖中得到了很好的展示。

圖 15:來自《DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models》的圖片,https://arxiv.org/abs/2401.06066

值得注意的是,與 DeepSeek 的模型不同,gpt-oss 和 Qwen3 都沒有使用共享專家。

公平地說,gpt-oss 中專家數(shù)量較少可能是 20B 規(guī)模的副作用。查看下面的 120B 模式,它們確實增加了專家(和 Transformer 模塊)的數(shù)量,同時保持其他所有參數(shù)不變,如下圖所示。

圖 16:兩個 gpt-oss 架構(gòu)比較,其中更大的 120B 模型僅擴展了 Transformer 模塊和專家的數(shù)量。

20B 和 120B 模型如此相似的一個無聊解釋可能是因為 120B 模型是主要關注點。而創(chuàng)建較小模型最簡單的方法是使其更短一些(減少 Transformer 模塊)并減少專家數(shù)量,因為大多數(shù)參數(shù)都存儲在專家數(shù)量中。然而,有人可能會猜測他們是否先訓練 120B 模型,然后砍掉一些 Transformer 模塊和專家數(shù)量用于繼續(xù)預訓練(而不是從隨機權(quán)重開始)。

無論如何,這是因為只縮放這兩者(Transformer 模塊和專家數(shù)量)的情況并不常見。例如,在查看多種尺寸的 Qwen3 MoE 模型(下圖 17)時,它們在更多方面彼此之間進行了更均衡的縮放。

圖 17:各種 Qwen3 模型的架構(gòu)差異。

3.3 注意力偏差和 sinks

gpt-oss 和 Qwen3 都使用分組查詢注意力。主要區(qū)別在于,如前所述,gpt-oss 通過在每個第二層中滑動窗口注意力來限制上下文大小。

然而,有一個有趣的細節(jié)引起了我的注意。gpt-oss 似乎為注意力權(quán)重使用了偏差單元(bias units),如下圖所示。

圖 18:gpt-oss 模型在注意力層中使用了偏差單元。

自 GPT-2 時代以來,我就沒見過這些偏差單元被使用,它們通常被認為是多余的。事實上,我發(fā)現(xiàn)了一篇最近的論文,從數(shù)學上證明了至少對于鍵變換 (k_proj) 來說,情況確實如此。此外,實證結(jié)果表明,使用和不使用偏差單元之間幾乎沒有差異(見下圖 19)。

圖 19:來自 https://arxiv.org/pdf/2302.08626 的表格,顯示了使用和不使用偏差單元從頭開始訓練模型時的平均測試損失。

你可能注意到的另一個細節(jié)是圖 18 代碼截圖中 sinks(sinks)的定義。在一般模型中,注意力 sinks 是放置在序列開頭的特殊「始終關注」token,用于穩(wěn)定注意力,這在長上下文場景中尤其有用。也就是說,如果上下文變得很長,開頭這個特殊的、被關注的 token 仍然會被關注,并且它可以學習存儲一些關于整個序列的普遍有用的信息。

在 gpt-oss 實現(xiàn)中,注意力 sinks 并非輸入序列中的實際 token。相反,它們是學習到的每人偏差邏輯單元 (per-headbias logits),并附加到注意力分數(shù)中(圖 20)。其目標與上述注意力 sinks 相同,但不修改 token 化的輸入。

圖 20:gpt-oss 中注意力 sinks 的使用

3.4 許可證

最后,與 Qwen3 類似,gpt-oss 模型采用了 Apache 2.0 開源許可證,這非常棒(這也是我自己的開源項目所偏好的許可證)。這意味著這些模型可以不受限制地蒸餾成其他模型或用于商業(yè)產(chǎn)品。

開放權(quán)重 LLM vs 開源 LLM:這種區(qū)別多年來一直存在爭議,但值得澄清以避免混淆。一些模型開發(fā)者只發(fā)布模型權(quán)重和推理代碼(例如 Llama、Gemma 和 gpt-oss),而另一些模型開發(fā)商則會將所有東西都開源,包括訓練代碼、數(shù)據(jù)集和權(quán)重。(例如 OLMo)

按照更嚴格的定義,gpt-oss 是一個開放權(quán)重模型(就像 Qwen3 一樣),因為它包含權(quán)重和推理代碼,但不包含訓練代碼或數(shù)據(jù)集。然而,業(yè)界對這一術語的使用并不一致。

我曾經(jīng)以為「gpt-oss」中的「oss」表示開源軟件(open source software);然而,令我驚訝的是,OpenAI 在其官方公告文章中明確地將 gpt-oss 描述為開放權(quán)重模型。

4、其他有趣細節(jié)

雖然前面幾節(jié)描述了該架構(gòu)自 GPT-2 以來的演變,并討論了它與 Qwen3(以及大多數(shù)其他近期模型)的相似之處,但還有一些值得注意的細節(jié)尚未提及。

這些要點不適合放在前面幾節(jié),但仍然值得一提。

4.1 訓練概況

遺憾的是,關于 gpt-oss 的訓練集大小和算法的信息并不多,但我從其模型卡 (1) 和宣布文章 (2) 中找到了一些有趣的拼圖碎片:

由此,我們知道 gpt-oss 模型是推理模型。訓練計算量是 210 萬個 H100 GPU 小時數(shù),與規(guī)模約 5.6 倍的 DeepSeek V3 模型所需的 278.8 萬個 H800 GPU 小時數(shù)的訓練計算量大致相當。遺憾的是,目前尚無關于 Qwen3 訓練時間的信息。

有趣的是,gpt-oss 的訓練時間估算包含了用于指令遵循的監(jiān)督學習和用于推理的強化學習,而 DeepSeek V3 只是一個預訓練的基礎模型,DeepSeek R1 是在此基礎上單獨訓練的。

4.2 推理工作

如上一節(jié)所述,gpt-oss 模型是推理模型。然而,特別有趣的是,它們的訓練方式使得用戶可以通過推理時間縮放輕松控制推理程度。

具體來說,gpt-oss 模型可以接收「推理工作量:低 / 中 / 高」指令作為其系統(tǒng)提示詞的一部分,這可直接影響響應長度和準確率,如圖 21 所示。

圖 21:不同推理工作量下 gpt-oss 模型的響應長度和質(zhì)量

這種可調(diào)整性非常有用,因為它使我們能夠平衡成本、計算量和準確率。例如,如果任務很簡單,例如回答一個簡單的知識問題或修復一個小拼寫錯誤,我們可以跳過擴展推理。這能節(jié)省時間和資源,同時避免不必要的冗長響應和冗長的推理痕跡。

與 Qwen3 或 OLMo 不同,OpenAI 沒有發(fā)布強化學習訓練之前的基礎模型,這多少有些遺憾。基礎模型對于研究推理方法的研究者來說是極其寶貴的起點(這也是我目前喜歡使用 Qwen3 Base 的原因之一)。我猜測,OpenAI 的決定更多是出于行業(yè)和生產(chǎn)用例的考慮,而非研究方面的考慮。

請注意,原始 Qwen3 模型也有一個用于啟用 / 禁用思考(推理)模式的開關(通過在 tokenizer 中設置 enable_thinking=True/False 來啟用 / 禁用推理行為)。然而,Qwen3 團隊在過去幾周更新了他們的模型,并從混合模型轉(zhuǎn)向了專用的 Instruct/Thinking/Coder 變體。

原因是混合模式下的模型性能低于單個模型:「在與社區(qū)討論并反思此事后,我們決定放棄混合思考模式。現(xiàn)在我們將分別訓練 Instruct 和 Thinking 模型,以實現(xiàn)最佳質(zhì)量。」

4.3 MXFP4 優(yōu)化:一個細小卻重要的細節(jié)

一個有趣的驚喜是,OpenAI 還發(fā)布了為 MoE 專家采用了 MXFP4 量化方案的 gpt-oss 模型。

量化格式曾經(jīng)是一個小眾話題,主要與移動或嵌入式 AI 相關,但隨著模型規(guī)模的擴大,這種情況發(fā)生了變化。在這種情況下,MXFP4 優(yōu)化能讓模型在單臺 GPU 設備上運行。

實際效果如下:

  • 大型模型(例如 120B)可安裝在單臺 80GB H100 或更新的 GPU 上。雖然不是消費級硬件,但租用一臺單 H100 的機器比租用多臺 H100 的機器便宜得多。此外,我們不必擔心在 GPU 之間分配模型并增加通信開銷。 AMD MI300X 顯卡從第一天起就支持,真是太好了!
  • 較小的 20B 模型甚至可以使用 16 GB 顯存;需要注意的是,它必須是 RTX 50 系列或更新的 GPU 才能支持 MXFP4。

請注意,這些模型也可以在較舊的硬件上運行,但不支持 MXFP4,因此會消耗更多內(nèi)存。如果沒有 MXFP4 優(yōu)化,bfloat16 模型將消耗更多內(nèi)存,例如 48 GB(gpt-oss-20b)和 240 GB(gpt-oss-120b)。

順便說一句,我可以在 Mac Mini 上使用 ollama 輕松運行 gpt-oss-20b 模型。它占用大約 13.5 GB 的內(nèi)存。嗯,很合理。

4.4 基準成績

這些模型還比較新,還沒有多少可靠的獨立基準測試結(jié)果。比如 LM Arena 排行榜上,gpt-oss 尚未上榜。因此,根據(jù) LM Arena 用戶的數(shù)據(jù),Qwen3-Instruct 目前仍然引領開放權(quán)重模型(圖 22)。

圖 22:LM Arena 排行榜當前視圖(截至 2025 年 8 月 12 日)

只看 gpt-oss 發(fā)布博文中提供的推理基準測試,我們可以看到 gpt-oss 模型與 OpenAI 的專有模型以及 Qwen3 的性能相當(圖 23)。

圖 23:主要基準測試圖表來自官方 gpt-oss 官方公告。「no tools」的 gpt-oss-120b 數(shù)據(jù)取自官方模型卡,Qwen3 數(shù)據(jù)取自官方 Qwen3 代碼庫。

然而,需要注意的是,gpt-oss-120b 的大小幾乎只有 Qwen3 A235B-A22B-Thinking-2507 模型的一半,而且可以在單臺 GPU 上運行。

然而,基準測試性能并不總是反映實際可用性。在過去幾天有限的使用中,我發(fā)現(xiàn) gpt-oss 相當強大。不過,正如其他人所觀察到的,它似乎確實有相對較高的幻覺傾向(這一點在其模型卡中也有提到)。

這可能源于它在訓練過程中過于注重數(shù)學、謎題和代碼等推理任務,這可能導致它「遺忘了一些常識」。不過,由于 gpt-oss 在設計時就考慮到了工具的使用,因此隨著時間的推移,這一限制可能會逐漸減弱。開源 LLM 中的工具集成仍處于早期階段,但隨著它的成熟,我預計我們會越來越多地讓模型在回答事實或基于知識的查詢時參考外部資源(例如搜索引擎)。

屆時,更明智的做法是優(yōu)先考慮推理能力而不是記憶能力。這很像人類在學校(或生活中)的學習,解決問題的能力往往比記憶事實更重要。

5、gpt-oss 和 GPT-5

OpenAI 度過了忙碌的一周,在 gpt-oss 發(fā)布后不久就發(fā)布了備受期待的 GPT-5 模型。GPT-5 的發(fā)布非常有趣。如果說有什么要說的,那就是我真的很驚訝,他們的開源模型在基準性能方面與他們最好的產(chǎn)品相比竟也如此出色(圖 24)。

圖 24:主要基準圖表來自 GPT-5 官方公告。gpt-oss 數(shù)據(jù)取自官方模型卡和公告,Qwen3 數(shù)據(jù)取自官方 Qwen3-Coder 代碼庫。

總而言之,盡管有些人認為該版本被過度炒作,但我很高興我們擁有了一套真正強大的開放權(quán)重模型,它們與最好的專有模型并無太大差距。

當然,基準測試通常不能準確反映實際使用情況,而且由于使用情況有限,現(xiàn)在下結(jié)論還為時過早。但我認為,對于喜歡使用開放權(quán)重和本地(或私有托管)模型的人來說,這是件好事。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-18 09:15:00

2025-08-07 14:05:40

OpenAI大模型開源

2023-08-17 08:00:00

2025-08-08 04:11:00

GPT-OSS大模型算法

2023-06-05 14:04:59

模型AI

2025-08-13 11:42:09

2025-08-15 08:17:41

2025-08-07 09:05:45

2024-12-20 14:37:47

2023-05-10 17:33:56

2023-12-16 09:45:56

論文GPT-4AI

2020-01-30 14:50:16

谷歌Android技術

2024-04-09 12:23:27

C語言AI

2023-11-06 09:26:00

模型測評

2023-07-07 09:32:57

GPT-4OpenAI

2023-12-15 12:52:17

AI模型

2023-05-10 14:54:23

AI

2023-11-26 17:50:00

AI模型

2025-08-12 09:12:00

2023-04-09 16:17:05

ChatGPT人工智能
點贊
收藏

51CTO技術棧公眾號

中文字幕一区二区精品区| 欧美熟妇另类久久久久久不卡| 伊人久久大香线蕉无限次| 欧美最新大片在线看| 黄色免费高清视频| 天堂中文在线资| 人妖欧美一区二区| 九色91av视频| 91中文字幕永久在线| 99国内精品久久久久| 欧美日韩人人澡狠狠躁视频| 一区二区三区欧美在线| 婷婷五月综合激情| 极品少妇xxxx偷拍精品少妇| 庆余年2免费日韩剧观看大牛| 婷婷激情四射网| 亚洲精品**不卡在线播he| 在线不卡的av| 国产日韩一区二区在线观看| 99自拍视频在线观看| 国产午夜亚洲精品不卡| 国产激情一区二区三区在线观看 | 欧美三级三级| 欧美精品一区男女天堂| 污视频网址在线观看| 伊人久久精品一区二区三区| 亚洲一区二区三区三| 一区不卡视频| 免费福利在线观看| 国产成人综合亚洲91猫咪| 国产伦精品一区二区三区精品视频| 日韩特黄一级片| 午夜精彩国产免费不卡不顿大片| 最近2019中文字幕一页二页| 亚洲午夜久久久久久久久红桃| 日韩免费高清视频网站| 在线成人免费视频| 伊人国产在线视频| 日韩一级二级| 欧美日韩亚洲视频一区| 国产素人在线观看| 黄色小说在线播放| 亚洲成人你懂的| 日本久久久网站| 大片免费在线观看| 亚洲四区在线观看| 国产卡一卡二在线| 麻豆影视国产在线观看| 亚洲欧洲综合另类| www.午夜色| 精品麻豆一区二区三区| 中文字幕一区不卡| 一区二区三区精品国产| 国内精品久久久久国产| 亚洲人成精品久久久久久| 99精品视频网站| 1区2区3区在线视频| 亚洲欧美日韩精品久久久久| 在线观看视频黄色| 操你啦视频在线| 亚洲精品国产高清久久伦理二区| av电影一区二区三区| 操你啦在线视频| 亚洲午夜电影网| 久久视频这里有精品| 瑟瑟视频在线看| 色久优优欧美色久优优| av网站在线不卡| 中文成人在线| 欧美成人精品3d动漫h| 国产日韩视频一区| 亚洲婷婷影院| 最新中文字幕亚洲| 久久久久99精品成人片试看| 夜夜嗨网站十八久久| 日韩av电影中文字幕| 一级全黄裸体免费视频| 国产精品99久久久久久久女警 | 亚洲午夜三级在线| 日韩av一二三四区| 免费污视频在线一区| 91精品福利在线一区二区三区 | 国产精品黄色在线观看| 中国黄色录像片| 波多野结衣在线播放| 色激情天天射综合网| 樱花草www在线| 嫩草国产精品入口| www.日韩不卡电影av| 欧美日韩一级大片| 久久激情视频| 亚洲永久免费观看| 日本一区二区三区在线观看视频| 国产精品久久久久久久久免费樱桃 | 精品国产无码AV| 久久综合色婷婷| 一区高清视频| 韩日毛片在线观看| 在线不卡的av| 97伦伦午夜电影理伦片| 一二三区不卡| 国产精品扒开腿做| 色窝窝无码一区二区三区| 国产精品青草综合久久久久99| 久久手机在线视频| 亚洲精品tv| 亚洲人成在线观看网站高清| 久久精品一级片| 日本不卡视频在线| 久久久久久草| 性欧美videoshd高清| 欧美在线观看视频一区二区| 亚洲麻豆一区二区三区| 国产高清一区| 日韩美女在线观看| 狠狠躁日日躁夜夜躁av| 成人免费视频在线观看| 青青青国产在线视频| 噜噜噜天天躁狠狠躁夜夜精品| 精品久久久91| 亚洲午夜在线播放| 国产喂奶挤奶一区二区三区 | 日韩经典一区二区| ...xxx性欧美| 国产视频一区二区三区四区| 午夜在线播放| 色噜噜夜夜夜综合网| 日韩av无码一区二区三区不卡| 91精品久久久久久久久久不卡| 国产成人精品久久二区二区91 | 日韩在线免费| 亚洲国产高清福利视频| 欧美日韩人妻精品一区二区三区 | 国产日韩欧美在线观看| 国产人成在线观看| 日韩欧美亚洲成人| 国产精品嫩草av| 亚洲理论在线| 成人xxxxx色| 欧美xxxx性xxxxx高清| 在线综合亚洲欧美在线视频| 自拍偷拍第9页| 奇米色777欧美一区二区| 日韩久久不卡| 悠悠资源网亚洲青| 亚洲美女在线视频| www.中文字幕在线观看| 99re这里都是精品| 精品中文字幕av| 亚洲精品亚洲人成在线| 奇门遁甲1982国语版免费观看高清 | 精品亚洲美女网站| 中文字幕欧美日韩| 中文字幕有码视频| |精品福利一区二区三区| 日本一本在线视频| 综合激情在线| 国产伦精品一区二区三区视频黑人| 女人天堂av在线播放| 亚洲激情自拍图| 天堂中文在线网| 久久精品亚洲乱码伦伦中文 | 88xx成人永久免费观看| 一区二区三区国产在线观看| 一道本无吗一区| 亚洲精品乱码久久久久久 | 伊人影院中文字幕| 亚洲欧洲av色图| 精人妻一区二区三区| 色丁香婷婷综合久久| 日本在线啊啊| 欧美巨大另类极品videosbest| 超碰人人人人人人人| 紧缚奴在线一区二区三区| 激情六月天婷婷| 婷婷综合一区| 国产精品自产拍在线观看中文| 久久久久久国产精品免费无遮挡 | 97国产在线视频| 国产xxxx视频| 亚洲一区二区三区免费在线观看 | 污视频网站在线播放| 日韩欧美高清在线视频| 激情高潮到大叫狂喷水| 国产精品1区二区.| 超碰影院在线观看| 亚洲综合婷婷| 欧美一级片免费观看| 99热这里有精品| 97精品视频在线| 色的视频在线免费看| 亚洲成人av在线播放| 中文字幕xxxx| 一区二区三区欧美在线观看| 欧洲av一区二区三区| 国产精品一二三| 国产精品欧美激情在线观看| 91精品精品| 日韩高清av电影| 91精品国产自产精品男人的天堂 | 久久久国产精品不卡| 波多野结衣在线免费观看| 久久久久久久尹人综合网亚洲| 公共露出暴露狂另类av| 免费看日本一区二区| 亚洲一区二区自拍| 色天使综合视频| 38少妇精品导航| 在线观看午夜av| 日韩中文娱乐网| 欧美孕妇孕交| 欧美精品一区二区三区蜜桃 | 国产做a爰片久久毛片| 国产福利视频在线播放| 狠狠88综合久久久久综合网| 亚洲欧美日韩不卡| 成人三级视频| 欧美lavv| 日韩欧美黄色| 国产精品日韩二区| 日韩一区网站| 51成人做爰www免费看网站| 色综合久久久| 国产免费一区二区三区在线观看| 日本三级一区| 欧美亚洲视频在线观看| 成人影院在线播放| 欧美国产第一页| 国产在线二区| 精品国内自产拍在线观看| av网站在线免费观看| 伊人久久精品视频| 成人av一区| 一级做a爰片久久毛片美女图片| 香蕉视频免费看| 亚洲国产精品va在线| 国产91绿帽单男绿奴| 精品久久久久久久久久久久久久久久久 | 国产伦视频一区二区三区| 国产精品视频一区二区三区| 亚洲free性xxxx护士hd| japansex久久高清精品| 成人综合网网址| 不卡精品视频| 97影院在线午夜| 亚洲视频三区| 狠狠色综合网站久久久久久久| 99精品国产一区二区三区2021| 99影视tv| 美女一区2区| 久久精品国产精品国产精品污| 五月激激激综合网色播| 欧美一区二区视频17c| 欧美日韩在线播放视频| 亚洲欧洲精品一区二区三区波多野1战4| 欧美午夜精品一区二区三区电影| 亚洲高清视频一区| 希岛爱理av一区二区三区| 法国空姐在线观看免费| 亚洲东热激情| 欧美私人情侣网站| 七七婷婷婷婷精品国产| 亚洲精品永久视频| 国产不卡一区视频| 黄色录像a级片| 国产欧美中文在线| 精品国产精品国产精品| 日韩一区电影| 亚洲成精国产精品女| 黄色一级片在线免费观看| 一区二区免费视频| 1级黄色大片儿| 欧美性一级生活| 国产情侣在线播放| 亚洲精品不卡在线| 草碰在线视频| 久久99久久99精品免观看粉嫩| 国产盗摄一区二区| 日韩av高清不卡| www.免费av| 麻豆精品一区| 成人a级免费视频| 成人av影音| 午夜精品短视频| 国内精品亚洲| 久久午夜夜伦鲁鲁一区二区| 狠狠色丁香久久婷婷综合_中| 东京热av一区| 国产精品毛片久久久久久| 国产亚洲第一页| 黄色成人av网| 日本午夜人人精品| 日韩在线观看视频网站| 亚洲老头老太hd| 欧美被日视频| 欧美一级电影久久| 国色天香久久精品国产一区| 激情视频一区二区| 国产精品久久久久久久久妇女| 久久久亚洲国产精品| 久久精品国产秦先生| 一级特级黄色片| 最新日韩在线视频| 男人天堂2024| 精品国产露脸精彩对白| av在线资源网| 7777免费精品视频| 精品一区二区三区亚洲| 日韩av不卡在线播放| 最新亚洲一区| 中文字幕55页| 国产农村妇女精品| 91国产丝袜播放在线| 日韩午夜三级在线| 午夜激情视频在线| 国产成人+综合亚洲+天堂| 国产图片一区| 黄色一级大片免费| 久国产精品韩国三级视频| 最近中文字幕在线mv视频在线| 亚洲成人av在线电影| hs视频在线观看| 精品久久国产精品| 欧美亚洲黄色| 性欧美大战久久久久久久免费观看| 日韩视频三区| 中文字幕在线视频播放| 亚洲一区二区三区四区在线| 91精品人妻一区二区三区果冻| 亚洲无av在线中文字幕| 欧美1级2级| 欧美日韩国产综合视频在线| 亚洲专区在线| 中文人妻一区二区三区| 午夜不卡av在线| 欧洲成人一区二区三区| 欧美国产精品va在线观看| av在线精品| 一二三在线视频| 国产精品69久久久久水密桃| 波多野结衣不卡视频| 日韩三级视频中文字幕| gogogogo高清视频在线| 亚洲在线视频观看| 亚洲无中文字幕| 波多野结衣中文字幕在线播放| 亚洲色图在线视频| 国产尤物在线观看| 久久九九免费视频| 国产视频一区二| 神马午夜伦理影院| 国产精品夜夜嗨| 成人精品在线视频| 久久影院一区二区三区| 日韩欧美一级在线| 国产成人在线视频网址| 欧美精品一区二区成人| 欧美videos中文字幕| av丝袜在线| 蜜桃传媒视频麻豆第一区免费观看| 销魂美女一区二区三区视频在线| 永久免费看mv网站入口78| 色狠狠色狠狠综合| 午夜在线视频播放| 91偷拍精品一区二区三区| 亚洲大片av| 日韩人妻无码一区二区三区| 91电影在线观看| 日本在线观看网站| 91久久精品www人人做人人爽 | 99这里都是精品| 国产又粗又爽视频| 亚洲欧美视频在线| 国产精品99精品一区二区三区∴| 欧美aaa在线观看| av色综合久久天堂av综合| 97人妻一区二区精品视频| 久久天堂av综合合色| 免费福利视频一区| 无需播放器的av| 亚洲一区自拍偷拍| 欧美精品a∨在线观看不卡| 国产精品自拍网| 在线精品在线| 欧美xxxx精品| 亚洲成人在线网| 激情小说亚洲| 翔田千里亚洲一二三区| 成人18视频日本| 伊人网视频在线| 97视频国产在线| 91精品精品| 成人免费网站黄| 制服丝袜在线91| 偷拍自拍在线看| 日本高清xxxx| 国产欧美日韩激情| 男人天堂手机在线观看| 日韩69视频在线观看| 欧美精品国产一区|