開源大模型如何選擇?GPT-OSS綜合評估與一些結論 原創
記錄下一些結論:
通過對OpenAI的GPT-OSS模型(20B和120B參數,混合專家架構)與6個主流開源大語言模型(涵蓋14.7B-235B參數,含密集型和稀疏型架構)的跨領域評估,得出以下結論:
- GPT-OSS模型的Inverse Scaling現象:參數更少的GPT-OSS 20B在多個基準測試中持續優于更大的GPT-OSS 120B,違背了傳統的模型縮放定律(參數越多性能越好)。
- GPT-OSS模型在當前開源大語言模型中處于中等水平,整體性能落后于最新架構
- 代碼生成表現相對突出,20B和120B的準確率(73%、71%)接近部分更優模型,且輸出更簡潔(平均token數更少),效率更高。多語言能力(如C-Eval中文任務)表現極差,遠低于Qwen 3 235B(89%)等針對性優化模型;專業領域(醫學、法律)也較弱。 通過“思維鏈提示”可提升15%性能,但在數值精度(如單位轉換)上仍易出錯。
- GPT-OSS模型輸出更簡潔(2000-3000字符),在長度適宜性、可讀性和清晰度上表現更優,避免了其他模型(如Qwen 3 235B)因暴露內部推理導致的冗長(超13萬字符)問題,更符合實際應用需求。
- 對模型設計的啟發:混合專家(MoE)架構的縮放并非必然帶來性能提升,需優化路由機制和訓練策略;參數規模并非唯一決定因素,架構設計、訓練數據和任務適配對性能影響更大;開源模型需在“能力-效率”間平衡,小參數模型(如20B)在成本敏感場景中更具競爭力。
評估
八個評估模型的多維度性能比較。 GPT-OSS 模型(高亮顯示)表現出中等級別的性能,在代碼生成方面具有顯著優勢,但在多語言任務中存在不足。

1、參與評估的開源大模型

2、 所有評估基準的綜合性能總結

每列中最佳(金色)、第二(銀色)和第三(銅色)均以高亮顯示
3、使用通用提示詞在各基準類別中的性能排名

誤差條表示基于 Efron 和 Tibshirani [69] 的 Bootstrap 方 法計算的 95% 置信區間。Llama-4-Scout 得分較低,原因是觸發的安全特性阻止了模型對通用提示詞作出響應。
4、數學推理表現

5、性能分布-評估類別

6、邏輯推理任務

7、所有模型在聚合數據集上的 Token 計數分布
分析揭示了不同的響應長度模式,與推理優化架構相比,GPT-OSS 模型展現出顯著簡潔的輸出

參考文獻:Is GPT-OSS Good? A Comprehensive Evaluation of OpenAI’s Latest Open Source Modelshttps://arxiv.org/pdf/2508.12461v1
本文轉載自?????大模型自然語言處理????? 作者:llmnlp
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















