OpenAI終于開源了!gpt-oss-120B對飆o4-mini,20B可手機運行 原創
8月5日,AI圈被OpenAI這記“王炸”炸懵了。
自2019年GPT-2發布以來,OpenAI首次再次開源語言模型,而且一口氣放出了兩個版本:gpt-oss-120B 和 gpt-oss-20B。不同于之前那種“只準調API,不準看底細”的閉源策略,這一次是真·全權開放:你可以自由下載、部署、調優,甚至在手機上跑!
這不僅僅是一次模型發布,更像是宣告了一個全新時代的到來:開源模型可以和商業巨頭正面對剛了。
一、為什么這次發布值得特別關注?
眾所周知,OpenAI以技術強悍、閉源保守著稱。多年來,GPT-3、GPT-4都被牢牢鎖在API后面,外界只能“租用”而無法“擁有”。但這一次,OpenAI破天荒地發布了Apache 2.0許可的開源模型,意味著:
- 可商用 ??
- 可本地部署 ??
- 可二次訓練 ??
- 可完全控制推理過程 ??
換句話說,OpenAI把曾經的“云上神器”交到了你我手中。
二、來認識下這對新模型“兄弟”:120B 與 20B
?? gpt-oss-120B:桌面級“王炸”
這款體量達1170億參數的模型,采用Mixture-of-Experts(MoE)架構,每個Token只激活5.1B參數,極大優化了性能與資源消耗的平衡。
- 參數量:1170億(活躍參數5.1億/Token)
- 性能表現:可媲美甚至超越OpenAI o4-mini
- 推理支持:單張80GB顯卡即可運行,支持鏈式思維(CoT)、Agent功能、結構化輸出等
- 上下文長度:高達128K Tokens,一口氣讀完一本書毫無壓力
- 定制能力:支持“推理力度”調節(低、中、高),平衡性能與資源
?實測場景:代碼生成、技術寫作、研究自動化,樣樣精通。
?? gpt-oss-20B:移動端AI的性價比之王
別小看它“只有”210億參數,它是目前最強可本地部署的輕量級模型之一。
- 參數量:210億(活躍參數3.6億/Token)
- 性能表現:介于o3-mini與o4-mini之間
- 硬件需求:僅需16GB內存的筆記本就能跑,甚至支持移動端部署
- 定位:為低延遲、私有化、離線推理場景量身打造
??典型應用:智能助手、嵌入式設備、移動終端AI推理
三、技術細節亮點:性能猛、資源省、定制靈
兩款模型都使用了MoE專家網絡架構,即每次只激活部分子網絡,既保留了大模型的理解力,又大幅壓縮內存使用。
每個Token只激活少量專家子網,模型雖大,推理成本卻小。
- 120B:128個專家,每次僅用4個
- 20B:32個專家,每次也用4個
此外,它們還采用MXFP4量化技術,使模型更容易適配消費級設備。這項原生量化技術讓模型不僅跑得快,而且占用內存小。
部分關鍵結構如下:
模型 | 層數 | 總參數 | 激活參數/Token | 總專家數 | 每Token激活專家數 | 支持上下文 |
gpt-oss-120B | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20B | 24 | 21B | 3.6B | 32 | 4 | 128k |
無論是多輪復雜問題(Chain-of-Thought),還是API調用、代碼執行,兩個模型都表現得相當成熟。甚至支持“系統消息中一句話切換推理力度”,真正實現了按需“燒腦”。
四、對開發者與企業意味著什么?
?? 企業:AI主權時代來臨
你可以將模型部署在本地集群或專有硬件上,實現:
- 數據隱私保障
- 合規性管理
- 邊緣計算部署
金融、醫療、法律等領域終于有了可以落地的強力開源大模型。
??? 開發者:從調用到掌控的躍遷
不再受限于API調用次數、費用與封裝限制,你可以:
- 調整推理流程
- 注入自定義指令
- 精細化調參
- 本地無障礙迭代
而且模型已上傳至 Hugging Face 和 Ollama,部署快到起飛。
五、性能實測:真打得過商用模型?
從OpenAI官方發布的Benchmark成績看,gpt-oss系列在多個標準測試中全面碾壓開源對手、追平閉源模型:
- MMLU綜合學科測試:gpt-oss-120B 達到90%準確率,接近GPT-4o。
- 健康問答(HealthBench):gpt-oss-20B超過o4-mini,成為最強“醫療類”開源模型。
- 數學競賽(AIME 2025):兩個模型均超過98%準確率,超越多款商用閉源模型。
這些結果說明:它不僅“開源”,還“頂級”。
其他具體評測結果如下:
??任務名稱 | ??評估維度 | ??gpt-oss-120B | ??gpt-oss-20B | ??OpenAI o4-mini | ??OpenAI o3 | ??OpenAI o3-mini |
Codeforces 編程競賽 | Elo 排名(越高越好) | 2622 (含工具) | 2516(含工具) | 2706 | 2719 | 2073 |
Humanity's Last Exam 專家級通識問答 | 準確率(%) | 19(含工具) | 17.3(含工具) | 24.9 | 17.7 | 13.4 |
HealthBench 通用健康問答 | 得分(%) | 57.6 | 59.8 | 50.1 | 42.5 | 37.8 |
HealthBench Hard 復雜健康問答 | 得分(%) | 30.0 | 10.8 | 17.5 | 31.6 | 4.0 |
AIME 2024 數學競賽 | 準確率(%) | 96.6 | 96.0 | 98.7 | 95.2 | 87.3 |
AIME 2025 數學競賽 | 準確率(%) | 97.9 | 98.7 | 99.5 | 98.4 | 86.5 |
GPQA Diamond 博士級科學問答(無工具) | 準確率(%) | 80.1 | 71.5 | 83.3 | 81.4 | 77.0 |
MMLU 多學科通識 | 準確率(%) | 90.0 | 85.3 | 93.4 | 93.0 | 87.0 |
Tau-Bench Retail 函數調用任務 | 準確率(%) | 67.8 | 54.8 | 70.4 | 65.6 | – |



六、安全機制與紅隊挑戰:開源也得嚴陣以待
OpenAI非常謹慎地處理安全問題:
- 訓練階段剔除了敏感數據(如生物化學、網絡攻擊等)
- 提供三種“推理力度”以防不必要的高風險輸出
- 經過外部專家審查與對抗性微調測試,確保模型在被惡意修改后仍難以達到高能力水平
而且,OpenAI還發起了一項全球紅隊挑戰賽,設立50萬美元獎金鼓勵開發者發現潛在風險,可謂誠意滿滿。
七、意義何在?誰將受益?
“這不是普通的模型發布,而是OpenAI向全球開發者發出的一封邀請函。”
從小型初創到跨國企業,從AI研究員到開發愛好者,每一個渴望掌控AI命運的人,都將從gpt-oss系列中受益:
- 有能力的人可精調模型,訓練專屬版本
- 沒有GPU的人也能運行20B版本,快速落地
- 想用AI做產品的團隊終于可以低成本、快節奏驗證方案
這將重新定義“開源大模型”的底線與天花板。
尾聲:這一次,OpenAI真的“開”了
曾經我們只能在遠端的API中感受GPT的威力,而現在,OpenAI把這個能力交到了我們手里。 gpt-oss系列并不完美,但它們無疑是一把鑰匙,一把能夠打開AI“自主時代”的鑰匙。
本文轉載自???Halo咯咯??? 作者:基咯咯

















