GPT-5 發布,Sam Altman:像和博士級別專家對話,編程/寫作/健康三大場景重點升級 原創
「GPT-3 感覺像是在和一位高中生對話,GPT-4 像是在和一位大學生交流,而 GPT-5 則是在和博士級別的專家對話」,在剛剛結束的發布會上,Sam Altman 在開場發言中對 GPT-5 給予了高度評價——GPT-5 是「全球在編程和寫作方面最強的模型」。
構建統一系統
GPT-5 作為一個統一系統,包含一個智能高效的模型用以回答大多數問題(GPT-5-main),一個用于解決更復雜問題的深入推理模型(GPT-5-thinking),以及一個實時 router,可根據對話類型、問題復雜度、所需工具以及用戶的明確意圖快速決定使用哪個模型。 router 會持續通過真實信號進行訓練,包括用戶在模型之間切換的行為、對回答的偏好比例以及回答的正確性評估,從而不斷優化。
根據其公開的官方文檔顯示,包括 gpt-5-thinking 、 gpt-5-thinking-mini 和 gpt-5-thinking-nano 在內的推理模型是通過強化學習進行訓練的,以提升其推理能力。這些模型在回答問題前會進行「思考」,并在響應用戶之前生成一整段內部思維鏈。通過訓練,這些模型學會了優化思考過程、嘗試不同策略并識別自身錯誤。
根據 OpenAI 的評測,在包括視覺推理、智能體編碼以及研究生級別的科學問題求解等能力上,GPT?5(開啟推理模式)相比 OpenAI o3 表現更優,且輸出的 token 數量減少了 50% 到 80% 。

同時,在評估代碼能力的 Aider polyglot 測試中,GPT?5 以 88% 的得分刷新紀錄,其錯誤率較 o3 降低了三分之二。

此外,GPT-5 還在多個領域刷新了當前 SOTA,例如,在 AIME 2025 測試中取得 94.6% 的得分,在真實世界編碼任務 SWE-bench Verified 上的得分為 74.9%,在 MMMU 得分為 84.2% 。在 GPT?5 pro 的增強推理能力支持下,該模型還在 GPQA(通用推理問答)任務中取得了 88.4% 的成績,同樣達到了當前的 SOTA 水平。

重點提升三大場景:寫作、編程和健康咨詢
據悉,OpenAI 此次在 ChatGPT 最常見的三大應用場景——寫作、編程和健康領域,進一步提升了 GPT-5 的性能。
OpenAI 提出,GPT?5 是其迄今為止最強大的編程模型,其在復雜前端生成和大型代碼庫調試方面實現了顯著提升——只需一個提示詞,就能生成美觀且響應迅速的網站、應用和游戲,展現出極高的審美敏感度。同時,GPT?5 在深度分析代碼庫方面表現出色,能夠精準解答關于代碼模塊運作機制及相互協作的問題。

除編程外,GPT?5 在各類 Agent 任務中的表現也十分突出,其在指令遵循(在 Scale MultiChallenge 上的得分達到 69.6%)和工具調用(在 τ(2) -bench telecom 上的得分達到 96.7%)的基準測試中均創下了新紀錄。
在 LongFact 和 FactScore 基準測試中,GPT?5 的事實錯誤率比 o3 低約 80% 。這使得 GPT?5 尤其適用于正確性要求高的 Agent 任務場景,特別是在代碼生成、數據處理和決策支持等關鍵領域。
在創意寫作方面,GPT-5 能夠創作出具有文學深度與節奏感、引人共鳴的文案,其在處理結構上存在歧義的寫作任務時更加可靠,比如保持無韻抑揚格的連貫性,能夠在尊重文體形式的同時實現清晰有力的表達,從而在起草潤色報告、郵件、備忘錄等場景下提供更真實的寫作。
值得一提的是,為調控 GPT?5 回答的默認長度,OpenAI 還新增了 Verbosity API 參數,該參數支持 low 、 medium 、 high 三檔可選值。如果顯式指令與冗余參數發生沖突,則顯式指令優先。例如,如果用戶讓 GPT?5「寫一篇包含五段文字的文章」,則該模型的回復始終應包含五段內容。
在健康相關的問題上,GPT-5 在 HealthBench 基準測試中的得分創歷史新高,達到 46.2%,其能夠主動識別潛在健康問題,并根據用戶的背景知識和地理位置提供精準建議。

最近,OpenAI 動作頻頻,前腳剛通過 gpt-oss 搶占了開源領域的新 SOTA 席位,如今又發布了萬眾期待的 GPT-5,多項產品齊發隨彰顯了其技術底蘊,但模型的性能、安全性等方面究竟表現如何,不妨「讓子彈飛一會」,靜候市場檢驗。
參考資料:
1.??https://www.theverge.com/openai/748017/gpt-5-chatgpt-openai-release??
2.??https://cdn.openai.com/pdf/8124a3ce-ab78-4f06-96eb-49ea29ffb52f/gpt5-system-card-aug7.pdf??

















