GPT-5 發布，Sam Altman：像和博士級別專家對話，編程/寫作/健康三大場景重點升級原創

發布于 2025-8-11 10:05

瀏覽

0收藏

「GPT-3 感覺像是在和一位高中生對話，GPT-4 像是在和一位大學生交流，而 GPT-5 則是在和博士級別的專家對話」，在剛剛結束的發布會上，Sam Altman 在開場發言中對 GPT-5 給予了高度評價——GPT-5 是「全球在編程和寫作方面最強的模型」。

構建統一系統

GPT-5 作為一個統一系統，包含一個智能高效的模型用以回答大多數問題（GPT-5-main），一個用于解決更復雜問題的深入推理模型（GPT-5-thinking），以及一個實時 router，可根據對話類型、問題復雜度、所需工具以及用戶的明確意圖快速決定使用哪個模型。 router 會持續通過真實信號進行訓練，包括用戶在模型之間切換的行為、對回答的偏好比例以及回答的正確性評估，從而不斷優化。

根據其公開的官方文檔顯示，包括 gpt-5-thinking 、 gpt-5-thinking-mini 和 gpt-5-thinking-nano 在內的推理模型是通過強化學習進行訓練的，以提升其推理能力。這些模型在回答問題前會進行「思考」，并在響應用戶之前生成一整段內部思維鏈。通過訓練，這些模型學會了優化思考過程、嘗試不同策略并識別自身錯誤。

根據 OpenAI 的評測，在包括視覺推理、智能體編碼以及研究生級別的科學問題求解等能力上，GPT?5（開啟推理模式）相比 OpenAI o3 表現更優，且輸出的 token 數量減少了 50% 到 80% 。

GPT-5 發布，Sam Altman：像和博士級別專家對話，編程/寫作/健康三大場景重點升級-AI.x社區

同時，在評估代碼能力的 Aider polyglot 測試中，GPT?5 以 88% 的得分刷新紀錄，其錯誤率較 o3 降低了三分之二。

GPT-5 發布，Sam Altman：像和博士級別專家對話，編程/寫作/健康三大場景重點升級-AI.x社區

此外，GPT-5 還在多個領域刷新了當前 SOTA，例如，在 AIME 2025 測試中取得 94.6% 的得分，在真實世界編碼任務 SWE-bench Verified 上的得分為 74.9%，在 MMMU 得分為 84.2% 。在 GPT?5 pro 的增強推理能力支持下，該模型還在 GPQA（通用推理問答）任務中取得了 88.4% 的成績，同樣達到了當前的 SOTA 水平。

GPT-5 發布，Sam Altman：像和博士級別專家對話，編程/寫作/健康三大場景重點升級-AI.x社區

重點提升三大場景：寫作、編程和健康咨詢

據悉，OpenAI 此次在 ChatGPT 最常見的三大應用場景——寫作、編程和健康領域，進一步提升了 GPT-5 的性能。

OpenAI 提出，GPT?5 是其迄今為止最強大的編程模型，其在復雜前端生成和大型代碼庫調試方面實現了顯著提升——只需一個提示詞，就能生成美觀且響應迅速的網站、應用和游戲，展現出極高的審美敏感度。同時，GPT?5 在深度分析代碼庫方面表現出色，能夠精準解答關于代碼模塊運作機制及相互協作的問題。

GPT-5 發布，Sam Altman：像和博士級別專家對話，編程/寫作/健康三大場景重點升級-AI.x社區

除編程外，GPT?5 在各類 Agent 任務中的表現也十分突出，其在指令遵循（在 Scale MultiChallenge 上的得分達到 69.6%）和工具調用（在 τ(2) -bench telecom 上的得分達到 96.7%）的基準測試中均創下了新紀錄。

在 LongFact 和 FactScore 基準測試中，GPT?5 的事實錯誤率比 o3 低約 80% 。這使得 GPT?5 尤其適用于正確性要求高的 Agent 任務場景，特別是在代碼生成、數據處理和決策支持等關鍵領域。

在創意寫作方面，GPT-5 能夠創作出具有文學深度與節奏感、引人共鳴的文案，其在處理結構上存在歧義的寫作任務時更加可靠，比如保持無韻抑揚格的連貫性，能夠在尊重文體形式的同時實現清晰有力的表達，從而在起草潤色報告、郵件、備忘錄等場景下提供更真實的寫作。

值得一提的是，為調控 GPT?5 回答的默認長度，OpenAI 還新增了 Verbosity API 參數，該參數支持 low 、 medium 、 high 三檔可選值。如果顯式指令與冗余參數發生沖突，則顯式指令優先。例如，如果用戶讓 GPT?5「寫一篇包含五段文字的文章」，則該模型的回復始終應包含五段內容。

在健康相關的問題上，GPT-5 在 HealthBench 基準測試中的得分創歷史新高，達到 46.2%，其能夠主動識別潛在健康問題，并根據用戶的背景知識和地理位置提供精準建議。

GPT-5 發布，Sam Altman：像和博士級別專家對話，編程/寫作/健康三大場景重點升級-AI.x社區