編輯 | 云昭
猜測著,猜測著,GPT-5總算發布了!
帶著全球各種猜測、假說,OpenAI 掌舵人奧特曼、帶著Mark Chen等一眾新舊面孔準時現身直播間,揭曉了姍姍來遲的GPT-5。
奧特曼先秀了OpenAI推出ChatGPT之后的32個月取得的成績,發布一周,用戶突破一百萬,而現在平均一周ChatGPT的活躍用戶已經達到了7億人。
隨后直截了當開始帶貨GPT-5!

奧特曼稱“這是企業和開發人員特別重要的時刻”,并視GPT-5是GPT-4以來的重大升級,也是我們邁向AGI的重要一步。
用奧特曼對GPT5的評價,四個詞:有用、快速、智能、直觀。
奧特曼還做了一個從GPT3到GPT5的比喻:
- GPT-3有點像和一個高中生交談,有一些閃光點,但煩惱也很多
- 從GPT-4開始,人們開始從中獲得一些價值,也許這就像和一個大學生交談,真正的智慧,真正的效用。
- 但是現在有了GPT-5,就像與專家交談一樣,一個合法的博士水平的專家,任何你需要的領域,都可以幫助你實現任何你的目標。它可以從頭開始編寫整個計算機程序,以幫助您處理任何你想要的內容。
“我們認為,軟件隨需應變的理念將成為GPT 5時代的決定性特征之一?!?/span>
“它可以幫助您計劃聚會,發送邀請,訂購物資。它可以幫助了解你的醫療保健,并在你的旅程中做出決定。它可以為你提供信息,以了解你想要的任何主題以及更多信息。”
您可以訪問整個博士級別的專家團隊,幫助您做任何您想做的事情,很快任何人都將能夠比歷史上任何人做更多的事情。
圖片
那么相較GPT-4,GPT-5究竟厲害在哪里?在OpenAI官網博文中寫道,GPT?5 是一個統一的系統,包含:
- 一個高效、響應迅速的基礎模型,適用于大多數問題;
- 一個更深層次的推理模型(GPT?5 Thinking),用于處理復雜問題;
- 一個實時路由器,根據對話類型、復雜度、工具使用需求和用戶意圖(如提示中包含“認真思考”)等因素,動態決定調用哪個模型。
這個系統的路由器會持續從真實用戶行為中學習,例如用戶在模型之間的切換、對響應的偏好評分和準確性數據等。達到使用上限后,系統會使用 mini 版模型處理剩余請求。未來,我們計劃將所有能力整合到一個單一模型中。
接下來是熟悉研究官Mark Chen帶著各位大牛出來詳細介紹GPT的幾大能力更新。
Mark首先放出了一個推理上面的大招:過去,大模型在提供更智能的響應之前會停下來思考。現在,推理是我們AGI計劃的核心,它是我們用于運輸ChatGPT代理和深度研究等技術的基礎。
“當問題在于,到目前為止,我們的用戶不得不在標準GPTs的快速響應和我的推理模型中緩慢、更深思熟慮的響應之間做出選擇。但是GPT-5,它消除了這個選擇。它旨在用最恰當的思考量來給你完美的答案?,F在,像這樣的事情需要很多艱苦的工作。大量的研究使GPT-5成為了OpenAI迄今為止推出的最強大/最快、最可靠、最穩健的推理模型?!?/span>
比如下面這兩個測試場景:對比o3,GPT-5僅需要更少的token就能實現同等的準確率。
這也就意味著,統一精確率的要求下,token賬單又可以省下一筆。
圖片
圖片
而且,Mark 隨之放出第二個大招:任何人都可以免費使用GPT-5。
首先登場的OpenAI主力“講解員”,是后訓練團隊的主管Max和工程團隊主管Renee。這兩位負責講解新模型的基準測試和模型堆棧方式。
在展示中,不管是,真實軟件工程任務SWE-Bench Verified、多語言編程的Aider Polyglot,還是主打邏輯數學難題的基準MMMU和AIME 2025,都取得了新的高度。尤其是SWE-Bench Verified,通過Thinking模式,達到了74.9的成績。
具體數據如下:
- 數學:AIME 2025 達到 94.6%;
- 編程:SWE-bench Verified 達到 74.9%、Aider Polyglot 達到 88%;
- 多模態理解(圖像、視頻、圖表):MMMU 達到 84.2%;
- 醫療問答:HealthBench Hard 提升至 46.2%;
- 推理能力(GPQA 復雜科學問答):GPT?5 pro 提升至 88.4%。
此外,GPT?5 比 OpenAI o3 更節省推理時間,且在多語言代碼、圖表解讀、科學論文圖注、空間推理等多個任務上表現優越。
圖片
圖片
此外,在幻覺、響應錯誤率方面的基準任務上,GPT-5也罕見地創造史上新低。
圖片
GPT5的發布策略
Renee則介紹了具體的發布策略。
有兩個版本:GPT-5和GPT-5 Pro(最強變體版本,適合最復雜、最具挑戰性的任務:)。
GPT5的發布策略:
- 即日起向所有 Plus、Pro、Team 和 Free 用戶開放;
- 一周后向 Enterprise 和 Edu 開放;
- Free 用戶使用量有限,超出后會切換為 GPT?5 mini;
- Plus 用戶可作為默認主力使用;
- Pro 用戶擁有無限使用及 GPT?5 Pro 權限;
- Team 和企業客戶有充足配額和速率限制,適合組織級使用。
GPT?5 Pro 版本的發布策略:
- 在超過千項真實、經濟價值高的推理任務中,專家 67.8% 的情況下更偏愛 GPT?5 Pro;
- 主要錯誤率降低 22%;
- 在健康、科學、數學、編程等方面表現尤為出色。
如何使用 GPT?5
GPT?5 現在已成為 ChatGPT 的默認模型,取代 GPT?4o、OpenAI o3、o4-mini、GPT?4.1 和 GPT?4.5。
你可以:
- 直接輸入問題,系統自動判斷是否啟用推理;
- 使用“think hard about this”等提示強制調用推理模式;
- 在 Pro/Plus 用戶界面選擇 GPT?5 Thinking 或 GPT?5 Pro。
多說一嘴,現在的版本,諸如使用Python畫布進行搜索文件和圖像上傳數據分析,圖像生成,內存,自定義指令等等操作,它們都可以在GPT-5上運行。
究竟GPT-5實際用起來如何?
今天凌晨,OpenAI官網同步也放出GPT-5的一些實際用例。讓小編最為驚艷的則是GPT-5生成代碼的速度和界面的美觀度的確上升了不少。

直播現場,則是有很多網頁小游戲的編程實例,比如貪吃蛇、網站設計等等。這里不再贅述了,畫面、色彩、流暢度、完成度確實不錯。
圖片
圖片
圖片
據介紹,GPT?5 是迄今為止我們最強的編程模型,特別擅長:
- 復雜前端開發;
- 調試大型代碼庫;
- 快速生成美觀、響應靈敏的網頁、App 和小游戲。
而更有早期的測試者指出,GPT?5 在設計上更有審美感知,能自動處理排版、留白等細節
在直播中,舉了一個“一句話讓GPT-5創建一個移動的svg,并在畫布中展示”的例子,2分鐘的時間就做好了。
圖片
圖片
圖片
另外一位OpenAI人員,則更加“調皮”:讓GPT-5為此前的GPT-4o等一些列模型寫一篇悼詞,要求真誠、溫暖、充滿希望。
圖片
圖片
雖然看起來不如SVG酷炫,但直播間的笑聲一直沒斷。
據這位講解人員介紹,GPT-5 是OpenAI迄今為止最強大的寫作協作工具,能夠幫助用戶將粗略的想法轉化為引人入勝、富有文學深度和韻律的文字作品。它能夠更可靠地處理結構模糊的寫作,例如持續不押韻的抑揚格五音步或流暢自然的自由詩,將對形式的尊重與清晰的表達相結合。
總之,不管是編程還是文筆創作,GPT-5的審美都雙線飛升了。
第三個,需要大家注意的點是,GPT-5的語音對話能力更加流暢了,GPT-5的語速提升2倍的同時,流暢度沒有受到任何影響,而且一致性也很好。
圖片
大家可以體驗一下。直播過程中GPT-5的韓語可以說快到完全收不住了。(中間的小哥直喊:康桑阿米達)

圖片
更可靠、更安全、更有邊界感
最后,是安全方面。GPT?5 在多項安全策略上邁出實質性一步:
- 減少幻覺:比 GPT?4o 降低約 45%,比 o3 降低約 80%;
- 減少欺騙:如任務無法完成會明確表達限制,不再“假裝完成”;
- 更高的誠實性:更忠實地傳達自己能與不能完成的任務;
- 雙用途問題處理更靈活:安全培訓從“直接拒絕”升級為“安全補全”,在保證安全的前提下,盡量給予部分有用信息;
- 減少迎合/拍馬屁:GPT?5 在專門測試中將諂媚率從 14.5% 降至 <6%。
個性化互動 & 可調節風格
GPT?5 在可定制性方面也做了重大升級:
- 更好地遵循自定義指令;
- 提供四種預設互動風格(目前為文本,未來支持語音):
a.Cynic(冷幽默)
b.Robot(嚴謹專業)
c.Listener(共情傾聽)
d.Nerd(技術宅)
這些風格都通過了內部對“避免過度迎合”的評測標準。
微軟納德拉:微軟愛了
就在直播剛結束,微軟CEO納德拉就發推表示祝賀:GPT-5在微軟幾個平臺上已經上線,這是迄今為止OpenAI最能干的模型,推理、編程、對話方面都取得了強有力的進展。
納德拉非常看好大模型未來的發展,進步的節奏只會越來越快,我等不及去見證開發者、企業和消費者如何用最新的突破去創新。
圖片
有關API方面
下半場,則是布雷特的主場。主要講開發者相關的用例。

這里挑重點,為大家介紹下內容,大家最關心的肯定是API的價格。小編為大家也整理好了:
- GPT-5: $1.25/百萬輸入, $10/百萬輸出
- GPT-5 Mini: $0.25/百萬輸入t, $2.00/百萬輸出
- GPT-5 Nano: $0.05/百萬輸入,$0.40/百萬輸出
圖片
圖片
具體的性能,提醒大家關注下上圖的 MRCR 指標,根據自己任務的場景選擇合適的即可。
寫在最后:GPT-6 何時發布
好了,篇幅關系,就不再展開了。OpenAI官網上會放出技術報告來。大家記得研讀一下。
其實這次的直播,放出來的信息量很大,還有很多,比如長文本、智能體方面還有很多細節。
但整體上看,多少都是在雕花吧,驚艷的地方跟多的是編程性能以及交互的界面的質感提升,其他方面印象深刻的不是很多。
只能說:更漂亮、更快、更聰明吧!
所以小編的心情,此刻也跟無數網友一樣:wen GPT-6?
甚至讓GPT-5 作詩一首:
《問天機》
何時六發?
眾口喧嘩。
春雷未動,
秋水無涯。






































