從GPT-5看AI:OpenAI再領潮流
OpenAI 正式發(fā)布 GPT-5 了。

公司稱這是一個統一的系統,能自己決定回答問題前需要思考多久。Sam Altman 說,GPT-5 就像是你可以“向一個真正的專家、博士級別的專家提問任何問題”,然后得到靠譜的回答。
新模型正逐步向全部 7 億 ChatGPT 用戶開放——是的,哪怕你沒花錢買訂閱也能用。
看完一小時的發(fā)布會后,問題很簡單:GPT-5 真有比之前模型大進步,還是被炒過頭了?
在這篇文章里,我會詳細聊聊 GPT-5 是什么、新功能有哪些、性能數據如何,以及今天起你怎么能用上它。
GPT-5 是什么?
GPT-5 是 OpenAI 取代 GPT-4o 的最新模型。
它被描述為一個統一系統,意思是用戶不用手動在“快速”模型和“思考”模型間選來選去。
其實你會發(fā)現,在 ChatGPT 里,他們把其他模型都去掉了,只留了 ChatGPT 5。
GPT-5 在 ChatGPT 中:

GPT-5 用的是 OpenAI 說的 real-time router,會決定是快速回答還是對難題啟動“GPT-5 thinking”模式。如果你在輸入里寫“認真想想”,模型會明確啟動更長的推理過程。
一旦你用過了限額,一個更小的“mini”版本會接手處理剩下的問題。OpenAI 說,這種路由決定基于實時信號,比如用戶換模型?
System: 模型、評分反饋和答案修正情況。路由器會不斷學習,越來越聰明。
這個模型還被宣傳為更適合 ChatGPT 的常見任務:
? 寫作輔助和編輯。
? 編程,尤其是復雜的前端工作和大項目調試。
? 健康相關查詢,準確性和語境理解比之前模型更強。
理論上,這個模型能應對大多數常見任務,比如快速回答、復雜研究、創(chuàng)意寫作、編程項目,甚至醫(yī)療信息(當然有常規(guī)免責聲明)。
GPT-5 的新功能
GPT-5 比之前模型有幾大核心升級。有些是底層技術改進,有些是用戶能直接感受到的變化。
更智能的路由和推理:模型現在能自己決定啥時候多想想。這種“test-time compute”方法讓它能在難題上花更多算力。思考模式可以自動或手動啟動。這是普通用戶第一次能用上這種能力——之前這種長推理功能只在研究或企業(yè)實驗中出現過。
更擅長現實任務:據 OpenAI 說,GPT-5 更不容易出現 hallucination,語境理解更強,尤其是在編程、數學、健康和 multimodal reasoning 領域。他們稱普通模式的 hallucination 率比 GPT-4o 低了約 45%,思考模式下比 OpenAI o3 低了約 80%。
更強的編程能力:這個功能被大力宣傳。GPT-5 據說能從單一提示生成更美觀、更實用的網站、應用和游戲,還能更好地調試大代碼庫。公司甚至展示了一個一次性生成完整功能游戲“Jumping Ball Runner”的演示。
改進的寫作:OpenAI 說 GPT-5 的寫作更“resonant”、結構更清晰,處理復雜文學形式的能力更強。這聽起來可能有點小眾,但對用 ChatGPT 做內容創(chuàng)作的人來說,這意味著初稿質量更高,機械化措辭更少。
健康和專家領域:GPT-5 在 HealthBench 上的得分顯著提高,能提供更準確、語境更強的健康回答。OpenAI 還是強調這不能代替醫(yī)生,但模型現在會主動問澄清問題,標記潛在問題。
個性化風格:你現在可以設置 ChatGPT 以四種預設“個性”回應:Cynic、Robot、Listener 和 Nerd。這樣互動更自然,不用老是重寫自定義指令。
更安全的回答:對于有風險的問題,GPT-5 不再直接拒絕,而是盡量給部分或高層次的回答。OpenAI 稱之為“safe completions”,讓模型在灰色地帶的回答更細膩,減少用戶挫敗感。
GPT-5 性能與基準測試
OpenAI 在發(fā)布會上提供了不少基準測試數據來支持他們的說法。以下是一些關鍵數字。
在 SWE-bench Verified(現實世界編程測試)中,GPT-5 的思考模式下 pass@1 達到 74.9%,相比 OpenAI o3 的 69.1% 和 GPT-4o 的 30.8%。
GPT-5 SWE 基準測試。

圖片來源:OpenAI
如果你是前端工程師,你會喜歡 GPT-5 更注重美學、更有野心、更準確。
看看這個用以下提示生成的樣本用戶界面:
提示:創(chuàng)建一個單頁應用,寫在一個 HTML 文件里,要求如下:
? 名稱:Audio Step Sequencer
? 技術棧:WebAudio API
? 目標:16 步鼓點網格
? 功能:節(jié)奏、swing、模式保存/加載、導出 WAV(簡單緩沖渲染)
? UI 要未來感,玩起來要好玩!
GPT-5 樣本 UI 結果。

圖片來源:Jim Clyde Monge
想了解更多 GPT-5 的編程能力,可以看看 OpenAI 的博客文章。我已經迫不及待想用這個模型寫 web 應用了。
說到 web 開發(fā),Cursor 的聯合創(chuàng)始人兼 CEO Michael Truell 說,這是他們用過的最聰明的編程模型。
“GPT-5 是我們用過的最聰明的編程模型。我們團隊發(fā)現 GPT-5 非常智能,易于引導,甚至有種其他模型沒有的個性。它不僅能發(fā)現深藏的 bug,還能運行長時間、多輪的后臺代理,完成復雜的任務——這種問題以前的模型都會卡住。從規(guī)劃 PR 到完成端到端構建,它都成了我們的日常主力。” —— Michael Truell
是的,GPT-5 現已在 Cursor 上可用。你只需要更新 IDE,然后在模型下拉列表中選 GPT-5。
GPT-5 在 Cursor 上。

圖片來源:Jim Clyde Monge
我還沒來得及深入體驗這個新模型,但我會在另一篇文章里分享我的想法和感受。
在數學方面,GPT-5 Pro 在 AIME 2025 競賽基準測試中創(chuàng)下 94.6% 的新紀錄,沒用任何工具。這比 OpenAI 之前任何模型都高,展現了其長推理模式的效果。
GPT-5 AIME 2025 基準測試。

圖片來源:OpenAI
在其他數學重度測試如 Harvard-MIT Mathematics Tournament (HMMT) 中,它的準確率保持在 90% 以上,對于競賽級問題來說很強。
在健康領域,GPT-5 的思考模式在 HealthBench Hard 上得分 46.2%,相比 OpenAI o3 的 25.5%。
GPT-5 HealthBench。

圖片來源:OpenAI
這些是高風險的健康對話,事實準確性至關重要。模型在這里的 hallucination 率更低,意味著回答更可靠,但并非完全無誤。
在 multimodal reasoning(涉及圖像、圖表和空間信息的推理)方面,GPT-5 表現也很出色。
GPT-5 MMMU 基準測試。

圖片來源:OpenAI
在研究生級視覺問題解決的 MMMU Pro 基準測試中,思考模式下達到 84.6%,比 GPT-4o 的 83.3% 略有提升。在 VideoMMMU 和 CharXiv-Reasoning 等相關測試中也有更高得分,表明它在文本和視覺輸入結合時的表現更強。
想了解更多 GPT-5 與其他模型的評估結果,可以看看 OpenAI 的官方博客文章。
我的個人觀察
在結束這部分之前,我想提一下發(fā)布會上的一些尷尬說法和柱狀圖的不一致。
比如,表示 69.1% 的柱子跟 30.8% 的柱子一樣高,但它應該高一倍多。而 52.8% 的柱子看起來比 69.1% 的還高。
GPT-5 學術基準測試。

這看起來太離譜了,不知道是我眼花還是他們真搞錯了。
還有,在 Deception Evals 的柱狀圖上,50.0 的柱子比 47.4 的短很多。

GPT-5 Deception 評估。
他們沒說這些圖表是不是用 ChatGPT 做的,但在推廣一個強調準確性的工具時,展示有問題的視覺效果可不太好看。
我還注意到這個圖表。
GPT-5 GPQA Diamond 基準測試。

圖片來源:OpenAI
如果你說“巨大飛躍”或“全面更聰明”,但新模型的性能只是略超前代,那可不算啥。
Sam Altman 本人在 X 上展示了 GPT-5 的新 UI/UX 生成能力:
當你用上 GPT-5,試試像“用 beatbot 做一個慶祝 GPT-5 的酷炫節(jié)拍”這樣的指令。這是一個很棒的預覽,展示了 AI 開始生成自己的 UX 和更動態(tài)的界面。你可以直接與合成器互動,或讓 ChatGPT 做調整,太酷了!

但用戶試了這個指令,根本不行,哈哈。
GPT-5 在 ChatGPT 中的失敗演示。

就我而言,它只是把我引導到 App Store 的一個應用列表,挺諷刺的,因為他們還在吹噓大幅改進的指令遵循和前端生成能力。
最后,我注意到 GPT-5 在 Humanity’s Last Exam 評估中得分低于 Grok 4 Heavy。如下圖所示,Grok 4 Heavy 得 44.4%,而 GPT-5 只有 42%。
GPT-5 Humanity’s Last Exam。


Grok 4 在 ARC-AGI-2 性能評估中也比 GPT-5 得分高。
GPT-5 vs Grok 4 ARC AGI。

圖片來源:X
這種小細節(jié)會影響發(fā)布會的可信度。這些細節(jié)看似小,但大家都會注意到。
GPT-5 可用性和訪問
OpenAI 今天開始向 Free、Plus、Pro 和 Team 用戶推出 GPT-5。
?Free 用戶:能用 GPT-5,但限額較低,之后會切換到 GPT-5 mini。全面推出可能需要幾天。
?Plus 用戶(每月 20 美元):限額更高,默認用 GPT-5。
?Pro 用戶(每月 200 美元):無限制使用 GPT-5,并可訪問 GPT-5 Pro 以獲得更長的推理。
?Team/Enterprise/Edu:一周內推出,組織范圍內的使用限額很寬松。

它已經在各大平臺上出現了。我的新聞推送里滿是 Cursor、Lovable 和 Microsoft Copilot 等工具在發(fā)布幾小時后切換到 GPT-5 的消息。
對于開發(fā)者,GPT-5 的 API 現已可用。有三種變體:GPT-5、GPT-5 mini 和 GPT-5 nano,分別針對不同的成本和延遲需求。
GPT-5 模型。圖片來源:OpenAI 官網
API 用法很簡單,舉個例子:
import OpenAI from "openai";
const client = new OpenAI();
const response = await client.responses.create({
model: "gpt-5",
input: "Write a short bedtime story about a unicorn.",
});
console.log(response.output_text);這些模型現已在 OpenAI playground 上可用,你可以測試所有模型。
GPT-5 在 OpenAI Playground 上。

價格方面,標準層 GPT-5 模型的費率是每百萬輸入 token 1.25 美元,每百萬輸出 token 10 美元。如果使用緩存輸入,價格大幅降至每百萬 token 0.125 美元。
較小的版本便宜得多:
? GPT-5 Mini:每百萬輸入 token 0.25 美元,輸出 token 2 美元(緩存輸入 0.025 美元)。
? GPT-5 Nano:最便宜,每百萬輸入 token 0.05 美元,輸出 token 0.40 美元(緩存輸入 0.005 美元)。
還有一個 gpt-5-chat-latest,價格與主 GPT-5 模型相同,專為想要最新調優(yōu)版本的對話用例的開發(fā)者設計。
GPT-5 文本 token。

其他模態(tài)的價格可以在這頁查看。
總結
看完功能、基準測試和早期反饋后,我不得不說,過去幾個月的炒作把期待值拉得太高了。
還有,那些柱狀圖上的小細節(jié)錯誤讓我有點煩。
這些小細節(jié)會削弱發(fā)布會的可信度。當你推出一個號稱更準確、更可信的模型時,柱狀圖高度不匹配和基準測試視覺效果的不一致顯得有點馬虎。
總的來說,GPT-5 是個不錯的增量升級,但整體……有點讓人失望。
總之,接下來的幾天我會用 GPT-5 跑一些真實的寫作和編程場景,看看它在基準測試幻燈片之外的實際表現。現在,如果你有 Plus 或 Pro 訂閱,不妨試試看。
本文轉載自??PyTorch研習社??,作者:AI研究生

















