GPT?5深夜發(fā)布:模型之戰(zhàn)結(jié)束,Agent之戰(zhàn)開始!
嘿,大家好!這里是一個(gè)專注于前沿AI和智能體的頻道~
昨晚,Sam炒作了一個(gè)月的GPT-5正式發(fā)布了!
單純卷參數(shù)和跑分的時(shí)代過去了,真正開箱即用的原生Agent時(shí)代,開始到來了。
體驗(yàn)了一上午,先一句話概括一下:
GPT?5 把思考內(nèi)置為默認(rèn)能力,確實(shí)是顯著壓低了幻覺,指令遵循與長上下文推理全面拔高;但在“首字延遲/吞吐”和“大上下文”上,Google 依舊強(qiáng)勢。Anthropic 則穩(wěn)在“精細(xì)編輯/極低TTFB”的差異位。
官方數(shù)據(jù)總結(jié):https://openai.com/gpt-5/
- 模型系列:gpt?5 / gpt?5?mini / gpt?5?nano
- 內(nèi)置 Thinking 模式:復(fù)雜任務(wù)自動(dòng)切到“更深推理”
- 幻覺率下降:相對 GPT?4o 約 ?45%,相對 o3 約 ?80%(啟用思考時(shí))
- 指令遵循和多步驟任務(wù)顯著提升;多模態(tài)讀圖、表格/圖表理解更穩(wěn)
- 安全:引入“safe completions”范式,降低錯(cuò)誤拒絕與隱性欺騙
- 價(jià)格(API,$/1M tok):輸入 1.25 / 輸出 10;上下文最大 400k
快速上手:4 個(gè)細(xì)節(jié)(以 Cursor/工程場景為準(zhǔn))
- 細(xì)節(jié)1:思考粒度更“工程化”在跨文件重構(gòu) + 集成測試場景,GPT?5 的“思考”有明顯的段落化與收斂動(dòng)作,回溯與自檢更積極,減少了“跑偏后還在編”的時(shí)間浪費(fèi)。
- 細(xì)節(jié)2:工具調(diào)用更“激進(jìn)”,成功率↑、成本也↑在同等任務(wù)下,GPT?5 傾向觸發(fā)更多次工具/終端/讀寫(Reddit也有類似討論),能更快覆蓋依賴與配置,但請求計(jì)費(fèi)與時(shí)延也會(huì)被抬高。需要策略限流。
- 細(xì)節(jié)3:大體量閱讀,Gemini 更像“高速批處理”讀取 30w+ token 的混合倉庫+技術(shù)方案時(shí),Gemini 的吞吐和端到端時(shí)間更穩(wěn),適合“先讀透再動(dòng)刀”的工作流。GPT?5 在讀大上下文后做“長鏈路推理/制定變更計(jì)劃”的表現(xiàn)更強(qiáng)。
- 細(xì)節(jié)4:首問對話體驗(yàn),Claude 最絲滑做“快速試錯(cuò)、小步快跑”的交互時(shí),Claude 的極低 TTFB 讓“來回打磨”舒服得多,但要控制其“過度鋪墊/生成多余腳手架”的傾向。
御三家路線分化
OpenAI(GPT?5):把“思考”與“工具用法”做成系統(tǒng)能力,服務(wù) Agent 工作流(研究、編寫、調(diào)試、流程編排),在長上下文推理、指令遵循、數(shù)學(xué)與科學(xué)問答上強(qiáng)勢。
Google(Gemini 2.5 Pro):押注極大上下文(1M)與原生多模態(tài),吞吐更快、端到端響應(yīng)更穩(wěn),讀取超大代碼庫/文檔時(shí)體驗(yàn)最佳。
Anthropic(Claude 4 Sonnet/Opus):極低首字延遲,細(xì)膩編輯與“合憲式”理由化;在真實(shí)工程里的“多文件精修、審閱、規(guī)則一致性”口碑穩(wěn)。
我整理了一份關(guān)鍵的對比圖,不同任務(wù)御三家差異明顯;請結(jié)合真實(shí)場景做具體測試!
維度 | GPT?5 (high) | Gemini 2.5 Pro | Claude 4 Sonnet (Thinking) |
上下文 | 400k | 1M | 200k |
定價(jià)($/1M tok) | In 1.25 / Out 10 | In 1.25 / Out 10(≤200k) | In 3 / Out 15 |
AIME 2025 | 94% | 88% | 74% |
GPQA Diamond | 85% | 84% | 78% |
指令遵循(IFBench) | 73% | 49% | 55% |
長上下文推理(AA?LCR) | 76% | 66% | 65% |
代碼(LiveCodeBench) | 67% | 80% | 66% |
首字延遲(TTFB) | 較高 | 中等 | 極低(≈0.9s) |
吞吐(tok/s) | 中 | 高 | 低 |
三條反常識(shí)判斷
不是誰分高用誰 你的瓶頸如果在“上下文吞吐/端到端時(shí)延”,Gemini 可能更香;如果在“跨步驟決策與自檢”,GPT?5 更穩(wěn)。
低幻覺≠全可信 GPT?5 在事實(shí)約束下確實(shí)穩(wěn),但一旦給模糊目標(biāo),它會(huì)主動(dòng)補(bǔ)全“合理但未證”的步驟。
“思考越多越好”是錯(cuò)的 長思考常常提高質(zhì)量,但會(huì)放大成本與時(shí)延。工程里應(yīng)按任務(wù)顆粒度“自適應(yīng)思考深度”。
最后
AI上半場,我們驚嘆于模型的能力,思考如何寫好每一個(gè)Prompt。
下半場,我們需要適應(yīng)這些強(qiáng)大的“原生Agent”,思考如何為Agent設(shè)計(jì)好目標(biāo)、工具和工作流。
AI一年,人間十年!
























