最強(qiáng)編程模型Claude 4 發(fā)布!7小時(shí)編程封王,AI下一站:不只是工具
北京時(shí)間今天凌晨,Anthropic 正式發(fā)布 Claude 4 系列模型,包括Claude Opus 4 和 Claude Sonnet 4 兩款新模型。其中旗艦?zāi)P?Opus 4 以連續(xù) 7 小時(shí)自主編程的強(qiáng)悍性能,斬獲全球最強(qiáng)編程模型稱號。

Claude 4,再度成為了 AI 編程領(lǐng)域當(dāng)之無愧的王者。
Opus 4 接到重構(gòu)某開源項(xiàng)目架構(gòu)的模糊指令后,自主拆解出 23 個(gè)子任務(wù):從代碼模塊解耦、依賴庫升級到單元測試覆蓋,每一步都生成詳細(xì)的工作日志。它調(diào)用 VS Code 插件修改代碼,通過 GitHub Actions 部署測試環(huán)境,甚至在遭遇 API 限流時(shí)自動切換工具鏈。
而且整個(gè)過程沒有人類干預(yù),最終耗時(shí)7小時(shí)就交付了完整方案。
這意味著 Claude 不再是被問問題的模型,而是能接目標(biāo)、配資源、做交付的「智能體」。開發(fā)者的角色從指揮官變成了為目標(biāo)設(shè)定者。
在編程領(lǐng)域權(quán)威評測 SWE-bench 中,Opus 4 以 72.5% 的準(zhǔn)確率碾壓OpenAI o3(69.1%)和谷歌 Gemini 2.5 Pro(63.2%),而性價(jià)比更高的 Sonnet4 也以 72.7% 的成績反超旗艦?zāi)P汀?/p>
在 Terminal-bench 這一測試復(fù)雜終端交互能力的基準(zhǔn)測試中,Opus 4 同樣以 43.2% 的成績領(lǐng)先于所有競爭對手。這意味著 AI 已能處理真實(shí)開發(fā)環(huán)境中大部分的瑣碎任務(wù)。
在內(nèi)存能力方面,Claude Opus 4 也顯著超越了所有前代型號。當(dāng)開發(fā)者構(gòu)建允許 Claude 訪問本地文件的應(yīng)用程序時(shí),Opus 4 能夠熟練地創(chuàng)建和維護(hù)“內(nèi)存文件”來存儲關(guān)鍵信息。這能夠提升代理在長期任務(wù)中的感知能力、連貫性和執(zhí)行性能。
Claude 4 的變化,不只是性能的提升,更重要的是,人機(jī)協(xié)作的模發(fā)生了改變。
之前的大模型,更多是由人類預(yù)設(shè)步驟之后進(jìn)行輔助工作,而現(xiàn)在,人類只需要提供目標(biāo),AI 就能主動完成從計(jì)劃到執(zhí)行的全部流程。
如果說過去的 AI 競爭聚焦于模型參數(shù)、性能的比拼, 那么在未來,真正的較量可能是誰的 AI 能先開始交付成果。
人類對 AI 的期許,已經(jīng)從先進(jìn)的工具,上升到能「干活」、具有高產(chǎn)出率的的超級助手,也就是智能體。
這背后,是智能體市場的爆發(fā)式增長與全球巨頭新一輪的生態(tài)卡位戰(zhàn)。

















