最強(qiáng)編程模型Claude 4 發(fā)布！7小時(shí)編程封王，AI下一站：不只是工具

發(fā)布于 2025-5-23 18:04

瀏覽

0收藏

北京時(shí)間今天凌晨，Anthropic 正式發(fā)布 Claude 4 系列模型，包括Claude Opus 4 和 Claude Sonnet 4 兩款新模型。其中旗艦?zāi)Ｐ?Opus 4 以連續(xù) 7 小時(shí)自主編程的強(qiáng)悍性能，斬獲全球最強(qiáng)編程模型稱號。
最強(qiáng)編程模型Claude 4 發(fā)布！7小時(shí)編程封王，AI下一站：不只是工具 -AI.x社區(qū)
Claude 4，再度成為了 AI 編程領(lǐng)域當(dāng)之無愧的王者。

Opus 4 接到重構(gòu)某開源項(xiàng)目架構(gòu)的模糊指令后，自主拆解出 23 個(gè)子任務(wù)：從代碼模塊解耦、依賴庫升級到單元測試覆蓋，每一步都生成詳細(xì)的工作日志。它調(diào)用 VS Code 插件修改代碼，通過 GitHub Actions 部署測試環(huán)境，甚至在遭遇 API 限流時(shí)自動切換工具鏈。

而且整個(gè)過程沒有人類干預(yù)，最終耗時(shí)7小時(shí)就交付了完整方案。

這意味著 Claude 不再是被問問題的模型，而是能接目標(biāo)、配資源、做交付的「智能體」。開發(fā)者的角色從指揮官變成了為目標(biāo)設(shè)定者。

在編程領(lǐng)域權(quán)威評測 SWE-bench 中，Opus 4 以 72.5% 的準(zhǔn)確率碾壓OpenAI o3（69.1%）和谷歌 Gemini 2.5 Pro（63.2%），而性價(jià)比更高的 Sonnet4 也以 72.7% 的成績反超旗艦?zāi)Ｐ汀?/p>

在 Terminal-bench 這一測試復(fù)雜終端交互能力的基準(zhǔn)測試中，Opus 4 同樣以 43.2% 的成績領(lǐng)先于所有競爭對手。這意味著 AI 已能處理真實(shí)開發(fā)環(huán)境中大部分的瑣碎任務(wù)。

在內(nèi)存能力方面，Claude Opus 4 也顯著超越了所有前代型號。當(dāng)開發(fā)者構(gòu)建允許 Claude 訪問本地文件的應(yīng)用程序時(shí)，Opus 4 能夠熟練地創(chuàng)建和維護(hù)“內(nèi)存文件”來存儲關(guān)鍵信息。這能夠提升代理在長期任務(wù)中的感知能力、連貫性和執(zhí)行性能。

Claude 4 的變化，不只是性能的提升，更重要的是，人機(jī)協(xié)作的模發(fā)生了改變。

之前的大模型，更多是由人類預(yù)設(shè)步驟之后進(jìn)行輔助工作，而現(xiàn)在，人類只需要提供目標(biāo)，AI 就能主動完成從計(jì)劃到執(zhí)行的全部流程。

如果說過去的 AI 競爭聚焦于模型參數(shù)、性能的比拼，那么在未來，真正的較量可能是誰的 AI 能先開始交付成果。

人類對 AI 的期許，已經(jīng)從先進(jìn)的工具，上升到能「干活」、具有高產(chǎn)出率的的超級助手，也就是智能體。

這背后，是智能體市場的爆發(fā)式增長與全球巨頭新一輪的生態(tài)卡位戰(zhàn)。

標(biāo)簽

贊