全球編程最強、構建智能體最強、使用計算機最頂尖！Anthropic深夜高調甩出王炸！知名開源大佬實測：指令遵循真天秀！強在三點！

原創精選

作者：云昭 2025-09-30 12:49:37

人工智能

今天凌晨，Anthropic帶著自己的新模型來秀實力了！這么高調的風格，有點不太像之前Anthropic的作風。小編非常好奇。到底效果如何？這就帶大家看一下這款高調到突破天際的Sonnt 4.5。

編輯 | 云昭

出品 | 51CTO技術棧（微信號：blog51cto）

全球最強的Coding模型！構建復雜智能體的最強模型！使用computer最頂尖的模型！

今天凌晨，Anthropic帶著自己的新模型來秀實力了！

這么高調的風格，有點不太像之前Anthropic的作風。小編非常好奇。

到底效果如何？這就帶大家看一下這款高調到突破天際的Sonnt 4.5。

人工智能研發史上巨大飛躍

這款新模型名為 Claude Sonnet 4.5。官方介紹中可以說不吝筆墨去形容這款牛逼的模型。

一、實際軟件編碼能力方面，Claude Sonnet 4.5 在 SWE-bench Verified 評估中名列前茅（謙虛了一下，結果顯示是第一）。在Anthropic的內部實際測試中，團隊觀察到它在執行復雜的多步驟任務時能夠保持專注超過 30 小時。

圖表顯示了 SWE-bench 上的前沿模型性能，已通過 Claude Sonnet 4.5 驗證

二、在computer-use 方面，Claude Sonnet 4.5 在 OSWorld（一項測試 AI 模型在真實計算機任務中表現的基準測試）上，Sonnet 4.5 目前以 61.4% 的成績領先。

Anthropic還展示另一個非常絲滑的Demo視頻，展示了 Claude 如何在瀏覽器中直接工作，瀏覽網站、填寫電子表格以及完成任務。

三、該模型還顯示出在推理和數學等廣泛評估方面的改進能力：迄今為止最強大的Claude模型。

值得注意的是，金融、法律、醫學和 STEM 領域的專家發現，與包括 Opus 4.1 在內的舊模型相比，Sonnet 4.5 表現出了更出色的領域特定知識和推理能力。

四、迄今為止與人類價值觀最一致的模型。Sonnet 4.5 在減少諸如諂媚、欺騙、權力追求以及鼓勵妄想思維傾向等令人擔憂的行為方面，也比較顯著。

小編注：最近有不少媒體報道ChatGPT的使用導致了許多糟糕的社會現象：一個家庭中妻子被ChatGPT引導得婚姻破裂甚至離婚了，（大神Hinton也遭受其害），未成年人被誘導得更自閉了。當然，OpenAI很快做了回應，已經推出了相應功能。

此外，對于該模型的代理和計算機使用功能，團隊還在防御即時注入攻擊方面也取得了顯著進展（注：即時注入攻擊是這些功能用戶面臨的最嚴重風險之一）。

圖片

這么多的“領先”和“最強”，首批測試的客戶們如何說呢？

其實主要就三點印象深刻。多步驟推理、（長上下文）代碼庫理解、代理安全準確性。稍后我們會在下一part介紹大佬們的實際測評感受。

圖片

好，總結一下，對于技術人而言，Sonnet 4.5 最值得關注的，是在遵循指令方面更為出色，并且能夠 連續自主編程長達 30 小時。相比之下，之前的 Claude Opus 4 模型據稱只能自主處理約 7 小時的編程任務。

其次就是在computer-use方面，提升也十分明顯，這也是 Anthropic 一年前引入的一項功能的重大改進。

知名開源大佬：體感全球最強編程模型

其實早在三天前，就有博主收到了新模型的邀測。知名開源框架Django Web共同構建者、Datasette 的創始人，Simon Willson 第一時間放出了自己對于 Sonnet 4.5 的使用感受：的確可能是全球最強的編程模型，但不知道會在寶座上持續多久。

因為這個領域實在發展太快了，并爆料谷歌的Gemini3.0就要發布了！

圖片

他在博文中寫道：

我在上周末獲得了一個“新模型”的預覽權限，結果就是 Sonnet 4.5。我的第一印象是，它在代碼上的表現比我之前最常用的 GPT-5-Codex 更好，而后者自幾周前推出以來一直是我的首選編程模型。
這個領域發展太快了——傳聞 Gemini 3 即將發布，所以誰也不知道 Sonnet 4.5 能在“最佳編程模型”的寶座上坐多久。

Simon 對于 Sonnet 4.5 在調用工具和指令遵循方面的表現大為贊嘆。

在代碼解釋器調用方面，他用了“堪稱亮眼”來形容、

背景介紹：Claude.ai 網頁端界面最近新增了一個功能：Claude 可以在沙盒化的服務器環境中，直接用 Python 和 Node.js 編寫并執行代碼。我三周前詳細寫過這一功能。

“Anthropic 的實現比 ChatGPT 的同類功能更強大，因為它可以直接從 GitHub 克隆代碼，并從 NPM 和 PyPI 安裝依賴包。而Sonnet 4.5 在使用這個工具時的表現堪稱亮眼！”

圖片