編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
全球最強的Coding模型!構建復雜智能體的最強模型!使用computer最頂尖的模型!
今天凌晨,Anthropic帶著自己的新模型來秀實力了!
這么高調的風格,有點不太像之前Anthropic的作風。小編非常好奇。
到底效果如何?這就帶大家看一下這款高調到突破天際的Sonnt 4.5。
人工智能研發史上巨大飛躍
這款新模型名為 Claude Sonnet 4.5。官方介紹中可以說不吝筆墨去形容這款牛逼的模型。
一、實際軟件編碼能力方面,Claude Sonnet 4.5 在 SWE-bench Verified 評估中名列前茅(謙虛了一下,結果顯示是第一)。在Anthropic的內部實際測試中,團隊觀察到它在執行復雜的多步驟任務時能夠保持專注超過 30 小時。
圖表顯示了 SWE-bench 上的前沿模型性能,已通過 Claude Sonnet 4.5 驗證
二、在computer-use 方面,Claude Sonnet 4.5 在 OSWorld(一項測試 AI 模型在真實計算機任務中表現的基準測試)上,Sonnet 4.5 目前以 61.4% 的成績領先。
Anthropic還展示另一個非常絲滑的Demo視頻,展示了 Claude 如何在瀏覽器中直接工作,瀏覽網站、填寫電子表格以及完成任務。

三、該模型還顯示出在推理和數學等廣泛評估方面的改進能力:迄今為止最強大的Claude模型。

值得注意的是,金融、法律、醫學和 STEM 領域的專家發現,與包括 Opus 4.1 在內的舊模型相比,Sonnet 4.5 表現出了更出色的領域特定知識和推理能力。
四、迄今為止與人類價值觀最一致的模型。Sonnet 4.5 在減少諸如諂媚、欺騙、權力追求以及鼓勵妄想思維傾向等令人擔憂的行為方面,也比較顯著。
小編注:最近有不少媒體報道ChatGPT的使用導致了許多糟糕的社會現象:一個家庭中妻子被ChatGPT引導得婚姻破裂甚至離婚了,(大神Hinton也遭受其害),未成年人被誘導得更自閉了。當然,OpenAI很快做了回應,已經推出了相應功能。
此外,對于該模型的代理和計算機使用功能,團隊還在防御即時注入攻擊方面也取得了顯著進展(注:即時注入攻擊是這些功能用戶面臨的最嚴重風險之一)。
圖片
這么多的“領先”和“最強”,首批測試的客戶們如何說呢?
其實主要就三點印象深刻。多步驟推理、(長上下文)代碼庫理解、代理安全準確性。稍后我們會在下一part介紹大佬們的實際測評感受。
圖片

好,總結一下,對于技術人而言,Sonnet 4.5 最值得關注的,是在遵循指令方面更為出色,并且能夠 連續自主編程長達 30 小時。相比之下,之前的 Claude Opus 4 模型據稱只能自主處理約 7 小時的編程任務。
其次就是在computer-use方面,提升也十分明顯,這也是 Anthropic 一年前引入的一項功能的重大改進。
知名開源大佬:體感全球最強編程模型
其實早在三天前,就有博主收到了新模型的邀測。知名開源框架Django Web共同構建者、Datasette 的創始人,Simon Willson 第一時間放出了自己對于 Sonnet 4.5 的使用感受:的確可能是全球最強的編程模型,但不知道會在寶座上持續多久。
因為這個領域實在發展太快了,并爆料谷歌的Gemini3.0就要發布了!
圖片
他在博文中寫道:
我在上周末獲得了一個“新模型”的預覽權限,結果就是 Sonnet 4.5。我的第一印象是,它在代碼上的表現比我之前最常用的 GPT-5-Codex 更好,而后者自幾周前推出以來一直是我的首選編程模型。
這個領域發展太快了——傳聞 Gemini 3 即將發布,所以誰也不知道 Sonnet 4.5 能在“最佳編程模型”的寶座上坐多久。
Simon 對于 Sonnet 4.5 在調用工具和指令遵循方面的表現大為贊嘆。
在代碼解釋器調用方面,他用了“堪稱亮眼”來形容、
背景介紹:Claude.ai 網頁端界面最近新增了一個功能:Claude 可以在沙盒化的服務器環境中,直接用 Python 和 Node.js 編寫并執行代碼。我三周前詳細寫過這一功能。
“Anthropic 的實現比 ChatGPT 的同類功能更強大,因為它可以直接從 GitHub 克隆代碼,并從 NPM 和 PyPI 安裝依賴包。而Sonnet 4.5 在使用這個工具時的表現堪稱亮眼!”
圖片
圖片
還有一位前Meta軟件工程師也在X上曬出了體驗感受:自動化能力非常強,但不用擔心人被取代:因為完成的代碼根本跑不起來(還需要調試)。
Claude 4.5 Sonnet 剛剛用一次調用就重構了我的整個代碼庫。
調用了 25 個工具,生成了 3000 多行新代碼,新增了 12 個全新的文件。
它把一切都模塊化了,拆分了單體結構,清理了“意大利面條”式代碼。
結果是——全都跑不起來。
但不得不說,真是漂亮極了。
圖片
Anthropic首席產品官親自下場:用Claude來克隆Claude.ai界面
這里不得不提 Instagram的聯合創始人、現Anthropic的首席產品官
更是在7個小時前放出了一個Claude各個版本的能力對比,而評估的維度則讓外界感到了AGI時刻——
讓Claude來克隆自家的網站界面。
從Claude1到Sonnet4.5,每一項能力的演進都盡收眼底。可以說是整個大模型領域的一個進化史縮影了!

圖片
圖片
圖片
甚至有一位眼尖的網友,花了5個半小時最終復刻視頻中的Artifacts功能!并忍不住感嘆:未來真的是太妙了!
圖片
Agent:上下文記憶方面也有新動作
正如開頭提到的,Claude Agent SDK 也迎來了新一波的更新,而且直指目前 Agent 在設計和構建中最大的瓶頸:上下文記憶管理。
圖片
此外,在“如何處理平衡自主性和用戶控制權的權限系統,以及如何協調各個子代理朝著共同目標努力”方面,這款SDK也都有所有改進。
全家桶大升級
Claude Sonnet 4.5 模型發布的同時,Anthropic 還同步發布了一系列重大產品升級:
?Claude Code:新增了用戶呼聲最高的「檢查點(checkpoints)」功能,可保存進度并一鍵回滾;終端界面煥新,原生 VS Code 插件上線。
?Claude API:新增上下文編輯功能和記憶工具,讓智能體可以長時間運行任務,而不會頻繁達到上下文限制,完成更復雜的任務。
注:其中,上下文編輯可自動清除陳舊的上下文;記憶工具用于存儲和查閱上下文窗口之外的信息的記憶工具。
?Claude 應用:直接在對話中支持代碼執行與文件創建(表格、幻燈片、文檔)。
?Claude for Chrome 插件:已面向上月申請候補的 Max 用戶開放
Claude憑什么是世界上最強的編程模型
編程模型的發展速度實在是太快了,尤其今年以來,國內外各家模型公司都紛紛專門為編程場景推出自己的model。
這一次,Anthropic的新模型發布再一次在圈內引發了“最強編程模型”的討論。
有網友表示:自己還是認為Gemini2.5 Pro是最強的,而Claude/GPT-5在執行提示時更好些。
也有網友對國內的模型提了一些建議:Kimi、GLM、Qwen等雖然速度很快,但沒那么聰明,需要更多的時候修改。
這里,不得不提一下馬斯克的Grok4-Fast模型哈,主打的就是快和便宜~
而Claude的優勢就在于,它在速度、價格、智能、自主性之間取得了最佳平衡。
圖片
我想,這就是眾多網友較為真實的一個寫照吧:大家會根據自己的使用場景去權衡這些維度:速度、價格、智能、自主性。
以后各家模型都需要在幾方面展開角逐。
受傷的網友:千萬別再降智!
此前兩個月,Claude 被大量Reddit網友吐槽,模型似乎降智了,這次新品發布,受過傷的網友對此還心有余悸:這么厲害的模型,那又怎么樣,我們交了訂閱費之后,就開始降低模型的能力了!
下面的gif圖,就是網友此時此刻、擔心的心情:一開始絲滑的飛起,然后翻車了!
CDN media
不過,小編只能說,這一現象,比較難以避免。算力就擺在那里,Anthropic 和 OpenAI 在平衡高階付費用戶和免費用戶的過程中,勢必要給數據中心里的GPU去降降火(以免融化了),短時間靈活減低大模型的智力,只能說是不得不采取的一種下下策。
多說一嘴,很快就有更強大的編程模型問世了,Claude Opus 4.5 V.S Gemini 3.0,很快就會贏了一場新的PK,拭目以待!




























