AI"夜班戰士"來了!能連續工作30小時的 Claude-Sonnet-4.5 震撼發布!
一個明顯的趨勢是,AI正在從"輔助工具"悄然轉變為"獨立生產力"。當我看到Anthropic發布Claude Sonnet 4.5的消息時,這個感覺變得異常強烈——它不再只是幫你寫幾行代碼那么簡單了。
圖片
30小時。
這是Claude Sonnet 4.5能夠連續自主工作的時長。而它的前代Claude Opus 4,這個數字是7小時。四倍的提升,意味著什么?意味著它可以像一個真正的程序員那樣,從周一早上開始工作,一直干到周二中午,中間不需要你插手。
更夸張的是,在Anthropic的內部測試中,Claude Sonnet 4.5從零開始,獨立完成了一個類似Slack的企業級聊天應用——包括數據庫配置、域名注冊、安全審計,整個開發流程一氣呵成,總共寫了大約11,000行代碼。
這就是我說的"夜班戰士"。它不睡覺,不抱怨,不需要咖啡,就這么一直干活。
數據碾壓:這次真的不是營銷話術
我知道你可能會想,AI公司每次發布新模型都說自己"又快又好",但這次的數據確實挺震撼。
圖片
先看編程能力。在SWE-bench Verified這個專門測試AI解決真實軟件工程問題的基準測試中,Claude Sonnet 4.5的準確率是72.7%,而GPT-5是70.2%。這個差距看起來不大,但要知道SWE-bench測試的都是GitHub上真實項目的實際問題,能提升2.5個百分點已經很不容易了。
再看計算機操作能力。在OSWorld基準測試中(這個測試評估AI能不能像人一樣操作電腦完成真實任務),Claude Sonnet 4.5的得分從四個月前的42.2%躍升到61.4%。提升了將近20個百分點,這個幅度確實有點猛。
但真正讓我覺得有意思的,是在專業領域的表現。金融、法律、醫學、STEM(科學、技術、工程和數學)這些領域的推理能力,相比前代模型提升了30%以上。
圖片
圖片
尤其是數學,在AIME 2025數學競賽試題中,配合Python工具時準確率能達到100%。
當然,這里有個小細節需要注意——"配合Python工具"。也就是說,AI本身不一定能直接算出來,但它知道怎么寫代碼去解決問題。這其實更接近真實的工作場景,畢竟現在哪個程序員不是靠工具吃飯的?
開發者工具升級:終于有檢查點了
除了模型本身的升級,Anthropic這次還發布了一堆配套工具。其中最讓開發者興奮的,應該是Claude Code 2.0新增的"檢查點"(Checkpoints)功能。
這個功能簡單說就是:AI寫代碼的時候可以保存進度,如果你覺得它寫的不對,可以一鍵回滾到之前的版本。聽起來很基礎對吧?但這恰恰是開發者呼聲最高的需求——畢竟誰都不想讓AI一路狂飆,寫了幾千行代碼之后發現方向錯了,又得從頭來過。
另外,Claude Code現在有了原生的VS Code擴展。這意味著你不用再來回切換窗口,可以直接在編輯器里和AI對話。雖然Cursor、GitHub Copilot這些工具早就做了類似的事情,但Claude Code的優勢在于它和Claude Sonnet 4.5的深度整合,理論上應該能更好地理解你的項目上下文。
API方面也有不少更新。新增的"上下文編輯"功能可以自動清理過時信息,"記憶工具"(Beta)能在上下文窗口外存儲和調用信息。這兩個功能加起來,讓AI代理能處理更復雜的多步驟長時任務——比如那個連續工作30小時的例子。
安全性:這可能是最大的進步
Anthropic特別強調了一點,Claude Sonnet 4.5通過了AI安全等級3(ASL-3)認證。這個認證有什么用?主要是針對化學、生物等危險內容的過濾,誤報率相比初代模型降低了90%。
但更重要的是,它在防御"提示詞注入攻擊"方面取得了顯著進展。Anthropic聯合創始人Jared Kaplan說,這可能是他們"在過去一年到一年半中看到的最大安全飛躍"。
什么是提示詞注入攻擊?簡單說就是有人通過精心設計的輸入,讓AI做出違反規則的行為。這在智能體和計算機使用場景中是最嚴重的風險之一——畢竟如果AI能自主操作電腦,被惡意利用的后果可想而知。
我個人覺得,安全性的提升可能比性能提升更重要。因為一個不夠"聰明"的AI最多是浪費時間,但一個不夠"安全"的AI可能會造成實際損失。
行業反應:早期用戶怎么說
發布會之后,幾家科技公司給出了積極評價。Replit報告說,他們內部測試中Claude Sonnet 4.5的代碼編輯錯誤率從Claude 4的9%降到了0%。雖然這個數據可能有點夸張(畢竟是內部測試),但趨勢還是很明顯的。
GitHub那邊也表態說,Claude Sonnet 4.5增強了Copilot處理復雜跨代碼庫任務的能力。有意思的是,微軟甚至宣布要把Anthropic的模型集成到Microsoft 365 Copilot中,推出Excel和Word的"Agent Mode"。
這個動作挺耐人尋味的。要知道,微軟自己可是OpenAI的大股東,現在卻要集成Anthropic的模型。這說明什么?說明在AI這個領域,技術實力才是硬道理,站隊什么的都是浮云。
競爭格局:OpenAI該緊張了嗎?
Claude Sonnet 4.5的發布時間很微妙——正好在OpenAI開發者大會前一周。業內普遍認為,這是Anthropic的"先發制人"策略。
現在AI編程這個賽道,已經進入了多強并立的階段。Anthropic、OpenAI、谷歌(Gemini)、微軟(GitHub Copilot),大家都在瘋狂迭代。有時候我都分不清到底是良性競爭還是內卷,反正對用戶來說,工具是越來越好用了。
但這次Claude Sonnet 4.5給我的感覺不太一樣。它不只是性能提升那么簡單,更重要的是開放了SDK——Claude Agent SDK。這個SDK開放了驅動Claude Code的底層基礎設施,開發者可以用它構建定制化的AI助手。
這個動作的意義在于,它不再是"我做好工具給你用",而是"我把底層能力開放出來,你自己去玩"。這種開放性,可能會加速AI代理技術在各行業的落地應用。
程序員真的要失業了嗎?
這個問題估計你早就想問了。
Anthropic之前透露過一個細節:在公司內部,工程師們已經不再寫代碼了。這句話當時引發了不少討論,現在看來確實有幾分可信度。
但我覺得,與其說是"失業",不如說是"角色轉變"。就像Claude Sonnet 4.5再強,它也需要有人告訴它做什么、怎么做、做成什么樣。它可以處理重復性的基礎工作,但架構設計、技術選型、用戶體驗這些東西,還是需要人來決策。
有開發者形容Claude Sonnet 4.5就像一個能連續工作30小時的"夜班戰士"。這個比喻挺貼切的——它確實可以干很多活,但你還是得告訴它往哪個方向努力。
聯合創始人Jared Kaplan在采訪中說,用戶反饋Claude Sonnet 4.5"更智能,更像一位得力的同事"。注意這個詞——"同事",不是"替代品"。這可能才是AI和人類協作的正確姿態。
接下來呢?
Anthropic透露,更好的模型(很可能包括新版Opus)預計會在今年年底前發布。另外,他們還面向Max訂閱用戶開放了為期5天的"Imagine with Claude"研究預覽——展示Claude如何實時生成軟件,沒有預設功能或預寫代碼,全部動態創建。
這個預覽挺有意思的,它預示了AI應用開發的另一種可能形態:不是"先寫好代碼再運行",而是"邊想邊生成邊運行"。雖然現在還只是研究階段,但誰知道幾年后會不會成為主流呢?
回到最開始的那個問題:AI正在從"輔助工具"轉變為"獨立生產力"。Claude Sonnet 4.5的30小時自主工作能力,可能只是一個開始。接下來,我們可能會看到AI在更多領域展現出類似的"獨立性"。
這到底是好事還是壞事?說實話,我也沒完全想明白。但有一點可以確定:技術的車輪不會停下來等你準備好。與其擔心失業,不如想想怎么和這個"夜班戰士"更好地協作。
畢竟,它不睡覺,但你需要。這可能就是人類最后的優勢了吧。



































