AI"夜班戰士"來了！能連續工作30小時的 Claude-Sonnet-4.5 震撼發布！

作者：阿丸筆記 2025-10-02 08:25:13

在訂單處理系統中，如果一個類同時承擔訂單計算、庫存扣減和日志記錄這三項職責，當庫存邏輯需要支持分布式鎖時，開發人員在修改庫存扣減邏輯的過程中，就很可能不小心影響到訂單總價計算的邏輯，牽一發而動全身，導致程序出現難以排查的問題。這就是因為這個類違反了單一職責原則，承擔了過多的變化原因。

一個明顯的趨勢是，AI正在從"輔助工具"悄然轉變為"獨立生產力"。當我看到Anthropic發布Claude Sonnet 4.5的消息時，這個感覺變得異常強烈——它不再只是幫你寫幾行代碼那么簡單了。

圖片

30小時。

這是Claude Sonnet 4.5能夠連續自主工作的時長。而它的前代Claude Opus 4，這個數字是7小時。四倍的提升，意味著什么？意味著它可以像一個真正的程序員那樣，從周一早上開始工作，一直干到周二中午，中間不需要你插手。

更夸張的是，在Anthropic的內部測試中，Claude Sonnet 4.5從零開始，獨立完成了一個類似Slack的企業級聊天應用——包括數據庫配置、域名注冊、安全審計，整個開發流程一氣呵成，總共寫了大約11,000行代碼。

這就是我說的"夜班戰士"。它不睡覺，不抱怨，不需要咖啡，就這么一直干活。

數據碾壓：這次真的不是營銷話術

我知道你可能會想，AI公司每次發布新模型都說自己"又快又好"，但這次的數據確實挺震撼。

圖片

先看編程能力。在SWE-bench Verified這個專門測試AI解決真實軟件工程問題的基準測試中，Claude Sonnet 4.5的準確率是72.7%，而GPT-5是70.2%。這個差距看起來不大，但要知道SWE-bench測試的都是GitHub上真實項目的實際問題，能提升2.5個百分點已經很不容易了。

再看計算機操作能力。在OSWorld基準測試中（這個測試評估AI能不能像人一樣操作電腦完成真實任務），Claude Sonnet 4.5的得分從四個月前的42.2%躍升到61.4%。提升了將近20個百分點，這個幅度確實有點猛。

但真正讓我覺得有意思的，是在專業領域的表現。金融、法律、醫學、STEM（科學、技術、工程和數學）這些領域的推理能力，相比前代模型提升了30%以上。

圖片

尤其是數學，在AIME 2025數學競賽試題中，配合Python工具時準確率能達到100%。

當然，這里有個小細節需要注意——"配合Python工具"。也就是說，AI本身不一定能直接算出來，但它知道怎么寫代碼去解決問題。這其實更接近真實的工作場景，畢竟現在哪個程序員不是靠工具吃飯的？

開發者工具升級：終于有檢查點了

除了模型本身的升級，Anthropic這次還發布了一堆配套工具。其中最讓開發者興奮的，應該是Claude Code 2.0新增的"檢查點"（Checkpoints）功能。

這個功能簡單說就是：AI寫代碼的時候可以保存進度，如果你覺得它寫的不對，可以一鍵回滾到之前的版本。聽起來很基礎對吧？但這恰恰是開發者呼聲最高的需求——畢竟誰都不想讓AI一路狂飆，寫了幾千行代碼之后發現方向錯了，又得從頭來過。

另外，Claude Code現在有了原生的VS Code擴展。這意味著你不用再來回切換窗口，可以直接在編輯器里和AI對話。雖然Cursor、GitHub Copilot這些工具早就做了類似的事情，但Claude Code的優勢在于它和Claude Sonnet 4.5的深度整合，理論上應該能更好地理解你的項目上下文。

API方面也有不少更新。新增的"上下文編輯"功能可以自動清理過時信息，"記憶工具"（Beta）能在上下文窗口外存儲和調用信息。這兩個功能加起來，讓AI代理能處理更復雜的多步驟長時任務——比如那個連續工作30小時的例子。

安全性：這可能是最大的進步

Anthropic特別強調了一點，Claude Sonnet 4.5通過了AI安全等級3（ASL-3）認證。這個認證有什么用？主要是針對化學、生物等危險內容的過濾，誤報率相比初代模型降低了90%。

但更重要的是，它在防御"提示詞注入攻擊"方面取得了顯著進展。Anthropic聯合創始人Jared Kaplan說，這可能是他們"在過去一年到一年半中看到的最大安全飛躍"。

什么是提示詞注入攻擊？簡單說就是有人通過精心設計的輸入，讓AI做出違反規則的行為。這在智能體和計算機使用場景中是最嚴重的風險之一——畢竟如果AI能自主操作電腦，被惡意利用的后果可想而知。

我個人覺得，安全性的提升可能比性能提升更重要。因為一個不夠"聰明"的AI最多是浪費時間，但一個不夠"安全"的AI可能會造成實際損失。

行業反應：早期用戶怎么說

發布會之后，幾家科技公司給出了積極評價。Replit報告說，他們內部測試中Claude Sonnet 4.5的代碼編輯錯誤率從Claude 4的9%降到了0%。雖然這個數據可能有點夸張（畢竟是內部測試），但趨勢還是很明顯的。

GitHub那邊也表態說，Claude Sonnet 4.5增強了Copilot處理復雜跨代碼庫任務的能力。有意思的是，微軟甚至宣布要把Anthropic的模型集成到Microsoft 365 Copilot中，推出Excel和Word的"Agent Mode"。

這個動作挺耐人尋味的。要知道，微軟自己可是OpenAI的大股東，現在卻要集成Anthropic的模型。這說明什么？說明在AI這個領域，技術實力才是硬道理，站隊什么的都是浮云。

競爭格局：OpenAI該緊張了嗎？

Claude Sonnet 4.5的發布時間很微妙——正好在OpenAI開發者大會前一周。業內普遍認為，這是Anthropic的"先發制人"策略。

現在AI編程這個賽道，已經進入了多強并立的階段。Anthropic、OpenAI、谷歌（Gemini）、微軟（GitHub Copilot），大家都在瘋狂迭代。有時候我都分不清到底是良性競爭還是內卷，反正對用戶來說，工具是越來越好用了。

但這次Claude Sonnet 4.5給我的感覺不太一樣。它不只是性能提升那么簡單，更重要的是開放了SDK——Claude Agent SDK。這個SDK開放了驅動Claude Code的底層基礎設施，開發者可以用它構建定制化的AI助手。

這個動作的意義在于，它不再是"我做好工具給你用"，而是"我把底層能力開放出來，你自己去玩"。這種開放性，可能會加速AI代理技術在各行業的落地應用。

程序員真的要失業了嗎？

這個問題估計你早就想問了。

Anthropic之前透露過一個細節：在公司內部，工程師們已經不再寫代碼了。這句話當時引發了不少討論，現在看來確實有幾分可信度。

但我覺得，與其說是"失業"，不如說是"角色轉變"。就像Claude Sonnet 4.5再強，它也需要有人告訴它做什么、怎么做、做成什么樣。它可以處理重復性的基礎工作，但架構設計、技術選型、用戶體驗這些東西，還是需要人來決策。

有開發者形容Claude Sonnet 4.5就像一個能連續工作30小時的"夜班戰士"。這個比喻挺貼切的——它確實可以干很多活，但你還是得告訴它往哪個方向努力。

聯合創始人Jared Kaplan在采訪中說，用戶反饋Claude Sonnet 4.5"更智能，更像一位得力的同事"。注意這個詞——"同事"，不是"替代品"。這可能才是AI和人類協作的正確姿態。

接下來呢？

Anthropic透露，更好的模型（很可能包括新版Opus）預計會在今年年底前發布。另外，他們還面向Max訂閱用戶開放了為期5天的"Imagine with Claude"研究預覽——展示Claude如何實時生成軟件，沒有預設功能或預寫代碼，全部動態創建。

這個預覽挺有意思的，它預示了AI應用開發的另一種可能形態：不是"先寫好代碼再運行"，而是"邊想邊生成邊運行"。雖然現在還只是研究階段，但誰知道幾年后會不會成為主流呢？

回到最開始的那個問題：AI正在從"輔助工具"轉變為"獨立生產力"。Claude Sonnet 4.5的30小時自主工作能力，可能只是一個開始。接下來，我們可能會看到AI在更多領域展現出類似的"獨立性"。

這到底是好事還是壞事？說實話，我也沒完全想明白。但有一點可以確定：技術的車輪不會停下來等你準備好。與其擔心失業，不如想想怎么和這個"夜班戰士"更好地協作。

畢竟，它不睡覺，但你需要。這可能就是人類最后的優勢了吧。

責任編輯：武曉燕來源：阿丸筆記

AI Anthropic 輔助工具