30小時持續(xù)編碼、0%錯誤率:Claude Sonnet 4.5 的技術(shù)突破與實戰(zhàn)價值

大家好,我是肆〇柒,就在剛才Anthropic正式發(fā)布了Claude Sonnet 4.5,這一被官方稱為"世界上最好的編碼模型"的AI系統(tǒng),標(biāo)志著AI輔助開發(fā)進(jìn)入了一個全新階段。正如Anthropic在官方公告中所強調(diào)的:"Claude Sonnet 4.5是世界上最好的編碼模型。它是構(gòu)建復(fù)雜代理的最佳模型。它是使用計算機(jī)的最佳模型。并且在推理和數(shù)學(xué)方面表現(xiàn)出顯著提升。"
在當(dāng)今數(shù)字化工作環(huán)境中,代碼無處不在,驅(qū)動著每個應(yīng)用程序、電子表格和軟件工具。能夠有效利用這些工具并解決復(fù)雜問題,正是現(xiàn)代工作方式的核心。Claude Sonnet 4.5正是為這一需求而生,它不僅是一個模型升級,更是AI輔助開發(fā)能力的一次質(zhì)的飛躍。
Claude Sonnet 4.5現(xiàn)已全面上線,價格保持與Sonnet 4相同,為15每百萬token,性價比顯著提升。對于開發(fā)者而言,這意味著以相同成本獲得大幅改進(jìn)的性能。
核心能力突破:前沿性能的全面躍升
代碼能力的革命性提升
Claude Sonnet 4.5在SWE-bench Verified評估中達(dá)到了行業(yè)領(lǐng)先的水平,這一評估專門測量AI在真實世界軟件編碼方面的能力。根據(jù)Anthropic的數(shù)據(jù),該模型在這一基準(zhǔn)測試中表現(xiàn)卓越,成為當(dāng)前最強大的編碼模型。
F2-SWE-bench評測結(jié)果
更令人印象深刻的是,Anthropic觀察到該模型能夠在復(fù)雜的多步驟任務(wù)上保持專注超過30小時,這對于需要長時間持續(xù)工作的開發(fā)任務(wù)來說是一個重大突破。
技術(shù)細(xì)節(jié):評測方法論揭秘
值得注意的是,SWE-bench Verified評測采用了特定的技術(shù)配置,這對理解結(jié)果至關(guān)重要:
- 所有Claude結(jié)果均使用"簡單的腳手架和兩種工具—bash和通過字符串替換的文件編輯"報告
- 報告的77.2%分?jǐn)?shù)是10次試驗的平均值,無測試時計算,200K思考預(yù)算
- 1M上下文配置達(dá)到78.2%,但Anthropic選擇報告200K結(jié)果作為主要分?jǐn)?shù)
- 在"高計算量"配置下,通過"多個并行嘗試"、"丟棄破壞可見回歸測試的補丁"等技術(shù),Sonnet 4.5達(dá)到了82.0%的分?jǐn)?shù)
計算機(jī)使用能力的顯著進(jìn)步
在OSWorld基準(zhǔn)測試中(該測試評估AI模型執(zhí)行真實計算機(jī)任務(wù)的能力),Claude Sonnet 4.5達(dá)到了61.4%的得分,大幅領(lǐng)先于四個月前Sonnet 4的42.2%。這一進(jìn)步不僅體現(xiàn)在數(shù)字上,更反映在實際應(yīng)用場景中——通過Claude for Chrome擴(kuò)展,AI可以直接在瀏覽器中工作,導(dǎo)航網(wǎng)站、填寫電子表格并完成任務(wù)。
技術(shù)細(xì)節(jié):OSWorld評測使用官方OSWorld-Verified框架,100最大步驟,平均4次運行,確保了結(jié)果的可靠性和可重復(fù)性。
綜合能力的全面提升
Claude Sonnet 4.5在多個評估領(lǐng)域都展現(xiàn)了顯著提升:
F3-綜合能力評測表
該表格詳細(xì)展示了Claude Sonnet 4.5在多個基準(zhǔn)測試中的表現(xiàn):
- MMMLU:所有分?jǐn)?shù)報告為14種非英語語言的5次運行平均值,使用擴(kuò)展思考(最多128K)
- AIME:Sonnet 4.5分?jǐn)?shù)使用溫度1.0采樣報告,模型使用64K推理令牌進(jìn)行Python配置
- τ2-bench:分?jǐn)?shù)通過擴(kuò)展思考與工具使用獲得,并對Airline和Telecom Agent Policy提示進(jìn)行了特定調(diào)整
- Finance Agent:所有分?jǐn)?shù)由Vals AI在其公共排行榜上運行和發(fā)布
我的槽點:這上面的 benchmark 已經(jīng)跑廢了(超 80% 參考價值就越來越?。?,又該出新的基準(zhǔn)了。
在金融、法律、醫(yī)學(xué)和STEM等專業(yè)領(lǐng)域,專家們發(fā)現(xiàn)Sonnet 4.5相比舊模型(包括Opus 4.1)展現(xiàn)出顯著更好的領(lǐng)域?qū)I(yè)知識和推理能力:
F4-專業(yè)領(lǐng)域表現(xiàn)
客戶實證:行業(yè)領(lǐng)袖的真實反饋
Anthropic分享了13家領(lǐng)先企業(yè)對Claude Sonnet 4.5的實際應(yīng)用反饋,這些評價充分證明了該模型的實用價值。

為便于大家理解,我將這些評價按照行業(yè)和應(yīng)用場景進(jìn)行了系統(tǒng)分類:
開發(fā)工具類應(yīng)用
- Cursor:觀察到"Claude Sonnet 4.5展現(xiàn)出最先進(jìn)的編碼性能,在長周期任務(wù)上有顯著改進(jìn)。這強化了為什么許多使用Cursor的開發(fā)者選擇Claude來解決他們最復(fù)雜的問題。"
- GitHub Copilot:"Claude Sonnet 4.5增強了GitHub Copilot的核心優(yōu)勢。我們的初步評估顯示,在多步驟推理和代碼理解方面有顯著改進(jìn)——使Copilot的代理體驗?zāi)軌蚋玫靥幚韽?fù)雜的、跨越整個代碼庫的任務(wù)。"
- Devin:"對于Devin,Claude Sonnet 4.5將規(guī)劃性能提高了18%,端到-end評估分?jǐn)?shù)提高了12%——這是我們自Claude Sonnet 3.6發(fā)布以來看到的最大飛躍。"
- Codeium:"Claude Sonnet 4.5在代碼編輯能力方面表現(xiàn)出色——從Sonnet 4的9%錯誤率下降到我們內(nèi)部代碼編輯基準(zhǔn)的0%。在更低的成本下實現(xiàn)更高的工具成功率,是代理編碼的重大飛躍。Claude Sonnet 4.5完美平衡了創(chuàng)造力和控制力。"
設(shè)計與創(chuàng)意類應(yīng)用
- Canva:"Claude Sonnet 4.5在我們最復(fù)雜的長上下文任務(wù)上提供了令人印象深刻的提升——從我們代碼庫中的工程到產(chǎn)品內(nèi)功能和研究。它明顯更智能,是一個重大飛躍,幫助我們推動2.4億多用戶能用Canva設(shè)計的內(nèi)容。"
- Figma:"Claude Sonnet 4.5在早期測試中明顯改進(jìn)了Figma Make,使提示和迭代更容易。團(tuán)隊可以探索和驗證他們的想法,創(chuàng)建功能更豐富的原型和更流暢的交互,同時仍能獲得Figma所知名的高質(zhì)量設(shè)計。"
專業(yè)服務(wù)類應(yīng)用
- LegalSifter:"Claude Sonnet 4.5在最復(fù)雜的訴訟任務(wù)上處于最前沿。例如,分析完整的簡報周期并進(jìn)行研究,為法官綜合出優(yōu)秀的意見初稿,或查詢整個訴訟記錄以創(chuàng)建詳細(xì)的簡易判決分析。"
- Vals AI:"對于復(fù)雜的金融分析——風(fēng)險、結(jié)構(gòu)化產(chǎn)品、投資組合篩選——Claude Sonnet 4.5通過擴(kuò)展思考提供投資級別的洞察,需要更少的人工審查。當(dāng)深度比速度更重要時,這是機(jī)構(gòu)金融的一個有意義的進(jìn)步。"
安全與研究類應(yīng)用
- Hai Security:"Claude Sonnet 4.5將我們Hai安全代理的平均漏洞處理時間減少了44%,同時將準(zhǔn)確性提高了25%,幫助我們更有信心地為企業(yè)降低風(fēng)險。"
- CrowdStrike:"Claude Sonnet 4.5在紅隊演練中展現(xiàn)出強大潛力,生成創(chuàng)造性的攻擊場景,加速我們研究攻擊者戰(zhàn)術(shù)的過程。這些洞察加強了我們在端點、身份、云、數(shù)據(jù)、SaaS和AI工作負(fù)載方面的防御。"
- Cognition:"Sonnet 4.5代表了新一代編碼模型。它出人意料地高效,通過并行工具執(zhí)行最大化每個上下文窗口的操作,例如同時運行多個bash命令。"
- OpenAI(間接比較):"Claude Sonnet 4.5重置了我們的期望——它能處理30+小時的自主編碼,讓我們的工程師能夠以更少的時間解決數(shù)月復(fù)雜的架構(gòu)工作,同時在龐大的代碼庫中保持一致性。"
特別值得注意的是,在代碼編輯方面,Codeium報告稱"從Sonnet 4的9%錯誤率下降到我們內(nèi)部代碼編輯基準(zhǔn)的0%",這表明了模型在精確度方面的顯著進(jìn)步。
安全與對齊:負(fù)責(zé)任的AI發(fā)展
Claude Sonnet 4.5不僅是最強大的模型,也是Anthropic迄今為止"最對齊的前沿模型"。公司在安全性和對齊方面取得了顯著進(jìn)展:
- 減少了不良行為,如諂媚、欺騙、權(quán)力尋求和鼓勵妄想思維的傾向
- 在代理和計算機(jī)使用能力方面,大幅提高了對提示注入攻擊的防御能力
- 采用AI安全級別3(ASL-3)保護(hù)框架,包括檢測潛在危險輸入和輸出的分類器
F5-安全與對齊評估
CBRN防護(hù)機(jī)制詳解
Claude Sonnet 4.5是在Anthropic的AI安全級別3(ASL-3)保護(hù)下發(fā)布的,這一框架將模型能力與適當(dāng)?shù)陌踩胧┫嗥ヅ?。特別值得關(guān)注的是:
- ASL-3保護(hù)特別針對化學(xué)、生物、放射性和核(CBRN)武器相關(guān)風(fēng)險
- 系統(tǒng)包含稱為"分類器"的過濾器,旨在檢測潛在危險的輸入和輸出
- 這些分類器有時可能會錯誤地標(biāo)記正常內(nèi)容,但Anthropic已顯著減少誤報率:
a.自最初描述以來降低了十倍
b.自5月Claude Opus 4發(fā)布以來降低了兩倍
對于網(wǎng)絡(luò)安全和生物研究行業(yè)的客戶,Anthropic提供了專門的解決方案:"網(wǎng)絡(luò)安全和生物研究行業(yè)的客戶可以與賬戶團(tuán)隊聯(lián)系加入白名單",確保專業(yè)工作不受干擾。
如何開始使用:升級指南與可用性
Anthropic建議將Claude Sonnet 4.5用于所有用途,無論您是通過應(yīng)用程序、API還是Claude Code使用Claude,Sonnet 4.5都是一個即插即用的替代品,提供大幅改進(jìn)的性能,而價格保持不變。
價格與可用性
- 價格:與Claude Sonnet 4相同,為15每百萬token
- API調(diào)用:開發(fā)者只需通過Claude API使用
claude-sonnet-4-5 - 功能可用性:
a.Claude Code更新適用于所有用戶
b.Claude Developer Platform更新,包括Claude Agent SDK,適用于所有開發(fā)者
c.代碼執(zhí)行和文件創(chuàng)建(電子表格、幻燈片和文檔)在Claude應(yīng)用程序的所有付費計劃中可用
具體功能升級
1. Claude Code改進(jìn):
- 添加了檢查點功能(用戶最需要的功能之一),可保存進(jìn)度并立即回滾到先前狀態(tài)
- 刷新了終端界面
- 發(fā)布了原生VS Code擴(kuò)展
2. Claude API增強:
- 添加了新的上下文編輯功能
- 增加了記憶工具,使代理能夠運行更長時間并處理更復(fù)雜的任務(wù)3. Claude應(yīng)用新特性:
- 將代碼執(zhí)行和文件創(chuàng)建直接集成到對話中
- 使Claude for Chrome擴(kuò)展對上月加入等待列表的Max用戶可用
開發(fā)者賦能:Claude Agent SDK的革命性價值
Anthropic推出了Claude Agent SDK,這是構(gòu)建Claude Code所使用的相同基礎(chǔ)設(shè)施,現(xiàn)在向所有開發(fā)者開放。這個SDK解決了構(gòu)建AI代理時面臨的幾個關(guān)鍵挑戰(zhàn):
- 長時間任務(wù)中的記憶管理:在復(fù)雜、多步驟任務(wù)中保持超過30小時的專注,需要有效管理記憶狀態(tài),避免上下文窗口限制導(dǎo)致的信息丟失
- 平衡自主性與用戶控制的權(quán)限系統(tǒng):確保AI代理在執(zhí)行任務(wù)時既能保持自主性,又不會越權(quán)執(zhí)行危險操作
- 協(xié)調(diào)為共同目標(biāo)工作的子代理:在處理復(fù)雜任務(wù)時,需要多個子代理協(xié)同工作,這需要精密的協(xié)調(diào)機(jī)制
Anthropic表示:"我們構(gòu)建Claude Code是因為我們想要的工具還不存在。Agent SDK為你提供了構(gòu)建同樣能力的基礎(chǔ),適用于你要解決的任何問題。"這一舉措將大大降低開發(fā)者構(gòu)建復(fù)雜AI代理的門檻,加速AI應(yīng)用的創(chuàng)新。
技術(shù)亮點:Claude Agent SDK支持"擴(kuò)展思考"(extended thinking)和"交錯思考"(interleaved thinking on)功能,允許模型使用高達(dá)64K的推理令牌進(jìn)行復(fù)雜推理,這對于處理需要深度思考的任務(wù)至關(guān)重要。
研究預(yù)覽與創(chuàng)新方向
作為發(fā)布的一部分,Anthropic還提供了一個臨時的研究預(yù)覽版,名為"Imagine with Claude"。在這個實驗中,Claude能夠?qū)崟r生成軟件——沒有預(yù)定義的功能,沒有預(yù)先編寫的代碼。用戶可以看到Claude實時創(chuàng)建并響應(yīng)交互請求。
"Imagine with Claude"展示了當(dāng)強大模型與適當(dāng)基礎(chǔ)設(shè)施結(jié)合時的可能性,為未來AI開發(fā)提供了令人興奮的愿景。正如Anthropic所描述的:"你看到的是Claude創(chuàng)建的實時內(nèi)容,響應(yīng)并適應(yīng)你的請求,隨著你的互動而調(diào)整。"
重要提示:"Imagine with Claude"僅對Max訂閱者開放五天,訪問鏈接為https://claude.ai/imagine。這是體驗Claude Sonnet 4.5實時生成能力的絕佳機(jī)會。
擁抱AI編碼的新階段
Claude Sonnet 4.5不僅僅是一個模型升級,它代表了AI輔助開發(fā)能力的一次質(zhì)的飛躍。對于開發(fā)者和企業(yè)而言,升級到Sonnet 4.5意味著:
- 以相同價格(15每百萬token)獲得顯著提升的性能
- 能夠處理更復(fù)雜的長期任務(wù)(超過30小時的持續(xù)工作能力)
- 在專業(yè)領(lǐng)域獲得更準(zhǔn)確、更有深度的輔助
- 享受更安全、更可靠的AI體驗
正如Anthropic所展示的,當(dāng)AI能夠"重置我們的期望——處理30+小時的自主編碼,讓我們的工程師能夠以更少的時間解決數(shù)月復(fù)雜的架構(gòu)工作,同時在龐大的代碼庫中保持一致性"時,開發(fā)工作的未來已經(jīng)到來。我們正站在AI輔助開發(fā)的新起點上,Claude Sonnet 4.5不僅是一個工具的升級,更是開發(fā)范式的轉(zhuǎn)變。準(zhǔn)備好迎接這個更高效、更智能的開發(fā)未來了嗎?立即升級到Sonnet 4.5,體驗AI輔助開發(fā)的新高度。


































