一夜之間,大模型像人一樣操控電腦了!Claude 3.5重磅升級(jí),搶先OpenAI
幾個(gè)小時(shí)前,Claude 3.5 模型迎來(lái)了一波大更新。Anthropic 推出了升級(jí)版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。
其中,升級(jí)版 Claude 3.5 Sonnet 的各項(xiàng)能力全面勝過(guò)之前版本,其中代碼能力提升顯著。Claude 3.5 Haiku 的性能則與之前最大模型 Claude 3 Opus 的性能相當(dāng),同時(shí)在成本和速度上與上一代 Haiku 相近。
最值得關(guān)注的是,Claude 3.5 Sonnet 版本號(hào)雖未提升,但卻迎來(lái)了史詩(shī)級(jí)大更新:能像人一樣使用計(jì)算機(jī)了!
最新版本的 Claude 3.5 Sonnet 能夠根據(jù)用戶指令移動(dòng)光標(biāo)、點(diǎn)擊相應(yīng)位置以及通過(guò)虛擬鍵盤輸入信息,模仿人類與計(jì)算機(jī)的交互方式。
Anthropic 表示,Claude 3.5 Sonnet 是首個(gè)提供「計(jì)算機(jī)使用」能力公開(kāi) beta 測(cè)試的前沿 AI 模型,不過(guò)其也指出目前該工具還處于實(shí)驗(yàn)階段 —— 有時(shí)候會(huì)很麻煩且容易出錯(cuò)。目前這個(gè)功能更多地是面向開(kāi)發(fā)者,以便獲得他們的使用反饋。

目前,「使用計(jì)算機(jī)」功能已經(jīng)有了公開(kāi)測(cè)試版,大家可以申請(qǐng)?jiān)囉谩I暾?qǐng)表單:https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform
該功能發(fā)布后,網(wǎng)友紛紛點(diǎn)贊,都表示迫不及待想要嘗試這個(gè)功能;當(dāng)然也有網(wǎng)友對(duì) Claude 3.5 Sonnet 依然使用原來(lái)的名稱表達(dá)了深深地不解:「為什么這么大的更新卻連模型版本號(hào)都不改一下?」

并且發(fā)布不過(guò)幾個(gè)小時(shí),就已經(jīng)有開(kāi)發(fā)者嘗試了 Claude 3.5 Sonnet 的這項(xiàng)新能力。網(wǎng)友 Mckay Wrigley 表示通過(guò) API 使用這項(xiàng)新功能,設(shè)置時(shí)間不超過(guò) 10 分鐘,而這項(xiàng)能力卻能為 AI 開(kāi)啟無(wú)限可能,堪稱 game changer。

順帶一提,在 Anthropic 更新 Claude 3.5 的同時(shí),熱門 AI 編程工具 Cursor 也已經(jīng)成功接入 Claude 系列模型。根據(jù)許多網(wǎng)友分享的截圖,接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本!

另外,對(duì)于官方博客中缺少的與 OpenAI ο1 模型的性能對(duì)比,也已經(jīng)有研究者搶先完成了。根據(jù)研究者 Austin Starks 的實(shí)驗(yàn),最新版 Claude 3.5 Sonnet 的性能表現(xiàn)優(yōu)于 OpenAI ο1-mini。他自己也對(duì)這一結(jié)果深表震驚。

詳細(xì)報(bào)告請(qǐng)?jiān)L問(wèn):https://medium.com/@austin-starks/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea
讓 AI 使用計(jì)算機(jī)有什么用?
為什么說(shuō)這個(gè)功能很重要?我們知道,現(xiàn)代的大量工作都是通過(guò)計(jì)算機(jī)完成的。如果能讓 AI 像人類一樣直接與計(jì)算機(jī)軟件交互,將解鎖大量當(dāng)前一代 AI 助手無(wú)法實(shí)現(xiàn)的應(yīng)用。
過(guò)去幾年,強(qiáng) AI 已經(jīng)實(shí)現(xiàn)了一個(gè)又一個(gè)里程碑,舉個(gè)例子,現(xiàn)在的強(qiáng) AI 已經(jīng)有能力執(zhí)行復(fù)雜的邏輯推理和理解圖像內(nèi)容。下一個(gè)前沿就是使用計(jì)算機(jī),AI 模型不必通過(guò)定制工具進(jìn)行交互,而是能夠遵照指示使用幾乎任何軟件。
Anthropic 表示,他們之前在工具使用和多模態(tài)方面的工作為這些新的計(jì)算機(jī)使用技能奠定了基礎(chǔ)。
操作計(jì)算機(jī)需要查看和解釋圖像的能力 —— 這里的圖像就是指計(jì)算機(jī)屏幕。它還需要推理能力,以了解以怎樣的方式在什么時(shí)間執(zhí)行特定的操作。整合這些能力后,Claude 便可具備解讀屏幕內(nèi)容并使用軟件工具執(zhí)行任務(wù)的能力。
該公司舉了個(gè)例子:如果用戶是一名開(kāi)發(fā)者,使用的軟件有好幾個(gè),同時(shí)也已經(jīng)給予了 Claude 適當(dāng)?shù)臋?quán)限,那么 Claude 就可以查看用戶能看到的屏幕,然后統(tǒng)計(jì)其所要移動(dòng)的垂直和水平像素的數(shù)量,從而點(diǎn)擊到正確位置。因此,準(zhǔn)確統(tǒng)計(jì)像素?cái)?shù)量的能力對(duì) Claude 而言至關(guān)重要。沒(méi)有這項(xiàng)技能,模型就難以發(fā)出鼠標(biāo)指令 —— 類似于模型難以解決「banana 中有多少個(gè) A?」 這樣的問(wèn)題。
Anthropic 表示,在訓(xùn)練 Claude 使用計(jì)算機(jī)方面,僅使用少量簡(jiǎn)單軟件(比如一個(gè)計(jì)算器和一個(gè)文本編輯器)進(jìn)行的訓(xùn)練就讓 Claude 可以泛化這種能力。這一點(diǎn)讓開(kāi)發(fā)團(tuán)隊(duì)自己都深感驚訝。至于為何使用這樣的簡(jiǎn)單軟件,該團(tuán)隊(duì)表示:「出于安全原因,我們并不允許模型在訓(xùn)練時(shí)訪問(wèn)互聯(lián)網(wǎng)。」
再結(jié)合 Claude 的其它能力,這種訓(xùn)練賦予了它非凡的能力,可以將用戶的文本提示詞轉(zhuǎn)化為一系列邏輯步驟,然后在計(jì)算機(jī)上采取行動(dòng)。開(kāi)發(fā)團(tuán)隊(duì)觀察到,如果遇阻,該模型甚至還能自我糾錯(cuò)并重試任務(wù)。
他們表示:「雖然我們?cè)谌〉贸醪酵黄坪蠛芸炀腿〉昧撕罄m(xù)進(jìn)展,但達(dá)到這一目標(biāo)的過(guò)程經(jīng)歷了大量反復(fù)試驗(yàn)。」該公司的一些研究者指出,讓 Claude 具備使用計(jì)算機(jī)的能力接近他們剛開(kāi)始從事該領(lǐng)域時(shí)所描繪的 AI 研究的「理想化」過(guò)程:不斷迭代和反復(fù)回到繪圖板,直到取得進(jìn)展。
終于,研究獲得了回報(bào)。目前,Claude 可以說(shuō)是當(dāng)之無(wú)愧的 SOTA 模型,其使用計(jì)算機(jī)的方式與人類相同 —— 即查看屏幕再采取行動(dòng)。在 OSWorld 這項(xiàng)測(cè)試模型使用計(jì)算機(jī)的能力的評(píng)估基準(zhǔn)上,Claude 當(dāng)前的準(zhǔn)確度為 14.9%,雖然遠(yuǎn)遠(yuǎn)不及人類水平(通常為 70-75%),但卻遠(yuǎn)高于在此基準(zhǔn)上排名第二的 AI 模型(7.8%)。當(dāng)給予更多的步驟來(lái)完成任務(wù)時(shí),Claude 得分為 22.0%。

OSWorld 基準(zhǔn)上當(dāng)前排名前十的模型
確保計(jì)算機(jī)使用安全
人工智能的每一次進(jìn)步都會(huì)帶來(lái)新的安全挑戰(zhàn)。計(jì)算機(jī)的使用主要是降低人工智能系統(tǒng)應(yīng)用現(xiàn)有認(rèn)知技能的障礙,而不是從根本上提高這些技能,因此 Anthropic 對(duì)計(jì)算機(jī)使用的主要關(guān)注點(diǎn)是當(dāng)前的危害,而不是未來(lái)的危害。
Anthropic 通過(guò)評(píng)估計(jì)算機(jī)的使用是否會(huì)增加其《負(fù)責(zé)任擴(kuò)展政策》中列出的前沿威脅(frontier threats)的風(fēng)險(xiǎn)來(lái)證實(shí)這一點(diǎn)。更新后的 Claude 3.5 Sonnet,包括其新的計(jì)算機(jī)使用技能,仍處于 AI Safety Level 2,也就是說(shuō),它不需要比 Anthropic 目前采取的安全措施更高標(biāo)準(zhǔn)的安全措施。
未來(lái)的模型可能會(huì)帶來(lái)災(zāi)難性的風(fēng)險(xiǎn),計(jì)算機(jī)的使用可能會(huì)加劇這些風(fēng)險(xiǎn),因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 認(rèn)為現(xiàn)在引入計(jì)算機(jī)使用可能會(huì)更好,而模型仍然只需要 AI Safety Level 2 的保障。這意味著可以在風(fēng)險(xiǎn)過(guò)高之前開(kāi)始解決任何安全問(wèn)題。
因此,Anthropic 的信任與安全團(tuán)隊(duì)對(duì)計(jì)算機(jī)使用模型進(jìn)行了廣泛的分析,以識(shí)別潛在的漏洞。他們發(fā)現(xiàn)的一個(gè)問(wèn)題是「提示詞注入」—— 一種網(wǎng)絡(luò)攻擊,會(huì)輸入惡意指令到人工智能模型,導(dǎo)致其要么覆蓋先前的指令,要么執(zhí)行偏離用戶原始意圖的意外操作。由于 Claude 可以解讀連接到互聯(lián)網(wǎng)的計(jì)算機(jī)的屏幕截圖,因此它可能會(huì)暴露于包含提示詞注入攻擊的內(nèi)容。
默認(rèn)情況下,Anthropic 不會(huì)使用用戶提交的數(shù)據(jù)(包括 Claude 收到的任何屏幕截圖)來(lái)訓(xùn)練其生成式 AI 模型。
「計(jì)算機(jī)使用」的未來(lái)
計(jì)算機(jī)的使用是一種完全不同的人工智能開(kāi)發(fā)方法。到目前為止,LLM 開(kāi)發(fā)人員已經(jīng)制作了適合模型的工具,生成了自定義環(huán)境,人工智能可以使用專門設(shè)計(jì)的工具來(lái)完成各種任務(wù)。
現(xiàn)在,Anthropic 的研究者可以讓模型適應(yīng)工具 —— Claude 可以融入我們?nèi)粘J褂玫挠?jì)算機(jī)環(huán)境中。他們的目標(biāo)是讓 Claude 能夠利用現(xiàn)有的計(jì)算機(jī)軟件,并像人類一樣簡(jiǎn)單地使用它們。
研究者構(gòu)建了一個(gè) API,使 Claude 能夠感知計(jì)算機(jī)界面并與之交互。該 API 使 Claude 能夠?qū)⑻崾驹~翻譯成計(jì)算機(jī)命令。開(kāi)發(fā)人員可以使用它來(lái)自動(dòng)執(zhí)行重復(fù)性任務(wù)、進(jìn)行測(cè)試和 QA 以及進(jìn)行開(kāi)放式研究。

研究者并沒(méi)有制作專門的工具來(lái)幫助 Claude 完成個(gè)別任務(wù),而是教它通用的計(jì)算機(jī)技能,讓它能夠使用為人類設(shè)計(jì)的各種標(biāo)準(zhǔn)工具和軟件程序。

不過(guò),Anthropic 還有很多工作要做。盡管目前 Claude 處于技術(shù)的最前沿,但它使用計(jì)算機(jī)的速度仍然緩慢且經(jīng)常出錯(cuò)。人們?cè)谟?jì)算機(jī)上常規(guī)進(jìn)行的許多操作(如拖動(dòng)、縮放等)Claude 還無(wú)法完成。
對(duì)于 Claude 來(lái)說(shuō),它觀察到的屏幕「翻頁(yè)」方式 —— 是通過(guò)拍攝屏幕截圖并將它們拼接起來(lái)的方式,而不是觀察更細(xì)粒度的視頻流。這種方式意味著 Claude 可能會(huì)錯(cuò)過(guò)那些短暫的操作或通知。
甚至在錄制計(jì)算機(jī)使用演示時(shí),研究者也遇到了一些有趣的錯(cuò)誤。其中一個(gè)錯(cuò)誤是,Claude 不小心點(diǎn)擊停止了長(zhǎng)時(shí)間的屏幕錄制,導(dǎo)致所有鏡頭都丟失。另一個(gè)錯(cuò)誤是,Claude 突然中斷了現(xiàn)場(chǎng)的編碼演示,開(kāi)始瀏覽黃石國(guó)家公園的照片。


研究者預(yù)期對(duì)計(jì)算機(jī)的使用將迅速改進(jìn),變得更快、更可靠,并更有助于用戶完成他們想要完成的任務(wù)。對(duì)于那些軟件開(kāi)發(fā)經(jīng)驗(yàn)較少的人來(lái)說(shuō),實(shí)施起來(lái)也將變得更加容易。并且在每一個(gè)階段,研究人員都將與安全團(tuán)隊(duì)緊密合作,確保 Claude 的新功能更加安全。
Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經(jīng)開(kāi)始探索「計(jì)算機(jī)使用」的各種可能性,執(zhí)行那些需要幾十個(gè)、有時(shí)甚至幾百個(gè)步驟才能完成的任務(wù)。例如,Replit 正在利用 Claude 3.5 Sonnet 的計(jì)算機(jī)使用和 UI 導(dǎo)航能力,為其 Replit Agent 產(chǎn)品開(kāi)發(fā)一個(gè)關(guān)鍵功能,該功能可以在構(gòu)建應(yīng)用程序時(shí)評(píng)估這些應(yīng)用程序。
升級(jí)版的 Claude 3.5 Sonnet 現(xiàn)在對(duì)所有用戶開(kāi)放。從今天開(kāi)始,開(kāi)發(fā)者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「計(jì)算機(jī)使用」的測(cè)試版進(jìn)行構(gòu)建。新的 Claude 3.5 Haiku 將在本月晚些時(shí)候發(fā)布。

Claude 3.5 Sonnet:行業(yè)領(lǐng)先的軟件工程技能
更新版的 Claude 3.5 Sonnet 在行業(yè)基準(zhǔn)測(cè)試中顯示出廣泛的改進(jìn),特別是在智能體編碼和工具使用任務(wù)上取得了顯著的提升。在編碼方面,其在 SWE-bench Verified 上的性能從 33.4% 提高到 49.0%,得分高于所有公開(kāi)可用的模型 —— 包括像 OpenAI o1-preview 這樣的推理模型和專為智能體編碼設(shè)計(jì)的專門系統(tǒng)。它在 TAU-bench 上的表現(xiàn)也有所提升,這是一個(gè)智能體工具使用任務(wù),在零售領(lǐng)域的得分從 62.6% 提高到了 69.2%,在更具挑戰(zhàn)性的航空領(lǐng)域則從 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以與其前代相同的價(jià)格和速度提供了這些改進(jìn)。
早期客戶反饋表明,升級(jí)版的 Claude 3.5 Sonnet 代表了 AI 驅(qū)動(dòng)編碼的重大飛躍。GitLab 針對(duì) DevSecOps 任務(wù)對(duì)該模型進(jìn)行了測(cè)試,發(fā)現(xiàn)它提供了更強(qiáng)的推理能力(在用例中高達(dá) 10%),并且沒(méi)有增加延遲,這使其成為驅(qū)動(dòng)多步驟軟件開(kāi)發(fā)流程的理想選擇。Cognition 使用新的 Claude 3.5 Sonnet 進(jìn)行自主 AI 評(píng)估,與前一版本相比,它在編碼、規(guī)劃和問(wèn)題解決方面經(jīng)歷了顯著的改進(jìn)。The Browser Company 在用于自動(dòng)化基于 Web 的工作流程時(shí),注意到 Claude 3.5 Sonnet 的表現(xiàn)超過(guò)了他們之前測(cè)試過(guò)的每一個(gè)模型。
Claude 3.5 Haiku:SOTA 技術(shù)與性價(jià)比和速度的結(jié)合
Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同,速度相似,Claude 3.5 Haiku 在每項(xiàng)技能上都有改進(jìn),并且在許多智能基準(zhǔn)測(cè)試上甚至超過(guò)了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在編碼任務(wù)上尤其強(qiáng)大。例如,它在 SWE-bench Verified 上的得分為 40.6%,超過(guò)了使用公開(kāi)可用的 SOTA 模型的許多智能體 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。
憑借低延遲、改進(jìn)的指令遵循和更準(zhǔn)確的工具使用,Claude 3.5 Haiku 非常適合面向用戶的產(chǎn)品、專門的 sub-agent 任務(wù)以及從大量數(shù)據(jù)(如購(gòu)買歷史、定價(jià)或庫(kù)存記錄)中生成個(gè)性化體驗(yàn)。
Claude 3.5 Haiku 將于本月晚些時(shí)候通過(guò) Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作為僅限文本的模型,隨后將支持圖像輸入。






























