一夜之間，大模型像人一樣操控電腦了！Claude 3.5重磅升級(jí)，搶先OpenAI

作者：機(jī)器之心 2024-10-23 08:54:07

幾個(gè)小時(shí)前，Claude 3.5 模型迎來(lái)了一波大更新。Anthropic 推出了升級(jí)版的 Claude 3.5 Sonnet 以及一款新模型 Claude 3.5 Haiku。

其中，升級(jí)版 Claude 3.5 Sonnet 的各項(xiàng)能力全面勝過(guò)之前版本，其中代碼能力提升顯著。Claude 3.5 Haiku 的性能則與之前最大模型 Claude 3 Opus 的性能相當(dāng)，同時(shí)在成本和速度上與上一代 Haiku 相近。

最值得關(guān)注的是，Claude 3.5 Sonnet 版本號(hào)雖未提升，但卻迎來(lái)了史詩(shī)級(jí)大更新：能像人一樣使用計(jì)算機(jī)了！

最新版本的 Claude 3.5 Sonnet 能夠根據(jù)用戶指令移動(dòng)光標(biāo)、點(diǎn)擊相應(yīng)位置以及通過(guò)虛擬鍵盤輸入信息，模仿人類與計(jì)算機(jī)的交互方式。

Anthropic 表示，Claude 3.5 Sonnet 是首個(gè)提供「計(jì)算機(jī)使用」能力公開(kāi) beta 測(cè)試的前沿 AI 模型，不過(guò)其也指出目前該工具還處于實(shí)驗(yàn)階段 —— 有時(shí)候會(huì)很麻煩且容易出錯(cuò)。目前這個(gè)功能更多地是面向開(kāi)發(fā)者，以便獲得他們的使用反饋。

目前，「使用計(jì)算機(jī)」功能已經(jīng)有了公開(kāi)測(cè)試版，大家可以申請(qǐng)?jiān)囉谩Ｉ暾?qǐng)表單：https://docs.google.com/forms/d/e/1FAIpQLSeD3IqITWsuepB19SEv889HsBvN9WOi6HRblPrJNyA9G7q02w/viewform

該功能發(fā)布后，網(wǎng)友紛紛點(diǎn)贊，都表示迫不及待想要嘗試這個(gè)功能；當(dāng)然也有網(wǎng)友對(duì) Claude 3.5 Sonnet 依然使用原來(lái)的名稱表達(dá)了深深地不解：「為什么這么大的更新卻連模型版本號(hào)都不改一下？」

并且發(fā)布不過(guò)幾個(gè)小時(shí)，就已經(jīng)有開(kāi)發(fā)者嘗試了 Claude 3.5 Sonnet 的這項(xiàng)新能力。網(wǎng)友 Mckay Wrigley 表示通過(guò) API 使用這項(xiàng)新功能，設(shè)置時(shí)間不超過(guò) 10 分鐘，而這項(xiàng)能力卻能為 AI 開(kāi)啟無(wú)限可能，堪稱 game changer。

順帶一提，在 Anthropic 更新 Claude 3.5 的同時(shí)，熱門 AI 編程工具 Cursor 也已經(jīng)成功接入 Claude 系列模型。根據(jù)許多網(wǎng)友分享的截圖，接入 Cursor 的 Claude 3.5 Sonnet 正是最新的 20241022 版本！

另外，對(duì)于官方博客中缺少的與 OpenAI ο1 模型的性能對(duì)比，也已經(jīng)有研究者搶先完成了。根據(jù)研究者 Austin Starks 的實(shí)驗(yàn)，最新版 Claude 3.5 Sonnet 的性能表現(xiàn)優(yōu)于 OpenAI ο1-mini。他自己也對(duì)這一結(jié)果深表震驚。

詳細(xì)報(bào)告請(qǐng)?jiān)L問(wèn)：https://medium.com/@austin-starks/claudes-new-3-5-sonnet-outperformed-openai-s-o1-mini-i-m-shocked-58c9ee1993ea

讓 AI 使用計(jì)算機(jī)有什么用？

為什么說(shuō)這個(gè)功能很重要？我們知道，現(xiàn)代的大量工作都是通過(guò)計(jì)算機(jī)完成的。如果能讓 AI 像人類一樣直接與計(jì)算機(jī)軟件交互，將解鎖大量當(dāng)前一代 AI 助手無(wú)法實(shí)現(xiàn)的應(yīng)用。

過(guò)去幾年，強(qiáng) AI 已經(jīng)實(shí)現(xiàn)了一個(gè)又一個(gè)里程碑，舉個(gè)例子，現(xiàn)在的強(qiáng) AI 已經(jīng)有能力執(zhí)行復(fù)雜的邏輯推理和理解圖像內(nèi)容。下一個(gè)前沿就是使用計(jì)算機(jī)，AI 模型不必通過(guò)定制工具進(jìn)行交互，而是能夠遵照指示使用幾乎任何軟件。

Anthropic 表示，他們之前在工具使用和多模態(tài)方面的工作為這些新的計(jì)算機(jī)使用技能奠定了基礎(chǔ)。

操作計(jì)算機(jī)需要查看和解釋圖像的能力 —— 這里的圖像就是指計(jì)算機(jī)屏幕。它還需要推理能力，以了解以怎樣的方式在什么時(shí)間執(zhí)行特定的操作。整合這些能力后，Claude 便可具備解讀屏幕內(nèi)容并使用軟件工具執(zhí)行任務(wù)的能力。

該公司舉了個(gè)例子：如果用戶是一名開(kāi)發(fā)者，使用的軟件有好幾個(gè)，同時(shí)也已經(jīng)給予了 Claude 適當(dāng)?shù)臋?quán)限，那么 Claude 就可以查看用戶能看到的屏幕，然后統(tǒng)計(jì)其所要移動(dòng)的垂直和水平像素的數(shù)量，從而點(diǎn)擊到正確位置。因此，準(zhǔn)確統(tǒng)計(jì)像素?cái)?shù)量的能力對(duì) Claude 而言至關(guān)重要。沒(méi)有這項(xiàng)技能，模型就難以發(fā)出鼠標(biāo)指令 —— 類似于模型難以解決「banana 中有多少個(gè) A？」這樣的問(wèn)題。

Anthropic 表示，在訓(xùn)練 Claude 使用計(jì)算機(jī)方面，僅使用少量簡(jiǎn)單軟件（比如一個(gè)計(jì)算器和一個(gè)文本編輯器）進(jìn)行的訓(xùn)練就讓 Claude 可以泛化這種能力。這一點(diǎn)讓開(kāi)發(fā)團(tuán)隊(duì)自己都深感驚訝。至于為何使用這樣的簡(jiǎn)單軟件，該團(tuán)隊(duì)表示：「出于安全原因，我們并不允許模型在訓(xùn)練時(shí)訪問(wèn)互聯(lián)網(wǎng)。」

再結(jié)合 Claude 的其它能力，這種訓(xùn)練賦予了它非凡的能力，可以將用戶的文本提示詞轉(zhuǎn)化為一系列邏輯步驟，然后在計(jì)算機(jī)上采取行動(dòng)。開(kāi)發(fā)團(tuán)隊(duì)觀察到，如果遇阻，該模型甚至還能自我糾錯(cuò)并重試任務(wù)。

他們表示：「雖然我們?cè)谌〉贸醪酵黄坪蠛芸炀腿〉昧撕罄m(xù)進(jìn)展，但達(dá)到這一目標(biāo)的過(guò)程經(jīng)歷了大量反復(fù)試驗(yàn)。」該公司的一些研究者指出，讓 Claude 具備使用計(jì)算機(jī)的能力接近他們剛開(kāi)始從事該領(lǐng)域時(shí)所描繪的 AI 研究的「理想化」過(guò)程：不斷迭代和反復(fù)回到繪圖板，直到取得進(jìn)展。

終于，研究獲得了回報(bào)。目前，Claude 可以說(shuō)是當(dāng)之無(wú)愧的 SOTA 模型，其使用計(jì)算機(jī)的方式與人類相同 —— 即查看屏幕再采取行動(dòng)。在 OSWorld 這項(xiàng)測(cè)試模型使用計(jì)算機(jī)的能力的評(píng)估基準(zhǔn)上，Claude 當(dāng)前的準(zhǔn)確度為 14.9%，雖然遠(yuǎn)遠(yuǎn)不及人類水平（通常為 70-75%），但卻遠(yuǎn)高于在此基準(zhǔn)上排名第二的 AI 模型（7.8%）。當(dāng)給予更多的步驟來(lái)完成任務(wù)時(shí)，Claude 得分為 22.0%。

OSWorld 基準(zhǔn)上當(dāng)前排名前十的模型

確保計(jì)算機(jī)使用安全

人工智能的每一次進(jìn)步都會(huì)帶來(lái)新的安全挑戰(zhàn)。計(jì)算機(jī)的使用主要是降低人工智能系統(tǒng)應(yīng)用現(xiàn)有認(rèn)知技能的障礙，而不是從根本上提高這些技能，因此 Anthropic 對(duì)計(jì)算機(jī)使用的主要關(guān)注點(diǎn)是當(dāng)前的危害，而不是未來(lái)的危害。

Anthropic 通過(guò)評(píng)估計(jì)算機(jī)的使用是否會(huì)增加其《負(fù)責(zé)任擴(kuò)展政策》中列出的前沿威脅（frontier threats）的風(fēng)險(xiǎn)來(lái)證實(shí)這一點(diǎn)。更新后的 Claude 3.5 Sonnet，包括其新的計(jì)算機(jī)使用技能，仍處于 AI Safety Level 2，也就是說(shuō)，它不需要比 Anthropic 目前采取的安全措施更高標(biāo)準(zhǔn)的安全措施。

未來(lái)的模型可能會(huì)帶來(lái)災(zāi)難性的風(fēng)險(xiǎn)，計(jì)算機(jī)的使用可能會(huì)加劇這些風(fēng)險(xiǎn)，因此需要 AI Safety Level 3 或 4 的保障措施。Anthropic 認(rèn)為現(xiàn)在引入計(jì)算機(jī)使用可能會(huì)更好，而模型仍然只需要 AI Safety Level 2 的保障。這意味著可以在風(fēng)險(xiǎn)過(guò)高之前開(kāi)始解決任何安全問(wèn)題。

因此，Anthropic 的信任與安全團(tuán)隊(duì)對(duì)計(jì)算機(jī)使用模型進(jìn)行了廣泛的分析，以識(shí)別潛在的漏洞。他們發(fā)現(xiàn)的一個(gè)問(wèn)題是「提示詞注入」—— 一種網(wǎng)絡(luò)攻擊，會(huì)輸入惡意指令到人工智能模型，導(dǎo)致其要么覆蓋先前的指令，要么執(zhí)行偏離用戶原始意圖的意外操作。由于 Claude 可以解讀連接到互聯(lián)網(wǎng)的計(jì)算機(jī)的屏幕截圖，因此它可能會(huì)暴露于包含提示詞注入攻擊的內(nèi)容。

默認(rèn)情況下，Anthropic 不會(huì)使用用戶提交的數(shù)據(jù)（包括 Claude 收到的任何屏幕截圖）來(lái)訓(xùn)練其生成式 AI 模型。

「計(jì)算機(jī)使用」的未來(lái)

計(jì)算機(jī)的使用是一種完全不同的人工智能開(kāi)發(fā)方法。到目前為止，LLM 開(kāi)發(fā)人員已經(jīng)制作了適合模型的工具，生成了自定義環(huán)境，人工智能可以使用專門設(shè)計(jì)的工具來(lái)完成各種任務(wù)。

現(xiàn)在，Anthropic 的研究者可以讓模型適應(yīng)工具 —— Claude 可以融入我們?nèi)粘Ｊ褂玫挠?jì)算機(jī)環(huán)境中。他們的目標(biāo)是讓 Claude 能夠利用現(xiàn)有的計(jì)算機(jī)軟件，并像人類一樣簡(jiǎn)單地使用它們。

研究者構(gòu)建了一個(gè) API，使 Claude 能夠感知計(jì)算機(jī)界面并與之交互。該 API 使 Claude 能夠?qū)⑻崾驹~翻譯成計(jì)算機(jī)命令。開(kāi)發(fā)人員可以使用它來(lái)自動(dòng)執(zhí)行重復(fù)性任務(wù)、進(jìn)行測(cè)試和 QA 以及進(jìn)行開(kāi)放式研究。

研究者并沒(méi)有制作專門的工具來(lái)幫助 Claude 完成個(gè)別任務(wù)，而是教它通用的計(jì)算機(jī)技能，讓它能夠使用為人類設(shè)計(jì)的各種標(biāo)準(zhǔn)工具和軟件程序。

不過(guò)，Anthropic 還有很多工作要做。盡管目前 Claude 處于技術(shù)的最前沿，但它使用計(jì)算機(jī)的速度仍然緩慢且經(jīng)常出錯(cuò)。人們?cè)谟?jì)算機(jī)上常規(guī)進(jìn)行的許多操作（如拖動(dòng)、縮放等）Claude 還無(wú)法完成。

對(duì)于 Claude 來(lái)說(shuō)，它觀察到的屏幕「翻頁(yè)」方式 —— 是通過(guò)拍攝屏幕截圖并將它們拼接起來(lái)的方式，而不是觀察更細(xì)粒度的視頻流。這種方式意味著 Claude 可能會(huì)錯(cuò)過(guò)那些短暫的操作或通知。

甚至在錄制計(jì)算機(jī)使用演示時(shí)，研究者也遇到了一些有趣的錯(cuò)誤。其中一個(gè)錯(cuò)誤是，Claude 不小心點(diǎn)擊停止了長(zhǎng)時(shí)間的屏幕錄制，導(dǎo)致所有鏡頭都丟失。另一個(gè)錯(cuò)誤是，Claude 突然中斷了現(xiàn)場(chǎng)的編碼演示，開(kāi)始瀏覽黃石國(guó)家公園的照片。

研究者預(yù)期對(duì)計(jì)算機(jī)的使用將迅速改進(jìn)，變得更快、更可靠，并更有助于用戶完成他們想要完成的任務(wù)。對(duì)于那些軟件開(kāi)發(fā)經(jīng)驗(yàn)較少的人來(lái)說(shuō)，實(shí)施起來(lái)也將變得更加容易。并且在每一個(gè)階段，研究人員都將與安全團(tuán)隊(duì)緊密合作，確保 Claude 的新功能更加安全。

Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 已經(jīng)開(kāi)始探索「計(jì)算機(jī)使用」的各種可能性，執(zhí)行那些需要幾十個(gè)、有時(shí)甚至幾百個(gè)步驟才能完成的任務(wù)。例如，Replit 正在利用 Claude 3.5 Sonnet 的計(jì)算機(jī)使用和 UI 導(dǎo)航能力，為其 Replit Agent 產(chǎn)品開(kāi)發(fā)一個(gè)關(guān)鍵功能，該功能可以在構(gòu)建應(yīng)用程序時(shí)評(píng)估這些應(yīng)用程序。

升級(jí)版的 Claude 3.5 Sonnet 現(xiàn)在對(duì)所有用戶開(kāi)放。從今天開(kāi)始，開(kāi)發(fā)者可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用「計(jì)算機(jī)使用」的測(cè)試版進(jìn)行構(gòu)建。新的 Claude 3.5 Haiku 將在本月晚些時(shí)候發(fā)布。

Claude 3.5 Sonnet：行業(yè)領(lǐng)先的軟件工程技能

更新版的 Claude 3.5 Sonnet 在行業(yè)基準(zhǔn)測(cè)試中顯示出廣泛的改進(jìn)，特別是在智能體編碼和工具使用任務(wù)上取得了顯著的提升。在編碼方面，其在 SWE-bench Verified 上的性能從 33.4% 提高到 49.0%，得分高于所有公開(kāi)可用的模型 —— 包括像 OpenAI o1-preview 這樣的推理模型和專為智能體編碼設(shè)計(jì)的專門系統(tǒng)。它在 TAU-bench 上的表現(xiàn)也有所提升，這是一個(gè)智能體工具使用任務(wù)，在零售領(lǐng)域的得分從 62.6% 提高到了 69.2%，在更具挑戰(zhàn)性的航空領(lǐng)域則從 36.0% 提高到了 46.0%。新的 Claude 3.5 Sonnet 以與其前代相同的價(jià)格和速度提供了這些改進(jìn)。

早期客戶反饋表明，升級(jí)版的 Claude 3.5 Sonnet 代表了 AI 驅(qū)動(dòng)編碼的重大飛躍。GitLab 針對(duì) DevSecOps 任務(wù)對(duì)該模型進(jìn)行了測(cè)試，發(fā)現(xiàn)它提供了更強(qiáng)的推理能力（在用例中高達(dá) 10%），并且沒(méi)有增加延遲，這使其成為驅(qū)動(dòng)多步驟軟件開(kāi)發(fā)流程的理想選擇。Cognition 使用新的 Claude 3.5 Sonnet 進(jìn)行自主 AI 評(píng)估，與前一版本相比，它在編碼、規(guī)劃和問(wèn)題解決方面經(jīng)歷了顯著的改進(jìn)。The Browser Company 在用于自動(dòng)化基于 Web 的工作流程時(shí)，注意到 Claude 3.5 Sonnet 的表現(xiàn)超過(guò)了他們之前測(cè)試過(guò)的每一個(gè)模型。

Claude 3.5 Haiku：SOTA 技術(shù)與性價(jià)比和速度的結(jié)合

Claude 3.5 Haiku 是 Anthropic 最快的模型的下一代。與 Claude 3 Haiku 的成本相同，速度相似，Claude 3.5 Haiku 在每項(xiàng)技能上都有改進(jìn)，并且在許多智能基準(zhǔn)測(cè)試上甚至超過(guò)了 Anthropic 上一代最大的模型 ——Claude 3 Opus。Claude 3.5 Haiku 在編碼任務(wù)上尤其強(qiáng)大。例如，它在 SWE-bench Verified 上的得分為 40.6%，超過(guò)了使用公開(kāi)可用的 SOTA 模型的許多智能體 —— 包括原始的 Claude 3.5 Sonnet 和 GPT-4o。

憑借低延遲、改進(jìn)的指令遵循和更準(zhǔn)確的工具使用，Claude 3.5 Haiku 非常適合面向用戶的產(chǎn)品、專門的 sub-agent 任務(wù)以及從大量數(shù)據(jù)（如購(gòu)買歷史、定價(jià)或庫(kù)存記錄）中生成個(gè)性化體驗(yàn)。

Claude 3.5 Haiku 將于本月晚些時(shí)候通過(guò) Anthropic 的第一方 API、Amazon Bedrock, 和谷歌云的 Vertex AI 提供 —— 最初作為僅限文本的模型，隨后將支持圖像輸入。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心