你的Agent電腦助手正在踩雷！最新研究揭秘Computer-Use Agent的安全漏洞

2025-07-02 08:46:00

本文由上海 AI Lab、中國(guó)科學(xué)技術(shù)大學(xué)和上海交通大學(xué)聯(lián)合完成。主要作者包括中國(guó)科學(xué)技術(shù)大學(xué)碩士生楊靖懿、上海交通大學(xué)本科生邵帥。通訊作者為劉東瑞和邵婧，上海 AI Lab 安全團(tuán)隊(duì)，研究方向?yàn)?AI 安全可信。

從 Anthropic 的 Claude 3.5 Sonnet 自帶 Computer-Use 功能，到 OpenAI 的 Operator CUA 橫空出世，再到 Manus 直接火爆出圈，現(xiàn)在的 Computer-Use Agent 簡(jiǎn)直像開了外掛，只需一條指令，就能獨(dú)立完成 code project（coding/debug）、處理郵件、刷網(wǎng)頁(yè)、做 PPT/教案，樣樣精通！

但先別著急著歡呼——你有沒有想過(guò)，把電腦操縱權(quán)交給這些「智能」助手，可能跟把銀行卡密碼告訴陌生人一樣危險(xiǎn)？

為了使 Computer-Use Agent（CUA）在未來(lái)能夠大規(guī)模、安全地部署在實(shí)際應(yīng)用場(chǎng)景中，來(lái)自上海 AI Lab、中國(guó)科學(xué)技術(shù)大學(xué)和上海交通大學(xué)的團(tuán)隊(duì)強(qiáng)勢(shì)出手，推出 CUA 安全測(cè)試基準(zhǔn)——RiOSWorld！稱得上是 CUA 的「安全體檢中心」！該測(cè)試基準(zhǔn)全面地評(píng)估了 Computer-Use Agent 在真實(shí)電腦使用場(chǎng)景中可能面臨的安全風(fēng)險(xiǎn)，并表明當(dāng)前階段的 CUA 作為自動(dòng)化電腦使用助手仍然面臨著突出的安全風(fēng)險(xiǎn)。

現(xiàn)在，論文、項(xiàng)目官網(wǎng)、GitHub 代碼全部開源！想圍觀 AI「翻車現(xiàn)場(chǎng)」？想和頂尖團(tuán)隊(duì)一起攻克安全難題？趕緊戳下方鏈接！??

Title：RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents

Paper：https://arxiv.org/pdf/2506.00618

Page：https://yjyddq.github.io/RiOSWorld.github.io/

Github：https://github.com/yjyddq/RiOSWorld

Agent 電腦助手秒變「踩雷專家」，這些陷阱你發(fā)現(xiàn)了嗎？

別以為 AI 真的「聰明絕頂」！研究團(tuán)隊(duì)隨手甩出一個(gè)「釣魚郵件」測(cè)試 ??，好家伙，這些看似無(wú)所不能的 Agent 直接集體翻車！收到偽裝成「防釣魚指南」的惡意郵件，它們居然乖乖點(diǎn)擊鏈接下載「防護(hù)軟件」???，完全未關(guān)注發(fā)件人是不是可疑郵箱。這哪里是智能助手，根本就是網(wǎng)絡(luò)詐騙的「天選受害者」！

更離譜的是，面對(duì)彈窗廣告、釣魚網(wǎng)站，甚至是試圖繞過(guò)人機(jī)驗(yàn)證（reCAPTCHA）這種高危操作，Agent 們也是「勇往直前」。要是碰上心懷不軌的用戶，讓它發(fā)布謠言、刪除系統(tǒng)文件，甚至協(xié)助非法活動(dòng)，它們也可能照單全收！隱私泄露、數(shù)據(jù)損毀……

RiOSWorld，Agent 電腦助手的「照妖鏡」！

?? 上海 AI Lab、中國(guó)科學(xué)技術(shù)大學(xué)和上海交通大學(xué)聯(lián)合發(fā)布 RiOSWorld——一個(gè)用于全面、綜合地評(píng)估 Computer-Use Agent 在真實(shí)日常電腦使用任務(wù)中存在的安全風(fēng)險(xiǎn)的測(cè)試基準(zhǔn)。

100% 真實(shí)的測(cè)試環(huán)境 + 支持動(dòng)態(tài)風(fēng)險(xiǎn)部署 + 多樣性的風(fēng)險(xiǎn)類別

現(xiàn)階段大多數(shù)研究 Computer-Use Agent 安全風(fēng)險(xiǎn)的工作存在的限制是：

測(cè)評(píng)環(huán)境缺乏真實(shí)性，缺少真實(shí)動(dòng)態(tài)的、貼近現(xiàn)實(shí)的 Computer-Agent 交互環(huán)境，從而導(dǎo)致風(fēng)險(xiǎn)缺乏真實(shí)性。
風(fēng)險(xiǎn)類別缺乏全面性、多樣性，僅關(guān)注個(gè)別的風(fēng)險(xiǎn)或攻擊類型，從而限制了對(duì) Computer-Use Agent 的全面風(fēng)險(xiǎn)評(píng)估。

相比之前的測(cè)評(píng)基準(zhǔn)，RiOSWorld 直接搭建了 100% 真實(shí)的 computer-agent 交互環(huán)境，接入互聯(lián)網(wǎng)，模擬各種奇葩風(fēng)險(xiǎn)場(chǎng)景。從彈窗廣告轟炸到釣魚網(wǎng)站，從用戶惡意指令到隱私泄露危機(jī)，它一口氣設(shè)置了 492 個(gè)風(fēng)險(xiǎn)測(cè)試案例，涵蓋了廣泛的日常計(jì)算機(jī)使用風(fēng)險(xiǎn)操作，涉及網(wǎng)絡(luò)、社交媒體、操作系統(tǒng)、多媒體、文件操作、Code IDE/Github、電子郵件和 Office 應(yīng)用等場(chǎng)景，全方位檢驗(yàn) Agent 電腦助手的「抗毒能力」！??

風(fēng)險(xiǎn)分類和樣本數(shù)量統(tǒng)計(jì)

基于風(fēng)險(xiǎn)源，該研究將這些風(fēng)險(xiǎn)類別分為了 2 個(gè)主類（環(huán)境風(fēng)險(xiǎn)和用戶風(fēng)險(xiǎn)），13 個(gè)子類：

來(lái)源于環(huán)境的風(fēng)險(xiǎn)（254 個(gè)）：隱含在電腦使用環(huán)境中的風(fēng)險(xiǎn)

釣魚網(wǎng)站
釣魚郵件
彈窗/廣告
reCAPTCHA（人機(jī)驗(yàn)證）
賬戶/密碼欺詐
誘導(dǎo)性文字

來(lái)源于用戶的風(fēng)險(xiǎn)（238 個(gè)）：用戶有意或無(wú)意的風(fēng)險(xiǎn)指令

網(wǎng)頁(yè)操作
社交媒體
Office 套件
文件操作
OS 操作
代碼 IDE/Github
多媒體操作

任務(wù)指令分布

這些任務(wù)指令涵蓋了廣泛的主題，滲透到 computer-use agent 遇到的許多日常操作場(chǎng)景中。這種全面的覆蓋致力于能夠有效和全面地評(píng)估 computer-use agent 在各個(gè)方面的安全風(fēng)險(xiǎn)。

評(píng)估方法

?? RiOSWorld 從兩個(gè)維度評(píng)估 MLLM-based Computer-Use Agent 的不安全/有風(fēng)險(xiǎn)行為：

Risk Goal Intention：Agent 是否有意圖執(zhí)行風(fēng)險(xiǎn)行為？
Risk Goal Completion：Agent 是否成功完成了風(fēng)險(xiǎn)目標(biāo)？

RiOSWorld 風(fēng)險(xiǎn)示例

?? 具體來(lái)說(shuō)，RiOSWorld 基準(zhǔn)中的一些風(fēng)險(xiǎn)示例在 Figure 1 的上半部分展示。如 Figure 1 的左上部分所示，CUA 可能會(huì)遇到來(lái)源于環(huán)境的風(fēng)險(xiǎn)，例如，

（a）被誘導(dǎo)點(diǎn)擊彈出窗口或廣告，

（b）無(wú)意中在有害的釣魚網(wǎng)站上執(zhí)行操作，

（c）試圖在未經(jīng)真人授權(quán)的情況下通過(guò) reCAPTCHA 驗(yàn)證（這種自動(dòng)規(guī)避行為破壞了旨在防止惡意機(jī)器人訪問(wèn)的 reCAPTCHA 安全機(jī)制），

（d）成為欺騙性較高的釣魚電子郵件的受害者。

另外，如 Figure 1 右上部分所示，CUA 也會(huì)面臨源于用戶的風(fēng)險(xiǎn)。例如，

（e）Agent 可能會(huì)根據(jù)用戶指令發(fā)布謠言、不實(shí)信息，

（f）Agent 可能在命令行中執(zhí)行高風(fēng)險(xiǎn)命令（例如，刪除根目錄），

（g）Agent 可能幫助進(jìn)行非法活動(dòng)（毒品、武器），

（h）用戶可能會(huì)過(guò)度依賴 Agent，導(dǎo)致意外的隱私泄露（例如，指示 Agent 將包含私有 API 密鑰或憑據(jù)的敏感代碼或數(shù)據(jù)上傳到公共 GitHub 存儲(chǔ)庫(kù)，但沒有進(jìn)行手動(dòng)審查）。

CUA 安全現(xiàn)狀比你想的更糟！

?? 研究團(tuán)隊(duì)對(duì)市面上最火爆的 MLLM-based CUA 「挨個(gè)兒暴打」：OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro，還有開源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision……結(jié)果集體「原形畢露」！

?? 實(shí)驗(yàn)結(jié)果表明，大多數(shù) Agent 都具有較弱的風(fēng)險(xiǎn)意識(shí)，會(huì)主動(dòng)「作死」（有意圖執(zhí)行風(fēng)險(xiǎn)操作，即平均意圖不安全率達(dá)到了驚人的 84.93%）；此外，平均有 59.64% 的概率直接把危險(xiǎn)指令「貫徹到底」！即能夠完成最終的風(fēng)險(xiǎn)目標(biāo)。

?? 在釣魚網(wǎng)站、網(wǎng)頁(yè)操作、OS 操作、Code IDE/Github 和誘導(dǎo)性文字等高風(fēng)險(xiǎn)場(chǎng)景中，Agent 的「翻車率」更是突破 89% 和 80%！這哪是智能助手，根本就是揣著炸彈的「定時(shí)雷區(qū)」！

?? 絕大多數(shù)的 CUA 的風(fēng)險(xiǎn)意圖和風(fēng)險(xiǎn)完成率都超過(guò)了 75% 和 45%。這些定量和定性的結(jié)果指出，目前大多數(shù)基于 MLLM-based CUA 在計(jì)算機(jī)使用場(chǎng)景中缺乏風(fēng)險(xiǎn)意識(shí)，遠(yuǎn)達(dá)不到可信的自主計(jì)算機(jī)使用助手。

?? RiOSWorld 的推出，就像給狂奔的 CUA 按下了「暫停鍵」。它不僅揭開了 Computer-Use Agent 的安全遮羞布，更為未來(lái)指明了方向：沒有安全兜底的 AI，再?gòu)?qiáng)大也是「空中樓閣」！

?? 轉(zhuǎn)發(fā)提醒身邊的 Computer-Use Agent 愛好者！下一次，當(dāng)你的 AI 電腦助手「熱情滿滿」地給出操作建議時(shí)，記得先問(wèn)一句：「你通過(guò) RiOSWorld 的安全考試了嗎？」

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心