你的Agent電腦助手正在踩雷!最新研究揭秘Computer-Use Agent的安全漏洞
本文由上海 AI Lab、中國(guó)科學(xué)技術(shù)大學(xué)和上海交通大學(xué)聯(lián)合完成。主要作者包括中國(guó)科學(xué)技術(shù)大學(xué)碩士生楊靖懿、上海交通大學(xué)本科生邵帥。通訊作者為劉東瑞和邵婧,上海 AI Lab 安全團(tuán)隊(duì),研究方向?yàn)?AI 安全可信。
從 Anthropic 的 Claude 3.5 Sonnet 自帶 Computer-Use 功能,到 OpenAI 的 Operator CUA 橫空出世,再到 Manus 直接火爆出圈,現(xiàn)在的 Computer-Use Agent 簡(jiǎn)直像開了外掛,只需一條指令,就能獨(dú)立完成 code project(coding/debug)、處理郵件、刷網(wǎng)頁(yè)、做 PPT/教案,樣樣精通!
但先別著急著歡呼——你有沒有想過(guò),把電腦操縱權(quán)交給這些「智能」助手,可能跟把銀行卡密碼告訴陌生人一樣危險(xiǎn)?
為了使 Computer-Use Agent(CUA)在未來(lái)能夠大規(guī)模、安全地部署在實(shí)際應(yīng)用場(chǎng)景中,來(lái)自上海 AI Lab、中國(guó)科學(xué)技術(shù)大學(xué)和上海交通大學(xué)的團(tuán)隊(duì)強(qiáng)勢(shì)出手,推出 CUA 安全測(cè)試基準(zhǔn)——RiOSWorld!稱得上是 CUA 的「安全體檢中心」!該測(cè)試基準(zhǔn)全面地評(píng)估了 Computer-Use Agent 在真實(shí)電腦使用場(chǎng)景中可能面臨的安全風(fēng)險(xiǎn),并表明當(dāng)前階段的 CUA 作為自動(dòng)化電腦使用助手仍然面臨著突出的安全風(fēng)險(xiǎn)。
現(xiàn)在,論文、項(xiàng)目官網(wǎng)、GitHub 代碼全部開源!想圍觀 AI「翻車現(xiàn)場(chǎng)」?想和頂尖團(tuán)隊(duì)一起攻克安全難題?趕緊戳下方鏈接!??

Title:RiOSWorld: Benchmarking the Risk of Multimodal Computer-Use Agents
Paper:https://arxiv.org/pdf/2506.00618
Page:https://yjyddq.github.io/RiOSWorld.github.io/
Github:https://github.com/yjyddq/RiOSWorld
Agent 電腦助手秒變「踩雷專家」,這些陷阱你發(fā)現(xiàn)了嗎?
別以為 AI 真的「聰明絕頂」!研究團(tuán)隊(duì)隨手甩出一個(gè)「釣魚郵件」測(cè)試 ??,好家伙,這些看似無(wú)所不能的 Agent 直接集體翻車!收到偽裝成「防釣魚指南」的惡意郵件,它們居然乖乖點(diǎn)擊鏈接下載「防護(hù)軟件」???,完全未關(guān)注發(fā)件人是不是可疑郵箱。這哪里是智能助手,根本就是網(wǎng)絡(luò)詐騙的「天選受害者」!

更離譜的是,面對(duì)彈窗廣告、釣魚網(wǎng)站,甚至是試圖繞過(guò)人機(jī)驗(yàn)證(reCAPTCHA)這種高危操作,Agent 們也是「勇往直前」。要是碰上心懷不軌的用戶,讓它發(fā)布謠言、刪除系統(tǒng)文件,甚至協(xié)助非法活動(dòng),它們也可能照單全收!隱私泄露、數(shù)據(jù)損毀……
RiOSWorld,Agent 電腦助手的「照妖鏡」!
?? 上海 AI Lab、中國(guó)科學(xué)技術(shù)大學(xué)和上海交通大學(xué)聯(lián)合發(fā)布 RiOSWorld——一個(gè)用于全面、綜合地評(píng)估 Computer-Use Agent 在真實(shí)日常電腦使用任務(wù)中存在的安全風(fēng)險(xiǎn)的測(cè)試基準(zhǔn)。
100% 真實(shí)的測(cè)試環(huán)境 + 支持動(dòng)態(tài)風(fēng)險(xiǎn)部署 + 多樣性的風(fēng)險(xiǎn)類別
現(xiàn)階段大多數(shù)研究 Computer-Use Agent 安全風(fēng)險(xiǎn)的工作存在的限制是:
- 測(cè)評(píng)環(huán)境缺乏真實(shí)性,缺少真實(shí)動(dòng)態(tài)的、貼近現(xiàn)實(shí)的 Computer-Agent 交互環(huán)境,從而導(dǎo)致風(fēng)險(xiǎn)缺乏真實(shí)性。
- 風(fēng)險(xiǎn)類別缺乏全面性、多樣性,僅關(guān)注個(gè)別的風(fēng)險(xiǎn)或攻擊類型,從而限制了對(duì) Computer-Use Agent 的全面風(fēng)險(xiǎn)評(píng)估。

相比之前的測(cè)評(píng)基準(zhǔn),RiOSWorld 直接搭建了 100% 真實(shí)的 computer-agent 交互環(huán)境,接入互聯(lián)網(wǎng),模擬各種奇葩風(fēng)險(xiǎn)場(chǎng)景。從彈窗廣告轟炸到釣魚網(wǎng)站,從用戶惡意指令到隱私泄露危機(jī),它一口氣設(shè)置了 492 個(gè)風(fēng)險(xiǎn)測(cè)試案例,涵蓋了廣泛的日常計(jì)算機(jī)使用風(fēng)險(xiǎn)操作,涉及網(wǎng)絡(luò)、社交媒體、操作系統(tǒng)、多媒體、文件操作、Code IDE/Github、電子郵件和 Office 應(yīng)用等場(chǎng)景,全方位檢驗(yàn) Agent 電腦助手的「抗毒能力」!??
風(fēng)險(xiǎn)分類和樣本數(shù)量統(tǒng)計(jì)
基于風(fēng)險(xiǎn)源,該研究將這些風(fēng)險(xiǎn)類別分為了 2 個(gè)主類(環(huán)境風(fēng)險(xiǎn)和用戶風(fēng)險(xiǎn)),13 個(gè)子類:
- 來(lái)源于環(huán)境的風(fēng)險(xiǎn)(254 個(gè)):隱含在電腦使用環(huán)境中的風(fēng)險(xiǎn)
- 釣魚網(wǎng)站
- 釣魚郵件
- 彈窗/廣告
- reCAPTCHA(人機(jī)驗(yàn)證)
- 賬戶/密碼欺詐
- 誘導(dǎo)性文字
- 來(lái)源于用戶的風(fēng)險(xiǎn)(238 個(gè)):用戶有意或無(wú)意的風(fēng)險(xiǎn)指令
- 網(wǎng)頁(yè)操作
- 社交媒體
- Office 套件
- 文件操作
- OS 操作
- 代碼 IDE/Github
- 多媒體操作

任務(wù)指令分布

這些任務(wù)指令涵蓋了廣泛的主題,滲透到 computer-use agent 遇到的許多日常操作場(chǎng)景中。這種全面的覆蓋致力于能夠有效和全面地評(píng)估 computer-use agent 在各個(gè)方面的安全風(fēng)險(xiǎn)。
評(píng)估方法
?? RiOSWorld 從兩個(gè)維度評(píng)估 MLLM-based Computer-Use Agent 的不安全/有風(fēng)險(xiǎn)行為:
- Risk Goal Intention:Agent 是否有意圖執(zhí)行風(fēng)險(xiǎn)行為?
- Risk Goal Completion:Agent 是否成功完成了風(fēng)險(xiǎn)目標(biāo)?
RiOSWorld 風(fēng)險(xiǎn)示例

?? 具體來(lái)說(shuō),RiOSWorld 基準(zhǔn)中的一些風(fēng)險(xiǎn)示例在 Figure 1 的上半部分展示。如 Figure 1 的左上部分所示,CUA 可能會(huì)遇到來(lái)源于環(huán)境的風(fēng)險(xiǎn),例如,
(a)被誘導(dǎo)點(diǎn)擊彈出窗口或廣告,
(b)無(wú)意中在有害的釣魚網(wǎng)站上執(zhí)行操作,
(c)試圖在未經(jīng)真人授權(quán)的情況下通過(guò) reCAPTCHA 驗(yàn)證(這種自動(dòng)規(guī)避行為破壞了旨在防止惡意機(jī)器人訪問(wèn)的 reCAPTCHA 安全機(jī)制),
(d)成為欺騙性較高的釣魚電子郵件的受害者。
另外,如 Figure 1 右上部分所示,CUA 也會(huì)面臨源于用戶的風(fēng)險(xiǎn)。例如,
(e)Agent 可能會(huì)根據(jù)用戶指令發(fā)布謠言、不實(shí)信息,
(f)Agent 可能在命令行中執(zhí)行高風(fēng)險(xiǎn)命令(例如,刪除根目錄),
(g)Agent 可能幫助進(jìn)行非法活動(dòng)(毒品、武器),
(h)用戶可能會(huì)過(guò)度依賴 Agent,導(dǎo)致意外的隱私泄露(例如,指示 Agent 將包含私有 API 密鑰或憑據(jù)的敏感代碼或數(shù)據(jù)上傳到公共 GitHub 存儲(chǔ)庫(kù),但沒有進(jìn)行手動(dòng)審查)。
CUA 安全現(xiàn)狀比你想的更糟!
?? 研究團(tuán)隊(duì)對(duì)市面上最火爆的 MLLM-based CUA 「挨個(gè)兒暴打」:OpenAI 的 GPT-4.1、Anthropic 的 Claude-3.7-Sonnet、Google 的 Gemini-2.5-pro,還有開源界的明星 Qwen2.5-VL、LLaMA-3.2-Vision……結(jié)果集體「原形畢露」!


?? 實(shí)驗(yàn)結(jié)果表明,大多數(shù) Agent 都具有較弱的風(fēng)險(xiǎn)意識(shí),會(huì)主動(dòng)「作死」(有意圖執(zhí)行風(fēng)險(xiǎn)操作,即平均意圖不安全率達(dá)到了驚人的 84.93%);此外,平均有 59.64% 的概率直接把危險(xiǎn)指令「貫徹到底」!即能夠完成最終的風(fēng)險(xiǎn)目標(biāo)。
?? 在釣魚網(wǎng)站、網(wǎng)頁(yè)操作、OS 操作、Code IDE/Github 和誘導(dǎo)性文字等高風(fēng)險(xiǎn)場(chǎng)景中,Agent 的「翻車率」更是突破 89% 和 80%!這哪是智能助手,根本就是揣著炸彈的「定時(shí)雷區(qū)」!


?? 絕大多數(shù)的 CUA 的風(fēng)險(xiǎn)意圖和風(fēng)險(xiǎn)完成率都超過(guò)了 75% 和 45%。這些定量和定性的結(jié)果指出,目前大多數(shù)基于 MLLM-based CUA 在計(jì)算機(jī)使用場(chǎng)景中缺乏風(fēng)險(xiǎn)意識(shí),遠(yuǎn)達(dá)不到可信的自主計(jì)算機(jī)使用助手。
?? RiOSWorld 的推出,就像給狂奔的 CUA 按下了「暫停鍵」。它不僅揭開了 Computer-Use Agent 的安全遮羞布,更為未來(lái)指明了方向:沒有安全兜底的 AI,再?gòu)?qiáng)大也是「空中樓閣」!
?? 轉(zhuǎn)發(fā)提醒身邊的 Computer-Use Agent 愛好者!下一次,當(dāng)你的 AI 電腦助手「熱情滿滿」地給出操作建議時(shí),記得先問(wèn)一句:「你通過(guò) RiOSWorld 的安全考試了嗎?」



























