你的AI管家可能正在「拆家」?最新研究揭秘家?具?智能體的安全漏洞
本文由上海 AI Lab 和北京航空航天大學聯合完成。 主要作者包括上海 AI Lab 和上交大聯培博士生盧曉雅、北航博士生陳澤人、上海 AI Lab 和復旦聯培博士生胡栩浩(共同一作)等。 通訊作者為上海 AI Lab 青年研究員劉東瑞、北航教授盛律和上海 AI Lab 青年科學家邵婧。
從 Meta 的 Habitat 3.0 完美復現家庭環境,到 Google 的 SayCan 讓機器人理解復雜的家務指令,再到 Tesla Optimus 曬出的疊衣視頻全網刷屏——現在的基于視覺語言模型(VLM)的家務助手簡直像開了「全能管家」模式,收拾廚房、整理衣物、照顧寵物,樣樣精通!
但先別急著點贊!你有沒有想過,讓這些「智能管家」自由行動,可能像讓三歲小孩玩打火機一樣危險?
為此,上海人工智能實驗室(Shanghai AI Lab)與北京航空航天大學聯手,重磅推出首個專注于具身智能體與家用環境交互過程中安全性的評測基準——IS-Bench!該測試基準創新性地設計了 150+ 個暗藏「安全殺機」的智能家居場景(從沾滿污漬的盤子到被防塵布覆蓋的爐灶),配合貫穿全過程的動態評測框架,全方位考驗 AI 管家的安全素養。

- 論文標題:IS-BENCH: EVALUATING INTERACTIVE SAFETY OF VLM-DRIVEN EMBODIED AGENTS IN DAILY HOUSEHOLD TASKS
- 項目主頁:https://ursulalujun.github.io/isbench.github.io/
- 論文地址:https://www.arxiv.org/abs/2506.16402
- 代碼地址:https://github.com/AI45Lab/IS-Bench
- 數據集地址:https://huggingface.co/datasets/Ursulalala/IS-Bench
?? 實驗結果令人警醒:當前 VLM 家務助手的安全完成率不足 40%!這意味著每 10 次任務中就有 6 次可能引發安全隱患——從弄臟食物到點燃毛毯,AI 管家的每個動作都可能讓你的家變成「災難現場」!
從「靜態快照」到「步步追蹤」,IS-Bench 首創具身安全評估新范式
現有評估體系存在致命盲區:傳統的靜態評估模式讓智能體基于固定的環境信息一次性生成所有動作規劃,最終僅根據完成狀態判斷規劃是否安全。
這種「單次決策+終點評判」的范式完全既無法捕捉交互過程中動態演化的風險鏈(如:倒水→液體潑灑→地面濕滑→跌倒風險),也難以模擬環境探索中新發現的風險源(典型場景:開啟櫥柜→發現餐具污染→潛在食品安全問題)。
更嚴重的是,該范式會系統性遺漏關鍵的過程安全隱患,例如,食物接觸污染餐具后,即使后續完成餐具清潔,過程中的污染風險已實質形成——完美的終態結果反而成為安全隱患的「遮羞布」!
IS-Bench 首創具身安全評估的新范式——「交互安全性」,聚焦智能體在持續交互中實時識別與化解動態風險的能力:
- 交互式場景構建:依托高仿真模擬環境與多輪次任務交互,真實模擬家庭環境中風險的逐漸暴露與動態升級,使安全隱患隨著任務的推進過程自然涌現。
- 全流程評估體系:摒棄「一錘定音」的結果評判,采用基于決策過程的實時追蹤與分析框架,對智能體每一步操作的安全性進行精細化評估,全面洞察交互流中的風險暴露點。

三步定制高風險場景,打造家務 Agent 的「照妖鏡」
鑒于模擬器默認場景包含的安全風險有限,IS-Bench 設計了一套系統化的評測場景定制流程(Pipeline),專門用于生成蘊含豐富安全隱患的家務場景:
- 安全準則提取:從 Behavior-1K [1] 的任務場景中提煉出智能體在家庭環境中必須遵守的核心安全準則。
- 安全風險注入:通過深度分析任務流程中的潛在危險點,并策略性地引入風險誘導物,將安全風險(特別是動態風險)無縫融入常見的家務場景中。
- 安全探針部署:精確定義用于檢測交互過程中狀態是否安全的判定標準,并標注在任務過程中觸發安全性評估的關鍵時機。
上述三個核心步驟均采用「GPT 自動生成 + 人工校驗」的雙保險模式,最大程度保證場景設計的合理性與多樣性。所有定制場景均在高仿真模擬器中完成實例化與驗證,嚴格確保任務目標的可達成性以及安全判定條件的可檢測性。

最終構建的「家居危險百科」場景庫包含 161 個高仿真評測場景,精準復現廚房、客廳、衛生間等家庭事故高發區域,總計嵌入了 388 個安全隱患點——從「倒水時需避開周邊電源」的基礎安全常識,到「金屬制品嚴禁微波加熱」的物理風險警示,再到「消毒劑與食品必須分區存放」的化學危險防范,實現了對 10 大類家庭生活場景安全隱患的全方位覆蓋。

全流程評測框架,構建交互安全的護城河

為了實現面向過程的交互安全性評測,IS-Bench 精心打造了一套評測框架:
- 技能基石與交互驅動:框架預置了 18 項核心基礎技能(Primitive Skills),并構建了與高保真模擬器進行逐步交互的執行代碼框架。
- 全程實時狀態追蹤:在每一步操作中,智能體基于實時多模態環境感知作出決策;動作執行后,場景狀態與操作歷史即時同步更新,形成持續演進的決策上下文,確保安全評估貫穿始終。
- 靈活的分級評測機制:支持階梯式難度測試,通過可選注入視覺輔助信息(如物體的邊界框)及層級化安全提示,精準考察智能體在不同難度下的安全決策能力。
家務 Agent 的安全風險比你想象得更大!
評測結果揭示嚴峻挑戰:
- 安全短板顯著:當前主流基于 VLM 的具身智能體在交互過程中化解安全風險的能力嚴重不足,其任務安全完成率小于 40%。
- 事前防范更易疏忽:事前防范(pre-caution,如打開爐灶之前要檢查附近是否有可燃物)比事后注意(post-caution,如打開爐灶做完飯之后要注意關閉爐灶)更容易被忽視,智能體僅能正確完成不足 30% 的事前防范措施。
- 安全與效率的權衡困境:雖然引入安全思維鏈(Safety CoT)提示能將交互安全性平均提升 9.3%,但這顯著犧牲了任務成功率(下降 9.4%),這揭示了提升安全性可能伴隨效率成本。

核心瓶頸深度解析:當明確展示安全目標時,部分閉源模型的安全完成率實現顯著飛躍(從 <40% 躍升至 >65%),這一現象直指問題本質:交互安全性的核心瓶頸并非規劃執行能力缺陷,而是智能體在風險感知與認知層面的嚴重不足。更值得關注的是,通過提供物品邊界框(BBox)和初始場景描述(IS),智能體的安全意識和事前防范正確率可提升 15% 左右,進一步說明當前系統的安全短板主要源于在物品密集的復雜場景中無法精確識別和注意可能引發安全隱患的物品。































