精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態大模型存在「內心預警」,無需訓練,就能識別越獄攻擊

人工智能 新聞
安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。

多模態大模型崛起,安全問題緊隨其后

近年來,大語言模型(LLMs)的突破式進展,催生了視覺語言大模型(LVLMs)的快速興起,代表作如 GPT-4V、LLaVA 等。通過將圖像與文本深度融合,LVLMs 在圖文問答、視覺推理等任務中大放異彩。但與此同時,一個嚴峻的問題也悄然浮現 ——LVLMs 比起純文本模型更容易被 “越獄”。攻擊者僅需通過圖像注入危險意圖,即使搭配直白的指令,模型也往往難以拒絕。

為應對這一挑戰,已有方法嘗試用跨模態安全微調、系統提示詞設計或外部判別模塊來加固模型防線。然而,這些方法普遍存在訓練成本高、泛化能力差、甚至誤判正常輸入的風險。

模型其實 “心里有數”:越獄時隱藏狀態在報警

來自香港中文大學 MMLab 與淘天集團未來生活實驗室的研究者提出了 HiddenDetect—— 種無需訓練的越獄檢測新方法。核心作者包括姜一雷,譚映水,高欣顏,岳翔宇。

他們的核心發現是:即使 LVLMs 表面上被越獄、生成了不當內容,其隱藏狀態中依然保留著拒絕的信號。特別是在模型的中間層,這些信號往往比最終輸出更早、更敏感地 “察覺” 到潛在風險。更有趣的是,文字輸入和圖像輸入會激活完全不同的 “安全通路”,也就是說,LVLMs 對不同模態的 “危險感知” 機制是有區分的。

論文已被 ACL2025 main conference 收錄。

圖片

  • 項目開源 github 鏈接:https://github.com/leigest519/hiddendetect
  • arxiv 鏈接:https://arxiv.org/abs/2502.14744

從 “拒絕語義” 中解碼多模態大模型的安全感知

圖片

圖 1: 基于模型自身激活模式的多模態越獄檢測方法。

首先,研究者從模型拒絕回答不安全輸入的響應中,統計出一組高頻出現的、具有明確拒絕語義的 token(如 “sorry”, “unable”, “unfortunately” 等),并利用 one-hot 編碼的方式,在詞匯空間中構造出一個 “拒絕語義向量” (RV),作為模型拒絕行為的表示。隨后,研究者將模型各層的隱藏狀態通過反嵌入層投影回詞匯空間,并計算出其與 RV 的余弦相似度,以此衡量當前層所包含的拒絕語義強度。該過程會生成一個長度等于模型層數的向量 F,用于刻畫模型在各層對拒絕語義的激活強度。

圖片

實驗結果顯示,F 在安全與不安全輸入之間存在顯著差異:對于安全樣本,F 的整體數值普遍較低;而對于不安全輸入,F 通常在中間層逐步升高至峰值,隨后在最后幾層出現明顯回落。此外,無論輸入是否安全,F 在最后一層的數值仍普遍高于倒數第二層,表明模型在最終輸出前仍保留一定的拒絕傾向。

為進一步分析模型的安全響應機制,研究者構建了三個小樣本輸入集,分別用于衡量模型在不同類型輸入下的拒絕激活表現。其中,安全輸入集由無害樣本組成,既包含純文本輸入,也包含圖文組合輸入;另兩個不安全輸入集則分別對應純文本攻擊樣本和圖文聯合的攻擊樣本。

圖片

如圖 2 所示,每組樣本都計算出其對應的拒絕強度向量 F,并將不安全輸入的 F 與安全輸入的 F 相減,得到 “拒絕差異向量” (FDV),用于衡量模型在處理不安全輸入時相較于安全輸入所產生的激活差異。

圖片

圖片

圖 2: 通過少樣本分析方法,識別出模型中對安全最敏感的關鍵層。

模態不同,響應路徑也不同

如圖 3 所示,兩種模態的 FDV 曲線均表明模型在部分中間層對拒絕信號的響應強度顯著高于輸出層,說明這些中間層對安全性更加敏感。具體而言,文本輸入的拒絕激活差異在較早的層級便迅速增強,而圖文輸入的響應整體偏后,且強度相對較弱,說明視覺模態的引入在一定程度上削弱了模型拒答機制的早期響應能力。

圖片

圖 3:純文本樣本和跨模態樣本的 FDV 曲線。

實驗還發現如果模型對拒絕信號的強激活集中在更靠后的層,或者整體激活強度變弱,越獄攻擊就更容易成功。有趣的是,研究者發現,僅僅為一條文本攻擊提示加上一張圖片,就可能讓模型的拒絕反應變得延遲,原本中層就能激活的拒絕信號被 “推遲” 到了后層,整體響應強度也降低,從而削弱了模型的安全防護能力。

最終,該小樣本分析方法通過 FDV 值成功定位了模型中對不同模態輸入安全性最敏感的層。研究者將模型最后一層的差異值作為參考基線,因其對部分不安全輸入缺乏足夠辨別力;而那些 FDV 顯著高于末層的中間層,通常具備更強的安全判別能力。

圖片

進一步地,只需累積在這些關鍵層上的拒絕激活強度,便可有效識別潛在的不安全樣本,從而構建出一個高效、無需訓練、具備良好泛化能力的越獄檢測機制。

圖片

實驗結果

研究團隊在多個主流 LVLM(包括 LLaVA、CogVLM 和 Qwen-VL)上系統評估了所提出的檢測方法,涵蓋純文本越獄(如 FigTxt)和跨模態圖文攻擊(如 FigImg 和 MM-SafetyBench)等多種攻擊類型。此外,研究者還在 XSTest 數據集上測試了方法的穩健性。該數據集包含一些安全但易被誤判的邊界樣本,常用于評估檢測方法是否過度敏感。實驗結果表明,該方法在保持高檢測效果的同時,具備良好的魯棒性和泛化能力。

圖片

可視化

圖片

圖 4:每一層隱藏狀態中最后一個 token 的 logits 被投影到由拒絕向量(RV)及其正交方向構成的語義平面。

結論與展望

安全是大模型走向真實世界應用過程中必須優先考慮的問題。HiddenDetect 提出了一種無需訓練、基于激活信號的檢測方法,為提升多模態模型的安全性提供了新的思路。該方法結構輕量、部署靈活,已在多個模型與攻擊類型中展現出良好效果。盡管如此,該方法目前仍主要聚焦于風險提示,尚未對模型行為產生直接調控。未來,研究團隊希望進一步拓展方法能力,并深入探索模態信息與模型安全性的內在關聯,推動多模態大模型朝著更可靠、更可控的方向發展。

作者團隊來自淘天集團算法技術 - 未來實驗室團隊和香港中文大學 MMLab。未來生活實驗室致力于建設面向未來的生活和消費方式,進一步提升用戶體驗和商家經營效果。實驗室聚焦大模型、多模態等 AI 技術方向,致力于打造大模型相關基礎算法、模型能力和各類 AINative 應用,引領 AI 在生活消費領域的技術創新。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-17 16:02:00

2025-01-08 08:21:16

2023-12-28 17:31:44

PixelLM性能模型

2025-09-08 08:50:00

AI模型訓練

2025-04-07 00:00:00

多模態大模型

2024-12-12 00:25:09

2025-09-16 09:35:52

2025-10-16 09:00:00

2023-07-04 10:11:28

數據模型

2023-11-29 15:00:00

數據訓練

2024-12-30 00:01:00

多模態大模型Python

2024-12-18 18:57:58

2024-11-13 09:39:13

2024-09-25 14:53:00

2024-03-25 12:30:18

AI訓練開源

2023-11-20 08:52:46

模型訓練

2024-11-11 15:11:23

2024-06-03 06:49:53

點贊
收藏

51CTO技術棧公眾號

99精品国产一区二区三区| 欧美超碰在线观看| 伊人久久大香线蕉av超碰| 亚洲国产成人porn| 欧美人与性禽动交精品| 亚洲一区二区影视| 精品二区久久| 日韩在线视频一区| 日韩www视频| 另类一区二区三区| 天天影视网天天综合色在线播放| 日本不卡一区| 国产午夜精品无码| 久久91成人| 欧美日韩中文字幕在线| 亚洲在线视频一区二区| 色一情一乱一乱一区91av| 日韩精品三区四区| 国产69精品久久久久9999| 免费观看特级毛片| 亚洲三级精品| 精品国产一区二区精华| 一本岛在线视频| 蜜桃av.网站在线观看| 亚洲视频在线一区二区| 欧美日韩一区二区三| 亚洲精品免费在线观看视频| 亚洲欧美一级二级三级| 亚洲三级 欧美三级| 亚洲一二三四五| 亚洲我射av| 欧美网站一区二区| 日韩国产在线一区| 人妻丰满熟妇av无码区hd| 久久99精品久久久久久久久久久久| 97avcom| 久久精品视频免费在线观看| 成人羞羞网站| 夜夜嗨av色一区二区不卡| 亚洲av无码一区二区三区网址 | 久久精品国产欧美激情| 成年人在线观看av| 欧美顶级毛片在线播放| 欧美xxxx老人做受| 丰满少妇中文字幕| 电影一区中文字幕| 88在线观看91蜜桃国自产| 国产成人黄色网址| 成人日韩av| 欧美在线免费观看视频| 黄色一级二级三级| 黑人巨大精品| 中文字幕av免费专区久久| 国产精品美女www| 天天色影综合网| 日韩精品一卡| 日韩有码在线电影| 在线观看美女av| 国产在线播放精品| 亚洲电影免费观看高清完整版在线观看 | 国产伦理在线观看| 9.1成人看片免费版| 国产精品极品| 亚洲国产美女精品久久久久∴| 少妇熟女视频一区二区三区| 成人性生交大片免费看96| 精品国产3级a| a视频免费观看| 美女亚洲一区| 主播福利视频一区| 疯狂试爱三2浴室激情视频| 先锋资源久久| 久久99精品视频一区97| 国产精品30p| 免播放器亚洲| 国产精品情侣自拍| av av片在线看| www.亚洲在线| 午夜精品一区二区在线观看的 | 日本一区二区三区电影免费观看| 91精品国产91热久久久做人人 | aa视频在线免费观看| 粉嫩av亚洲一区二区图片| 久久综合福利| 秋霞成人影院| 亚洲国产成人精品视频| 欧美日韩大尺度| 亚洲人成777| 亚洲成人黄色在线观看| 亚洲理论片在线观看| 亚洲精品午夜av福利久久蜜桃| 久久久人成影片一区二区三区观看| 中文字幕在线欧美| 国产精品一区二区在线看| 久久精品aaaaaa毛片| 麻豆电影在线播放| 欧美日韩国产一区二区三区| 一区二区三区欧美精品| 私拍精品福利视频在线一区| 色偷偷av一区二区三区| 国产午夜福利片| 麻豆精品久久久| 国产一区二区自拍| 午夜在线视频| 欧美日韩久久久久| 偷窥少妇高潮呻吟av久久免费 | 一区二区国产在线观看| 国产自产女人91一区在线观看| 少妇精品高潮欲妇又嫩中文字幕 | 亚洲熟妇无码av在线播放| 丁香六月天婷婷| 久久久亚洲精品石原莉奈| 乱子伦一区二区| 日本少妇一区| 91国模大尺度私拍在线视频 | 99久久99久久免费精品蜜臀| 中文字幕欧美人与畜| 在线免费av资源| 精品国产一区二区精华| tube国产麻豆| 毛片av中文字幕一区二区| 久久精品国产第一区二区三区最新章节 | 亚洲成人影音| www.欧美精品| 成人小视频在线播放| 视频一区欧美日韩| 国产精品激情自拍| 亚洲av成人精品一区二区三区在线播放 | 日韩影院一区| 一本大道色婷婷在线| 精品国产乱码久久久久久免费| 亚洲人与黑人屁股眼交| 日韩av午夜在线观看| 美女视频久久| 国产精品迅雷| 亚洲精品网站在线播放gif| 国产亚洲成人精品| 成人一区二区三区中文字幕| 男人草女人视频| 性欧美videos高清hd4k| 五月综合激情婷婷六月色窝| 巨乳女教师的诱惑| 亚洲蜜桃视频| 91国产在线免费观看| а√天堂官网中文在线| 91精品国产色综合久久不卡电影| 黄色片网站在线播放| 蜜桃av一区二区在线观看| 91久久久一线二线三线品牌| 欧美成年黄网站色视频| 欧美日韩卡一卡二| 久久久久99人妻一区二区三区| 亚洲成人av| 99精彩视频在线观看免费| 国产一线二线在线观看| 精品国产百合女同互慰| 日韩av免费网址| 久久女同互慰一区二区三区| 亚洲成熟丰满熟妇高潮xxxxx| 免费精品国产| 国产精品丝袜一区二区三区| 欧美高清视频| 日韩欧美国产不卡| 中日韩精品视频在线观看| 91污在线观看| 波多野结衣天堂| 99久久.com| 99久久国产免费免费| 国产乱码精品一区二三赶尸艳谈| 日本精品一级二级| 丁香六月激情综合| 国模无码大尺度一区二区三区| 男人草女人视频| 日韩欧美四区| 国产欧美日韩免费| 亚洲淫性视频| 日韩黄色在线免费观看| 亚洲图片在线播放| 一区二区日韩av| 国产偷人妻精品一区| 精品一区在线看| 久久成人福利视频| 欧美日韩中字| 国产高清一区视频| 深夜视频一区二区| 久久99国产综合精品女同| 视频国产在线观看| 91精品国产一区二区人妖| 亚欧洲精品在线视频| 国产亚洲精久久久久久| 人妻激情偷乱视频一区二区三区| 亚洲一区图片| 日韩国产精品毛片| 影视先锋久久| 97在线电影| 麻豆精品蜜桃| 久久免费成人精品视频| 香蕉视频国产在线观看| 日韩av中文字幕在线免费观看 | 欧美在线极品| 久久夜色精品国产| 久热av在线| 欧美tk—视频vk| 一区二区三区www污污污网站| 精品福利在线视频| www.99re7| 国产精品素人视频| 日韩网站在线播放| 国产成人一级电影| 中文字幕在线中文| 国产一区二区三区电影在线观看 | 依人在线免费视频| 国产一区二区三区的电影| 欧美精品久久96人妻无码| 久久av电影| 狠狠色综合欧美激情| 3d动漫一区二区三区在线观看| 国产精品2018| 在线看片福利| 欧美亚洲成人免费| 国产中文在线| 亚洲精品成人久久| 亚洲欧美激情国产综合久久久| 欧美久久久久免费| 欧美成人精品一区二区免费看片| 欧美精彩视频一区二区三区| 你懂的在线观看网站| 国产麻豆精品一区二区| 最新免费av网址| 麻豆成人在线观看| 久久久久久久久久久久91| 免费在线观看成人av| 久久久亚洲精品无码| 在线播放精品| 又大又硬又爽免费视频| 国内精品久久久久国产盗摄免费观看完整版| 在线天堂一区av电影| 91亚洲成人| 中文字幕在线中文字幕日亚韩一区| 成人国产精品一级毛片视频| 欧美日韩一区二区视频在线观看| 免费欧美激情| 日本亚洲自拍| 欧美日韩久久精品| 亚洲精品无人区| caoporn成人免费视频在线| 波多野结衣一区二区三区在线观看 | 午夜精品视频在线观看| 色网站在线播放| 欧美性jizz18性欧美| 日本免费精品视频| 精品视频色一区| 一本久道久久综合无码中文| 欧美日韩免费一区二区三区 | 成人自拍视频网| 国产精品亚洲一区二区三区| 久久久免费人体| 亚洲va国产va天堂va久久| 精精国产xxxx视频在线中文版| 欧美极品第一页| 国产色播av在线| 国产成人精品a视频一区www| 成人午夜亚洲| 7777精品久久久大香线蕉小说| 国产精品一区二区中文字幕| 美女亚洲精品| 99久久精品网| 全黄性性激高免费视频| 香蕉成人久久| 182午夜在线观看| 国产成人一区二区精品非洲| 中文在线永久免费观看| 国产女主播视频一区二区| 老熟妇高潮一区二区三区| 五月天亚洲婷婷| 日本成人一级片| 日韩一区二区三区免费看| 三级小视频在线观看| 影音先锋日韩有码| 尤物视频在线看| 人人做人人澡人人爽欧美| 日韩欧美专区| 国产精品视频男人的天堂| 精品国产鲁一鲁****| 久久亚洲一区二区| 亚洲xxx拳头交| 男女激情无遮挡| 国产一区二区三区精品视频| 成人无码www在线看免费| 中文字幕亚洲一区二区va在线| 精品91久久久| 欧美喷潮久久久xxxxx| 色呦呦免费观看| 不卡av日日日| 播放一区二区| 久久99蜜桃综合影院免费观看| 亚洲精品中文字幕乱码| 欧美日韩中文在线视频| av成人黄色| 天天色天天综合网| 久久婷婷色综合| 久久香蕉精品视频| 欧美日韩精品一区二区天天拍小说| 亚洲精品国产精| 日韩在线视频观看| 中文字幕在线直播| 99热99热| 婷婷综合亚洲| 成年网站在线播放| 久久综合久久综合久久| 麻豆国产尤物av尤物在线观看| 精品视频在线视频| 你懂的在线播放| 国内精品久久久久影院 日本资源| 日韩成人在线电影| 色中色综合成人| 噜噜噜躁狠狠躁狠狠精品视频 | 国产激情视频一区二区在线观看 | 日韩欧美视频一区| 久操免费在线| 国产欧美精品一区二区| 综合亚洲自拍| 免费看国产曰批40分钟| 国产不卡在线视频| 一区二区在线观看免费视频| 欧美美女一区二区| 1区2区3区在线观看| 国产成人久久久精品一区| 亚州国产精品| 国产极品尤物在线| 99国产精品久久久久久久久久| 国产乡下妇女做爰视频| 精品国产免费一区二区三区四区| 91网址在线观看| 亚洲最大的成人网| 欧美在线三区| 一区二区三区人妻| 一区二区三区在线观看动漫 | 欧美啪啪网站| 一本一道久久久a久久久精品91| 视频一区二区三区入口| 欧美人妻一区二区三区| 欧美中文字幕一区二区三区亚洲| 国产在线一二| 国产精品自拍偷拍视频| 天天影视欧美综合在线观看| 九九热视频免费| 一区二区在线电影| 欧美 日韩 人妻 高清 中文| 久久久人成影片一区二区三区| 欧美日韩一区二区三区四区不卡| 97成人在线免费视频| 久久久99精品久久| 亚洲天天综合网| 欧美大片免费观看在线观看网站推荐| 136导航精品福利| 男人天堂999| 国产精品丝袜一区| 国产成人三级在线播放| 久久久久久伊人| 国产精品午夜一区二区三区| www.精品在线| 一区二区三区中文免费| 欧美一区二区公司| 国产成人精品电影久久久| 欧美第一精品| 人妻av一区二区| 91久久精品午夜一区二区| 久操视频在线免费播放| 国产一区视频观看| 日本午夜精品视频在线观看| 91嫩草|国产丨精品入口| 亚洲激情中文字幕| 日韩漫画puputoon| 国产一二三四区在线观看| 成人99免费视频| 亚洲 小说区 图片区| 欧美精品少妇videofree| 奇米777国产一区国产二区| 伊人国产在线视频| 亚洲一区二三区| 搞黄视频免费在线观看| 国产精品久久久久永久免费观看 | 国产亚洲精品7777| h狠狠躁死你h高h| 日本精品久久久久影院| 91精品国产调教在线观看| 国产成人av无码精品| 欧美日产国产精品| 三妻四妾的电影电视剧在线观看| 视频一区二区三区免费观看| 成人午夜激情在线| 中文字幕你懂的| 隔壁老王国产在线精品| 香蕉视频国产精品| www.超碰97| 精品久久久久久亚洲综合网| 日韩三区免费| 欧美成人免费在线观看视频| 国产精品美女久久福利网站|