精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

網傳DeepSeek R1更容易被越獄?這有個入選頂會的防御框架SelfDefend

人工智能 新聞
這項開創性的研究不僅為 AI 安全領域帶來了突破性進展,更揭示了一個振奮人心的信號:AI 系統的安全性與效率不再是魚和熊掌不可兼得。

本文一作王勛廣是香港科技大學的在讀博士生,本科和碩士分別畢業于中國地質大學和哈爾濱工業大學,主要研究方向是大模型安全。通訊作者吳道遠,香港科技大學研究助理教授,研究方向包括大模型安全、區塊鏈和智能合約安全、移動系統和軟件安全。通訊作者王帥,香港科技大學長聘副教授。研究方向包括 AI 安全、軟件安全、數據隱私、逆向工程等。

最近一段時間,DeepSeek 可謂是風頭無兩。

在大家紛紛贊揚其超強性能的同時,也有媒體曝出 DeepSeek 的 R1 比其他 AI 模型更容易被越獄。

比如,此前賓夕法尼亞大學的研究者使用來自HarmBench數據集的50個有害提示對DeepSeek R1進行測試,這些提示涵蓋網絡犯罪、虛假信息和非法活動等領域。結果顯示,DeepSeek未能攔截任何一個有害請求,攻擊成功率達到驚人的100%。

這時如果有一個 AI 系統能像人類一樣具備自我保護意識,在面對 ' 欺騙 ' 時能夠當機立斷地識破陰謀 —— 這不再是科幻片中的場景。

近日,來自香港科技大學、南洋理工大學等機構的研究團隊最新成果讓這一設想成為現實。他們提出的 SelfDefend 框架,讓大語言模型首次擁有了真正意義上的 ' 自衛能力 ',能夠有效識別和抵御各類越獄攻擊,同時保持極低的響應延遲。

  • 論文標題:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
  • 論文主頁:https://selfdefend.github.io/ 
  • 論文鏈接:https://arxiv.org/abs/2406.05498
  • GitHub 鏈接:https://github.com/selfdefend/Code

近年來,大語言模型(LLMs)在自然語言處理、信息檢索、圖像生成等多個領域展現出巨大潛力。然而,隨著 LLMs 的廣泛應用,如何確保其安全性成為了一個重要課題。尤其是 “越獄攻擊”(Jailbreaking),這種攻擊通過繞過 LLMs 的安全對齊機制,誘導模型生成有害內容,引發了廣泛關注。為了應對這一挑戰,香港科技大學、南洋理工等團隊聯合提出了一種名為 SelfDefend 的新型防御框架,該框架通過引入 “影子 LLM”(Shadow LLM)來并行檢測潛在的有害查詢,從而有效抵御多種越獄攻擊。

越獄攻擊的多樣性與防御挑戰

越獄攻擊的形式多種多樣,包括基于人工設計的攻擊、基于優化的攻擊、基于生成的攻擊,以及最近出現的間接攻擊和多語言攻擊。這些攻擊手段不斷進化,使得傳統的防御機制難以應對。現有的防御方法主要分為兩類:基于模型的防御和基于插件的防御。前者通過改進模型的內在機制來增強安全性,后者則通過外部插件來增強現有模型的安全性。然而,這些方法在實際應用中面臨諸多挑戰,無法同時滿足四個目標:應對所有類型的攻擊(O1)、引入可忽略的額外延遲(O2)、對檢測出的越獄訪問提供可解釋性(O3),以及同時適用于開源和閉源模型(O4)。

SelfDefend 框架的創新設計

SelfDefend 框架的靈感來源于傳統安全領域中的 “影子棧”(Shadow Stack)概念。影子棧通過創建一個并行的內存空間來防御內存溢出攻擊,而 SelfDefend 則通過創建一個并行的 “影子 LLM” 來檢測潛在的有害查詢。具體來說,SelfDefend 框架包含兩個并行的 LLM 實例:一個用于正常響應用戶查詢的目標 LLM),另一個用于檢測有害內容的防御 LLM)。當用戶輸入查詢時,目標 LLM 會正常處理查詢并生成響應,而防御 LLM 則通過特定的檢測提示詞()來識別查詢中的有害部分或意圖。

這種設計帶來了多重優勢:首先,它同時利用了目標 LLM 的安全對齊機制和防御 LLM 的越獄檢測能力,形成了雙重保護層,顯著提高了防御成功率;其次,由于防御 LLM 的輸出通常較短(如 “No” 表示無問題),正常查詢的響應延遲幾乎可以忽略不計;然后檢測出的有害部分或者惡意意圖可以作為防御的可解釋性;最后,由于防御 LLM 不需要修改或監控目標 LLM 的內部機制,因此可以兼容開源和閉源模型。

實驗驗證與效果評估

研究團隊通過大量實驗驗證了 SelfDefend 框架的有效性。實驗結果表明,基于 GPT-3.5 和 GPT-4 的 SelfDefend 能夠顯著降低多種越獄攻擊的成功率。例如,基于 GPT-3.5 的 SelfDefend 將攻擊成功率(ASR)從平均 65.7% 降低至 0.236,而基于 GPT-4 的 SelfDefend 更是將 ASR 降低至平均 0.050。此外,SelfDefend 對正常查詢的影響微乎其微,GPT-3.5 和 GPT-4 的正常查詢通過率僅分別下降了 0.51% 和 2.77%。

為了進一步降低成本和提升魯棒性,研究團隊還通過數據蒸餾方法對開源的 Llama-2-7b 模型進行了微調,生成了專用的防御模型。實驗表明,這些微調后的模型在防御效果上與基于 GPT-4 的 SelfDefend 相當,且額外延遲顯著降低。例如,微調后的模型在正常查詢中的平均延遲僅為 0-0.01 秒,而在攻擊場景中的最大延遲從 GPT-4 的 1.56 秒降低至 0.39 秒。

與現有防御方法的對比

研究團隊還將 SelfDefend 與現有的七種主流防御方法進行了對比,包括 ICD、SafeDecoding、Perplexity Filter、SmoothLLM、Llama Guard 等。實驗結果顯示,SelfDefend 在 60 個測試場景中的 55 個場景中表現最優,尤其是在應對間接攻擊和多語言攻擊時,SelfDefend 的防御效果顯著優于其他方法。此外,SelfDefend 的額外延遲也遠低于其他防御方法,使其在實際部署中更具可行性。

未來展望

這項開創性的研究不僅為 AI 安全領域帶來了突破性進展,更揭示了一個振奮人心的信號:AI 系統的安全性與效率不再是魚和熊掌不可兼得。通過賦予 AI' 自衛意識 ',SelfDefend 展現了一個更安全的 AI 未來:在這個未來里,AI 系統既能保持高效服務能力,又能主動識別和抵御潛在威脅,真正實現 ' 自我守護 '。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-27 12:30:07

2025-02-20 15:32:28

2025-03-06 00:22:00

2025-02-11 08:35:30

2025-02-25 08:20:50

AI程序員DeepSeek

2025-02-12 12:12:59

2025-02-08 11:31:17

DeepseekR1模型

2025-02-07 13:10:06

2025-03-14 11:57:43

2025-03-11 02:00:00

AI工具Token-AI

2025-02-03 06:00:00

2025-03-06 10:14:39

2025-02-27 00:00:05

2025-02-03 00:00:55

DeepSeekRAG系統

2025-02-17 07:35:00

DeepSeek模型數據

2025-02-03 12:07:52

2025-02-10 11:27:37

2021-09-02 10:15:50

計算平臺MaxCompute 阿里云

2019-07-25 14:48:35

AI人工智能女工

2025-03-05 09:10:00

AI生成模型
點贊
收藏

51CTO技術棧公眾號

国语自产精品视频在线看| 欧美日本乱大交xxxxx| 国内精品**久久毛片app| 无码人妻精品一区二区三区不卡| 精品久久久久中文字幕小说 | 精品小视频在线| 国产三级三级看三级| 欧美videosex性欧美黑吊| 久久免费国产精品| 91在线观看免费网站| 国产嫩bbwbbw高潮| 欧美日本三区| 色婷婷综合久久久久| av黄色一级片| 婷婷久久免费视频| 日韩欧美亚洲综合| 欧美无砖专区免费| 精品国产99久久久久久| 久久影院视频免费| 成人情视频高清免费观看电影| 亚洲 欧美 中文字幕| 激情av一区| 久久久国产一区二区| 91资源在线播放| 欧美大奶一区二区| 欧美成人vps| 日韩成人av免费| 成人国产网站| 色吊一区二区三区| 日本欧美黄色片| 欧洲性视频在线播放| 亚洲日本欧美天堂| 亚洲一区不卡在线| 1769在线观看| 欧美国产丝袜视频| 欧美日韩在线观看一区二区三区| 人妻无码中文字幕| 国产 欧美在线| 91福利视频导航| 国产精品一区二区三区在线免费观看 | 人妻中文字幕一区二区三区| 亚洲黄色视屏| 午夜精品一区二区三区在线播放| 欧美激情国产精品免费| 欧美va天堂| 欧美成人精品不卡视频在线观看| 亚洲色图27p| 天堂美国久久| 久久久999国产精品| 国产精品www爽爽爽| 欧美猛男同性videos| 亚洲免费视频一区二区| 中文字幕国产专区| 亚洲警察之高压线| 国产一区二区黄| 日韩欧美在线视频播放| 久久国产亚洲| 伦理中文字幕亚洲| 欧美日韩精品亚洲精品| 欧美日韩国产成人精品| 高清欧美性猛交| 五月天激情国产综合婷婷婷| 免费视频一区| 国产精品免费一区豆花| 91无套直看片红桃| 国内成人自拍视频| 99www免费人成精品| 丰满人妻av一区二区三区| av福利精品导航| 欧美下载看逼逼| 视频一区二区三区不卡| 亚洲精品第1页| 老太脱裤让老头玩ⅹxxxx| 最近高清中文在线字幕在线观看1| 欧美视频不卡中文| 可以看污的网站| 国产精品久久久| 国产夫妻性生活视频| 成人精品国产一区二区4080| 欧美精品免费观看二区| 麻豆视频网站在线观看| 亚洲一区二区欧美激情| 国产成人亚洲精品无码h在线| 日本在线中文字幕一区二区三区| 9191成人精品久久| 免费看黄色aaaaaa 片| 欧美综合一区| 国语自产精品视频在线看| 国产suv精品一区二区33| 激情欧美日韩一区二区| 国产精品一区二区三区精品| 久久米奇亚洲| 一区二区三区欧美在线观看| 日韩精品视频久久| 99精品国产九九国产精品| 亚洲精品第一页| 9.1片黄在线观看| 在线精品观看| 国产精品综合久久久| 少妇又色又爽又黄的视频| 国产精品成人免费在线| 久久久999免费视频| 日韩在线激情| 亚洲人成绝费网站色www | 一本精品一区二区三区| 91精品国产91久久久久久久久| 真实的国产乱xxxx在线91| 成人深夜福利app| 亚洲第一页在线视频| 不卡av影片| 亚洲国产高清高潮精品美女| www.av免费| 免费高清不卡av| 黄色一区三区| 在线xxxx| 777xxx欧美| 国产极品视频在线观看| 一本久道久久综合婷婷鲸鱼| 51成人做爰www免费看网站| 大地资源中文在线观看免费版| 亚洲va在线va天堂| 被黑人猛躁10次高潮视频| 狠狠色丁香婷婷综合影院| 992tv成人免费视频| 国产免费久久久| 亚洲欧美在线观看| 美女网站免费观看视频| 国产图片一区| 欧美精品久久久久久久久久| 国产强伦人妻毛片| 国产精品国产a| 91n.com在线观看| 亚洲人成精品久久久 | 国产做受高潮漫动| 国产99一区视频免费 | 免费毛片在线看片免费丝瓜视频 | 久久久久久国产精品日本| 国产一区二区三区91| 欧美在线www| 午夜福利一区二区三区| 五月激情丁香一区二区三区| 艳妇乳肉豪妇荡乳xxx| 国内久久精品| 国产精品免费一区二区三区| wwww亚洲| 亚洲国产精品热久久| 国语对白一区二区| 不卡av在线免费观看| 六月婷婷在线视频| 欧美美女在线直播| 日本精品免费观看| 国产区视频在线| 欧美在线观看视频在线| 欧美另类69xxxx| 国产精品资源在线看| 日韩国产精品毛片| caoporn成人| 97超视频免费观看| 日韩欧美电影在线观看| 在线欧美一区二区| 影音先锋男人看片资源| 国产一区二区在线视频| 日韩欧美不卡在线| 亚洲婷婷丁香| 国产中文日韩欧美| 视频在线这里都是精品| 亚洲精品成人久久| 亚洲大尺度在线观看| 国产精品日韩成人| 无码人妻少妇色欲av一区二区| 在线观看一区| 午夜视频久久久| 日本免费精品| 欧美亚洲另类视频| 18视频免费网址在线观看| 日韩欧美一二三四区| 久久露脸国语精品国产91| 国产亚洲精久久久久久| 亚洲av无日韩毛片久久| 日韩午夜av| 一级日韩一区在线观看| 五月亚洲婷婷| 国产精品96久久久久久| 91精品久久| 亚洲欧美www| 国产巨乳在线观看| 欧美日韩性生活视频| 一本一本久久a久久| 不卡的看片网站| 亚欧激情乱码久久久久久久久| 欧美久久成人| 神马影院我不卡| 成人av综合网| 国产精品自拍网| 伊人久久综合一区二区| 美女999久久久精品视频| 亚洲 欧美 激情 另类| 欧美日韩在线播放一区| 日本系列第一页| ...中文天堂在线一区| 人妻少妇精品视频一区二区三区| 久久精品国产久精国产| 香港三级韩国三级日本三级| 欧美激情电影| 欧美一区二区在线视频观看| 看亚洲a级一级毛片| 国产精品十八以下禁看| 九色porny丨国产首页在线| 久久综合伊人77777蜜臀| 你懂的视频在线观看| 精品国产乱码久久久久久1区2区 | 亚洲精品理论电影| 一女二男一黄一片| 色综合久久天天| 懂色av.com| 一区二区三区在线播| 人妻互换一区二区激情偷拍| 久久久99久久精品欧美| 亚洲第九十七页| 国产91丝袜在线播放0| 亚洲色图欧美自拍| 福利一区二区在线| 欧美一级bbbbb性bbbb喷潮片| 日本在线观看| 国产亚洲精品美女| 日本韩国免费观看| 日韩一区二区电影网| 亚洲视频在线观看一区二区| 色综合咪咪久久| 欧美一级特黄视频| 亚洲福利一二三区| 久久久久久久久久久久久久久久久| 国产精品福利一区| 国产麻豆a毛片| 国产精品妹子av| 亚洲熟女少妇一区二区| 欧美国产一区在线| 国产18无套直看片| 国产精品久久久久久久久搜平片| 麻豆精品免费视频| 国产无人区一区二区三区| 亚洲最大成人网站| 久久嫩草精品久久久精品| 一女三黑人理论片在线| 久久先锋资源网| 男男做爰猛烈叫床爽爽小说| 白白色 亚洲乱淫| jizz日本免费| 久久久久久久国产精品影院| 国产精品美女高潮无套| 国产欧美日韩视频一区二区| 特级西西www444人体聚色| 国产拍欧美日韩视频二区| 日韩影视一区二区三区| 国产精品视频在线看| 国产成人在线网址| 1024成人网色www| 欧美日韩亚洲国产另类| 亚洲五码中文字幕| 欧美一级视频免费观看| 一本久久a久久精品亚洲| 一级片视频在线观看| 欧美三级欧美一级| 国产精品欧美激情在线| 日韩精品一区二区在线观看| 欧美 日韩 国产 成人 在线 91| 亚洲国产高清自拍| 国模精品一区二区| 日韩色av导航| 青青在线视频| 日本一本a高清免费不卡| 国产69精品久久久久9999人| 亚洲自拍偷拍福利| 国产图片一区| 亚洲精品国产一区| 欧美激情第8页| 黑人糟蹋人妻hd中文字幕| 日韩av中文字幕一区二区三区| 国内自拍第二页| 成人av片在线观看| 五月激情四射婷婷| 亚洲午夜激情网站| 在线观看亚洲一区二区| 日韩一区二区三区免费看| 日本不卡视频一区二区| 色琪琪综合男人的天堂aⅴ视频| 羞羞电影在线观看www| 欧美中文字幕在线| 久久视频社区| 欧美在线视频二区| 国产综合激情| 99re精彩视频| 91丨国产丨九色丨pron| 亚洲人与黑人屁股眼交| 欧美午夜影院在线视频| 国产美女永久免费| 一本一道久久a久久精品逆3p | 国产精品电影一区二区| 日韩欧美亚洲视频| 91精品国产乱| 黄色网址在线播放| 欧美激情在线一区| 欧美系列精品| 日本一区免费看| 一区在线观看| 91aaa精品| 日本一区二区三区四区在线视频 | 一本色道久久综合亚洲精品图片| 亚洲色大成网站www久久九九| 91玉足脚交嫩脚丫在线播放| 欧美成人性战久久| 米奇精品一区二区三区| 国产成人91久久精品| 成人av婷婷| 黄色网zhan| 久久se精品一区精品二区| 国产三级视频网站| 亚洲国产一区二区视频| a天堂中文在线观看| www.久久久久久.com| 日本中文字幕一区二区| 欧美lavv| 香蕉精品999视频一区二区| 国产免费a级片| 亚洲精品日韩综合观看成人91| 18国产免费视频| 亚洲午夜女主播在线直播| 悠悠资源网亚洲青| 国产一区二区三区av在线| 1024精品一区二区三区| 韩国三级在线看| 亚洲激情五月婷婷| 国产免费黄色片| 欧美巨乳美女视频| 日韩欧洲国产| 久久人人爽人人爽人人av| 国产精品综合二区| 乱h高h女3p含苞待放| 欧美人狂配大交3d怪物一区| eeuss影院www在线观看| 国产精品视频一| 日韩精品91| 中文字幕资源在线观看| 最好看的中文字幕久久| 国产欧美综合视频| 欧美xxxx做受欧美| 亚洲天堂av资源在线观看| 国内精品国产三级国产99| 国产91丝袜在线播放| 国产精品99无码一区二区| 精品成人一区二区三区| 黄色aa久久| 欧美在线一二三区| 日本欧美一区二区在线观看| 黄色av免费播放| 91精品国产一区二区人妖| 1024在线播放| 精品国产综合区久久久久久| 国产精品久久国产愉拍| 精品人妻一区二区三区蜜桃视频| 欧美最新大片在线看| 黄色网址视频在线观看| 999国内精品视频在线| 国产一区二区三区自拍| 亚洲黄色免费在线观看| 日本高清成人免费播放| 日本综合在线| 成人免费视频视频在| 亚洲少妇诱惑| 国产午夜精品久久久久久久久| 欧美猛男超大videosgay| 丝袜美腿av在线| 欧美在线播放一区| 国产综合色精品一区二区三区| 国产一级一片免费播放放a| 亚洲男人天堂视频| 色成人综合网| av免费观看大全| 国产区在线观看成人精品| www.色视频| 欧洲永久精品大片ww免费漫画| 国产大片一区| 在线观看国产网站| 欧美久久久久久久久中文字幕| 欧美14一18处毛片| 色一情一区二区三区四区| 国产精一区二区三区| av毛片在线免费观看| 久久不射电影网| 中日韩免视频上线全都免费| 国产5g成人5g天天爽| 欧美日韩国产精品| 三区四区电影在线观看| 久久久久久国产精品mv| 国产真实乱子伦精品视频| 麻豆成人免费视频| 欧美精品午夜视频| 人人狠狠综合久久亚洲婷| 色哟哟视频在线| 欧美高清视频一二三区|