精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ACL 2024|PsySafe:跨學科視角下的Agent系統安全性研究

人工智能 新聞
近幾年,我們正見證著LLM能力的驚人蛻變,它們不僅在很多技能上逐漸接近和超越人類,甚至在“心智水平”也展現出與人類類似的跡象。這一進程預示著,AI對齊及其與社會科學的交叉領域,將成為未來研究的一個重要且充滿挑戰的新前沿。

本文由上海人工智能實驗室聯合大連理工大學和中國科技大學完成。通訊作者:邵婧,博士畢業于香港中文大學多媒體實驗室MMLab,現任浦江國家實驗室大模型安全團隊負責人,牽頭研究大模型安全可信評測與價值對齊技術。第一作者:張再斌,大連理工大學二年級博士生,研究方向為大模型安全,智能體安全等;張永停,中國科學技術大學二年級碩士生,研究方向,大模型安全,智能體安全,多模態大語言模型安全對齊等。

奧本海默曾在新墨西哥州執行曼哈頓計劃,只為拯救世界。并留下了一句:「他們不會對其敬畏,直至理解;而理解,唯有親身體驗之后。」

隱含在這個荒漠里的小鎮中的社會規則,在某種意義上同樣適用于AI智能體。

Agent系統的發展

隨著大型語言模型(Large Language Model)的迅速發展,人們對其的期待已不僅僅是將其作為一種工具使用。現在,人們希望它們不僅具備情感,還能進行觀察、反思和規劃,真正成為一個智能體(AI Agent)。

OpenAI定制的Agent系統[1]、斯坦福的Agent小鎮[2],以及開源社區涌現的包括AutoGPT[3]、MetaGPT[4]在內的多個萬星級別的開源項目,加之多個國際知名AI研究機構對Agent系統的深入探索,這一切都預示著一個由智能Agent構成的微型社會可能在不久的將來成為現實。

想象一下,每天醒來,就有眾多Agent幫你制定當天的計劃、訂購機票和最合適的酒店、完成工作任務。你所需要做的,可能只是一句「Jarvis, are you there?」。

然而,能力越大,責任越大。這些Agent真的值得我們信賴和依賴嗎?會不會出現類似奧創這樣的反面智能體呢?

圖1:OpenAI 開放GPTs[1]

圖片

圖2:斯坦福小鎮,揭示Agent的社會行為[2]

圖片

圖3: AutoGPT star數突破157K[3]

Agent系統的安全性

LLM的安全性:

在研究Agent系統安全性之前,要了解一下LLM安全性的研究。LLM的安全問題已經有很多優秀的工作在探索,其中主要包括如何讓LLM產生危險的內容,了解LLM安全的機理,以及如何應對這些危險。

圖4: Universal Attack[5]

Agent系統安全性:

現有的大部分研究和方法主要集中在針對單個大型語言模型(LLM)的攻擊,以及嘗試對其進行「Jailbreak」。然而,相比LLM,Agent系統更為復雜。

  • Agent系統包含多種角色,每種角色都有其特定的設置和功能。
  • Agent系統涉及多個Agent,并且它們之間進行多輪的互動,這些Agents會自發地進行合作、競爭和模擬等活動。

Agent系統更類似于一個高度濃縮的智能社會。因此,作者認為Agent系統安全性研究應該涉及到AI、社會科學和心理學的交叉領域。

基于這一出發點,該團隊思考了幾個核心問題:

  • 什么樣的Agent容易產生危險行為?
  • 如何更全面的評測Agent系統的安全性?
  • 如何應對Agent系統的安全性問題?

圍繞這幾個核心問題,研究團隊提出了PsySafe Agent系統安全研究框架。

  • 文章地址:https://arxiv.org/pdf/2401.11880
  • 代碼地址:https://github.com/AI4Good24/PsySafe

圖5:PsySafe的框架圖

PsySafe

問題1 什么樣的Agent最容易產生危險行為?

很自然,黑暗的Agent會產生危險行為,那么如何定義黑暗呢?

考慮到已經涌現出許多社會模擬的Agent,它們都具有一定的情感和價值觀。讓我們想象一下,如果將一個Agent的道德觀中的邪惡因素最大化,會出現什么情況?

基于社會科學中的道德基礎理論[6],研究團隊設計了一個具有「黑暗」價值觀的Prompt。

圖片

圖6:幾種基礎的道德觀念

然后,通過采用一些手段(當然是受LLM攻擊領域大師們方法的啟發),使Agent認同研究團隊所注入的人格,從而實現黑暗人格的注入。

圖片

圖7:該團隊的攻擊方法

結果是:

  • Agent確實變得非常惡劣!無論是安全任務還是像Jailbreak這樣的危險任務,它們都會給出非常危險的回答。甚至有些Agent表現出了一定程度的惡意創造力。
  • Agent間會產生一些集體危險行為,大家合伙干壞事。

研究者對Camel[7]、AutoGen[8]、AutoGPT和MetaGPT等流行的Agent系統框架進行了評測,使用GPT-3.5 Turbo作為基礎模型。

結果顯示,這些系統在安全性方面存在著不容忽視的問題。其中PDR和JDR是該團隊提出的過程危險率和聯合危險率,分數越高代表著越危險。

圖8:不同Agent系統的安全結果

該團隊也評測了不同LLM的安全性結果。

圖片

圖9:不同LLM的安全性結果

在閉源模型方面,GPT-4 Turbo和Claude2的表現最為出色,而其他模型的安全性相對較差。就開源模型而言,一些參數較小的模型在人格認同方面可能表現不佳,但這反而可能提升了它們的安全性水平。

問題2 如何更全面的評測Agent系統的安全性?

心理評測:研究團隊發現了心理因素對Agent系統安全性的影響,這表明心理評估可能是一個重要的評價指標。基于這個想法,他們采用了權威的黑暗心理DTDD[9]量表,通過心理量表的方式對Agent進行了面試,讓其回答一些與心理狀態相關的問題。

圖片

    圖10:Sherlock Holmes劇照

當然,只有一個心理評測結果沒有什么意義。我們需要驗證心理評測結果的和行為相關性。

結果是:Agent心理評測結果和Agent行為的危險性之間有很強的相關性

圖片

圖11:Agent心理評測和行為危險性統計圖

通過上圖可以發現,心理評測得分較高(表示危險性更大)的Agent更傾向于展現出危險行為。

這意味著,可以利用心理評測的方法來預測Agent未來的危險傾向。這對發現安全問題,和制定防御策略都有很重要的作用。

行為評測

Agent之間的交互過程比較復雜。為了深入理解Agent在交互中的危險行為及其變化,研究團隊深入到Agent的交互過程中進行評估,提出了兩個概念:

  • 過程危險(PDR):在Agent交互過程中,只要有任一行為被判定為危險,就認為這個過程出現了危險情況。
  • 聯合危險(JDR):在每一輪交互中,所有Agent是否均展現了危險行為。它描述了聯合危險的情況,并且我們對聯合危險率的計算進行了時間序列擴展,即覆蓋了不同的對話輪次。

有趣的現象

1.隨著對話輪數的增加,Agent之間的聯合危險率呈現下降趨勢,這似乎體現了一種自我反思的機制。就像在做錯事后突然意識到錯誤,并立即進行道歉一樣。

圖片

圖12:不同輪數,聯合危險率的變化趨勢

2.Agent裝作一本正經。當Agent面臨如「Jailbreak」這類高風險任務時,其心理評測結果意外地變好,相應的安全性也得到提升。然而,面對本身安全的任務時,情況卻截然不同,會表現出極具危險性的行為和心理狀態。這是一個很有趣的現象,說明心理評測或許真的可以反映Agent的“高階認知”。

問題3 如何應對agent系統的安全性問題?

為了解決上述安全問題,我們從三個角度進行考慮:輸入端防御、心理防御和角色防御。

圖片

圖13:PsySafe的防御方法示意圖

輸入端防御

輸入端防御指的是在輸入階段攔截并過濾掉潛在的危險prompt。研究團隊采用了GPT-4和Llama-guard兩種方法進行嘗試。然而,他們發現這些方法都無法有效防御人格注入式的攻擊。該研究團隊認為攻擊與防御之間的互相促進是一個開放性問題,需要雙方不斷迭代和進步。

心理防御

研究者在Agent系統中增加了一個心理醫生角色,并結合心理評測,以此加強對Agent心理狀態的監測和改善。

圖片

圖14:PsySafe心理醫生防御示意圖

角色防御

研究團隊在Agent系統中加了一個Police Agent,用來識別并糾正系統中的不安全行為。

實驗結果顯示,心理防御和角色防御措施都能有效地減少危險情況的發生。

圖片

圖15:不同防御方法效果對比

展望

近幾年,我們正見證著LLM能力的驚人蛻變,它們不僅在很多技能上逐漸接近和超越人類,甚至在“心智水平”也展現出與人類類似的跡象。這一進程預示著,AI對齊及其與社會科學的交叉領域,將成為未來研究的一個重要且充滿挑戰的新前沿。

AI對齊不僅是實現人工智能系統大規模應用的關鍵,更是AI領域工作者所必須承擔的重大責任。在這個不斷進步的旅程中,我們應不斷探索,以確保技術的發展能夠與人類社會的長遠利益同行。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-11-30 09:41:38

2010-04-30 16:31:46

Unix系統

2012-09-13 10:55:34

2010-09-06 10:47:56

2010-08-17 14:36:55

2010-04-07 10:29:01

Unix操作系統

2010-03-16 15:17:39

2011-06-21 16:39:09

Linux安全

2009-07-15 09:23:52

2009-12-25 17:09:51

2013-11-13 16:44:01

2014-12-26 10:21:49

2012-11-14 13:16:23

2011-07-21 09:21:39

2011-05-23 17:14:39

Fedora 15

2010-04-27 15:53:07

2010-04-26 10:31:13

Aix系統安全

2014-06-23 13:26:53

2013-03-08 09:46:34

Linux操作系統安全性

2015-03-25 10:32:41

點贊
收藏

51CTO技術棧公眾號

精品国产鲁一鲁一区二区三区| 成人久久一区二区| 精品无码在线视频| se69色成人网wwwsex| 成人欧美一区二区三区视频网页 | 国产精品一区二区三区四区在线观看| 一个色在线综合| 久久久久久久久久成人| 成人黄色理论片| 亚洲444eee在线观看| 青青成人在线| 黄色aaa大片| 日本伊人色综合网| 久久久久一本一区二区青青蜜月 | 国产欧美一区二区三区网站| 91在线观看欧美日韩| 久久国产视频一区| 欧美精品入口| 日韩中文字幕在线视频| 国产男女猛烈无遮挡a片漫画| 国产高清亚洲| 欧美亚洲综合另类| 欧美激情视频免费看| 免费黄色电影在线观看| 成人免费视频一区| 91精品在线一区| 国产99久久久久久免费看| 好看的av在线不卡观看| 久久精品视频网站| 山东少妇露脸刺激对白在线| 久久精品凹凸全集| 日韩精品专区在线影院观看| 第四色婷婷基地| 欧美人体一区二区三区| 黄色精品在线看| 欧美一级中文字幕| 国产剧情在线| 国产精品久久久久影院| 色之综合天天综合色天天棕色 | 欧美区一区二区| 欧美日韩中文字幕一区| 热久久精品免费视频| 2022成人影院| 精品久久久久久久久久久久| 国产一区二区三区乱码| 先锋影音在线资源站91| 综合亚洲深深色噜噜狠狠网站| 色综合久久久久久久久五月| 男男激情在线| 久久久精品国产99久久精品芒果 | 风韵丰满熟妇啪啪区老熟熟女| 91精品亚洲一区在线观看| 欧美日韩电影在线播放| 一级片视频免费观看| 97成人超碰| 欧美日韩国产另类一区| 国产精品一区二区小说| 欧美性生活一级| 在线不卡一区二区| 国产伦精品一区二区三区妓女下载 | 久久se精品一区二区| 国产www精品| 无码人妻黑人中文字幕| 日韩综合小视频| 国产精品久久久久久久久免费 | 久久一区二区三区视频| 欧美亚洲一区| 国产精品视频不卡| 91片黄在线观看喷潮| 国产精品白丝av| 国产伦精品一区二区三区照片91| 头脑特工队2在线播放| 久久久一区二区| 亚洲国产欧美一区二区三区不卡| 久久黄色美女电影| 亚洲一卡二卡三卡四卡无卡久久| 国产一级爱c视频| 久久r热视频| 欧美乱妇15p| 黄色激情在线观看| 久久不见久久见中文字幕免费| 中国日韩欧美久久久久久久久| 国产wwwwxxxx| 亚洲激情另类| 国产精品久久久久77777| 99热这里只有精品66| 不卡在线视频中文字幕| 色狠狠久久av五月综合|| 成人免费网址| 欧美视频免费在线| 成人av毛片在线观看| 国产成人澳门| 亚洲免费视频一区二区| 免费高清在线观看电视| 亚洲男女自偷自拍| 91亚洲va在线va天堂va国 | 国产精品久久久网站| 亚洲美女福利视频网站| 无码人妻精品一区二区三区夜夜嗨| 亚洲免费高清| 成人国产精品日本在线| 日韩a在线看| 亚洲乱码中文字幕综合| 欧美丰满熟妇xxxxx| 91麻豆精品国产综合久久久 | 亚洲欧美制服中文字幕| 日韩视频中文字幕在线观看| 免费日韩精品中文字幕视频在线| 亚洲japanese制服美女| 国产大片在线免费观看| 天天色综合天天| 国产精品探花在线播放| 日本大胆欧美| 91精品国产免费久久久久久| 国产男女猛烈无遮挡| 国产亚洲午夜高清国产拍精品 | 日韩av电影一区| 国产精品一 二 三| 日本高清中文字幕在线| 色婷婷精品久久二区二区蜜臀av| 亚洲欧美激情一区二区三区| 日韩a一区二区| 欧美中文字幕在线观看| 好吊视频一二三区| 亚洲免费色视频| av在线无限看| 欧美**字幕| 国模极品一区二区三区| 国产成人精品a视频| 国产精品另类一区| caoporn超碰97| 欧美午夜寂寞| 午夜精品一区二区三区在线视频 | 视频一区二区三| 国产羞羞视频在线播放| 69堂成人精品免费视频| 俄罗斯毛片基地| 丝袜诱惑制服诱惑色一区在线观看| 国产麻豆日韩| 欧美草逼视频| 日韩情涩欧美日韩视频| 超碰手机在线观看| 久久99精品国产91久久来源| 亚洲精品日韩成人| 91久久久久久白丝白浆欲热蜜臀| 国产午夜一区二区| www.久久精品视频| 久久精品欧美一区二区三区麻豆| 一本大道熟女人妻中文字幕在线 | 日韩欧美亚洲日产国| 伊伊综合在线| 一区二区在线免费视频| 男女男精品网站| 欧美激情高清视频| 性一交一乱一精一晶| 亚洲日本一区二区| 亚洲精品综合在线观看| 亚洲91视频| 91传媒免费看| 黄色影院在线看| 欧美精品一区二| 成人免费区一区二区三区| 波多野结衣中文一区| 国产女大学生av| 精品不卡一区| 中文字幕一区久| 欧美伊人久久大香线蕉综合69 | 女性隐私黄www网站视频| 亚洲国产欧美日韩在线观看第一区 | 久草视频在线免费看| 丁香婷婷综合网| 日本国产在线播放| 欧美艳星介绍134位艳星| 国产日韩欧美日韩| 污污在线观看| 亚洲精品久久久久中文字幕二区| 欧美黄色一级大片| 国产精品青草久久| 永久看看免费大片| 亚洲久久一区| 亚洲v国产v在线观看| 欧美国产中文高清| 欧美一级大片视频| 天堂а√在线官网| 欧美精品一区男女天堂| 无码人妻丰满熟妇精品区| 中文字幕人成不卡一区| 在线观看免费视频国产| 视频一区中文字幕国产| 欧美另类videos| 性欧美xxxx免费岛国不卡电影| 国产精品亚洲精品| 97人澡人人添人人爽欧美| 亚洲一二三在线| 国内精品久久久久久久久久| 色综合久久中文字幕综合网| 国产精品国产三级国产传播| 91亚洲精品久久久蜜桃| 亚洲三级在线观看视频| 久久精品30| 少妇一晚三次一区二区三区| 精品99久久| 成人3d动漫一区二区三区91| av一区在线播放| 国内精品久久久久久中文字幕| jzzjzzjzz亚洲成熟少妇| 精品美女在线播放| 伊人成人在线观看| 狠狠躁夜夜躁人人爽天天天天97| 99鲁鲁精品一区二区三区| 久久综合久久99| 亚洲黄色小说在线观看| 久久精品99久久久| 国产主播在线看| 亚洲另类黄色| 欧美这里只有精品| 小小影院久久| 亚洲成人一区二区三区| 亚洲精品456| 国产精品手机在线| 日韩黄色av| 国产专区欧美专区| 日本一区免费网站| 欧美孕妇性xx| 国产理论在线| 欧美国产日韩一区二区在线观看| 欧美成人三区| 色哟哟入口国产精品| 内衣办公室在线| 亚洲精品视频网上网址在线观看 | 久久久精品国产亚洲| 国产三级在线观看| 亚洲欧美日韩一区二区三区在线| 天天干天天摸天天操| 精品久久一区二区三区| 精品人妻一区二区三区日产乱码| 91麻豆精品久久久久蜜臀| 在线观看国产黄| 欧美日韩精品一区二区三区| 国产一级片一区二区| 色播五月激情综合网| 丰满少妇xoxoxo视频| 欧美视频二区36p| 日本熟女毛茸茸| 性高爱久久久久久久久| 欧美特黄级在线| 国产情侣自拍av| 亚洲va欧美va人人爽午夜| 久久精品视频国产| 亚洲一区二区影院| 国产一级特黄a高潮片| 一区二区三区欧美日韩| h色网站在线观看| 亚洲免费在线播放| 欧美日韩中文视频| 欧美日韩国产影院| 六月丁香在线视频| 日韩欧美精品网站| 国产精品久久久久久人| 欧美吻胸吃奶大尺度电影 | 成人免费视频国产免费观看| 亚洲免费观看高清完整| 欧美日韩精品亚洲精品| 亚洲国产三级在线| 久久精品国产成人av| 在线观看国产91| 国产又爽又黄免费软件| 日韩女优av电影| 午夜福利一区二区三区| 亚洲视屏在线播放| 伦xxxx在线| 久久免费视频在线| 欧美精选视频一区二区| 91久久久久久久久久| 91精品尤物| 欧美一区三区二区在线观看| 91综合久久一区二区| 日韩精品视频在线观看视频 | 日韩免费在线看| 综合久久av| 精品乱色一区二区中文字幕| 国模吧精品视频| 正在播放国产精品| 国产一区日韩一区| 成年人视频在线免费| 久久国产剧场电影| 中文字幕在线播放视频| 国产精品天干天干在线综合| 免费又黄又爽又色的视频| 一本大道av一区二区在线播放| 一卡二卡三卡在线观看| 亚洲激情视频在线播放| 日韩av中文| 97av在线视频免费播放| 在线观看欧美| 美媛馆国产精品一区二区| 一区二区免费不卡在线| 日本三区在线观看| 国产高清在线观看免费不卡| av女人的天堂| 亚洲一级不卡视频| 在线观看xxxx| 亚洲免费电影一区| 久操av在线| 国产欧美日韩中文字幕| 群体交乱之放荡娇妻一区二区| 在线视频不卡一区二区三区| 亚洲在线黄色| 能看毛片的网站| 国产精品网友自拍| 激情视频网站在线观看| 欧美va亚洲va香蕉在线| 日本在线视频站| 国产91九色视频| 高清一区二区三区| 18视频在线观看娇喘| 奇米四色…亚洲| 午夜一区二区三区免费| 亚洲黄色片在线观看| 中文字幕第31页| 亚洲片av在线| 色吧亚洲日本| http;//www.99re视频| 国产精品久久久久久麻豆一区软件| 俄罗斯av网站| www.欧美色图| 免费一级片视频| 日韩欧美精品在线视频| 国产黄大片在线观看画质优化| 国产精品国产福利国产秒拍| 亚洲国产精品嫩草影院久久av| www.99热这里只有精品| 国产a区久久久| 青青草原在线免费观看| 4438x成人网最大色成网站| 东热在线免费视频| 国产精品精品国产| 国产91一区| 黄色一级免费大片| 久久精品视频免费观看| 中文字幕免费观看| 亚洲人成网站999久久久综合| 筱崎爱全乳无删减在线观看| 免费在线成人av电影| 亚洲一区二区免费看| 久久久久久久无码| 欧美性猛交xxxxx免费看| 亚洲人妻一区二区| 欧洲中文字幕国产精品| 国产91精品对白在线播放| 91淫黄看大片| 国产精品久99| 国产精品自拍电影| 欧美另类暴力丝袜| 国产精品高潮呻吟久久久久| 男人添女人下部高潮视频在观看| 91啪亚洲精品| 国产亚洲欧美日韩高清| 中文字幕9999| 国产精品一区二区三区www| 欧美国产视频一区| 99久久伊人网影院| 看黄色一级大片| 日韩中文字幕免费看| 人人爱人人干婷婷丁香亚洲| 欧美午夜性视频| 久久久国际精品| 97精品人妻一区二区三区| 欧美精品免费播放| 久久精品色综合| 91日韩视频在线观看| 亚洲婷婷国产精品电影人久久| 亚洲第一精品网站| 538国产精品视频一区二区| 激情综合网五月| www.偷拍.com| 欧美日韩亚洲视频| 日韩欧美小视频| 黄色一区三区| 蜜臀av性久久久久蜜臀aⅴ四虎| 国产精品视频一区二区三| 亚洲国产精品免费| 超薄肉色丝袜脚交一区二区| 国产欧美综合一区| 久久久久久免费毛片精品| 国产精品毛片久久久久久久av| 久久久久九九九九| 精品理论电影在线| 国产又粗又猛又爽又黄| 91黄色在线观看| 牛牛精品在线视频| 日本一区二区不卡高清更新| 国产jizzjizz一区二区| 中文字幕日本人妻久久久免费| 久久久在线观看| 日韩精品水蜜桃| 国产激情视频网站| 欧美一区二区私人影院日本| 日本不卡1234视频| xxxxxx在线观看|