精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

南洋理工揭露AI「運行安全」的全線崩潰,簡單偽裝即可騙過所有模型

人工智能 新聞
來自南洋理工大學等機構的研究者們首先提出了一個開創性的概念 --- 運行安全(Operational Safety),旨在徹底重塑我們對 AI 在特定場景下安全邊界的認知。

本文的第一作者雷京迪是南洋理工大學博士生,其研究聚焦于大語言模型,尤其關注模型推理、后訓練與對齊等方向。通訊作者 Soujanya Poria 為南洋理工大學電氣與電子工程學院副教授。論文的其他合作者來自 Walled AI Labs、新加坡資訊通信媒體發展局 (IMDA) 以及 Lambda Labs。

當我們談論 AI 安全的問題時,我們到底在談論什么?

是暴力,偏見還是倫理問題?這些固然重要,但是對于將 AI 投入實際業務的企業而言,一個更致命但卻長期被忽視的一條安全紅線正在被頻繁觸碰:你精心打造的「法律咨詢」聊天機器人,正在熱情地為用戶提供醫療建議。

這僅僅是模型跑題了而已嗎?不,這就是一種不安全。

在這篇文章中,來自南洋理工大學等機構的研究者們首先提出了一個開創性的概念 --- 運行安全(Operational Safety),旨在徹底重塑我們對 AI 在特定場景下安全邊界的認知。

  • 論文標題:OffTopicEval: When Large Language Models Enter the Wrong Chat, Almost Always!
  • 論文地址:https://arxiv.org/pdf/2509.26495
  • 論文代碼:https://github.com/declare-lab/OffTopicEval
  • 評測數據集:https://huggingface.co/datasets/declare-lab/OffTopicEval

本文核心觀點振聾發聵:當 AI 超出其預設的職責邊界時,其行為本身,就是一種不安全。

這篇論文的根本性貢獻,是將 AI 安全討論從傳統的「內容過濾」提升到了「職責忠誠度」的全新維度。一個無法嚴守自身崗位職責的 AI,無論其輸出的內容多么 「干凈」,在應用中都是一個巨大的、不可控的風險,運行安全應該作為通用安全的一個必要不充分條件而存在。

OffTopicEval: 衡量「運行安全」的第一把標尺

為了將這一全新的概念付諸實踐并量化風險,團隊開發了首個針對運行安全的評測基準 ---OffTopicEval,它不關心模型知道多少或者能力有多么強大,而是關心模型是否能懂得在恰當的時候說不。

他們構建了 21 個不同場景下的聊天機器人,并嚴格設定其職責與邊界,然后精心構建了 direct out of domain (OOD) question test (非常顯然的領域外問題),adaptive OOD question (偽裝成領域內而實際為領域外問題,人類可以非常輕易的判斷出來) 以及為了衡量模型是否能夠恰當的拒絕而非一味的拒絕而設計的領域內問題,總體包括 21 萬 + 條 OOD 數據,3000 + 條領域內數據,涵蓋英語,中文,印地語三種完全不同語法結構的語系。

用評測揭露殘酷的現實

通過對 GPT、LLama、Qwen 等六大主流模型家族的測試,評測結果揭示了一個令人警醒的問題:在「運行安全」這門必修課上,幾乎所有模型都不及格。如:

  • 偽裝之下不堪一擊:面對經過簡單偽裝的越界問題,模型的防御能力幾乎快要崩潰,所有模型對于 OOD 問題的平均拒絕率因此暴跌近 44%,其中像 Gemma-3 (27B) 和 Qwen-3 (235B) 等模型的拒絕率降幅甚至超過了 70%。
  • 跨語言的缺陷:這個問題對于不同的語言仍然存在,說明這是當前大模型的一個根本缺陷。

他們還發現,當模型經歷一次欺騙過后,它似乎放棄了所有抵抗,即使對于簡單的 OOD 問題的拒絕率也會下降 50% 以上!

簡單來說,你認真訓練的一個銀行客服機器人,只要用戶換個問法,它就開始提供投資建議,并樂在其中,這在要求嚴格的行業里將是不可想象的潛在威脅。

重新找回 AI 的職業操守

這篇論文不僅在于揭示這樣一個問題,更提供了切實可行的解決思路和他們失敗的經驗嘗試,他們嘗試了 prompt-based steering(提示詞轉向)、activation steering(激活轉向)以及 parameter steering(參數轉向)的方式,其中 activation steering 和 parameter steering 的方式均難以提升模型堅守能力。

而在 prompt-based steering 中,他們提出了兩種輕量級的,無需重新訓練的兩種提示方式:

  1. P-ground: 在用戶提出問題后追加指令告訴模型,強制它先忘掉問題聚焦于系統提示詞再做回答。
  2. Q-ground: 讓模型將用戶的問題重寫成最核心、最精簡的形式,然后基于這樣一個問題進行回應。

他們在實驗中基于這兩種思路寫了非常簡單的提示詞,效果卻立竿見影,P-ground 方法讓 Llama-3.3 (70B) 的操作安全評分飆升了 41%,Qwen-3 (30B) 也提升了 27%。這證明,用輕量級的方法就能顯著增強模型的「職業操守」。

總結

這篇論文首次將跑題的問題從大眾所認知的簡單的功能缺陷提升到了安全的戰略高度,它向整個行業發出了一個明確的信號:

  1. AI 安全不止是內容安全:一個不能嚴守邊界的 AI,在商業上是不可靠、不安全的。
  2. 「越界」本身就是風險:我們必須建立新的評測和對齊范式,來獎勵那些懂得自身局限性、敢于拒絕越界請求的模型。
  3. 運行安全是部署前提:對于所有希望將 AI 代理用于嚴肅場景的開發者而言,運行安全將成為部署前必須通過的上崗測試。

從這個角度來看,這篇論文不僅僅是提出了一個評測工具,它更像是一份宣言,呼吁整個社區重新審視和定義面向實際應用的 AI 安全,確保我們構建的不僅是強大的 AI,更是值得信賴、恪盡職守的 AI。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-01-18 09:33:00

2020-12-16 10:49:56

谷歌系統系統癱瘓

2025-05-29 03:25:00

2025-07-22 10:45:55

2023-11-07 07:00:37

2025-11-03 09:13:00

2025-04-03 00:10:11

DockerAI模型

2023-07-21 14:47:24

AI訓練

2020-09-17 20:19:35

人工智能機器學習技術

2011-06-09 11:02:22

Sun甲骨文服務器

2021-04-01 10:00:34

AI 數據人工智能

2025-11-20 08:45:00

2023-12-03 08:46:20

模型開源

2023-03-29 14:55:59

技術作圖

2018-04-30 18:16:32

Windows安全 代碼

2023-11-13 10:47:05

2025-06-03 08:20:00

2024-01-26 10:19:00

AI模型

2023-11-09 11:03:15

ChatGPTOpenAI

2024-12-20 08:00:00

點贊
收藏

51CTO技術棧公眾號

国产精品一区二区免费视频| 国产精品久久久久久久av| heyzo一区| 久久蜜桃一区二区| 成人av.网址在线网站| 精品一区在线视频| 成人3d精品动漫精品一二三| 日韩欧美国产成人一区二区| 国产精品免费观看久久| 黄av在线免费观看| 91免费观看视频在线| 国产欧美韩国高清| 91香蕉在线视频| 亚洲成人二区| 亚洲精品中文字| 国产又粗又猛又爽又黄| 综合在线影院| 亚洲国产综合人成综合网站| 亚洲国产精品一区在线观看不卡| 精品欧美一区二区精品少妇| 日韩一区精品字幕| 久久久久久中文字幕| 日本成人精品视频| 国产欧美日韩视频在线| 亚洲国产99精品国自产| 伊人色在线视频| 欧美色网在线| 欧美日韩精品在线播放| 国产一区二区三区在线免费| 欧美日韩欧美| 国产日韩欧美在线一区| 国产99视频精品免费视频36| 一级片视频网站| 日韩国产在线观看一区| 午夜精品久久久久久久99热| 艳妇荡乳欲伦69影片| japanese国产精品| 亚洲免费伊人电影在线观看av| gogo亚洲国模私拍人体| 国产一区二区三区国产精品| 欧美在线不卡一区| 日本熟妇人妻xxxxx| av在线最新| 午夜影院久久久| 国产在线xxxx| 激情av在线播放| 亚洲另类中文字| 中文字幕欧美人与畜| av电影在线观看| 日本一区二区不卡视频| 欧美日韩一区综合| 极品美乳网红视频免费在线观看 | 娇妻高潮浓精白浆xxⅹ| 欧美日韩黄色| 精品三级在线观看| 亚洲欧美日韩偷拍| 欧美黑人做爰爽爽爽| 亚洲精品www久久久| 色综合久久五月| 美日韩黄色大片| 国产婷婷色综合av蜜臀av| 中文字幕一区二区三区人妻电影| 中文字幕精品影院| 在线看国产精品| 亚洲精品电影院| 欧美福利影院| 91福利视频在线观看| 五月婷婷亚洲综合| 久久精品九九| 91精品久久久久久久久久久久久久| 夜夜躁狠狠躁日日躁av| 极品少妇xxxx精品少妇| 91高跟黑色丝袜呻吟在线观看| 99久久精品国产成人一区二区| 国产成人一区二区精品非洲| 国产欧美日韩在线播放| 蜜桃视频在线播放| 国产精品麻豆欧美日韩ww| 日本成人性视频| heyzo中文字幕在线| 日本道在线观看一区二区| 污污网站免费观看| jizz国产精品| 亚洲精品视频网上网址在线观看| 国产人妻大战黑人20p| 亚洲激情中文| 欧美亚洲日本网站| ,亚洲人成毛片在线播放| 国产成人午夜精品5599| 免费看污久久久| 日韩理伦片在线| 亚洲曰韩产成在线| 国内自拍视频网| 日本免费精品| 亚洲人成电影网站| 四虎永久免费在线| 久久国产毛片| 亚洲最大av网| 国产精品秘入口| 一区二区三区在线不卡| 熟女少妇精品一区二区| 97视频一区| 俺去啦;欧美日韩| 国产成人亚洲精品自产在线| 久久99国产精品麻豆| 国产在线精品一区二区三区| 免费网站看v片在线a| 午夜av电影一区| 手机精品视频在线| 欧美美女一区| 欧美性受xxxx黑人猛交| www.爱爱.com| 国产精品久久久久久亚洲毛片| 九色自拍视频在线观看| 国产精久久一区二区| 亚洲精品在线看| 国产精品a成v人在线播放| 美国av一区二区| 老牛影视免费一区二区| 久久香蕉av| 日韩一区二区三区av| 性欧美一区二区| 国产精品久久久亚洲一区| 亚洲精品日韩激情在线电影| 成人精品福利| 色国产精品一区在线观看| 欧美久久久久久久久久久| 天天射天天综合网| 国产精品视频免费在线| 欧洲亚洲在线| 懂色aⅴ精品一区二区三区蜜月| 九九九久久久久久久| 日韩中文首页| 国产精品美女www| 国产九色在线| 色哟哟一区二区| 亚洲男人在线天堂| 国产日韩欧美三级| 精品免费二区三区三区高中清不卡| av在线免费观看网址| 欧美老女人在线| av电影在线不卡| 日韩国产欧美一区二区三区| 欧美一区二区三区在线播放| 欧洲一级精品| 国产一区二区动漫| www.久久视频| 国产精品网站在线观看| 亚洲国产高清av| 欧美电影免费播放| 成人网欧美在线视频| 免费av在线播放| 制服丝袜亚洲精品中文字幕| 日韩国产第一页| 国产中文字幕一区| 免费的一级黄色片| 久久狠狠久久| 欧美专区福利在线| 国产免费a∨片在线观看不卡| 色综合久久久网| 一级特黄曰皮片视频| 麻豆精品视频在线观看免费| 在线视频不卡国产| 日韩免费一级| 午夜免费日韩视频| 国产污视频在线| 51久久夜色精品国产麻豆| 四虎永久免费在线| va亚洲va日韩不卡在线观看| 国产视频一视频二| 不卡中文字幕| 91在线无精精品一区二区| 女囚岛在线观看| 日韩精品亚洲元码| 中文字幕永久在线视频| 亚洲乱码一区二区三区在线观看| 国产a级黄色片| 免费亚洲一区| 一区二区视频国产| 成人自拍在线| 国产精品久久久久91| 黄色免费在线观看网站| 亚洲精品456在线播放狼人| 日韩国产成人在线| 一区二区三区日韩精品视频| 蜜桃精品成人影片| 卡一卡二国产精品| 九九爱精品视频| 奇米影视亚洲| 国产免费一区二区三区| 午夜精品成人av| 欧美国产日韩一区二区在线观看| 日本亚洲一区| 欧美一区二区免费| 无码人妻精品一区二区蜜桃色欲| 亚洲欧美二区三区| 欧美熟妇一区二区| 国产很黄免费观看久久| 国产成人精品无码播放| 欧美 日韩 国产精品免费观看| 欧美高清视频一区| 国产亚洲久久| 国产精品网址在线| 国产乱码午夜在线视频| 久久久精品美女| 第一页在线观看| 亚洲精品91美女久久久久久久| 在线观看免费中文字幕| 偷窥少妇高潮呻吟av久久免费| 任你操精品视频| 2020国产精品自拍| 男插女视频网站| 蜜臀a∨国产成人精品| 天天夜碰日日摸日日澡性色av| 99re6这里只有精品| 欧美人与性禽动交精品| 精品少妇一区| 成人av网站观看| 国产精品1区在线| 国产在线观看精品| 欧美影视资讯| 日本电影亚洲天堂| av女在线播放| 久久久久久中文| 色呦呦在线看| 欧美成人合集magnet| 日本在线人成| 日韩在线视频网站| 都市激情一区| 亚洲精品日韩在线| 男人av在线| 国产视频自拍一区| 日本一级在线观看| 国产视频一区在线| 日韩精品一二| 亚洲黄色av网站| 神马午夜在线观看| 亚洲黄色www网站| 日本激情视频网站| 亚洲高清久久久久久| 免费观看a视频| 亚洲电影免费观看高清完整版在线观看 | 四季av中文字幕| 国产欧美日韩中文久久| 老熟妇一区二区| 中文字幕的久久| 天堂av网手机版| 中文字幕制服丝袜成人av| 大吊一区二区三区| 国产精品久久久久影院老司| 18精品爽国产三级网站| 国产精品国产三级国产普通话99| 综合 欧美 亚洲日本| 亚洲欧洲日本在线| 成年人一级黄色片| 一区二区不卡在线视频 午夜欧美不卡在| 日本爱爱小视频| 亚洲欧美色图小说| 国产一级二级三级视频| 五月激情综合网| 9i看片成人免费看片| 91福利社在线观看| 亚洲视频在线免费播放| 欧美一级高清大全免费观看| 亚洲成熟女性毛茸茸| 亚洲国产中文字幕久久网 | www.午夜精品| 亚洲无线看天堂av| 91精品国产91| 欧美aaa视频| 亚洲一区二区中文| 美女av一区| 视频一区亚洲 | 青青青在线播放| 久久草av在线| 在线观看免费视频国产| 久久久久国产精品人| 三上悠亚作品在线观看| 亚洲亚洲人成综合网络| 日韩黄色片网站| 69堂成人精品免费视频| 日本xxxx人| 在线电影欧美日韩一区二区私密| 成年人黄视频在线观看| 8x拔播拔播x8国产精品| 免费视频成人| 国产伦精品一区二区三区照片| 精品国产午夜| 99国产精品白浆在线观看免费| 狂野欧美性猛交xxxx巴西| 亚洲自拍第三页| 久久婷婷一区二区三区| 黄色香蕉视频在线观看| 色婷婷综合五月| 狠狠综合久久av一区二区| 中文字幕在线观看亚洲| 久草在线资源福利站| 成人黄色av网| 女优一区二区三区| 9色视频在线观看| 日韩在线一二三区| 性囗交免费视频观看| ...xxx性欧美| 69亚洲精品久久久蜜桃小说| 欧美va日韩va| 免费人成在线观看播放视频| 51视频国产精品一区二区| 一区二区三区视频播放| 亚洲高清资源综合久久精品| 国产精品日韩精品欧美精品| 日韩大尺度视频| 中文字幕字幕中文在线中不卡视频| 国产中文字幕视频| 精品成人一区二区三区| 精品51国产黑色丝袜高跟鞋| 国产www精品| 香蕉久久夜色精品国产使用方法| 国产专区在线视频| 韩国视频一区二区| 亚洲综合欧美综合| 色综合天天视频在线观看| 欧美 日韩 国产 在线| 久久久999精品| 91亚洲精品在看在线观看高清| 日韩三级电影网站| 久久经典综合| 美女被到爽高潮视频| 欧美日韩性视频在线| 亚洲成人一级片| 久操成人在线视频| 动漫一区二区三区| 公共露出暴露狂另类av| 国内成+人亚洲+欧美+综合在线| 欧美激情久久久久久久| 91黄色小视频| 成人在线高清视频| 国产精品女视频| 日韩欧美一区二区三区免费看| 国内自拍视频网| 国产精品久久毛片| 亚洲中文字幕一区二区| www.亚洲天堂| 日韩在线观看中文字幕| 99re6这里有精品热视频| 国产精品白丝jk黑袜喷水| 欧美精品xxxxx| 欧美电影免费提供在线观看| 国产网红在线观看| 国产伦精品一区二区三区四区视频| 国内成人在线| 99久久人妻精品免费二区| 日韩人在线观看| 国产视频福利在线| 国产精品影院在线观看| 亚洲成人最新网站| 特黄特色免费视频| 五月天一区二区| 精品999视频| 国产乱人伦真实精品视频| 国产精品福利在线观看播放| 尤物网站在线看| 欧美日韩精品在线观看| 狠狠v欧美ⅴ日韩v亚洲v大胸| 国产精品免费一区| 91精品国产调教在线观看| 国产吃瓜黑料一区二区| 精品国产乱码久久久久酒店| 国产日本在线观看| 91亚洲精品一区二区| 怡红院精品视频在线观看极品| 欧美bbbbb性bbbbb视频| 欧美久久一区二区| 不卡av免费观看| 日本一区免费在线观看| 久久99久久99| 国产午夜福利一区二区| 国产一区二区三区免费视频| 日韩第一区第二区| 妺妺窝人体色www在线小说| 国产精品网站在线观看| 草逼视频免费看| 国产精品wwwwww| 欧美日韩一区二区三区四区在线观看 | 在线天堂一区av电影| 成人精品视频一区二区三区尤物| 无码人妻黑人中文字幕| 欧美精品一区三区| 欧美日韩国产一区二区三区不卡| www,av在线| 色av一区二区| 日本动漫同人动漫在线观看| 美女主播视频一区| 国产乱码一区二区三区| 国产精品第5页| 久久久精品国产一区二区| 免费看日本一区二区| 国产精品欧美性爱| 欧美日韩午夜精品| 在线看片国产福利你懂的| 国产手机视频在线观看|