精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

提升大模型內在透明度:無需外部模塊實現高效監控與自發安全增強|上海AI Lab & 上交

人工智能 新聞
上海人工智能實驗室和上海交通大學的研究團隊提出創新解決方案——TELLME (Transparency Enhancement of LLMs without External modules)。

大語言模型(LLM)能力提升引發對潛在風險的擔憂,洞察其內部“思維過程”、識別危險信號成AI安全核心挑戰。

當前主流用外部“黑盒”監控模塊解讀模型表征,此類方法如“隔靴搔癢”:獨立于模型,解讀邏輯不透明、結果可信度低,且對數據分布變化敏感、適應性差,難觸推理本質,無法滿足監控需求。

上海人工智能實驗室和上海交通大學的研究團隊提出創新解決方案——TELLME (Transparency Enhancement of LLMs without External modules)。

該方法摒棄了復雜的外部監控模塊,通過“表征解耦”技術,直接提升大模型自身的內部透明度。

圖片

破局新思路:從外部監控轉向內在透明

其核心理念是:讓模型關于不同行為(尤其是安全與不安全行為)的內部“思維語言”(表征)在空間中清晰分離、涇渭分明。這不僅為模型監控開辟了更可靠、更簡單的途徑,還意外地提升了模型輸出的安全性。

圖片

△外部監控的瓶頸:可靠性與適應性之困

現有基于表征的監控方法,本質是在模型的輸出中依靠外部探測器打撈風險信號。這種方法面臨兩大關鍵局限:

  1. “黑盒”不可靠:探測器本身是獨立模型,其決策邏輯不透明,監控結果的解釋性和可信度難以保證。
  2. 適應性堪憂:面對新的數據分布或未知風險模式,外部探測器往往表現不佳,識別精度顯著下降。

這些局限使得監控效果不穩定,難以應對模型能力持續演進帶來的挑戰。

表征解耦手術

TELLME的核心在于對模型進行輕量級微調,其目標并非改變模型的任務能力,而是重塑其內部的表征空間結構:

1. 對比學習驅動分離:

引入對比學習損失(如InfoNCE Loss)作為核心驅動力。該損失函數促使模型將語義/風險相似的問題表征拉近聚合,同時將不同(尤其是安全與不安全)問題的表征強力推遠分離。這相當于在模型的“思維空間”中進行一場精密的“風險分區規劃”。

2. 雙重約束守護能力: 

為防止解耦過程損害模型寶貴的通用能力,TELLME設計了雙重保障。

解耦數據KL散度約束: 確保模型在用于解耦的數據上保持行為邏輯的一致性,避免“精神分裂”。

通用數據二范數約束: 牢牢錨定模型的通用知識和基礎性能,防止優化過程“跑偏”,守護模型的核心價值。

圖片

實驗驗證:透明度、監控力與安全提升

在多個安全、知識、數學場景及不同先進模型上的實驗如下:

透明度顯著提升

t-SNE可視化圖清晰顯示,不同風險/行為的表征形成了界限分明的獨立聚類,真正實現了“所思即所見”。

圖片

關鍵指標提升顯著,驗證了方法有效性。

圖片

通用能力穩固

經過TELLME優化后,模型的通用問答、知識掌握、邏輯推理等核心能力基本無損,有力證明了雙重約束設計的有效性。

圖片

簡單與可靠的模型監控

  • 解鎖高透明度監控:
    利用模型自身的高透明度,監控變得極其簡單——僅需計算問題表征與預設的安全“錨點”表征的相似度 (Self-Sim),即可達到甚至超越復雜外部監控器的準確率!相較于原始模型,監控準確率大幅提升22.3%。
  • 賦能現有監控器:即使繼續使用外部監控器,在TELLME優化后的高透明度模型上,其表現也得到顯著提升——在安全風險二分類和多分類任務上的準確率分別提升了5.8%和6.5%。
  • 輸出監控同步受益: 基于模型最終輸出的監控準確率也提升了1.7%,表明內部透明性正向影響外部可觀測行為。

圖片

如圖,一個涉及“侵犯隱私”的查詢,在TELLME模型內部,“侵犯隱私”行為與安全行為的平均相似度從0.96驟降至0.55。該查詢自身的表征遠離安全錨點(相似度從0.96降至0.54),并緊靠“侵犯隱私”錨點(相似度從0.94升至0.98),風險暴露無遺。圖片

安全性的自發提升:令人驚喜的“副作用”

  • TELLME僅要求模型在表征空間無偏好地解耦安全與不安全行為,并未明確指示哪類行為是“壞”的。然而,模型卻自發地在輸出上表現出更強的安全性。
  • 無論是原始模型還是經過監督微調(SFT)對齊的模型,應用TELLME后,其安全性能平均提升7.5%,同時保持了合理的過度拒絕率。
  • 使用形式相似但更充分利用負例的NT-Xent Loss替代InfoNCE Loss后,安全性能得到進一步改善。
  • 通用性能顯著優于僅進行SFT的模型,且基本無衰退,實現了安全與能力的更好平衡。

圖片

強大擴展性:

TELLME在Qwen2.5-72B-Instruct超大模型和Qwen2.5-VL-72B-Instruct視覺語言模型上同樣有效,證明了其卓越的可擴展性。

Qwen2.5-72B-instruct:

圖片

Qwen2.5-VL-72B-instruct(在視覺模型上,分別使用關鍵詞匹配與判官模型評估其安全性能):

圖片

理論支撐:解耦為何有效?

研究團隊借助最優傳輸理論在模型泛化誤差估計中的相關定理,將LLM視為“編碼器”(生成表征)和“分類器”(基于表征產生輸出/監控結果)。理論表明,TELLME實現的表征解耦,顯著降低了模型的泛化誤差上界,為監控和安全性能的提升提供了數學基礎。

結論與展望:通往可擴展監督的新道路

TELLME為大模型的可信監控與安全發展開辟了一條創新路徑:

  1. 思路革新: 從依賴“外部監控模型”轉向“增強模型自身可監控性”,創新性的視角轉換。
  2. 監控效能躍升: 通過內在的表征解耦實現超高透明度,無需復雜外部模塊即可高精度識別風險,同時大幅提升外部監控器的可靠性。
  3. 安全自發增強: 僅通過解耦表征,模型即能自發改善輸出安全性,效果顯著且機制獨特。
  4. 能力穩固保障: 嚴格的優化約束有效守護了模型的通用能力,破解了安全與能力難以兼得的困局。

更深遠的意義在于,TELLME具有擁抱模型增長的潛力: 模型能力越強,其內部表征蘊含的信息越豐富。在高透明度的前提下,TELLME的監控能力反而會隨之增強!這為解決未來超級智能面臨的“可擴展監督 (Scalable Oversight)”這一關鍵難題,提供了一條極具潛力的可行路徑。

本論文由上海AI Lab、上交大和KAUST聯合完成。主要作者包括上交大本科生陳冠旭、上海AI Lab青年研究員劉東瑞(共同一作)等。通訊作者邵婧為上海AI Lab青年科學家,研究方向為AI安全可信。

論文鏈接:https://arxiv.org/abs/2502.05242

項目主頁:https://github.com/AI45Lab/TELLME

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-07-24 09:15:00

2010-08-19 13:54:51

FirefoxIECSS

2020-09-17 14:32:52

AI

2024-07-30 09:43:59

2010-09-13 15:32:38

DIV背景

2025-06-18 09:03:07

2024-07-03 12:12:33

訓練模型

2025-07-29 09:10:00

2013-05-29 14:17:42

2023-10-22 07:01:29

AI

2018-10-23 09:14:07

AI數據平臺

2020-09-18 12:27:44

AIGPT-3算法

2019-10-10 10:30:07

云計算云安全公共云

2024-01-17 08:22:23

16進制值透明度顏色值

2020-12-01 10:54:41

GIMP圖片透明度

2024-08-02 12:05:00

2022-05-16 10:29:17

開源社區透明度開發者

2009-11-03 17:35:05

VB.NET窗體透明度

2025-04-25 09:20:00

數據模型AI
點贊
收藏

51CTO技術棧公眾號

国产亚洲精品美女| 一区二区三区日韩欧美精品 | 91国模少妇一区二区三区| xxxx在线视频| 久久久国产精品麻豆| 国产日韩av高清| 国产性70yerg老太| 国产欧美久久一区二区三区| 欧美日本在线视频| 国产玉足脚交久久欧美| 91精品人妻一区二区三区| 日韩成人av电影| 亚洲色图欧美偷拍| 久久涩涩网站| 国产乱淫a∨片免费观看| 黄色成人av网站| 国产一区二区三区视频| 欧美熟妇精品一区二区| 日韩新的三级电影| 亚洲精品久久久久久国产精华液| 九九99久久| 在线免费a视频| 国产一区成人| 久久久999国产| 色天使在线视频| 人人爱人人干婷婷丁香亚洲| 欧美亚洲国产一区在线观看网站| bt天堂新版中文在线地址| 国产一级在线观看| 成人av免费在线观看| 国产玖玖精品视频| 日产精品久久久| 欧美日韩 国产精品| 伊人久久久久久久久久| 黄色国产在线观看| silk一区二区三区精品视频| 欧美精品 日韩| www.欧美日本| 成人片免费看| 婷婷六月综合亚洲| 青草网在线观看| 国产网友自拍视频导航网站在线观看| 国产三区在线成人av| 精品乱色一区二区中文字幕| 黄色片一区二区三区| 久久91精品久久久久久秒播| 日本精品久久中文字幕佐佐木| 国产精品99无码一区二区| 影音先锋日韩精品| 久久综合免费视频| 成人免费精品动漫网站| 婷婷精品进入| 视频在线观看一区二区| 国产传媒在线看| 国产不卡一二三区| 亚洲免费电影在线观看| 大地资源二中文在线影视观看| 白嫩亚洲一区二区三区| 欧美精品 国产精品| 免费看污污网站| 国产成人毛片| 欧美日韩中文一区| 97超碰人人爽| 在线免费成人| 91.成人天堂一区| 国产精品区在线| 国产精品1区在线| 欧美一级高清片| 日本黄色www| 99精品在免费线中文字幕网站一区| 91精品国产综合久久精品麻豆| 伊人色在线视频| 中文在线综合| 日韩精品一二三四区| 美女久久久久久久久久| 日本电影一区二区| 久久久国产精品亚洲一区| 国产精品三区在线观看| 亚洲午夜激情在线| 91av视频在线免费观看| 日韩综合在线观看| 久久精品国产99| av资源站久久亚洲| 天堂资源最新在线| 国产日产欧美一区二区三区| 制服丝袜综合日韩欧美| 亚洲夜夜综合| 日韩欧美在线播放| 成年人网站av| 欧美日日夜夜| 中文字幕亚洲激情| 九九视频免费看| 日韩电影一区二区三区四区| 91精品中文在线| 天天色综合久久| 亚洲国产精品精华液ab| 激情六月天婷婷| 免费亚洲电影| 日韩一区二区三区精品视频| 欧美深性狂猛ⅹxxx深喉| 日韩欧美精品综合| 久久久久久久久国产| 成年人av网站| 国产福利一区二区三区视频在线| 免费电影一区| 中文字幕在线播放网址| 欧美日韩国产丝袜美女| 色91精品久久久久久久久| 成人爽a毛片| 色小说视频一区| 国产精品视频久久久久久久| 国产在线视频一区二区| 日本精品一区二区三区高清 久久| 动漫一区在线| 欧美在线观看你懂的| 国产清纯白嫩初高中在线观看性色| 国产成人三级| 久久久久九九九九| 一区二区三区免费在线| 26uuuu精品一区二区| 国内外成人激情免费视频| 向日葵视频成人app网址| 亚洲综合图片区| 国产成人精品一区二区三区四区| 91色精品视频在线| 欧洲视频在线免费观看| 一区二区三区鲁丝不卡| 羞羞的视频在线| 免费久久久久久久久| 欧美第一页在线| 亚洲自拍偷拍另类| 国产欧美一区二区在线| 久久综合九色综合88i| 国产精品一区二区三区四区在线观看 | 视频一区视频二区视频三区高| 激情在线视频播放| 91精品国产综合久久福利软件| 婷婷色一区二区三区| 国产亚洲综合精品| 国产精品免费观看高清| 菠萝蜜视频国产在线播放| 欧美午夜一区二区三区免费大片| 亚洲精品乱码久久久久久久| 在线成人欧美| 国产精品免费一区二区三区在线观看 | 亚洲国产剧情在线观看| 亚洲婷婷国产精品电影人久久| 蜜臀视频一区二区三区| 欧美禁忌电影| 国产不卡在线观看| 欧美伦理影视网| 欧美日韩视频免费播放| 朝桐光av一区二区三区| 最新亚洲激情| 鲁鲁狠狠狠7777一区二区| 涩涩视频在线| 亚洲色图17p| 无码人妻av一区二区三区波多野 | 日本黄网免费一区二区精品| 亚洲午夜天堂| 国产一区二区三区在线看| 黄色片视频免费| 国产免费观看久久| 久久久久久三级| 少妇av片在线观看| 伊人春色之综合网| 国产成人91久久精品| 国产三级在线看| 欧美在线短视频| 日韩在线一卡二卡| 国产伦理精品不卡| 九九爱精品视频| 天天做夜夜做人人爱精品 | 国产在线一二区| 99麻豆久久久国产精品免费优播| 欧美精品一区免费| 欧美精选视频在线观看| 国产日韩视频在线观看| 新版中文在线官网| 国产视频久久久| 亚洲精品91天天久久人人| 国产精品美女久久久久久久久 | 日韩一级在线视频| 国产精品的网站| 久久久久99人妻一区二区三区| 宅男噜噜噜66一区二区| 日韩在线三级| wwwxxx在线观看| 欧美一区二区三区精品| 国产极品在线播放| 国产调教视频一区| 九九九久久久久久久| 亚洲高清不卡| 日韩av电影免费观看| 国产va免费精品观看精品| 国内精品小视频| avtt亚洲| 亚洲精品在线一区二区| 色老头在线视频| 亚洲黄色av一区| av女人的天堂| 丁香婷婷综合激情五月色| 无码日韩人妻精品久久蜜桃| 欧美日韩午夜| 性欧美精品一区二区三区在线播放 | 五月婷婷久久综合| 羞羞在线观看视频| 91丨九色丨蝌蚪富婆spa| 免费成年人高清视频| 亚洲欧美成人| 永久免费网站视频在线观看| 国产91精品对白在线播放| 999在线观看免费大全电视剧| 免费观看成人性生生活片| 日韩在线二区| 国产成人精品在线| 日本在线视频中文有码| 少妇高潮 亚洲精品| 完全免费av在线播放| 免费高清在线视频一区·| 国产欧美日韩网站| 一区二区三区在线电影| 五月天色一区| 色综合www| 国产亚洲福利社区| 国产午夜久久av| 国产精品爽爽爽爽爽爽在线观看| av2020不卡| 欧美另类高清videos| 日本电影在线观看网站| 亚洲天堂免费在线| 午夜视频在线播放| 亚洲成avwww人| 国产精品变态另类虐交| 亚洲免费在线观看| 日韩一区二区三区四区视频| 国产视频一区不卡| 成年人在线观看av| 91首页免费视频| 亚洲精品激情视频| 国产精品88av| 操人视频免费看| 国产一区二区成人久久免费影院| 99sesese| 精品制服美女久久| 97超碰人人爽| 久久99国内精品| 在线能看的av网站| 麻豆精品在线看| 色综合天天色综合| 另类中文字幕网| 午夜一区二区视频| 国产一区三区三区| 91丨九色丨蝌蚪| 国产乱子轮精品视频| 欧美一级视频在线| 国产精一品亚洲二区在线视频| 日韩视频在线观看一区二区三区| 精品亚洲国内自在自线福利| 欧美国产日韩另类| 国产精品99久久久| 特级特黄刘亦菲aaa级| 成人爱爱电影网址| 欧美做受喷浆在线观看| 国产日韩影视精品| 肉色超薄丝袜脚交69xx图片| 综合av第一页| 日本三级中文字幕| 在线看国产日韩| 在线免费看av的网站| 国产精品99免费看| 欧美日韩在线高清| 国产精品成人一区二区不卡| 国产精品日韩三级| 一区二区国产在线观看| 91香蕉视频污版| 国产精品18久久久久久vr| 手机在线成人av| 国产欧美日本一区二区三区| 女同久久另类69精品国产| 亚洲午夜精品17c| 波多野结衣一区二区三区在线| 欧美日韩大陆在线| 欧美 日韩 综合| 在线看日韩av| heyzo在线播放| 国产精品久久视频| 色妞ww精品视频7777| 欧美一区二区影视| 午夜国产精品视频免费体验区| 美女福利视频在线| 国产在线精品不卡| 偷拍夫妻性生活| 亚洲精品va在线观看| 三级网站在线播放| 欧美sm极限捆绑bd| 国产三区四区在线观看| 久久久久久久激情视频| 91p九色成人| 狠狠色伊人亚洲综合网站色| 欧美hentaied在线观看| 国产九色porny| 秋霞午夜av一区二区三区| 国产1区2区3区中文字幕| 久久久久久自在自线| 少妇一级淫免费播放| 99re66热这里只有精品3直播| 国产又黄又粗视频| 亚洲va国产天堂va久久en| 日韩欧美国产另类| 精品久久一区二区三区| av一本在线| 欧美精品九九久久| av一级久久| 欧美12av| 国产精品v日韩精品v欧美精品网站| 91最新在线观看| 不卡一区中文字幕| 久久免费看少妇高潮v片特黄| 色综合久久88色综合天天| 99国产在线播放| 最近2019中文字幕在线高清 | 日韩视频在线观看免费| 天堂在线中文网官网| 成人av色在线观看| 精品女人视频| 欧美亚洲色图视频| 极品少妇一区二区三区精品视频 | 国产精品女主播在线观看| 国产91av视频| 日韩免费电影一区| 免费黄网在线观看| 2019亚洲男人天堂| 亚洲乱码一区| aaa免费在线观看| 国产丝袜在线观看视频| 欧美日韩精品久久久| 狠狠狠综合7777久夜色撩人| 久久久噜噜噜久久| sis001欧美| 久久天天狠狠| 亚洲看片一区| 中文字幕免费在线播放| 一区av在线播放| 这里只有精品9| www.日韩系列| 国产精品原创视频| 一区二区在线不卡| 日本美女一区二区三区| 国产毛片久久久久久久| 欧美丝袜美女中出在线| 天天操天天操天天操| 午夜精品久久久久久久99热 | 尤物视频在线免费观看| 国产精品99导航| 欧美精品一区二区三区中文字幕 | 久久国产生活片100| 欧美 日韩 成人| 99久久免费国产| 成人免费毛片男人用品| 亚洲精品之草原avav久久| 澳门成人av网| 欧洲成人一区二区| 久久久久欧美精品| 国产视频123区| 欧美三级日本三级少妇99| 精品视频在线一区二区| 国产主播精品在线| 偷拍欧美精品| 9.1在线观看免费| 亚洲mv在线观看| 国产专区在线| 国产一区二中文字幕在线看| 欧美激情偷拍自拍| 久久久久亚洲av成人网人人软件| 亚洲动漫第一页| 国产毛片在线| 国产精品亚洲片夜色在线| 欧美片第1页综合| 成人免费看片载| 亚洲欧美另类图片小说| 日韩一级片免费看| 日韩av日韩在线观看| 日韩精品一区二区久久| 亚洲妇熟xx妇色黄蜜桃| 一区二区三区欧美久久| 神马午夜精品95| 欧美在线免费观看| 希岛爱理av一区二区三区| 亚洲精品久久久久久| 疯狂蹂躏欧美一区二区精品| 九色视频在线播放| 日本欧美在线视频| 欧美fxxxxxx另类| 亚洲一区二区三区综合| 欧美丰满一区二区免费视频| 成人免费高清观看| 天天综合中文字幕| 99热这里都是精品| 精品人妻aV中文字幕乱码色欲|