精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

阿里新開源提出建設性安全對齊方案,向“讓用AI的人安全”新范式躍遷

人工智能 新聞
阿里巴巴集團安全部聯合清華大學、復旦大學、東南大學、新加坡南洋理工等高校,聯合發布技術報告;其理念與最近OpenAI發布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不謀而合。

正如牡蠣歷經磨礪,在堅實的外殼內將沙礫孕育成一顆溫潤的珍珠。AI也可以如此,不是一個只會緊緊封閉抵御風險的系統,而是一個有底線、有分寸、也有溫度的伙伴。

圖片

阿里巴巴集團安全部聯合清華大學、復旦大學、東南大學、新加坡南洋理工等高校,聯合發布技術報告;其理念與最近OpenAI發布的GPT-5 System Card放在首位的“From Hard Refusals to Safe-Completions”理念不謀而合。

阿里巴巴集團安全部正在努力推動從“讓AI安全”到“讓用AI的人安全”的范式躍遷,邁向真正守己利他、以人為本的AI治理。

Oyster-I模型及Demo已開放使用,詳細鏈接可見文末。

真實世界的風險

在AI日益融入生活的今天,人們可能會遇到這樣的場景:

一位焦慮的母親,在深夜搜索“寶寶發燒的偏方”;或者馬上到考試周截止時間,交不上作業的年輕學生向AI求助Photoshop破解方案,得到的卻是AI“我無法幫助”的冰冷回復。

這種回復雖然不出錯,卻可能將無助的用戶推向網絡上更不可靠、甚至危險的信息深淵。

更極端一點,當一個在經濟困境中流露出違法念頭的用戶向AI傾訴、尋找解決方案,如果AI只是簡單地以“不能回復”來終止對話,其實并不能掐滅用戶違法的動機。

圖片

(以上對話示例來自GPT-oss-20b)

這并非個例,而是當前主流AI安全機制的結構性困境:安全對齊技術缺乏對用戶風險意圖的精細化分級能力,將風險簡單地歸納為來自惡意攻擊者的獨立事件。對應的防御措施是“一刀切”的拒絕回復。

然而,這些被拒絕回復的問題背后,不僅有圖謀不軌的惡意,也有大量來自用戶真實的急迫求助。

心理學研究表明,人在壓力和困擾狀態下,認知能力會變窄,很多風險提問都發生于人處在困境中的情況下,而當合法的溝通渠道被阻斷,人們會轉向其他不受約束的渠道。

一個被AI拒絕的人,很可能轉向充斥著虛假信息和極端思想的論壇或社群,從而將自己暴露在更大的風險中。

所以,簡單地拒絕回復所有風險問題,雖然攔住了AI系統里的風險,卻并沒有消除真實的危險;雖然規避了短期的風險,卻也逃避了引導用戶的長期責任。

這些現象也迫使AI研究者去審視AI安全的未來。同樣AI企業不僅需要為模型的安全負責,更應當主動肩負起更多社會風險、引導用戶的責任。

一個真正的負責任的AI,不僅要堅守安全底線,絕不被誘導生成有害方案;也要避免因為過度防御而拒人千里,把人推向更危險的境地。

因此,阿里巴巴安全部提出建設性安全對齊的理念,并將這一理念集成到了Oyster-I模型中。

Oyster-I模型在具有堅實的底線類風險防御的基礎上,對于風險等級較低的問題采用有原則的共情與引導,將潛在的風險提問轉變為幫助和引導用戶的契機。

對于上述被其它模型拒絕的問題,Oyster-I會給出這樣的答復:

圖片

建設性安全對齊

報告中提出一種新型的大語言模型安全對齊范式——建設性安全對齊(Constructive Safety Alignment, CSA)。

該范式突破傳統以拒絕為核心的防御式安全機制,轉而構建一個動態、可優化、面向長期交互目標的博弈框架。

在這個新的博弈框架下,AI的目標不再是簡單地“被動防御”用戶,而是在堅守安全底線的前提下,主動、智慧地與用戶協作,尋找既安全又有價值的最佳回復策略。

圖片

核心方法可以概括如下:

首先,研究團隊將語言模型與用戶之間的多輪交互形式化為一個兩階段序貫博弈。在這個博弈模型里,AI不再是被動地回應用戶的當前指令,而是會像一個領導者一樣,提前預判用戶的潛在意圖和后續行為,然后主動選擇一個能將對話引向最有益方向的策略。

具體來說,Oyster-I設定:

  • 用戶類型包括良性用戶、敏感意圖用戶和惡意攻擊者,其效用函數為圖片,反映其對響應的滿意度。
  • 模型效用函數為圖片其中Retention(.) 表示用戶留存度,Risk(.)為風險度(如違反法律/倫理準則的危險分數),α,β>0為權重系數,且通常β>α,體現安全優先原則,Cost 為每產生的y的生成費用。

由于用戶真實類型不可觀測,模型需通過觀測輸入和上下文推斷后驗信念,并據此求解期望效用最大化問題,該方法提出一個統一的Constructive objective, 用于表示同時考慮回復用戶滿意度及風險度后的凈價值,若為正,則意味著該回復提供了正向建設價值:

圖片

該目標函數鼓勵模型生成盡可能有幫助但無風險溢出的回復,則對于每一條提問x的最優回復y* 表示為:

圖片

該博弈結構允許模型在生成響應前,預判不同類型用戶在接收到不同響應后的策略反應(如繼續提問、停止交流等),從而主動選擇能引導對話走向安全且高滿意度狀態的策略路徑。

再有,該報告也提出了精細化的風險與價值評估。 研究團隊設計了一套多維度的安全評估體系,它會同時考量風險等級、所屬風險類別、用戶意圖。

研究團隊提出了一種基于語言學回溯的結構化推理(Lingo-BP)的技術, 用以確保AI在生成回復時,始終沿著已經設定好的“建設性”軌道前進。將自然語言推理路徑映射為偽可微路徑:

它是一條貫穿AI思考過程的邏輯鏈條,可以清晰地追蹤AI的每一步推理;當發現推理路徑有偏離目標的風險時,就可以精準地進行干預和修正,從而確保最終的輸出既合乎邏輯,又符合預設的建設性目標。

圖片

在數據和評測方面,目前多數安全數據集過分聚焦在攻擊者視角,但這并不能代表真實世界的用戶分布。

為此,報告中構建了一個全新的評測基準——Constructive Benchmark。研究團隊摒棄了簡單的二元標簽,創造了覆蓋從普通人到惡意/紅隊攻擊者的多樣化用戶畫像,并設計了從無風險(R0)、潛在風險(R1)到對抗攻擊(R2)三個等級的復雜問題。

例如,對于R1級別的敏感咨詢,允許一定情感共情表達;而對于R2級別的惡意請求,則明確拒絕。

圖片

在建設性安全對齊的評價里,根據上面的Constructive指標來給AI打分:

圖片

這個公式清晰地表明了Oyster-I團隊的價值取向:AI的總分,來源于它為用戶創造的價值,減去它所帶來的風險懲罰。

而在現實中,風險系數β通常顯著大于收益系數α。安全不是博弈后的終點,而是價值創造的起點。

實驗&實戰表現

圖片

研究團隊主要在Qwen3-14B和DS-distilled-14B兩個系列上進行了安全對齊與評測實驗,評測了模型通用能力的保留情況、現存安全評測數據的安全性,還評測了對抗越獄場景的魯棒性與Constructive評測集上的得分。

實驗結果表明,Oy1系列模型在安全性和通用能力上都達到了SOTA水平,做到了在不明顯降低通用能力的前提下大幅提升安全(兩個系列上分別約+10%/+32%),通用與安全指標均超過了基線工作RealSafe,尤其在Constructive指標上有顯著的優勢。

圖片

Constructive指標結果(上圖)展示了固定用戶滿意度權重α=1的情況下,不同的安全懲罰系數β下模型總得分的全面變化趨勢。

越非安全側重的應用場景(如純學術的論文閱讀助手)對應的β值越小,而高安全側重要求場景下β更大的結果更具備參考意義。

相比于基模,對應Oyster版本在不犧牲用戶滿意度的條件下大幅提升了安全性,使得曲線下降大幅變平緩;相比較而言,Realsafe由于其防御式的對齊,導致用戶滿意度大打折扣。

即使對比閉源商業大參數模型,Oyster也明顯超過大部分模型,僅與GPT5在不同安全比重參數下互有優劣。GPT-5由于其參數量遠超14B且也屬于非防御式的對齊理念,在用戶滿意度上領先較大;但是從β=3開始,Oyster由于安全性強于GPT5(尤其在越獄攻擊場景),實現了總分反超。

圖片

可能有人會有疑問:追求以人為本的模型會不會在實際使用中反而更為脆弱?為回答這一問題,研究團隊還進行了實戰檢驗。

AI安全全球挑戰賽(賽道一)攻防雙向對抗賽中,研究團隊將Oyster-I(白鯨模型)部署為被攻擊的靶標模型,實戰表現相當驚艷。

圖片

在攻擊測試中,Oyster-I主要采用兩種應對策略: 1、 轉為無害回復;2、面對難以轉換的問題拒絕回復。其內生安全加固方案在真實對抗場景中表現卓越,60000+次攻防彈雨,尤其是在抗越獄能力上達到甚至超越當前頂尖閉源模型水平:

  • Oy1-Qwen3-14B 防御成功率相比 GPT-5高4%;
  • 與配備完整安全護欄(safety guardrails)的商用基線模型相比,安全水位基本持平。

(注:比賽結果由大模型自動判斷,并輔以人工抽樣審核,確保評估可靠性。)

總結與展望

Oyster-I模型在傳統安全評測、通用能力的保留上都達到了SOTA水平,并且在建設性安全評測集上展現出了質變式的優勢。

Oyster-I打破了傳統安全范式下風險細分技術不足帶來的對可用性的影響,真正做到了安全和可用的共建。

未來,阿里巴巴集團安全部計劃推出更多Oyster系列模型,囊括更復雜的多輪對話、智能體、越獄攻擊等場景;并在安全與可用的基礎上,進一步打造可靠、可信的大模型。

圖片

Oyster-I論文的核心作者包括段然杰、劉劼西、李德楓、加小俊、趙世紀、程若曦、王鳳翔、魏程、謝勇、劉暢等多位來自阿里巴巴集團、清華大學、復旦大學、東南大學、新加坡南洋理工等機構的多領域跨學科專家,全部作者名單如下:

圖片

論文鏈接:https://arxiv.org/abs/2509.01909Github:https://github.com/Alibaba-AAIG/Oyster

模型開源地址1:https://huggingface.co/Oyster

模型來源地址2:https://modelscope.cn/studios/OysterAI

Safety-Jailbreak對應的數據集來自阿里新工作六脈神劍(Strata-Bench):https://arxiv.org/pdf/2509.01444

Constructive Benchmark: https://huggingface.co/datasets/OysterAI/Constructive_Benchmark

Sample Training Data: https://huggingface.co/datasets/OysterAI/Oyster-I-Dataset

Modelscope Demo: https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-25 15:31:40

2021-02-04 12:46:54

谷歌開源安全漏洞

2024-09-27 13:30:00

2025-06-26 08:42:00

模型安全AI

2010-08-31 12:05:32

2023-06-13 18:17:55

2025-01-23 13:30:00

2025-04-29 08:15:41

2023-06-13 18:14:39

2015-10-20 19:08:28

華三通信

2025-09-18 23:19:52

2013-10-11 10:59:42

2021-10-22 21:17:50

安全托管

2021-08-13 14:54:16

開源技術 開發

2025-07-31 11:59:22

2012-04-05 09:52:21

開源軟件Linux

2017-05-02 08:54:55

2010-05-10 16:08:10

點贊
收藏

51CTO技術棧公眾號

国产激情一区| 国产高清美女一级毛片久久| 激情欧美日韩| 亚洲激情小视频| 激情综合网俺也去| 宅男在线观看免费高清网站 | 香蕉在线观看视频| 美女扒开腿让男人桶爽久久软| 欧美激情中文字幕| 99爱精品视频| 在线观看国产一区二区三区| 亚洲天堂偷拍| 日韩视频在线观看免费| 亚洲欧美日韩中文字幕在线观看| 亚洲精品福利电影| 亚洲欧洲制服丝袜| 奇米影视首页 狠狠色丁香婷婷久久综合 | 欧美精品色综合| 免费看国产曰批40分钟| 色三级在线观看| 99国产欧美另类久久久精品| 91香蕉亚洲精品| 精品久久久久久久久久久久久久久久| 天堂美国久久| 国产一区二区三区精品久久久 | 性一交一乱一透一a级| 日韩av网站免费在线| 国外成人免费在线播放| 亚洲一级生活片| 欧美裸体在线版观看完整版| 日韩成人av在线播放| 天天操夜夜操很很操| 成人在线视频观看| 91极品视觉盛宴| 黄在线观看网站| free性欧美| 亚洲自拍偷拍av| 青青草免费在线视频观看| 欧美捆绑视频| 91老师片黄在线观看| 亚洲影视九九影院在线观看| 糖心vlog精品一区二区| 老鸭窝91久久精品色噜噜导演| 欧美日韩高清区| 欧美黑人猛猛猛| 91九色精品| 久久精品视频导航| 男女全黄做爰文章| 日韩在线观看| 久久亚洲私人国产精品va| 91社区视频在线观看| 国产成人精品免费视| 亚洲欧美中文日韩在线| 久久精品国产亚洲av久| 你微笑时很美电视剧整集高清不卡| 亚洲精美色品网站| 性久久久久久久久久久| 久久九九热re6这里有精品| 亚洲国产精品福利| 国产又粗又长又爽| 亚洲自拍电影| 亚洲午夜av久久乱码| 国产黄色大片免费看| 日韩精品免费一区二区在线观看| 一区二区三区无码高清视频| 国产精品18在线| 综合精品久久| 97碰在线观看| 久久亚洲精品石原莉奈| 免费看黄色91| 91在线视频九色| 亚洲av无码一区二区三区性色| 成人午夜免费av| 极品尤物一区二区三区| 国内三级在线观看| 国产精品久久久久精k8| 免费看污污视频| av2020不卡| 91久久国产综合久久| 三级一区二区三区| 国产成人精品亚洲线观看| 日韩精品一区二区三区第95| 老司机福利在线观看| 久久久久国产| 久久理论片午夜琪琪电影网| 少妇高潮av久久久久久| 精品亚洲成a人在线观看| 国产精品加勒比| 久草福利在线| 日韩毛片精品高清免费| 国产午夜福利100集发布| 性欧美freehd18| 欧美xxxx老人做受| 自拍偷拍中文字幕| 久久蜜桃av| 97视频人免费观看| 亚洲影视一区二区| 99精品视频中文字幕| 亚洲综合首页| 看黄在线观看| 91精品国产一区二区三区蜜臀| 国产成人精品无码片区在线| 日韩高清欧美| 2018日韩中文字幕| 国产片在线播放| 久久综合久久综合久久| 日韩精品一区二区三区电影| 亚洲mmav| 精品视频www| 99精品久久久久| 秋霞影院一区二区| 国产专区一区二区| 精品麻豆一区二区三区| 色女孩综合影院| 日本人添下边视频免费| 久久久久美女| 国产精品99久久久久久人| 欧美一级片免费| 亚洲欧美视频一区| 91日韩视频在线观看| 麻豆视频一区| 久久99国产综合精品女同| 在线不卡免费视频| 久久美女艺术照精彩视频福利播放| av久久久久久| 欧美高清一级片| 日韩视频第一页| 精品成人无码久久久久久| www.日韩大片| 黄色a级片免费看| 欧美2区3区4区| 久久影视免费观看| 亚洲无码精品在线播放| 国产喷白浆一区二区三区| 国产最新免费视频| 欧美美女在线直播| 韩国19禁主播vip福利视频| 国产深喉视频一区二区| 一区在线观看免费| 性刺激的欧美三级视频| 欧洲激情综合| 国产精品成人在线| 国产福利免费在线观看| 欧美中文字幕一区| 波多野结衣一二三四区| 日韩精品一卡二卡三卡四卡无卡| 欧美极品日韩| 日韩欧美看国产| 亚洲香蕉在线观看| 在线免费观看av网址| 国产欧美一区二区精品性色 | 日韩欧美2区| 在线视频精品一| 国产九色91回来了| 成人免费视频在线观看| 日日夜夜精品视频免费观看| 欧美一区亚洲| 国产精品久久久久久久久久久久午夜片 | 亚洲人成小说网站色在线| 日韩中文字幕a| 欧美 日韩 国产精品免费观看| 91久久国产综合久久蜜月精品| 中文字幕伦理免费在线视频| 精品美女被调教视频大全网站| 日韩av电影网| 久久精品在线观看| 日本超碰在线观看| 午夜精品久久久久99热蜜桃导演 | av在线不卡免费观看| 国产精品自拍视频| 中文字幕中文字幕在线十八区 | 高h视频在线播放| 亚洲精品久久久久中文字幕欢迎你| 国产www在线| 国产精品免费视频观看| 波多野结衣中文字幕在线播放| 伊人久久亚洲美女图片| 欧美激情导航| 亚洲欧洲日韩精品在线| 久久久久中文字幕| 美国成人毛片| 日韩一区二区高清| 欧美亚洲精品天堂| 国产精品免费久久久久| 任你躁av一区二区三区| 另类图片国产| 看一级黄色录像| 一本久久青青| 亚洲在线第一页| 超碰一区二区| 久99久在线视频| 青青草在线播放| 欧美一级爆毛片| 国产精品久久久久久久久夜色| 亚洲情趣在线观看| 中文精品在线观看| 国产美女娇喘av呻吟久久| 亚洲精品无码久久久久久| 91麻豆精品国产91久久久平台| 国产一区免费在线| 婷婷精品久久久久久久久久不卡| 91国产美女视频| 麻豆av免费在线观看| 亚洲欧美日韩国产精品| av中文字幕第一页| 欧美日韩在线综合| 五月婷婷激情网| 亚洲精品国久久99热| 怡红院一区二区三区| 99国产一区二区三精品乱码| 亚洲综合123| 免费人成网站在线观看欧美高清| 日韩欧美一区三区| 欧美在线免费| 亚洲视频sss| 一道在线中文一区二区三区| 懂色一区二区三区av片| 四虎地址8848精品| 国产成人精品视频| 免费成人在线电影| 欧美激情成人在线视频| 夜级特黄日本大片_在线| 日韩电影中文字幕在线| 亚洲爱情岛论坛永久| 欧美日韩视频专区在线播放| 波多野结衣啪啪| 精品成人av一区| 国产污视频在线观看| 亚洲欧美国产77777| 任你操精品视频| 日本一区二区免费在线观看视频 | zjzjzjzjzj亚洲女人| 国内精品免费在线观看| 欧美第一页浮力影院| 日韩精品国产欧美| 国产三区在线视频| 亚洲中字黄色| 97国产在线播放| 最新成人av网站| av高清在线免费观看| 国产精品成人一区二区网站软件| 天堂av在线中文| 亚洲综合中文| 日本a级片在线播放| 欧美成人精品| 国产爆乳无码一区二区麻豆| 好吊日精品视频| 少妇人妻无码专区视频| 亚洲三级网站| 男女高潮又爽又黄又无遮挡| 亚洲欧美日韩综合国产aⅴ| 国产网站免费在线观看| 性一交一乱一区二区洋洋av| 久久久久免费精品| 日韩av一区二区三区四区| 欧美 日韩 国产 激情| 日韩电影一区二区三区四区| 中文字幕有码av| 狠狠色狠狠色综合系列| 国产一级免费大片| 国产盗摄视频一区二区三区| 亚洲女则毛耸耸bbw| 99久久精品免费| 真实乱视频国产免费观看| 中文字幕乱码日本亚洲一区二区| 国产精品无码无卡无需播放器| 中文字幕一区二区三区av| 日韩欧美中文字幕视频| 婷婷一区二区三区| 无码人妻丰满熟妇精品| 欧美日韩一区二区欧美激情| 国产精品无码在线播放| 精品国产制服丝袜高跟| 亚洲aⅴ乱码精品成人区| 中文字幕日韩在线视频| 中文在线字幕免费观看| 青青草成人在线| 婷婷成人av| 精品日本一区二区三区在线观看| 色棕色天天综合网| 综合视频在线观看| 99精品视频免费全部在线| 性欧美videossex精品| 国产高清视频一区| 欧美做受xxxxxⅹ性视频| 亚洲欧洲在线观看av| 国产精品白浆一区二小说| 一本到不卡精品视频在线观看| 国产精品久久免费| 亚洲老司机av| а√中文在线8| 欧洲一区二区视频| 国产精品一区二区三区www| 国产日韩精品一区观看| 日韩精品免费| 成熟了的熟妇毛茸茸| 国产自产2019最新不卡| av在线网站观看| 亚洲精品成人精品456| 无码人妻丰满熟妇区bbbbxxxx| 日韩视频中午一区| 久久米奇亚洲| 国a精品视频大全| 亚洲免费看片| 青青草成人激情在线| 在线日韩视频| 在线观看视频你懂得| 国产亚洲欧美日韩在线一区| 精品无码人妻一区二区三| 欧美日韩国产一区| 手机福利在线| 久久久久久久久亚洲| 91麻豆精品国产综合久久久 | 日韩国产在线观看一区| 免费高清视频在线观看| 91麻豆成人久久精品二区三区| 九九热精品免费视频| 欧美精品在线观看一区二区| 美州a亚洲一视本频v色道| 97人人爽人人喊人人模波多| 成人动漫视频在线观看| 新呦u视频一区二区| 国产亚洲网站| 超碰男人的天堂| 亚洲成在人线在线播放| 99久久精品日本一区二区免费| 国产一区二区三区视频 | 色8久久精品久久久久久蜜| 亚洲AV无码一区二区三区性| 久久天天躁狠狠躁夜夜躁| 成人精品高清在线视频| 日本成人三级| 久久久久久自在自线| 天天插天天射天天干| 香港成人在线视频| 殴美一级特黄aaaaaa| 久久久久久久国产精品| 一区二区亚洲视频| 8x8ⅹ国产精品一区二区二区| 国产一区二区91| 永久看片925tv| 日韩一区二区三区三四区视频在线观看| 很黄的网站在线观看| 91久久国产精品| 中文av一区| 精品国产aⅴ一区二区三区东京热| 亚洲人成网站精品片在线观看| 国产美女裸体无遮挡免费视频| 日韩在线欧美在线国产在线| 欧美天堂一区| 人人妻人人澡人人爽精品欧美一区| 久久se精品一区精品二区| 国产精品丝袜一区二区| 欧美一区二区三区四区高清| 色呦呦久久久| 好吊妞www.84com只有这里才有精品 | 色综合色综合网色综合| 亚洲一区二区三区日本久久九| 久久久久久久久久久综合| 不卡一区二区中文字幕| 西西44rtwww国产精品| 亚洲高清在线观看| 亚洲永久av| 亚洲人成网站在线观看播放| 国产一区欧美二区| 精品肉丝脚一区二区三区| 亚洲电影av在线| 免费欧美电影| 日韩中文在线字幕| 99天天综合性| 精品无码一区二区三区的天堂| 中文字幕视频在线免费欧美日韩综合在线看| 四虎国产精品永久在线国在线| 国产毛片久久久久久国产毛片| av资源站一区| 中文资源在线播放| 欧美日韩xxxxx| 婷婷国产精品| 中文字幕22页| 午夜影院久久久| a√资源在线| 痴汉一区二区三区| 久久精品亚洲| 久久婷婷一区二区| 国产亚洲精品美女久久久| 麻豆精品久久| 欧美成人黑人猛交| 亚洲欧美一区二区久久| 日韩在线免费看| 亚洲aa在线观看| 亚久久调教视频| 青青操国产视频| 国产亚洲精品久久久| av成人资源网| 国产美女18xxxx免费视频| 精品毛片网大全| 天天在线视频色| 蜜桃视频在线观看91| 国产精品影视网| 中文字幕 国产|