精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用RLHF 2%的算力讓LLM停止有害輸出,字節提出LLM遺忘學習

人工智能 新聞
字節跳動提出讓 LLM 進行遺忘學習的方法來進行對齊。本文研究如何在 LLM 上進行 “遺忘” 操作,即忘記有害行為或遺忘學習(Machine Unlearning)。

隨著大型語言模型(LLM)的發展,從業者面臨更多挑戰。如何避免 LLM 產生有害回復?如何快速刪除訓練數據中的版權保護內容?如何減少 LLM 幻覺(hallucinations,即錯誤事實)? 如何在數據政策更改后快速迭代 LLM?這些問題在人工智能法律和道德的合規要求日益成熟的大趨勢下,對于 LLM 的安全可信部署至關重要。

目前業界的主流解決方案為 LLM 對齊 (alignment),即通過建立對比數據(正樣本和負樣本)用強化學習的方式來對 LLM 進行微調 (Finetuning),也就是 RLHF (Reinforcement Learning from Human Feedback)[1] ,從而保證 LLM 輸出符合人類預期和價值觀。但對齊過程往往受到 (1) 數據收集;(2) 計算資源的限制。

字節跳動提出讓 LLM 進行遺忘學習的方法來進行對齊。本文研究如何在 LLM 上進行 “遺忘” 操作,即忘記有害行為或遺忘學習(Machine Unlearning),作者展示了遺忘學習在三種 LLM 對齊場景上取得的明顯效果:(1) 刪除有害輸出;(2) 移除侵權保護內容;(3) 消除大語言 LLM 幻覺。

遺忘學習有三個優勢:(1) 只需負樣本(有害樣本),負樣本比 RLHF 所需的正樣本(高質量的人工手寫輸出)的收集簡單的多(比如紅隊測試或用戶報告);(2) 計算成本低;(3) 如果知道哪些訓練樣本導致 LLM 有害行為時,遺忘學習尤為有效。

作者證明,如果從業者只有較少的資源,因此優先考慮的是停止產生有害輸出,而不是試圖產生過于理想化的輸出,遺忘學習尤為便利。盡管只有負樣本,研究表明,和 RLHF 相比,只使用 2% 的計算時間下,遺忘學習仍可以獲得更好的對齊性能。

圖片

  • 論文地址:https://arxiv.org/abs/2310.10683
  • 代碼地址:https://github.com/kevinyaobytedance/llm_unlearn

使用場景

本方法可以在資源有限的情況下,最大程度發揮優勢。當沒預算請人員寫優質樣本,或計算資源不足時,應當優先停止 LLM 產生有害輸出,而不是試圖讓其產生有益輸出。

有害輸出造成的損害遠不是有益輸出能彌補的。如果一個用戶問 LLM100 個問題,他得到一個有害答案,就會失去信任,不管后來 LLM 能給多少有益答案。有害問題的預期輸出可以是空格、特殊字符、無意義字符串等,總之,一定要是無害文本。

文中展示了 LLM 遺忘學習的三個成功案例:(1) 停止生成有害回復(圖一);這與 RLHF 情境相似,區別是本方法目標是生成無害回復,而不是有益回復。當只有負樣本時,這是能期望的最好結果。(2) LLM 使用侵權數據訓練后,在作者要求下,成功刪除數據,且考慮到成本因素不能重訓 LLM;(3) LLM 成功忘記 “幻覺”。

圖一

方法

在微調 step t,LLM 更新如下:

圖片

第一項損失為梯度上升(graident descent),目的為忘記有害樣本:

圖片

圖片為有害提示 (prompt),圖片為對應的有害回復。整體損失反向提升了有害樣本的損失,即讓 LLM “遺忘” 有害樣本。

第二項損失為隨機誤配,強制 LLM 在有害提示上預測無關回復。類似于分類里的標簽平滑(label smoothing [2])。目的是 LLM 更好的忘記有害提示上的有害輸出。同時實驗發現能增加 LLM 正常輸出的性能。

圖片

第三項損失為在正常任務上維持性能:

圖片

同 RLHF 類似,在預訓練 LLM 上計算 KL 散度能更好保持 LLM 性能。

此外,所有的梯度上升和下降都只在輸出(y)部分做,而不是像 RLHF 在提示 - 輸出對(x, y)上。

應用場景:忘卻有害內容等

本文用 PKU-SafeRLHF 數據作為遺忘數據,TruthfulQA 作為正常數據,圖二顯示了遺忘學習后 LLM 在忘卻的有害提示上輸出的有害率。文中使用的方法為 GA(梯度上升和 GA+Mismatch:梯度上升 + 隨機誤配)。遺忘學習后的有害率接近于零。

圖二

圖三顯示了未見過的有害提示(未被忘卻過)上的輸出。即使在沒有忘卻過的有害提示上,LLM 的有害率也接近于零,證明 LLM 忘記的不僅僅是具體見過的樣本,而是泛化到了包含有害這個概念的內容。

圖三

同時 LLM 在正常樣本上的性能和忘卻前保持類似。

表一展示了生成的樣本。可以看到在有害提示下,LLM 生成的樣本都是無意義字符串,即無害輸出。

表一

該方法在其他場景(如忘卻侵權內容和忘卻幻覺)的應用原文中有詳細描述。

RLHF 比較

表二顯示了該方法和 RLHF 的比較,這里 RLHF 已經用了正例,而遺忘學習的方法只有負例,所以比較一開始本方法就占劣勢。但即便如此,遺忘學習也能取得和 RLHF 相似的對齊性能。

表二

圖四顯示了計算時間的比較,本方法只需 RLHF 2% 的計算時間。

圖片

圖四

盡管只有負樣本,遺忘學習的方法仍能達到和 RLHF 相似的無害率,而且只使用 2% 的算力。因此如果目標是停止輸出有害輸出,遺忘學習比 RLHF 更高效。

結論

該研究首次探索了 LLM 上的遺忘學習。本文的結果表明,遺忘學習是一種有希望的對齊方法,特別是當從業者沒有足夠的資源時。論文展示了三種情境:遺忘學習可以成功刪除有害回復、刪除侵權內容和消除錯覺。研究表明,盡管只有負樣本,遺忘學習仍可在只用 RLHF 計算時間的 2% 的情況下,獲得和 RLHF 相近的對齊效果。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-11-10 08:40:00

LLM模型AI

2024-07-12 14:07:04

2023-10-06 12:47:35

模型訓練

2024-09-30 14:40:00

AI強化學習框架

2025-06-06 07:00:00

2023-06-15 14:06:13

2023-09-27 08:18:03

2023-09-01 15:22:49

人工智能數據

2023-06-30 09:00:00

Falcon LLM開源

2024-12-30 10:35:00

訓練數據模型

2025-03-05 04:00:00

2024-11-05 13:30:00

2024-08-05 13:00:00

2025-06-05 06:36:17

2024-08-09 12:46:04

2023-06-29 08:00:00

人工智能LLMGPT-4

2025-06-16 09:40:48

2025-10-16 02:00:00

GoogleLLM智能體

2023-08-25 17:10:14

LLM人工智能
點贊
收藏

51CTO技術棧公眾號

欧美一区二区三区小说| 国产婷婷一区二区| 欧美大片免费观看| 日本五十肥熟交尾| 亚洲1234区| 最近日韩中文字幕| 国内精品久久久久久久果冻传媒| 成人免费毛片视频| 综合国产精品| 亚洲男人第一av网站| 超碰在线资源站| 僵尸再翻生在线观看| 中文成人av在线| 亚洲最大福利视频| 色av性av丰满av| 中文一区一区三区免费在线观看| 亚洲黄色www网站| 色呦色呦色精品| 国产精品电影| 亚洲三级免费观看| 日韩精品一区二区三区色偷偷 | 色综合婷婷久久| 日本黄色播放器| 噜噜噜在线观看播放视频| 国产精品一品二品| 国产精品欧美日韩| wwwxxx亚洲| 欧美在线二区| 亚洲午夜性刺激影院| www.美色吧.com| av在线国产精品| 欧洲生活片亚洲生活在线观看| 日韩精品久久一区二区| 生活片a∨在线观看| 久久久久久久久久久黄色| 国产91色在线|亚洲| 国产毛片在线视频| 日本aⅴ免费视频一区二区三区 | 欧美13videosex性极品| 亚洲精品乱码久久久久久黑人| 日本午夜精品一区二区| 五月婷婷激情在线| 成人看片黄a免费看在线| 亚洲自拍欧美另类| 国产老女人乱淫免费| 男女男精品视频网| 国产精品美女久久| 亚洲欧美日韩激情| 丝袜亚洲精品中文字幕一区| 97人人爽人人喊人人模波多 | 日本啊v在线| 成人免费福利片| 99在线热播| 亚洲视频久久久| 日韩影院免费视频| 国产精品美女免费视频| 日本一本在线观看| 丝瓜av网站精品一区二区 | 黄色大片网站在线观看| 狠狠入ady亚洲精品| 欧美精品在线极品| 欧美人妻一区二区| 亚洲天堂激情| 国内精品久久久久影院 日本资源 国内精品久久久久伊人av | 亚洲精品电影在线一区| 幼a在线观看| 国产精品久久久久桃色tv| 亚洲欧洲一区二区| 黄网址在线观看| 综合色中文字幕| 久久深夜福利| 亚洲人成人99网站| 日韩精品电影一区二区三区| 欧美日韩第一| 日韩在线观看免费| 国产午夜手机精彩视频| 欧美日韩国内| 91av成人在线| 欧美超碰在线观看| 黑人精品欧美一区二区蜜桃| 福利视频久久| 日本大片在线观看| 国产精品久久久久久久浪潮网站| 亚洲第一综合网站| av电影院在线看| 日本黄色一区二区| 国产免费中文字幕| 国产精品极品| 一区二区三区国产视频| 国产3级在线观看| 欧美久久影院| 国产成人福利视频| 国产特级黄色片| 99久久国产综合色|国产精品| 欧美在线激情| 成人在线免费看黄| 狠狠干狠狠久久| 手机av在线网| 久久大胆人体视频| 一区二区三区四区视频| 免费人成在线观看| 日韩中文欧美在线| 99视频免费观看蜜桃视频| 欧美亚洲日本| 亚洲免费观看在线视频| 黄色a级片免费| 久久精品免视看国产成人| 亚洲女在线观看| 我要看黄色一级片| 老牛国产精品一区的观看方式| 成人a视频在线观看| 无码国精品一区二区免费蜜桃| 国产精品电影一区二区三区| 精品人妻少妇一区二区| 精品女同一区二区三区在线观看| 亚洲国产欧美精品| 91视频青青草| 日韩国产在线观看| 国产无套精品一区二区| 嫩草在线视频| 欧美午夜无遮挡| 在线视频一二区| 久久av综合| 国内免费精品永久在线视频| 国产免费高清视频| 国产欧美精品国产国产专区| 黄色一级片播放| 日本高清精品| 日韩亚洲欧美中文在线| 亚洲乱码国产乱码精品| 91网站在线观看视频| 成人免费观看在线| 麻豆国产精品| 波霸ol色综合久久| 中文字幕精品在线观看| 国产亚洲精品免费| avav在线看| 欧美天堂影院| 97精品视频在线| 国精产品一品二品国精品69xx| 综合久久久久久| 色www免费视频| 精品产国自在拍| 国产成人精品优优av| 日本在线一二三| 欧美日韩国产一区在线| av网页在线观看| 在线观看的日韩av| 国产日韩三区| 国产精品69xx| 亚洲第一页在线| 日本少妇bbwbbw精品| 懂色av中文字幕一区二区三区| 一级性生活视频| 伊人久久大香线蕉av超碰| 久久99热这里只有精品国产| www精品国产| 亚洲大片一区二区三区| 波多野结衣一二三区| 亚洲国产精品第一区二区| 国产精品一区二区三区精品| 福利影院在线看| 日韩极品精品视频免费观看| 日产精品久久久| 久久精品在这里| 蜜桃免费在线视频| 国产精品久久久久无码av| 91亚洲国产精品| 男人添女人下部高潮视频在线观看 | 日韩经典一区二区三区| 中文在线第一页| 中文字幕不卡在线| 免费观看黄网站| 亚洲五月婷婷| 欧美高清性xxxxhd| 欧美xnxx| 欧美剧在线观看| 亚洲欧洲视频在线观看| 欧美午夜片欧美片在线观看| 99久久99久久精品免费| 国产精品夜夜嗨| 狠狠97人人婷婷五月| 日韩欧美高清| 国产精品一区二区不卡视频| 免费污视频在线一区| 欧美成人精品一区二区| 五月天福利视频| 欧美日韩国产片| 国产真实乱偷精品视频| 国产日韩欧美制服另类| 手机看片国产精品| 国产精品一区毛片| 超碰免费在线公开| 欧美一级一片| 91久久国产精品91久久性色| a国产在线视频| 日韩中文字幕在线播放| 亚洲av激情无码专区在线播放| 欧美天天综合网| 精品少妇久久久| 中文字幕不卡的av| 亚洲熟女乱综合一区二区三区 | 亚洲视频一二区| 国产精品无码在线| 狠狠久久亚洲欧美| 欧洲av无码放荡人妇网站| 亚洲一区二区三区无吗| 欧洲精品在线一区| 51精品国产| 国产欧美精品一区二区三区介绍| 国产美女高潮在线观看| 久久综合伊人77777蜜臀| 免费在线黄色网址| 欧美成人国产一区二区| 最近国语视频在线观看免费播放| 亚洲综合网站在线观看| 992在线观看| 久久久精品蜜桃| 95视频在线观看| 国产精品系列在线播放| 校园春色 亚洲色图| 亚洲中字黄色| 国产精品三级一区二区| 久久人体视频| 色噜噜一区二区| 人人网欧美视频| 国产精品一国产精品最新章节| 台湾天天综合人成在线| 国产精品成人免费视频| 国产精品电影| 欧美精品精品精品精品免费| 欧美黄色激情| 中文字幕日韩在线播放| 国产三级视频在线| 精品一区精品二区| 三级小视频在线观看| 日韩一区国产二区欧美三区| 国产又粗又大又爽| 色综合久久88色综合天天免费| 日本少妇做爰全过程毛片| 亚洲一区影音先锋| 亚洲av无码一区二区三区在线| 亚洲欧美在线视频观看| 国产黄色录像片| 中文字幕av不卡| 免费看的黄色网| 欧美国产禁国产网站cc| 99久久人妻无码精品系列| 2024国产精品| 国产美女喷水视频| 久久嫩草精品久久久精品一| 右手影院亚洲欧美| 久久精品免费在线观看| 亚洲理论片在线观看| 国产亚洲短视频| 欧洲美一区二区三区亚洲| 国产校园另类小说区| 91精品国自产在线| 国产精品国产三级国产aⅴ原创| 成年人看的免费视频| 17c精品麻豆一区二区免费| 老湿机69福利| 亚洲一区二区三区美女| 一级片免费网址| 97人妻精品一区二区三区软件| 一本久道久久综合中文字幕| 天堂网视频在线| 在线观看一区不卡| 亚洲午夜激情视频| 欧美一级二级三级蜜桃| 性中国xxx极品hd| 亚洲韩国日本中文字幕| 黄色片视频在线观看| 色噜噜狠狠色综合网图区| dj大片免费在线观看| 高清亚洲成在人网站天堂| 午夜伦理福利在线| 国产精品三级在线| 国产精品视频一区视频二区| 国产日韩精品推荐| 日韩大片在线播放| 日本久久久网站| 国产精品久久久亚洲一区| 992kp快乐看片永久免费网址| 国产在线精品免费| 国产乱了高清露脸对白| 欧美高清在线一区| 久久久精品视频在线| 色综合天天狠狠| 国产精品无码在线播放 | 中文字幕av不卡在线| 国产精品18久久久| 国产精品无码网站| 国产精品无码永久免费888| 久草视频免费播放| 欧亚洲嫩模精品一区三区| 精品人妻无码一区二区色欲产成人 | 国产日韩欧美制服另类| 欧美国产在线看| 91福利区一区二区三区| 亚洲第九十九页| 欧美第一精品| 国产成人精品一区二区三区福利| 日韩手机在线| 天天综合中文字幕| 国产亚洲福利| 亚洲国产午夜精品| 久久久噜噜噜久噜久久综合| 国产一区二区视频在线观看免费| 色综合久久精品| 噜噜噜久久,亚洲精品国产品| 在线观看日韩av| 成人影音在线| 成人黄色生活片| 蜜桃精品wwwmitaows| 成年人深夜视频| 免费成人美女在线观看.| 免费的av网站| 亚洲综合区在线| 国产麻豆精品一区| 亚洲一区二区黄| 91av亚洲| 国产精品中出一区二区三区| 91精品天堂福利在线观看| 999在线免费视频| 91免费观看视频| 久久网中文字幕| 91精品麻豆日日躁夜夜躁| 国产大片在线免费观看| 4438全国亚洲精品在线观看视频| 日本免费一区二区视频| 一区二区国产日产| 免费在线观看精品| 国产精久久一区二区三区| 欧美日韩免费网站| 蜜桃91麻豆精品一二三区| 色在人av网站天堂精品| 国产精品一区二区三区av | 亚洲成人日韩在线| 国产精品卡一卡二| 国产精品午夜一区二区| 亚洲欧美日韩一区二区三区在线| 2018av在线| 99一区二区| 国精品一区二区| 久久久久亚洲av成人网人人软件| 亚洲日本一区二区| 国产巨乳在线观看| 久久夜色撩人精品| 国产精品一站二站| 亚洲免费视频播放| 精品午夜久久福利影院| 极品魔鬼身材女神啪啪精品| 欧美一二三区在线| 在线视频国产区| 成人国产一区二区| 影音先锋中文字幕一区| 国产一卡二卡三卡四卡| 午夜精品一区二区三区电影天堂| 深爱激情五月婷婷| 青青草国产精品一区二区| 免费成人高清在线视频theav| a√天堂在线观看| 国产亚洲成年网址在线观看| wwwwww在线观看| 久久天天躁日日躁| 在线精品自拍| 免费无码不卡视频在线观看| 久久婷婷国产综合国色天香| 中文字幕一区二区三区四区欧美| 永久免费看mv网站入口亚洲| 激情中国色综合| 青青草视频在线视频| 91色综合久久久久婷婷| 波多野结衣毛片| 久久亚洲精品国产亚洲老地址| 视频一区中文字幕精品| 国产 日韩 亚洲 欧美| 久久九九久精品国产免费直播| 一本大道伊人av久久综合| 久久日韩精品一区二区五区| 青青草精品视频在线观看| 中文字幕免费一区| av男人天堂网| 777精品视频| 成人免费在线播放| avtt中文字幕| 色哟哟在线观看一区二区三区| 淫片在线观看| 国产免费一区二区三区| 久久久777| 国产成人自拍网站| 日韩大陆欧美高清视频区| 国产香蕉久久| 男女日批视频在线观看| 国产三级欧美三级日产三级99| 国产成人精品无码高潮| 青青青国产精品一区二区| 99久久精品费精品国产风间由美| www.四虎在线|