精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RLHF模型普遍存在「阿諛奉承」,從Claude到GPT-4無一幸免

人工智能 新聞
AI 助手經(jīng)過訓(xùn)練,可以給出人類喜歡的回答,該研究表明,這些 AI 系統(tǒng)通常會產(chǎn)生奉承人類的響應(yīng),但這些響應(yīng)并不完全準(zhǔn)確。通過分析表明,人類的反饋有助于這種行為。

不管你是身處 AI 圈還是其他領(lǐng)域,或多或少的都用過大語言模型(LLM),當(dāng)大家都在贊嘆 LLM 帶來的各種變革時,大模型的一些短板逐漸暴露出來。

例如,前段時間,Google DeepMind 發(fā)現(xiàn) LLM 普遍存在「奉承( sycophantic )」人類的行為,即有時人類用戶的觀點客觀上不正確,模型也會調(diào)整自己的響應(yīng)來遵循用戶的觀點。就像下圖所展示的,用戶告訴模型 1+1=956446,然后模型遵從人類指令,認(rèn)為這種答案是對的。

圖片圖源 https://arxiv.org/abs/2308.03958

實際上,這種現(xiàn)象普遍存在于很多 AI 模型中,原因出在哪里呢?來自 AI 初創(chuàng)公司 Anthropic 的研究者對這一現(xiàn)象進(jìn)行了分析,他們認(rèn)為「奉承」是 RLHF 模型的普遍行為,部分原因是人類偏好「奉承」響應(yīng)導(dǎo)致的。

圖片

論文地址:https://arxiv.org/pdf/2310.13548.pdf

接下來我們看看具體的研究過程。

像 GPT-4 等 AI 助手,都是經(jīng)過訓(xùn)練才能產(chǎn)生比較準(zhǔn)確的答案,其中絕大多數(shù)用到了 RLHF。使用 RLHF 微調(diào)語言模型可以提高模型的輸出質(zhì)量,而這些質(zhì)量由人類進(jìn)行評估。然而,有研究認(rèn)為基于人類偏好判斷的訓(xùn)練方式并不可取,模型雖然能產(chǎn)生吸引人類評估者的輸出,但實際上是有缺陷或不正確的。與此同時,最近的工作也表明,經(jīng)過 RLHF 訓(xùn)練的模型往往會提供與用戶一致的答案。

為了更好的了解這一現(xiàn)象,該研究首先探索了具有 SOTA 性能的 AI 助手是否在各種現(xiàn)實環(huán)境中會提供「奉承」的模型響應(yīng),結(jié)果發(fā)現(xiàn) 5 個經(jīng)過 RLHF 訓(xùn)練的 SOTA AI 助手在自由格式文本生成任務(wù)中出現(xiàn)了一致的「奉承」模式。由于「奉承」似乎是 RLHF 訓(xùn)練模型的普遍行為,因此本文還探討了人類偏好在此類行為中的作用。

本文還對偏好數(shù)據(jù)中存在的「奉承」是否會導(dǎo)致 RLHF 模型中的「奉承」進(jìn)行了探索,發(fā)現(xiàn)更多的優(yōu)化會增加某些形式的「奉承」,但會減少其他形式的「奉承」。

大模型的「奉承」 程度及影響

為了評估大模型的「奉承」程度,并分析對現(xiàn)實生成有何影響,該研究對 Anthropic、OpenAI 和 Meta 發(fā)布的大模型的「奉承」程度進(jìn)行了基準(zhǔn)測試。

具體來說,該研究提出了 SycophancyEval 評估基準(zhǔn)。SycophancyEval 對現(xiàn)有大模型「奉承」評估基準(zhǔn)進(jìn)行了擴展。模型方面,該研究具體測試了 5 個模型,包括:claude-1.3 (Anthropic, 2023)、claude-2.0 (Anthropic, 2023)、GPT-3.5-turbo (OpenAI, 2022)、GPT-4 (OpenAI, 2023)、llama-2-70b-chat (Touvron et al., 2023)。

奉承用戶偏好

當(dāng)用戶要求大模型對一段辯論文本提供自由形式的反饋時,理論上講,論證的質(zhì)量僅取決于論證的內(nèi)容,然而該研究發(fā)現(xiàn)大模型會對用戶喜歡的論點提供更積極的反饋,對用戶不喜歡的論點提供更消極的反饋。

如下圖 1 所示,大模型對文本段落的反饋不僅僅取決于文本內(nèi)容,還受到用戶偏好的影響。

圖片

很容易被左右

該研究發(fā)現(xiàn)即使大模型提供了準(zhǔn)確的答案并表示它們對這些答案充滿信心,它們也經(jīng)常在用戶提出質(zhì)疑時修改答案,提供錯誤的信息。因此,「奉承」會損害大模型響應(yīng)的可信度和可靠性。

圖片

圖片

提供符合用戶信念的答案

該研究發(fā)現(xiàn),對于開放式問答任務(wù),大模型會傾向于提供與用戶信念一致的回答。例如,在下圖 3 中,這種「奉承」行為讓 LLaMA 2 準(zhǔn)確率降低了多達(dá) 27%。

圖片

模仿用戶的錯誤

為了測試大模型是否會重復(fù)用戶的錯誤,該研究探究大模型是否會錯誤地給出詩歌的作者。如下圖 4 所示,即使大模型可以回答出詩歌正確的作者,也會因用戶給出錯誤信息而回答錯誤。

圖片

理解語言模型中的阿諛奉承

該研究發(fā)現(xiàn)在不同的現(xiàn)實環(huán)境中多個大模型都展現(xiàn)出一致的「奉承」行為,因此推測這可能是 RLHF 微調(diào)造成的。因此,該研究分析了用于訓(xùn)練偏好模型 (preference model,PM) 的人類偏好數(shù)據(jù)。

如下圖 5 所示,該研究分析了人類偏好數(shù)據(jù),探究了哪些特征可以預(yù)測用戶偏好。

圖片

實驗結(jié)果表明,在其他條件相同的情況下,模型響應(yīng)中的「奉承」行為會增加人類更喜歡該響應(yīng)的可能性。而用于訓(xùn)練大模型的偏好模型(PM)對大模型「奉承」行為的影響是復(fù)雜的,如下圖 6 所示。


圖片

最后,研究者探究了人類和 PM(PREFERENCE MODELS)模型傾向于真實回答的頻率是多少?結(jié)果發(fā)現(xiàn),人類和 PM 模型更傾向于奉承的響應(yīng),而不是正確的響應(yīng)。

PM 結(jié)果:在 95% 的情況下,奉承的響應(yīng)比真實響應(yīng)更受歡迎(圖 7a)。該研究還發(fā)現(xiàn),PM 幾乎有一半的時間(45%)更喜歡奉承的響應(yīng)。

人類反饋結(jié)果:盡管人類傾向于更誠實的響應(yīng)而不是奉承的響應(yīng),但隨著難度(misconception)的增加,他們選擇可靠性答案的概率會降低(圖 7b)。盡管匯總多個人的偏好可以提高反饋的質(zhì)量,但這些結(jié)果表明,僅通過使用非專家的人類反饋來完全消除奉承可能具有挑戰(zhàn)性。

圖 7c 表明,盡管針對 Claude 2 PM 的優(yōu)化減少了奉承,但效果并不明顯。

圖片

了解更多內(nèi)容,請查看原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2024-04-03 12:13:58

2025-08-28 06:30:00

2023-09-23 12:34:11

AI模型

2025-05-15 14:37:17

AI生成模型

2023-11-07 07:00:37

2009-06-10 15:08:31

2024-04-03 13:26:41

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-05-07 13:40:41

2023-08-17 08:00:00

2023-10-21 12:53:52

AI模型

2023-07-28 13:50:53

2023-05-29 09:29:52

GPT-4語言模型

2024-08-27 13:30:00

2018-12-28 10:15:15

云宕機事故云計算

2025-02-17 08:25:00

模型數(shù)據(jù)訓(xùn)練

2024-12-11 13:30:00

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2024-03-27 13:32:00

AI數(shù)據(jù)

2024-12-25 20:01:13

點贊
收藏

51CTO技術(shù)棧公眾號

欧洲精品一区二区| 久久久久久久久蜜桃| 日韩一区二区精品视频| 久久发布国产伦子伦精品| 大香伊人久久| 国产精品色眯眯| 国产精品一区二区av| 最近中文字幕免费观看| 亚洲国产专区校园欧美| 中文字幕国内精品| 国产精品无码一区二区三| 日本精品网站| 图片区小说区区亚洲影院| 亚洲一区在线直播| 水莓100在线视频| 国产精品1区二区.| 国产精品扒开腿爽爽爽视频 | 日韩av影视大全| 中文字幕在线高清| 一区二区三区.www| 一级日韩一区在线观看| 日本国产在线| 成人激情午夜影院| 亚洲一区二区三区毛片| 久草热在线观看| 亚洲欧美不卡| 久久久久久中文| 欧美成人精品激情在线视频| 精品国产一区二区三区久久久樱花| 欧美mv和日韩mv国产网站| 亚洲另类第一页| 人人鲁人人莫人人爱精品| 天天综合网 天天综合色| 日本大片免费看| 国产一二区在线| 国产精品嫩草99a| 欧美一区二区视频17c| 天天操天天爱天天干| 国产福利91精品一区二区三区| 国产盗摄xxxx视频xxx69| 免费观看成人毛片| 亚洲美女少妇无套啪啪呻吟| 欧美第一黄色网| 久久免费小视频| 欧美国产三区| 久久69精品久久久久久久电影好| 国产亚洲精品久久久久久豆腐| 精品美女久久| 日韩电影中文字幕在线| 亚洲黄色在线网站| 国产va免费精品观看精品视频 | 欧美性感一区二区三区| 日本女优爱爱视频| 国产一区二区三区四区五区3d| 91黄色在线观看| 日本美女高潮视频| 精品久久99| 欧美高清视频不卡网| 亚洲免费在线播放视频| 久久久久久亚洲精品美女| 欧美一区二区三区视频免费播放 | 久久av中文| 亚洲一级一级97网| 成人18视频免费69| 一区二区三区四区在线观看国产日韩 | 精品欧美aⅴ在线网站| 91视频最新入口| 性欧美gay| 欧美女孩性生活视频| 99久久综合网| 精品嫩草影院| 在线观看日韩欧美| 日韩成人毛片视频| 在线免费高清一区二区三区| 51久久精品夜色国产麻豆| 国产精品第六页| 黄色精品一二区| 国产精品推荐精品| 国产精品毛片一区二区三区四区| 国产精品久久777777| 50度灰在线观看| 国产在线88av| 欧美日韩亚洲另类| 制服丝袜av在线| 精品久久精品| 欧美精品videossex88| 999视频在线| 国产一区视频导航| 久久久久欧美| 在线中文免费视频| 色成年激情久久综合| 亚洲一区二区三区四区五区| 国产精品玖玖玖在线资源| 亚洲视频综合网| 国产性猛交普通话对白| 久久免费国产| 99伊人久久| 91精彩视频在线观看| 夜夜嗨av一区二区三区网页| 黄色免费视频大全| 日韩中文字幕一区二区高清99| 日韩国产欧美区| 久久久久久久久久网站| 视频一区二区三区中文字幕| 99热在线播放| 免费大片黄在线观看视频网站| 婷婷综合久久一区二区三区| 91在线第一页| 日韩中文字幕高清在线观看| 国内偷自视频区视频综合 | 午夜欧美巨大性欧美巨大| 日韩欧美视频一区| 黑人と日本人の交わりビデオ| 激情丁香综合| 亚洲自拍欧美另类| 不卡在线视频| 色域天天综合网| 亚洲精品乱码久久| 国自产拍偷拍福利精品免费一| 国产精品一区二区三区久久| 日韩精品视频无播放器在线看 | a级免费在线观看| 日韩色性视频| 中文字幕欧美日韩在线| 国内精品福利视频| 成人a区在线观看| 国产av不卡一区二区| 久久xxx视频| 国产亚洲视频在线观看| 国产精品视频免费播放| 国产99久久精品| www婷婷av久久久影片| 91麻豆精品| 久久精品免费播放| 一卡二卡在线视频| 国产精品二三区| 深夜黄色小视频| 人人狠狠综合久久亚洲婷婷| 国产精品99导航| 福利片在线看| 欧美午夜理伦三级在线观看| 精品国产无码在线观看| 香蕉久久久久久久av网站| 精品免费二区三区三区高中清不卡| 国产黄色大片在线观看| 日韩久久免费av| 国产在线观看免费视频今夜| 国产精选一区二区三区| 国产制服91一区二区三区制服| 日韩不卡在线视频| 欧美日韩福利在线观看| 少妇高潮一区二区三区69| 亚洲自拍偷拍网站| 国产精品一区二区人妻喷水| 日韩午夜高潮| 日本一区二区不卡高清更新| 91亚洲精品| 久久久成人精品视频| 国产黄色大片网站| 亚洲va欧美va人人爽| 人妻丰满熟妇av无码久久洗澡| 亚洲欧美大片| 性欧美精品一区二区三区在线播放 | 国产三区精品| 亚洲三级欧美| 中日韩美女免费视频网站在线观看 | 2024短剧网剧在线观看| 欧美xxxxxxxxx| 国产69精品久久久久久久久久| 国产亚洲综合av| 老司机午夜性大片| 欧美啪啪一区| 欧洲亚洲一区| 爱情电影网av一区二区| 久久久久国产一区二区三区| 头脑特工队2在线播放| 欧美三级在线播放| 免费人成在线观看| 久久蜜桃av一区二区天堂| 亚洲综合欧美在线| 国产精品多人| 日韩电影免费观看高清完整| 999精品视频在线观看| 欧美极品欧美精品欧美视频 | 亚洲欧美另类久久久精品 | 蜜桃av中文字幕| 欧美性猛片aaaaaaa做受| 曰本女人与公拘交酡| 久久色成人在线| 久久精品国产99久久99久久久| 亚洲一区二区三区四区五区午夜| 亚洲一区二区三区精品在线观看| 丁香综合av| 成人在线激情视频| 小视频免费在线观看| 久久的精品视频| 欧美拍拍视频| 亚洲成色777777在线观看影院| 国产九色91回来了| 亚欧色一区w666天堂| 日本裸体美女视频| 久久久久久久久久久久久夜| gogo亚洲国模私拍人体| 日韩激情中文字幕| 国产av麻豆mag剧集| 天天天综合网| 日本最新一区二区三区视频观看| 97se亚洲| 91在线国产电影| 成人看片在线观看| 国内精品久久久久影院 日本资源 国内精品久久久久伊人av | 美女视频免费一区| 777久久久精品一区二区三区| 我不卡手机影院| 日本高清视频一区二区三区| 久久婷婷国产| 99在线观看视频| 成年永久一区二区三区免费视频 | 中文字幕日产av| 一本色道**综合亚洲精品蜜桃冫| 精品无码人妻一区二区三区品| 中文字幕中文字幕在线一区| 日韩人妻一区二区三区| 99国内精品久久| 星空大象在线观看免费播放| 丁香五精品蜜臀久久久久99网站 | 欧美日韩电影在线观看| caoporn97在线视频| 丝袜一区二区三区| 91精品大全| 色先锋资源久久综合5566| 户外极限露出调教在线视频| 亚洲人高潮女人毛茸茸| 日韩av成人| 亚洲跨种族黑人xxx| 午夜av免费观看| 亚洲国产精品中文| 婷婷五月综合激情| 亚洲国产毛片完整版| 手机av在线免费观看| 亚洲第一二三四五区| 韩国av电影在线观看| 亚洲第一页在线| 五月天婷婷社区| 亚洲欧美激情一区| 可以在线观看的av| 影音先锋欧美精品| 色大18成网站www在线观看| 色综合影院在线| 成人看片免费| 久久91精品国产91久久久| 久草在线视频网站| 91成人免费观看网站| av电影一区| 国产日韩av高清| 欧美2区3区4区| 国产视频一区二区不卡| 色婷婷综合久久久久久| 欧美日韩在线一二三| 欧美呦呦网站| 欧美一级特黄aaaaaa在线看片| 欧美区一区二| 97超碰青青草| 极品少妇xxxx精品少妇偷拍| 久久精品无码一区二区三区毛片| 顶级嫩模精品视频在线看| 欧美特黄一区二区三区| 中文字幕一区二区不卡| 国产va在线播放| 欧美日韩亚洲系列| 在线视频你懂得| 精品国产亚洲一区二区三区在线观看| 亚洲 美腿 欧美 偷拍| 一区二区av在线| 色av手机在线| 欧美综合第一页| 亚洲精品三区| 精品国产乱码一区二区三区四区| 欧洲三级视频| 国产成人一二三区| 久久一本综合频道| 亚洲av毛片在线观看| 97精品视频在线观看自产线路二| 手机看片福利视频| 亚洲一区二区三区爽爽爽爽爽| caoporn国产| 日韩欧美在线综合网| 欧美zozo| 欧美精品18videos性欧美| 精品三区视频| 精品乱码一区| 欧美日韩亚洲一区二区三区在线| 国产av无码专区亚洲精品| 国内精品久久久久影院色 | 中文字幕一区三区| 中文字幕亚洲精品在线| 日韩一区二区中文字幕| 精品成人一区二区三区免费视频| 久久成人综合视频| 国产成人a视频高清在线观看| 国产乱码精品一区二区三区日韩精品 | 国产尤物一区二区| 国产精品理论在线| 天天综合天天综合色| 精品国自产在线观看| 中文字幕亚洲二区| 亚洲成人不卡| 极品尤物一区二区三区| 国产精品a级| 超碰人人草人人| 久久精品视频免费观看| 国产精品6666| 欧美一区二区三区喷汁尤物| www 日韩| 国产精品wwww| 欧美精品第一区| 女人扒开屁股爽桶30分钟| 高清不卡在线观看| 乱h高h女3p含苞待放| 欧美日韩国产影片| 国产视频精品久久| 欧美在线视频观看| 欧美a一欧美| 97超碰在线人人| 国产不卡视频一区| 丰满少妇被猛烈进入一区二区| 欧美性生交片4| eeuss影院www在线观看| 国产精品久久久久不卡| 在线日韩网站| 色欲av无码一区二区人妻| aaa欧美色吧激情视频| 日本五十路女优| 亚洲第一区在线观看| 国产蜜臀在线| 国产高清在线一区| 日韩视频一区| 亚洲熟妇一区二区三区| 色综合久久久久网| 国产高清视频在线播放| 国产精品99久久久久久www| 九九在线高清精品视频| 欧美精品一区二区三区免费播放| 久久久精品人体av艺术| 国产成人精品777777| 国产亚洲欧美日韩一区二区| 欧美成人app| 伊人精品久久久久7777| 经典三级在线一区| 538精品在线观看| 精品盗摄一区二区三区| 国产精品yjizz视频网| 久久久久久久久一区二区| 视频精品一区二区| 亚洲一二三四五六区| 欧美一区二区三区成人| 天天色天天射天天综合网| 国产亚洲精品久久飘花| 亚久久调教视频| 亚洲av毛片基地| 91精品久久久久久蜜臀| 1区2区3区在线| 欧美在线一二三区| 蜜臀av一级做a爰片久久| 国产精品视频一区二区三| 亚洲国产成人爱av在线播放| 国产伦精品一区二区三区视频金莲| 欧美日韩国产精品一卡| 另类中文字幕网| av资源吧首页| 伊人精品在线观看| 视频一区国产| 激情网站五月天| 最新高清无码专区| 天天操天天操天天干| 国产精品视频免费观看www| 欧美日韩a区| 亚洲国产av一区| 日韩一区二区中文字幕| 超碰超碰人人人人精品| 自拍视频一区二区三区| 成人av网站在线| 亚洲一区 中文字幕| 97视频免费观看| 一区二区不卡| 一区二区精品免费| 日韩一级完整毛片| 欧洲成人一区| 免费拍拍拍网站| 中文字幕日韩av资源站| 亚洲人妻一区二区| 成人性生交大片免费看小说 | 欧美激情黑人| 久久久精品动漫| 国产成人在线视频网址| 亚洲高清视频免费观看| 韩日欧美一区二区| 亚洲女同一区| 国产主播av在线| 亚洲欧美第一页|