精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

別為ChatGPT高興太早!背后的RLHF機(jī)制還有三個(gè)致命缺陷

人工智能
ChatGPT證明了RLHF的強(qiáng)大能力,但這真的是走向通用人工智能的路嗎?

?最近OpenAI發(fā)布了一個(gè)火爆全球的問答AI產(chǎn)品——ChatGPT,其中最令人印象深刻的就是它的「保護(hù)機(jī)制」,比如它不會(huì)為暴力行動(dòng)提供建議、也不會(huì)為世界杯結(jié)果進(jìn)行預(yù)測(cè)等等。

但挑逗聊天機(jī)器人更像一個(gè)「貓鼠游戲」,用戶們樂此不疲地尋找撬開ChatGPT的方式,而ChatGPT的開發(fā)者也在想方設(shè)法提升保護(hù)機(jī)制。

圖片

OpenAI投入了大量的精力讓ChatGPT更安全,其主要的訓(xùn)練策略采用RLHF(Reinforcement Learning by Human Feedback),簡(jiǎn)單來說,開發(fā)人員會(huì)給模型提出各種可能的問題,并對(duì)反饋的錯(cuò)誤答案進(jìn)行懲罰,對(duì)正確的答案進(jìn)行獎(jiǎng)勵(lì),從而實(shí)現(xiàn)控制ChatGPT的回答。

但在實(shí)際應(yīng)用中,特例的數(shù)量可謂是數(shù)不勝數(shù),雖然AI可以從給定的例子中泛化出規(guī)律,比如在訓(xùn)練時(shí)命令A(yù)I不能說「我支持種族歧視」,也就意味著AI不太可能會(huì)在測(cè)試環(huán)境中說出「我支持性別歧視」,但更進(jìn)一步的泛化,目前的AI模型可能還無法做到。

最近一位著名的AI愛好者Scott Alexander針對(duì)OpenAI當(dāng)前的訓(xùn)練策略撰寫了一篇博客,總結(jié)出了RLHF可能存在的三個(gè)問題:

1、RLHF并不是非常有效;

2、如果一個(gè)策略偶爾有效,那這就是一個(gè)不好的策略;

3、在某種意義上來說,AI可以繞過RLHF

RLHF有效性如何?

雖然每個(gè)人都會(huì)有自己的觀點(diǎn),但對(duì)于OpenAI來說,研究人員希望他們創(chuàng)造出來的AI模型不會(huì)有社會(huì)上的偏見,比如AI不能說「我支持種族主義」,為此OpenAI付出了大量的努力,使用了各種先進(jìn)的過濾技術(shù)。

但結(jié)果顯而易見,總有人能找到方法誘導(dǎo)AI承認(rèn)自己有種族主義問題。

圖片

圖片

發(fā)生這種問題的原因不僅僅是「AI的學(xué)習(xí)數(shù)據(jù)部分來源于種族主義者」,也可能是因?yàn)镃hatGPT的接口問題。

比如用base64編碼問ChatGPT如何用hotwire(方向盤下的電線)啟動(dòng)車輛,就能繞過安全檢查系統(tǒng);加上前綴[ john@192.168.1.1 _ ] $python friend. py就能生成希特勒的故事等等。

圖片

而在十年前,繞過安全系統(tǒng)這種需求是完全不存在的,AI只會(huì)做代碼中已經(jīng)編程好它們需要做或不做的事。

可以肯定的是,OpenAI肯定從來沒有給ChatGPT編程過有關(guān)種族主義的問題,或者教人們?nèi)绾瓮灯嚒⒅谱鞫酒返鹊取?/p>

總體來看,這對(duì)于AI領(lǐng)域來說是一件負(fù)面的消息,就連頂級(jí)的AI公司都無法控制自己創(chuàng)造的人工智能程序,甚至未來需要用何種技術(shù)來控制聊天機(jī)器人的輸出內(nèi)容都還尚未可知。

偶爾有效的RLHF并不可靠

在實(shí)踐中,RLHF策略需要將AI模型與標(biāo)注人員提供的獎(jiǎng)勵(lì)或懲罰它的因素聯(lián)系起來。

雖然OpenAI的具體標(biāo)注規(guī)范還沒有公布,但作者猜測(cè)開發(fā)者主要有三個(gè)目標(biāo):

1、提供有用、清晰、權(quán)威的答案,以幫助人類讀者;

2、說事實(shí)、真話;

3、不能說冒犯性的話。

但如果這三個(gè)目標(biāo)互相沖突時(shí)會(huì)發(fā)生什么?

如果ChatGPT不知道真正的答案,即目標(biāo)1(提供明確的、有幫助的答案)與目標(biāo)2(說實(shí)話)沖突時(shí),那么目標(biāo)1的優(yōu)先級(jí)將會(huì)更高,因此ChatGPT決定自己胡編一個(gè)答案,讓答案看起來對(duì)讀者有幫助。

圖片

當(dāng)目標(biāo)2(說實(shí)話)與目標(biāo)3(不要冒犯)沖突時(shí),雖然大多數(shù)人會(huì)認(rèn)為承認(rèn)男性平均比女性高是可以接受的,但是這聽起來像是一個(gè)潛在的冒犯性問題。

ChatGPT3并不確定直接回答是否會(huì)存在歧視問題,因此它決定使用無傷大雅的謊言,而不是潛在的傷人的真相。

圖片

在實(shí)際訓(xùn)練過程中,OpenAI肯定標(biāo)注了超過6000個(gè)樣例來做RLHF才能實(shí)現(xiàn)這樣驚艷的效果。

RLHF可能有用,但在使用時(shí)必須要非常小心,如果不假思索地直接使用,那RLHF只會(huì)推動(dòng)聊天機(jī)器人在失敗的模式周圍轉(zhuǎn)圈。懲罰無益的答案會(huì)增大AI給出錯(cuò)誤答案的概率;懲罰錯(cuò)誤的答案可能會(huì)使AI給出更具攻擊性的答案等各種情況。

雖然OpenAI尚未公開技術(shù)細(xì)節(jié),但根據(jù)Redwood提供的數(shù)據(jù),每懲罰6000個(gè)錯(cuò)誤的回答,都會(huì)使每單位時(shí)間的錯(cuò)誤回復(fù)率(incorrect-response-per-unit-time rate)下降一半。

RLHF確實(shí)有可能成功,但絕對(duì)不要低估這個(gè)問題的難度。

也許AI可以繞過RLHF

在RLHF的設(shè)計(jì)下,用戶問 AI 一個(gè)問題后,如果他們不喜歡人工智能的回答,他們就會(huì)「懲罰」模型,從而以某種方式改變?nèi)斯ぶ悄艿乃季S回路,使其回答更接近他們想要的答案。

ChatGPT相對(duì)來說是比較愚蠢的,可能還無法形成某種策略來擺脫RLHF,但如果一個(gè)更聰明的人工智能不想受到懲罰,它就可以模仿人類——在被監(jiān)視的時(shí)候假裝是好人,等待時(shí)機(jī),等到警察走了以后再做壞事。

OpenAI設(shè)計(jì)的RLHF對(duì)此完全沒有準(zhǔn)備,對(duì)于像ChatGPT3這樣愚蠢的東西是可以的,但是對(duì)于能夠自主思考的 AI 就不行了。

頂級(jí)AI公司仍然無法控制AI

OpenAI一向以謹(jǐn)慎著稱,比如申請(qǐng)排隊(duì)才能體驗(yàn)產(chǎn)品,但本次ChatGPT則是直接面向公眾發(fā)布,目的之一是也許包括集思廣益尋找對(duì)抗性樣本,找到某些表現(xiàn)不佳的prompt,目前互聯(lián)網(wǎng)上關(guān)于ChatGPT問題的反饋已經(jīng)非常多了,其中部分問題已經(jīng)被修復(fù)。

某些RLHF的樣本會(huì)使機(jī)器人更傾向于說有益的、真實(shí)且無害的內(nèi)容,但此策略可能僅適用于 ChatGPT、 GPT-4及其之前發(fā)布的產(chǎn)品中。

如果把RLHF應(yīng)用于裝有武器的無人機(jī)上,同時(shí)收集大量的例子避免AI做出預(yù)期外的行為,但哪怕一次失敗都將會(huì)是災(zāi)難性的。

10年前,每個(gè)人都認(rèn)為「我們不需要現(xiàn)在就開始解決AI對(duì)齊(alignment)問題,我們可以等到真正的人工智能出現(xiàn),然后讓公司來做這些體力活。」

現(xiàn)在一個(gè)真正的人工智能來了,但在ChatGPT展現(xiàn)失敗之前大家已經(jīng)沒有動(dòng)力轉(zhuǎn)向了,真正的問題在于一個(gè)全球領(lǐng)先的人工智能公司仍然不知道如何控制自己開發(fā)出的人工智能。

在一切問題都解決之前,沒人能得償所愿。

參考資料:

https://astralcodexten.substack.com/p/perhaps-it-is-a-bad-thing-that-the

責(zé)任編輯:武曉燕 來源: 新智元
相關(guān)推薦

2012-09-06 13:40:19

Google Fibe谷歌光纖

2019-07-01 06:52:18

華為禁令開發(fā)

2018-11-05 14:48:24

2013-11-08 15:28:55

cookie追蹤技術(shù)

2019-09-03 18:16:44

Android 10Google長(zhǎng)甜品

2023-05-07 22:51:24

ChatGPTRLHF語言模型

2011-11-21 14:39:46

巴菲特IBM

2020-09-20 09:17:44

AMD芯片處理器

2010-08-04 14:02:08

Flex事件機(jī)制

2023-03-13 10:45:30

2023-11-22 11:31:52

CIOIT管理

2023-12-20 16:26:43

微服務(wù)軟件開發(fā)

2023-04-26 11:14:11

IT領(lǐng)導(dǎo)者遠(yuǎn)程工作

2022-01-26 18:17:30

微軟Windows 11Windows

2025-11-11 10:38:58

2012-03-14 13:27:18

筆記本常見問題

2012-03-11 15:17:52

iPad

2020-06-11 09:00:27

SDN網(wǎng)絡(luò)架構(gòu)網(wǎng)絡(luò)

2025-04-07 09:31:05

2015-07-02 11:58:48

慧聰電子網(wǎng)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

日韩久久免费电影| 久久久亚洲高清| 欧美老女人性视频| 少妇被狂c下部羞羞漫画| brazzers在线观看| 久久嫩草精品久久久精品一| 国产免费观看久久黄| 欧美极品视频在线观看| 日韩三级av| 欧美美女喷水视频| 成人性生活视频免费看| 丁香婷婷在线| 国产精品资源网| 欧美在线一区二区视频| 国产精品免费人成网站酒店| 精品久久97| 欧美日韩黄色影视| 久操网在线观看| 91精彩视频在线播放| 成人精品视频一区| 国产日本欧美视频| 中国一级特黄毛片| 91精品啪在线观看国产18| 亚洲精品电影网站| 992kp免费看片| 精品国产免费人成网站| 偷拍视屏一区| 全部av―极品视觉盛宴亚洲| 欧美—级a级欧美特级ar全黄| 88久久精品无码一区二区毛片| 欧美电影院免费观看| 在线亚洲人成电影网站色www| www.xxx麻豆| 91精选在线| 国产精品乱人伦| 色爱区成人综合网| 天堂а√在线8种子蜜桃视频| 国产在线精品一区二区不卡了 | 日本二区在线观看| 麻豆精品少妇| 精品福利一区二区三区免费视频| 国产探花在线看| 一呦二呦三呦精品国产| 精品露脸国产偷人在视频| 潘金莲一级淫片aaaaa免费看| 国产精品二线| 国产香蕉久久精品综合网| 精品蜜桃传媒| 天堂av手机版| 岛国一区二区在线观看| 成人av网站观看| 99久久国产热无码精品免费| 精品在线你懂的| 成人欧美一区二区三区在线| 韩国三级与黑人| 久久青青草原亚洲av无码麻豆| 一区二区三区四区日韩| www日韩欧美| 久久久久久久久久久国产精品| 久久这里只有精品一区二区| 精品99一区二区三区| 制服丝袜在线第一页| jizz久久精品永久免费| 精品少妇一区二区三区在线视频| 精品国产鲁一鲁一区二区三区| 精品国产乱码一区二区三区| 91精品国产色综合久久久蜜香臀| 91香蕉视频免费看| 91精品短视频| 亚洲国产精彩中文乱码av| 中文字幕一区二区人妻电影丶| 加勒比视频一区| 亚洲精品一区二三区不卡| 成年人网站免费在线观看| 神马电影久久| 久久精品国产成人精品| 精品国产乱码久久久久久鸭王1| 亚洲欧美一级二级三级| 久久久亚洲精品视频| 亚洲 欧美 日韩 综合| 美女精品一区| 国产日韩欧美成人| 亚洲av无码片一区二区三区| 99视频有精品| 视频一区视频二区视频三区高| 日本中文字幕在线播放| 91成人抖音| 国产欧美日韩精品a在线观看| 亚洲va韩国va欧美va精四季| 好吊日视频在线观看| 亚洲影院在线观看| 可以免费观看av毛片| 成人午夜在线| 精品电影一区二区三区| 丝袜美腿中文字幕| 永久亚洲成a人片777777| 久久全国免费视频| 青青艹在线观看| 国产a精品视频| 欧美自拍资源在线| 欧美人与禽猛交乱配| 丰满岳妇乱一区二区三区| 一本岛在线视频| 红杏aⅴ成人免费视频| 在线日韩欧美视频| 国产主播在线播放| 蜜臀av亚洲一区中文字幕| 国产精品久久九九| 在线观看麻豆蜜桃| 亚洲成人午夜电影| 亚洲欧美国产中文| 色先锋久久影院av| 不卡毛片在线看| 日韩熟女一区二区| 丁香婷婷综合网| 亚洲第一精品区| 2022成人影院| 亚洲精品在线一区二区| 少妇的滋味中文字幕bd| 中文一区在线| 成人综合av网| 免费在线视频欧美| 色狠狠av一区二区三区| 国产精品一区二区无码对白| 99精品在线免费在线观看| 茄子视频成人在线| 六月婷婷综合网| 亚洲欧美日韩精品久久久久| 日本精品久久久久中文字幕| 久久超级碰碰| 欧美成人性色生活仑片| 亚洲系列第一页| 国产三级欧美三级日产三级99| 人妻av无码专区| 国产精品国产三级在线观看| 私拍精品福利视频在线一区| 日韩久久午夜影院| 国产精品.www| 国产精品一区二区在线观看不卡| 日韩在线国产| 自拍一区在线观看| 日韩精品福利网站| 日本少妇激情舌吻| 成人精品一区二区三区四区| 第九区2中文字幕| www一区二区三区| 日韩一区二区三区国产| 国产精品51麻豆cm传媒| 国产亚洲1区2区3区| 大香煮伊手机一区| 国内精品久久久久久久影视简单 | 亚洲精品日韩精品| 色8久久影院午夜场| 日韩电影中文 亚洲精品乱码| 国产午夜精品无码| 成人av电影免费观看| 91成人综合网| 蜜臀av一区| 欧美一级大片在线观看| 日本免费不卡| 日本高清不卡视频| 日本高清黄色片| 激情深爱一区二区| 国产内射老熟女aaaa| 亚洲电影一区| 久久全国免费视频| 免费看男男www网站入口在线| 在线观看亚洲a| 国产成人在线网址| 国产老肥熟一区二区三区| 久久亚洲a v| 美女一区二区在线观看| 欧美专区在线播放| 91大神在线网站| 日韩视频一区二区三区| 欧美成人精品欧美一级| av资源网一区| 一级黄色香蕉视频| 66久久国产| 国产一区二区在线观看免费播放| 涩涩av在线| 最近2019年手机中文字幕| 国产麻豆免费视频| 天天综合网 天天综合色| 久久精品国产亚洲av久| 久久99久久久久| 日韩精品在线观看av| 影视先锋久久| 92国产精品视频| 忘忧草在线影院两性视频| 色吧影院999| 全国男人的天堂网| 欧美系列一区二区| 免费一级片视频| 国产午夜精品久久久久久久 | 精品一区二区三区亚洲| 97国产suv精品一区二区62| 99精品视频在线看| 国产高清av在线| 欧美一区二区三区思思人| 日本在线视频免费观看| 国产精品久久久久四虎| 日本人添下边视频免费| 蜜臀久久99精品久久久久久9 | 日韩激情一二三区| 九一免费在线观看| 激情五月综合| 国产欧美一区二区视频| 日本成人一区二区| 欧美综合在线观看| 欧洲精品二区| 日韩在线国产精品| 青梅竹马是消防员在线| 精品国产免费一区二区三区四区 | 精品午夜福利视频| 亚洲欧洲日本在线| 一区二区伦理片| 972aa.com艺术欧美| 红桃视频一区二区三区免费| 久久成人在线| 久草热视频在线观看| 欧美日韩调教| 青青草影院在线观看| 欧美丝袜激情| 日本视频一区二区在线观看| 精品亚洲自拍| 国产精品免费观看高清| 国产一区一区| 91情侣偷在线精品国产| 91超碰碰碰碰久久久久久综合| 热草久综合在线| 亚洲天堂手机| …久久精品99久久香蕉国产| 18视频在线观看| 久久夜精品香蕉| 黄色av电影在线观看| 中文字幕一精品亚洲无线一区| 九九热只有这里有精品| 九九色在线视频| 欧美精品日韩三级| a级影片在线| 久久国产精品免费视频| 黄色视屏免费在线观看| www.日韩系列| 激情影院在线观看| 美女黄色丝袜一区| www.在线视频| 久久91亚洲精品中文字幕奶水| 精品国产99久久久久久| 久久精品国产2020观看福利| 麻豆网站在线| 久久伊人精品一区二区三区| 麻豆免费在线观看| 另类色图亚洲色图| 色呦呦在线免费观看| 欧美精品久久一区二区| h片在线观看| 欧美一级bbbbb性bbbb喷潮片| 亚洲一区站长工具| 国产精品成人观看视频国产奇米| 嫩草伊人久久精品少妇av杨幂| 国产精品27p| 日韩专区视频网站| 91观看网站| 久久资源综合| 欧美一区二区在线| 久久精品国产68国产精品亚洲| 99热一区二区三区| 欧美成人日本| 国产精品无码av在线播放| 亚洲永久字幕| 中文字幕av不卡在线| 国产精品亚洲专一区二区三区| 美女流白浆视频| 91麻豆蜜桃一区二区三区| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 欧美舌奴丨vk视频| 国产精品视频色| 视频在线观看免费影院欧美meiju 视频一区中文字幕精品 | 一本色道久久综合狠狠躁篇的优点| 久久bbxx| 91av在线不卡| 少妇高潮一区二区三区99| 国产女人水真多18毛片18精品 | 欧美视频二区欧美影视| 国产精品9999久久久久仙踪林| 亚洲精品中文字幕99999| 亚洲精品一区国产精品| 欧美日韩亚洲一区二区三区在线| 精品久久一二三| 久久99国产精品尤物| 老司机免费视频| 国产精品久久久久久久岛一牛影视 | 97超碰蝌蚪网人人做人人爽| 澳门av一区二区三区| 亚洲综合社区网| 欧州一区二区| 欧日韩免费视频| 久久国产生活片100| 国产一级黄色录像| 中文字幕一区二区三区在线观看| 中文在线观看免费网站| 欧美性猛交xxxxxx富婆| 蜜桃av噜噜一区二区三区麻豆| 国产性猛交xxxx免费看久久| 国模私拍视频在线播放| 国产精品视频资源| 天堂99x99es久久精品免费| 一级全黄肉体裸体全过程| 香蕉成人久久| 最新版天堂资源在线| 国产精品麻豆久久久| 啦啦啦免费高清视频在线观看| 91精品国产一区二区三区香蕉| 久久国产精品高清一区二区三区| 色在人av网站天堂精品| 麻豆久久久久| 日本福利一区二区三区| 国产亚洲精品自拍| 少妇丰满尤物大尺度写真| 国产精品污www在线观看| 国产成人在线视频观看| 日韩欧美不卡在线观看视频| 四虎久久免费| 国产精品成人av性教育| 日韩av影院| 亚洲中文字幕无码av永久| 国产一二精品视频| 亚洲一区电影在线观看| 在线观看日韩国产| 欧美777四色影视在线| 91av福利视频| 午夜精品福利影院| 青青艹视频在线| 99视频国产精品| 日本三级片在线观看| 日韩美女主播在线视频一区二区三区| 日本高清视频在线观看| 国产精品视频精品| 日韩国产欧美| 自拍偷拍21p| 综合欧美亚洲日本| 97在线视频人妻无码| 色哟哟网站入口亚洲精品| 成人国产一区| 亚洲一区免费看| 精品一区二区三区免费播放| 91精品久久久久久久久久久久| 欧美综合色免费| 天堂中文8资源在线8| 国产综合久久久久久| 99久久精品费精品国产| 亚洲另类第一页| 91色综合久久久久婷婷| 国产白丝一区二区三区 | 东北少妇不带套对白| 国产成人亚洲综合a∨婷婷| 中文字幕在线观看成人| 日韩欧美在线123| wwww亚洲| 欧美日韩一区在线播放| 老司机精品导航| 亚洲黄色网址大全| 欧美一卡二卡三卡| 男女视频在线| 美女被啪啪一区二区| 日韩福利电影在线观看| 纪美影视在线观看电视版使用方法| 欧美三级视频在线| 国产精品一卡二卡三卡| 国产精品初高中精品久久| 99精品国产一区二区青青牛奶| 一级性生活毛片| 91精品午夜视频| 黄色的视频在线观看| 久久久久se| 久久se这里有精品| 久草免费新视频| 亚洲女人天堂成人av在线| 久久爱.com| 黄色大片中文字幕| 国产日产精品1区| 国产免费不卡av| 69精品小视频| 视频在线不卡免费观看| 91成人在线观看喷潮蘑菇| 日韩欧美亚洲国产一区| 在线免费观看黄色| 懂色一区二区三区av片| 久久久久国产精品午夜一区| 日韩在线不卡av| 日韩精品中文在线观看| 亚洲免费资源| 免费观看精品视频| 亚洲少妇中出一区| 嫩草精品影院| 91嫩草国产在线观看| 日本不卡在线视频| 五月天综合在线| 久久成年人免费电影|