精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4變笨!回答新問題性能太差,想保持水準只能不斷訓練新模型

人工智能
最近由UCSC的研究人員發表論文,證明大模型的零樣本或者少樣本能力,幾乎都是來源于對于訓練數據的記憶。

昨天,一篇系統性地研究了GPT-4為什么會「降智」的論文,引發了AI圈的廣泛討論。

隨著大家對GPT-4使用得越來越頻繁,用戶每過一段時間都會集中反應,GPT-4好像又變笨了。

圖片圖片

最近的情況是,如果用戶不小心和GPT-4說現在是12月份,GPT-4的輸出的內容就會明顯變少。

有一位用戶專門做了一個測試,分別告訴GPT-4現在是5月份和12月份,然后對比輸出結果,發現12月份的結果比5月份差了不少。

圖片圖片

大家討論都覺得是說GPT-4會給自己放寒假,看到12月份就不想干活了。

但是如果放在這篇論文中來看,作者認為,最主要的原因是大模型有一個現在看來幾乎是無解的缺陷——缺乏持續學習和進化能力。

圖片圖片

論文地址:https://arxiv.org/abs/2312.16337

我們發現在LLM在訓練數據創建日期之前的數據集上的表現,要明顯好于在訓練日期之后發布的數據集的表現。

圖片圖片

不論是零樣本還是多樣本的測試中,LLM都會呈現出這種情況。

論文還指出,LLM在他們以前真正「見過」的任務上表現良好,而在新任務上表現不佳,根本原因還是因為只是記住了答案,而沒有辦法有效地獲得新知識和理解。

而造成這種表現差別如此巨大的原因,就在于「任務污染」。

圖片圖片

在上表中,作者發現可以從GPT-3模型中都能提取任務示例,并且從davinci到GPT-3.5-turbo的每個新版本中,提取的訓練示例數量都在增加,與GPT-3系列模型在這些任務上的零樣本性能提高密切相關。

說白了,之所以模型在截止時間之前的數據集測試表現良好,是因為訓練數據中已經包含了數據集中的問題。

這充分說明了GPT-3系列各個版本在這些任務上的性能增強是由任務污染導致的。

對于那些不存在任務污染證據的分類任務,大型語言模型很少能在零樣本和少樣本設置下顯著優于簡單多數基準。

在上表中,研究人員也列出對于51個后訓練數據收集且無提取任務示例的模型/數據集組合中,只有1個組合的模型能在零樣本或少樣本設置下顯著優于多數基準。

這說明一旦沒有任務污染的可能性,LLM的零樣本和少樣本表現其實并不突出。

網友們看了之后悲觀地表示:目前很難構建能夠持續適應且不會對已編碼的過去知識和新知識造成災難性干擾的機器學習模型。

圖片圖片

ChatGPT是過去互聯網的快照 - 隨著互聯網的變化,ChatGPT 在有用任務的知識和性能方面都變得過時了。

OpenAI和大模型公司都必須面對這樣一個事實——他們必須不斷重新訓練新模型。

圖片圖片

也許,這就某種程度上為什么沒過一段時間,人們就會發現ChatGPT又變笨了,也許只是因為你不斷地在用新問題考它,它的真實水品慢慢地被暴露出來了。

測試模型

研究人員針對12個模型進行了測試:

5個OpenAI發布的GPT模型,7個開源的LLM。

圖片圖片

針對這些模型,他們選取了兩組剛好卡在模型訓練時間前后的數據集進行了測試。

圖片圖片

測試方法

時序分析

然后研究人員分別測試了不同模型在相同兩組數據集上的表現。從結果可以明顯看出,在模型數據訓練截止日期之后發布的數據集,零樣本和多樣本性能明顯要差了很多。

圖片圖片

對于12個模型和16個數據集,研究人員進行了192個模型/數據集組合。

在這些組合中,136 個數據集在 LLM 培訓數據收集日期之前發布(收集前),56 個數據集在之后發布(收集后)。對于這兩個集合,我們計算模型擊敗大多數基線(零樣本和少樣本)的模型/數據集組合的百分比。

結果如下圖 1 所示。我們發現,對于在創建 LLM 之前發布的數據集,LLM 更有可能在零和少數樣本設置上擊敗多數基線。

圖片圖片

針對單個的LLM,進一步發現:

針對每個LLM單獨進行測試。結果如上圖2所示。這樣的趨勢在具有全范圍日期的模型中保持不變,進一步表明數據集的絕對日期不是主要因素,而是日期數據集相對于法學碩士訓練數據收集日期的變化是更重要的因素。

任務示例提取分析

如果LLM能夠生成與測試數據中的示例完全匹配的示例,則證明LLM在訓練期間已經看到了該任務的測試集。

研究人員采用類似的方法來測試任務污染。他們不嘗試生成測試數據,而是提示模型生成訓練示例,因為對于零次或少次評估,模型不應在任何任務示例上進行訓練。

如果LLM可以根據提示生成訓練示例,這就是任務污染的證據。

下表4顯示了所有模型中所有任務的任務示例提取結果。

圖片圖片

進一步研究人員還發現,對于沒有被證明存在任務污染可能性的任務,LLM很少表現出比大多數基線具有統計顯著性的改進。

在上表4中,對于收集后且沒有提取任務示例的 51 個模型/數據集組合,51 個模型/數據集組合中只有 1 個(即 2%)在零樣本或少樣本設置的情況下表現出相對于大多數基線的統計顯著改進。

成員推理分析

為了進一步檢查訓練數據污染的影響,研究人員應用了成員推理來檢查模型生成的內容是否與數據集中的示例完全匹配。

圖片圖片

上圖5a和圖5b分別顯示了GPT-3系列版本和最新開源 LLM 的采樣訓練集和完整開發集生成的示例有多少是完全相同的。

因為數據庫模式(atabase schemas )不在零樣本提示中,因此如果模型可以生成與訓練或開發數據中完全相同的表名或字段名,則一定存在污染。

如圖5所示,精確匹配生成的示例數量隨著時間的推移而增加,這表明Spider上的任務污染程度正在增加。

他們還在提示中添加模式后計算執行準確性,并將其與完全匹配的代數進行繪制(圖 6)。我們發現完全匹配的生成示例數量與執行準確性之間存在很強的正相關性(?? = 0.88),這強烈表明污染的增加與性能的提高有關。

圖片圖片

參考資料:

https://arxiv.org/abs/2312.16337

責任編輯:武曉燕 來源: 新智元
相關推薦

2024-01-01 22:28:52

2024-01-26 12:31:16

OpenAIGPT-4代碼

2024-03-08 12:35:27

AI模型

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-06-19 08:19:50

2024-03-08 13:18:44

模型訓練

2025-04-16 09:35:03

2023-07-14 09:49:16

2023-06-08 11:27:10

模型AI

2023-03-30 11:08:49

AI模型訓練

2023-12-12 06:44:04

OpenAIGPT-4GPT 模型

2023-12-26 08:17:23

微軟GPT-4

2024-07-02 01:09:02

2023-06-02 13:19:17

GPT-4文本代碼

2023-07-21 14:16:15

2023-09-03 12:56:43

2024-12-25 20:01:13

2024-03-27 13:32:00

AI數據

2023-05-29 09:29:52

GPT-4語言模型

2023-04-09 16:17:05

ChatGPT人工智能
點贊
收藏

51CTO技術棧公眾號

超碰在线97免费| 国产在线精品一区二区三区》| 一级特黄曰皮片视频| 在线不卡一区| 亚洲成人av在线电影| 欧美日韩一区在线视频| 亚洲一区二区色| 伊人蜜桃色噜噜激情综合| 亚洲欧美第一页| 午夜影院免费版| 蜜桃视频在线观看播放| 国产精品网站在线观看| 都市激情久久久久久久久久久| 色屁屁影院www国产高清麻豆| 天天久久综合| 国产视频久久久久| 18深夜在线观看免费视频| 不卡一二三区| 一区二区三区欧美视频| 日本一区二区三区免费看| 精品黑人一区二区三区在线观看| 先锋影音久久久| 欧美成人精品xxx| 中文字幕人妻一区二区| 999在线精品| 欧美日韩视频在线一区二区| www.玖玖玖| 性欧美videoshd高清| 日本一区二区三区在线观看| 国产一区二区三区av在线| 亚洲性在线观看| 欧美亚洲一区| 午夜精品99久久免费| 极品色av影院| blacked蜜桃精品一区| 亚洲精品成人久久久| xxxx国产视频| 国产va免费精品观看精品| 色94色欧美sute亚洲13| 男人添女人下部高潮视频在观看| 在线xxxx| 亚洲欧美色图小说| 亚洲成人自拍| 国产免费av在线| av亚洲精华国产精华精华| 成人自拍偷拍| 亚洲国产精品国自产拍久久| 精品一区二区三区在线观看国产| 国产精品扒开腿做| 欧美日韩一级黄色片| 国产亚洲激情| 欧美伊久线香蕉线新在线| 日韩av在线播| 亚洲影院一区| 欧美壮男野外gaytube| 伊人久久综合视频| 国产一区二区三区久久| 456国产精品| 日韩中文字幕在线观看视频| 国产精品久久久久久久免费软件 | 欧美在线免费观看亚洲| 日韩精品一区中文字幕| 精品网站在线| 欧美午夜片在线看| 中文字幕在线综合| 日日狠狠久久| 欧美午夜电影网| 国产偷人视频免费| 欧美暴力调教| 538在线一区二区精品国产| 天堂在线中文在线| 亚洲精品v亚洲精品v日韩精品| 日韩欧美一区二区视频| 欧美xxxxx精品| 亚洲激情77| 亚洲午夜未满十八勿入免费观看全集| 非洲一级黄色片| 婷婷精品进入| 欧美激情综合色综合啪啪五月| 男人的天堂一区| 久久最新视频| 成人国产精品色哟哟| 国产又黄又粗又硬| 不卡区在线中文字幕| 欧美二区在线| 麻豆影视国产在线观看| 一级日本不卡的影视| 俄罗斯av网站| 日本成人一区二区| 精品国产亚洲一区二区三区在线观看| 波多野结衣先锋影音| 成人3d精品动漫精品一二三| 久久色在线播放| 男人的天堂一区| 美女在线视频一区| 国产精品免费一区二区三区观看| 韩国三级在线观看久| 国产精品成人免费| 久久久久久久久久网| 成人av色网站| 精品国产乱码久久| 日韩欧美在线视频播放| 一区在线免费观看| 国产免费一区视频观看免费 | 8av国产精品爽爽ⅴa在线观看| 正在播放亚洲一区| 国产男女猛烈无遮挡a片漫画| 91影院成人| 91精品国产精品| 国产人妻精品一区二区三区| 91亚洲资源网| 男人天堂网站在线| 中文字幕日本一区二区| 亚洲第一精品福利| 日本一级片免费| 久久国产高清| 国产高清精品一区二区| 精品美女在线观看视频在线观看| 日韩欧美成人精品| 国产chinesehd精品露脸| 日韩欧美大片| 国产成+人+综合+亚洲欧美丁香花| 亚洲av无码乱码国产麻豆| 中国av一区二区三区| 东京热加勒比无码少妇| 一区二区三区自拍视频| 久久综合久久八八| 最新黄色网址在线观看| www国产精品av| 99国产精品白浆在线观看免费| 素人一区二区三区| 亚洲剧情一区二区| www.日本精品| 国产成人亚洲综合a∨婷婷| 一区二区视频在线免费| 懂色aⅴ精品一区二区三区| 亚洲精品资源在线| 久久久午夜影院| 99久久国产免费看| 男人添女荫道口喷水视频| 欧美久久亚洲| 久久综合久久八八| 99久久免费国产精精品| 亚洲欧美日韩综合aⅴ视频| 污网站在线免费| 第四色成人网| 国产精品亚洲激情| 欧美性天天影视| 欧美久久婷婷综合色| 国产不卡在线观看视频| 久久99精品久久久| 手机成人av在线| 国产精品一区二区精品视频观看 | 久久青青草综合| 久草在线资源站手机版| 精品视频在线播放免| 麻豆成人免费视频| 欧美经典三级视频一区二区三区| 亚洲免费一级视频| 色男人天堂综合再现| 91精品国产自产在线观看永久| av在线女优影院| 欧美男生操女生| 亚洲天堂一级片| 国产传媒久久文化传媒| 日本福利视频一区| 日韩啪啪网站| 国产精品成熟老女人| 日本在线人成| 91精品福利在线一区二区三区| 欧美日韩激情在线观看| 不卡视频在线观看| 丰满少妇在线观看| 婷婷综合视频| 国产精品污www一区二区三区| 男人的天堂免费在线视频| 亚洲欧美制服丝袜| 国产一区二区女内射| 洋洋av久久久久久久一区| 亚洲婷婷在线观看| 日本va欧美va欧美va精品| 三年中国中文在线观看免费播放| 亚洲国产欧美在线观看| 欧美一级电影在线| 免费黄色在线| 亚洲成人免费在线视频| 69av视频在线观看| 亚洲精选视频免费看| 国产一级二级在线观看| 日本不卡123| 欧洲精品在线播放| 国产欧美日韩一区二区三区四区| 亚洲jizzjizz日本少妇| 一二三四视频在线中文| 久久人体大胆视频| 天天综合天天综合| 欧美片网站yy| 日韩不卡视频在线| 亚洲伦在线观看| 中文字幕在线看高清电影| 国产麻豆精品theporn| 日韩在线综合网| 亚欧美无遮挡hd高清在线视频| 九九九九九九精品| 91麻豆精品国产综合久久久| 国a精品视频大全| 天天在线视频色| 精品爽片免费看久久| 国产三级视频在线播放| 91久久精品一区二区三区| 国产一卡二卡在线播放| 国产精品免费av| 欧美性xxxx图片| 国产精品一区二区久久精品爱涩| 手机看片福利盒子久久| 亚洲三级视频| 粉嫩av一区二区三区天美传媒| 精品久久久久久久| 久久资源亚洲| 国产ts一区| 亚洲va欧美va国产综合剧情| 成人亚洲网站| 欧美一区二区三区艳史| 成人性生交大片免费看在线播放| 久久手机精品视频| 69xxxx欧美| 亚洲午夜未删减在线观看| 青青色在线视频| 亚洲国产成人久久综合| 精品人妻少妇AV无码专区| 欧美日韩精品一区二区三区| 波多野结衣电车痴汉| 一本久道久久综合中文字幕 | 黄色精品在线观看| 中文字幕日韩av电影| 蝌蚪视频在线播放| 日韩毛片在线看| 网站黄在线观看| 337p日本欧洲亚洲大胆色噜噜| 99热精品在线播放| 69久久夜色精品国产69蝌蚪网| 中文字幕人妻色偷偷久久| 色天使色偷偷av一区二区| 国产毛片aaa| 天天操天天综合网| 成年免费在线观看| 精品久久久一区二区| 国产午夜免费福利| 日韩欧美国产免费播放| av资源免费观看| 色综合天天天天做夜夜夜夜做| 亚洲免费在线观看av| 疯狂欧美牲乱大交777| 国产精品久久久久久99| 同产精品九九九| 成年人视频在线免费看| 色婷婷综合久久久中文一区二区| av首页在线观看| 欧美日韩高清一区二区不卡| 中文字幕 日韩有码| 欧美日韩视频专区在线播放| 国产偷拍一区二区| 精品国产网站在线观看| 天天干在线观看| 亚洲免费影视第一页| yiren22综合网成人| xxxxx91麻豆| 黄色小说在线播放| 青青a在线精品免费观看| 国产精品久久亚洲不卡| 91精品在线观看视频| 亚洲精品在线国产| 久久久久久久久四区三区| 国产乱码精品一区二区三区四区| 亚洲精品高清视频| 欧美日韩ab| 久久久久久久激情| 久久99精品国产91久久来源| 无码人妻aⅴ一区二区三区玉蒲团| 99久久综合99久久综合网站| 国产传媒在线看| 依依成人综合视频| 五月婷婷视频在线| 在线播放欧美女士性生活| 亚洲免费成人网| 国产午夜精品视频| 在线电影福利片| 国产国产精品人在线视| 欧美日韩黄网站| 欧美亚洲另类在线一区二区三区| 色爱综合网欧美| 国产极品粉嫩福利姬萌白酱| 麻豆国产精品官网| 亚洲图片综合网| 最新国产精品久久精品| 中文字幕一区二区三区精品| 欧美美女一区二区在线观看| 天天插天天干天天操| 精品国产自在精品国产浪潮| 亚洲美女尤物影院| 成人高清在线观看| 成人精品天堂一区二区三区| 欧美一级视频免费看| 久久精品国产亚洲aⅴ| 国产精品久久AV无码| 中文字幕一区二区三区四区不卡| 精品国产免费观看| 宅男噜噜噜66一区二区66| 黑人与亚洲人色ⅹvideos| 欧美激情网站在线观看| 欧美黄色网络| 欧美精品亚洲| 亚洲精品看片| 黄页网站在线看| 中文字幕一区二区三区不卡| 日韩熟女一区二区| 亚洲成人久久久| 国产蜜臀一区二区打屁股调教| 国产精品jizz在线观看麻豆| 欧美黄色网视频| 妺妺窝人体色www看人体| 黄一区二区三区| 国产午夜福利一区| 日韩欧美在线视频观看| 国精产品一品二品国精品69xx| 久久手机精品视频| 亚洲欧美在线综合| 色播五月综合| 久久综合亚州| 国产手机在线观看| 欧美日韩一区二区在线播放| 三级网站在线看| 久久久欧美精品| 久久香蕉精品香蕉| 日本一本中文字幕| 成人福利视频在线看| 久久精品这里有| 精品欧美久久久| 欧美1234区| 99视频免费观看蜜桃视频| 欧美成人69av| 国产ts在线观看| 亚洲一二三区在线观看| 精品久久久久中文慕人妻| 久久av中文字幕| 日韩欧美高清一区二区三区| 看全色黄大色大片| 国产成人午夜视频| 久久久久亚洲av无码专区 | aaa黄色大片| 亚洲综合在线视频| 女人18毛片水真多18精品| 国内精品久久影院| 日本妇女一区| 日韩在线第三页| 国产精品久久久久一区| 夜夜躁狠狠躁日日躁av| 欧美美女18p| 国产成人福利av| 欧美日韩中文在线视频| 久久精品亚洲精品国产欧美| 国产裸体美女永久免费无遮挡| 色哟哟网站入口亚洲精品| 一区二区三区日本视频| 国产91视频一区| 成人久久18免费网站麻豆| 欧美一区二区三区四| 国产亚洲精品久久久| 亚洲男人在线| av日韩一区二区三区| 久久先锋影音av鲁色资源| 亚洲精品久久久久久久蜜桃| 久久精品小视频| 成人香蕉社区| 久久久久免费精品| 亚洲色图一区二区| 亚洲av少妇一区二区在线观看| 69av成年福利视频| 日本精品黄色| 中文字幕无人区二| 色综合天天综合网天天狠天天| 日本综合在线| 国产精品三区四区| 蜜桃av一区二区| 日本特黄一级片| 正在播放欧美一区| 一本色道69色精品综合久久| 国产淫片av片久久久久久| 国产精品国产三级国产aⅴ原创| 亚洲AV无码一区二区三区少妇| 日韩免费av片在线观看| 天天综合国产| 亚洲综合自拍网| 欧美福利视频一区| 国产高清视频色在线www| 亚洲啪啪av| av电影在线观看一区| 在线观看日韩一区二区| 5278欧美一区二区三区| 香蕉综合视频|