精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

這是GPT-4變笨的新解釋

人工智能
大模型變懶、變笨,具體是指模型在新任務上的零樣本性能變差。盡管上述原因聽起來很有趣,但問題到底怎么解決呢?

自發布以來,曾被認為是世界上最強大的 GPT-4 也經歷了多場「信任危機」。

如果說今年早些時候那次「間歇式降智」與 OpenAI 重新設計 GPT-4 架構有關,前段時間的「變懶」傳聞就更搞笑了,有人測出只要告訴 GPT-4「現在是寒假」,它就會變得懶懶散散,仿佛進入了一種冬眠狀態。

大模型變懶、變笨,具體是指模型在新任務上的零樣本性能變差。盡管上述原因聽起來很有趣,但問題到底怎么解決呢?

在最近的一篇論文中,加州大學圣克魯斯分校研究者的新發現或可解釋 GPT-4 性能下降的深層原因:

「我們發現,在訓練數據創建日期之前發布的數據集上,LLM 的表現出奇地好于之后發布的數據集。」

它們在「見過的」任務上表現出色,而在新任務上則表現糟糕。這意味著,LLM 只是基于近似檢索的模仿智能方法,主要是記憶東西,而沒有任何程度的理解。

說白了,就是 LLM 的泛化能力「沒有說的那么強」—— 基礎不扎實,實戰總有出紕漏的時候。

造成這種結果的一大原因是「任務污染」,這是數據污染的其中一種形式。我們以前熟知的數據污染是測試數據污染,即在預訓練數據中包含測試數據示例和標簽。而「任務污染」是在預訓練數據中加入任務訓練示例,使零樣本或少樣本方法中的評估不再真實有效。

研究者在論文中首次對數據污染問題進行了系統分析:

論文鏈接:https://arxiv.org/pdf/2312.16337.pdf

看完論文,有人「悲觀」地表示:

這是所有不具備持續學習能力的機器學習(ML)模型的命運,即 ML 模型權重在訓練后會被凍結,但輸入分布會不斷變化,如果模型不能持續適應這種變化,就會慢慢退化。

這意味著,隨著編程語言的不斷更新,基于 LLM 的編碼工具也會退化。這就是為什么你不必過分依賴這種脆弱工具的原因之一。

不斷重新訓練這些模型的成本很高,遲早有人會放棄這些低效的方法。

目前還沒有任何 ML 模型能夠可靠地持續適應不斷變化的輸入分布,而不會對之前的編碼任務造成嚴重干擾或性能損失。

而這正是生物神經網絡所擅長的領域之一。由于生物神經網具有強大的泛化能力,學習不同的任務可以進一步提高系統的性能,因為從一項任務中獲得的知識有助于改善整個學習過程本身,這就是所謂的「元學習」。

「任務污染」的問題有多嚴重?我們一起來看下論文內容。

模型和數據集

實驗所使用的模型有 12 個(如表 1 所示),其中 5 個是專有的 GPT-3 系列模型,7 個是可免費獲取權重的開放模型。

數據集分為兩類:2021 年 1 月 1 日之前或之后發布的數據集,研究者使用這種劃分方法來分析舊數據集與新數據集之間的零樣本或少樣本性能差異,并對所有 LLM 采用相同的劃分方法。表 1 列出了每個模型訓練數據的創建時間,表 2 列出了每個數據集的發布日期。

上述做法的考慮是,零樣本和少樣本評估涉及模型對其在訓練期間從未見過或僅見過幾次的任務進行預測,其關鍵前提是模型事先沒有接觸過要完成的特定任務,從而確保對其學習能力進行公平的評估。然而,受污染的模型會給人一種未接觸或僅接觸過幾次的能力的假象,因為它們在預訓練期間已經接受過任務示例的訓練。在按時間順序排列的數據集中,檢測這種不一致性會相對容易一些,因為任何重疊或異常都會很明顯。

測量方法

研究者采用了四種方法來測量「任務污染」:

  1. 訓練數據檢查:在訓練數據中搜索任務訓練示例。
  2. 任務示例提取:從現有模型中提取任務示例。只有經過指令調優的模型才能進行提取,這種分析也可用于訓練數據或測試數據的提取。注意,為了檢測任務污染,提取的任務示例不必與現有的訓練數據示例完全匹配。任何演示任務的示例都表明零樣本學習和少樣本學習可能存在污染。
  3. 成員推理:此方法僅適用于生成任務。檢查輸入實例的模型生成內容是否與原始數據集完全相同。如果完全匹配,就可以推斷它是 LLM 訓練數據中的一員。這與任務示例提取不同,因為生成的輸出會被檢查是否完全匹配。開放式生成任務的精確匹配強烈表明模型在訓練過程中見過這些示例,除非模型「通靈」,知道數據中使用的確切措辭。(注意,這只能用于生成任務。)
  4. 時序分析:對于在已知時間范圍內收集訓練數據的模型集,在已知發布日期的數據集上測量其性能,并使用時序證據檢查污染證據。

前三種方法精度高,但召回率低。如果能在任務的訓練數據中找到數據,那么就能確定模型曾見過示例。但由于數據格式的變化、用于定義任務的關鍵字的變化以及數據集的大小,使用前三種方法找不到污染證據并不能證明沒有污染。

第四種方法,按時間順序分析的召回率高,但精確度低。如果由于任務污染而導致性能較高,那么按時間順序分析就有很大機會發現它。但隨著時間的推移,其他因素也可能導致性能提高,因此精確度較低。

因此,研究者采用了所有四種方法來檢測任務污染,發現了在某些模型和數據集組合中存在任務污染的有力證據。

他們首先對所有測試過的模型和數據集進行時序分析,因為它最有可能發現可能的污染;然后使用訓練數據檢查和任務示例提取尋找任務污染的進一步證據;接下來觀察了 LLM 在無污染任務中的性能,最后使用成員推理攻擊進行額外分析。

重點結論如下:

1、研究者對每個模型在其訓練數據在互聯網上抓取之前創建的數據集和之后創建的數據集進行了分析。結果發現,對于在收集 LLM 訓練數據之前創建的數據集,其性能高于大多數基線的幾率明顯更高(圖 1)。

2、研究者進行了訓練數據檢查和任務示例提取,以查找可能存在的任務污染。結果發現,對于不可能存在任務污染的分類任務,在一系列任務中,模型很少比簡單多數基線有統計意義上的顯著提高,無論是零樣本還是少樣本(圖 2)。

研究者也檢查了 GPT-3 系列和開放 LLM 的平均表現隨時間的變化,如圖 3:

3、作為案例研究,研究者還嘗試對分析中的所有模型進行語義解析任務的成員推理攻擊,發現在最終任務中,提取實例的數量與模型的準確性之間存在很強的相關性(R=.88)(圖 6)。這有力地證明了在這一任務中零樣本性能的提高是由于任務污染造成的。

4、研究者還還仔細研究了 GPT-3 系列模型,發現可以從 GPT-3 模型中提取訓練示例,而且從 davinci 到 GPT-3.5-turbo 的每個版本中,可提取的訓練示例數量都在增加,這與 GPT-3 模型在該任務上零樣本性能的提高密切相關(圖 2)。這有力地證明了從 davinci 到 GPT-3.5-turbo 的 GPT-3 模型在這些任務上的性能提高是由于任務污染造成的。

責任編輯:趙寧寧 來源: 機器之心
相關推薦

2024-01-02 06:30:58

ChatGPTGPT-3.5

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2023-07-14 09:49:16

2024-01-02 13:12:53

GPT-4UCSC數據

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-06-02 13:19:17

GPT-4文本代碼

2023-07-21 14:16:15

2023-11-02 12:21:50

GPT-4緩存模型

2025-05-30 07:40:56

2023-10-08 13:11:00

訓練數據

2023-07-20 14:33:36

GPT-4代碼

2023-03-28 13:01:20

GPT-4開發OpenAI

2023-05-03 20:53:48

2023-03-16 19:17:57

2023-08-04 13:28:20

GPT代碼用戶

2023-03-28 08:23:38

2023-11-24 09:00:00

2024-05-21 12:23:17

2023-08-15 15:03:00

AI工具
點贊
收藏

51CTO技術棧公眾號

一级做a爱片久久| 国产老头老太做爰视频| 色老头在线视频| 欧美成人xxxx| 国产人成精品一区二区三| 欧美日韩精品一区二区三区蜜桃| 国产99午夜精品一区二区三区 | 国内成人免费视频| 亚洲视频在线观看免费| av在线播放亚洲| www.蜜桃av.com| 午夜免费一区| 欧美三级乱人伦电影| 欧美xxxx黑人又粗又长精品| 欧美成人综合色| 99热这里有精品| 亚洲国产经典视频| 国产精品1234| 日本xxxxxxxxx18| 在线女人免费视频| av电影一区二区| 久久久伊人日本| 成人啪啪18免费游戏链接| gogo在线观看| 一区二区三区四区在线观看国产日韩| 欧美性猛片aaaaaaa做受| 欧美不卡在线一区二区三区| 国产毛片在线视频| 91精品久久久久久久蜜月| 亚洲国产中文字幕久久网| 日本一道本久久| 黄色成人影院| 国产福利一区二区三区| 欧美高清在线视频观看不卡| 亚洲欧美日韩中文字幕在线观看| 日本三级在线观看网站| 成人aaaa免费全部观看| 97超视频免费观看| 一区二区三区四区免费| 国模一区二区| 成人欧美一区二区三区在线播放| 91在线|亚洲| 日本三级黄色大片| 奇米狠狠一区二区三区| 欧美午夜精品久久久| 日韩小视频在线播放| 色帝国亚洲欧美在线| 自拍偷拍国产亚洲| 中文字幕精品一区日韩| www.黄色av| 国产麻豆精品在线观看| 亚州av一区二区| 成人黄色a级片| 国产一区二区| 欧美视频在线观看免费| 亚洲午夜精品久久| 午夜精品小视频| 国产美女在线精品| 69**夜色精品国产69乱| 中日韩黄色大片| 久久国产电影| 亚洲国产一区二区三区四区| 日韩av无码一区二区三区不卡| 亚州一区二区三区| 在线观看一区不卡| 国产一二三四区在线观看| 日韩一级片免费在线观看| 老司机久久99久久精品播放免费| 久久亚洲精品视频| 亚洲做受高潮无遮挡| 欧美一区一区| 一区二区三区日韩精品视频| 久久99蜜桃综合影院免费观看| 又色又爽又黄无遮挡的免费视频| 亚洲夜间福利| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 亚洲级视频在线观看免费1级| 男男做爰猛烈叫床爽爽小说| 亚洲成人一区在线观看| 亚洲精品中文字幕在线观看| 欧美一区二区福利| 隣の若妻さん波多野结衣| 日本在线不卡一区| 欧美性在线观看| 日本精品人妻无码77777| 中文字幕亚洲影视| 欧美videossexotv100| 99re精彩视频| 午夜精品久久久久久久久久蜜桃| 一区二区三区不卡在线观看 | 激情欧美丁香| 清纯唯美亚洲综合| 国产性猛交普通话对白| 日韩欧美一区免费| 欧美巨猛xxxx猛交黑人97人| 内射毛片内射国产夫妻| 综合伊思人在钱三区| 国产一区二区欧美日韩| 国产黄色三级网站| 日韩亚洲一区在线| 97高清免费视频| 亚洲专区在线播放| 成人深夜视频在线观看| 亚洲最大av在线| 国产免费av观看| 91免费在线播放| 国产尤物99| 男人天堂网在线视频| 久久婷婷综合激情| 蜜桃av色综合| 精品孕妇一区二区三区| 色视频一区二区| 日韩手机在线观看视频| 深夜福利视频一区二区| 天天色图综合网| 免费一级特黄特色毛片久久看| 亚洲精品国产嫩草在线观看| 精品久久久久久综合日本欧美| 日本理论中文字幕| 国产亚洲激情| 99re在线观看视频| www香蕉视频| 欧美激情自拍偷拍| 亚洲国产一区二区精品视频| 成人在线免费观看| 国产欧美一区二区三区沐欲| xxxx18hd亚洲hd捆绑| 97人人在线视频| 五月天婷婷综合| 欧美性猛交乱大交| 999久久久精品国产| 美女久久久久久久| 国产成人啪精品午夜在线观看| 精品影视av免费| 亚洲专区在线视频| av一本在线| 亚洲欧美一区二区不卡| 真实国产乱子伦对白视频| 电影k8一区二区三区久久| 午夜精品久久久久久久99樱桃| 国内外成人免费激情视频| 日本免费久久| 亚洲精品v欧美精品v日韩精品| 男女免费视频网站| 久久精品女人| 91精品国产综合久久久久久蜜臀 | 国产18无套直看片| 日韩专区一卡二卡| 国产在线观看一区二区三区| 91社区在线观看播放| 在线看国产日韩| 精品无码在线观看| 热久久久久久久| 一区二区三区av在线| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 丝袜美腿一区| 亚洲午夜未删减在线观看 | 欧美日韩电影在线播放| 免费黄色片网站| 人禽交欧美网站| 亚洲综合第一| 粉嫩一区二区三区在线观看 | 激情aⅴ欧美一区二区欲海潮| 富二代精品短视频| 91看片破解版| 天天躁日日躁狠狠躁欧美巨大小说| 中文字幕日韩精品在线观看| 国产主播在线观看| 蜜桃久久久久久| 精品国产区在线| 高h视频在线观看| 日韩欧美一级精品久久| 高潮毛片无遮挡| 日韩激情一二三区| 综合一区中文字幕| h视频久久久| 精品久久久av| 中文在线免费看视频| 成人动漫一区二区在线| 女人天堂av手机在线| 欧洲大片精品免费永久看nba| 美日韩在线视频| 日本人妻丰满熟妇久久久久久| 欧美视频一区二区三区…| 91av手机在线| 日韩和欧美的一区| 自拍亚洲欧美老师丝袜| 亚洲一区二区三区四区电影| 日日噜噜噜夜夜爽亚洲精品| a级片免费观看| 国产精品色在线观看| 国产a级一级片| 精品久久97| 欧美精品在线播放| 视频在线不卡| 狠狠色狠狠色综合日日五| 久久久久亚洲AV成人无在| 国产伦精品一区二区三区视频青涩| 国产www免费| 亚洲免费一区三区| 热门国产精品亚洲第一区在线| 免费人成在线观看播放视频| 欧美视频一二三区| 国产一级在线观看视频| 中文字幕精品在线不卡| 天堂www中文在线资源| 九色综合狠狠综合久久| a√天堂在线观看| 午夜性色一区二区三区免费视频| 成人精品在线观看| 国产激情在线| 亚洲人成伊人成综合网久久久| av男人天堂网| 欧美性大战久久久| 午夜精品三级久久久有码| 亚洲色图.com| 黄色av免费播放| 91亚洲国产成人精品一区二区三| 国产婷婷一区二区三区| 色综合久久一区二区三区| 久久久久久久久久久久久久久久av | 悠悠色在线精品| 长河落日免费高清观看| 日韩精品电影在线| 久久精品国产sm调教网站演员| 国产精品伦理久久久久久| 成人福利视频网| 性欧美gay| 68精品国产免费久久久久久婷婷| 亚洲丝袜精品| 麻豆国产精品va在线观看不卡 | 91偷拍与自偷拍精品| 岛国大片在线免费观看| 狠狠色丁香婷婷综合| 日韩一区二区三区不卡视频| 日韩欧美高清在线播放| 日本精品免费| 亚洲精品小区久久久久久| 国产一区二区免费在线观看| 亚洲成人偷拍| 91国产在线播放| 黄色视屏在线免费观看| 欧美高清在线视频观看不卡| 性爱视频在线播放| 久久久久久久国产精品| 欧美色视频免费| 欧美日韩国产影片| 免费一级a毛片| 一区二区三区在线视频免费| 四虎永久免费地址| 99热在这里有精品免费| av在线播放网址| 99久久伊人网影院| 少妇特黄一区二区三区| 久久综合成人精品亚洲另类欧美 | 麻豆成人入口| 久久精品二区| 久久99久久人婷婷精品综合| 日韩欧美精品一区二区| 精品视频成人| 91av一区二区三区| 99久久婷婷国产综合精品青牛牛| 国产精品果冻传媒潘| 中文字幕系列一区| 国产精品视频xxx| 精品丝袜在线| 日本不卡免费高清视频| 成人免费网站www网站高清| 国产精品九九九| 蜜桃视频在线观看免费视频| 欧美一区在线直播| 成人在线观看免费播放| 欧美中文字幕精品| 四虎4545www精品视频| 国产日产亚洲精品| 伊人久久噜噜噜躁狠狠躁| 久久精品99久久| 久久精品国产www456c0m| 日韩最新中文字幕| 日本精品三区| 国产一区二区无遮挡| 国产91精品对白在线播放| 亚洲日本无吗高清不卡| 欧美激情麻豆| 成年人免费在线播放| 蜜臀av性久久久久蜜臀aⅴ | 91视频xxxx| 波多野结衣家庭教师在线观看| 亚洲欧美日韩一区二区 | 欧美视频在线观看 亚洲欧| 在线观看国产小视频| 日韩精品一区二区三区视频播放 | 久久综合九色综合97婷婷女人| 一级在线观看视频| 亚洲二区视频在线| 亚洲欧美一区二区三区四区五区| 欧美日韩精品在线| 国产日韩欧美视频在线观看| 日韩成人黄色av| 色综合免费视频| 精品不卡在线视频| 欧美综合视频在线| 中文在线不卡视频| www.youjizz.com在线| 成人黄色免费片| 亚洲+变态+欧美+另类+精品| 天天爱天天做天天操| 小说区亚洲自拍另类图片专区| 日韩国产欧美亚洲| 国产乱子伦视频一区二区三区| 人人妻人人藻人人爽欧美一区| 亚洲蜜桃精久久久久久久| 免费在线观看av的网站| 欧美三级电影网| 亚州视频一区二区三区| 亚洲欧美日韩网| 风间由美一区| 北条麻妃久久精品| 88xx成人永久免费观看| 成人xxxxx色| 国产精品久久久久无码av| 免费日韩中文字幕| eeuss鲁片一区二区三区在线观看| 精品在线观看一区| 欧美这里有精品| 韩国中文字幕2020精品| 这里只有视频精品| 中文在线资源| 国产一区二区三区无遮挡| 欧美激情第二页| 国产探花在线看| 丁香婷婷综合激情五月色| 情侣偷拍对白清晰饥渴难耐| 色婷婷精品久久二区二区蜜臀av | 亚洲一区久久| 国产男女激情视频| 91在线观看视频| 激情五月色婷婷| 在线免费视频一区二区| 亚洲 欧美 激情 小说 另类| 国内精久久久久久久久久人| 911亚洲精品| a天堂资源在线观看| 国产91精品一区二区| 国产色视频一区二区三区qq号| 亚洲成年人影院| 少妇一区二区三区四区| 国内精品在线一区| 精品五月天堂| 六月丁香婷婷激情| 久久久另类综合| 欧美精品入口蜜桃| 欧美一区二区在线视频| 欧美孕妇孕交xxⅹ孕妇交| 久久精品国产亚洲精品| 成人豆花视频| 777久久精品一区二区三区无码| 久久精品午夜| 中文字幕网站在线观看| 日本久久一区二区三区| 福利在线播放| 91九色视频导航| 欧美精品一卡| 另类小说第一页| 99久久久精品| 日韩色图在线观看| 精品国产一区二区精华| 成人在线黄色电影| 欧美日韩国产一二| 激情偷拍久久| 亚洲黄色在线网站| 亚洲一区二区精品3399| ,亚洲人成毛片在线播放| 亚洲精品小视频| 任你弄在线视频免费观看| 国产区精品在线观看| 午夜激情一区| 亚洲专区区免费| 欧美美女激情18p| 二人午夜免费观看在线视频| 91理论片午午论夜理片久久| 国户精品久久久久久久久久久不卡| 天天爽夜夜爽一区二区三区| 亚洲人成7777| 亚洲 美腿 欧美 偷拍| 国产精品自在线| 精品毛片免费观看| 91传媒久久久| 自拍偷拍亚洲激情| 色综合888| 91免费高清视频| 亚洲精品午夜精品| www.av91| 99久久精品免费看国产| 波多野结衣 久久| 欧美高清精品3d| 久久香蕉av| 亚洲国产精品视频一区| 国产成人一区二区精品非洲| 五月婷婷激情视频|