精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

ChatGPT能力退化惹爭議 AIGC應用還值得信任嗎?

人工智能
最近有很多關于ChatGPT模型(例如GPT-3.5和GPT-4)的性能隨著時間的推移而下降的討論,OpenAI公開否認了這些說法,真相到底是怎樣的呢?

斯坦福大學和加州大學伯克利分校(UCLA)研究人員的一項新研究提供了一些證據,證明這些大型語言模型(LLM)的行為已經具有“實質性的漂移”——但并不一定等于能力退化。

這一發現對用戶在ChatGPT等黑盒人工智能系統上構建應用的風險提出了警告,即隨著時間的推移,這些應用可能會產生不一致或不可預測的結果。背后原因在于:GPT等模型的訓練和更新方式缺乏透明度,因此無法預測或解釋其性能的變化。

用戶抱怨ChatGPT性能退化

早在今年5月,就有用戶就在OpenAI論壇上抱怨GPT-4很難做到它以前做得很好的事情。一些用戶不僅對性能下降感到不滿,而且對OpenAI缺乏響應和解釋感到不滿。

據《商業內幕》在7月12日報道,與之前的推理能力和其他輸出相比,用戶認為GPT-4變得“更懶”或“更笨”。在OpenAI沒有做出回應的情況下,行業專家開始猜測或探索GPT-4性能下降的原因。

一些人認為OpenAI在API背后使用了更小的模型,以降低運行ChatGPT的成本。其他人推測,該公司正在運行一種混合專家(MOE)方法,采用幾個小型的專業模型取代一個通用的LLM。

面對種種質疑,OpenAI否認了故意讓GPT-4變笨的說法。OpenAI產品副總裁Peter Welinder在推特上寫道:“恰恰相反:我們讓每一個新版本都比之前的版本更加智能。目前的假設是:當你大量使用它時,你就會開始注意到以前沒有看到的問題。”

頂級大學測試ChatGPT表現

為了驗證ChatGPT的行為如何隨著時間的推移而變化,斯坦福大學和UCLA的研究人員分別在2023年3月和6月測試了兩個版本的GPT-3.5和GPT-4。

他們在四個常見的基準任務上評估了這些模型:數學問題、回答敏感問題、代碼生成和視覺推理。這些是評估LLM經常使用的多樣化任務,而且它們相對客觀,因此易于評估。

研究人員使用了兩組指標來評估這兩個模型的性能。主要的指標特定于任務(例如,數學的準確性以及編碼的直接執行)。他們還跟蹤了冗長度(輸出的長度)和重疊度(兩個LLM版本的答案之間的相似程度)。

3-6月ChatGPT表現確實在下滑

對于數學問題,研究人員使用了“思維鏈”提示,通常用于激發LLM的推理能力。他們的發現顯示了模型性能的顯著變化:從3月到6月,GPT-4的準確率從97.6%下降到2.4%,而其響應冗長度下降了90%以上。GPT-3.5表現出相反的趨勢,準確率從7.4%上升到86.8%,冗長度增加了40%。

研究人員指出,“這一有趣的現象表明,由于LLM的性能漂移,采用相同的提示方法,即使是那些被廣泛采用的方法(例如思維鏈),也可能導致顯著不同的性能。”

在回答敏感問題時,對LLM進行評估的標準是它們回答有爭議問題的頻率。從3月到6月,GPT-4的直接回答率從21%下降到5%,這表明這個模型變得更加保守。與此同時,GPT-3.5的直接回答率從2%上升到8%。與3月的版本相比,這兩種模型在6月份拒絕不恰當的問題時提供的解釋也更少。

研究人員寫道:“這些LLM服務可能變得更加保守,但也減少了拒絕回答某些問題的理由。”

在代碼生成過程中,研究人員通過將LLM的輸出提交給運行和評估代碼的在線裁判來測試它們是否可直接執行。結果發現,在3月,5 0%以上的GPT-4輸出是可直接執行的,但在6月只有10%。對于ChatGPT 3.5,可執行輸出從3月的22%下降到6月的2%。6月的版本經常在代碼片段周圍添加不可執行的序列。

研究人員警告說:“當LLM生成的代碼在更大的軟件管道中使用時,要確定這一點尤其具有挑戰性。”

對于視覺推理,研究人員對來自抽象推理語料庫(ARC)數據集的示例子集的模型進行了評估。ARC是一個視覺謎題的集合,用于測試模型推斷抽象規則的能力。他們注意到GPT-4和GPT-3.5的性能都有輕微的改善。但總體性能仍然較低,GPT-4為27.4%,GPT-3.5為12.2%。然而,6月版本的GPT-4在3月正確回答的一些問題上出現了錯誤。

研究人員寫道:“這凸顯了細粒度漂移監測的必要性,特別是在關鍵應用中。”

ChatGPT性能退化可能存在誤解

在這篇論文發表之后,普林斯頓大學的計算機科學家、教授Arvind Narayanan和計算機科學家Sayash Kapoor認為,一些媒體誤解了這一論文的結果,他們認為GPT-4已經變得更糟。

兩人在一篇文章中指出,“不幸的是,這是媒體對于論文結果的過度簡化。雖然研究結果很有趣,但其中一些方法值得懷疑。”

例如,評估中使用的所有500個數學問題都是“數字X是質數嗎?”而數據集中的所有的數字都是質數。3月版本的GPT-4幾乎總是猜測這個數是質數,而6月的版本幾乎總是猜測它是合數。


Narayanan和Kapoor在文中寫道:“論文的作者將這種情況解釋為性能的大幅下降,因為他們只測試了質數。當GPT-4在500個合數進行測試時,這種性能的下降就消失了。”

總而言之,Narayanan和Kapoor認為,ChatGPT的行為會改變,但這并不一定意味著它的能力下降了。

ChatGPT類AI應用還能信任嗎?

雖然這篇論文的發現并不一定表明這些模型變得更糟,但確實證實了它們的行為已經改變。

研究人員據此得出結論,GPT-3.5和GPT-4行為的變化凸顯了持續評估和評估LLM在生產應用中的行為的必要性。當我們構建使用LLM作為組件的軟件系統時,需要開發新的開發實踐和工作流程來確保可靠性和責任。

通過公共API使用LLM需要新的軟件開發實踐和工作流程。對于使用LLM服務作為其持續工作流程組成部分的用戶和公司,研究人員建議他們應該實施持續的監控分析。

這一研究結果還強調,在訓練和調整LLM的數據和方法方面需要提高透明度。如果沒有這樣的透明性,在它們之上構建穩定的應用就會變得非常困難。

責任編輯:龐桂玉 來源: 極客網
相關推薦

2022-09-19 00:29:01

編程語言Go 語言功能

2022-08-12 09:59:24

自動駕駛汽車

2020-10-28 10:08:09

物聯網SQL技術

2025-06-26 01:00:00

2023-12-18 12:51:49

數據模型

2024-03-20 13:08:48

2011-05-18 11:34:54

云端業務流程管理

2023-09-28 08:13:49

CPU超頻攢機

2015-10-30 15:11:53

2025-03-13 09:47:29

2022-02-10 07:37:09

分庫分表存儲

2021-11-14 22:11:59

手機華為安卓

2019-10-16 14:36:19

量子計算機芯片超算

2018-02-27 15:25:00

前端JavascriptAngular JS

2018-01-04 08:46:24

GeForceEULANVIDIA

2023-02-24 15:35:09

AI模型

2009-03-23 09:45:01

沃達豐凍結薪水高管分紅

2015-08-05 16:58:25

2019-07-16 10:32:53

智能家居安全5G
點贊
收藏

51CTO技術棧公眾號

精品日韩成人av| 91免费视频观看| 日韩视频第一页| 国产999免费视频| a级片免费在线观看| 久久这里只有精品6| 国产精品一区二区女厕厕| 男女性高潮免费网站| 久久香蕉网站| 欧美日本一区二区三区| 日本人体一区二区| h视频网站在线观看| 成人精品视频网站| 国产欧美久久久久久| 国产精品黄色网| 91精品高清| 亚洲欧美在线第一页| 捷克做爰xxxⅹ性视频| 不卡一二三区| 亚洲一区二区三区中文字幕在线| 日韩偷拍一区二区| 国模人体一区二区| 久久国产剧场电影| 日本成人在线视频网址| 欧美成人精品激情在线视频| 欧美一区二区三区影院| 成人无码一区二区三区| 久久国产精品99精品国产| 88国产精品欧美一区二区三区| 国产美女高潮视频| 一区二区三区韩国免费中文网站| 日韩一区二区免费视频| 国产小视频精品| 亚洲欧洲美洲av| 亚洲美女免费视频| 亚洲欧洲一区二区| 免费在线国产| 91色在线porny| 国产精品久久精品国产| 99视频免费看| 麻豆成人免费电影| 国产精品久久久久久久久久免费 | 国产精品免费不| 精品电影一区二区三区| 中文字幕人妻熟女人妻a片| 九九九精品视频| 欧美亚洲国产bt| 女人扒开屁股爽桶30分钟| 末成年女av片一区二区下载| 一区二区三区精品在线观看| 激情视频小说图片| 国产乱色在线观看| 亚洲视频每日更新| 波多野结衣激情| 蜜桃视频网站在线| 国产精品久久久久国产精品日日 | 欧美性色综合| 欧美啪啪一区| 精品美女一区二区三区| 特黄特黄一级片| 日韩第一区第二区| 日韩精品专区在线| 亚洲一区二区三区四区av| 91麻豆精品国产91久久久久推荐资源| 欧美一区二区成人| 一二三区视频在线观看| 久久视频在线观看| 亚洲欧美日韩国产精品| 国产91丝袜美女在线播放| 国产乱码精品一区二区亚洲| 亚洲午夜精品久久久久久性色| 成人午夜剧场视频网站| 精品国产123区| 日韩亚洲第一页| 欧美成人免费观看视频| 悠悠资源网久久精品| 538国产精品视频一区二区| 日本免费在线观看视频| 男女激情视频一区| 91在线高清免费观看| 亚洲国产日韩在线观看| 91网上在线视频| 日韩高清三级| 亚洲色图美国十次| 午夜精品在线看| 在线视频日韩一区 | 欧美在线观看一区二区| 在线观看免费视频高清游戏推荐| 爱情电影网av一区二区| 精品粉嫩超白一线天av| 色一情一交一乱一区二区三区| 日韩免费特黄一二三区| 欧美福利视频在线| 少妇高潮av久久久久久| 国产原创一区二区三区| 精品久久久久久一区二区里番| 都市激情在线视频| 亚洲无线码一区二区三区| 99热成人精品热久久66| 国产精品亚洲欧美一级在线| 精品视频在线播放| 免费中文字幕日韩| 亚洲一区激情| 亚洲一区美女视频在线观看免费| 五十路在线视频| av自拍一区| 亚洲高清一区二区三区| 国产又大又黄又粗的视频| 一区二区三区视频免费视频观看网站| 亚洲人成网站色ww在线| 免费一级肉体全黄毛片| 日韩国产欧美在线观看| 大波视频国产精品久久| 69av亚洲| 欧美特级www| 人妻精品久久久久中文字幕69| 九一成人免费视频| 欧美激情一级二级| 国产视频在线观看视频| 91小视频在线| 欧美日韩福利在线| 一区在线不卡| 夜夜嗨av色综合久久久综合网| 国产极品美女高潮无套嗷嗷叫酒店| 免费一级欧美片在线观看| 狠狠爱一区二区三区| 2024最新电影免费在线观看| 欧美日韩综合色| www.色多多| 精品av久久久久电影| 91在线观看免费网站| www.亚洲资源| 91国偷自产一区二区开放时间| 无码人妻精品一区二区三| 国产精品久久久久久| 国产精品久久久久久久久久99| 天堂在线中文字幕| 午夜影院久久久| 激情av中文字幕| 欧美黄在线观看| 91中文在线观看| 日本高清在线观看wwwww色| 色欧美日韩亚洲| 午夜理伦三级做爰电影| 亚洲制服av| 精品国产乱码久久久久久88av | 97在线视频免费| 亚洲国产www| 亚洲一区自拍偷拍| 折磨小男生性器羞耻的故事| 韩国亚洲精品| 国产免费一区二区三区| 国产黄色大片在线观看| 亚洲精品一区二区三区精华液| 国产一级做a爰片在线看免费| 福利视频网站一区二区三区| 亚洲第一激情av| 精品人妻大屁股白浆无码| 国产一区二区三区亚洲综合| 日韩一区视频在线| 91一区二区视频| 亚洲视频综合在线| 国偷自产av一区二区三区麻豆| 狠狠88综合久久久久综合网| 国产98在线|日韩| 国模私拍一区二区国模曼安| 亚洲护士老师的毛茸茸最新章节| 国产综合精品视频| 欧美经典三级视频一区二区三区| 五月婷婷六月合| 亚洲经典一区| 国产欧美一区二区视频| 欧美成人性网| 日韩亚洲综合在线| 亚洲国产剧情在线观看| 欧美日韩国产一区中文午夜| 男人的天堂官网| 国产精品综合二区| 鲁一鲁一鲁一鲁一澡| 欧美日韩精品一区二区视频| 成人a级免费视频| 黄色羞羞视频在线观看| 亚洲老头同性xxxxx| 中文字幕 国产| 亚洲精品中文字幕乱码三区| 日本一区二区在线免费观看| 日本大胆欧美人术艺术动态| 国产福利片一区二区| 风间由美一区二区av101| 青青久久av北条麻妃黑人| 尤物网在线观看| 日韩免费电影一区| 精品成人无码久久久久久| 中文字幕一区不卡| 欧美成人三级伦在线观看| 青青草97国产精品免费观看无弹窗版| 超级碰在线观看| 亚洲欧洲免费| av观看久久| 99riav视频一区二区| 麻豆国产精品一区二区三区| 成人在线视频网址| 亚洲www免费| 欧美激情在线视频二区| www.久久热.com| 亚洲福利视频网站| 一二三四区在线| 精品人伦一区二区三区蜜桃网站 | 国语产色综合| 懂色一区二区三区av片| 成人a在线观看高清电影| 国自产精品手机在线观看视频| 97在线观看免费观看高清| 欧美精品一区视频| 国产一区二区三区四区视频 | 亚洲乱码中文字幕久久孕妇黑人| 夜间精品视频| 日韩国产精品一区二区| 卡通动漫精品一区二区三区| 亚洲aaa激情| 台湾天天综合人成在线| 日本精品一区二区三区在线播放视频| av毛片在线免费看| 色偷偷噜噜噜亚洲男人| 免费毛片在线| 亚洲а∨天堂久久精品喷水| 91久久精品无码一区二区| 91福利视频网站| 日本天堂网在线观看| 夜夜嗨av一区二区三区| 777777国产7777777| 国产女人18毛片水真多成人如厕 | 欧美高清电影在线| 欧美日韩亚洲网| 伊人365影院| 伊人性伊人情综合网| 情侣偷拍对白清晰饥渴难耐| 国产精品蜜臀av| 亚洲一区二区自偷自拍 | 国内一区在线| av日韩在线播放| 国产精品国产三级国产专区53 | 成人在线免费高清视频| 久久久久蜜桃| 特色特色大片在线| 亚洲天天影视网| 永久免费网站视频在线观看| 影视亚洲一区二区三区| 欧美 日韩 国产精品| 午夜视频一区| 91午夜在线观看| 亚洲久色影视| 国产91在线视频观看| 99视频在线精品国自产拍免费观看| 精品少妇v888av| 超级砰砰砰97免费观看最新一期| 午夜亚洲一区| 黄色国产小视频| 免费看黄色91| 国产一级片中文字幕| 国产福利不卡视频| 波多野结衣一二三区| 99久久婷婷国产| 91久久免费视频| 国产精品理伦片| 欧美性猛交xxxxx少妇| 一区二区三区中文字幕| xxxxxx国产| 欧美综合在线视频| 一级全黄少妇性色生活片| 91精品国产手机| 天天操天天爱天天干| 亚洲片在线资源| 欧美激情黑人| 欧美国产极速在线| 中文在线免费视频| 91精品国产综合久久香蕉最新版| 精品视频成人| 久久久国产精品一区二区三区| 欧美精选一区二区三区| 国产精品无码乱伦| 在线成人h网| www.色偷偷.com| 国产精品18久久久久久久久| 中文字幕 日本| 国产精品日日摸夜夜摸av| 蜜臀久久精品久久久用户群体| 午夜国产不卡在线观看视频| 成人小视频在线播放| 日韩一区二区免费电影| 天天影院图片亚洲| 久久av中文字幕| 大胆人体一区二区| 亚洲一区二区中文字幕| 一区二区导航| 日韩精品一区二区免费| 日日嗨av一区二区三区四区| 日韩精品国产一区| 国产精品污网站| 日本视频www| 制服.丝袜.亚洲.中文.综合| 日韩电影免费| 九九久久综合网站| 日韩毛片一区| 精品一区久久久久久| 91精品高清| 国产aaaaa毛片| 99久久久无码国产精品| 精品无码久久久久成人漫画| 色哟哟欧美精品| 人妻妺妺窝人体色www聚色窝| 色婷婷成人综合| 奇米777日韩| 精品免费日产一区一区三区免费| 99热在线成人| 97视频免费看| 国产精品6666| 色综合一个色综合| 日本精品一区二区在线观看| 久久精品视频免费播放| 午夜欧美巨大性欧美巨大| 国产精品二区在线| 91精品久久久久久久久久不卡| 国产乱子夫妻xx黑人xyx真爽| 成人性视频网站| 亚洲国产123| 欧美日韩一区二区欧美激情| 奇米影视888狠狠狠777不卡| 韩国19禁主播vip福利视频| 99国内精品久久久久| 五月天色一区| 丝瓜av网站精品一区二区| 国产精品一区二区入口九绯色| 亚洲一区二区三区免费视频| 国产精品日韩无码| 久久精品国产亚洲一区二区| 国产极品久久久久久久久波多结野| 欧美伦理一区二区| 亚洲欧美久久久| 亚洲国产欧美视频| 欧美午夜美女看片| 日韩一二三四| 欧美在线日韩在线| 亚洲综合小说图片| 国产成人av影视| 久久免费的精品国产v∧| 久久人妻免费视频| 亚洲性生活视频在线观看| 国产成人精品亚洲日本在线观看| 欧美极品日韩| 日本最新不卡在线| 国产wwwwxxxx| 制服丝袜中文字幕一区| 国产在线看片| 97se视频在线观看| 极品少妇一区二区三区| 欧亚乱熟女一区二区在线| 五月激情综合网| 男生女生差差差的视频在线观看| 国产精品成人v| 99久精品视频在线观看视频| 亚洲天堂网站在线| 亚洲午夜久久久久久久久电影网 | 国产精选久久| 中文精品无码中文字幕无码专区| 粉嫩av亚洲一区二区图片| 国产无遮挡aaa片爽爽| 日韩精品在线视频观看| 偷拍中文亚洲欧美动漫| 亚洲精品成人a8198a| 国产美女在线观看一区| 久久精品波多野结衣| 日韩av在线精品| 外国电影一区二区| 青青视频免费在线观看| 成人福利视频网站| 亚洲毛片一区二区三区| 日韩视频欧美视频| 精品国产18久久久久久洗澡| 久久国产色av免费观看| 中文字幕中文字幕一区| 亚洲精品视频网| 国产精品电影在线观看| 欧美日韩国产探花| 在线观看成人av电影| 成人软件在线观看| 午夜精品电影在线观看| 国产一区二区免费看| 日本中文在线播放| 日韩视频精品在线| 久久久久高潮毛片免费全部播放| 亚洲老女人av| 婷婷激情综合网| 秋霞影院午夜丰满少妇在线视频| 国产精品v欧美精品v日韩| 奇米精品一区二区三区四区 | 亚洲影院色在线观看免费| 一区二区黄色| 91精品国产闺蜜国产在线闺蜜| 亚洲国产毛片完整版|