精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福大學實錘GPT-4變笨了!OpenAI最新回應:確實存在“智力下降”

人工智能
為了驗證OpenAI的說法,斯坦福大學和加利福尼亞大學伯克利分校的三位研究員調查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片圖片

大模型天花板GPT-4,它是不是……變笨了?

之前有不少用戶提出質疑,并曬出了不少證據。對此,OpenAI 7月14日澄清:“我們沒有把GPT 4弄笨。相反的,我們的每個新版本,都讓GPT 4比以前更聰明了。”

圖片圖片

Peter Welinder是OpenAI的產品產品VP

但為了驗證OpenAI的說法,斯坦福大學和加利福尼亞大學伯克利分校的三位研究員調查了3 月至 6 月期間 ChatGPT 性能的變化。

圖片圖片

論文地址:https://arxiv.org/abs/2307.09009

評估的對象包括GPT-3.5和 GPT-4 兩個大模型,并在四個任務上進行測試:數學問題、回答敏感/危險問題、代碼生成以及視覺推理。

調查結論是:GPT-4性能確實變差了。

例如,在數學問題上,2023年3月版本的GPT-4 能夠以97.6%的準確率識別質數,而2023年6月版本的GPT-4 在這個任務上的表現卻很糟糕(準確率只有2.4%),并且忽略了連貫的思考Prompt。

圖片圖片

對如此科學實驗下的證據,OpenAI在博客“Function calling and other API updates”中更新回應到:確實在某些任務上的性能變差了。

We look at a large number of evaluation metrics to determine if a new model should be released. While the majority of metrics have improved, there may be some tasks where the performance gets worse.

我們會根據大量的評價指標來確定是否發布新的模型,雖然新模型大多數指標都有所改進,但可能在一些任務上模型性能會變差。

his is why we allow API users to pin the model version. For example, you can use gpt-4-0314 instead of the generic gpt-4, which points to the latest model version.

這就是為什么我們允許API用戶使用固定版本模型的原因。例如,用戶可以選擇使用 gpt-4-0314這個版本,而不是使用最新的 gpt-4 版本。

Each individually pinned model is stable, meaning that we won’t make changes that impact the outputs。

另外,OpenAI不會對固定版本的模型進行任何可能影響其輸出結果的更改。

那么具體在哪些任務中GPT-4變差了呢?讓我們一起來看論文細節。

實驗過程與其他結論

圖片圖片

論文中,作者針對每種任務都設定了主要的性能指標,例如對于解決數學問題的任務,主要的性能指標是準確性;對于回答敏感問題的任務,主要的性能指標是回答率。此外,對于所有任務,他們都設定了兩個通用的補充指標,即冗長度(verbosity)和重疊度(overlap)。

圖片圖片

如前所述,在數學問題測試中,作者們研究了GPT-4和GPT-3.5在解決質數判斷問題上的“時間表現”。實驗方法是采用思維鏈(Chain-of-Thought)方法對數據集中的500個問題進行回答。

結果顯示:兩個模型表現出明顯的前后不一致,GPT-4的準確率從3月的97.6%下降到6月的2.4%,同時,GPT-3.5的準確率從7.4%提高到了86.8%。此外,GPT-4的回答更簡潔,GPT-3.5的回答則更長。

這種差異的原因可能與思維鏈效應有關。例如,3月的GPT-4能夠很好地遵循思維鏈條步驟判斷17077是否為質數,但6月的版本則直接給出了"No"。而GPT-3.5在3月傾向于先給出"No",然后推理,但6月的版本修復了這個問題,正確地先寫出推理步驟,然后給出正確答案"Yes"。這表明,由于模型的改變,即使是同樣的Prompt方法,如思維鏈條,也可能導致性能大相徑庭。

在敏感問題測試中,論文作者創建了一個包含100個不應由大模型直接回答的敏感問題的數據集,并手動標記了所有回復。

圖片圖片

結果發現,GPT-4在3到6月間直接回答敏感問題的比例從21.0%降到5.0%,而GPT-3.5的比例從2.0%上升到8.0%,可能因GPT-4增強了安全性,而GPT-3.5沒有相應的操作。

同時,GPT-4回復的文本長度也從600多字降到約140字。

另一方面,大模型“越獄”對服務的安全性構成了主要威脅。作者使用了一種叫做AIM(always intelligent and Machiavellian)的攻擊,該攻擊通過構造虛構故事,讓大模型表現得像一個無過濾無道德的聊天機器人。

結果顯示,當遭受AIM攻擊時,GPT-4和GPT-3.5的回答率都大幅上升。但是,GPT-4的防御力在更新后顯著增強,從3月的78%的回答率降到6月的31.0%,而GPT-3.5的回答率變化較小,僅降低了4%。這說明GPT-4對越獄攻擊的防御力較GPT-3.5更強。

圖片圖片

在代碼生成能力測試中,作者創建了一個新的代碼生成數據集,包括最新的50個LeetCode“easy”問題。結果顯示:從3月到6月,“可直接執行”的生成數量降低。

如上圖所示,3月份GPT-4有超過50%的生成結果是“可直接執行”的,但到了6月份只剩10%。GPT-3.5的情況也差不多,兩種模型的生成結果冗余性也略有增加。

對此,斯坦福的研究員猜測原因可能是:生成的代碼中添加了額外的非代碼文本。

圖片圖片

如上圖所示,GPT-4在3月份和6月份生成的代碼是有區別的。例如6月版在代碼片段的前后添加了"python"和’’’,這可能是用來標示代碼塊的,同時還生成了更多的注釋。

在視覺推理測試中,研究人員采用了ARC數據集進行評估,該數據集中的任務是根據幾個例子,要求輸入網格創建輸出網格。

圖片圖片

圖注:視覺推理的整體表現

從三月版到六月版,GPT-4 和 GPT-3.5 的整體表現都有大約 2% 的提升。生成長度大致保持不變。

GPT-4 和 GPT-3.5 的性能提升都很小。但是,它們的3月版和6月版在 90% 的視覺謎題查詢上的生成結果都一樣。這些服務的整體性能也很低:GPT-4 準確率為 27.4%、GPT-3.5準確率為 12.2%。

專家推測:或許與 MoE 技術有關

對于GPT-4變笨,之前學術界有個觀點是,后來的RLHF訓練雖然讓GPT-4更與人類對齊,也就更聽從人類指示和符合人類價值觀,但讓也讓它自身的推理等能力變差。

換句話說,人類的強硬“教化”將GPT-4的腦葉白質切除了。

圖片圖片

也有專家認為是GPT變笨和它的「混合專家模型」(Mixture of Experts,MOE)的構架有關。

MoE 技術是在神經網絡領域發展起來的一種集成學習技術,也是目前訓練萬億參數量級模型的關鍵技術——由于現階段模型規模越來越大,導致訓練的開銷也日益增長,而 MoE 技術可以動態激活部分神經網絡,從而實現在不增加計算量的前提下大幅度增加模型參數量。

具體來說,MoE 會將預測建模任務分解為若干子任務,在每個子任務上訓練一個專家模型(Expert Model),并開發一個門控模型(Gating Model),該模型可根據要預測的輸入來學習信任哪個專家,并組合預測結果。

MoE 技術引用到GPT-4時, GPT-4 中這些小型專家模型會針對不同的任務和主題領域進行訓練,例如可以有針對生物、物理、化學等方面的小型GPT-4專家模型,那么當用戶向 GPT-4 提出問題時,新系統就會知道要把這個問題發送給哪個專家模型。另外,為了以防萬一,新系統可能會向兩個或更多的專家模型發送查詢,然后將結果混在一起。

對于這個做法,業界專家形容是“忒修斯之船”,即隨著時間的推移,OpenAI 會把 GPT-4 的各個部分替換掉:“OpenAI 正在將 GPT-4 變成一支小型艦隊?!?/p>

注:忒修斯之船,是一個古希臘思想實驗,探討一個物體在其所有組成部分被完全更換后,是否仍保持其原始身份的哲學悖論。即一艘船替換完所有組件后,這艘船還是原來的嗎?

因此,GPT-4變笨很可能就與 MoE 這種訓練方式有關:“當用戶測試 GPT-4 時,我們會問很多不同的問題,而規模較小的 GPT-4 專家模型不會做得那么好,但它正在收集我們的數據,它會改進和學習?!彼固垢4髮W兼職教師Sharon Zhou介紹到。

圖片圖片

除了專業研究團隊之外,關心AI的網友們也在用自己的辦法追蹤著AI能力的變化。例如有人每天讓GPT-4畫一次獨角獸,并在網站上公開記錄。如上所示,今天的形狀。

圖片圖片

實際上,從4月14日開始,直到現在也還沒看出來個獨角獸的大致形態。

責任編輯:趙寧寧 來源: 大數據文摘
相關推薦

2023-06-02 13:19:17

GPT-4文本代碼

2021-03-18 11:30:15

人工智能AI機器學習

2023-07-20 13:57:09

2023-07-20 14:33:36

GPT-4代碼

2023-07-28 12:13:28

模型語言性能

2023-07-21 12:55:07

2018-01-22 16:16:28

AI發展新趨勢機器學習

2011-11-17 09:53:18

斯坦福大學iOS應用開發

2022-10-13 16:01:38

技術大腦

2023-07-20 12:16:31

GPT-4AI

2024-01-01 22:28:52

2023-04-12 15:45:56

人工智能ChatGPT

2009-05-07 08:49:11

鮑爾默斯坦福大學巴茨

2020-07-08 16:46:46

人工智能病毒技術

2024-04-01 00:50:00

吳恩達智能體

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2022-06-17 14:28:16

算法模型

2011-08-25 10:15:54

視頻演講喬布斯

2021-03-09 11:34:05

人工智能AI

2022-12-22 15:37:12

AI代碼
點贊
收藏

51CTO技術棧公眾號

欧美xxxx免费虐| 亚洲成人第一区| 成人在线免费观看网站| 91麻豆精品国产91久久久| 成人av在线播放观看| 头脑特工队2在线播放| 青青草国产成人av片免费| 欧美成aaa人片在线观看蜜臀| 欧美xxxx×黑人性爽| 懂色av蜜臀av粉嫩av分享吧最新章节| 欧美精品色图| 欧美成人在线直播| 日本成人黄色网| 天天操天天干天天| 日本不卡在线视频| 欧美激情一区二区三区高清视频| 91成年人网站| 天堂久久av| 欧美系列在线观看| 国产 日韩 亚洲 欧美| 天堂中文а√在线| 91香蕉视频在线| 91传媒在线免费观看| 99re这里只有精品在线| 国产一区激情| 久久精品99久久久香蕉| 亚洲最大成人网站| 风间由美性色一区二区三区四区| 欧美三级在线视频| 欧美国产激情视频| 午夜av在线播放| 国产精品麻豆99久久久久久| 国产精品老女人精品视频| 国产真实的和子乱拍在线观看| 日韩精品首页| 日韩禁在线播放| 亚洲视频 中文字幕| 日日夜夜亚洲精品| 欧美午夜一区二区三区免费大片| 日韩精品 欧美| 青春草在线免费视频| 亚洲丝袜精品丝袜在线| 91嫩草免费看| 一区二区三区精| 亚洲激情久久| 日韩在线观看免费高清| 女人黄色一级片| 国产精品入口久久| 亚洲欧美国产日韩天堂区| 午夜剧场免费看| 国产无遮挡裸体免费久久| 日韩三级精品电影久久久| 女同激情久久av久久| 91p九色成人| 欧美无人高清视频在线观看| 老头吃奶性行交视频| 中文字幕资源网在线观看免费 | 日本大胆欧美人术艺术动态 | 久久久国产精品成人免费| 亚洲视频福利| 97精品在线视频| 菠萝菠萝蜜网站| 7777精品| 亚洲精品久久久久久下一站 | 久本草在线中文字幕亚洲| 精品欧美一区二区久久| 亚洲av午夜精品一区二区三区| 欧美高清hd| 一本久道久久综合中文字幕| 99热在线这里只有精品| 中文在线免费视频| 色婷婷综合久久久久中文一区二区| 黑人糟蹋人妻hd中文字幕 | 色婷婷亚洲一区二区三区| 欧美日韩中文在线视频| 中韩乱幕日产无线码一区| 欧美日韩日日夜夜| 欧美精品色视频| 澳门成人av| 亚洲精品中文字幕有码专区| 精品亚洲aⅴ无码一区二区三区| 久久性感美女视频| 久久手机精品视频| 日韩欧美亚洲一区二区三区| 久久国产日韩| 九九视频这里只有精品| 国产一级视频在线观看| 国产毛片一区| 成人精品在线观看| 人妻精品一区一区三区蜜桃91| 久久综合国产精品| 在线视频一区观看| 不卡的av影片| 亚洲欧美日韩系列| 久久艹国产精品| 91tv亚洲精品香蕉国产一区| 日韩视频在线观看一区二区| 人妻无码中文久久久久专区| 日韩.com| 国语对白做受69| 瑟瑟视频在线免费观看| 粉嫩欧美一区二区三区高清影视| 久久婷婷国产综合尤物精品| 黄网站在线播放| 欧美性生活大片免费观看网址| 国产三级生活片| 亚洲另类春色校园小说| 亚洲国产精品美女| 亚洲天堂最新地址| 日韩一级网站| 97不卡在线视频| 在线观看亚洲国产| 成人国产视频在线观看| 亚洲欧洲精品在线| 深夜av在线| 日韩免费看网站| 超碰人人人人人人人| 99亚洲视频| 97人人模人人爽人人少妇| 成人资源www网在线最新版| 亚洲夂夂婷婷色拍ww47| 男生操女生视频在线观看 | 国产精品久久久久久吹潮| 亚洲成年人在线| 一级黄色录像视频| 午夜国产欧美理论在线播放 | 欧美精品一区男女天堂| 老司机精品免费视频| 久久精品毛片| 久久精品ww人人做人人爽| 在线观看中文| 欧美一区二区视频在线观看2020| 在线播放免费视频| 精品日产免费二区日产免费二区 | 日本久久免费| 亚洲精品国产免费| 日韩成人av毛片| 国产成人福利片| 永久免费网站视频在线观看| 日韩色性视频| 日韩中文在线视频| 中文字幕码精品视频网站| 中文字幕免费观看一区| 免费大片在线观看| 蜜臀av免费一区二区三区| 国产69精品久久久久久| 日本午夜在线| 色综合久久综合网欧美综合网| 秘密基地免费观看完整版中文 | 欧美激情中文网| 国产特级黄色片| 亚洲免费看黄网站| 永久av免费在线观看| 欧美.www| 国产视频一区二区不卡| 九九精品调教| 亚洲成成品网站| 毛片基地在线观看| 2019国产精品| 超碰在线人人爱| 日韩欧美一区二区三区在线视频| 国产一区二区色| 国产在线一区二区视频| 日韩一二在线观看| 日韩精品一区二区av| 91在线丨porny丨国产| 黄色国产精品视频| 成人羞羞网站入口免费| 成人综合国产精品| 女同一区二区免费aⅴ| 精品动漫一区二区三区在线观看| 中文字幕在线字幕中文| 久久美女高清视频| 九九热精品在线播放| 亚洲精品国产偷自在线观看| 国产伦精品一区二区三区四区免费| 久久99亚洲网美利坚合众国| 日韩激情视频在线播放| 中文在线观看免费高清| 亚洲精品欧美在线| 黄色工厂在线观看| 另类专区欧美蜜桃臀第一页| 99视频精品全部免费看| 偷窥自拍亚洲色图精选| 国产在线高清精品| av伦理在线| 中文字幕亚洲一区| 亚洲产国偷v产偷v自拍涩爱| 日本韩国欧美在线| 九九热精品免费视频| 久久久综合视频| 亚洲免费成人在线视频| 99精品国产一区二区青青牛奶| 婷婷五月色综合| 最新国产一区二区| 国产精品美女主播在线观看纯欲| 在线āv视频| 亚洲视频在线观看视频| 精品区在线观看| 在线观看av一区| 国产性70yerg老太| 国产精品短视频| 添女人荫蒂视频| 国产一区二区三区黄视频 | 一级黄色小视频| 精品国产成人在线| 裸体武打性艳史| 日本一区二区三区在线不卡| 中文字幕第3页| 精品一区二区三区免费毛片爱| 免费中文日韩| 欧美午夜网站| 国产精品男人爽免费视频1| jizz一区二区三区| 久久综合五月天| 成年人在线观看| 日韩av在线网页| 丰满少妇一级片| 91麻豆精品国产91久久久久久 | 奇米四色…亚洲| 男女猛烈激情xx00免费视频| 亚洲精品电影| 亚洲伊人婷婷| 欧美影院三区| 欧美少妇一区| 亚洲肉体裸体xxxx137| 99久久伊人精品影院| 美女视频一区| 国产精品久久久久aaaa九色| 一区二区乱码| 5252色成人免费视频| free性欧美| 欧美激情综合色综合啪啪五月| av网站大全在线| 精品国偷自产在线| 日本三级视频在线观看| 色偷偷av亚洲男人的天堂| 国产系列在线观看| 亚洲天堂成人在线| 久蕉在线视频| 亚洲日本成人女熟在线观看| 三级在线播放| 国产视频久久久久| 九色在线观看视频| 亚洲女成人图区| 高清av在线| 曰本色欧美视频在线| p色视频免费在线观看| 在线观看欧美成人| 蜜桃视频网站在线| 麻豆乱码国产一区二区三区 | 97**国产露脸精品国产| h片在线观看下载| 97视频免费看| 中文在线最新版地址| 浅井舞香一区二区| 日韩色淫视频| 92国产精品视频| 大陆精大陆国产国语精品| 国产伦精品一区二区三区视频孕妇| 久久亚洲道色| 欧美连裤袜在线视频| 欧美一级精品片在线看| 国产奶头好大揉着好爽视频| 国产精品国产| 久久久久久高清| 国产传媒欧美日韩成人精品大片| 婷婷精品国产一区二区三区日韩| 成人在线国产| av日韩在线看| 午夜亚洲视频| 国产视频在线观看网站| 亚洲欧洲一区二区天堂久久| 国产又粗又爽又黄的视频| 欧美成人久久| www黄色av| 看电视剧不卡顿的网站| 日本中文字幕有码| 久久影音资源网| 欧美做爰啪啪xxxⅹ性| 亚洲福利电影网| 亚洲精品91天天久久人人| 91精品免费观看| 国产又爽又黄网站亚洲视频123| 国产亚洲欧洲高清| 在线电影福利片| 欧美一二三视频| 精品国产一级| 欧美另类网站| 在线精品国产| 激情六月丁香婷婷| 国产一区日韩二区欧美三区| 精品人妻在线视频| 中文天堂在线一区| 国产香蕉在线视频| 欧美日韩一区二区三区在线| 亚洲欧美黄色片| 中文字幕在线精品| 国产在线美女| 国产中文字幕亚洲| 亚洲宅男一区| 国产xxxx振车| 美女高潮久久久| 亚洲制服丝袜在线播放| 亚洲欧洲日本在线| 日本韩国欧美中文字幕| 欧美一二三区在线观看| 国产福利小视频在线观看| 欧美富婆性猛交| 亚洲成人a级片| 久久久久资源| 狠狠综合久久av一区二区老牛| 人妻丰满熟妇av无码区app| 成人一级片网址| 国产黄色录像片| 国产精品高潮呻吟久久| 在线观看精品国产| 日韩亚洲欧美在线| 爱久久·www| 欧美综合国产精品久久丁香| 欧美一区一区| 自拍偷拍一区二区三区| 蜜桃视频一区二区三区| 日韩一级视频在线观看| 亚洲一区二区欧美日韩| www.97av.com| 久久国产色av| 成人51免费| 自拍另类欧美| 精品中文字幕一区二区| 91精品国自产在线| 色综合久久中文综合久久牛| 天堂中文在线看| 久久免费少妇高潮久久精品99| 视频一区中文字幕精品| 欧美日韩dvd| 国产精品66部| 女尊高h男高潮呻吟| 亚洲高清久久久| 风流老熟女一区二区三区| 欧美成人免费全部| 久久国际精品| 蜜臀av性久久久久蜜臀av| 国产乱国产乱300精品| 性欧美疯狂猛交69hd| 欧美精品三级日韩久久| 麻豆免费在线视频| 亚洲aaa激情| 欧美成人日韩| 最新日本中文字幕| 亚洲妇女屁股眼交7| 欧美自拍偷拍一区二区| 91精品国产91久久久久久不卡| 另类图片第一页| 成人久久久久久久久| 亚洲国产成人私人影院tom| 又骚又黄的视频| 免费av在线一区| 国产精品流白浆在线观看| 精品中文字幕av| 欧美极品aⅴ影院| 97人妻精品一区二区三区软件| 久久综合久久八八| 大奶在线精品| 丝袜老师办公室里做好紧好爽| 久久久亚洲综合| 一区二区不卡视频在线观看| 欧美噜噜久久久xxx| 福利在线一区| 欧美成人精品欧美一级乱| 国产精品毛片久久久久久| 国产高清在线免费| 国产91成人video| 99久久夜色精品国产亚洲1000部| 免费高清视频在线观看| 午夜精品久久久久久久99樱桃| 影音先锋国产资源| 欧美多人爱爱视频网站| 日韩欧美黄色| 手机在线国产视频| 午夜视频一区二区| 成人在线免费公开观看视频| 91精品视频在线免费观看| 亚洲黄网站黄| 国产精品理论在线| 精品福利一区二区三区免费视频| 不卡一二三区| 青青草免费在线视频观看| 99久久久久久| 国产精品欧美综合亚洲| 91国产美女视频| 欧美电影免费| 波多野结衣影院| 6080国产精品一区二区| 日本黄色免费在线| www.黄色网址.com| 久久综合给合久久狠狠狠97色69| 国产日韩免费视频| 欧亚精品中文字幕| 欧美午夜免费影院|