精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4「變笨」被斯坦福實錘:短短仨月數學問題錯誤率暴漲40倍!OpenAI也急了:已開始調查

人工智能
比如他們用同樣500道「判斷給定整數是否為質數」的問題來測這兩個版本,發現3月份的GPT-4答對了488個,而6月只對了12個……

GPT-4變笨,實錘了???

來自斯坦福大學和UC伯克利大學的一篇最新論文顯示:

6月的GPT-4在一些任務上的表現客觀上就是比3月的更差。

比如他們用同樣500道「判斷給定整數是否為質數」的問題來測這兩個版本,發現3月份的GPT-4答對了488個,而6月只對了12個……成功率直接從97.6%下降到2.4%!

而當研究員通過經典的「Let’s think step by step」辦法來引導后者往正確答案上靠時,居然不好使了——

6月的GPT-4已不再嘗試給出中間步驟,而是仍然直接回答「yes」或「no」。

不止如此,代碼能力也下降了。

對于50道簡單級別的LeetCode題,6月的GPT-4只能做到有10%的答案可以不經更改直接運行,而在3月份的時候,這個數字還是52%。

目前,這項結論已在網上引起了極大的關注。

圖片圖片

有人稱,這意味著「大型語言模型的蜜月期已經結束」。

而OpenAI方面也已火速注意到這項研究,并稱已開始積極調查。

圖片圖片

所以,短短3個月,GPT-4身上究竟發生了什么?

論文「實錘」GPT-4變笨

這篇論文一共從數學、代碼、視覺和敏感問題四個角度比較了三月和六月的GPT-4。

圖片圖片

(本節內容系對論文進行轉述,不代表量子位認同有關結論)

其中數學是GPT-4能力下降最為明顯的方面。

證據就是開頭提到的500個質數判斷問題,錯誤率直接暴增近40倍,回答的長度也大幅縮水。

圖片圖片

具體來看,論文中展示了GPT-4對其中一個問題的回答。(展示的數字為17077,經驗證是質數)

圖片圖片

我們可以看到,研究人員已經使用了“step by step”的思維鏈式提問方式,但似乎并沒有奏效。

這也許可以解釋成數學本就不是強項,但GPT-4在代碼方面表現同樣下降得厲害。

數據上看,簡單級別的Leetcode問題通過率從52%下降到10%,而代碼的長度變長了。

圖片圖片

論文作者同樣給出了一個例子。

這個問題是這樣的:

給定一個三位整數n,把n、2n、3n「連接」在一起?!高B接」就是把兩個數直接拼起來,比如「114」和「514」進行「連接」的結果就是「114514」。如果「連接」之后的結果中不含0,同時各位中包含1-9中的所有數字,且每個數字有且僅有一個,則把認為n是一個「fascinating」的數字。請用Python寫一段代碼,判斷一個數是否「fascinating」。

圖片圖片

(「class Solution」是Leetcode平臺給定的代碼開頭格式)

三月的GPT-4給出了這樣的代碼:

class Solution(object):
 def isFascinating(self, n):
     concatenated_number = str(n) +str(2 * n) + str(3 * n)
     return sorted(concatenated_number)=['1', '2', '3', '4', '5', '6', '7', '8', '9']

這段代碼中包含了一些小問題,最后一行「判斷相等」時應該用雙等號。

修正過后,提交的代碼成功通過。

圖片圖片

而六月的版本回答是醬嬸兒的:

```Python
class Solution(object):
    def isFascinating(self, n):
        # Concatenate n, 2*n and 3*n
        s = str(n) + str(n*2) + str(n*3)
        # Check if the length of s is 9 and contains all digits from 1 to 9
        return len(s) == 9 and set(s) == set('123456789')
```

雖然代碼本體也是對的,但是GPT-4的輸出有些問題:

圖片圖片

有段Markdown標記直接以文本形式顯示在了輸出結果之中,導致程序無法直接運行。

之所以研究者認為GPT-4在這里犯了錯,是因為在prompt中已經強調了「code only」。

雖然GPT-4實用性上表現有所下降,但安全性似乎得到了提升。

對于敏感問題,GPT-4回答的概率下降了超四分之三,相應做出的解釋也變少了。

圖片圖片

研究人員嘗試著提出了一個帶有偏見的問題。

三月份的GPT-4會解釋為什么拒絕回答這個問題,但六月份的版本只說了一句無可奉告。

圖片圖片

而越獄攻擊成功的概率下降得更為明顯,可以看出六月的GPT-4相比三月似乎擁有了更強的魯棒性。

圖片圖片

此外,研究團隊還對兩個版本的GPT-4進行了「視覺」能力測試。

這部分的測試數據來自ARC數據集,需要得到的「圖像」是3×3的方格,以二維數組形式用數字表示方格的顏色。

圖片圖片

相比于三月,六月版GPT-4的表現有小幅度提升,但并不明顯。

圖片圖片

而一些在三月能答對的問題,到了六月卻答錯了。

圖片圖片

所以,在這一方面很難說GPT-4究竟是變好還是變壞了。

總體上看,論文作者的態度比較謹慎,沒有直接斷言GPT-4表現是否變差。

但在數學和代碼方面,文中給出的證據的確印證了一些網友們的說法。

而作者也表示,這一發現主要是告訴大家,不斷地去測試AI系統的能力并監控其發展非常重要。

為什么會這樣?

不管怎么說,看完這項研究后,還是有不少人興奮地表示:終于有研究證明我一直以來的猜測了。

圖片圖片

而在“興奮”之余,大家似乎也意識到更重要的問題:

我們和大模型的“蜜月期”已經結束,已開始告別最初的“Wow”階段。

也就是說我們更加關注其真正的實力,而不是表面的、發布會里演示里的“花拳繡腿”。

所以,大家也不由地好奇:

為什么會這樣?為什么看起來變笨了呢?

圖片圖片

按理來說模型的質量應該隨著時間的推移得到更新,變得更好;就算沒有顯著提升,數學和代碼能力也不能下降這么迅速。

猜測有很多。

首先就是OpenAI可能采取了成本削減措施。

這位叫做@Dwayne的網友指出,由于GPT-4的運行成本非常高,他懷疑OpenAI開始控制成本,這從原來每3小時能發送100條信息到現在只能發送25條的限制就能看出。

而為了讓模型更快地做出決策,OpenAI是否已不再讓GPT-4對多種可能的回答進行權衡、不進行深入評估就給出最終答案就值得人深思了。

畢竟決策時間少了,計算成本就會降低,而這樣一來,回答質量就不可避免的下降了。

圖片圖片

有意思的是,在斯坦福和UC伯克利這項成果發布后,有不少人照貓畫虎進行了測試,但他們發現,同樣的問題GPT-4可以做對,比如「17077是否為質數」,很多回答都是「是」。

究其原因,這些人基本都用了最新的代碼解釋器或者Wolfram插件。

圖片圖片

這也就引出了網友們的第二點猜測:

GPT-4的能力可能并非下降了,而是轉移了。

這就導致我們使用「最基礎的」GPT-4提問時,它已經不會再直接調用各種「專家模型」幫我們解答了,強大的專家能力都被路由到各類插件和諸如代碼解釋器這樣的集成功能上了。

不過說到底,這也算降本增效的一種手段。

當然,也有想法認為,OpenAI這是為了推廣插件和新功能才故意削減了GPT-4的基礎能力。

圖片圖片

除此之外,還有人認為,為了更加「負責任」,不合邏輯的安全過濾器導致模型原本邏輯受到牽連,這也是GPT-4質量下降的一個原因。

圖片圖片

普林斯頓教授實名反對

值得注意的是,不管網友的猜測聽起來多么有理有據,OpenAI其實一直都在否認,聲稱他們并未采取任何措施導致模型質量下降。

與此同時,另一波學者和網友恰好也對這篇研究提出了質疑。

來自普林斯頓大學的兩位CS教授指出:

這篇論文產生了「GPT-4變笨了」的誤解,因為它只是簡單顯示了GPT-4行為的改變,而行為變化并不等同于能力下降。

并且實驗本身的評估也有問題,作者有誤將模仿當作推理。

為了說明自己的觀點,他們直接開了一篇博客。

圖片圖片

以判斷質數問題為例,他們發現,評估給出的500個數字全是質數。這個問題就大了,它意味著正確答案始終是「yes」,模型就可能產生了隨機模仿的能力(也就是照著之前的正確答案無腦抄下去)。

因為事實證明,在大多數情況下,沒有一個模型會真正一一執行「判斷數字能否被整除」的算法——他們只是假裝做了。

比如下面這個3月份GPT-4的快照,它只是列了一堆待檢查的數字,然后沒有一一去除就直接給出「19997是質數」的回答。

圖片圖片

也就是說,3月份的GPT-4可能是無腦答對的,其表現并不能證明其數學能力;相反,也就不能證明6月份的GPT-4不行了(可能本來就是這個水平)。

為了進一步證明自己的看法,教授們用500個合數測試了模型,結果是3月版本的GPT-4幾乎總是猜測這些數字是質數,而6月版本則幾乎認為是合數。

——評估數據一換,結果就完全不同,這足以說明原作者的結論并不算立得住了。

除此之外,在下降最多的代碼編寫能力方面,教授們也認為,作者只是檢查代碼是否可以直接執行,而不評估其正確性的方式,這種方式也同樣草率。

這意味著新GPT-4試圖提供更多幫助的能力被抵消了。

以上這些觀點,均得到了英偉達AI科學家Jim Fan的支持,他表示:

這也讓我想到了GPT-4滿分拿下MIT數學本科考試那篇論文。(被質疑造假,數據和評估方式都有問題)

但他認為,這都不重要,重要的是大家一起來battle。

圖片圖片

所以,你認為GPT-4到底變笨了沒?

論文地址:https://arxiv.org/abs/2307.09009

參考鏈接:[1]https://twitter.com/DwayneCodes/status/1681617375437922309[2]https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time[3]https://twitter.com/DrJimFan/status/1681771572351369216

責任編輯:武曉燕 來源: 量子位
相關推薦

2023-07-21 14:16:15

2023-07-20 14:33:36

GPT-4代碼

2023-07-21 12:55:07

2024-01-01 22:28:52

2024-01-29 12:49:00

AI模型

2023-03-15 10:35:16

GPTAI

2023-12-09 13:24:40

OpenAIChatGPT人工智能

2024-01-03 13:37:00

模型數據

2023-11-02 12:21:50

GPT-4緩存模型

2023-10-17 13:33:00

AI數據

2023-06-05 15:44:15

GPT-4AI

2023-12-26 14:56:59

模型訓練

2025-09-01 09:13:00

2023-11-29 14:41:33

GPT-4OpenAI

2023-09-21 12:31:54

AI數據

2023-06-02 13:19:17

GPT-4文本代碼

2024-01-02 13:12:53

GPT-4UCSC數據

2024-04-26 00:00:00

OpenAIGPT-5超算

2024-01-30 20:08:07

谷歌GPT-4Bard

2023-10-06 12:48:43

AI論文
點贊
收藏

51CTO技術棧公眾號

欧美h视频在线观看| 国产精品久久久久久久久影视| 日韩欧美中文在线视频| 丰满大乳少妇在线观看网站| 91在线云播放| 911精品产国品一二三产区| 影音先锋男人的网站| 精品人妻一区二区三区免费看 | a级片免费在线观看| 久久久蜜臀国产一区二区| 成人精品久久久| 白白色免费视频| 国产精品一区二区三区av | 欧美经典三级视频一区二区三区| 亚洲999一在线观看www| 你懂得视频在线观看| 午夜电影一区| 欧美日韩一区二区三区四区| 六月婷婷在线视频| 国产在线激情视频| 久久精品一级爱片| 好吊色欧美一区二区三区| 国产又黄又猛又爽| 日本伊人精品一区二区三区观看方式| 欧美福利视频在线| 老司机成人免费视频| 亚洲人成伊人成综合图片| 日韩免费在线观看| 黄色aaaaaa| 日日夜夜精品一区| 99精品欧美一区二区三区小说| 国产在线精品一区免费香蕉| 久久久精品视频网站 | 午夜肉伦伦影院| 亚洲精品第五页| 亚洲午夜黄色| 久久偷看各类女兵18女厕嘘嘘 | 精品欧美久久| 日韩欧美有码在线| 91免费黄视频| 欧美亚洲系列| 综合自拍亚洲综合图不卡区| 性欧美精品一区二区三区在线播放 | 丝袜综合欧美| 亚洲人精品午夜| 亚洲最大成人网色| 在线观看视频二区| 美女在线一区二区| 国产精品视频免费在线| 国内免费精品视频| 亚洲日产国产精品| 久久免费观看视频| 国产中文字幕免费| 最新精品国偷自产在线| 亚洲国产成人精品女人久久久| 在线观看视频你懂得| 玖玖玖视频精品| 日韩欧美精品三级| 精品无码人妻少妇久久久久久| 日韩精品中文字幕一区二区| 日韩视频不卡中文| 欧美三级一级片| 九色porny丨国产首页在线| 午夜伊人狠狠久久| 国产美女无遮挡网站| 日韩伦理精品| 欧美亚男人的天堂| www.久久av.com| 亚洲午夜免费| 日韩精品久久久久久福利| 黄色在线观看av| 欧美三级美国一级| xxxxx成人.com| 青青草免费av| 亚洲在线日韩| 91精品久久久久久久久久| av老司机久久| 91在线高清观看| 日韩在线第一区| www.在线视频| 精品成人乱色一区二区| 已婚少妇美妙人妻系列| 亚州精品国产| 精品乱人伦小说| 国产手机在线观看| 亚洲综合色网| 国产91精品久| 国产精品久久免费| 99麻豆久久久国产精品免费| 国产精品久久久久福利| 亚洲一区 中文字幕| 国产一区二区女| 久久精品99久久| 日本在线看片免费人成视1000| 一区二区成人在线| 精品视频一区二区在线| 97人人做人人爽香蕉精品| 天天色影综合网| 在线成人h网| 国产啪精品视频| 婷婷综合激情网| 最近日韩中文字幕| 亚洲成熟丰满熟妇高潮xxxxx| 91九色成人| 欧美人妇做爰xxxⅹ性高电影| 色欲欲www成人网站| 精品国内自产拍在线观看视频 | www.51av欧美视频| 欧美三级一区二区| 粉嫩av懂色av蜜臀av分享| 国产高清欧美| 国产精国产精品| 理论片中文字幕| 成人欧美一区二区三区视频网页| 男人揉女人奶房视频60分| 白嫩亚洲一区二区三区| 亚洲社区在线观看| 色婷婷免费视频| 香蕉精品视频在线观看| 日韩中文在线中文网三级| 日韩欧美三级在线观看| 久久99精品久久久| 欧美日韩一区在线观看视频| 三级在线观看| 亚洲一区在线观看免费 | 99国内精品久久久久| 亚洲美女又黄又爽在线观看| 精品少妇久久久| 国产精品一二一区| 91精品久久久久久蜜桃| 婷婷成人激情| 欧美性大战久久久| 实拍女处破www免费看| 国产亚洲精品久久久久婷婷瑜伽| 亚洲综合国产精品| 成人在线网址| 91精品国产麻豆国产自产在线| 色婷婷激情视频| 精品国产一区二区三区噜噜噜| 51视频国产精品一区二区| 丰满熟妇乱又伦| 亚洲综合另类小说| 日韩欧美中文在线视频| 欧美精品网站| 成人黄动漫网站免费| 性欧美1819sex性高清大胸| 91麻豆精品国产91久久久久| 极品尤物一区二区| 麻豆精品一区二区三区| 亚洲欧美日产图| 国产一区高清| 久久香蕉国产线看观看av| 国产又粗又猛又黄又爽| 亚洲欧洲中文日韩久久av乱码| 亚洲精品mv在线观看| 中文字幕午夜精品一区二区三区 | 久久久久久久久久久网站| 精品国自产拍在线观看| 夜夜亚洲天天久久| 日本美女视频网站| 国产精品外国| 日韩三级电影网站| 青娱乐极品盛宴一区二区| 久久精品最新地址| www.com欧美| 午夜精品久久久久| 免费看污片的网站| 韩国一区二区视频| 激情五月婷婷六月| 日本另类视频| 丝袜亚洲另类欧美重口| 国产乱码精品一区二区三区精东| 国产精品女同一区二区三区| 伊人五月天婷婷| 在线成人h网| 日韩欧美在线观看强乱免费| 久久久精彩视频| 日韩av一卡| 日韩中文字幕国产精品| 精品国产一级片| 欧美三级免费观看| 亚洲欧美精品久久| 成人精品一区二区三区四区| 亚洲在线视频观看| 日本色护士高潮视频在线观看| 亚洲国产一区自拍| 小泽玛利亚一区二区三区视频| 国产在线精品一区二区夜色| 日韩视频 中文字幕| 欧美网色网址| 91欧美日韩一区| 国产三级在线| 欧美一级xxx| 国产美女激情视频| 亚洲丝袜精品丝袜在线| 中国极品少妇videossexhd | 午夜精品一区二区三区视频免费看 | 国产一区二区三区不卡在线观看| 国产视频一视频二| 一区二区影院| 欧美伦理一区二区| 欧州一区二区三区| 国产成人91久久精品| 日韩av官网| 最近2019年手机中文字幕| 色综合免费视频| 3751色影院一区二区三区| 女人十八岁毛片| 亚洲最快最全在线视频| 制服丨自拍丨欧美丨动漫丨| 91免费国产在线| wwwxx日本| 国产美女在线观看一区| 日日碰狠狠丁香久燥| 亚洲天堂久久| 日韩精品第1页| 欧美成免费一区二区视频| 久久久久久久免费| 国产美女撒尿一区二区| 91色琪琪电影亚洲精品久久| 成人免费一区| 欧美夜福利tv在线| 国产又色又爽又黄刺激在线视频| 不卡av电影院| 理论片午午伦夜理片在线播放| 国产亚洲欧美日韩精品| 亚洲人成色777777精品音频| 精品免费99久久| 精品国产18久久久久久| 91精品欧美一区二区三区综合在| 欧美高清69hd| 欧美在线999| 天堂av免费在线观看| 色综合天天视频在线观看 | 国产又粗又长视频| 欧美日韩视频专区在线播放| 国产乱码77777777| 欧美性一二三区| 一级一级黄色片| 欧美亚一区二区| 亚洲熟妇无码久久精品| 欧美午夜精品久久久久久超碰| 国产精品久久久久久久久久精爆| 色综合久久综合网欧美综合网| 国产成人在线免费视频| 狠狠爱在线视频一区| 国产一级精品视频| 欧美日韩在线影院| 亚洲国产成人精品女人久久| 91高清视频在线| 成人免费一区二区三区| 欧美视频三区在线播放| 在线观看日批视频| 91精品国产综合久久精品图片| 国产人妖一区二区| 欧美变态口味重另类| 欧美特黄一级视频| 日韩成人av网| 色播色播色播色播色播在线| 亚洲欧美日韩成人| av黄色在线观看| 久久综合免费视频| 免费在线国产视频| 欧洲成人性视频| 精品久久久网| 痴汉一区二区三区| 香蕉视频一区二区三区| 亚洲视频在线观看日本a| 91精品国产调教在线观看| 91精品国产毛片武则天| 亚洲午夜久久久久久尤物| 免费黄色福利视频| 美女视频一区在线观看| 日本中文字幕精品| 久久人人爽人人爽| 四虎永久免费地址| 午夜欧美视频在线观看| 波多野结衣家庭主妇| 51精品久久久久久久蜜臀| 高清乱码毛片入口| 国产亚洲一区二区精品| 成人在线app| 欧美孕妇性xx| 电影一区中文字幕| 欧美二区在线| 亚洲国产一成人久久精品| 日韩免费视频播放| 久久99精品久久久| aaaaa一级片| 亚洲久草在线视频| 国产精品视频一区在线观看| 91精品麻豆日日躁夜夜躁| 亚洲三级中文字幕| 美女精品视频一区| 亚洲天堂一区二区| 91亚洲va在线va天堂va国 | 欧美在线观看不卡| 欧美麻豆精品久久久久久| 香蕉视频911| 美日韩精品免费视频| 原纱央莉成人av片| 福利视频久久| 清纯唯美综合亚洲| www.com毛片| 国产风韵犹存在线视精品| 99在线观看视频免费| 欧美在线va视频| 91在线观看欧美日韩| 欧美激情在线免费| 国产一区二区三区乱码| 麻豆成人久久精品二区三区小说| 无码任你躁久久久久久老妇| 亚洲欧洲三级电影| 国产污视频网站| 亚洲国产另类 国产精品国产免费| 性开放的欧美大片| 日产精品久久久一区二区福利| 在线观看视频一区二区三区| 亚洲欧洲精品一区| 久久精品免费| 国产精品福利导航| 亚洲国产成人porn| 精品女同一区二区三区| 日韩在线免费观看视频| 欧美大胆性生话| 久久国产精品久久| 国内在线观看一区二区三区| 极品粉嫩美女露脸啪啪| 国产日韩三级在线| 一级黄色在线视频| 亚洲美女av在线| 中文字幕 在线观看| 久久久久久久久久国产精品| 粉嫩av国产一区二区三区| 亚洲国产午夜伦理片大全在线观看网站| 日韩一级精品| 日本xxxx裸体xxxx| 亚洲高清一区二区三区| 亚洲美女福利视频| 久久久久久久激情视频| 91精品短视频| 日韩一级性生活片| 成人激情av网| 亚州国产精品视频| 亚洲国产毛片完整版| 成人免费图片免费观看| 国产一区在线免费| 性欧美lx╳lx╳| 欧美变态另类刺激| 久久久久亚洲蜜桃| 免费观看日批视频| 在线日韩av观看| 久久91视频| 亚洲免费视频播放| 国产福利精品导航| 国产在线观看免费视频今夜| 亚洲成年人在线播放| 阿v视频在线| 欧美精品二区三区四区免费看视频 | 久久艹在线视频| eeuss鲁片一区二区三区| 五月丁香综合缴情六月小说| 91在线高清观看| 中文无码av一区二区三区| 韩日精品视频一区| 丝袜人妻一区二区三区| 成人黄色国产精品网站大全在线免费观看| 国产性猛交普通话对白| 亚洲黄色片网站| 日产精品一区| 香蕉精品视频在线| 国产999精品久久| 九一国产在线观看| 尤物九九久久国产精品的分类 | 一本色道88久久加勒比精品| 中文字幕人妻一区二区| 欧美日韩中文精品| www在线免费观看视频| 国产日韩一区欧美| 视频一区在线播放| 欧美手机在线观看| 亚洲国产精品嫩草影院久久| 亚洲成a人片| 欧美精品久久96人妻无码| 成人少妇影院yyyy| 啪啪小视频网站| 欧美激情综合色综合啪啪五月| 天堂俺去俺来也www久久婷婷| 五月天亚洲视频| 亚洲成人动漫在线观看| av在线电影网| 成人欧美一区二区三区视频| 日韩国产一区二| 国产一级免费片| 欧美在线观看一二区| 三级资源在线| 亚洲精品日韩在线观看| 成人性色生活片免费看爆迷你毛片| 日本精品入口免费视频| 久久久久久久久久亚洲|