精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4滿分通過MIT本科數學考試!卻遭同門質疑“作弊”,數據集本身就有問題

人工智能
在使用數據之前,無論是用于訓練、推理、基準測試還是其他方面,重新評估每一個數據點并進行基本的理智檢查是極其重要的。鑒于有關數據集的規模較小,簡單的人工驗證很容易在工作范圍內完成。

大數據文摘出品

作者:Caleb

這兩天,相信大家都被GPT-4滿分輕松拿下MIT本科數學考試的事兒給刷屏了。 

給先不知情的小伙伴們說一下,這次的測試是MIT、波士頓大學和康奈爾大學的研究團隊共同根據MIT所有獲得學位所需的數學、電氣工程和計算機科學 (EECS) 課程整理出來了4550個問題。

參與測試的AI模型有GPT-3.5、GPT-4、StableVicuna-13B、LLaMA-30B和LLaMA-60B。結果嘛,可想而知,GPT-4滿分通過,但GPT-3.5卻只做對了三分之一。

圖片

論文鏈接:https://huggingface.co/papers/2306.08997

這樣的結果自然也是吸引到了眾多網友的討論,在網友們的一眾驚呼聲中,三位同樣來自MIT的學生卻發現了其中端倪。

揭開“網騙”GPT-4的面紗

在6月16日發現這篇論文后,三人決定深入挖掘一下。但是一小時內,他們對論文的方法論產生了懷疑,不到兩個小時,他們意識到,數據集本身是有問題的。

論文中寫到,研究人員“在沒有圖像和有解決方案的問題中隨機選擇了288個問題的測試集”。這個數據集(不包括用于微調開源LLM的訓練集)也隨著論文的發布被開源到了GitHub上,以及用于生成報告的測試性能代碼。

然而,Drori教授卻刪除了這個項目。

圖片

他們目前針對此發布了該測試集的注釋副本:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit#gid=1598949010

三人也表示,他們確信這個文件代表了論文中分析的測試集,因為評估代碼中所有數據的文件路徑都指向它,沒有提供任何修改其內容的代碼,而且在最初發布的GitHub倉庫中也是可用的。此外,該文件也滿足論文中規定的所有模式要求。

這些證據似乎非常有力地支持了一個主張,那就是,這個文件有可能被換成了一個用于測試的不同文件。如果是這樣的話,證明的責任在于作者公開發布這個數據和用它做的所有分析。

于是,他們開始檢查各個數據點。

很快就發現,數據集中至少有10個問題是無法用提供的信息解決的,也就是說,根本不可能出現滿分的情況。除此之外,還有幾個問題在這個給出的背景下根本就不是有效的問題,這樣的題目至少占了4%。

除了問題本身存在爭議外,他們還發現,在所檢查的288個問題中,有14個是重復的,在這些情況下,問題串之間的唯一區別是極小的字符級噪音,或者完全相同。

鑒于此,GPT-4能夠獲得滿分不得不令人懷疑。得出這樣的結果要么是在某個階段將解決方案泄露到了提示中,要么是問題沒有被正確評分。

這也促使他們進一步調查。最終發現,其實兩邊都占了。

它在演示一種更高級的“作弊”

在這里,還需要簡單解釋一下論文中提到的的“小樣本示例”(few-shot examples)。簡而言之,研究人員對OpenAI嵌入的數據集內的類似問題進行余弦相似度搜索,并將這些問題和解決方案作為額外的背景納入模型的提示,以幫助模型解決問題。這本身沒什么問題,只要給出的例子和問題存在足夠大的差異,以便不暴露不公平信息。

但是在隨機掃描已發布的測試數據集時,他們注意到一些奇怪的事情。許多提供給模型的小樣本示例幾乎與問題本身一字不差,這種重疊情況可以用柱狀圖來表示:

圖片

也就是說,模型得到的是問題的答案或與問題非常相似的問題。通常情況下,這來自于很多有類似背景的問題被反復提問。

在他們看來,為了正確評估GPT的解題能力,“多部分問題”(multi-part questions)的其他部分應該被完全排除在某一問題的小樣本示例外。事實上,他們還發現,這些多部分問題的解決方案往往直接提到或給出模型被要求解決的另一部分問題的解決方案。

而在評分上,根據開源的打分機制中,他們也發現了一些問題。

比如流程是如何處理分級的。事實上,研究人員是利用GPT-4來打分的,包括原始問題、解決方案,和GPT自己的答案,作為分級提示的參數。

在其他技術領域,GPT更有可能出現隱性誤解,這種自動評分也就更有可能出現自我安慰的結果。

此外,雖然prompt級聯是最近許多GPT論文中常見的技術,但這里有大量數據泄漏的可能性。每一級不僅提供基于基礎事實的二元信息,而且還在prompt,直到達到正確答案。

雖然這些創建的prompt沒有看到實際的解決方案,但重新prompt正確答案直到達到正確答案的二進制反饋是足夠的,尤其是在占測試集16%的多選題中,無限的嘗試保證了正確的答案。

這就好比有人拿著答題紙告訴學生他們是否得到了正確的答案,直到他們得到答案。

在戳破這層假象后,他們在數據集上完成了零樣本GPT-4的運行,對數據的前30%進行了手動評分,結果與原論文可以說是“天壤之別”。

圖片

語言模型還不能被當作產生基礎真理的神諭

最后,三人表示,他們目前提出的問題只是幾個小時的審查中發現的最明顯的問題,后期隨著更多人更仔細的檢查,會發現更多的漏洞。

他們也鼓勵讀者下載數據集,自己檢查,畢竟只有通過了同行評估,才能得到最終肯定。

同時,他們也寫到,他們對數據分析方法的完整性的觀察是令人擔憂的。這篇論文道出了最近人工智能研究的一個更大趨勢:隨著該領域的進展越來越快,研究時間線似乎在縮短,這其中就不可避免地存在走捷徑的行為。

一個特別令人擔憂的趨勢是使用像GPT-4這樣基于語言的模型來評估一個模型的準確性的技術。雖然它是一個有用的工具,但結論絕不應該被夸大,也不應該被當作地面真理。

最近有論文就寫到,如果沒有準確的真實信息,GPT-4的驗證并不可靠。至少,應該選擇一個隨機的數據集子集,將GPT-4的性能與人類的對應物進行比較。語言模型還不能被當作產生基礎真理的神諭。

此外,在使用數據之前,無論是用于訓練、推理、基準測試還是其他方面,重新評估每一個數據點并進行基本的理智檢查是極其重要的。鑒于有關數據集的規模較小,簡單的人工驗證很容易在工作范圍內完成。

有網友在推特上打趣地說到,“這是LLM和作者推薦必吃的甜點,如果你趕時間,讓GPT-4預測以下哪種味道最好”。

圖片

看來,關于GPT的相關研究和衍生風波,都還會持續再刮一陣子。

相關報道:

https://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT-b27e6796ab5a48368127a98216c76864#c49f4b29e01745de9bf1ffdf2170b067

責任編輯:武曉燕 來源: 大數據文摘
相關推薦

2023-06-19 10:09:01

數學AI

2023-06-25 12:46:24

GPT-4人工智能

2023-12-09 14:30:50

2023-09-18 08:54:13

研究數據

2024-06-27 13:12:17

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-05-15 15:38:59

AI模型

2024-07-22 09:01:20

2024-05-20 08:40:00

2023-11-13 19:31:47

GPT-4VLLaVABard

2025-05-30 07:40:56

2023-06-21 13:37:41

模型研究

2024-12-10 07:00:00

2023-10-08 13:11:00

訓練數據

2024-01-22 00:25:00

GPT-4ChatGPTQA 模型

2024-05-21 12:23:17

2023-07-06 06:56:58

人工智能OpenAIGPT-4

2024-07-15 09:00:00

2023-07-04 14:01:26

GPT-4模型
點贊
收藏

51CTO技術棧公眾號

136福利精品导航| 色黄网站在线观看| 久久99精品国产麻豆婷婷洗澡| 永久免费精品影视网站| 欧美激情综合亚洲一二区| 欧美在线高清视频| 国产美女久久精品香蕉69| 亚洲区一区二区三| 在这里有精品| 欧美专区在线观看一区| www国产无套内射com| 秋霞av在线| 国产一区二区不卡老阿姨| 久久乐国产精品| 国产精品久久无码| 日韩国产91| 精品久久香蕉国产线看观看亚洲| 亚洲欧洲日夜超级视频| 国产成人av免费看| 久久亚洲电影| 欧美高清不卡在线| 日本理论中文字幕| 加勒比色综合久久久久久久久| 在线视频欧美精品| 无码粉嫩虎白一线天在线观看 | 国产精品亚洲d| 一区二区三区在线视频免费 | 西西大胆午夜视频| 爱情电影网av一区二区| 一本到一区二区三区| 男人天堂网站在线| 1024免费在线视频| 久久综合九色综合欧美就去吻| 成人免费淫片aa视频免费| 精品美女久久久久| 国产综合久久| 插插插亚洲综合网| 麻豆一区在线观看| 精品国产欧美日韩| 亚洲精品美女在线观看播放| 手机在线免费毛片| 日本亚洲欧洲无免费码在线| 日本高清不卡在线观看| 日韩a∨精品日韩在线观看| 久久精品视频免费看| 中文字幕av一区二区三区| 蜜桃传媒视频第一区入口在线看| 黄色一级大片在线免费看国产一| 国产揄拍国内精品对白| 国产日本欧美一区二区三区在线 | 日产国产欧美视频一区精品| 91超碰caoporn97人人| 国产无遮挡aaa片爽爽| 欧美成人久久| 久久最新资源网| 尤物在线免费视频| 欧美韩日高清| 日韩一区二区在线视频| 欧洲美女女同性互添| 欧美丰满日韩| xvideos成人免费中文版| 少妇av片在线观看| 97视频热人人精品免费| 日韩亚洲第一页| 日韩在线不卡av| 亚洲精品极品少妇16p| 久久精品亚洲94久久精品| 黑人操日本美女| 综合国产精品| 欧美黄色免费网站| 日本一级淫片免费放| 亚洲精品美女91| 91精品国产91久久久久福利| 天天干天天操天天爱| 日韩精品久久久久久| 国产欧美日韩专区发布| 国产普通话bbwbbwbbw| 国产成人精品免费| 精品久久久久久亚洲| 九色在线视频蝌蚪| 中文字幕在线不卡| 在线观看污视频| 欧美激情护士| 欧美性感一区二区三区| 北条麻妃亚洲一区| 久久电影在线| 亚洲性xxxx| 一区二区视频免费看| 日韩网站在线| 国产成人精品综合久久久| 国产精品无码久久久久成人app| 韩国av一区二区三区| 国产欧美一区二区在线播放| 福利小视频在线观看| 一区二区三区在线看| www.爱色av.com| 欧美性生活一级| 亚洲高清在线观看| 最新日韩免费视频| 好看的日韩av电影| 欧美一区二区大胆人体摄影专业网站| 在线观看免费高清视频| av电影在线观看一区| 亚洲精品成人a8198a| 牛牛电影国产一区二区| 欧美性生活久久| 久久久久无码国产精品一区李宗瑞 | 日韩亚洲欧美成人一区| 一区二区伦理片| 国产精品激情| 成人免费看吃奶视频网站| 青青草超碰在线| 一区二区三区在线视频播放 | 日本网站在线播放| 欧美a级理论片| 久久久水蜜桃| 中文在线字幕免费观看| 日本高清不卡一区| 亚洲午夜久久久久久久久| 四虎成人av| 欧洲亚洲免费视频| 老司机午夜福利视频| 国产精品不卡视频| 久久久久久香蕉| 久久aimee| 国内精品久久久久影院优| 国产乱码久久久久| 国产精品五月天| av免费在线播放网站| 丁香婷婷成人| 欧美精品在线看| 国产又粗又猛又黄| 国产三区在线成人av| 免费毛片小视频| 国产成人澳门| 久久久久久成人| 999av视频| 亚洲色图制服丝袜| 中文字幕国产免费| 日韩伦理视频| 国产精品直播网红| √天堂资源地址在线官网| 91久久精品一区二区三| 深爱五月激情网| 亚洲女人av| 麻豆av一区二区三区| 国产免费拔擦拔擦8x在线播放 | 影音先锋黄色资源| 欧美破处大片在线视频| 亚洲一区二区三区毛片| 国产黄色在线网站| 91精品国产免费| 国产十六处破外女视频| 国产在线视频一区二区| 自拍偷拍亚洲色图欧美| 伊人久久一区| 欧美日本亚洲视频| 国产刺激高潮av| 亚洲成人动漫在线观看| 真人bbbbbbbbb毛片| 国产精品三上| 日本一区二区三区www| yy6080久久伦理一区二区| 中文字幕日韩精品有码视频| 亚洲一级特黄毛片| 亚洲欧美一区二区三区久本道91 | 99re8在线精品视频免费播放| 精品这里只有精品| 亚洲国产最新| 国产精品第七十二页| 日韩精品毛片| 欧美成人一区二区三区片免费| 国产亚洲精品女人久久久久久| 成人高清视频在线| 久久婷婷五月综合色国产香蕉| 国产欧美一区二区三区精品观看| 国产中文字幕91| 日本资源在线| 亚洲男人的天堂网站| 中文字幕人成人乱码亚洲电影| 最新热久久免费视频| 久久久久99人妻一区二区三区| 国产精品久久777777毛茸茸| 亚洲不卡1区| 亚洲免费一区三区| 国产成人黄色av| www在线观看播放免费视频日本| 精品国产乱码久久久久久老虎| 亚洲欧美精品一区二区三区| 国产精品人成在线观看免费| 女同性αv亚洲女同志| 国产农村妇女精品一区二区| 亚洲日本精品一区| 粉嫩精品导航导航| 国产精品九九久久久久久久| a免费在线观看| 亚洲欧美一区二区三区在线| 国产精品久久婷婷| 欧美日韩国产麻豆| 日本 欧美 国产| 99精品久久久久久| 精品亚洲视频在线| 销魂美女一区二区三区视频在线| 欧美h视频在线观看| 啄木系列成人av电影| 9a蜜桃久久久久久免费| 日韩av一级| 久久久久久久久久久免费 | 亚洲精品中文在线影院| theav精尽人亡av| 国产一区二区三区蝌蚪| 少妇高清精品毛片在线视频| 欧美激情成人在线| 亚洲成人午夜在线| 欧美wwwwww| 99国内精品久久久久久久软件| 国产一区二区三区朝在线观看| 久久久久这里只有精品| 免费在线你懂的| 国产一区av在线| 天天干天天舔天天射| 日韩免费高清视频| 亚洲一区精品在线观看| 色先锋久久av资源部| 国产福利拍拍拍| 亚洲综合一区二区| 波多野结衣亚洲一区二区| 国产欧美日韩在线观看| 亚洲国产欧美视频| 白白色亚洲国产精品| 精品人妻二区中文字幕| 国产精品自在欧美一区| 日韩av福利在线观看| 加勒比av一区二区| 亚洲36d大奶网| 男女性色大片免费观看一区二区| 亚洲精品中文字幕无码蜜桃| 国产欧美二区| 水蜜桃色314在线观看| 狠狠干综合网| 日本一本中文字幕| 今天的高清视频免费播放成人| 警花观音坐莲激情销魂小说| 欧美顶级大胆免费视频| 一区二区在线观看网站| 日韩免费看片| 一本色道久久综合亚洲二区三区| 日韩av在线中文字幕| 亚洲在线不卡| 色琪琪久久se色| 在线观看欧美一区| 99精品电影| 好色先生视频污| 欧美区亚洲区| av免费观看大全| 久久国产99| 欧美日韩在线观看不卡| 美女性感视频久久| 精品国产鲁一鲁一区二区三区| 久久精品理论片| 中文字幕avav| 不卡在线观看av| 亚洲欧美视频在线播放| 久久精品视频免费| 人人妻人人澡人人爽| 国产精品久久久久天堂| 精品自拍偷拍视频| 亚洲国产精品一区二区www在线| 日本少妇久久久| 日韩欧美在线观看| 亚洲熟妇无码久久精品| 日韩一区二区不卡| 日韩一级在线播放| 亚洲精品大尺度| 高清av电影在线观看| 久久亚洲精品成人| 国产高清自产拍av在线| 国产精品av在线| 韩国三级大全久久网站| 精品高清视频| 日韩理论电影| 日韩av中文字幕第一页| 日韩激情视频在线观看| 免费av不卡在线| 成人综合在线观看| 蜜桃传媒一区二区亚洲| 亚洲精品网站在线观看| 探花视频在线观看| 欧美日韩高清一区二区不卡| 风流少妇一区二区三区91| 精品亚洲一区二区三区| 欧美日韩在线看片| 欧美性视频在线| 99精品国产九九国产精品| 精品蜜桃一区二区三区| 欧美自拍偷拍| 国产欧美精品aaaaaa片| 天堂蜜桃91精品| 亚洲欧美一区二区三区不卡| 久久综合狠狠综合久久综合88| 91动漫免费网站| 图片区小说区国产精品视频| 亚洲自拍偷拍另类| 精品香蕉一区二区三区| 二区在线播放| 国产精品免费在线免费| 精品久久ai电影| 亚洲bbw性色大片| 99在线精品视频在线观看| 日韩在线一区视频| 久久久亚洲精品石原莉奈 | 国产精品多人| 亚洲美女性囗交| 久久久精品中文字幕麻豆发布| 青青草激情视频| 色综合激情五月| 成人免费视频国产| 久久网福利资源网站| 高清av一区| 久久久福利视频| 在线欧美福利| 色综合久久久无码中文字幕波多| 中文字幕免费观看一区| 4438国产精品一区二区| 精品少妇一区二区三区免费观看 | 综合在线视频| 亚洲老女人av| 欧美激情在线看| 无码人妻一区二区三区免费| 亚洲国产毛片完整版| 精精国产xxxx视频在线中文版| 91久久精品久久国产性色也91| 精品国内自产拍在线观看视频| 国产午夜伦鲁鲁| 99国产欧美久久久精品| 国产精品500部| 亚洲国模精品私拍| 国内激情视频在线观看| 国产乱子伦精品| 激情成人综合| 人妻av一区二区| 亚洲成人一区在线| 色婷婷视频在线| 97久久精品视频| 亚洲高清极品| 91看片就是不一样| 国产欧美日韩另类一区| 日韩xxx视频| 在线成人一区二区| 四虎影视成人精品国库在线观看| 亚洲精品无人区| 久久成人羞羞网站| 午夜精品福利在线视频| 日韩精品中文字幕在线不卡尤物| 欧美黑人猛交| 精品不卡在线| 丝袜美腿亚洲一区| 后入内射无码人妻一区| 欧美一区二区在线视频| av片在线观看| 国产精品国产精品国产专区蜜臀ah | 色老头在线视频| 在线视频欧美日韩| 国产95亚洲| 很污的网站在线观看| 久久久亚洲午夜电影| 亚洲一级av毛片| 欧美激情精品久久久| 日韩高清电影免费| 成人一区二区三| 综合亚洲深深色噜噜狠狠网站| а√天堂资源在线| 5252色成人免费视频| 成人综合一区| 深夜视频在线观看| 色欧美88888久久久久久影院| 亚洲s色大片| 国产日韩欧美亚洲一区| 日韩av网站在线观看| 五月综合色婷婷| 亚洲精品国产品国语在线| 51一区二区三区| 日韩成人三级视频| 久久夜色精品国产欧美乱极品| 亚洲一级片免费看| 国内精品模特av私拍在线观看 | www.69av| 久久色在线观看| 国产xxxx在线观看| 日本乱人伦a精品| 综合一区二区三区| japanese中文字幕| 欧美一区二区三区人| 亚洲天堂导航| 日韩精品福利片午夜免费观看| 久久久一区二区| www.四虎在线观看| 国产精品777| 日韩视频二区| 九九精品在线观看视频|