精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

專治大模型“刷題”!賈佳亞團隊新基準讓模型只挑錯不做題,GPT-4得分不到50

人工智能 新聞
賈佳亞團隊聯合多家知名高校提出了一種全新的測評方法,讓一些模型立馬現出了原型。

大模型測試能拿高分,實際場景中卻表現不佳的問題有解了。

賈佳亞團隊聯合多家知名高校提出了一種全新的測評方法,讓一些模型立馬現出了原型。

這下不用擔心大模型“刷題”太多,測試集無法體現真實水平了。

圖片

這個新的測評數據集叫做MR-Ben,利用的是GSM8K、MMLU等數據集中的現有題目。

只不過,大模型在測試中的身份從“答題學生”變成了“閱卷老師”,任務是要給已有的解答步驟指出錯誤。

這樣一來,模型無法再通過背誦或猜測撞對題目,測試題泄露也無需擔心了。

利用MR-Ben,賈佳亞團隊評測了GPT4-Turbo、Cluade3.5-Sonnet、GLM4、Qwen2-70B等許多開源和閉源模型。

目前,該數據集涉及的所有代碼和數據均已開源。

熟悉的試題,全新的任務

目前,大模型測試的主流方向是使用人類的標準化考試——選擇題和填空題的方式去進行大模型評測。

這套測試方式的優點是標準明確、指標直觀,且量化結果天然具有話題性。

但作者認為,由于現在的大模型普遍采用逐步作答的思維鏈方式生成最終答案,導致這種方式并不“靠譜”。

預訓練模型在預訓練時早已見過數以萬億級別的token,很難判斷被評測的模型是否早已見過相應的數據,從而通過“背題”的方式回答正確。

而因為評測的方式主要靠檢查最終的答案,因此模型是否是基于正確的理解推理選出正確的選項,也不得而知

盡管學術界不斷地對諸如GSM8K、MMLU等數據集進行升級改造,如在GSM8K上引入多語言版本的MGSM數據集,在MMLU的基礎上引入更難的題目等,依然無法擺脫選擇或填空的窠臼。

并且,這些數據集都已面臨著嚴重的飽和問題,大語言模型在這些指標上的數值已經見頂,并逐漸喪失了區分度。

為此,賈佳亞團隊聯合MIT、清華、劍橋等多家知名高校,與國內頭部標注公司合作,標注了一個針對復雜問題推理過程的評測數據集MR-Ben。

圖片

MR-Ben基于GSM8K、MMLU、LogiQA、MHPP等大模型預訓練必測數據集的題目,進行了“閱卷式”的范式改造,生成的新數據集更難、更有區分度,更能真實地反映模型推理能力!

不用重新找題出卷,也不用把題目變形來測試模型的魯棒性,MR-Ben直接讓模型從“答題者”變成“閱卷者”,對數據集中已有的答題過程進行評判,通過讓大模型當老師來測試它對知識點的掌握情況!

具體來說,賈佳亞團隊針對市面上主流的評測數據集GSM8K、MMLU、LogiQA、MHPP等數據集進行整理,并分成了數理化生、代碼、邏輯、醫藥等多個類別,同時區分了不同的難度等級。

針對每個類別、收集到的每個問題,團隊精心收集了對應的分步解題過程,并經由專業的碩博標注者進行培訓和標注。

標注過程中,解題過程是否正確、出錯的位置、出錯的原因都會被細致指出,比對大模型的閱卷結果和人類專家的閱卷結果,就能知道模型對知識點的掌握情況。

圖片

從評測方式來看,MR-Ben所提出的方法,需要模型對于解題過程的每一個步驟的前提、假設、邏輯都進行細致分析,并對推理過程進行預演來判斷當前步驟是否能導向正確答案。

這種“閱卷”式的評測方式從難度上遠超于僅答題的評測方式,但可有效避免模型背題所導致的分數虛高問題。而只會背題的學生很難成為一名合格的閱卷老師。

GPT4-Turbo表現最佳

賈佳亞團隊針對目前幾款知名的大模型進行了評測,部分模型有多個版本參與測試。

圖片

可以看到,閉源模型中,GPT4-Turbo的表現最佳(雖然在“閱卷”時未能發現計算錯誤),在絕大部分的科目里,有demo(k=1)和無demo(k=0)的設置下都領先于其他模型。

智譜團隊的GLM模型表現在榜單中位列第二,超過了Claude最新的3.5-Sonnet。

不過不同模型間的區分度較大,最強的GPT4-Turbo在MR-Ben數據集上獲得的成績也不到50分,可以看出其表現仍未飽和。

圖片

另外,一些表現較強的開源模型,效果已經趕上了部分商用模型。

圖片

除此之外,MR-Ben團隊在工作過程中還發現了一些有意思的現象,例如:

  • 低資源場景下,小模型也有不少亮點,MR-Ben評測中Phi-3-mini在一眾小模型里脫穎而出,甚至高于或持平幾百億參數的大模型,展現出了微調數據的重要性。
  • MR-Ben場景包含復雜的邏輯解析和逐步推斷,Few-shot模式下過長的上下文反而會使得模型困惑,造成水平下降的后果。
  • MR-Ben評測了不少生成-反思-重生成的消融實驗,查看不同提示策略的差異,發現對低水平的模型沒有效果,對高水平的模型如GPT4-Turbo效果也不明顯。反而對中間水平的模型因為總把錯的改對,對的改錯,效果反而略有提升。
  • 將MR-Ben評測的科目粗略劃分成知識型、邏輯型、計算型、算法型后,不同的模型在不同的推理類型上各有優劣。

賈佳亞團隊已在github上傳一鍵評測的方式,測試一次消耗的token量大約為12M,開發者可以在自家的模型上評測并提交,MR-Ben團隊會及時更新相應的leaderboard。

論文地址:https://arxiv.org/abs/2406.13975
項目主頁:https://randolph-zeng.github.io/Mr-Ben.github.io/
Github Repo:https://github.com/dvlab-research/Mr-Ben

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-07-08 08:38:00

模型推理

2023-07-05 09:57:11

2023-10-04 10:38:38

模型方法

2023-08-09 17:38:47

模型AI

2023-10-08 13:11:00

訓練數據

2024-04-15 12:54:39

2025-05-26 08:33:00

2024-04-15 12:28:00

AI模型

2023-08-24 13:59:57

模型數據

2023-05-15 15:38:59

AI模型

2023-10-09 12:36:08

人工智能數據

2023-10-14 17:24:49

2023-07-09 14:50:48

模型調優

2024-04-01 08:00:00

AI模型

2023-10-14 13:09:53

谷歌模型

2023-12-26 08:17:23

微軟GPT-4

2023-06-05 12:32:48

模型論文

2024-06-12 11:50:23

2024-05-09 08:33:33

2023-07-23 18:55:20

ChatGPTGPT-4
點贊
收藏

51CTO技術棧公眾號

国模精品视频一区二区| 精品日韩视频在线观看| 亚洲综合大片69999| 强乱中文字幕av一区乱码| 最新精品在线| 一本一道久久a久久精品综合蜜臀| 婷婷久久青草热一区二区| 国产一区二区网站| 国产日韩视频| 久久久国产精品视频| 精品国产一区在线| 成人亚洲网站| 欧美日韩国产一中文字不卡| 久久电影网电视剧免费观看| 亚洲性线免费观看视频成熟| 久久久无码人妻精品无码| 国产不卡网站| 一区二区三区在线观看欧美| 久久综合久久综合这里只有精品| 91丨九色丨蝌蚪丨对白| 99riav1国产精品视频| 最近2019年中文视频免费在线观看| 国产调教打屁股xxxx网站| 国产精品高清乱码在线观看| 亚洲激情一二三区| 亚洲精品不卡| 欧美日韩国产中文字幕在线| 国产盗摄视频一区二区三区| 国产精品永久免费在线| 亚洲另类欧美日韩| 欧美.www| 中文字幕av一区二区三区谷原希美 | 国产91绿帽单男绿奴| 美女在线视频一区| 国产福利精品av综合导导航| 黄色一级片免费看| 欧美日本一区| 久久国产精品久久久久久久久久 | 日本免费久久高清视频| 国产精品日日夜夜| 欧美激情第8页| 久久在线免费视频| fc2ppv在线播放| 久久精品99久久无色码中文字幕| 亚洲欧洲国产一区| 在线免费观看黄色小视频| 精品精品精品| 亚洲国产成人精品电影| 熟妇高潮一区二区| 9l视频自拍九色9l视频成人| 欧美大胆一级视频| 国产精久久久久| 911亚洲精品| 欧美成人高清电影在线| 黑人无套内谢中国美女| 日韩精品一区二区三区中文在线| 欧美一级精品大片| 日本55丰满熟妇厨房伦| 麻豆国产一区| 精品欧美黑人一区二区三区| 中文字幕99页| 久久香蕉网站| 亚洲乱码国产乱码精品精天堂| 青青草视频播放| 一本久久青青| 中文综合在线观看| www.97视频| 欧美激情麻豆| 国产69精品久久久久99| 中文字幕亚洲精品一区| 久久夜色精品| 国产欧美久久一区二区| a天堂在线观看视频| 成人自拍视频在线| 久久亚洲高清| 欧美激情视频在线播放| 亚洲日本va在线观看| 999一区二区三区| 性感女国产在线| 欧美在线一二三| 在线观看免费av网址| 精品国产亚洲一区二区在线观看 | 538在线视频| 欧美日韩激情视频8区| 天天碰免费视频| 欧美久久一区二区三区| 日韩av网站导航| 一级二级黄色片| 欧美三级网页| 国产999视频| 国产强伦人妻毛片| 91视频免费看| 中文字幕欧美日韩一区二区三区| 黄页在线观看免费| 色老汉一区二区三区| 国内av一区二区| 免费观看成人www动漫视频| 一区二区三区视频免费| 久久久久久久久艹| 日韩电影免费在线看| αv一区二区三区| 国产污视频在线| 一区二区三区日本| 国产wwwxx| 2020最新国产精品| 最近2019中文字幕在线高清| 日本五十路女优| 久久精品国产久精国产爱| 国产精品对白刺激久久久| 国产精品二线| 天天综合色天天综合色h| 久久久久久久久久一区二区| 亚洲综合福利| 久久人人爽国产| 97人妻人人澡人人爽人人精品| 97久久精品人人爽人人爽蜜臀| 亚洲一区二区在线看| 热三久草你在线| 欧美一区二区三区视频免费| 制服 丝袜 综合 日韩 欧美| 国产综合网站| 成人黄色片网站| 噜噜噜噜噜在线视频| 亚洲国产精品久久一线不卡| 香蕉视频999| 欧美丝袜激情| 国产激情久久久久| 四虎影视在线播放| 亚洲综合在线视频| 图片区乱熟图片区亚洲| 成人一区不卡| 国产精品wwww| 你懂的免费在线观看视频网站| 性做久久久久久| 久草免费资源站| 欧美人与禽猛交乱配视频| 成人写真福利网| 国产一二区在线| 欧美高清hd18日本| 精品视频第一页| 男人的天堂亚洲一区| 欧美日韩无遮挡| 美女福利一区二区三区| 日韩av影视在线| 日本va欧美va国产激情| 99麻豆久久久国产精品免费| 欧美午夜性视频| 老司机在线精品视频| 97免费在线视频| 三级在线播放| 91福利区一区二区三区| 亚洲一区二区自偷自拍| 日本aⅴ免费视频一区二区三区 | 成人福利在线| 在线观看成人免费视频| 国产调教在线观看| 韩国三级中文字幕hd久久精品| 一区二区日本伦理| 99er精品视频| 久久av在线播放| 亚洲精品久久久蜜桃动漫 | 成人av激情人伦小说| 久久久视频免费观看| 三级网站免费观看| 欧美日韩一区二区三区| 人妻av无码一区二区三区| 久色成人在线| 中文字幕久久综合| eeuss鲁片一区二区三区| 国内成人精品一区| 男女视频在线观看免费| 欧美又粗又大又爽| 国产精品99久久久久久成人| 国产福利一区二区三区视频| 内射国产内射夫妻免费频道| 国产日产精品_国产精品毛片| 国产精品久久久久久久av电影| 麻豆系列在线观看| 精品成人免费观看| 国产乱码77777777| 亚洲欧美日韩一区| 影音先锋人妻啪啪av资源网站| 麻豆精品91| 日韩视频在线观看视频| 久久97久久97精品免视看秋霞| 国产成人精品日本亚洲专区61 | 91成人福利在线| av在线资源网| 亚洲成**性毛茸茸| 这里只有精品999| 亚洲国产视频一区| av电影在线不卡| 国产成人av网站| 日韩亚洲在线视频| 欧美日韩国产欧| 色阁综合av| 成人h动漫精品一区二区器材| 国产精品第一视频| 成人福利电影| 中文字幕亚洲欧美日韩在线不卡| 丰满肉肉bbwwbbww| 欧美美女网站色| 精品美女久久久久| 一区二区三区日韩欧美| 五月天婷婷丁香网| 99精品偷自拍| 国产成人精品综合久久久久99| 日韩精品亚洲专区| 国产乱子伦精品视频| 成人a'v在线播放| 久久精品综合一区| 九色精品蝌蚪| 国产日韩综合一区二区性色av| 国产高清自产拍av在线| 久久天堂电影网| 8888四色奇米在线观看| 日韩精品高清在线| 丰满熟妇乱又伦| 91精品国产手机| 亚洲一区中文字幕永久在线| 欧美性精品220| 日韩欧美a级片| 亚洲无人区一区| 丰满少妇被猛烈进入一区二区| 久久久精品日韩欧美| 亚洲婷婷在线观看| 国产成人精品一区二区三区四区 | 中文字幕在线观看视频www| 青青草成人在线观看| 37pao成人国产永久免费视频| 雨宫琴音一区二区在线| 成年在线观看视频| 久久精品免费一区二区三区| 亚洲国产欧洲综合997久久| 亚洲最好看的视频| 久久精品一区二区三区不卡免费视频| 电影一区二区在线观看| 亚洲综合色av| 日韩一区二区三区精品| 亚洲a成v人在线观看| 亚洲精品第一| 91久久精品国产91久久性色| 久久精品资源| 国产日韩在线亚洲字幕中文| 成人在线免费| 国产精自产拍久久久久久蜜| 日韩欧美精品电影| 国产精品人人做人人爽| 久久免费影院| 91手机视频在线观看| 精品一区视频| 99久久综合狠狠综合久久止| a看欧美黄色女同性恋| 精品久久精品久久| 日韩欧美黄色| 日韩一本精品| 国产精品精品| 六月婷婷激情综合| 亚洲久久一区| 国语对白做受xxxxx在线中国| 久久综合影视| 午夜国产福利在线观看| 国产乱国产乱300精品| av影片在线播放| 26uuu亚洲综合色欧美| 人妻少妇无码精品视频区| 国产欧美精品区一区二区三区| 蜜桃av免费在线观看| 亚洲欧美日韩久久| 久久精品国产亚洲av麻豆色欲| 精品久久久久久国产91| 日日骚av一区二区| 欧美福利视频一区| 人妻精品无码一区二区| 亚洲区免费影片| 好操啊在线观看免费视频| 欧美激情18p| 日韩不卡免费高清视频| 91日韩在线播放| 亚洲国产欧美国产第一区| 久久riav| 我不卡伦不卡影院| 日韩欧美国产综合在线| 美女视频黄免费的久久 | 午夜久久久影院| 久久久精品三级| 国内外成人在线视频| 亚洲精品乱码久久久久久蜜桃图片| 久久久久久久久久久黄色| 人妻久久一区二区| 粉嫩av一区二区三区免费野| 91超薄丝袜肉丝一区二区| 亚洲电影免费观看高清| 99中文字幕一区| 性色av一区二区咪爱| 四虎国产精品免费久久5151| 国内精品二区| 欧美一区精品| 欧洲熟妇精品视频| 岛国一区二区在线观看| a资源在线观看| 午夜精品久久久久久久久| 一区二区久久精品66国产精品| 亚洲精品mp4| v片在线观看| 久久99精品久久久久久青青91| 亚洲成人av观看| 精品毛片久久久久久| 自拍偷拍欧美专区| 色乱码一区二区三区在线| 久久综合成人精品亚洲另类欧美 | 雨宫琴音一区二区三区| 毛片av免费在线观看| av激情综合网| 久久久久人妻一区精品色欧美| 欧美日韩综合色| 极品美乳网红视频免费在线观看| 欧美激情伊人电影| 国产日韩一区二区三免费高清| 日韩电影天堂视频一区二区| 亚洲美女色禁图| 成人啪啪18免费游戏链接| 亚洲婷婷国产精品电影人久久| 特级西西444www大胆免费看| 亚洲精品国产欧美| jizz一区二区三区| 高清日韩一区| 午夜日韩在线| 免费欧美一级片| 自拍偷在线精品自拍偷无码专区| 欧美成人一区二区视频| 亚洲奶大毛多的老太婆| 啊啊啊久久久| 精品国产乱码一区二区三区四区| 黑人一区二区三区四区五区| 在线免费看v片| 亚洲天堂2016| 国产麻豆精品一区| 久久久精品网站| 国产免费区一区二区三视频免费| 在线精品亚洲一区二区| 美腿丝袜在线亚洲一区| 91大神福利视频| 在线不卡中文字幕播放| 蜜芽在线免费观看| 91网站在线免费观看| 午夜精品亚洲| 性囗交免费视频观看| 天天射综合影视| 久久精品国产亚洲a∨麻豆| 亚洲曰韩产成在线| 宅男噜噜噜66国产免费观看| 91玉足脚交白嫩脚丫在线播放| 欧美一区二区三区四| 精品亚洲国产视频| 国产成人免费9x9x人网站视频| 偷拍视频一区二区| 久久99精品久久久久久动态图| 91香蕉一区二区三区在线观看| 日韩美女视频一区二区在线观看| 啦啦啦中文在线观看日本| 国产伦精品一区二区三区在线 | 白嫩情侣偷拍呻吟刺激| 精品久久久久久中文字幕| 国产又爽又黄网站亚洲视频123| 日韩av免费在线播放| 日韩欧美高清| 亚洲国产欧美日韩在线| 午夜欧美在线一二页| 黄色在线小视频| 国产综合久久久久久| 国产精品a级| 91精品人妻一区二区| 欧美日韩你懂的| 999av小视频在线| 欧美一区2区三区4区公司二百| 韩国一区二区三区| 日韩av片在线播放| 在线观看精品自拍私拍| 免费一级欧美在线大片| 欧美日韩亚洲第一| 18欧美乱大交hd1984| 好男人在线视频www| 国产精品白嫩美女在线观看| 欧美一区影院| 国产老熟女伦老熟妇露脸| 欧美色成人综合| bl视频在线免费观看| 日韩av免费电影| 福利一区二区在线观看| 夜夜爽妓女8888视频免费观看| 欧美国产日韩在线| 欧美午夜精彩| 国产日韩视频一区| 欧美日韩综合不卡| 极品美鲍一区| 超碰超碰超碰超碰超碰| 久久精品免费在线观看| 超碰免费在线97| 国产精品永久免费观看|