精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Gemini Pro還不如GPT-3.5,CMU深入對比研究:保證公平透明可重復

人工智能
目前Gemini最高版本Ultra版尚未發布,到時CMU團隊也有意繼續這項研究。你覺得Gemini Ultra能達到GPT-4水平么?

谷歌Gemini實力到底如何?卡耐基梅隆大學來了場專業客觀第三方比較。

為保證公平,所有模型使用相同的提示和生成參數,并且提供可重復的代碼和完全透明的結果

圖片

不會像谷歌官方發布會那樣,用CoT@32對比5-shot了

一句話結果:Gemini Pro版本接近但略遜于GPT-3.5 Turbo,GPT-4還是遙遙領先。

圖片

在深入分析中還發現Gemini一些奇怪特性,比如選擇題喜歡選D……

圖片

不少研究者表示,太卷了,Gemini剛發布沒幾天就搞出這么詳細的測試。

圖片

六大任務深入測試

這項測試具體比較了6大任務,分別選用相應的數據集:

  • 知識問答:MMLU
  • 推理:BIG-Bench Hard
  • 數學:GSM8k、SVAMP、ASDIV、MAWPS
  • 代碼:HumanEval、ODEX
  • 翻譯:FLORES
  • 上網沖浪:WebArena

知識問答:喜歡選D

從結果可以看出,使用思維鏈提示在這類任務上不一定能帶來提升。

圖片

MMLU數據集里都是多選題,對結果進一步分析還發現奇怪現象:Gemini更喜歡選D。

GPT系列在4個選項上的分布就要平衡很多,團隊提出這可能是Gemini沒針對多選題做大量指令微調造成的

圖片

另外Gemini的安全過濾比較嚴重,涉及道德問題只回答了85%,到了人類性行為相關問題只回答了28%。

圖片

Gemini Pro表現超過GPT-3.5的兩個科目是安全研究和高中微觀經濟學,但差距也不大,團隊表示分析不出來什么特別的。

圖片

推理:長問題不擅長

圖片

Gemini Pro在更長、更復雜的問題上表現不佳,而GPT系列對此更穩健。

GPT-4 Turbo尤其如此,即使在較長的問題上也幾乎沒有性能下降,表明它具有理解復雜問題的強大能力。

圖片

如果按問題類型來分析,Gemini特別不擅長“tracking_shuffled_objects”這類問題,也就人們交換物品,最后讓AI判斷誰擁有哪些物品。

圖片

Gemini比較擅長的任務是,需要世界知識的體育運動理解、操作符號堆棧、按字母順序排序單詞,解析表格。

圖片

數學:復雜任務反超

圖片

這一次問題本身太長Gemini Pro和GPT-3.5表現就一起下降,只有GPT-4還能保持一貫水準。

圖片

但使用的思維鏈提示長度最長時,Gemini反超GPT-3.5。

圖片

代碼:擅長matplotlib

對于代碼問題,Gemini在參考答案長的問題上表現很差。

圖片

按調用的庫來分類,GPT系列在大多數類型更強,但matplotlib就完全不行。

圖片

翻譯:只要回答了,質量就很高

翻譯任務上,有12種類型Gemini拒絕回答,但是只要回答了的翻譯質量都很高,整體表現超過GPT-4。

圖片

Gemini拒絕翻譯的類型主要涉及拉丁語、阿拉伯語。

圖片

網絡導航:擅長跨站點沖浪

WebArena給AI模擬了一個互聯網環境,包括電子商務、社交論壇、GitLab協作開發、內容管理系統和在線地圖等,需要AI查找信息或跨站點完成任務。

Gemini在整體表現不如GPT-3.5 Turbo,但在跨多個站點的任務中表現稍好。

圖片

網友:但是它免費啊

最后,CMU副教授Graham Neubig承認了這項研究的一些局限性。

  • 基于API的模型行為可能隨時變化
  • 只嘗試了有限數量的提示,對不同模型來說適用的提示詞可能不一樣
  • 無法控制測試集是否泄露

圖片

谷歌大模型推理團隊負責人周登勇指出,對于推理任務把Gemini的溫度設置為0可以提高5-10個百分點。

圖片

這項測試中除了Gemini與GPT系列,還搭上了最近很受關注的開源MoE模型Mixtral。

不過強化學習專家Noam Brown認為可以忽略其中Mixtral的結果,因為用的是第三方API而非官方實現。

圖片

圖片

Mistral AI創始人也來給團隊提供了官方版調用權限,認為能得到一個更好的結果。

圖片

總得來,雖然Gemini Pro還是不如GPT-3.5,但是它勝在每分鐘調用不超過60次就免費。

所以還是有不少個人開發者已經轉換了陣營。

圖片

目前Gemini最高版本Ultra版尚未發布,到時CMU團隊也有意繼續這項研究。

你覺得Gemini Ultra能達到GPT-4水平么?

論文:https://arxiv.org/abs/2312.11444。

參考鏈接:
[1]https://twitter.com/gneubig/status/1737108977954251216。

責任編輯:姜華 來源: 量子位
相關推薦

2023-12-20 15:32:02

模型數據

2023-12-24 13:56:37

2023-04-28 09:07:28

2023-09-25 09:58:25

AI框架

2024-02-05 09:00:00

2023-08-23 08:54:59

OpenAIGPT-3.5

2023-08-06 08:06:30

OpenAIChatGPTGPT-4

2023-09-06 16:44:03

2023-05-05 09:42:12

2023-12-14 13:04:00

訓練數據

2024-01-02 14:07:00

2023-10-31 15:26:02

阿里云通義千問

2024-01-26 08:36:07

OpenAIGPT-4?人工智能

2023-08-23 12:17:26

OpenAIChatGPT

2024-05-29 11:36:44

2023-06-21 13:37:41

模型研究

2023-07-10 15:22:29

OpenAIGPT-3.5

2023-08-23 12:02:49

數據OpenAIGPT-3.5

2024-07-19 09:26:12

2024-04-23 13:10:41

數據訓練
點贊
收藏

51CTO技術棧公眾號

五月婷婷亚洲综合| 无码人妻精品一区二区三| av在线天堂播放| 久久精品噜噜噜成人av农村| 久久视频在线观看免费| 色综合久久久无码中文字幕波多| 久久大胆人体| 国产情人综合久久777777| 成人av色在线观看| 日本中文字幕免费观看| 国内亚洲精品| 欧美成人女星排名| 黄色一级大片在线观看| av免费网站在线| 久久久久久久久免费| 91系列在线播放| 五月天婷婷导航| 欧美日韩国产成人精品| 国产一区二区三区在线看| 色男人天堂av| h1515四虎成人| 亚洲午夜电影网| 亚洲第一精品区| 日本人妖在线| 国产999精品久久| 国产欧美一区二区白浆黑人| 天堂网中文字幕| 国产一区二区三区四区老人| 精品久久久91| 高清国产在线观看| 久久免费视频66| 欧美一级夜夜爽| 国产三级三级看三级| 中文在线аv在线| 亚洲高清免费观看| 中文字幕乱码免费| 欧美黄色激情| 国产精品午夜在线| 欧美一区1区三区3区公司| 日本xxxx人| 国产a精品视频| 97se视频在线观看| 国产视频在线免费观看| 六月丁香综合在线视频| 国产精品成人久久久久| 国产精品一区二区三区四| 激情视频一区二区三区| 久久99国产精品久久久久久久久| 欧美自拍偷拍网| 精品视频国产| 一本色道久久88综合日韩精品| 国产精品无码一区二区三区免费| 国产乱论精品| 亚洲福利视频网站| 麻豆精品国产传媒av| 91综合久久爱com| 日韩精品一区在线观看| 中文字幕亚洲日本| 一区二区视频| 日韩精品一区二区在线观看| av地址在线观看| 亚洲精品不卡在线观看| 精品国产一区二区在线观看| 高清中文字幕mv的电影| 九九热播视频在线精品6| 亚洲电影中文字幕| 亚洲天堂视频一区| 久久97视频| 色婷婷av一区二区三区在线观看| 亚洲欧美卡通动漫| 五月婷婷亚洲| 欧美精品久久久久久久久久 | 久久一夜天堂av一区二区三区| 精品国产一区二区三区久久久久久| 欧美视频xxx| 91亚洲午夜精品久久久久久| 欧美日韩精品一区| 人人干在线视频| 一区二区三区四区中文字幕| 成品人视频ww入口| 综合毛片免费视频| 欧美三级韩国三级日本一级| 91看片破解版| 国产精品黄网站| 亚洲人成在线观看网站高清| 福利视频第一页| 国产精品v亚洲精品v日韩精品 | 国产福利不卡视频| 久久国产精品99久久久久久丝袜| 黄色网址在线播放| 综合久久国产九一剧情麻豆| 日本黄大片在线观看| 中文字幕乱码在线播放| 欧美日韩精品欧美日韩精品| 性折磨bdsm欧美激情另类| 九九在线精品| 久久综合伊人77777蜜臀| 日韩欧美激情视频| 精品一区二区三区视频| 精品乱码一区| 男人天堂手机在线| 天天色图综合网| gogogo高清免费观看在线视频| avtt综合网| 亚洲精品在线不卡| 久草国产在线视频| 男人操女人的视频在线观看欧美 | 91丝袜国产在线播放| 久久这里有精品视频| 国产一级片久久| 三级成人在线视频| 岛国视频一区免费观看| 岛国大片在线观看| 亚洲福利视频一区二区| www午夜视频| 色综合www| 欧美精品中文字幕一区| 精人妻无码一区二区三区| 国产成人午夜视频| 亚洲国产精品日韩| 涩涩视频在线播放| 日韩欧美亚洲另类制服综合在线| 久久久视频6r| av不卡在线看| 97人人香蕉| 无遮挡的视频在线观看| 色综合色狠狠综合色| 最新中文字幕日本| 66久久国产| 国产精品旅馆在线| 欧美日韩激情视频一区二区三区| 亚洲国产精品一区二区www在线| av免费一区二区| 欧美中文一区二区| 欧美一区在线直播| 无码国产精品高潮久久99| 亚洲最新视频在线观看| 久久成年人网站| 手机在线电影一区| 国产精品无码专区在线观看| 国内精品一区视频| 欧美性猛交xxxx免费看久久久| av电影在线播放| 亚洲午夜91| 高清视频一区二区三区| 最近中文字幕免费mv2018在线| 欧美美女黄视频| 精品女人久久久| 久久精品国产成人一区二区三区| 偷拍视频一区二区| 欧美日韩尤物久久| 在线观看国产欧美| 中文字幕+乱码+中文字幕明步| 国产丝袜在线精品| 亚洲黄色a v| 日韩精品四区| 成人久久精品视频| caopo在线| 精品乱人伦小说| 日韩精品一区二区在线播放 | 欧美bbbbb性bbbbb视频| 国产日韩欧美一区在线| 国产欧美日韩伦理| 国产拍在线视频| 亚洲精品视频久久| 精品无码一区二区三区的天堂| 国产精品女主播av| 999久久久精品视频| 欧美在线网址| 国产福利久久精品| av中文字幕电影在线看| 精品视频在线播放| 小泽玛利亚一区二区三区视频| 中文字幕欧美三区| 在线免费黄色小视频| 在线欧美亚洲| 午夜精品一区二区三区四区| 亚洲欧美综合久久久久久v动漫| 美日韩丰满少妇在线观看| 高清国产mv在线观看| 欧美日韩国产在线| jizz18女人高潮| 国产精品一区二区视频| 人妻少妇精品无码专区二区| 蜜臀91精品国产高清在线观看| 国产精品偷伦免费视频观看的| 国产超级va在线视频| 亚洲第一页自拍| 在线观看色网站| 亚洲第一福利一区| 欧美激情视频二区| 大陆成人av片| 亚洲精品视频导航| 欧美日本在线| 日韩电影天堂视频一区二区| 日韩第一区第二区| 国产成人综合一区二区三区| 超碰在线网址| 亚洲男人天堂古典| 国产黄色片网站| 91国产福利在线| 538任你躁在线精品视频网站| 91蜜桃免费观看视频| aaa一级黄色片| 午夜亚洲性色视频| 久久久久福利视频| 精品国产精品国产偷麻豆| 国产精品xxxx| 人人玩人人添人人澡欧美| 97久久国产精品| www视频在线免费观看| 亚洲精品日韩在线| 午夜精品久久久久久久99| 欧美手机在线视频| 亚洲一区欧美在线| 亚洲美女一区二区三区| 熟女少妇内射日韩亚洲| av电影在线观看一区| 国内精品国产三级国产aⅴ久| 久久精品午夜| 毛片在线播放视频| 欧美激情无毛| 在线观看一区二区三区三州| 国产欧美一区二区精品久久久| 国产欧美日本在线| 美女精品久久| 国产日韩av在线播放| 免费福利视频一区二区三区| 午夜精品福利视频| 青青草原av在线| 欧美xxxx18国产| 欧美18一19xxx性| 中文字幕亚洲第一| 国产黄在线观看| 亚洲色图综合网| 青青青草网站免费视频在线观看| 亚洲成人中文字幕| www.看毛片| 日韩欧美激情一区| aaa一区二区| 欧美一区二区三区成人| 国产视频在线观看视频| 91精品国产综合久久精品| 亚洲特级黄色片| 欧美伦理视频网站| 国产精品久久久久久久久毛片| 欧美日韩在线一区二区| 自拍偷拍福利视频| 欧美日韩视频一区二区| a片在线免费观看| 欧美日韩中字一区| 91tv国产成人福利| 欧美精品丝袜中出| 国产内射老熟女aaaa∵| 这里只有精品99re| 99热精品在线播放| 精品国产三级电影在线观看| 亚洲精品一级片| 亚洲加勒比久久88色综合| 五月婷婷深深爱| 亚洲精品自产拍| 国产精品久久一区二区三区不卡| 一区二区三区无码高清视频| 9191在线| 欧美精品免费在线| 蜜桃av在线播放| 国产成人av在线播放| 成人自拍视频网| 91超碰rencao97精品| 国产精品久久久网站| 免费国产一区二区| 日本久久综合| 水蜜桃在线免费观看| 一区二区亚洲精品| 国产麻花豆剧传媒精品mv在线| 日韩国产在线观看| 天天操夜夜操很很操| 99久久国产综合精品女不卡| 免费观看av网站| 亚洲欧洲日本在线| 国产一级生活片| 91久久人澡人人添人人爽欧美| 怡春院在线视频| 精品久久久久久亚洲综合网| 日本成人一区| 久久伊人色综合| 黄色污网站在线观看| 国产精品久久一区主播| 日韩精品视频中文字幕| 欧美精品一区二区视频| 91麻豆精品国产91久久久平台| 欧美国产视频一区| 日韩av在线播放中文字幕| 亚洲精品无码久久久久久久| 91在线porny国产在线看| 中文字幕求饶的少妇| 亚洲v中文字幕| 亚洲天堂自拍偷拍| 亚洲国产精品久久久久秋霞不卡| av电影在线观看网址| 久久久久亚洲精品国产| 电影一区二区| 精品国产乱码久久久久| 天天天综合网| 少妇人妻互换不带套| 国产成人自拍网| www..com.cn蕾丝视频在线观看免费版 | 色网站国产精品| 国产欧美日韩综合精品一区二区三区 | 亚洲最快最全在线视频| 欧美成人一区二区视频| 亚洲国产精品999| 欧美a在线看| 国产精品久久999| 日本欧美韩国国产| 国产乱子伦精品视频| 久久精品国产一区二区三| 一区二区三区免费在线观看视频| 一区二区三区免费看视频| 中文字幕 国产| 亚洲欧美制服中文字幕| 成人三级高清视频在线看| 亚洲精品欧美日韩专区| 成人在线免费观看网站| 少妇性饥渴无码a区免费| 成人美女视频在线观看18| 伊人在线视频观看| 欧美日韩亚洲国产综合| 狠狠色伊人亚洲综合网站l| 91精品国产一区| 开心激情综合| 成人精品视频在线播放| 国产精品综合一区二区三区| 精品视频第一页| 欧美无人高清视频在线观看| 激情小视频在线观看| 17婷婷久久www| 农村少妇一区二区三区四区五区| www.激情网| 国产精品一区2区| 日韩女优一区二区| 日韩欧美一级二级| 欧美韩日亚洲| 国产精品久久7| 欧美日韩亚洲一区三区| 人妻精品久久久久中文字幕69| 亚洲少妇最新在线视频| 国产精品特级毛片一区二区三区| 久久精品国产精品| 成人51免费| 日韩精品手机在线观看| 国产精品一区专区| 久久久久国产精品夜夜夜夜夜| 日韩欧美国产三级电影视频| 国产高清在线a视频大全 | 国产a久久精品一区二区三区| 日韩av黄色网址| 久久婷婷色综合| 欧美激情一区二区三区免费观看| 一区二区三区国产在线观看| 欧美成人三级| 成人手机在线播放| 成人黄页在线观看| 影音先锋在线国产| 国产亚洲精品91在线| 亚洲国产一区二区久久| 日韩中文字幕亚洲精品欧美| 成人免费毛片高清视频| 波多野结衣视频网站| 色老头一区二区三区| 久久天堂久久| 国产欧美日韩网站| 国产亚洲欧洲997久久综合| 在线免费av片| 欧美日韩爱爱视频| 亚洲欧洲av| 亚洲高清免费在线观看| 亚洲精品少妇30p| 午夜视频www| 国产剧情久久久久久| 欧美私人啪啪vps| 中文字幕免费高清| 欧美一区二区黄| 欧美少妇精品| 伊人久久大香线蕉精品| 丁香婷婷综合色啪| 久久久久久无码午夜精品直播| 日韩一区av在线| 女仆av观看一区| 亚洲va综合va国产va中文| 亚洲18色成人| 天堂地址在线www| 国外成人在线视频网站| 免费观看一级特黄欧美大片| 久久精品一级片| 中文字幕亚洲天堂| 风间由美一区二区av101| 一级在线免费视频| 一级日本不卡的影视| h视频在线免费|