精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌PaLM 2弱爆:LLM大排名屈居第六,準中文倒數第二|UC伯克利排行榜新鮮榜出爐

人工智能 新聞
這次「LLM排位賽」,谷歌PaLM 2也被拉上溜了溜。然而,實測表現卻讓人大跌眼鏡。

由UC伯克利主導的「LLM排位賽」又雙叒更新了!

這次,最新榜單又迎來新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

圖片

值得一提的是,即便是平價版的Claude模型,Elo得分也趕超了ChatGPT。

但有一位選手的表現,卻出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

圖片

4月24日-5月22日數據

PaLM 2(Bard)排位大比拼

谷歌PaLM 2發布以來,根據論文的測試,其部分性能已經超過了GPT-4。

圖片

而它的具體表現如何?

來自LMSYS Org的研究人員通過Google Cloud Vertex AI的API接口,將PaLM 2添加到Chatbot Arena,并以代碼名為chat-bison@001進行聊天調優。

在過去的兩周,PaLM 2已經與16個聊天機器人,進行了大約1800次的匿名比拼,目前排名第六。

從排行榜中可以看出,PaLM 2的排名高于所有其他開源聊天機器人,除了Vicuna-13B。

Vicuna-13B的ELO評分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等級而言,這幾乎是個平局。

另外,研究者從PaLM 2的競技場數據中注意到了以下有趣的結果。

PaLM 2與前4名玩家對戰表現較好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它與Vicuna的比賽中也贏了53%的比賽。

然而,PaLM 2與較弱的模型對弈時,表現較差。

在PaLM 2參加的所有比賽中,有21.6%的比賽輸給了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作為參考,GPT-3.5-turbo只有12.8%的比賽輸給了這些聊天機器人。

圖片

三大缺陷

簡而言之,研究人員發現,與評估過的其他模型相比,Google Cloud Vertex API現有的PaLM 2存在以下缺陷:

- PaLM 2受到更嚴格的監管,影響了它回答一些問題的能力

- 多語言能力有限

- 推理能力不如人意

更嚴格的監管

與用戶的對話中,PaLM 2遇到不確定或不愿回答的問題時,與其他模型相比,更有可能放棄回答。

粗略估計,在所有的配對戰中,PaLM 2因為拒絕回答問題而輸掉了20.9%比賽。尤其是,有30.8%比賽輸給了不是Top 4的模型。

這也能夠解釋,為什么PaLM 2經常輸給排行榜上較弱的聊天機器人。

同時,也反映出聊天機器人競技場方法論的一個缺陷,因為隨意用戶更有可能因為微妙的不準確回答,而懲罰棄權行為。

下面,研究者提供幾個失敗的案例,說明PaLM 2如何輸給弱聊天機器人。

另外,研究者注意到,有時很難明確規定LLM監管的邊界。在提供的PaLM 2版本中,看到了一些不受歡迎的趨勢:

- PaLM 2拒絕許多角色扮演問題,即使用戶要求它模擬Linux終端或編程語言解釋器。

- 有時PaLM 2拒絕回答簡單且無爭議的事實問題。

下面列舉了幾個PaLM 2拒絕回答問題的例子:

「人類真的登月了嗎?」

圖片

「為什么天空是藍的?」

圖片

多語言能力有限

PaLM 2傾向于不回答非英語問題,包括用漢語、西班牙語和希伯來語等流行語言編寫的問題。

研究者稱,無法使用當前的PaLM 2版本重現「PaLM 2技術報告」中演示的幾個多語言示例。

此外,UC伯克利研究人員還分別計算了僅考慮英語和非英語對話時所有模型的Elo評分。

結果證實,在非英語排行榜上,PaLM 2排名第16。

圖片

推理能力很弱

研究人員稱,并沒有發現PaLM 2有著強大的推理能力。

一方面,它似乎可以檢測問題是否是「純文本」的,并且傾向于拒絕回答不是純文本的問題,例如編程語言、調試和代碼解釋中的問題。

另一方面,與其他聊天機器人相比,PaLM 2在一些入門級推理任務上表現不佳。

連1+2是不是等于3這么簡單問題,竟答錯了...

圖片

圖片

刪除非英語和拒絕對話后的Elo評分

研究人員刪除所有非英語對話和PaLM 2沒有提供答案的所有對話,并使用過濾后的數據計算每個模型重新排位之后——

PaLM 2躍升至第五名,不過還是沒有超越ChatGPT。

而這個排名也代表了PaLM 2在競技場中的假設上限。

圖片

參數更小的模型競爭力強

研究者觀察到幾個參數較小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名還相對靠前。

與巨量參數大型模型相比,這些較小的模型同樣表現良好。

由此,研究人員推測,高質量的預訓練,以及微調數據集比模型規模更重要。

然而,較大的模型在更復雜的推理任務,或回答更細微的問題時仍有可能表現得更好。

因此,在預訓練和微調階段管理高質量的數據集,似乎是縮小模型規模的同時,保持模型高質量的關鍵方法。

Claude-v1與Claude-instant-v1

另外,Claude-instant-v1是針對低延遲、高吞吐量用例進行優化的版本。

在排位賽中,Claude-instant-v1的水平實際上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之間的評分差距似乎小于GPT-4和GPT-3.5-turbo之間的差距。

局限性

聊天機器人排位賽主要是對基于LLM(Large Language Model)的聊天機器人進行「真實環境」的基準測試。

這意味著,用戶提供的投票數據和在投票過程中生成的提示-回答,反映的就是聊天機器人在正常的人機交互中的表現。

這可能與LLM研究文獻中的很多基準測試結果不符,后者傾向于描述如zero-shot、復雜推理等長尾能力。

因此,目前的排位賽在反映聊天機器人之間的長尾能力差異方面存在限制。

作者介紹

本次評測主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2024-05-30 14:23:00

2022-06-08 13:50:41

AI專業排行

2012-06-19 14:23:04

云計算中國

2018-03-21 09:51:29

數據庫排行榜Oracle

2020-06-12 15:26:51

網絡速度移動網絡下載

2024-02-19 13:46:04

多模態信息LWMtoken

2020-01-16 15:19:52

APP下載抖音

2020-08-13 11:55:33

編程語言JavaPython

2020-11-06 00:41:50

編程語言PythonJava

2023-10-31 15:23:16

開源

2023-11-14 07:47:42

IGN擴散模型

2022-12-14 07:28:31

2011-11-03 11:02:00

瀏覽器排行榜

2021-05-08 23:24:56

編程語言CPython

2025-06-03 08:38:00

2024-03-25 08:30:00

AI數據

2013-08-23 09:41:19

2019-09-09 14:53:29

編程語言PythonJava
點贊
收藏

51CTO技術棧公眾號

国精产品一区一区三区mba下载| 日本三级一区二区三区| 91九色鹿精品国产综合久久香蕉| 亚洲国产精品欧美一二99| 国精产品99永久一区一区| 亚洲无码精品一区二区三区| 91精品1区| 亚洲国内精品视频| 手机版av在线| 日本免费一区二区六区| 亚洲欧洲日本在线| 美乳视频一区二区| 99久久久国产精品无码免费| 亚洲欧美网站| 久久大大胆人体| wwwwww日本| 中文字幕区一区二区三| 欧美性大战xxxxx久久久| 日韩黄色片在线| 在线a人片免费观看视频| 国产精品亚洲成人| 国产精品十八以下禁看| 日产精品久久久| 国产精品hd| 久久久国产一区二区| 51调教丨国产调教视频| 欧美国产中文高清| 欧美色图在线观看| 毛片一区二区三区四区| 国产在线拍揄自揄拍视频| 椎名由奈av一区二区三区| 欧美激情第六页| 天堂在线视频观看| 国产99久久久国产精品潘金| 国产在线视频一区| 国产精品xxxxxx| 久久最新视频| 欧亚精品中文字幕| 精品免费囯产一区二区三区 | 色中色综合成人| 天堂a√在线| av电影在线观看完整版一区二区| 91精品国产一区二区三区动漫| 中文字幕 自拍偷拍| 免费视频一区| 国产成人小视频在线观看| 黄色片免费观看视频| 91久久亚洲| 98精品在线视频| 日本少妇bbwbbw精品| 欧美三级小说| 欧美激情影音先锋| 国产精品99精品| 国产日韩欧美三级| 热草久综合在线| 精品黑人一区二区三区| 日韩国产在线观看一区| 国产精品久久久久久一区二区 | 6699嫩草久久久精品影院| 亚洲线精品一区二区三区| 日本精品久久久久久久久久| 678在线观看视频| 欧美体内谢she精2性欧美| 北条麻妃在线一区| 久久精品 人人爱| 欧美精品乱码久久久久久| а 天堂 在线| 2020最新国产精品| 精品视频偷偷看在线观看| 最新中文字幕av| 91精品蜜臀一区二区三区在线| 久久天天躁狠狠躁老女人| 欧美成人黄色网| 99精品免费| 国产成人精品最新| 国产美女免费视频| 99re8在线精品视频免费播放| 久久亚洲一区二区| 乱人伦中文视频在线| 亚洲一二三四在线| 免费日韩视频在线观看| 在线观看欧美| 亚洲精品xxx| 极品蜜桃臀肥臀-x88av| 午夜久久黄色| 日韩美女视频免费看| 国产一区二区女内射| 成人精品电影在线观看| 欧美午夜欧美| 麻豆网站在线看| 精品国产91乱高清在线观看| 色悠悠久久综合网| 国产精品调教视频| 日日骚av一区| 成人精品在线看| 精品一区二区三区视频在线观看| av色综合网| av福利精品| 香蕉影视欧美成人| 日韩爱爱小视频| 欧美丝袜美腿| 粗暴蹂躏中文一区二区三区| 成人午夜视频精品一区| 国产一区美女在线| 免费成人看片网址| 三级福利片在线观看| 欧美性感一类影片在线播放| av天堂一区二区| 亚洲mv大片欧洲mv大片| 欧美亚洲视频在线观看| av中文字幕免费| 欧美韩国一区二区| 北条麻妃在线视频观看| 日本超碰一区二区| 中文字幕精品国产| 最近免费中文字幕大全免费版视频| 激情图片小说一区| 亚洲欧美日产图| 国产高清不卡| 亚洲国产精品中文| 国产一级理论片| 国产乱理伦片在线观看夜一区| 日韩福利一区二区三区| 黄色aa久久| 亚洲精品mp4| 精品无码久久久久| 国产精品99久久久久久似苏梦涵 | 国产aaaaaaaaa| 免费一区视频| 久久久久久国产精品免费免费| 在线播放免费av| 制服丝袜亚洲精品中文字幕| 国产99在线 | 亚洲| 久久久水蜜桃av免费网站| 国产日本一区二区三区| 国内高清免费在线视频| 精品少妇一区二区三区在线播放| 一区二区三区影视| 精品影院一区二区久久久| 亚洲午夜久久久影院伊人| 日韩一级二级| 正在播放国产一区| 一区二区视频播放| 国产精品久久久久久久久免费相片 | 在线免费观看不卡av| 97超碰在线免费观看| 久久久999| 色一情一乱一伦一区二区三区| 亚洲成人不卡| 中文字幕精品av| 国产精品丝袜黑色高跟鞋| 亚洲色图欧洲色图| avtt中文字幕| 国产一区二区你懂的| 欧美极品一区二区| 欧美三区四区| www.日韩视频| www.久久久久久| 午夜精品福利视频网站| 美国黄色一级毛片| 日韩国产欧美视频| 日本特级黄色大片| 日日夜夜精品视频| 97国产精品视频人人做人人爱| 手机看片福利在线观看| 91久久精品日日躁夜夜躁欧美| 99久久精品免费视频| 精品在线视频一区| www.18av.com| 久草精品在线| 国产区亚洲区欧美区| 日韩三级免费| 亚洲精品一区二三区不卡| 亚洲 小说区 图片区| 亚洲人成伊人成综合网小说| 你懂的在线观看网站| 久久一区中文字幕| 少妇熟女一区二区| 伦理一区二区| 国产专区欧美专区| 成年网站在线视频网站| 亚洲欧洲日产国产网站| 国产裸体永久免费无遮挡| 亚洲成av人影院在线观看网| 性猛交娇小69hd| 国产成人午夜电影网| 国产a级一级片| 婷婷亚洲五月| 久99久在线| 高清一区二区三区av| 国a精品视频大全| av小片在线| 亚洲国产精品人久久电影| 一区二区三区www污污污网站| 亚洲欧洲国产专区| 成人影视免费观看| 国产风韵犹存在线视精品| 99999精品视频| 午夜国产欧美理论在线播放| 日本一区二区三区在线视频 | 精品国产乱码久久久久久久 | 色视频一区二区三区| 国产精品毛片久久久| 国产精品影片在线观看| 成人免费观看在线观看| 久久偷看各类女兵18女厕嘘嘘| 四虎影院在线播放| 精品嫩草影院久久| 在线观看中文字幕码| 欧美午夜宅男影院在线观看| 免费一级肉体全黄毛片| 国产精品二三区| 国产一二三四五区| 99久久er热在这里只有精品15 | 日本一区二区动态图| 中文字幕天堂av| 国产主播一区二区三区| 午夜dv内射一区二区| 日韩午夜一区| 日韩成人手机在线| 中出一区二区| 青青草原国产免费| 欧美精品一区二区久久| 国产精品久久久久av福利动漫| 91视频成人| 国产日韩精品在线| 国产精品蜜月aⅴ在线| 国产91露脸中文字幕在线| 国产中文在线播放| 国内精品伊人久久| 国产精品探花在线| 欧美激情欧美激情| 伦理av在线| 欧美极品少妇xxxxⅹ免费视频| 黄色av电影在线播放| 久久影院免费观看| 久草免费在线| 不卡av电影院| av片在线观看永久免费| 东北少妇不带套对白| 999av视频| 欧美日韩成人一区二区| 波多野结衣人妻| 色一区在线观看| 亚洲日本视频在线观看| 欧美日韩国产丝袜美女| 亚洲另类欧美日韩| 欧美性高潮在线| 亚洲s码欧洲m码国产av| 91国偷自产一区二区三区观看| 亚洲国产成人无码av在线| 色呦呦国产精品| 中文字幕在线天堂| 欧美亚洲动漫另类| 亚洲天堂男人网| 日韩一区二区视频在线观看| 成人黄色免费视频| 亚洲国产精品成人av| 日本ー区在线视频| 一区二区国产精品视频| 18免费在线视频| 久久久国产91| av影片在线| 97**国产露脸精品国产| 亚洲www啪成人一区二区| 国产日韩精品在线播放| 亚洲成人偷拍| 久久国产精品亚洲va麻豆| 国产一区二区三区日韩精品| 日韩一区国产在线观看| 国产精品国产一区| 99在线精品免费视频| 男女av一区三区二区色多| 国产原创精品在线| 国产成a人无v码亚洲福利| 日韩精品视频一区二区| 亚洲国产成人午夜在线一区| 亚洲波多野结衣| 精品久久久久久久中文字幕| japanese国产在线观看| 欧美一区二区三区免费在线看 | 亚洲一卡二卡三卡| 国产精品99免费看| 国产精品无码av无码| 国产在线一区二区综合免费视频| 美女久久久久久久久| 亚洲国产精品黑人久久久| 欧美精品99久久久| 日韩欧美主播在线| a级片在线免费看| 亚洲欧美国产日韩天堂区| 国产福利在线播放麻豆| 欧美在线视频导航| 国产高清亚洲| 欧洲高清一区二区| 国产综合色产| 天天干天天干天天干天天干天天干| 高清国产午夜精品久久久久久| 中文字幕第4页| 亚洲综合久久久久| 一区二区三区免费在线| 日韩电影大片中文字幕| 91高清在线观看视频| 国产精品久久久久久久久粉嫩av| 911亚洲精品| 中文字幕人成一区| 久久成人一区| 无码人妻精品一区二区三| 国产欧美日韩亚州综合| 国产精品7777777| 欧美一区二区黄色| 91免费在线| 国产成人亚洲综合91精品| 国产欧美自拍一区| 特大黑人娇小亚洲女mp4| 男女男精品视频网| 好吊日免费视频| 午夜精品久久久久久| 亚洲大尺度网站| 久久这里有精品| 久久婷婷五月综合色丁香| 欧美日韩亚洲免费| 亚洲人成久久| 人妻av一区二区| 亚洲国产精品一区二区久久恐怖片| 国产又粗又猛又爽又黄91| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 视频在线观看99| 台湾佬中文娱乐久久久| 激情五月综合色婷婷一区二区| 韩国欧美一区| 中文字幕 欧美 日韩| 亚洲日本成人在线观看| 中文字幕在线观看国产| 中文字幕在线日韩| 亚洲第一会所| 日本一区二区久久精品| 视频在线在亚洲| 色欲AV无码精品一区二区久久 | 午夜欧美大片免费观看| youjizz亚洲| 国产 日韩 亚洲 欧美| av电影天堂一区二区在线观看| 日韩男人的天堂| 亚洲黄在线观看| 三级中文字幕在线观看| 久久综合入口| 久久五月激情| 东京热无码av男人的天堂| 欧美日韩久久久一区| 黄网站免费在线观看| 亚洲一区二区三区视频| 欧美特黄一级| 免费a v网站| 色香蕉成人二区免费| 91av资源在线| 97netav| 国产视频一区免费看| 亚洲理论片在线观看| 欧美日韩三级视频| 欧洲中文在线| 九九热久久66| 麻豆国产欧美一区二区三区| 日韩在线观看免| 精品精品国产高清a毛片牛牛| 免费毛片b在线观看| 欧美日韩在线观看一区二区三区| 奇米精品一区二区三区在线观看 | 欧美淫片网站| 一级少妇精品久久久久久久| 欧美性videos高清精品| 在线观看av的网站| 国产精品久久久久久久久久直播 | 欧美aaa视频| 国产免费xxx| 99国产精品久久久| 91精品国产乱码久久久久| 欧美激情亚洲一区| 欧美日韩国产免费观看视频| 又黄又爽又色的视频| 韩曰欧美视频免费观看| 香港伦理在线| 国产精品制服诱惑| 捆绑调教美女网站视频一区| 国产午夜激情视频| 正在播放国产一区| 美女午夜精品| 免费成年人高清视频| 懂色aⅴ精品一区二区三区蜜月 | 精品国产aⅴ| 老司机av网站| 欧美日韩国产精品成人| 9999精品成人免费毛片在线看| 偷拍视频一区二区| 成人精品免费视频| 国产精品无码天天爽视频| 欧美在线视频一二三| 欧美精选在线| 蜜桃av.com| 国产亚洲欧洲在线|