精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UC伯克利發布大語言模型排行榜!Vicuna奪冠,清華ChatGLM進前5

人工智能 新聞
萬萬沒想到,現在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!據說,那些閉源模型們很快也會被拉出來溜溜。

最近,來自LMSYS Org(UC伯克利主導)的研究人員又搞了個大新聞——大語言模型版排位賽!

顧名思義,「LLM排位賽」就是讓一群大語言模型隨機進行battle,并根據它們的Elo得分進行排名。

然后,我們就能一眼看出,某個聊天機器人到底是「嘴強王者」還是「最強王者」。

劃重點:團隊還計劃把國內和國外的這些「閉源」模型都搞進來,是騾子是馬溜溜就知道了?。℅PT-3.5現在就已經在匿名競技場里了)

圖片

匿名聊天機器人競技場長下面這樣:

很明顯,模型B回答正確,拿下這局;而模型A連題都沒讀懂……

圖片

項目地址:https://arena.lmsys.org/

在當前的排行榜中,130億參數的Vicuna以1169分穩居第一,同樣130億參數的Koala位列第二,LAION的Open Assistant排在第三。

清華提出的ChatGLM,雖然只有60億參數,但依然沖進了前五,只比130億參數的Alpaca落后了23分。

相比之下,Meta原版的LLaMa只排到了第八(倒數第二),而Stability AI的StableLM則獲得了唯一的800+分,排名倒數第一。

團隊表示,之后不僅會定期更新排位賽榜單,而且還會優化算法和機制,并根據不同的任務類型提供更加細化的排名。

圖片

目前,所有的評估代碼以及數據分析均已公布。

拉著LLM打排位

在這次的評估中,團隊選擇了目前比較出名的9個開源聊天機器人。

每次1v1對戰,系統都會隨機拉兩個上場PK。用戶則需要同時和這兩個機器人聊天,然后決定哪個聊天機器人聊的更好。

可以看到,頁面下面有4個選項,左邊(A)更好,右邊(B)更好,一樣好,或者都很差。

當用戶提交投票之后,系統就會顯示模型的名稱。這時,用戶可以繼續聊天,或者選擇新的模型重新開啟一輪對戰。

不過,團隊在分析時,只會采用模型是匿名時的投票結果。在經過差不多一周的數據收集之后,團隊共收獲了4.7k個有效的匿名投票。

圖片

在開始之前,團隊先根據基準測試的結果,掌握了各個模型可能的排名。

根據這個排名,團隊會讓模型去優先選擇更合適的對手。

然后,再通過均勻采樣,來獲得對排名的更好總體覆蓋。

在排位賽結束時,團隊又引入了一種新模型fastchat-t5-3b。

以上這些操作最終導致了非均勻的模型頻率。

圖片

每個模型組合的對戰次數

從統計數據來看,大多數用戶所用的都是英語,中文排在第二位。

圖片

排名前15的語言的對戰次數

評估LLM,真的很難

自從ChatGPT爆火之后,經過指令跟隨微調的開源大語言模型如雨后春筍一般大量涌現??梢哉f,幾乎每周都有新的開源LLM在發布。

但問題是,評估這些大語言模型非常難。

具體來說,目前用來衡量一個模型好不好的東西基本都是基于一些學術的benchmark,比如在一個某個NLP任務上構建一個測試數據集,然后看測試數據集上準確率多少。

然而,這些學術benchmark(如HELM)在大模型和聊天機器人上就不好用了。其原因在于:

1. 由于評判聊天機器人聊得好不好這件事是非常主觀的,因此現有的方法很難對其進行衡量。

2. 這些大模型在訓練的時候就幾乎把整個互聯網的數據都掃了一個遍,因此很難保證測試用的數據集沒有被看到過。甚至更進一步,用測試集直接對模型進行「特訓」,如此一來表現必然更好。

3. 理論上我們可以和聊天機器人聊任何事情,但很多話題或者任務在現存的benchmark里面根本就不存在。

圖片

那如果不想采用這些benchmark的話,其實還有一條路可以走——花錢請人來給模型打分。

實際上,OpenAI就是這么搞的。但是這個方法明顯很慢,而且更重要的是,太貴了……

為了解決這個棘手的問題,來自UC伯克利、UCSD、CMU的團隊發明了一種既好玩又實用的全新機制——聊天機器人競技場(Chatbot Arena)。

相比而言,基于對戰的基準系統具有以下優勢:

  • 可擴展性(Scalability)

當不能為所有潛在的模型對收集足夠的數據時,系統應能擴展到盡可能多的模型。

  • 增量性(Incrementality)

系統應能夠使用相對較少的試驗次數評估新模型。

  • 唯一順序(Unique order)

系統應為所有模型提供唯一順序。給定任意兩個模型,我們應該能夠判斷哪個排名更高或它們是否并列。

Elo評分系統

Elo等級分制度(Elo rating system)是一種計算玩家相對技能水平的方法,廣泛應用在競技游戲和各類運動當中。其中,Elo評分越高,那么就說明這個玩家越厲害。

比如英雄聯盟、Dota 2以及吃雞等等,系統給玩家進行排名的就是這個機制。

舉個例子,當你在英雄聯盟里面打了很多場排位賽后,就會出現一個隱藏分。這個隱藏分不僅決定了你的段位,也決定了你打排位時碰到的對手基本也是類似水平的。

而且,這個Elo評分的數值是絕對的。也就是說,當未來加入新的聊天機器人時,我們依然可以直接通過Elo的評分來判斷哪個聊天機器人更厲害。

具體來說,如果玩家A的評分為Ra,玩家B的評分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線)為:

圖片

然后,玩家的評分會在每場對戰后線性更新。

假設玩家A(評分為Ra)預計獲得Ea分,但實際獲得Sa分。更新該玩家評分的公式為:

圖片

1v1勝率

此外,作者還展示了排位賽中每個模型的對戰勝率以及使用Elo評分估算的預測對戰勝率。

結果顯示,Elo評分確實可以相對準確地進行預測

圖片

所有非平局A對B戰斗中模型A勝利的比例

圖片

在A對B戰斗中,使用Elo評分預測的模型A的勝率

作者介紹

「聊天機器人競技場」由前小羊駝作者機構LMSYS Org發布。

該機構由UC伯克利博士Lianmin Zheng和UCSD準教授Hao Zhang創立,目標是通過共同開發開放的數據集、模型、系統和評估工具,使每個人都能獲得大型模型。

圖片

Lianmin Zheng

Lianmin Zheng是加州大學伯克利分校EECS系的博士生,他的研究興趣包括機器學習系統、編譯器和分布式系統。

Hao Zhang

Hao Zhang目前是加州大學伯克利分校的博士后研究員。他將于2023年秋季開始在加州大學圣地亞哥分校Hal?c?o?lu數據科學研究所和計算機系擔任助理教授。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-16 13:32:23

模型排行

2024-05-30 14:23:00

2023-04-04 13:17:00

GPUCMU開源

2023-04-07 09:28:31

模型訓練

2023-08-05 13:45:46

模型AI

2023-05-26 14:10:00

模型AI

2023-03-31 13:55:00

模型智能

2025-01-22 15:21:00

2023-05-26 17:20:29

模型工具

2021-05-06 23:11:20

編程語言數據Python

2024-11-26 13:40:00

2025-04-18 08:42:52

模型推理AI

2024-02-19 13:46:04

多模態信息LWMtoken

2024-12-02 08:20:00

2023-12-16 09:49:18

2024-03-04 08:15:00

2017-02-10 09:45:00

編程語言排行榜Scratch

2025-10-11 15:55:08

AI模型數據

2024-09-23 14:46:27

2015-04-14 14:37:06

編程語言4月編程語言排行
點贊
收藏

51CTO技術棧公眾號

欧美日韩亚洲在线| 97免费中文视频在线观看| 亚洲娇小娇小娇小| 免费黄网在线观看| 国产v综合v亚洲欧| 欧美一级高清免费| 国产白丝一区二区三区| 欧美国产中文高清| 精品福利视频导航| 亚洲欧美综合一区| 少妇高潮一区二区三区99小说 | 国产精品资源网站| 欧美激情视频免费观看| 国产黄色大片免费看| 免费欧美网站| 91高清视频在线| 日韩精品一区二区在线视频| 高清福利在线观看| 成人免费视频播放| 成人亚洲欧美一区二区三区| 在线观看日韩中文字幕| 欧美激情91| 中文字幕在线视频日韩| 亚洲av无码成人精品国产| 日韩精品视频在线看| 久久成人免费电影| 欧美乱妇40p| 影音先锋制服丝袜| 国产精品久av福利在线观看| 欧美日韩精品一区二区三区蜜桃| 97视频久久久| 国产在线高清视频| 国产偷v国产偷v亚洲高清| 国产精品区一区二区三在线播放| 国产又大又黄又爽| 久久亚洲美女| 91国产美女视频| 久久国产波多野结衣| 国模吧精品视频| 精品网站999www| 女人扒开双腿让男人捅| 美女久久久久久| 日本久久一区二区三区| 欧美二区在线视频| 性直播体位视频在线观看| 亚洲国产精品精华液ab| 欧美视频观看一区| 天天干天天爱天天操| 国产成人综合网站| 成人有码在线播放| 在线观看国产一区二区三区| 日日夜夜免费精品| 青青草成人在线| 国产污污视频在线观看| 亚洲激情国产| 国内免费久久久久久久久久久| 男人操女人的视频网站| 五月婷婷亚洲| 久久精品亚洲热| 人人艹在线视频| 日韩欧美网址| 丝袜亚洲另类欧美重口| 污污视频网站在线免费观看| 第一sis亚洲原创| 在线视频亚洲欧美| 人妻熟人中文字幕一区二区| 日本高清免费电影一区| 色偷偷888欧美精品久久久 | 精品freesex老太交| 亚洲欧美国产日韩中文字幕| a毛片毛片av永久免费| 你微笑时很美电视剧整集高清不卡 | www.av中文字幕| 日本免费一区二区六区| 精品久久久久久久久国产字幕 | 日韩视频中文字幕在线观看| 欧美不卡高清| 国内成人精品一区| 7799精品视频天天看| 日韩电影免费在线| 国产日韩在线观看av| 99久久久国产精品无码网爆| 国产成人av电影在线观看| 国产一区在线免费| 蝌蚪视频在线播放| 中文字幕在线不卡一区| 特大黑人娇小亚洲女mp4| av成人 com a| 在线精品观看国产| 国产一级片中文字幕| 荡女精品导航| 一区二区三区国产视频| 爱爱视频免费在线观看| 亚洲大片av| 日本高清视频精品| 国产三级按摩推拿按摩| av网站免费线看精品| 色视频一区二区三区| 亚洲xxxxxx| 亚洲国产一区二区在线播放| 成年人网站大全| 日韩欧美中文字幕一区二区三区 | 91成人免费在线观看| 无码精品人妻一区二区三区影院| 欧美激情一区在线| 欧美一级爱爱视频| 欧美色网在线| 精品成人a区在线观看| 极品人妻videosss人妻| 好吊日精品视频| 国产精品视频播放| 日本激情视频网站| 国产精品不卡一区二区三区| 黄页免费在线观看视频| 欧美91在线|欧美| 亚洲精品720p| 欧美激情图片小说| 老司机午夜精品视频| 俄罗斯精品一区二区| 91美女视频在线| 日韩欧美主播在线| 在线观看一区二区三区视频| 日韩国产专区| 清纯唯美亚洲激情| 蜜桃av噜噜一区二区三区麻豆| 国产日产亚洲精品系列| 久久久久久久午夜| 激情综合婷婷| yellow中文字幕久久| 日本a级c片免费看三区| 91亚洲国产成人精品一区二区三 | 欧美日韩dvd在线观看| 黄色性生活一级片| 好吊一区二区三区| 亚洲精品日产aⅴ| 在线激情网站| 在线观看日韩国产| brazzers精品成人一区| 国产视频一区三区| 国产成人精品福利一区二区三区 | 午夜欧美不卡精品aaaaa| 国产视频一二三四区| 中文字幕成人网| 青青青国产在线视频| 香蕉久久夜色精品国产更新时间| 国内外成人免费激情在线视频| 精品人妻一区二区三区三区四区| 日韩美女啊v在线免费观看| 在线观看国产一级片| 欧美日韩有码| 国产免费一区二区三区香蕉精| а√天堂中文在线资源bt在线| 色婷婷激情一区二区三区| 亚洲国产综合视频| 亚洲精品社区| 免费一区二区三区| 台湾佬中文娱乐久久久| 亚洲色图国产精品| 亚洲国产精品无码久久久| 久久久久国产精品人| 国产97色在线 | 日韩| 九九精品在线| 国产精品色婷婷视频| 日本三级视频在线观看| 91精品综合久久久久久| 午夜国产福利一区二区| 国产成人免费在线视频| 人妻少妇精品久久| 亚洲a级精品| 国产成人91久久精品| 成人av毛片| 欧美疯狂做受xxxx富婆| 99热精品免费| 99这里只有久久精品视频| 日本黄色三级大片| 日韩精品首页| 97国产超碰| 中文字幕 在线观看| 国产亚洲一级高清| 夜夜爽8888| 亚洲影视在线播放| 久久人妻少妇嫩草av无码专区| 久久久久久黄| 黄色a级在线观看| 91麻豆精品激情在线观看最新| 91精品国产色综合久久不卡98| 久久天堂电影| 6080国产精品一区二区| 日韩三级av在线| 日本一区免费视频| 欧美污在线观看| 中文一区二区| 福利网在线观看| 日本午夜精品| 成人性教育视频在线观看| 川上优av中文字幕一区二区| 永久免费精品影视网站| 亚洲国产精品视频在线| 色素色在线综合| 国产性xxxx| 久久久久久亚洲综合影院红桃| 婷婷中文字幕在线观看| 一区二区日韩免费看| 综合操久久久| 香蕉久久夜色精品国产更新时间 | 欧美丰满少妇xxxxx| 国产在线观看免费网站| 精品精品国产高清a毛片牛牛 | 青草国产精品久久久久久| avav在线播放| 清纯唯美日韩| 久久久久久国产精品免费免费| 中文幕av一区二区三区佐山爱| 2019av中文字幕| 国产不卡在线| 一夜七次郎国产精品亚洲| 人妻妺妺窝人体色www聚色窝| 欧美性xxxxxxxx| 天天操天天摸天天干| 亚洲视频一区在线观看| 男人的天堂av网| 99久久精品国产精品久久| 亚洲国产日韩在线一区| 麻豆精品国产91久久久久久| 成年人在线看片| 亚洲经典自拍| 乱熟女高潮一区二区在线| 日韩欧美网站| 日韩欧美精品久久| 窝窝社区一区二区| 国产欧美日韩一区| 亚洲伊人影院| 99porn视频在线| 国产一区二区三区精品在线观看| 国产精品入口夜色视频大尺度 | 你懂的网址国产 欧美| 亚洲欧洲一二三| 久久91精品| 欧美韩国日本精品一区二区三区| 国产精品欧美大片| yellow视频在线观看一区二区| 国产第一精品| 国产精品久久久久久av福利| 校园春色亚洲色图| 日韩美女在线播放| 自拍在线观看| 日本欧美爱爱爱| 日韩在线伦理| 日韩免费在线视频| 成人影院大全| 国产精品高潮呻吟视频| 亚洲人免费短视频| 国产精品入口尤物| 欧美大片网站| 成人免费网视频| 国产精品国产亚洲精品| 亚洲一区二区少妇| 久久国际精品| 国产欧美综合精品一区二区| 国产一区二区三区在线免费| 麻豆精品蜜桃| 国产精品久久久久免费a∨大胸 | 精品人妻一区二区三区日产| 国产1区2区3区精品美女| 日韩大尺度视频| 成人免费视频一区| 国产成人无码一区二区在线观看| 26uuuu精品一区二区| 微拍福利一区二区| 国产精品成人在线观看| 美国黄色小视频| 午夜亚洲国产au精品一区二区 | 欧洲一区在线电影| 一级做a爰片久久毛片16| 日韩午夜电影在线观看| 手机在线不卡av| 亚洲一区二区国产| 好了av在线| 午夜精品久久17c| 一区二区三区短视频| 国产精品久久视频| 国产亚洲高清一区| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 成人三级在线视频| 亚洲AV无码片久久精品| 国产精品久线观看视频| 美女视频黄免费| 欧美性xxxx| 国产农村老头老太视频| 日韩精品免费在线| 日本在线视频站| 国内精久久久久久久久久人| 99久久伊人| 成人91视频| 国产精品亚洲二区| 中国老女人av| 久久亚洲不卡| 国产xxx在线观看| 国产日韩欧美一区二区三区乱码| 在线免费观看亚洲视频| 欧美性高潮在线| a天堂视频在线| 国产一区二区激情| 亚洲性图自拍| 国产精品老女人精品视频 | 黑人另类av| 国产精品伦理久久久久久| 亚洲 高清 成人 动漫| 国产一区二区伦理| 亚洲AV无码国产成人久久| 亚洲乱码日产精品bd| 中文字幕精品无码亚| 亚洲黄色在线看| 日韩少妇视频| 成人免费午夜电影| 欧美精品系列| 国产成人无码精品久久久性色| 国产成人h网站| 国产精品18在线| 欧美性极品少妇| 欧美在线观看在线观看| 久久理论片午夜琪琪电影网| 国产精品毛片aⅴ一区二区三区| 视频在线观看成人| 亚洲女优在线| 中国av免费看| 亚洲综合视频网| 国产孕妇孕交大片孕| 亚洲天堂开心观看| 成人线上视频| 久久精品日产第一区二区三区精品版 | 波多野结衣91| 精品99在线观看| 欧美二区乱c少妇| 国产一区二区三区不卡在线| 欧美与黑人午夜性猛交久久久| jazzjazz国产精品麻豆| 久久久99精品视频| 国产在线一区二区| 91香蕉国产视频| 欧美色网一区二区| 国产在线你懂得| 国产精品99久久99久久久二8| 日韩福利视频一区| www.av中文字幕| 91在线一区二区| 国产午夜性春猛交ⅹxxx| 欧美精品一区二区精品网| 久久电影网站| 91丝袜脚交足在线播放| 欧美激情成人在线| 超碰91在线播放| 一区二区三区四区蜜桃| www.色播.com| 久久久久久久一区二区三区| 成人爽a毛片免费啪啪红桃视频| 免费看毛片的网址| 成人h动漫精品一区二区| 国产污污视频在线观看| 亚洲欧洲日本专区| 韩国女主播一区二区| 亚洲不卡中文字幕| 美女视频网站黄色亚洲| 久久精品日韩无码| 日韩三级视频在线观看| 国产美女情趣调教h一区二区| 国产日韩欧美二区| 模特精品在线| 国精产品视频一二二区| 日韩欧美你懂的| 狠狠操一区二区三区| 欧洲亚洲一区二区三区四区五区| 蜜臀av性久久久久蜜臀aⅴ四虎 | caoporn国产精品免费视频| 国产精品视频自在线| 一区二区三区四区电影| 成人做爰www看视频软件| 色综合天天综合色综合av| 在线观看h片| 99视频在线免费观看| 国产欧美不卡| 91动漫免费网站| 日韩视频123| 校园春色亚洲| 伊人久久大香线蕉精品| 丰满少妇久久久久久久| 久久久黄色大片| 久久精品国产欧美亚洲人人爽| 国产66精品| 久久久久久久片| 一区二区三区产品免费精品久久75| 天天操天天爱天天干| 国产精品精品久久久| 欧美成人午夜| 精品人妻无码一区二区三区换脸| 欧美另类z0zxhd电影| 国产嫩草在线视频| 亚洲精品一区国产精品| 成人国产精品免费网站| 91丨九色丨蝌蚪丨对白|