精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

全面的中文大語言模型評測來啦!香港中文大學研究團隊發(fā)布

人工智能 新聞
近期的一系列中文大模型的評測研究陸續(xù)呈現(xiàn),盡管極大地推進了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。

ChatGPT 的一聲號角吹響了2023年全球大語言模型的競賽。

2023年初以來,來自工業(yè)界和研究機構(gòu)的各種大語言模型層出不窮,特別值得一提的是,中文大語言模型也如雨后春筍般,在過去的半年里不斷涌現(xiàn)。

與此同時,和如何訓練大語言模型相比,另一些核心的難題同時出現(xiàn)在學術(shù)界和產(chǎn)業(yè)界的面前:究竟應(yīng)該如何理解和評價中文大語言模型的能力?在中文和英文大模型的理解和評測上又應(yīng)該有什么聯(lián)系與區(qū)別?

帶著問題的思考,我們發(fā)現(xiàn),近期的一系列中文大模型的評測研究陸續(xù)呈現(xiàn),盡管極大地推進了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。

想要準確全面地理解和評測中文大語言模型,這些問題亟須解決:

  • 評測數(shù)據(jù)與指標的選擇需要更加全面。傳統(tǒng)的自動評測工作往往基于數(shù)量有限的考試題或部分開源數(shù)據(jù)集,采用的評測指標大多只關(guān)注廣義的準確率。數(shù)據(jù)的選擇不夠豐富多樣,指標上也忽視了魯棒性、公平性等在模型應(yīng)用中很重要的其他維度。而人工評測大模型因高昂的人力成本,在數(shù)據(jù)與指標的選擇上更受制約。
  • 不一致的評測過程容易損害評測結(jié)果的可比性。提示(prompt)模板、超參數(shù)、數(shù)據(jù)預(yù)處理等環(huán)節(jié)都會對模型最終的結(jié)果有直接影響。
  • 難以避免的數(shù)據(jù)污染(data contamination)風險讓評測對比難上加難。隨著訓練語料不斷擴大,模型在訓練過程中見過考試題和開源數(shù)據(jù)集的可能性也不斷升高。

針對這些挑戰(zhàn),有研究團隊已經(jīng)給出了自己的探索與方案。

近日,EMNLP 2023的論文結(jié)果公布。來自香港中文大學計算機科學與工程學系的王歷偉助理教授研究團隊的CLEVA: Chinese Language Models EVAluation Platform 被EMNLP 2023 System Demonstrations 錄取。

據(jù)CLEVA項目負責人王歷偉教授介紹,CLEVA是其帶領(lǐng)的港中文語言和視覺實驗室(CUHK LaVi Lab)聯(lián)合上海人工智能實驗室合作研究的全面的中文大語言模型評測方法。

值得一提的是,CLEVA目前已經(jīng)被全球前沿的英文大語言模型評測體系-斯坦福大學的HELM 評測體系認可和接入!

目前,用戶已經(jīng)可以通過斯坦福的HELM評測平臺來調(diào)用和測試CLEVA的中文大模型評測。“能得到國際前沿大模型評測研究團隊的認可,是對我們研究工作的極大鼓勵。” LaVi實驗室的同學自豪地說。

CLEVA:全面的中文評測

全面的大語言模型評測離不開海量的數(shù)據(jù)和完整的評測指標。CLEVA目前覆蓋 31個任務(wù)(11個應(yīng)用評估+20個能力評測),囊括目前最多的來自84個數(shù)據(jù)集的370K個中文測試樣本。中文測試樣本數(shù)是過往同類工作最大值的四倍,讓大語言模型在不同任務(wù)上的能力都完整地呈現(xiàn)出來。

指標上,CLEVA不僅關(guān)注過往評測中大家最在乎的準確性(Accuracy),還借鑒了HELM在英文評測中的做法,針對中文評測設(shè)計了魯棒性(Robustness)、公平性(Fairness)、效率(Efficiency)、校準與不確定性(Calibration and Uncertainty)、偏見與刻板印象(Bias and Stereotypes)和毒性(Toxicity)的指標。另外,CLEVA還引入了多樣性(Diversity)隱私性(Privacy)評測,幫助人們做出綜合的判斷。這對大模型應(yīng)用至關(guān)重要。

標準的評測流程

在使用大模型時,人們經(jīng)常發(fā)現(xiàn)大模型對提示等細節(jié)變化不夠魯棒。不同的提示模版會帶來較明顯的差異。過往的大模型評測很多只提供了評測數(shù)據(jù),并沒有提供或只提供了一兩個提示模版,而這直接導(dǎo)致不同工作得到的評測結(jié)果不直接可比。

CLEVA為每一個評測任務(wù)準備了一組多個提示模版。所有模型用同樣一組提示模版進行統(tǒng)一評測,不僅可以更公平比較模型能力,還可以通過不同模版帶來的性能差異分析一個模型對提示模版的敏感程度,指導(dǎo)模型的下游應(yīng)用。

更可信的評測結(jié)果

隨著大模型訓練用的語料越來越龐大,數(shù)據(jù)污染的風險也與日俱增。數(shù)據(jù)污染會使模型測試結(jié)果不可信,很難公平地體現(xiàn)出模型的能力。如何盡量減輕數(shù)據(jù)污染的問題,之前的中文評測工作還沒有針對這一問題給出充分的探索和方案。

CLEVA通過多種方法在評測開始之前就主動降低數(shù)據(jù)污染帶來的風險。從源頭上,33.98%的測試數(shù)據(jù)是CLEVA新采集構(gòu)造的。更關(guān)鍵的是,CLEVA基于規(guī)模最大的中文測試數(shù)據(jù),在每輪評測時都會通過不重復(fù)采樣得到一個全新的測試集。每一輪測試集在經(jīng)過多種數(shù)據(jù)增強策略的調(diào)整后,才用來評測大模型,進一步緩解數(shù)據(jù)污染的風險。

如何進行CLEVA 評測?

CLEVA已經(jīng)評測了23個目前最有影響力的中文大模型,還會持續(xù)用更多的數(shù)據(jù)和指標,評測更多的模型。對大模型評測感興趣的研究團隊,可以通過CLEVA網(wǎng)站提交和對接評測后續(xù)的進展。詳細的教程請參考CLEVA官方網(wǎng)頁或GitHub repo。

對于CLEVA已經(jīng)具有的評測需求,CLEVA還提供了清晰好用的網(wǎng)絡(luò)界面進行操作。用戶可以用可交互的可視化工具,仔細對比不同模型在不同任務(wù)和評測指標上的差異。在申請權(quán)限后,用戶可以讓自己感興趣的模型通過網(wǎng)絡(luò)接口跟CLEVA進行交互,只需按幾次鼠標即可開始一次全面評測,十分便利。

“團隊很努力地做了很久的CLEVA,不僅僅是研究上的理解加深,細節(jié)上也在不斷打磨,不斷優(yōu)化。在此過程中,非常感謝上海人工智能實驗室的合作與支持。” CLEVA 團隊在提起打造這個研究工作的時候,能感覺出來研究積累的力量。

大模型能力的認知和評測需要學術(shù)界和工業(yè)界的共同關(guān)注

筆者也了解到,學術(shù)界和工業(yè)界對大模型能力評測關(guān)注的角度也有一些區(qū)別與聯(lián)系。

王歷偉教授,在2020年加入香港中文大學任助理教授之前,已經(jīng)在北美有數(shù)年的工業(yè)界工作經(jīng)驗。他也曾作為商湯科技大語言模型“商量SenseChat”的技術(shù)總負責人,帶領(lǐng)團隊于2023年4月,發(fā)布最早的國內(nèi)中文大語言模型的代表之一,“商量SenseChat”。

圖片

王歷偉

當他提起學術(shù)界和工業(yè)界關(guān)注大模型評測的角度的區(qū)別和聯(lián)系的時候,說道:“工業(yè)界的大模型會不僅僅關(guān)注模型的基本通用能力,還會關(guān)注大模型如何服務(wù)垂直場景和垂直產(chǎn)業(yè),所以評測能力會更加在場景中具象化;而學校或者研究機構(gòu)則更適合從基本的模型理解能力、認知能力、通用智能等角度來理解和評測大模型。”

針對大模型評測領(lǐng)域的許多開放問題,王歷偉教授提到,短期內(nèi)他的港中文研究團隊會持續(xù)關(guān)注的幾點:

“第一,就是進一步優(yōu)化解決數(shù)據(jù)污染的辦法。CLEVA 通過增加新數(shù)據(jù)和采樣的方式減少數(shù)據(jù)污染的可能。但是未來應(yīng)該可以通過新的數(shù)據(jù)生成范式來構(gòu)造更多的評測數(shù)據(jù)。”

“第二,就是目前評測工作還存在很多需要提高的方面,比如應(yīng)該如何定義推理(reasoning)?應(yīng)該如何評價推理的過程,而不僅僅是簡單地看推理的結(jié)果?再比如,針對什么是智能的理解問題上,應(yīng)該如何跨學科地合作,來設(shè)計新的問題,來檢驗大模型的智能。當然還有很多方面,比如AI 安全問題,如何評價幻覺問題,等等。”

“第三,多模態(tài)場景下的涌現(xiàn)能力和純語言學習下有哪些不同?我們有十年左右的vision+language 研究經(jīng)驗和積累。CUHK LaVi Lab在不斷加強大語言模型和多模態(tài)大模型的各個課題研究的同時,也會不斷探索多模態(tài)場景下的大模型的能力認知和評測。”

“對大模型能力認知和評測的研究本身,也一定會幫助研究團隊理解和加強持續(xù)提高大模型的能力。”

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-14 08:47:00

AI視覺模型

2023-08-30 13:23:00

模型訓練

2023-10-29 22:25:23

模型AI

2025-06-26 09:13:22

2025-09-27 22:33:21

2024-04-07 09:00:00

數(shù)據(jù)模型

2012-06-21 22:15:34

思科

2025-11-13 08:47:43

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2025-06-20 14:37:59

模型AI圖像生成

2025-04-03 09:25:53

2022-11-01 13:48:08

參數(shù)方法

2025-01-15 10:28:21

2025-06-19 08:49:00

2025-08-18 08:55:00

AI模型自動化

2025-06-03 09:16:00

2023-10-04 09:20:04

模型訓練

2025-04-27 09:27:00

AI數(shù)據(jù)視頻

2025-04-09 09:41:43

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲 日本 欧美 中文幕| 国产女同无遮挡互慰高潮91| 天天操天天干天天插| 亚洲免费网址| 尤物yw午夜国产精品视频| 我看黄色一级片| 成人a在线视频免费观看| 国产精品一区免费在线观看| 国模吧一区二区| 国产精品一二三区在线观看| 国产成人免费视频网站视频社区| 亚洲国产一区视频| 精品视频第一区| 国产一区二区自拍视频| 亚洲深夜福利| 久久夜色精品国产| 欧美一区二区在线| 强行糟蹋人妻hd中文| 97精品国产99久久久久久免费| 日韩一区欧美一区| 久久久久久国产精品免费免费| 一级特黄特色的免费大片视频| 国产亚洲网站| 欧美成人在线免费| 日日碰狠狠添天天爽| 欧美调教在线| 欧美一区二区三区爱爱| 男人女人黄一级| av漫画网站在线观看| 中文字幕一区二区三区在线观看| 久久国产精品久久精品国产| www.色播.com| 国内精品伊人久久久久av一坑| 欧美在线国产精品| 日韩激情一区二区三区| 韩国三级成人在线| 欧美性猛交xxxx黑人| 日本免费成人网| 亚洲伦理在线观看| 久久er99热精品一区二区| 日韩美女视频中文字幕| 亚洲精品视频在线观看免费视频| 亚洲精品一区二区妖精| 揄拍成人国产精品视频| 人人妻人人藻人人爽欧美一区| 黄色成人美女网站| 精品乱人伦一区二区三区| 国产免费中文字幕| 久久亚洲资源中文字| 91福利视频网站| 免费观看精品视频| 高清av不卡| 欧美午夜影院在线视频| 色欲av无码一区二区人妻| 高清精品在线| 亚洲6080在线| ww国产内射精品后入国产| h片在线观看视频免费| 亚洲欧美日韩国产另类专区| 色中文字幕在线观看| 精精国产xxxx视频在线| 中文字幕色av一区二区三区| 在线精品日韩| 免费看a在线观看| 日韩美女久久久| 中国一级大黄大黄大色毛片| 在线āv视频| 亚洲图片欧美一区| 欧美视频在线免费播放| 韩国成人漫画| 欧洲精品一区二区三区在线观看| 精品久久久久久中文字幕2017| 欧洲av一区二区| 国产精品久久精品日日| 伊甸园精品99久久久久久| 尤物在线视频| 亚洲激情欧美激情| 国产精品999视频| 涩涩视频在线播放| 欧美天天综合网| www.com久久久| 风间由美中文字幕在线看视频国产欧美 | 国产综合色产在线精品 | 亚洲人成网亚洲欧洲无码| 色综合天天天天做夜夜夜夜做| 国产精品无码专区av在线播放 | 色天使久久综合网天天| 少妇网站在线观看| 日韩在线观看中文字幕| 亚洲级视频在线观看免费1级| 最近中文字幕在线mv视频在线| 成人91在线| 亚洲第一区在线| 亚洲第一香蕉网| 欧美大人香蕉在线| 亚洲欧美日韩久久久久久| 亚洲综合欧美综合| 欧美日韩国产高清| 国产精品福利在线| www.国产欧美| 国产日产亚洲精品系列| 8x8ⅹ国产精品一区二区二区| 免费看男女www网站入口在线| 精品视频一区三区九区| 欧美做受高潮中文字幕| 欧美日一区二区| 欧美激情视频给我| 成人免费毛片视频| 国产精品123| 日本最新一区二区三区视频观看| 凸凹人妻人人澡人人添| 国产精品乱码一区二三区小蝌蚪| 精品国产一区二区三区无码| 国产69精品久久久久9999人| 亚洲国产精品99久久| 大地资源高清在线视频观看| 国产精品主播| 成人在线观看网址| av资源种子在线观看| 亚洲成av人片在线观看| 韩国一区二区在线播放| 国内成人自拍| 69精品小视频| 亚洲av无码国产综合专区| 国产精品萝li| 五月婷婷六月合| 女人丝袜激情亚洲| 国产一区二区三区在线视频| 国产无套粉嫩白浆内谢| 国产乱妇无码大片在线观看| 亚洲 日韩 国产第一区| 伊人久久av| 亚洲精品99999| 国产真实乱偷精品视频| 国产美女精品人人做人人爽| 一本久道久久综合| 福利一区和二区| 中文字幕欧美视频在线| 国产午夜麻豆影院在线观看| 91美女在线观看| 国产无限制自拍| 97色成人综合网站| 欧美激情视频一区二区三区不卡| 国产乱人乱偷精品视频a人人澡| 国产精品女上位| 一区二区三区国产免费| 欧美自拍偷拍| 国产精品久久久久久影视| 国产一二三在线观看| 一道本成人在线| 中文字幕在线免费看线人| 国产日韩欧美在线播放不卡| 精选一区二区三区四区五区| 亚洲十八**毛片| 日韩精品免费视频| 台湾佬中文在线| 久久99国产精品麻豆| 亚洲日本精品一区| 91精品视频一区二区| 亚洲成色777777在线观看影院| 精国产品一区二区三区a片| 国产不卡视频在线播放| 国产成a人亚洲精v品在线观看| 日本亚洲视频| 69久久夜色精品国产7777 | 中文字幕免费精品一区高清| 91av久久久| 亚洲美女精品一区| 国产69视频在线观看| 亚洲深夜激情| 手机成人在线| 日韩精品一区二区三区中文在线| 欧美黑人xxxⅹ高潮交| 天堂网在线中文| 色丁香久综合在线久综合在线观看| 亚洲精品成人无码| 国内国产精品久久| 欧美图片激情小说| 国产探花在线精品一区二区| 国产精品丝袜高跟| 色图在线观看| 亚洲欧美日韩在线一区| 亚洲怡红院av| 亚洲图片欧美一区| 91在线无精精品白丝| 国产老肥熟一区二区三区| 3d动漫一区二区三区| 欧美综合视频| 国产区欧美区日韩区| 麻豆精品蜜桃| 久久久久久久av| 高清福利在线观看| 精品国精品国产尤物美女| 久久亚洲精品石原莉奈| 亚洲少妇中出一区| 久草在在线视频| 亚洲91久久| 欧美极品色图| 亚洲一区二区三区在线免费| 国产成人精品综合久久久| 国产美女av在线| 亚洲人成网在线播放| 国产av一区二区三区| 色一情一乱一乱一91av| 亚洲欧美一区二区三区四区五区| 久久久激情视频| 男人插女人视频在线观看| 精品免费视频| 国产日韩欧美亚洲一区| 99亚洲男女激情在线观看| 欧美一区二区三区精品电影| 18在线观看的| 中文字幕日韩欧美在线视频| 无码国产色欲xxxx视频| 91精品国产福利在线观看 | av在线播放资源| www.欧美三级电影.com| 欧美日本韩国一区二区| 亚洲国产古装精品网站| 国产精品国产av| 欧美最猛性xxxxx直播| 日韩欧美国产亚洲| 一区二区三区欧美亚洲| 日本一级片免费| 欧美韩日一区二区三区| 日本黄色网址大全| 99视频精品在线| 香蕉在线观看视频| 亚洲高清资源| 日本xxxxx18| 99精品在线| 欧美精品成人一区二区在线观看 | 欧美连裤袜在线视频| 国内自拍欧美| 国产精品一区二区欧美黑人喷潮水 | 亚洲成a人片在线观看中文| 精品一区在线观看视频| 18成人在线视频| 成年人二级毛片| 国产精品福利一区| 日日操免费视频| 国产精品理论在线观看| 999久久久国产| 国产精品日韩成人| 四季av中文字幕| 欧美高清在线精品一区| 免费一级做a爰片久久毛片潮| 91原创在线视频| 噜噜噜在线视频| 久久综合久久鬼色| 精品国产成人亚洲午夜福利| 国产亚洲短视频| 日本综合在线观看| 国产精品情趣视频| 亚洲欧美精品久久| 亚洲女人****多毛耸耸8| 在线免费观看亚洲视频| 亚洲一区二区三区在线看| 国产午夜小视频| 欧美日韩免费在线观看| 丁香社区五月天| 欧美区一区二区三区| 一级片免费网站| 日韩三级在线观看| 午夜性色福利视频| 亚洲一区999| 欧美猛烈性xbxbxbxb| 久久国产视频网站| brazzers在线观看| 日本久久久久久久久| 视频一区在线免费看| 91精品视频在线播放| 国产精品chinese在线观看| 精品无码久久久久久久动漫| 精品国产一区二区三区久久久樱花| 亚洲毛片aa| 国产一区亚洲| 日本www高清视频| 激情小说亚洲一区| 无码成人精品区在线观看| 久久久久久久久久久久久女国产乱 | 欧美大奶一区二区| 亚洲精品中文字幕乱码三区不卡| 国产精品xvideos88| 国产第一页视频| 国产乱人伦偷精品视频免下载 | 亚洲77777| 丁香婷婷综合激情五月色| 欧美大波大乳巨大乳| 亚洲卡通欧美制服中文| 在线观看亚洲欧美| 亚洲精品乱码久久久久久| 久久伊人成人网| 亚洲另类中文字| 在线天堂中文字幕| 在线电影院国产精品| 日本私人网站在线观看| 久久久av网站| 91精品韩国| 国产精品久久久久久久久久久久冷| 国产精品密蕾丝视频下载| 男人天堂网站在线| 日韩高清在线不卡| 色悠悠在线视频| 中文字幕色av一区二区三区| 日韩久久中文字幕| 日韩欧美专区在线| www.亚洲资源| 日本不卡高字幕在线2019| 日本高清久久| 亚洲欧洲在线一区| 久久国产精品久久w女人spa| 欧美成人xxxxx| 国产一区二区不卡在线| 一级黄色录像毛片| 精品久久久久国产| 亚洲va天堂va欧美ⅴa在线| 视频在线观看一区二区| 欧美极品视频| 国产成人综合av| 日韩美脚连裤袜丝袜在线| 久久久久久九九| 欧美日韩精品| 日韩av福利在线观看| 国产精品天天摸av网| 精产国品一区二区| 精品视频偷偷看在线观看| 国产盗摄一区二区| 91观看网站| 亚洲高清999| 影音先锋成人资源网站| 蜜臀精品一区二区三区在线观看 | yjizz视频网站在线播放| 97精品在线视频| 成人av观看| 精品久久久久久中文字幕动漫 | 国产精品久久久99| 狠狠躁夜夜躁人人爽视频| 亚洲欧美国产制服动漫| 日韩电影毛片| 欧美高清视频一区| 欧美专区在线| 丰满少妇一区二区三区| 大伊人狠狠躁夜夜躁av一区| 天天干,夜夜爽| 91高清视频免费观看| 偷窥自拍亚洲色图精选| 日韩精品视频久久| 国产午夜久久久久| 波多野结衣一二区| 一区二区三区无码高清视频| 777午夜精品电影免费看| 亚洲高清不卡一区| 久久精品99久久久| www青青草原| 精品国产精品网麻豆系列| 国产精品yjizz视频网| 鲁鲁狠狠狠7777一区二区| 日韩影院在线观看| 少妇的滋味中文字幕bd| 91.麻豆视频| 国产极品人妖在线观看| 快播日韩欧美| 精品一区二区三区免费播放| 日韩在线观看视频一区二区| 精品国产免费视频| 国产欧美一区二区三区精品酒店| 色综合影院在线观看| 国产精品一区二区在线观看网站| 精品无码av在线| 亚洲片av在线| 91精品国产色综合久久不卡粉嫩| 欧美一级中文字幕| 91在线播放网址| 136福利视频导航| 97国产精品免费视频| 图片婷婷一区| 亚洲欧美日韩精品一区| 亚洲一区二区三区视频在线| 毛片免费在线观看| 成人免费福利在线| 亚洲人体偷拍| 特黄一区二区三区| 亚洲第一精品福利| av成人免费看| av在线播放亚洲| 国产精品灌醉下药二区| 色噜噜在线播放| 国产日韩欧美日韩| 亚洲免费播放| 国精品人伦一区二区三区蜜桃| 精品国产免费一区二区三区香蕉| 日韩电影大全网站| 久久久久成人精品免费播放动漫| 美国毛片一区二区| 日韩精品无码一区二区| 久久精品视频网站| 性欧美lx╳lx╳| 一区二区三区人妻| 亚洲精品视频在线看|