精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

67個主題,11528 個問題,全新中文大模型多任務基準CMMLU發布

人工智能 新聞
如何評估大模型(LLM)的語言能力和知識儲備一直備受學術界和工業界的關注。

MBZUAI,上海交通大學,微軟亞洲研究院合作完成了一個全面的中文大模型基準——CMMLU。

它涵蓋了 67 個主題,涉及自然科學、社會科學、工程、人文、以及常識等,可以全面地評估大模型在中文知識儲備和語言理解上的能力。他們測試了近 20 個先進的大模型包括最新的 GPT4,ChatGLM2 和 Baichuan-7B 等,發現大多數現有模型的難以達到 50%準確率,而隨機準確率為 25%。

圖片圖片

  • 論文地址:https://arxiv.org/abs/2306.09212
  • 數據和評估代碼:https://github.com/haonan-li/CMMLU

本文所提出的 CMMLU,這是一個全新全面的中文評估數據集,旨在專門評估 LLM 在中文語言和文化背景下的高級知識和推理能力。

CMMLU 涵蓋了 67 個主題(如圖 1 所示),從小學到大學或專業水平。包括自然科學,以及人文和社會科學領域的學科,更包含了許多具有中國特色的內容,比如 「中國飲食文化」,「名族學」,「中國駕駛規則」等等。研究團隊已完全公開了數據,社區可以自由方便地利用和評估他們的模型在是否適用于以中國為核心的中文人群。完整的學科列表、每個學科測試的概念數量以及問題和答案長度的統計信息均在論文中提供。

圖片圖片

為了更深入地了解 LLM 處理中文知識的能力,研究進行了全面的分析實驗。研究首先研究模型在各個學科上的表現。所有模型在不同學科上的表現存在不平衡,人文社科學科得分相對較高,而中國特定主題和自然科學得分較低。為了進一步研究這個問題,研究探索了思路鏈提示詞(Chain-of-Thought)和少樣本示例(Few-shot)對于幫助模型理解任務和提高推理能力的有效性。此外,團隊研究了模型大小對性能的影響,分析了問題長度與難度之間的關系,并探索了現有語言模型尚未有效解決的兩種特定問題類型。

CMMLU 測試基準

數據收集

CMMLU 數據集包含 11,528 個問題,涵蓋了 67 個學科。每個學科至少有 105 個問題,研究將其分 為包含 5 個問題的訓練樣本集(few-shot development set),以及包含超過 100 個問題的測試集(test set)。

數據格式

數據集中的每個問題都是一個包含 4 個選項的單選題,圖 2 是一個附加了提示的示例。對于數學公式、化學式和一些其他數學表達式,他們使用約一半的 Latex 和一半的純文本的混合方式,其中只有在一個表達式被廣泛使用且不易產生歧義時,才允許使用純文本(由注釋者判斷)。例如,水的化學式可以寫為純文本 「H2O」,或者使用 Latex 格式「 $H_{2}O$」。

實驗

為了在中文語境下提供現有開源 LLM 在語言理解方面的概覽,研究評估約 20 個不同規模、語言方向和階段(預訓練或微調)的先進 LLM,并且分析了它們在這個以知識為中心的基準測試上的性能,并研究了可能影響 LLM 性能的幾個因素。

實驗設置

研究的目標是評估 LLM 在預訓練和 / 或微調過程中所利用的知識。對于開源模型,研究遵循 MMLU 的方法獲取提示后的下一個標記的概率,并在 A’、B’、C’和 D’中選擇概率最高的選項作為模型的選擇。對于 ChatGPT 等非開源模型,研究生成輸出并使用一系列正則表達式提取模型的選擇。如果正則表達式沒有匹配到任何內容,他們會隨機選擇 A’、B’、C’、D’中的一個選項作為答案,以進行模型間的公平比較。研究對零樣本(不輸入示例)和少樣本(輸入少量示例)的設置都進行了實驗。

提示詞

研究使用短語 「以下是關于 [主題] 的單項選擇題,請直接給出正確答案的選項」引入每個問題。對于零樣本評估,研究直接在提示后呈現問題。對于少樣本評估,他們在問題之前提供多達 5 個帶有答案的示例。提示以短語「答案是:」結尾,如圖 2 中的示例所示。如果帶有少樣本示例的文本長度超過模型的最大長度,他們會動態刪除最長的(按子標記計算)示例。(最新榜單請看 github)

圖片圖片

主要結果

表格 1 顯示了在 five-shot 設置下一些模型的性能。可以看出:GPT4 是整體性能最佳的模型,準確度達到 70.95%;在中文特定的 LLM 中,ChatGLM2-6B 模型規模最小卻展現出最佳的整體性能,Baichuan-7B 僅次于 ChatGLM2。

從學科類型的角度來看,相對于 STEM 學科,所有模型在人文學科、社會科學和其他學科中表現出更好的性能,他們認為這是由于 STEM 主題的固有難度所致。此外,雖然所有模型在中國特定類別中的表現相對較弱,略微超過其在 STEM 學科中的表現,但明顯落后于其他類別。

圖片圖片

研究將中文模型 ChatGLM 與多語模型 ChatGPT 在每個學科上進行了比較,并對學科進行了分類,并在圖 3 中呈現了結果。具體的數值結果請在論文中查閱。

從圖中可以看出,模型的性能并不平衡,雖然在某些學科(如世界歷史)表現出色,但在其他學科(如數學)中表現較差。研究團隊觀察到,對于 ChatGLM 和 ChatGPT 來說,古漢語和大學精算學是最具挑戰性的學科,其結果接近隨機。而法律與道德基礎則是兩個模型中最容易的學科之一。

在大多數情況下,ChatGPT 的性能明顯優于 ChatGLM。比如說對于機器學習和計算機安全,ChatGPT 的準確度幾乎是 ChatGLM 的兩倍。然而,在中國特定類別中,ChatGLM 的性能明顯接近 ChatGPT。它甚至在中國歷史和高中政治中的表現超過了 ChatGPT。他們認為這是因為與 ChatGPT 相比,ChatGLM 在特別是中國特定類別中遇到了不同的數據來源。這些發現表明,為了適應具有不同語言背景的用戶,找到適合的數據來源對于多語種 LLM 非常重要。

分析

為了全面了解 LLM 在不同條件下的性能,該研究探究了三個可能提升模型性能的因素和三個可能 降低模型性能的因素。對于大多數分析,他們使用了前 3 個多語種模型:ChatGPT、Falcon-40B、LLaMA-65B,以及前 2 個中文模型:ChatGLM-6B 和 BatGPT-15B。

圖片

 (具體分析細節請參看論文)

(1) 使用逐步思考的提示詞:

研究將提示從 「請直接給出正確答案的選項」修改為 「逐步分析并選出正確答案」。結果呈現在表格 2 中,所有子類別的細分結果請查閱論文。

圖片圖片

研究發現,對于沒有進行微調的模型(LLaMA 和 Falcon),使用逐步思考的提示并沒有 明顯提高 STEM 和整體準確度。而對于進行了微調的模型(在表格 2 的第一部分),中文導向的模型(ChatGLM 和 BatGPT)的整體性能下降了約 3%,ChatGPT 的性能也略微下降了 0.2%。這些結果表明,逐步思考的提示確實有助于這些模型回答與 STEM 相關的問題。

(2) 增加輸入示例的數量: 

圖 4 展示了使用不同模型在不同數量少樣本示例的平均準確率。明顯可以看出,當提供一些示例時,大多數模型的性能有所提高。盡管隨著示例數量的增加可能會出現波動,但整體趨勢顯示出性能的提升。然而,對于 ChatGLM 和 BLOOMZ 模型,0-shot 設置的性能優于少樣本設置。研究團隊推測這是因為這些模型已經通過預訓練或微調過程廣泛利用了類似的問題和答案對,已經具備了全面理解問題的能力,不需要示例的支持 [3]。

(3) 在同一模型系列中使用更大尺寸的模型:

圖片圖片

研究使用 LLaMA 系列模型的四個不同規模進行了考察:7B、13B(訓練于 1.0T tokens)、30B、65B(訓練于 1.4T tokens)。這些模型的 0-shot 和 5-shot 設置的整體準確率如圖 5 所示。從結果中,研究團隊觀察到隨著模型規模近似翻倍,準確率穩定增加約 5 個百分點。是否有可能擁有 500B 參數的 LLaMA 模型可以達到與 ChatGPT 相當的性能水平?而最近的研究表明,具有更少參數但使用高質量訓練數據的模型可以達到與一些更大模型(Falcon-40B 對比 LLaMA-65B)相當甚至更好的結果 [1]。如何高效地進一步提升 LLM 的性能仍然是一個未解決的問題。

圖片

(4) 長度較長的問題: 

研究將模型的真實標簽置信度(四個選項中的 softmax)視為問題難度的估計,并在圖 6 中比較了 Falcon-40B 的問題難度與問題長度之間的關系。研究進行了回歸分析,發現問題長度與真實標簽置信度之間的相關性略微正相關。

圖片

 (5) 含有否定詞的問題:

先前的研究指出語言模型可能在處理否定句時遇到困難 [2]。為了研究該問題在中文語境中是否存在,本文比較了不同模型在包含否定詞和不包含否定詞的問題子集上的性能。結果在表格 3 中展示。

所有模型在包含否定詞的問題上的表現相對較差,強調了大型語言模型的這一常見限制。有趣的是,在沒有進行微調的模型上,少樣本示例緩解了否定問題的性能下降。這使研究團隊推斷,這些模型(LLaMA-65B 和 Falcon-40B) 在預訓練過程中已經獲得了相當多的知識。隨后的指導性微調或通過人類反饋進行強化學習可以幫助它們有效地解決否定問題。

圖片圖片

(6) 含有子選項的問題:

在各種中文考試中,有一種典型的問題類型稱為 「子選項問題」。這些問題包括一個主要陳述和多個子選項,并詢問子選項的數量、順序或選擇,需要模型具備更深層的推理和推斷能力(見圖 7 中的示例)。表格 4 顯示了評估結果。

所有這些 LLM 在子選項問題上的表現較弱。ChatGPT 在子選項問題上的性能顯著下降約 20%,而其他模型的下降范圍在 5% 至 15% 之間。對比多語言模型和中文定向模型,子選項問題與其他問題之間的性能差距較大超過 10%,后者性能差距在 10% 以下。這也許是因為訓練數據中的這種情況在中文語言中更為常見。

結論

本文介紹了 CMMLU,這是一個具有開創性意義的基準測試,旨在評估中文多任務語言理解能 力。研究的實驗發現揭示了現有大型語言模型中存在的改進機會。通過廣泛的分析,研究確定了影響模型性能的幾個因素,并提出了改進 LLM 的可行方向。研究團隊相信。他們的基準數據集和分析洞察力將使研究人員能夠有效評估和設計中文 LLM。

更多的研究內容可以查閱原始論文。

責任編輯:張燕妮 來源: PaperWeekly
相關推薦

2024-11-04 12:48:12

2024-12-11 13:30:00

2013-08-13 14:39:29

多任務下載

2022-09-28 15:34:06

機器學習語音識別Pytorch

2024-02-02 21:53:58

AI訓練

2024-08-14 14:06:01

2024-07-15 07:52:00

2022-12-12 10:35:00

2015-07-14 16:15:22

2022-06-13 10:43:11

谷歌模型學者

2022-06-08 06:38:00

iPadOS 16SafariiCloud

2012-05-18 13:26:11

HTC

2023-12-08 07:48:42

GPT模型時間序列

2025-10-15 14:02:29

AI模型自動駕駛

2025-01-22 16:57:32

字節跳動豆包大模型

2025-07-17 09:21:11

2023-07-05 09:57:11

2021-04-21 15:22:40

機器人人工智能系統
點贊
收藏

51CTO技術棧公眾號

少妇在线看www| 91精品国产乱码在线观看| 免费在线成人激情电影| 亚洲欧美自拍偷拍| 波多野结衣久草一区| 日韩精品在线免费视频| 日韩中文在线电影| 亚洲福利在线视频| 激情 小说 亚洲 图片: 伦| a黄色片在线观看| 97久久人人超碰| 91精品久久久久久久久久| 中文字幕欧美精品日韩中文字幕| 最近看过的日韩成人| 免费看国产片在线观看| 日本va欧美va精品发布| 高清亚洲成在人网站天堂| 国产午夜精品久久久久久久久| 91精品国产自产精品男人的天堂| 欧洲一区二区三区在线| 中国丰满熟妇xxxx性| 成人性爱视频在线观看| 99精品国产热久久91蜜凸| 91香蕉国产在线观看| 亚洲综合图片网| 亚洲黄色三级| 久久人人爽人人爽人人片亚洲| 一区二区不卡免费视频| 一区二区三区四区视频免费观看| 欧美日韩色综合| 久久精品视频16| a天堂中文在线| 91麻豆福利精品推荐| 成人羞羞视频免费| 一级片视频免费| 日本免费在线视频不卡一不卡二| 88xx成人精品| 免费人成视频在线| 91精品国产成人观看| 中国日韩欧美久久久久久久久| 久久一区二区电影| 波多野结衣在线一区二区 | 一本一道久久a久久精品逆3p | 亚洲人视频在线观看| 粉嫩av一区二区三区在线播放| 成人性生交大片免费看小说 | 国产在线精品不卡| 国产精品久久一区主播| 特级毛片www| 国产精品综合| 欧美伊久线香蕉线新在线| 亚洲国产精一区二区三区性色| 午夜久久tv| 久久91亚洲精品中文字幕奶水| 91 在线视频| 亚洲精品成人| 欧美俄罗斯性视频| 国产一级性生活| 99在线观看免费视频精品观看| 97久久久久久| 在线天堂中文字幕| 丝袜美腿亚洲一区| 国产精品永久免费在线| 亚洲资源在线播放| 国产精品亚洲视频| 精品国产一区二区三区日日嗨| 色wwwwww| 久久精品一二三| 一区二区三区在线视频看| 成人毛片av在线| 亚洲一区在线播放| 看av免费毛片手机播放 | 成人免费网站在线| www.香蕉视频| 91网站黄www| 色噜噜色狠狠狠狠狠综合色一| 日本三级视频在线观看| 亚洲一区视频在线| 久草在在线视频| 亚洲色图综合| 亚洲精品动漫久久久久| 一级黄色片网址| 欧美日本免费| 国产成人av在线| 97精品人妻一区二区三区| 国产精品亚洲第一| 欧美一区二区三区四区在线观看地址 | 午夜欧美激情| 欧美日韩国产精品自在自线| 欧洲成人午夜精品无码区久久| 欧美大胆视频| 精品国产拍在线观看| 日韩大片免费在线观看| 人人爽香蕉精品| 福利视频一区二区三区| 国产中文在线| 一个色妞综合视频在线观看| www日韩视频| 国产精品videossex| 在线不卡国产精品| 国产极品在线播放| 激情综合一区二区三区| 就去色蜜桃综合| 91极品在线| 在线免费观看日韩欧美| 北京富婆泄欲对白| 亚洲草久电影| 国产精品久久视频| 日本一卡二卡四卡精品| 亚洲欧美韩国综合色| 欧美日韩在线免费播放| 99亚洲乱人伦aⅴ精品| 爱福利视频一区| 国产情侣免费视频| av网站一区二区三区| 国产精品av免费| 在线看欧美视频| 亚洲精品美女在线观看| 久草视频免费播放| 狠狠色综合播放一区二区| 欧美亚洲丝袜| 久久青草伊人| 精品99999| 欧美成人手机视频| 国产一区二区免费看| 杨幂一区欧美专区| 久久久人成影片一区二区三区在哪下载 | 欧美激情在线观看视频| 国产丝袜视频在线观看| 国产精品久久夜| 亚洲一区二区蜜桃| 久草精品在线| 日韩免费观看视频| 男操女在线观看| 色综合夜色一区| 国产一级二级在线观看| 激情久久中文字幕| 国产精品综合久久久久久| 天堂亚洲精品| 日韩美女一区二区三区| 全网免费在线播放视频入口| 男女视频一区二区| 亚洲成人精品电影在线观看| 日韩高清成人| 永久免费毛片在线播放不卡| 免费黄色一级大片| 国产精品欧美一区二区三区| 亚洲免费黄色网| 999视频精品| 成人网中文字幕| 97caopron在线视频| 91精品在线观看入口| 国产67194| 成人综合婷婷国产精品久久免费| 日本香蕉视频在线观看| av成人综合| 91av在线免费观看视频| 青青草手机在线| 在线精品国精品国产尤物884a | 亚洲尤物视频在线| 国产乱淫av麻豆国产免费| 黄色国产精品| 欧美高清视频一区| 777午夜精品电影免费看| 中文字幕一区二区三区电影| 国产又粗又黄又爽视频| 一区二区成人在线观看| 制服丝袜第二页| 奇米888四色在线精品| 99re99热| 精品国产一区二区三区成人影院 | 国产亚洲欧美日韩在线观看一区二区 | 在线播放成人| 久久久久亚洲精品国产| 天堂a中文在线| 欧美挠脚心视频网站| 久久黄色小视频| 久久久精品国产免费观看同学| 亚洲色图 在线视频| 欧美日本三区| 日韩欧美视频一区二区| 欧州一区二区三区| 欧美有码在线观看| av网站在线免费看推荐| 日韩二区三区在线| 一区二区精品视频在线观看| 亚洲国产日日夜夜| 一级黄色片网址| 成人免费视频一区| 在线免费av播放| 亚洲国产高清一区| 色99中文字幕| 国产66精品| 91九色视频在线| 亚洲天堂电影| 久久6精品影院| 国产高清在线观看| 亚洲韩国青草视频| av中文字幕观看| 欧美亚洲综合色| 日韩免费黄色片| 亚洲丝袜美腿综合| 波多野结衣片子| av在线播放不卡| 亚洲一区二区偷拍| 视频一区二区中文字幕| 日本a级片在线播放| 日韩一区三区| 麻豆传媒一区| 国产厕拍一区| 99高清视频有精品视频| 欧美激情啪啪| 国产精品久久久久久久久男 | 国产日韩欧美视频在线| 少妇视频一区| 久久久久中文字幕2018| 国产不卡在线| 日韩在线观看免费| 国产精品一区二区三区四区色| 亚洲国产成人一区| 亚洲成人中文字幕在线| 91精品国产日韩91久久久久久| 久久精品视频2| 欧美日韩亚洲一区二| 国产精品30p| 亚洲一区二区三区免费视频| 破处女黄色一级片| ...av二区三区久久精品| 99国产精品免费| 日本一区二区三区高清不卡| 日韩精品卡通动漫网站| av亚洲精华国产精华精华| 曰本三级日本三级日本三级| 国产一区二区免费视频| 91 视频免费观看| 韩国精品在线观看 | 成+人+亚洲+综合天堂| 美女扒开腿免费视频| 成人一二三区视频| 成人做爰69片免费| 国产不卡一区视频| 丰满岳乱妇一区二区| 成人精品电影在线观看| www.男人天堂| 91一区二区三区在线观看| 黄色免费看视频| 91色九色蝌蚪| 日本xxxxxxxxx18| 中文子幕无线码一区tr| 亚洲高潮女人毛茸茸| 一区在线中文字幕| 免费国产羞羞网站美图| 亚洲精品乱码久久久久久久久| 在线观看亚洲网站| 一区二区三区四区不卡视频| 国产亚洲成人精品| 天天综合天天综合色| chinese国产精品| 欧美日韩一区在线| 国产喷水吹潮视频www| 日韩免费视频一区二区| 手机av免费在线观看| 亚洲无亚洲人成网站77777| 日本蜜桃在线观看| 欧美日产国产成人免费图片| av资源新版天堂在线| 欧美综合一区第一页| 成人午夜一级| aa日韩免费精品视频一| 欧美亚洲色图校园春色| 日韩欧美三级电影| 欧美日韩视频| 日本三区在线观看| 精品一区二区三区久久久| 亚洲一区二区三区四区av| 久久综合狠狠综合久久综合88 | 欧美片第1页综合| 日本www在线播放| 国产一区二区在线视频| a级一a一级在线观看| 中文字幕欧美日本乱码一线二线| 永久免费看黄网站| 一本大道久久精品懂色aⅴ| 这里只有精品9| 亚洲黄色片网站| 9191在线| 51久久精品夜色国产麻豆| 日韩电影免费观看高清完整版在线观看| 5g影院天天爽成人免费下载| 亚洲人成网站77777在线观看| 中文字幕欧美日韩一区二区三区| 尤物在线精品| 亚洲午夜精品一区| 91丨porny丨户外露出| 特一级黄色录像| 在线免费精品视频| 欧美一级在线免费观看| 精品国偷自产在线| 中文字幕人成乱码在线观看| 91在线国产电影| 精品国产不卡| 国产a级片网站| 激情成人综合网| 制服 丝袜 综合 日韩 欧美| 亚洲一区二区成人在线观看| 91欧美日韩麻豆精品| 亚洲欧美色婷婷| 激情网站在线| 亚洲影院在线看| 成人情趣视频网站| 欧美视频第三页| 99久久伊人久久99| 劲爆欧美第一页| 67194成人在线观看| www.中文字幕久久久| 欧美中文在线观看国产| 牛牛视频精品一区二区不卡| 熟女视频一区二区三区| 奇米综合一区二区三区精品视频| 精品中文字幕在线播放| 亚洲一区二区免费视频| 国产jzjzjz丝袜老师水多| 中文字幕视频一区二区在线有码| 涩涩视频网站在线观看| 国产日产精品一区二区三区四区| 欧美在线二区| 中文字幕一区二区在线观看视频 | 久久综合久久综合九色| 日韩欧美中文字幕一区二区| 精品国产人成亚洲区| 蜜臀av在线| 国产高清精品一区| 狠狠干综合网| 国产高潮失禁喷水爽到抽搐| 欧美激情在线一区二区三区| 黄色小说在线观看视频| 欧美一区二区成人6969| 欧美日韩xx| 国产精品入口尤物| 欧美日韩国产免费观看视频| 久久精品在线免费视频| 秋霞国产午夜精品免费视频| 免费在线观看成年人视频| 同产精品九九九| 天天综合在线视频| 久久久伊人欧美| 亚洲中文字幕无码专区| 国内精品自线一区二区三区视频| 日韩视频在线观看免费视频| 在线一区二区三区四区五区| 黄色av网址在线免费观看| 97精品久久久午夜一区二区三区 | 亚洲爆乳无码专区| 99久久精品免费看国产 | 欧美性感一类影片在线播放| 91在线高清| 成人精品福利视频| 一个色综合网| 在线播放第一页| 欧美日韩一区免费| av网站在线免费观看| 91视频免费网站| 亚洲看片一区| 在线观看国产精品一区| 欧美日韩日日夜夜| 四虎亚洲精品| 久久久久网址| 蜜臀久久久99精品久久久久久| 日韩精品一区二区亚洲av性色| 欧美xxxx老人做受| 北岛玲heyzo一区二区| 午夜精品区一区二区三| 国产一区二区调教| 日本一级黄色录像| 亚洲夜晚福利在线观看| 91精品国产色综合久久不卡粉嫩| 国产成人永久免费视频| 久久精品一区二区三区不卡牛牛 | 99精品视频网站| 成人免费看黄yyy456| 中文字幕在线观看视频免费| 久久成人免费视频| 亚洲精品3区| 91免费视频污| 日韩欧美综合在线视频| 免费不卡视频| 久久综合婷婷综合| 激情六月婷婷久久| 狠狠人妻久久久久久综合| 精品国产依人香蕉在线精品| 久久精品论坛| 激情在线观看视频| 欧美日韩国产丝袜另类| 国产成人高清精品| 日韩免费av电影| 成年人午夜久久久| 国产熟女一区二区三区四区| 日韩美女av在线免费观看| 欧美日本一区二区视频在线观看| 欧美另类z0zx974|