精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?

發(fā)布于 2024-6-7 12:36
瀏覽
1收藏

一、背景

在過(guò)去的一年多里,國(guó)內(nèi)在大模型領(lǐng)域的發(fā)展異常迅速,涌現(xiàn)出上百個(gè)大模型,許多模型已經(jīng)迭代了多個(gè)版本,并且各種指標(biāo)不斷刷新。與此同時(shí),我們也經(jīng)常在國(guó)內(nèi)的一些文章中看到聲稱“吊打 LLaMA 3”或“媲美 GPT-4”的說(shuō)法。那么,國(guó)內(nèi)的大模型真的已經(jīng)達(dá)到對(duì)標(biāo) OpenAI 的水平了嗎?

實(shí)際上,由于大模型的評(píng)估指標(biāo)種類繁多,各種文章中所對(duì)比的模型也不盡相同,甚至有時(shí)會(huì)出現(xiàn)一些誤導(dǎo)信息。因此,我們決定系統(tǒng)性梳理一下公認(rèn)性能較強(qiáng)的大模型的相關(guān)指標(biāo),以全面了解各種模型的能力。

如下圖展示了我們梳理的一部分常見文本類基準(zhǔn)評(píng)估指標(biāo)(圖中的不同底色表示數(shù)據(jù)來(lái)源,比如淡綠色表示數(shù)據(jù)來(lái)自 LLaMA 3 官方,淡藍(lán)色表示數(shù)據(jù)來(lái)自 Claude 3 Paper,灰色表示來(lái)自 OpenAI 官方,淡紫色表示來(lái)自 Mixtral 官方等)。需要說(shuō)明的是,這僅僅是部分常見指標(biāo),也并未涉及多模態(tài)基準(zhǔn)評(píng)估。此外,由于數(shù)據(jù)比較多,且來(lái)源繁雜,難免會(huì)有遺漏或錯(cuò)誤的地方,歡迎指出和糾正。本文中,我們也會(huì)簡(jiǎn)單介紹在收集這些數(shù)據(jù)時(shí)發(fā)現(xiàn)的一些問(wèn)題,遇到的困惑,以及具體數(shù)據(jù)的來(lái)源,以便大家也能更準(zhǔn)確的分辨各種大模型的能力。

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

二、引言

2.1 評(píng)估指標(biāo)

常見的文本任務(wù)評(píng)估指標(biāo)包括如下幾個(gè):

  • MMLU:通用知識(shí)和推理能力。
  • MATH:數(shù)學(xué)解決問(wèn)題能力。
  • GSM8K:小學(xué)數(shù)學(xué)。
  • HumanEval:Python 編碼任務(wù)。
  • GPQA:大學(xué)生物、物理和化學(xué)問(wèn)答。
  • DROP:閱讀理解和算術(shù)。
  • Big-Bench-Hard:綜合評(píng)估。
  • ARC-Challenge:常識(shí)推理。
  • HellaSwag:常識(shí)推理。
  • AGIEval:大學(xué)入學(xué)考試和資格考試。
  • MT-Bench:多輪對(duì)話基準(zhǔn)測(cè)試。
  • AlpacaEval 2.0:指令跟隨能力。

2.2 評(píng)估框架

Harness 是 EleutherAI 開源的 LLM 評(píng)估框架,對(duì)應(yīng)的代碼庫(kù)為:GitHub - EleutherAI/lm-evaluation-harness: A framework for few-shot evaluation of language models.。也是 Huggingface 官方 Open-LLM-Leaderboard (a Hugging Face Space by open-llm-leaderboard)后端使用的評(píng)估框架,在很多論文中被使用。

Helm 是斯坦福大學(xué)開發(fā)的 LLM 評(píng)估框架,對(duì)應(yīng)的論文為:[2211.09110] Holistic Evaluation of Language Models,對(duì)應(yīng)的代碼庫(kù)為:??https://github.com/stanford-crfm/helm??。其可以評(píng)估模型在 12 個(gè)方面的能力。

simple-evals 是 OpenAI 最近開源的針對(duì)幾個(gè)常見指標(biāo)的評(píng)估工具 (GitHub - openai/simple-evals),也是其 GPT-4o 使用的評(píng)估工具。如下圖所示為其對(duì)應(yīng)的評(píng)估結(jié)果:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

OpenCompass 是一個(gè)國(guó)內(nèi)常用的評(píng)估框架,對(duì)應(yīng)的代碼庫(kù)為:OpenCompass is an LLM evaluation platform, supporting a wide range of models (Llama3, Mistral, InternLM2,GPT-4,LLaMa2, Qwen,GLM, Claude, etc) over 100+ datasets.。其也提供詳細(xì)的 Leaderboard:OpenCompass司南。如下圖所示:


LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

2.3 Few-shot & CoT

在評(píng)估中經(jīng)常會(huì)使用 few-shot 和 CoT 方法,如下圖所示(圖片來(lái)自 [2205.11916] Large Language Models are Zero-Shot Reasoners)為 0-shot,few-shot 以及是否包含 CoT 的區(qū)別,簡(jiǎn)單來(lái)說(shuō):

  • few-shot就是表示 Prompt 中會(huì)提供一些示例,沒(méi)有示例表示為 0-shot,5 個(gè)示例為 5-shot。
  • CoT就是在 Prompt 中會(huì)提供 CoT(Chain of Thought,[2201.11903] Chain-of-Thought Prompting Elicits Reasoning in Large Language Models),也就是推理過(guò)程。其中最經(jīng)典的 CoT 為 “Let’s think step by step.”。?

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在基準(zhǔn)評(píng)估中,為了公平對(duì)比,使用相同的配置才有參考價(jià)值。然而部分評(píng)估中并未清晰的列出對(duì)應(yīng)的配置,如下圖所示分別為 Introducing Qwen1.5 | Qwen 官網(wǎng)上關(guān)于 Qwen1.5 和 零一萬(wàn)物 上關(guān)于 Yi-1.5 模型的各種指標(biāo),很多都沒(méi)有明確指出對(duì)應(yīng)的配置,導(dǎo)致部分指標(biāo)無(wú)法對(duì)齊:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

2.4 Base 模型 & Instruction 模型

現(xiàn)在有很多開源的 LLM 都會(huì)提供 Base 模型和 Instruction 模型,其中:

  • Base 模型:是在大量未標(biāo)注的通用文本數(shù)據(jù)上進(jìn)行無(wú)監(jiān)督訓(xùn)練,比如網(wǎng)頁(yè)、書籍、代碼、新聞文章等。Base 模型適用于需要廣泛自然語(yǔ)言理解和生成的場(chǎng)景,但對(duì)具體的任務(wù)可能不如專用模型。
  • Instruction 模型:通常是在 Base 模型基礎(chǔ)上,使用經(jīng)過(guò)人工標(biāo)注或篩選的指令數(shù)據(jù)通過(guò)有監(jiān)督微調(diào)訓(xùn)練而來(lái)。這些數(shù)據(jù)的質(zhì)量通常很高,而且有些時(shí)候會(huì)針對(duì)特定場(chǎng)景。這類模型更適合需要特定指令進(jìn)行操作的場(chǎng)景。

雖然 Instruction 模型也是基于 Base 模型微調(diào),但是他們的評(píng)估指標(biāo)可能會(huì)有比較大的區(qū)別,如下圖所示(meta-llama/Meta-Llama-3-70B · Hugging Face),對(duì)于 MMLU 指標(biāo):

  • LLaMA 2模型的 Base 模型都比 Instruction 模型高,甚至差了 10 分以上。
  • LLaMA 3模型的 Base 模型都比 Instruction 模型低。?

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

我們?cè)谑占瘮?shù)據(jù)的時(shí)候發(fā)現(xiàn)很多地方會(huì)混淆兩個(gè)模型的指標(biāo),比如經(jīng)常看的 LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys 中就混淆了 Qwen1.5-110B 以及 Qwen1.5-72B 的 Base 模型和 Instruction 模型。參考 Qwen-1.5 的官方博客 Qwen1.5-110B:Qwen1.5系列的首個(gè)千億參數(shù)開源模型| Qwen,下圖中的 MT-bench 指標(biāo)確實(shí)是 Qwen1.5-110B-Chat(Instruction)和 Qwen1.5-72B-Chat(Instruction)模型,但 MMLU 對(duì)應(yīng)的是 Qwen1.5-110B(Base)和 Qwen1.5-72B(Base)模型:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

2.5 不同模型版本

早期的 LLM 通常都會(huì)發(fā)布詳細(xì)的技術(shù)報(bào)告,包括具體版本和性能指標(biāo)的說(shuō)明。然而,最近的很多 LLM 僅以簡(jiǎn)單的博客頁(yè)面形式發(fā)布,甚至缺乏對(duì)模型及其評(píng)估指標(biāo)的詳細(xì)介紹,特別是一些閉源模型。這種變化為不同模型之間的橫向?qū)Ρ葞?lái)了很大的挑戰(zhàn)。如下圖所示為 LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys 榜單,可以看出,排名前 12 的模型中,GPT-4 就有 4 個(gè)版本,Gemini-1.5 也有三個(gè)版本:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

2.6 評(píng)估工具差異

很多公司都有自己的評(píng)估工具,其有些時(shí)候不會(huì)和開源社區(qū)的評(píng)估方式完全對(duì)齊,導(dǎo)致評(píng)估指標(biāo)的差異。比如在 DeepSeek-V2([2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model)中,作者使用了內(nèi)部評(píng)估工具,導(dǎo)致有些結(jié)果和我們從 Qwen1.5 72B、Mixtral 8x22B 和 LLaMA3 70B 官方報(bào)告中看到的結(jié)果不太一致,圖中紅色部分為相應(yīng)的官方數(shù)據(jù):

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在浪潮的源 2.0-M32 [2405.17976] Yuan 2.0-M32: Mixture of Experts with Attention Router 中,作者也提供了 Qwen1.5-72B Chat 的結(jié)果,但是看著是直接引用了下圖所示 DeepSeek-V2-Chat 的結(jié)果。但是源 2.0-M32 中并沒(méi)有說(shuō)明自己使用的評(píng)估工具。

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

2.7 數(shù)據(jù)污染

數(shù)據(jù)污染問(wèn)題在大模型訓(xùn)練中非常常見,沒(méi)有經(jīng)過(guò)仔細(xì)的數(shù)據(jù)清理過(guò)程,很可能會(huì)在訓(xùn)練集中混入部分基準(zhǔn)評(píng)估數(shù)據(jù)。比如,OpenAI 的 GPT-4 Paper 中提到,其發(fā)現(xiàn)訓(xùn)練集中不小心混入了 BIG-Bench 數(shù)據(jù),所以 GPT-4 Paper 中并未提供 BIG-Bench Hard 的評(píng)估結(jié)果。

最近 Scale AI 的研究員研究了 GSM-8K 數(shù)據(jù)泄漏問(wèn)題,對(duì)應(yīng)的 Paper 為:[2405.00332] A Careful Examination of Large Language Model Performance on Grade School Arithmetic。作者通過(guò)人工標(biāo)注方式構(gòu)建了 GSM-1K 數(shù)據(jù)集,其難度與 GSM-8K 類似,包含 1250 道小學(xué)數(shù)學(xué)題。作者使用該數(shù)據(jù)集對(duì)一些開源和閉源 LLM 進(jìn)行了基準(zhǔn)測(cè)試,發(fā)現(xiàn)部分模型在 GSM-1K 上的性能甚至比 GSM-8K 低 10% 以上,比如 math-shepherd-mistral-7b-rl 指標(biāo)低了將近 13%;而 Claude 3 和 GPT-4 模型指標(biāo)沒(méi)有下降:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

如下圖所示為部分詳細(xì)數(shù)據(jù),可以看出其包含了多個(gè)我們常見的模型,甚至是微軟最近發(fā)布的非常強(qiáng)大的小模型 Phi-3:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

三、MMLU

[2009.03300] Measuring Massive Multitask Language Understanding 評(píng)估集是為了衡量文本模型的多任務(wù)準(zhǔn)確性,其涵蓋涵蓋人文科學(xué)(humanitities)、社會(huì)科學(xué)(social science)、自然科學(xué)(hard sciences)等領(lǐng)域的 57 個(gè)子任務(wù),比如小學(xué)數(shù)學(xué)、美國(guó)歷史、計(jì)算機(jī)科學(xué)、法律等。題目都是多項(xiàng)選擇題,通過(guò)測(cè)試語(yǔ)言模型在不同領(lǐng)域的知識(shí)和推理能力來(lái)評(píng)估其綜合性能。

與其他語(yǔ)言理解評(píng)估集(如 GLUE、SuperGLUE 等)相比,MMLU 的任務(wù)種類更多,覆蓋面更廣,能夠更加全面地評(píng)估大規(guī)模語(yǔ)言模型的能力。這使得 MMLU 成為當(dāng)前評(píng)估大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型的一個(gè)重要工具。幾乎每個(gè) LLM 都會(huì)評(píng)估并對(duì)比其在 MMLU 基準(zhǔn)上的能力,而且絕大部分都是評(píng)估 5-shot 能力,少量模型會(huì)評(píng)估 5-shot+CoT 能力,比如 The Claude 3 Model Family: Opus, Sonnet, Haiku。

MMLU 指標(biāo)相對(duì)比較統(tǒng)一,基本不會(huì)有太多歧義。然而,在 Massive Multitask Language Understanding (MMLU) on HELM 中,作者發(fā)現(xiàn)很多模型聲稱的 MMLU 指標(biāo)和 Helm 中評(píng)估出來(lái)的有較大差距,如下圖所示:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

四、GSM-8K

各種模型基本都會(huì)提供 GSM-8K 評(píng)估結(jié)果,但對(duì)應(yīng)的評(píng)估結(jié)果比較混亂。比如,有些是 0-shot+CoT 結(jié)果,有些是 8-shot+CoT,有些是 5-shot+CoT,甚至有些是 11-shot。Google Gemini([2403.05530] Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context) 之前被吐槽的一個(gè)點(diǎn)就是拿 GSM-8K 11-shot 的結(jié)果和其他模型 8-shot,5-shot 的結(jié)果對(duì)比。

如下圖所示為 GPT-4([2303.08774] GPT-4 Technical Report)中的關(guān)鍵結(jié)果,可以看出其 GSM-8K 的 92.0 為 5-shot+CoT 的結(jié)果,而 GPT-3.5 的 57.1 為 5-shot 的結(jié)果:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

如下圖所示為阿里的通義千問(wèn) Qwen1.5 介紹 | Qwen 中的官方評(píng)估結(jié)果,其并沒(méi)有具體介紹 GSM8K 是 5-shot 還是 8-shot(不過(guò)從其開源的評(píng)估工具可以看出是 8-shot+CoT 的結(jié)果,具體可以參考 ??https://github.com/QwenLM/Qwen/blob/main/eval/gsm8k_prompt.txt??),但是對(duì)應(yīng)的結(jié)果中 GPT-4 的 92.0 為 5-shot+CoT 結(jié)果,Mixtral-8x7B 的 74.4 確實(shí)為 8-shot+CoT 結(jié)果。

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

實(shí)際上 Mixtral 官方提供了相應(yīng) 5-shot 和 8-shot 的結(jié)果,如下圖 Figure 4 所示(Cheaper, Better, Faster, Stronger | Mistral AI | Frontier AI in your hands)其 Mixtral 8x7B 的 5-shot 結(jié)果只有 58.4:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

如下圖 Table 3 所示,零一萬(wàn)物的 Yi 模型([2403.04652] Yi: Open Foundation Models by 01.AI)也存在同樣的情況,論文中介紹的是 GSM-8K 的 8-shot 結(jié)果,但是 GPT-3.5 和 GPT-4 的是 5-shot 的結(jié)果。此外 Mistral 7B 的 GSM-8K 和 MATH 結(jié)果也比上圖中 Mistral 的官方結(jié)果或者 [2310.06825] Mistral 7B 論文中的結(jié)果要低。

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在浪潮的源 2.0-M32 [2405.17976] Yuan 2.0-M32: Mixture of Experts with Attention Router 中作者同樣將 8-shot 的 GSM-8K 結(jié)果與 5-shot 的 Mixtral-8x7B,Mixtral-8x22B 進(jìn)行比較,實(shí)際上兩個(gè)模型對(duì)應(yīng)的 8-shot 應(yīng)該為 74.4 和 88.4:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

五、MATH

MATH 的評(píng)估相對(duì)比較統(tǒng)一,基本上都是 4-shot 的結(jié)果,但是 GPT-4o,GPT-4T 相關(guān)結(jié)果都是 0-shot 的,具體也可以參考 OpenAI 的評(píng)估腳本 GitHub - openai/simple-evals,此外 Claude 3 同時(shí)提供了 0-shot 和 4-shot 結(jié)果,如下圖所示:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

六、GPQA

[2311.12022] GPQA: A Graduate-Level Google-Proof Q&A Benchmark 是一個(gè)比較新的評(píng)估集,是由生物、物理和化學(xué)領(lǐng)域的專家編寫的多項(xiàng)選擇題,問(wèn)題的質(zhì)量高且難度大。其全集 full(extended) 包含 546 個(gè)問(wèn)題,main 和 diamond 是對(duì)應(yīng)的兩個(gè)子集,分別包含 448 和 198 個(gè)問(wèn)題。如下圖 Table 6 所示為作者針對(duì) LLaMA-2-70B-Chat、GPT-3.5 和 GPT-4 的評(píng)估結(jié)果,可以看出,其也包含了 0-shot,0-shot+CoT,以及 few-shot+CoT 的配置:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在 Meta 的 LLaMA-3 meta-llama/Meta-Llama-3-70B · Hugging Face 中,作者并未特別說(shuō)明使用的哪個(gè)集合,只介紹其為 GPQA(0-shot),不過(guò)在 llama3/eval_details.md at main 中提到是 Main 集合,并且沒(méi)有說(shuō)明使用 CoT,如下圖所示:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在 The Claude 3 Model Family: Opus, Sonnet, Haiku 中,作者給出了 Claude 3 在 3 個(gè)集合上詳細(xì)的評(píng)估結(jié)果:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在 Gemini Pro - Google DeepMind 中,Google Gemini 提供了 main 集合下的評(píng)估結(jié)果:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在阿里的通義千問(wèn) Qwen1.5-110B:Qwen1.5系列的首個(gè)千億參數(shù)開源模型| Qwen 中同樣沒(méi)有介紹 GPQA 對(duì)應(yīng)的集合,甚至未介紹是否是 0-shot:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

七、HumanEval&BBH&HellaSwag&ARC-C&DROP

如下的幾個(gè)指標(biāo)相對(duì)比較統(tǒng)一,各個(gè)模型基本也都有相應(yīng)的結(jié)果,如下圖所示:

  • HumanEval通常都是采用0-shot評(píng)估
  • BIG-Bench Hard(BBH)通常采用3-shot+CoT評(píng)估
  • HellaSwag通常采用10-shot評(píng)估
  • ARC-C通常采用25-shot評(píng)估
  • DROP通常采用3-shot評(píng)估?

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

八、AlpacaEval 2.0

AlpacaEval 2.0 是一個(gè)指令遵循評(píng)估,它利用 LLM 來(lái)評(píng)估生成質(zhì)量。在 AlpacaEval 中,會(huì)傾向于生成較長(zhǎng)輸出的模型。因此,在 AlpacaEval 2.0 中,作者引入了長(zhǎng)度控制(Length-Controlled AlpacaEval),來(lái)緩解這種偏好。對(duì)應(yīng)的論文為:[2404.04475] Length-Controlled AlpacaEval: A Simple Way to Debias Automatic Evaluators。對(duì)應(yīng)的 Leaderboard 為:AlpacaEval Leaderboard。

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

九、LMSYS Chatbot Arena

國(guó)外社區(qū)經(jīng)常會(huì)使用 Chatbot Arena(LMSys Chatbot Arena Leaderboard - a Hugging Face Space by lmsys)來(lái)評(píng)估 LLM 的能力。其相當(dāng)于大模型的競(jìng)技場(chǎng),都是通過(guò)真實(shí)用戶打分結(jié)果來(lái)評(píng)估人類對(duì)模型的偏好,其更接近真實(shí)用戶場(chǎng)景,也更加客觀。對(duì)應(yīng)的論文為:[2403.04132] Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference。這也是“零一萬(wàn)物 Yi-Large 在 LMSYS 中文榜單排名第一”的來(lái)源,如下圖所示為按照 Arena Elo 排序的結(jié)果(截止 2024-06-01):

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

在 Chatbot Arena 中也提供了 MT-bench 和 MMLU 的相關(guān)指標(biāo),如下圖所示為按照 MT-bench 排序的結(jié)果:

LLM 評(píng)估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎?-AI.x社區(qū)

十、參考鏈接

  1. ??https://github.com/EleutherAI/lm-evaluation-harness??
  2. ??https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard??
  3. ??https://arxiv.org/abs/2211.09110??
  4. ??https://github.com/stanford-crfm/helm??
  5. ??https://github.com/openai/simple-evals??
  6. ??https://github.com/open-compass/OpenCompass/??
  7. ??https://rank.opencompass.org.cn/home??
  8. ??https://arxiv.org/abs/2205.11916??
  9. ??https://arxiv.org/abs/2201.11903??
  10. ??https://huggingface.co/meta-llama/Meta-Llama-3-70B??
  11. ??https://huggingface.co/spaces/lmsys/chatbot-arena-leaderboard??
  12. ??https://qwenlm.github.io/zh/blog/qwen1.5-110b/??
  13. ??https://arxiv.org/abs/2405.04434??
  14. ??https://arxiv.org/abs/2405.17976??
  15. ??https://crfm.stanford.edu/2024/05/01/helm-mmlu.html??
  16. ??https://arxiv.org/abs/2405.00332??
  17. ??https://arxiv.org/abs/2009.03300??
  18. ??https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf??
  19. ??https://arxiv.org/abs/2403.05530??
  20. ??https://arxiv.org/abs/2303.08774??
  21. ??https://qwenlm.github.io/zh/blog/qwen1.5/??
  22. ??https://github.com/QwenLM/Qwen/blob/main/eval/gsm8k_prompt.txt??
  23. ??https://mistral.ai/news/mixtral-8x22b/??
  24. ??https://arxiv.org/abs/2403.04652??
  25. ??https://arxiv.org/abs/2311.12022??
  26. ??https://arxiv.org/abs/2404.04475??
  27. ??https://tatsu-lab.github.io/alpaca_eval/??
  28. ??https://arxiv.org/abs/2403.04132???

本文轉(zhuǎn)載自 ??AI閑談??,作者: AI閑談

標(biāo)簽
收藏 1
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美交换国产一区内射| 久久婷五月综合| 裸体xxxx视频在线| 久久精品国产免费| 欧美激情久久久久| 国产 中文 字幕 日韩 在线| 亚洲精品**中文毛片| 中文字幕不卡三区| av噜噜色噜噜久久| 国产中文字幕视频| 亚洲国产成人精品女人| 日韩精品在线免费观看| 日本高清一区二区视频| 女厕盗摄一区二区三区| 中文字幕一区二区三| 久久riav二区三区| av中文字幕免费| 日韩黄色免费网站| 久久久久久久97| 一本色道久久88| 美女午夜精品| 日韩丝袜美女视频| the porn av| 狠狠操一区二区三区| 亚洲欧美偷拍卡通变态| 欧美一级爱爱| 人妻精品无码一区二区| 国产毛片精品视频| 国产精品美女久久久久av超清| 久久黄色免费视频| 国产精品99一区二区三| 亚洲精品日韩在线| 中文字幕天堂av| 成人污污www网站免费丝瓜| 色婷婷亚洲一区二区三区| 精品人妻大屁股白浆无码| 亚洲乱亚洲乱妇| 国产女主播在线一区二区| 国产伦精品一区二区三区视频黑人| 中文字字幕在线中文乱码| 久久久久久久高潮| 91高潮在线观看| 亚洲国产精品午夜在线观看| 欧美~级网站不卡| 伊人成人开心激情综合网| 国产精品无码在线| 国产精品xxxav免费视频| 日韩欧美aaaaaa| 中国老熟女重囗味hdxx| 成人51免费| 欧美日韩一级大片网址| chinese少妇国语对白| 国产高清不卡| 日韩欧美aⅴ综合网站发布| 成年人网站免费视频| av色在线观看| 亚洲 欧美综合在线网络| 伊人再见免费在线观看高清版| 欧美日本一道| 一区免费观看视频| 中文字幕av导航| 免费在线看a| 亚洲欧美日本韩国| 一二三四中文字幕| 黄页网站大全在线免费观看| 亚洲图片欧美一区| 日韩免费一级视频| 三级成人黄色影院| 91搞黄在线观看| 污视频免费在线观看网站| 亚洲精品无播放器在线播放| 欧美男人的天堂一二区| 手机在线观看日韩av| 日韩一区免费| 亚洲国产精品中文| 中文字幕 自拍| 天天揉久久久久亚洲精品| 色七七影院综合| 国产精品第七页| 九热爱视频精品视频| 亚洲性夜色噜噜噜7777| 亚洲女同二女同志奶水| 欧美激情五月| 热久久免费国产视频| 波多野结衣爱爱| 极品美女销魂一区二区三区| dy888夜精品国产专区| 亚洲色欧美另类| 欧美激情一区二区| 国产欧美123| 日韩伦理在线一区| 欧美人成免费网站| 国产草草浮力影院| 欧美中文字幕一区二区| 欧美成aaa人片免费看| 日韩欧美激情视频| 美女在线一区二区| 国产伦精品一区二区| 国产亚洲依依| 一区二区三区 在线观看视频| 少妇高潮喷水在线观看| 欧洲亚洲精品久久久久| 欧美精品一区二区久久久| 日本理论中文字幕| 欧美日韩国产在线一区| 国产精品久久一区| 日韩有码第一页| 中文字幕av一区二区三区免费看| 2022中文字幕| 久久夜夜操妹子| 日韩欧美激情四射| 神马久久久久久久久久久| 影音国产精品| 国产又爽又黄的激情精品视频| 日韩一级片免费观看| 亚洲欧洲精品一区二区精品久久久| 丰满少妇久久久| 欧美亚洲综合视频| 国产午夜精品理论片a级探花| 欧美成人综合色| 麻豆久久久久久| 欧美成人一区二区在线| 先锋成人av| 这里是久久伊人| 久久久久无码精品国产sm果冻 | 色呦呦呦在线观看| 91黄色小视频| 亚洲国产第一区| 国产综合久久| 91在线视频免费| 高清av在线| 欧美午夜电影在线| 久久久久亚洲av无码网站| 久久在线视频免费观看| 日韩av片免费在线观看| 日本精品一二区| 亚洲一区视频在线观看视频| 亚洲色图欧美自拍| 97精品在线| 国产免费一区二区三区在线观看| 水莓100国产免费av在线播放| 亚洲国产精品欧美一二99| 加勒比av中文字幕| 99久久亚洲精品蜜臀| 国产日韩精品一区二区| 国产精品秘入口| 91久久精品网| av电影网站在线观看| 久久成人在线| 日本最新一区二区三区视频观看| 亚洲天堂av影院| 日韩精品免费视频| 精品国产一区二区三区四| 99精品视频在线播放观看| 97超碰在线人人| 久久夜色电影| 4438全国亚洲精品在线观看视频| 亚欧洲精品视频| 欧美性猛交xxxx乱大交| 玖玖爱在线观看| 天堂久久一区二区三区| 日韩高清av| 日韩电影免费观看高清完整版在线观看| 在线观看国产精品日韩av| 中文字幕码精品视频网站| 国产精品人人做人人爽人人添| 国产嫩草在线观看| 国产精品久久观看| 99在线影院| 欧美激情网站| 亚洲图片欧洲图片av| 亚洲无码精品在线观看| 亚洲欧美日韩一区二区三区在线观看 | 国产999精品久久久| www 日韩| 91精品国产综合久久久蜜臀图片| 久久中文免费视频| 99久久久国产精品免费蜜臀| 国产成人久久婷婷精品流白浆| 久久av超碰| 国产免费一区二区三区香蕉精| 国产午夜精品久久久久免费视| 日韩欧美成人午夜| 久久久成人免费视频| 中文字幕一区二区三区不卡 | 激情六月天婷婷| 欧美人妖在线观看| 国产精品福利小视频| 国产剧情在线| 日韩成人在线电影网| 中文字幕人妻互换av久久| 亚洲欧美电影院| 人妻丰满熟妇av无码久久洗澡| 日本女优在线视频一区二区| 激情视频小说图片| 免费一区二区三区视频导航| 91久久久久久国产精品| av资源中文在线天堂| 最近2019中文字幕第三页视频 | 国产无遮挡aaa片爽爽| 国产亚洲一区二区三区在线观看 | 一区二区三区日韩在线| 国产黄色片网站| 色婷婷亚洲婷婷| 久久综合色综合| 国产精品欧美久久久久无广告| 91九色蝌蚪porny| 久草中文综合在线| 国产精品沙发午睡系列| 综合天天久久| 日韩一区免费观看| 精品按摩偷拍| 国产自摸综合网| 欧美成人a交片免费看| 欧美成人性色生活仑片| wwwxxx在线观看| 亚洲激情 国产| 国产成人三级一区二区在线观看一| 一本一道久久a久久精品综合蜜臀| 亚洲二区在线播放| 国产欧美一区二区三区在线看蜜臀| 图片区偷拍区小说区| 美女高潮久久久| 蜜臀久久99精品久久久酒店新书| 欧美网站在线| 天天爱天天做天天操| 激情五月色综合国产精品| 国产精品视频免费一区| 国产一区二区在线观| 国产精品视频yy9099| 爱情电影社保片一区| 97国产真实伦对白精彩视频8| 91一区二区三区在线| 久久精品电影一区二区| 岛国大片在线观看| 亚洲少妇中文在线| 日本不卡免费播放| 日韩hd视频在线观看| 丁香花免费高清完整在线播放 | 国产99久久| 精品一区国产| 欧美黑人巨大videos精品| 国产日韩一区欧美| 欧美午夜寂寞| 久久久久久久久久久久久9999| 精品视频在线你懂得| 国精产品99永久一区一区| 都市激情久久| 国精产品一区二区| 欧美人妖视频| 欧美一区二区三区电影在线观看| 亚洲自拍电影| 日韩不卡av| 日韩精品二区| 在线观看欧美亚洲| 午夜日韩激情| 久久香蕉视频网站| 亚洲福利电影| 波多野结衣综合网| 久久精品日产第一区二区| 日韩欧美精品在线观看视频| 久久久久91| 91高清国产视频| 国产美女娇喘av呻吟久久| 欧美熟妇精品一区二区| av网站一区二区三区| 30一40一50老女人毛片| 欧美国产亚洲另类动漫| 九九热久久免费视频| 亚洲美女屁股眼交3| 久久久久久久黄色| 欧美性猛交xxxx| 伊人成人在线观看| 日韩欧美激情一区| 欧美精品a∨在线观看不卡| 亚洲视频在线播放| 免费黄网站在线播放| 久久久久久久久久久久久久久久久久av| 岛国在线视频网站| 亚洲国产欧美国产综合一区| 日本一区二区在线视频观看| 久久影视一区| avav在线播放| 亚洲在线观看| 亚洲视频一二三四| 国产成人午夜视频| 国产黄片一区二区三区| 中文字幕综合网| 黄色片视频网站| 欧美日韩精品久久久| 亚洲老妇色熟女老太| 亚洲美女自拍视频| 国产1区在线| 91精品国产乱码久久久久久久久| 中国色在线日|韩| 成人有码在线视频| 日韩成人一级| 亚洲小说欧美另类激情| 亚洲免费黄色| 国产欧美激情视频| a级高清视频欧美日韩| 精品在线观看一区| 欧美日韩免费在线观看| 一级全黄少妇性色生活片| 亚洲国产一区二区三区四区| 黄网站免费在线播放| 欧美中文在线字幕| 亚洲亚洲一区二区三区| 色播亚洲婷婷| 一区二区三区导航| 好吊操视频这里只有精品| 国产日韩精品一区二区三区在线| 国产亚洲精品av| 欧美另类高清zo欧美| 九色视频在线播放| 91精品国产成人www| 欧美电影在线观看一区| 色一情一乱一伦一区二区三区丨 | 最近中文字幕日韩精品| 国产在线88av| 国产超碰91| 伊人久久大香线蕉综合四虎小说| 国产精品wwwww| 成人激情免费网站| 久久久香蕉视频| 欧美日韩日日摸| 成全电影播放在线观看国语| 97久久久免费福利网址| 9l视频自拍九色9l视频成人| 欧美亚洲视频一区| 美女任你摸久久 | 亚洲欧美一区二区三区国产精品 | 欧美videosex性欧美黑吊| 国产在线精品自拍| 欧美特黄一级大片| 欧在线一二三四区| xnxx国产精品| 97久久久久久久| 日韩精品极品在线观看| 黄色漫画在线免费看| 激情伦成人综合小说| 亚洲国产高清一区二区三区| 亚洲熟女乱综合一区二区| 亚洲精品你懂的| 一区二区的视频| 最新91在线视频| 涩涩涩久久久成人精品| 国产精品波多野结衣| 国产真实乱子伦精品视频| 日本一级片免费| 欧美一卡在线观看| 男人天堂亚洲| 国产视色精品亚洲一区二区| 亚洲精品影视| 泷泽萝拉在线播放| 色猫猫国产区一区二在线视频| 国内av一区二区三区| 国产精品一区二区电影| 天天综合网网欲色| aaaaa黄色片| 午夜av一区二区三区| 日本午夜在线| 国产精品免费久久久久影院| 久久中文字幕av| 无套白嫩进入乌克兰美女| 亚洲大型综合色站| 韩国中文免费在线视频| 国产男女猛烈无遮挡91| 在线观看国产精品入口| 亚洲麻豆一区二区三区| 精品美女久久久久久免费| 国产免费av在线| 亚洲free性xxxx护士hd| 激情综合在线| 蜜桃传媒一区二区亚洲av| 欧美色精品在线视频| 操你啦视频在线| 精品高清视频| 蜜桃av一区二区三区电影| 久草视频中文在线| 亚洲精品影视在线观看| 亚洲18在线| 精品国产一二三四区| 欧美激情一二三区| 成 人片 黄 色 大 片| 91爱爱小视频k| 91精品一区二区三区综合| 中文视频在线观看| 欧美日韩一区久久| h片视频在线观看| 日韩精品欧美在线| 懂色av中文一区二区三区 | 国产一区二区三区的电影| 先锋影音av在线| 精品毛片乱码1区2区3区| 羞羞影院欧美| 日韩激情视频一区二区| 国产精品午夜免费| 四虎永久在线精品免费网址| 国产精品日韩在线观看|