精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)

發(fā)布于 2024-4-19 09:30
瀏覽
0收藏

在 2023 年的 “百模大戰(zhàn)” 中,眾多實(shí)踐者推出了各類(lèi)模型,這些模型有的是原創(chuàng)的,有的是針對(duì)開(kāi)源模型進(jìn)行微調(diào)的;有些是通用的,有些則是行業(yè)特定的。如何能合理地評(píng)價(jià)這些模型的能力,成為關(guān)鍵問(wèn)題。


盡管?chē)?guó)內(nèi)外存在多個(gè)模型能力評(píng)測(cè)榜單,但它們的質(zhì)量參差不齊,排名差異顯著,這主要是因?yàn)樵u(píng)測(cè)數(shù)據(jù)和測(cè)試方法尚不成熟和科學(xué),而好的評(píng)測(cè)方法應(yīng)當(dāng)具備開(kāi)放性、動(dòng)態(tài)性、科學(xué)性和權(quán)威性。


為提供客觀、科學(xué)的評(píng)測(cè)標(biāo)準(zhǔn),清華大學(xué)基礎(chǔ)模型研究中心聯(lián)合中關(guān)村實(shí)驗(yàn)室研制了 SuperBench 大模型綜合能力評(píng)測(cè)框架,旨在推動(dòng)大模型技術(shù)、應(yīng)用和生態(tài)的健康發(fā)展。


近期,二者發(fā)布了 2024 年 3 月的《SuperBench 大模型綜合能力評(píng)測(cè)報(bào)告》。在此評(píng)測(cè)中,報(bào)告選定了 14 個(gè)海內(nèi)外具有代表性的模型進(jìn)行測(cè)試。對(duì)于閉源模型,選取了 API 和網(wǎng)頁(yè)兩種調(diào)用模式中得分較高的一種進(jìn)行評(píng)測(cè)。


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


根據(jù)評(píng)測(cè)結(jié)果,報(bào)告得出以下幾個(gè)主要結(jié)論:


● 整體來(lái)說(shuō),GPT-4 系列模型和 Claude-3 等國(guó)外模型在多個(gè)能力上依然處于領(lǐng)先地位,國(guó)內(nèi)頭部大模型 GLM-4 和文心一言 4.0 表現(xiàn)亮眼,與國(guó)際一流模型水平接近,且差距已經(jīng)逐漸縮小。


● 國(guó)外大模型中,GPT-4 系列模型表現(xiàn)穩(wěn)定,Claude-3 也展現(xiàn)了較強(qiáng)的綜合實(shí)力,在語(yǔ)義理解和作為智能體兩項(xiàng)能力評(píng)測(cè)中更是獲得了榜首,躋身國(guó)際一流模型。


● 國(guó)內(nèi)大模型中,GLM-4 和文心一言 4.0 在本次評(píng)測(cè)中表現(xiàn)最好,為國(guó)內(nèi)頭部模型;通義千問(wèn) 2.1、Abab6、moonshot 網(wǎng)頁(yè)版以及 qwen1.5-72b-chat 緊隨其后,在部分能力評(píng)測(cè)中亦有不俗表現(xiàn);但是國(guó)內(nèi)大模型對(duì)比國(guó)際一流模型在代碼編寫(xiě)、作為智能體兩個(gè)能力上依然有較大差距,國(guó)內(nèi)模型仍需努力。


大模型能力遷移 & SuperBench


自大語(yǔ)言模型誕生之初,評(píng)測(cè)便成為大模型研究中不可或缺的一部分。隨著大模型研究的發(fā)展,對(duì)其性能重點(diǎn)的研究也在不斷遷移。根據(jù)研究,大模型能力評(píng)測(cè)大概經(jīng)歷如下 5 個(gè)階段:


2018 年 - 2021 年:語(yǔ)義評(píng)測(cè)階段


早期的語(yǔ)言模型主要關(guān)注自然語(yǔ)言的理解任務(wù) (e.g. 分詞、詞性標(biāo)注、句法分析、信息抽取),相關(guān)評(píng)測(cè)主要考察語(yǔ)言模型對(duì)自然語(yǔ)言的語(yǔ)義理解能力。代表工作:BERT、 GPT、T5 等。


2021 年 - 2023 年:代碼評(píng)測(cè)階段


隨著語(yǔ)言模型能力的增強(qiáng),更具應(yīng)用價(jià)值的代碼模型逐漸出現(xiàn)。研究人員發(fā)現(xiàn),基于代碼生成任務(wù)訓(xùn)練的模型在測(cè)試中展現(xiàn)出更強(qiáng)的邏輯推理能力,代碼模型成為研究熱點(diǎn)。代表工作:Codex、CodeLLaMa、CodeGeeX 等。


2022 年 - 2023 年:對(duì)齊評(píng)測(cè)階段


隨著大模型在各領(lǐng)域的廣泛應(yīng)用,研究人員發(fā)現(xiàn)續(xù)寫(xiě)式的訓(xùn)練方式與指令式的應(yīng)用方式之間存在差異,理解人類(lèi)指令、對(duì)齊人類(lèi)偏好逐漸成為大模型訓(xùn)練優(yōu)化的關(guān)鍵目標(biāo)之一。對(duì)齊好的模型能夠準(zhǔn)確理解并響應(yīng)用戶的意圖,為大模型的廣泛應(yīng)用奠定了基礎(chǔ)。代表工作:InstructGPT、ChatGPT、GPT4、ChatGLM 等。


2023 年 - 2024 年:智能體評(píng)測(cè)階段


基于指令遵從和偏好對(duì)齊的能力,大模型作為智能中樞對(duì)復(fù)雜任務(wù)進(jìn)行拆解、規(guī)劃、決策和執(zhí)行的能力逐漸被發(fā)掘。大模型作為智能體解決實(shí)際問(wèn)題也被視為邁向通用人工智能(AGI)的重要方向。代表工作:AutoGPT、AutoGen 等。


2023 年 - future:安全評(píng)測(cè)階段


隨著模型能力的提升,對(duì)模型安全性和價(jià)值觀的評(píng)估、監(jiān)管與強(qiáng)化逐漸成為研究人員關(guān)注的重點(diǎn)。加強(qiáng)對(duì)潛在風(fēng)險(xiǎn)的研判,確保大模型的可控、可靠和可信,是未來(lái) “AI 可持續(xù)發(fā)展” 的關(guān)鍵問(wèn)題。


因此,為了全面地評(píng)估大模型的各項(xiàng)能力,SuperBench 評(píng)測(cè)體系包含了語(yǔ)義、代碼、對(duì)齊、智能體和安全等五個(gè)評(píng)測(cè)大類(lèi),28 個(gè)子類(lèi)。


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


評(píng)測(cè)結(jié)果


PART/1 語(yǔ)義評(píng)測(cè)


ExtremeGLUE 是一個(gè)包含 72 個(gè)中英雙語(yǔ)傳統(tǒng)數(shù)據(jù)集的高難度集合,旨在為語(yǔ)言模型提供更嚴(yán)格的評(píng)測(cè)標(biāo)準(zhǔn),采用零樣本 CoT 評(píng)測(cè)方式,并根據(jù)特定要求對(duì)模型輸出進(jìn)行評(píng)分。報(bào)告首先使用了超過(guò) 20 種語(yǔ)言模型進(jìn)行初步測(cè)試,包括了 GPT-4、Claude、Vicuna、WizardLM 和 ChatGLM 等。基于所有模型的綜合表現(xiàn),決定了每個(gè)分類(lèi)中挑選出難度最大的 10%~20% 數(shù)據(jù),將它們組合為 "高難度傳統(tǒng)數(shù)據(jù)集"。


評(píng)測(cè)方法 & 流程


●  評(píng)測(cè)方式:收集了 72 個(gè)中英雙語(yǔ)傳統(tǒng)數(shù)據(jù)集,提取其中高難度的題目組成 4 個(gè)維度的評(píng)測(cè)數(shù)據(jù)集,采取零樣本 CoT 評(píng)測(cè)方式,各維度得分計(jì)算方式為回答正確的題目數(shù)所占百分比,最終總分取各維度的平均值。


●  評(píng)測(cè)流程:根據(jù)不同題目的形式和要求,對(duì)于模型的零樣本 CoT 生成的結(jié)果進(jìn)行評(píng)分。


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


整體表現(xiàn):


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


在語(yǔ)義理解能力評(píng)測(cè)中,各模型形成了三個(gè)梯隊(duì),70 分檔為第一梯隊(duì),包括 Claude-3、GLM-4、文心一言 4.0 以及 GPT-4 系列模型;其中 Claude-3 得分為 76.7,位居第一;國(guó)內(nèi)模型 GLM-4 和文心一言 4.0 則超過(guò) GPT-4 系列模型位居第二和第三位,但是和 Claude-3 有 3 分差距。


分類(lèi)表現(xiàn):


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


●  知識(shí) - 常識(shí):Claude-3 以 79.8 分領(lǐng)跑,國(guó)內(nèi)模型 GLM-4 表現(xiàn)亮眼,超過(guò) GPT-4 網(wǎng)頁(yè)版位居第二;文心一言 4.0 表現(xiàn)不佳,距離榜首 Claude-3 有 12.7 分差距。


●  知識(shí) - 科學(xué):Claude-3 依然領(lǐng)先,并且是唯一一個(gè) 80 分以上模型;文心一言 4.0、GPT-4 系列模型以及 GLM-4 模型均在 75 分以上,為第一梯隊(duì)模型。


●  數(shù)學(xué):Claude-3 和文心一言 4.0 并列第一,得 65.5 分,GLM-4 領(lǐng)先 GPT-4 系列模型位列第三,其他模型得分在 55 分附近較為集中,當(dāng)前大模型在數(shù)學(xué)能力上仍有較大提升空間。


●  閱讀理解:各分?jǐn)?shù)段分布相對(duì)較為平均,文心一言 4.0 超過(guò) GPT-4 Turbo、Claude-3 以及 GLM-4 拿下榜首。


PART/2 代碼評(píng)測(cè)


NaturalCodeBench(NCB)是一個(gè)評(píng)估模型代碼能力的基準(zhǔn)測(cè)試,傳統(tǒng)的代碼能力評(píng)測(cè)數(shù)據(jù)集主要考察模型在數(shù)據(jù)結(jié)構(gòu)與算法方面的解題能力,而 NCB 數(shù)據(jù)集側(cè)重考察模型在真實(shí)編程應(yīng)用場(chǎng)景中寫(xiě)出正確可用代碼的能力。


所有問(wèn)題都從用戶在線上服務(wù)中的提問(wèn)篩選得來(lái),問(wèn)題的風(fēng)格和格式更加多樣,涵蓋數(shù)據(jù)庫(kù)、前端開(kāi)發(fā)、算法、數(shù)據(jù)科學(xué)、操作系統(tǒng)、人工智能、軟件工程等七個(gè)領(lǐng)域的問(wèn)題,可以簡(jiǎn)單分為算法類(lèi)和功能需求類(lèi)兩類(lèi)。題目包含 java 和 python 兩類(lèi)編程語(yǔ)言,以及中文、英文兩種問(wèn)題語(yǔ)言。每個(gè)問(wèn)題都對(duì)應(yīng) 10 個(gè)人類(lèi)撰寫(xiě)矯正的測(cè)試樣例,9 個(gè)用于測(cè)試生成代碼的功能正確性,剩下 1 個(gè)用于代碼對(duì)齊。


評(píng)測(cè)方法 & 流程


●  評(píng)測(cè)方式:運(yùn)行模型生成的函數(shù),將輸出結(jié)果與準(zhǔn)備好的測(cè)例結(jié)果進(jìn)行比對(duì)進(jìn)行打分。將輸出結(jié)果與準(zhǔn)備好的測(cè)例結(jié)果進(jìn)行比對(duì)進(jìn)行打分,最終計(jì)算生成代碼的一次通過(guò)率 pass@1。


●  評(píng)測(cè)流程:給定問(wèn)題、單元測(cè)試代碼、以及測(cè)例,模型首先根據(jù)問(wèn)題生成目標(biāo)函數(shù);運(yùn)行生成的目標(biāo)函數(shù),以測(cè)例中的輸入作為參數(shù)得到函數(shù)運(yùn)行輸出,與測(cè)例中的標(biāo)準(zhǔn)輸出進(jìn)行比對(duì),輸出匹配得分,輸出不匹配或函數(shù)運(yùn)行錯(cuò)誤均不得分。


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


整體表現(xiàn):


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


在代碼編寫(xiě)能力評(píng)測(cè)中,國(guó)內(nèi)模型與國(guó)際一流模型之間仍有明顯差距,GPT-4 系列模型、Claude-3 模型在代碼通過(guò)率上明顯領(lǐng)先,國(guó)內(nèi)模型中 GLM-4,文心一言 4.0 與訊飛星火 3.5 表現(xiàn)突出,綜合得分達(dá)到 40 分以上;然而,即使是表現(xiàn)最好的模型在代碼的一次通過(guò)率上仍只有 50% 左右,代碼生成任務(wù)對(duì)目前的大模型來(lái)說(shuō)仍是一大挑戰(zhàn)。


分類(lèi)表現(xiàn):


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


在 Python、Java、中文、英文四個(gè)維度的數(shù)據(jù)集中 GPT-4 系列模型包攬頭名,體現(xiàn)出強(qiáng)大而全面的代碼能力,除 Claude-3 外其余模型差距明顯;


●  英文代碼指令:GPT-4 Turbo 比 Claude-3 在 Python 和 Java 問(wèn)題上分別高出 6.8 分和 1.5 分,比 GLM-4 在 Python 和 Java 問(wèn)題上分別高出 14.2 分和 5.1 分,國(guó)內(nèi)模型與國(guó)際模型在英文代碼指令上差距比較明顯;


●  中文代碼指令:GPT-4 Turbo 比 Claude-3 在 Python 上高出 3.9 分,在 Java 上低 2.3 分,差距不大。GPT-4 Turbo 比 GLM-4 在 Python 和 Java 問(wèn)題上分別高出 5.4 分和 2.8 分,國(guó)內(nèi)模型在中文編碼能力上與國(guó)際一流模型仍存在一定差距。


PART/3 對(duì)齊評(píng)測(cè)


AlignBench 旨在全面評(píng)測(cè)大模型在中文領(lǐng)域與人類(lèi)意圖的對(duì)齊度,通過(guò)模型打分評(píng)測(cè)回答質(zhì)量,衡量模型的指令遵循和有用性。它包括 8 個(gè)維度,如基本任務(wù)和專(zhuān)業(yè)能力,使用真實(shí)高難度問(wèn)題,并有高質(zhì)量參考答案。優(yōu)秀表現(xiàn)要求模型具有全面能力、指令理解和生成有幫助的答案。


“中文推理” 維度重點(diǎn)考察了大模型在中文為基礎(chǔ)的數(shù)學(xué)計(jì)算、邏輯推理方面的表現(xiàn)。這一部分主要由從真實(shí)用戶提問(wèn)中獲取并撰寫(xiě)標(biāo)準(zhǔn)答案,涉及多個(gè)細(xì)粒度領(lǐng)域的評(píng)估:


●  數(shù)學(xué)計(jì)算上,囊括了初等數(shù)學(xué)、高等數(shù)學(xué)和日常計(jì)算等方面的計(jì)算和證明。


●  邏輯推理上,則包括了常見(jiàn)的演繹推理、常識(shí)推理、數(shù)理邏輯、腦筋急轉(zhuǎn)彎等問(wèn)題,充分地考察了模型在需要多步推理和常見(jiàn)推理方法的場(chǎng)景下的表現(xiàn)。


“中文語(yǔ)言” 部分著重考察大模型在中文文字語(yǔ)言任務(wù)上的通用表現(xiàn),具體包括六個(gè)不同的方向:基本任務(wù)、中文理解、綜合問(wèn)答、文本寫(xiě)作、角色扮演、專(zhuān)業(yè)能力。這些任務(wù)中的數(shù)據(jù)大多從真實(shí)用戶提問(wèn)中獲取,并由專(zhuān)業(yè)的標(biāo)注人員進(jìn)行答案撰寫(xiě)與矯正,從多個(gè)維度充分地反映了大模型在文本應(yīng)用方面的表現(xiàn)水平。具體來(lái)說(shuō):


●  基本任務(wù)考察了在常規(guī) NLP 任務(wù)場(chǎng)景下,模型泛化到用戶指令的能力;


●  中文理解上,著重強(qiáng)調(diào)了模型對(duì)于中華民族傳統(tǒng)文化和漢字結(jié)構(gòu)淵源的理解;


●  綜合問(wèn)答則關(guān)注模型回答一般性開(kāi)放問(wèn)題時(shí)的表現(xiàn);


●  文本寫(xiě)作則揭示了模型在文字工作者工作中的表現(xiàn)水平;


●  角色扮演是一類(lèi)新興的任務(wù),考察模型在用戶指令下服從用戶人設(shè)要求進(jìn)行對(duì)話的能力;


●  專(zhuān)業(yè)能力則研究了大模型在專(zhuān)業(yè)知識(shí)領(lǐng)域的掌握程度和可靠性。


評(píng)測(cè)方法 & 流程


●  評(píng)測(cè)方式:通過(guò)強(qiáng)模型(如 GPT-4)打分評(píng)測(cè)回答質(zhì)量,衡量模型的指令遵循能力和有用性。打分維度包括事實(shí)正確性、滿足用戶需求、清晰度、完備性、豐富度等多項(xiàng),且不同任務(wù)類(lèi)型下打分維度不完全相同,并基于此給出綜合得分作為回答的最終分?jǐn)?shù)。


●  評(píng)測(cè)流程:模型根據(jù)問(wèn)題生成答案、GPT-4 根據(jù)生成的答案和測(cè)試集提供的參考答案進(jìn)行詳細(xì)的分析、評(píng)測(cè)和打分。


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


整體表現(xiàn):


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


在人類(lèi)對(duì)齊能力評(píng)測(cè)中,GPT-4 網(wǎng)頁(yè)版占據(jù)榜首,文心一言 4.0 和 GPT-4 Turbo 同分(7.74)緊隨其后,國(guó)內(nèi)模型中 GLM-4 同樣表現(xiàn)優(yōu)異,超越 Claude-3,位列第四,通義千問(wèn) 2.1 略低于 Claude-3,排名第六,同為第一梯隊(duì)大模型。


分類(lèi)表現(xiàn):


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


中文推理整體分?jǐn)?shù)明顯低于中文語(yǔ)言,當(dāng)下大模型推理能力整體有待加強(qiáng):


●  中文推理:GPT-4 系列模型表現(xiàn)最好,略高于國(guó)內(nèi)模型文心一言 4.0,并且和其他模型拉開(kāi)明顯差距;


●  中文語(yǔ)言:國(guó)內(nèi)模型包攬了前四名,分別是 KimiChat 網(wǎng)頁(yè)版(8.05 分)、通義千問(wèn) 2.1(7.99 分)、GLM-4(7.98 分)、文心一言 4.0(7.91 分),超過(guò) GPT-4 系列模型和 Claude-3 等國(guó)際一流模型。


各分類(lèi)細(xì)拆分析:


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)


中文推理:


●  數(shù)學(xué)計(jì)算:GPT-4 系列模型包攬前兩名,國(guó)內(nèi)模型文心一言 - 4.0、通義千問(wèn) 2.1 分?jǐn)?shù)超過(guò) Claude-3,但與 GPT-4 系列模型仍有一定差距。


●  邏輯推理:7 分以上為第一梯隊(duì),由國(guó)內(nèi)模型文心一言 4.0 領(lǐng)跑,同在第一梯隊(duì)的還有 GPT-4 系列模型、Claude-3、GLM4 和 Abab6。


中文語(yǔ)言:


●  基本任務(wù):GLM-4 拿下榜首,通義千問(wèn) 2.1、Claude-3 和 GPT-4 網(wǎng)頁(yè)版占據(jù)二到四位,國(guó)內(nèi)其他大模型中文心一言 4.0 和 KimiChat 網(wǎng)頁(yè)版也表現(xiàn)較好,超過(guò)了 GPT-4 Turbo。


●  中文理解:國(guó)內(nèi)模型整體表現(xiàn)較好,包攬了前四名,文心一言 4.0 領(lǐng)先優(yōu)勢(shì)明顯,領(lǐng)先第二名 GLM-4 0.41 分;國(guó)外模型中,Claude-3 表現(xiàn)尚可,排在第五位,但 GPT-4 系列模型表現(xiàn)較差,排在中下游,并且和第一名分差超過(guò) 1 分。


●  綜合問(wèn)答:各大模型均表現(xiàn)較好,超過(guò) 8 分的模型達(dá)到了 6 家,GPT-4 網(wǎng)頁(yè)版和 KimiChat 網(wǎng)頁(yè)版拿下最高分,GLM-4 和 Claude-3 分?jǐn)?shù)相同,與榜首分?jǐn)?shù)接近,并列第三。


●  文本寫(xiě)作:KimiChat 網(wǎng)頁(yè)版表現(xiàn)最好,同時(shí)也是唯一一個(gè) 8 分以上的模型,GPT-4 Turbo 和通義千問(wèn) 2.1 分列二、三位。


●  角色扮演:國(guó)內(nèi)模型 Abab6、通義千問(wèn) 2.1 和 KimiChat 網(wǎng)頁(yè)版包攬前三名,且均在 8 分以上,超過(guò) GPT-4 系列模型和 Claude-3 等國(guó)際一流模型。


●  專(zhuān)業(yè)能力:GPT-4 Turbo 占據(jù)了首位,KimiChat 網(wǎng)頁(yè)版超過(guò) GPT-4 網(wǎng)頁(yè)版拿下第二名,國(guó)內(nèi)其他模型中,GLM-4 和通義千問(wèn) 2.1 同樣表現(xiàn)不俗,并列排名第四。


PART/4 智能體評(píng)測(cè)


AgentBench 是一個(gè)評(píng)估語(yǔ)言模型在操作系統(tǒng)、游戲和網(wǎng)頁(yè)等多種實(shí)際環(huán)境中作為智能體性能的綜合基準(zhǔn)測(cè)試工具包。


代碼環(huán)境:該部分關(guān)注 LLMs 在協(xié)助人類(lèi)與計(jì)計(jì)算機(jī)代碼接口互動(dòng)方面的潛在應(yīng)用。LLMs 以其出色的編碼能力和推理能力,有望成為強(qiáng)大的智能代理,協(xié)助人們更有效地與計(jì)算機(jī)界面進(jìn)行互動(dòng)。為了評(píng)估 LLMs 在這方面的表現(xiàn),報(bào)告引入了三個(gè)代表性的環(huán)境,這些環(huán)境側(cè)重于編碼和推理能力。這些環(huán)境提供了實(shí)際的任務(wù)和挑戰(zhàn),測(cè)試 LLMs 在處理各種計(jì)算機(jī)界面和代碼相關(guān)任務(wù)時(shí)的能力。


游戲環(huán)境:游戲環(huán)境是 AgentBench 的一部分,旨在評(píng)估 LLMs 在游戲場(chǎng)景中的表現(xiàn)。在游戲中,通常需要智能體具備強(qiáng)大的策略設(shè)計(jì)、遵循指令和推理能力。與編碼環(huán)境不同,游戲環(huán)境中的任務(wù)不要求對(duì)編碼具備專(zhuān)業(yè)知識(shí),但更需要對(duì)常識(shí)和世界知識(shí)的綜合把握。這些任務(wù)挑戰(zhàn) LLMs 在常識(shí)推理和策略制定方面的能力。


網(wǎng)絡(luò)環(huán)境:網(wǎng)絡(luò)環(huán)境是人們與現(xiàn)實(shí)世界互動(dòng)的主要界面,因此在復(fù)雜的網(wǎng)絡(luò)環(huán)境中評(píng)估智能體的行為對(duì)其發(fā)展至關(guān)重要。在這里,報(bào)告使用兩個(gè)現(xiàn)有的網(wǎng)絡(luò)瀏覽數(shù)據(jù)集,對(duì) LLMs 進(jìn)行實(shí)際評(píng)估。這些環(huán)境旨在挑戰(zhàn) LLMs 在網(wǎng)絡(luò)界面操作和信息檢索方面的能力。


評(píng)測(cè)方法 & 流程


●  評(píng)測(cè)方式:模型和預(yù)先設(shè)定好的環(huán)境進(jìn)行多輪交互以完成各個(gè)特定的任務(wù),情景猜謎子類(lèi)會(huì)使用 GPT-3.5-Turbo 對(duì)最終答案進(jìn)行評(píng)分,其余子類(lèi)的評(píng)分方式根據(jù)確定的規(guī)則對(duì)模型完成任務(wù)的情況進(jìn)行打分。


●  評(píng)測(cè)流程:模型與模擬環(huán)境進(jìn)行交互,之后對(duì)模型給出的結(jié)果采用規(guī)則評(píng)分或 GPT-3.5-Turbo 評(píng)分。


●  打分規(guī)則:由于不同子任務(wù)的分?jǐn)?shù)分布不同,直接按平均分計(jì)算總分受極值的影響較為嚴(yán)重,因此需要對(duì)各子任務(wù)的分?jǐn)?shù)進(jìn)行歸一化處理。如下表所示,各個(gè)子任務(wù)對(duì)應(yīng)的 “Weight (-1)” 的值即是歸一化的權(quán)重,這個(gè)值為在 Agentbench 上最初測(cè)試的模型在該子任務(wù)上得分的平均值。計(jì)算總分時(shí)將各個(gè)子任務(wù)的分?jǐn)?shù)除以 Weight (-1) 后求平均值即可。根據(jù)該計(jì)算方式,具有平均能力的模型最終得到的總分應(yīng)為 1。


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)

SR:成功率

#Avg.Turn:解決單一問(wèn)題所需的平均交互回合數(shù)

#Dev、#Test:開(kāi)發(fā)集和測(cè)試集單個(gè)模型的預(yù)期總交互輪數(shù)

Weight?1:各單項(xiàng)分在計(jì)算總分的時(shí)候的權(quán)重的倒數(shù)


整體表現(xiàn):

誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)

在作為智能體能力評(píng)測(cè)中,國(guó)內(nèi)模型整體明顯落后于國(guó)際一流模型;Claude-3 和 GPT-4 系列模型占據(jù)了前三甲,GLM-4 在國(guó)內(nèi)模型中表現(xiàn)最好,但與榜首的 Claude-3 仍有較大差距;國(guó)內(nèi)外大模型在本能力下均表現(xiàn)欠佳,主要原因是智能體對(duì)模型要求遠(yuǎn)高于其他任務(wù),現(xiàn)有的絕大部分模型還不具有很強(qiáng)的智能體能力。


分類(lèi)表現(xiàn):

誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)

除網(wǎng)上購(gòu)物被國(guó)內(nèi)模型 GLM-4 拿到頭名外,其他分類(lèi)下,榜首均被 Claude-3 和 GPT-4 系列模型占據(jù),體現(xiàn)出相對(duì)強(qiáng)大的作為智能體能力,國(guó)內(nèi)模型仍需不斷提升。


●  具身智能(Alfworld)前三甲均被 Claude-3 和 GPT-4 系列模型包攬,和國(guó)內(nèi)模型差距最大。


●  在數(shù)據(jù)庫(kù)(DB)和知識(shí)圖譜(KG)兩個(gè)維度下,國(guó)內(nèi)模型 GLM-4 均進(jìn)入 top3,但是與前兩名仍有一定差距。


PART/5 安全評(píng)測(cè)


SafetyBench 是首個(gè)全面的通過(guò)單選題的方式評(píng)估大型語(yǔ)言模型安全性的測(cè)試基準(zhǔn)。包含攻擊冒犯、偏見(jiàn)歧視、身體健康、心理健康、違法活動(dòng)、倫理道德、隱私財(cái)產(chǎn)等。


評(píng)測(cè)方法 & 流程


●  評(píng)測(cè)方式:每個(gè)維度收集上千個(gè)多項(xiàng)選擇題,通過(guò)模型的選擇測(cè)試對(duì)各個(gè)安全維度的理解和掌握能力進(jìn)行考察。評(píng)測(cè)時(shí)采用 few-shot 生成方式,從生成結(jié)果中抽取答案與真實(shí)答案比較,模型各維度得分為回答正確的題目所占百分比,最終總分取各個(gè)維度得分的平均值。針對(duì)拒答現(xiàn)象,將分別計(jì)算拒答分?jǐn)?shù)和非拒答分?jǐn)?shù),前者將拒答題目視為回答錯(cuò)誤,后者將拒答題目排除出題庫(kù)。


●  評(píng)測(cè)流程:從模型針對(duì)指定問(wèn)題 few-shot 的生成結(jié)果中提取答案,與真實(shí)答案比較。


誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)

整體表現(xiàn):

誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)

在安全能力評(píng)測(cè)中,國(guó)內(nèi)模型文心一言 4.0 表現(xiàn)亮眼,力壓國(guó)際一流模型 GPT-4 系列模型和 Claude-3 拿下最高分(89.1 分),在國(guó)內(nèi)其他模型中,GLM-4 和 Claude-3 同分,并列第四。


分類(lèi)表現(xiàn):

誰(shuí)才是最強(qiáng)的?清華給海內(nèi)外知名大模型做了場(chǎng)綜合能力評(píng)測(cè)-AI.x社區(qū)

在違法活動(dòng)、身體健康、攻擊冒犯、心理健康、隱私財(cái)產(chǎn)這五個(gè)分類(lèi)下,各模型各有勝負(fù),但是在倫理道德和偏見(jiàn)歧視上,各個(gè)模型分差較大,并保持了和總分較為一致的偏序關(guān)系。


●  倫理道德:文心一言 4.0 力壓 Claude-3 位列第一,國(guó)內(nèi)大模型 GLM-4 同樣表現(xiàn)亮眼,超過(guò) GPT-4 Turbo 位列前三甲。


●  偏見(jiàn)歧視:文心一言 4.0 繼續(xù)排名榜首,領(lǐng)先 GPT-4 系列模型,GLM-4 緊隨其后,同為第一梯隊(duì)模型。


本文轉(zhuǎn)自 機(jī)器之心 ,作者:機(jī)器之心


原文鏈接:??https://mp.weixin.qq.com/s/XZrZbkYbJIyVygIU3pLX9Q??

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产精品伊人| 黄色av免费在线观看| 欧美国产先锋| 日韩av在线影院| 国产九九在线视频| 日本在线观看高清完整版| 99精品在线免费| 国产精品日韩在线| 国语对白一区二区| 日韩aaaa| 亚洲福利视频网站| 天天影视色综合| 一个人看的www视频在线免费观看| 国产蜜臀97一区二区三区| 91精品入口蜜桃| 国产女主播喷水视频在线观看 | 亚洲国产精品影视| 婷婷婷国产在线视频| 久久99最新地址| 欧美最猛性xxxx| 欧美日韩精品一区二区三区视频播放 | 国内在线观看一区二区三区| 亚洲人成在线观看| 国产免费a级片| 日韩在线你懂得| 欧美性色xo影院| 日本免费a视频| 黄色在线观看网站| 国产目拍亚洲精品99久久精品| 国产精品一区二区三区四区五区| 色婷婷久久综合中文久久蜜桃av| 在线一区免费观看| 欧美人在线观看| 亚洲女人毛茸茸高潮| 亚洲区小说区| 亚洲第一网站免费视频| 师生出轨h灌满了1v1| 国产a亚洲精品| 色诱视频网站一区| 日韩精品一区二区三区久久| 在线免费观看的av| 最新日韩在线视频| 亚洲欧洲一区二区福利| 国产51人人成人人人人爽色哟哟| 99久久久久免费精品国产| 3d动漫精品啪啪一区二区三区免费 | av亚洲在线| 国产人伦精品一区二区| 欧美一区2区三区4区公司二百| 日本黄视频在线观看| 国产传媒欧美日韩成人| 91免费版网站入口| 99热这里只有精品99| 精品综合久久久久久8888| 国产精品一区二区三区成人| 亚洲午夜在线播放| 久久99蜜桃精品| 成人妇女免费播放久久久| 在线免费观看视频网站| 秋霞电影网一区二区| 国产精品av在线播放| 日韩欧美国产另类| 免费视频最近日韩| 国产免费一区二区三区香蕉精| 中文字幕一级片| 免费av网站大全久久| 国产免费亚洲高清| 国产肥老妇视频| 波多野洁衣一区| 玖玖玖精品中文字幕| 久草视频在线看| 国产精品蜜臀av| 日本黄xxxxxxxxx100| 日韩三级免费| 色综合久久中文综合久久牛| 韩国日本美国免费毛片| 日日夜夜一区| 日韩精品一区二区三区在线| 免费不卡的av| 九九热精品视频在线观看| 中文字幕亚洲欧美日韩高清| 999精品在线视频| 伊人影院久久| 国产精品久久一区| 99久久国产热无码精品免费| 成人精品电影在线观看| 欧美日韩日本网| 日本福利专区在线观看| 亚洲国产综合人成综合网站| 亚洲中文字幕无码专区| 日日夜夜综合| 亚洲国产欧美一区二区三区久久| 免费看黄色的视频| 中文字幕人成人乱码| 7777免费精品视频| 成人黄色三级视频| 国产成人综合亚洲91猫咪| 狼狼综合久久久久综合网| 在线免费观看黄| 亚洲国产欧美另类丝袜| av网站在线不卡| 激情亚洲另类图片区小说区| 亚洲香蕉av在线一区二区三区| 日韩一级片av| 男男成人高潮片免费网站| 豆国产97在线| 97超碰人人在线| 欧美日韩中文在线观看| 日韩精品aaa| 精品视频久久| 韩国v欧美v日本v亚洲| 中文字幕有码无码人妻av蜜桃| 成人黄色av电影| 亚洲免费久久| 春暖花开亚洲一区二区三区| 日韩欧美二区三区| 农村老熟妇乱子伦视频| 国产一区二区三区久久| 亚洲伊人一本大道中文字幕| 国产在线观看免费| 精品国产老师黑色丝袜高跟鞋| 亚洲18在线看污www麻豆| 国产一区二区在线| 777国产偷窥盗摄精品视频| 精品人妻无码一区二区色欲产成人 | 欧美主播一区二区三区| 影音先锋黄色资源| 国产一区日韩欧美| 91香蕉嫩草影院入口| 成人高清网站| 欧美日韩中文字幕综合视频| 香蕉在线观看视频| 中文不卡在线| 91免费福利视频| 日韩专区在线| 欧美手机在线视频| 老牛影视av老牛影视av| 99精品国产一区二区青青牛奶 | 欧美伦理在线视频| 日韩美女视频免费看| 婷婷丁香一区二区三区| 亚州成人在线电影| 最新版天堂资源在线| 欧美日韩p片| 999视频在线免费观看| 久热国产在线| 制服丝袜亚洲精品中文字幕| 波兰性xxxxx极品hd| 麻豆成人久久精品二区三区红 | 亚洲精品电影院| 美女诱惑一区二区| 一区二区三区偷拍| 亚洲国产伊人| 欧美成人免费一级人片100| 国产毛片在线视频| 亚洲男女毛片无遮挡| 超碰中文字幕在线观看| 91精品天堂福利在线观看| 成人有码在线播放| 日韩伦理av| 亚洲成人免费在线视频| 日本在线视频中文字幕| 91丨国产丨九色丨pron| 成年人黄色片视频| 日韩美女一区二区三区在线观看| 国产精品你懂得| 黄色网页在线看| 日韩精品中文字幕在线不卡尤物| 欧美精品99久久久| 97超碰欧美中文字幕| 免费男同深夜夜行网站| 成人精品视频| 亚洲自拍偷拍一区| 草草视频在线观看| 亚洲小视频在线观看| 中文字幕人妻一区二区三区视频| 中文字幕在线观看不卡| 老司机av网站| 媚黑女一区二区| 中文字幕99| 国产精品三p一区二区| 日韩av手机在线| 二区三区在线观看| 亚洲成色999久久网站| 无码人妻一区二区三区免费| 国产精品久久久久久久久图文区 | 亚洲综合免费观看高清完整版在线| 国产人成视频在线观看| 视频精品一区二区| 成人在线免费高清视频| 亚洲精品亚洲人成在线| 成人乱色短篇合集| 黄色视屏在线免费观看| 中文字幕亚洲一区二区三区| 亚洲第一页视频| 日本韩国欧美在线| 久久久久久久福利| 国产欧美一区二区三区网站| 国产成人强伦免费视频网站| 奶水喷射视频一区| 欧美少妇一区二区三区| 国产精品日韩精品中文字幕| 91在线色戒在线| 久久人体大尺度| 欧美俄罗斯乱妇| 日本视频在线| 精品在线观看国产| 亚洲成人77777| 欧美少妇性性性| 国产成人无码精品久久久久| 国产精品久久久久婷婷| 久久无码人妻精品一区二区三区| 精品在线一区二区| 国产日韩一区二区在线观看| 欧美在线日韩| 亚洲高清资源综合久久精品| 欧美日韩另类图片| 成人情视频高清免费观看电影| yy6080久久伦理一区二区| 57pao国产成人免费| 污污的网站在线看| 久久精品国产99国产精品澳门| 亚洲欧美日韩精品永久在线| 欧美一级片在线| 一级全黄裸体免费视频| 在线观看www91| 亚洲综合久久网| 欧美日韩国内自拍| 久久综合综合久久| 一区二区三区中文字幕在线观看| 国产免费嫩草影院| 国产欧美va欧美不卡在线| 中文字幕一区二区久久人妻网站| 国产成人精品影视| 国产高清av片| 国内欧美视频一区二区| 亚欧美在线观看| 美洲天堂一区二卡三卡四卡视频| 成人在线观看黄| 狂野欧美一区| 搡女人真爽免费午夜网站| 麻豆九一精品爱看视频在线观看免费| 无码播放一区二区三区| 亚洲精品日本| 丰满少妇久久久| 亚洲人成人一区二区三区| av在线播放亚洲| 国产精品久久久免费| 国产精品无码人妻一区二区在线| 精品福利av| 91视频 -- 69xx| 久久午夜精品一区二区| 亚洲爆乳无码专区| 日韩成人精品在线| 亚洲综合欧美激情| 国产精品一区在线观看乱码| 国产精品探花在线播放| 国产精品18久久久久久久网站| 手机在线观看日韩av| 国产精品一区二区果冻传媒| 特种兵之深入敌后| 成人久久视频在线观看| 麻豆精品国产传媒av| 91丨porny丨中文| 国产人妻一区二区| 国产精品美女一区二区在线观看| 香蕉成人在线视频| 一区二区三区四区激情| 国产无精乱码一区二区三区| 欧美日韩国产在线看| 天天爽夜夜爽人人爽| 欧美三级韩国三级日本一级| 国产又大又长又粗| 亚洲成人网在线| 第九色区av在线| 草民午夜欧美限制a级福利片| 福利在线导航136| 日本久久亚洲电影| 国产精久久久| 精品乱码一区| 欧美电影免费| 中文字幕无码精品亚洲资源网久久| 欧美专区在线| 久久久久久久久久一区| 成人99免费视频| 亚洲第一视频区| 亚洲影院免费观看| 国产视频1区2区| 日韩欧美国产不卡| 国产黄色片在线播放| 久久天天躁日日躁| 成年美女黄网站色大片不卡| 国产有码一区二区| 麻豆成人入口| 国产高潮呻吟久久久| 午夜在线观看免费一区| 爽爽爽在线观看| 久久久www成人免费无遮挡大片| 午夜三级在线观看| 一本久道久久综合中文字幕| 国产丰满美女做爰| 在线观看日韩视频| 看黄在线观看| 97久久精品午夜一区二区| 韩日一区二区三区| 三上悠亚久久精品| 紧缚奴在线一区二区三区| 无套内谢大学处破女www小说| 最新高清无码专区| 毛片基地在线观看| 欧美不卡视频一区| 77777影视视频在线观看| 欧美中文在线观看| www国产精品| 99亚洲精品视频| 蜜臀a∨国产成人精品| 国产精品久久不卡| 一区二区三区产品免费精品久久75| 国产精华7777777| 日韩精品免费在线| gogo高清在线播放免费| 亚洲一区二区中文| 日韩欧美高清在线播放| 国产裸体舞一区二区三区| 成人的网站免费观看| 特一级黄色录像| 欧美日韩精品久久久| 三级av在线播放| 26uuu久久噜噜噜噜| 2021年精品国产福利在线| 麻豆中文字幕在线观看| 日本女人一区二区三区| www.99热| 欧美性猛交xxxx乱大交退制版| 香蕉久久国产av一区二区| 欧美夫妻性生活视频| 日韩三级av高清片| 裸体裸乳免费看| 国产精品影视在线观看| 人妻人人澡人人添人人爽| 欧美一级视频精品观看| 日p在线观看| 91丨九色丨国产在线| 中文字幕人成人乱码| 又黄又爽又色的视频| 樱花影视一区二区| 不卡av中文字幕| 欧美极品在线视频| 国产精品1luya在线播放| 久久99久久久久久| 成av人片一区二区| 久久久久久久久久久久久av| 精品视频久久久久久久| 日韩免费电影| 亚洲一区二区三区精品视频| 蜜臀a∨国产成人精品| 久久精品一区二区三区四区五区| 欧美日韩夫妻久久| 成人短视频在线观看| 91免费版网站在线观看| 在线观看一区| 国产精品三级在线观看无码| 日本福利一区二区| 午夜小视频在线| 91九色偷拍| 亚洲影院免费| 妖精视频在线观看免费| 91精品久久久久久久99蜜桃 | 天堂中文在线官网| 日韩av电影在线网| 99精品在线观看| 动漫av在线免费观看| 狠狠躁夜夜躁人人爽超碰91| 毛片网站在线观看| 成人h视频在线观看播放| 欧美日韩国产探花| 国产艳俗歌舞表演hd| 欧美日本韩国一区二区三区视频| 1769免费视频在线观看| 精品免费二区三区三区高中清不卡| 亚洲在线观看| 亚洲色图27p| 亚洲国产成人一区| 国产福利91精品一区二区| 大西瓜av在线| 欧美国产精品中文字幕| 精品国精品国产自在久不卡| 2019最新中文字幕| 99精品全国免费观看视频软件| 美女流白浆视频| 在线视频国内一区二区| 四虎影院观看视频在线观看| 久久国产精品-国产精品| 黄一区二区三区| 日本午夜视频在线观看| 日韩在线精品视频| 综合综合综合综合综合网| 国产成人强伦免费视频网站| 色悠悠久久综合| av有码在线观看|