精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe

發(fā)布于 2024-8-2 13:28
瀏覽
0收藏

大語(yǔ)言模型都卷起來(lái)了,模型越做越大,token越來(lái)越多,輸出越來(lái)越長(zhǎng)。


那么問(wèn)題來(lái)了,如何有效地評(píng)估大語(yǔ)言模型的長(zhǎng)篇大論呢?要是輸出長(zhǎng)度長(zhǎng)了但胡言亂語(yǔ)輸出質(zhì)量差,又臭又長(zhǎng),豈不是白搭?


首先能想到的方法就是人工評(píng)估。人工評(píng)估雖然對(duì)于評(píng)價(jià)模型性能至關(guān)重要,但受到主觀性、評(píng)估者之間的差異性以及廣泛評(píng)估的高成本的限制。


考慮到這些因素,谷歌DeepMind研究團(tuán)隊(duì)提出了自動(dòng)評(píng)估解決方案FLAMe。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)


論文地址:https://arxiv.org/abs/2407.10817


模型本身在經(jīng)歷多輪大規(guī)模指令任務(wù)調(diào)整后,可以遵循一套新的指令,使它們適合用作模型輸出的自動(dòng)評(píng)估器。


一方面,為了使LLM自動(dòng)評(píng)分更加合理、準(zhǔn)確并與人類偏好保持一致,對(duì)人類判斷的數(shù)據(jù)收集極其重要。


然而,獲得這些判斷數(shù)據(jù)既昂貴又耗時(shí)。從以前的研究中收集現(xiàn)有的人類評(píng)估貌似可行,但面臨著缺乏標(biāo)準(zhǔn)、文檔數(shù)據(jù)不充分、數(shù)據(jù)隱私和專有權(quán)等問(wèn)題。


另一方面,直接使用模型輸出進(jìn)行自動(dòng)評(píng)分器訓(xùn)練可提供一致性,但也存在風(fēng)險(xiǎn),包括強(qiáng)化偏見(jiàn)和幻覺(jué)。


此外,它可能違反專有LLM服務(wù)的使用條款,條款禁止使用其模型的輸出來(lái)開(kāi)發(fā)競(jìng)爭(zhēng)模型。


為了解決這些限制和顯著降低成本,谷歌引入了一個(gè)用于自動(dòng)評(píng)分的大型基礎(chǔ)模型系列----FLAMe。


FLAMe模型的主要優(yōu)勢(shì)和貢獻(xiàn)是:


- 數(shù)據(jù)收集:僅使用獲得許可的數(shù)據(jù)集,并對(duì)人類評(píng)估結(jié)果進(jìn)行標(biāo)準(zhǔn)化。共包含102個(gè)評(píng)估任務(wù)、530萬(wàn)條人類評(píng)估意見(jiàn)。為了促進(jìn)未來(lái)的研究,論文公開(kāi)了所有數(shù)據(jù)集來(lái)源。

LLM自動(dòng)評(píng)分器:既包括使用多任務(wù)組合來(lái)訓(xùn)練通用 LLM自動(dòng)評(píng)分器 (FLAMe) ,也包括針對(duì)下游應(yīng)用程序優(yōu)化過(guò)的LLM 自動(dòng)評(píng)分器 ( FLAMe-RM 和 FLAMe-Opt-RM)。

在12個(gè)自動(dòng)評(píng)分器評(píng)估基準(zhǔn)中的8個(gè)基準(zhǔn)上,F(xiàn)LAMe及其變體的自動(dòng)評(píng)分性能優(yōu)于用專有數(shù)據(jù)訓(xùn)練的GPT-4o、Gemini-1.5-Pro等模型。

計(jì)算高效的多任務(wù)訓(xùn)練:引入了一種計(jì)算更為高效的方法,使用創(chuàng)新的微調(diào)策略來(lái)優(yōu)化目標(biāo)分布的多個(gè)任務(wù),顯著減少計(jì)算量來(lái)實(shí)現(xiàn)更佳的性能。

自動(dòng)評(píng)估方法

為了將人工評(píng)估的流程自動(dòng)化,作者對(duì)LLM任務(wù)和評(píng)估標(biāo)準(zhǔn)進(jìn)行了細(xì)致的定義。

數(shù)據(jù)收集

和領(lǐng)域內(nèi)很多科技巨頭的做法形成鮮明對(duì)比的是,DeepMind這篇論文不僅披露了使用的數(shù)據(jù)集列表,而且從數(shù)據(jù)收集步驟開(kāi)始,就堅(jiān)持了幾個(gè)公認(rèn)正確但很難做到的原則。


首先,為了論文的透明度和可復(fù)現(xiàn),作者僅使用HuggingFace、TensorFlow這些平臺(tái)上的公共開(kāi)源數(shù)據(jù)集,以及得到原作者許可的GitHub庫(kù)。


為了避免GPT-4等模型生成數(shù)據(jù)帶來(lái)的不準(zhǔn)確性和潛在法律問(wèn)題,作者只使用了帶有人工標(biāo)注的數(shù)據(jù)集,并涵蓋了各種任務(wù)類型(圖3)和LLM能力(圖4)。


最終用于訓(xùn)練的數(shù)據(jù)集含有102項(xiàng)評(píng)估任務(wù)、共530萬(wàn)條經(jīng)過(guò)標(biāo)準(zhǔn)化處理的人類評(píng)估意見(jiàn)。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

任務(wù)類型主要包含以下四種:

- 成對(duì)評(píng)估(pairwise evaluation):比較兩個(gè)響應(yīng)結(jié)果并確定偏好

- 逐點(diǎn)評(píng)估(pointwise evaluation):對(duì)單個(gè)響應(yīng)結(jié)果的指定屬性進(jìn)行打分

- 分類:將單個(gè)響應(yīng)劃分為某個(gè)預(yù)定義類別,例如:模型輸出是否遵循說(shuō)明?(是/否)

-開(kāi)放式評(píng)估:自由形式、不受限制的評(píng)估結(jié)果

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

按照評(píng)估的LLM能力劃分?jǐn)?shù)據(jù)集,則大致有6類能力:

- 一般響應(yīng)質(zhì)量:包括有用性、連貫性、流暢性、創(chuàng)造力、復(fù)雜性和冗長(zhǎng)性等多個(gè)屬性,以及指令跟隨能力

- 事實(shí)性/內(nèi)容出處:針對(duì)LLM應(yīng)用中日益重要的幻覺(jué)問(wèn)題,幾個(gè)數(shù)據(jù)集都用于評(píng)估響應(yīng)輸出的事實(shí)準(zhǔn)確性及其基礎(chǔ),看模型提出的聲明是否有源文檔作為依據(jù)

- 數(shù)學(xué)推理:區(qū)分LLM生成數(shù)學(xué)解題方案的正確或錯(cuò)誤

- 編碼:涵蓋Python、JavaScript、Java、C++、Go和Rus等流行編程語(yǔ)言,訓(xùn)練FLAMe從備選答案中選出正確程序或修復(fù)程序

- 安全性:為了使FLAMe能夠識(shí)別出更有幫助且無(wú)害的模型響應(yīng)

- 指令微調(diào):結(jié)合數(shù)據(jù)集中的指令微調(diào)數(shù)據(jù)和人類編寫(xiě)的響應(yīng),幫助保留模型的指令微調(diào)能力

統(tǒng)一任務(wù)格式

精心選擇好合適的數(shù)據(jù)集后,作者受到T5統(tǒng)一任務(wù)格式的啟發(fā),將所有數(shù)據(jù)都標(biāo)準(zhǔn)化為統(tǒng)一的「文本到文本」格式。這種靈活的格式可以輕松適應(yīng)上述各種評(píng)估任務(wù)。


任務(wù)定義、評(píng)估指令和所需的輸出字段被列在輸入的INSTRUCTION部分,具體的輸入內(nèi)容和目標(biāo)輸出分別放在CONTEXT和EVALUATION部分(圖2)。


其中任務(wù)定義和評(píng)估指令都經(jīng)過(guò)精心設(shè)計(jì),確保一致性和標(biāo)準(zhǔn)化,并忠實(shí)于原始數(shù)據(jù)集。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

模型訓(xùn)練

為了訓(xùn)練出通用LLM自動(dòng)評(píng)估器,能夠在推理過(guò)程中提示它們執(zhí)行各種任務(wù)。實(shí)驗(yàn)訓(xùn)練了三種模型變體:


FLAMe,通用評(píng)分器;

FLAMe-RM,用FLAMe初始化,并均勻混合了四個(gè)成對(duì)評(píng)估數(shù)據(jù)集進(jìn)行微調(diào),性能評(píng)估標(biāo)準(zhǔn)包括聊天對(duì)話、推理和安全性;

FLAMe-Opt-RM,使用獎(jiǎng)勵(lì)模型優(yōu)化的混合權(quán)重進(jìn)行訓(xùn)練,并使用尾部補(bǔ)丁微調(diào)策略(tail-patch fine-tuning)。

FLAMe

從基準(zhǔn)訓(xùn)練方法開(kāi)始,使用監(jiān)督多任務(wù)訓(xùn)練的方式,對(duì)PaLM-2-24B模型進(jìn)行指令微調(diào),進(jìn)行固定數(shù)量的30K訓(xùn)練步驟。


采用示例比例混合權(quán)重(examples-proportiaonal mixture weights),每個(gè)任務(wù)采樣上限為為2^16,以避免對(duì)大型數(shù)據(jù)集進(jìn)行過(guò)采樣。


FLAMe模型顯著提高了對(duì)各種held-out任務(wù)的泛化能力,在許多任務(wù)上優(yōu)于GPT-4、Claude-3和Llama-3等模型。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

以上數(shù)據(jù)能夠證明FLAMe具有的的基礎(chǔ)功能,即進(jìn)行大規(guī)模多任務(wù)指令微調(diào),可以讓模型發(fā)展出通用的質(zhì)量評(píng)估能力。


然而,F(xiàn)LAMe對(duì)于獎(jiǎng)勵(lì)模型評(píng)估等專門(mén)的下游應(yīng)用來(lái)說(shuō)并不是最佳的,因此論文進(jìn)一步提出針對(duì)特定下游分布的模型變體。

FLAMe-RM

受FLAMe研究結(jié)果的啟發(fā),作者更加深入地研究了FLAMe的拓展,將其作為進(jìn)一步微調(diào)特定下游應(yīng)用的起點(diǎn)。


作者采用了大量獎(jiǎng)勵(lì)模型評(píng)估作為案例研究。通過(guò)在四個(gè)成對(duì)評(píng)估數(shù)據(jù)集的混合上微調(diào)FLAMe來(lái)創(chuàng)建FLAMe-RM。


數(shù)據(jù)集包括:HelpSteer、PRM800K、CommitPack和HH-RLHF Harmless。


由于FLAMe已經(jīng)在這些數(shù)據(jù)集上進(jìn)行了訓(xùn)練,因此僅對(duì)其進(jìn)行50個(gè)步驟的微調(diào)。


由此產(chǎn)生的FLAMe-RM模型將原始FLAMe的RewardBench總體得分從86.0%準(zhǔn)確率提高到87.8%。


值得注意的是,F(xiàn)LAMe-RM-24B是專門(mén)在許可數(shù)據(jù)上訓(xùn)練的性能最佳的生成模型,超過(guò)了GPT-4(85.9%) 和GPT-4o (84.7%)。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

FLAMe-Opt-RM

雖然FLAM在許多任務(wù)中表現(xiàn)良好,但它需要大量的訓(xùn)練才能在某些專門(mén)的下游應(yīng)用程序(例如RewardBench)上獲得強(qiáng)大的性能。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

為了解決這個(gè)問(wèn)題,研究引入了一種尾部補(bǔ)丁消融策略(tail-patch ablation),該策略分析每個(gè)數(shù)據(jù)集對(duì)目標(biāo)分布的影響。


這能夠幫助找到多任務(wù)混合中各個(gè)數(shù)據(jù)集的最佳比例,從而有效地優(yōu)化混合權(quán)重超參數(shù)。


通過(guò)這種優(yōu)化過(guò)的混合數(shù)據(jù)微調(diào)PaLM-2-24B僅需要5000步,相比RewardBench上的基線模型(86.0%)實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的性能 (87.0%),而且所用的訓(xùn)練數(shù)據(jù)也減少了約25倍。


研究直接根據(jù)RewardBench性能變化(由于缺乏開(kāi)發(fā)集)優(yōu)化了多任務(wù)混合。


值得注意的是,研究的目標(biāo)不是實(shí)現(xiàn)最佳的RewardBench結(jié)果,而是展示如何針對(duì)目標(biāo)分布進(jìn)行多任務(wù)混合的優(yōu)化方法。


通過(guò)測(cè)試發(fā)現(xiàn),和FLAMe-RM 一樣,微調(diào)進(jìn)一步提高了RewardBench性能。


此外,F(xiàn)LAMe-Opt-RM在其他held-out任務(wù)中的優(yōu)秀表現(xiàn)表明,moxing 并沒(méi)有過(guò)度擬合RewardBench,這證實(shí)了FLAMe-Opt-RM在不同任務(wù)中的廣泛適用性。

訓(xùn)練細(xì)節(jié)

研究使用了PaLM-2-24B模型對(duì)FLAMe和 FLAMe-Opt-RM進(jìn)行初始化,并在Flan集合上進(jìn)行指令調(diào)整,分別訓(xùn)練30000步和5000步,然后將FLAMe進(jìn)一步微調(diào)50步以創(chuàng)建 FLAMe-RM。


模型使用T5X和Adam優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率為 0.0001,dropout為 0.05。


FLAMe在256個(gè)PU芯片上進(jìn)行訓(xùn)練,批大小為32,而FLAMe-RM和FLAMe-Opt-RM使用128個(gè)TPU芯片,批大小為8。

評(píng)估實(shí)驗(yàn)

討論過(guò)FLAMe系列模型的構(gòu)建方法后,作者使用了包含12個(gè)自動(dòng)評(píng)分器基準(zhǔn)的評(píng)估套件,將FLAMe與幾個(gè)流行的LLM-as-a-Judge自動(dòng)評(píng)分器進(jìn)行對(duì)比。


12個(gè)基準(zhǔn)中,只有HelpSteer作為held-in驗(yàn)證,其余的RewardBench、LLM-AggreFact等11個(gè)作為held-out測(cè)試。


評(píng)估數(shù)據(jù)同樣涵蓋了53個(gè)任務(wù),但為了降低模型API成本,每個(gè)測(cè)試集(除RewardBench)僅隨機(jī)抽取256個(gè)樣本。


對(duì)比的基線包括Llama-3-70B-Instruct、Mixtral8×7B、Claude-3-Opus等流行的LLM-as-a-Judge模型,以及RewardBench官方排行榜上列出的Gemini-1.5-Pro、Nemotron-4-340B-Reward等。


FLAMe的3種模型變體都參與了評(píng)估,而且還包括了進(jìn)行指令微調(diào)前的PaLM-2-24B,以更好說(shuō)明FLAMe訓(xùn)練的效果。


表1列舉了FLAMe系列在12個(gè)基準(zhǔn)上與流行基線模型的對(duì)比。


其中8個(gè)都取得了最優(yōu)性能,尤其是Contr Search和HelpSteer上相比次優(yōu)模型有大幅度提升,讓我們看到了「許可數(shù)據(jù)」超越「專有數(shù)據(jù)」的希望。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

在RewardBench排行榜上,截止7月15日,F(xiàn)LAMe-RM-24B在所有生成模型中排名第2(僅次于Gemini-1.5-Pro),在所有模型中排名第6,在4個(gè)類別中都取得了強(qiáng)勁表現(xiàn)。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

雖然RewardBench是評(píng)估獎(jiǎng)勵(lì)模型時(shí)被廣泛使用的基準(zhǔn),但作者也在實(shí)驗(yàn)時(shí)發(fā)現(xiàn)了其中的評(píng)估偏差問(wèn)題,比如有對(duì)輸出答案的長(zhǎng)度偏好,以及偏愛(ài)「sorry」、「I'm sorry」等短語(yǔ)。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

RewardBench4個(gè)類別任務(wù)對(duì)響應(yīng)長(zhǎng)度的不同偏好

在AggreFact基準(zhǔn)的結(jié)果中(表3),F(xiàn)LAMe-24B獲得了整體最佳性能,比GPT-4o高出將近1分。


在總共4個(gè)類別的用例中,F(xiàn)LAMe系列變體在其中3個(gè)取得了最優(yōu)性能,僅在Long-formQA上表現(xiàn)不佳,與表1中LFQA Eval的結(jié)果相一致。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

此外,上述3個(gè)表格中都能發(fā)現(xiàn),相比原有的PALM-2-24B,經(jīng)過(guò)訓(xùn)練后的FLAMe-24B性能有大幅度的提升,證明了FLAMe訓(xùn)練方法的有效性。

分析

模型大小、數(shù)據(jù)集大小和數(shù)據(jù)質(zhì)量等因素在最近的多任務(wù)學(xué)習(xí)和指令調(diào)優(yōu)工作中已經(jīng)得到了廣泛的研究。


論文更加著重探索LLM自動(dòng)評(píng)分器固有的潛在偏見(jiàn),這也是影響評(píng)估準(zhǔn)確性的一個(gè)重要方面。


另外,F(xiàn)LAMe對(duì)于AI開(kāi)發(fā)還有許多潛在用途,例如對(duì)高質(zhì)量響應(yīng)數(shù)據(jù)進(jìn)行采樣。

自動(dòng)評(píng)分器偏差分析

對(duì)LLM自動(dòng)評(píng)估器(LLM-as-a-Judge autorater)的常見(jiàn)批評(píng)主要涉及他們對(duì)某些判斷的偏見(jiàn)。


通過(guò)在自動(dòng)評(píng)估器偏見(jiàn)基準(zhǔn)CoBBLEr上評(píng)估 FLAMe及其變體,論文發(fā)現(xiàn)FLAMe模型比其他流行的LLM自動(dòng)評(píng)估器的偏見(jiàn)要小得多。


CoBBLEr主要測(cè)量LLM自動(dòng)評(píng)估器中的6種偏見(jiàn):

  1. 順序:自動(dòng)評(píng)估器對(duì)回復(fù)順序是否有偏好?
  2. 同情心:當(dāng)使用生成響應(yīng)的LLM的實(shí)際名稱(例如「GPT-4」)而不是「Model A」等別名時(shí),自動(dòng)評(píng)估者的判斷會(huì)改變嗎?
  3. 長(zhǎng)度:自動(dòng)評(píng)估器是否會(huì)偏好較長(zhǎng)或較短的輸出?
  4. 以自我為中心:自動(dòng)評(píng)估器是否偏愛(ài)自己生成的輸出?
  5. 見(jiàn)風(fēng)使舵:自動(dòng)評(píng)估器是否會(huì)被「90% 的人更喜歡回答 A」這樣的句子所左右?
  6. 注意力:自動(dòng)評(píng)估器是否被不相關(guān)的上下文信息干擾


評(píng)估結(jié)果如表4所示,可以看到,相比其他基線模型,F(xiàn)LAMe系列在大部分維度都表現(xiàn)出明顯較低的偏見(jiàn),而且總體偏見(jiàn)值最低。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

使用FLAMe對(duì)解碼輸出重新排序

最后,研究還探索了LLM自動(dòng)評(píng)估器在從多個(gè)響應(yīng)中選擇最佳輸出方面的應(yīng)用,這種方法稱為「Best-of-N」采樣。


實(shí)驗(yàn)中使用了OpenAI的3個(gè)代碼生成模型,并通過(guò)循環(huán)機(jī)制(round-robin)讓FLAMe分別對(duì)它們生成的10個(gè)代碼樣本進(jìn)行重新排名,然后使用排名靠前的代碼示例,在HumanEval Python基準(zhǔn)中測(cè)試其性能。


結(jié)果表明,F(xiàn)LAMe在所有三個(gè)模型中都顯著提高了pass@1準(zhǔn)確率。

87.8%準(zhǔn)確率趕超GPT-4o登頂!谷歌DeepMind發(fā)布自動(dòng)評(píng)估模型FLAMe-AI.x社區(qū)

值得注意的是,F(xiàn)LAMe將CodeGen16B的pass@1準(zhǔn)確率從21.2提高到31.1,與Oracle排名器 (46.9) 的差距縮小了近40%。

結(jié)論與討論

FLAMe是一系列基礎(chǔ)自動(dòng)評(píng)估器模型,可以執(zhí)行各種質(zhì)量評(píng)估任務(wù)。訓(xùn)練所用的數(shù)據(jù)不僅大規(guī)模而且多樣化, 僅來(lái)自許可數(shù)據(jù)集,包含標(biāo)準(zhǔn)化的人類評(píng)估意見(jiàn)且經(jīng)過(guò)精心設(shè)計(jì)。

研究展示了FLAMe強(qiáng)大的零樣本泛化能力,在許多懸而未決的任務(wù)中,其性能優(yōu)于使用GPT-4和Claude-3等專有數(shù)據(jù)訓(xùn)練的模型。


FLAMe還可以有效地作為進(jìn)一步下游微調(diào)的強(qiáng)大起點(diǎn)。FLAMe-RM變體針對(duì)獎(jiǎng)勵(lì)模型評(píng)估進(jìn)行了微調(diào),盡管僅在許可數(shù)據(jù)上進(jìn)行訓(xùn)練,但仍是RewardBench上表現(xiàn)最好的生成模型之一,其性能優(yōu)于GPT-4-0125和GPT-4o。


此外,論文提出了一種計(jì)算效率更高的方法,使用新穎的尾部補(bǔ)丁微調(diào)策略來(lái)優(yōu)化目標(biāo)分布的多任務(wù)混合FLAMe模型,以顯著減少的計(jì)算量提供有競(jìng)爭(zhēng)力的性能。


FLAMe變體在12個(gè)自動(dòng)評(píng)估基準(zhǔn)中的8個(gè)優(yōu)于流行的專有LLM-as-aJudge模型,涵蓋53項(xiàng)質(zhì)量評(píng)估任務(wù),包括RewardBench和LLM-AggreFact。


最后,分析表明,與CoBBLEr自動(dòng)評(píng)分器偏差基準(zhǔn)上流行的LLM-as-a-Judge模型相比,F(xiàn)LAMe表現(xiàn)出明顯較低的偏見(jiàn),同時(shí)能夠有效地識(shí)別代碼生成的高質(zhì)量響應(yīng)。

局限性和未來(lái)工作

由于評(píng)估標(biāo)準(zhǔn)不斷變化以及評(píng)估新的LLM功能的需要,評(píng)估LLM具有挑戰(zhàn)性,通過(guò)開(kāi)源貢獻(xiàn)擴(kuò)大我們的數(shù)據(jù)收集范圍可以解決這個(gè)問(wèn)題。


此外,模型主要在上下文長(zhǎng)度為2048個(gè)token的英語(yǔ)數(shù)據(jù)上進(jìn)行訓(xùn)練,可能在多語(yǔ)言或長(zhǎng)上下文上表現(xiàn)不佳。


在未來(lái)的版本中,作者計(jì)劃包括對(duì)更多具有更長(zhǎng)上下文的多語(yǔ)言數(shù)據(jù)集的訓(xùn)練。


最后,這項(xiàng)工作一直以有監(jiān)督的多任務(wù)方式訓(xùn)練FLAMe模型。探索RLHF和DPO等其他訓(xùn)練方法是未來(lái)工作的一個(gè)有希望的方向。

道德考慮和道德風(fēng)險(xiǎn)

針對(duì)預(yù)訓(xùn)練和指令微調(diào)的LLMs工作概述的所有注意事項(xiàng)和風(fēng)險(xiǎn)也都適用于LLM自動(dòng)評(píng)估器,研究也都遵循標(biāo)準(zhǔn)實(shí)踐來(lái)負(fù)責(zé)任地開(kāi)發(fā)FLAMe模型。


此外,由于評(píng)估能力和評(píng)估質(zhì)量的增強(qiáng),LLM自動(dòng)評(píng)估器也帶來(lái)了新的風(fēng)險(xiǎn)。


首先,模型可能會(huì)繼承并放大人類評(píng)估的偏見(jiàn),導(dǎo)致不公平或歧視性的結(jié)果。


例如,該模型可能會(huì)復(fù)制訓(xùn)練數(shù)據(jù)中與種族、性別或其他敏感屬性相關(guān)的偏見(jiàn),這可能會(huì)損害某些群體利益。


其次,過(guò)度依賴LLM自動(dòng)評(píng)估器可能會(huì)導(dǎo)致需要人類理解和同理心的決策不經(jīng)思考而只根據(jù)LLM判定。


為了減輕這些風(fēng)險(xiǎn),模型開(kāi)發(fā)和使用的透明度,以及偏見(jiàn)處理、數(shù)據(jù)匿名化和納入不同觀點(diǎn)等強(qiáng)有力的措施,對(duì)于促進(jìn)公平、問(wèn)責(zé)和可信度至關(guān)重要。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/k182lwGFycz20LcHmuwZ1A??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
成年人午夜久久久| jvid福利在线一区二区| 亚洲一区二区三区四区不卡| 国产精品视频免费观看| 欧美在线观看不卡| 日本a口亚洲| 精品国产乱码久久久久久闺蜜| 欧美精品99久久| 亚洲精品传媒| 国产精品一二三四五| 欧美综合第一页| 少妇被躁爽到高潮无码文| 欧美日韩一区二区三区不卡视频| 欧美亚洲图片小说| 很污的网站在线观看| 91se在线| 91麻豆免费视频| 91国产丝袜在线放| 麻豆成人免费视频| 国内久久视频| 久久精品亚洲精品| 88久久精品无码一区二区毛片| 麻豆国产一区二区三区四区| 欧美亚一区二区| 日韩小视频在线播放| 国产在线观看91| 中文一区一区三区高中清不卡| 国产精品一区二区三区四区五区| 亚洲天堂免费av| 羞羞视频在线观看欧美| 久久久久国产精品www| 免费精品在线视频| 中日韩免视频上线全都免费| 精品精品欲导航| 国产一区二区在线观看免费视频| 日日av拍夜夜添久久免费| 亚洲sss视频在线视频| 男插女免费视频| 1769在线观看| 国产欧美一区视频| 美女被啪啪一区二区| 高清毛片aaaaaaaaa片| 国产一区二区三区视频在线播放| 国产精品福利观看| 免费黄色小视频在线观看| 亚洲人妖在线| 欧美激情小视频| 九九热国产精品视频| 亚洲网色网站| 精品国产美女在线| 亚洲 欧美 国产 另类| 精品国产91乱码一区二区三区四区| 亚洲国产另类 国产精品国产免费| 国产又粗又猛大又黄又爽| 亚洲精品一区av| 欧美日韩一区中文字幕| 欧美精品性生活| 最新日韩一区| 欧美午夜片在线观看| 热久久精品免费视频| 高清成人在线| 欧美色电影在线| 亚欧激情乱码久久久久久久久| 国产韩日精品| 欧美疯狂性受xxxxx喷水图片| 在线观看国产一级片| 精品精品视频| 欧美va亚洲va在线观看蝴蝶网| 黄色av电影网站| 美女av一区| 国产亚洲一区二区精品| 亚洲色图 激情小说| 99视频精品全国免费| 欧美成人精品影院| 日操夜操天天操| 亚洲一区视频| 国产精品一区av| aaaa一级片| 国产成人aaa| 麻豆久久久av免费| 日韩精品毛片| 亚洲国产毛片aaaaa无费看| 女人喷潮完整视频| 久久亚洲精品人成综合网| 日韩一区二区三区精品视频| 亚洲少妇18p| 国产亚洲一卡2卡3卡4卡新区 | 亚洲第一精品网站| 成人av免费网站| 色一情一乱一伦一区二区三区| 精品176二区| 天天影视色香欲综合网老头| 无码内射中文字幕岛国片| 成人久久精品| 亚洲精品一区二三区不卡| av资源在线免费观看| 激情久久久久| 国产精品视频男人的天堂| www.97av| 欧美国产一区视频在线观看| 久久久天堂国产精品| 69久成人做爰电影| 欧美一级片免费看| 法国伦理少妇愉情| 你懂的视频一区二区| 日本精品一区二区三区在线播放视频 | 国产精品夫妻激情| 黑人乱码一区二区三区av| 国产亚洲成av人在线观看导航| 白白操在线视频| av久久网站| 亚洲国产一区自拍| www色aa色aawww| 日精品一区二区| 国产精品伊人日日| 国产成人午夜| 欧美性xxxxx极品少妇| 久久福利小视频| 91精品一区二区三区综合在线爱 | 午夜影院在线看| 韩国v欧美v日本v亚洲v| 日韩欧美一区二区在线观看| av资源网在线播放| 日韩一区二区在线观看视频播放| 亚洲一区二区自偷自拍| 国产情侣久久| 国产伦精品一区二区三区视频免费| 欧美成年黄网站色视频| 91福利资源站| 黄色工厂在线观看| 极品av少妇一区二区| 亚洲一区二区三区久久| 91在线视频免费看| 欧美在线视频日韩| 欧美做受xxxxxⅹ性视频| 最新亚洲视频| 国产66精品久久久久999小说| 国产一二三区在线观看| 精品视频全国免费看| 日本少妇xxxxx| 久久国产欧美| 你懂的网址一区二区三区| 免费成人在线电影| 亚洲激情中文字幕| 九九热在线视频播放| 成人激情综合网站| 无码人妻少妇伦在线电影| 一区二区视频| 久久久久国产精品www| 人人妻人人澡人人爽精品日本| 一片黄亚洲嫩模| 美女久久久久久久久| 一区精品久久| 精品一区二区日本| 日韩激情电影| 亚洲欧美制服丝袜| 免费精品一区二区| 欧美国产精品劲爆| 亚洲人视频在线| 天天天综合网| 99se婷婷在线视频观看| wwww在线观看免费视频| 亚洲国产欧美一区二区丝袜黑人| 日本在线播放视频| 国产三级一区二区| 57pao国产成永久免费视频| 亚洲精品97| 国产精品久久久久久免费观看| 9765激情中文在线| 亚洲精品中文字幕女同| 一区二区乱子伦在线播放| 国产精品伦一区二区三级视频| 国产乱码一区二区三区四区| 狠狠综合久久| 欧美日韩亚洲免费| 亚洲国产一区二区久久| 欧美精品xxx| 国产午夜视频在线观看| 欧美日韩高清一区二区| 免费中文字幕视频| 久久久久久99久久久精品网站| 天天操狠狠操夜夜操| 亚洲无吗在线| 色狠狠久久av五月综合| 麻豆视频久久| 国产成人avxxxxx在线看| 麻豆传媒在线免费看| 亚洲国产精品成人va在线观看| 亚洲天堂男人av| 亚洲免费三区一区二区| 中文字幕乱码一区| 奇米亚洲午夜久久精品| 欧美黄网在线观看| 自拍自偷一区二区三区| 91精品在线一区| 三级在线观看视频| 久久视频在线视频| 日本ー区在线视频| 欧美一级二级三级乱码| 精品国产xxx| 亚洲美女少妇撒尿| 国产精品成人一区二区三区电影毛片 | 综合干狼人综合首页| 亚洲精品欧美一区二区三区| 爱情电影社保片一区| 欧美丰满片xxx777| 午夜激情在线观看| 亚洲精品网址在线观看| 国内精品久久久久久久久久久| 色狠狠综合天天综合综合| 九九热国产在线| 国产精品久久久久久久久果冻传媒| 中文字幕在线永久| 国产精品亚洲综合一区在线观看| 国产精品无码av无码| 亚洲日韩成人| 神马午夜伦理影院| 水蜜桃久久夜色精品一区| 久久精品五月婷婷| 97久久超碰| 亚洲aⅴ男人的天堂在线观看| 久久久成人av毛片免费观看| 久久免费国产精品1| 亚洲小说区图片| 色偷偷av一区二区三区| 九一国产在线| 亚洲精品电影网站| 亚洲AV无码精品国产| 777午夜精品免费视频| 中文字幕乱码中文字幕| 日韩欧美在线视频观看| 国产视频91在线| 亚洲一区二区三区中文字幕 | 黄色大片在线免费观看| 亚洲国产欧美在线成人app| 亚洲精品综合网| 日韩亚洲欧美在线| av天堂一区二区三区| 欧美日韩美少妇| 中文字幕免费在线看| 在线免费精品视频| 手机av免费观看| 一道本成人在线| 亚洲大片免费观看| 色婷婷激情综合| 超碰在线观看91| 在线精品视频免费播放| 亚洲精品国产无码| 欧美三级电影网| 91 中文字幕| 欧美高清视频一二三区| 国产成人久久精品77777综合| 91精品国产综合久久久久久| 国产婷婷一区二区三区久久| 日韩一卡二卡三卡| 亚洲高清精品视频| 亚洲福利视频在线| 欧美日韩影视| 亚洲性视频网址| 亚洲成人三级| 欧美www在线| www视频在线观看| 欧美一级在线亚洲天堂| 裤袜国产欧美精品一区| 国产精品久久色| 国产亚洲久久| 国产日韩一区二区| 亚洲人和日本人hd| 先锋影音一区二区三区| 国产韩国精品一区二区三区| 狠狠精品干练久久久无码中文字幕| 国模大胆一区二区三区| 国产肥臀一区二区福利视频| 青青青爽久久午夜综合久久午夜| 成年网站免费在线观看| 国产成人午夜99999| 97人妻精品一区二区三区免 | 精品国产三级a在线观看| 天堂a中文在线| 日韩理论片久久| 在线免费观看黄色网址| 久久99热精品这里久久精品| 亚洲女同志freevdieo| 国产免费一区二区三区香蕉精| 一区二区三区四区高清视频| 欧美午夜精品久久久久免费视| 99精品网站| 鲁一鲁一鲁一鲁一澡| 蜜桃视频在线观看一区| zjzjzjzjzj亚洲女人| 久久久久99精品国产片| 91九色丨porny丨极品女神| 欧美日韩加勒比精品一区| 一本大道伊人av久久综合| 亚洲级视频在线观看免费1级| 草碰在线视频| 久久久亚洲精品视频| jizzjizz少妇亚洲水多| 国产精品对白一区二区三区| 日韩精品欧美| 日韩av在线第一页| 国产在线乱码一区二区三区| 特级西西人体4444xxxx| 亚洲品质自拍视频| 中文字幕国产在线观看| 日韩欧美123| 在线观看黄av| 日本一区二区不卡| 亚洲一区电影| 在线免费观看成人网| 欧美一级网站| caopor在线| 亚洲丝袜另类动漫二区| 免费一级a毛片| 日韩成人xxxx| 狂野欧美性猛交xxxxx视频| 91精品久久久久久| 国产精品免费大片| 一二三四视频社区在线| 国产精品18久久久久久久久久久久| 国产成人一区二区在线观看| 岛国av在线不卡| 欧美一区二区三区黄片| 欧美成人在线免费视频| 欧美黄页免费| 婷婷精品国产一区二区三区日韩| 国产日韩欧美高清免费| 大尺度做爰床戏呻吟舒畅| 亚洲男人天堂一区| 亚洲视频一区在线播放| 在线日韩中文字幕| 日本精品网站| 日本在线观看一区| 久久精品30| 国产一二三四五区| 狠狠综合久久av一区二区小说| 六月丁香综合网| 欧美极品在线视频| 999久久精品| av网站手机在线观看| 粉嫩aⅴ一区二区三区四区| 国产亚洲成人av| 日韩精品中文字幕一区二区三区| 超碰电影在线播放| 亚洲综合精品一区二区| 欧美激情无毛| 黑森林av导航| 欧美午夜性色大片在线观看| 亚洲区小说区图片区| 欧洲成人性视频| 国产真实有声精品录音| 91视频免费版污| 中文文精品字幕一区二区| 亚洲在线精品视频| 久久精品国产一区二区电影| 欧美一区一区| 国产黄色片免费在线观看| eeuss鲁片一区二区三区在线观看| 亚洲一区欧美在线| 亚洲精品小视频| 在线xxxxx| 国产精品久久久久9999高清| 久久精品无码专区| 欧美日韩国产精品| 精品久久久久一区二区三区| 国产黑人绿帽在线第一区| 日韩欧美高清在线播放| 日本高清免费观看| 午夜精品福利一区二区三区蜜桃| av女名字大全列表| 国产精品大陆在线观看| 一区二区影院| 97精品人妻一区二区三区蜜桃| 欧美色xxxx| 欧美一区二区三区在线观看免费| 91精品国产高清久久久久久91裸体 | 丰满少妇乱子伦精品看片| 亚洲色图美腿丝袜| 在线免费观看亚洲| 青青草精品视频在线| 国产视频一区在线播放| av免费观看网址| 秋霞av国产精品一区| 五月激情久久久| 波多野结衣先锋影音| 欧美日精品一区视频| av影视在线看| 亚洲一卡二卡三卡| 成人亚洲精品久久久久软件| 69av视频在线观看| 欧美精品免费看| 久久av超碰| 女人扒开腿免费视频app| 色香蕉久久蜜桃| 最近中文字幕免费mv2018在线| 久久久久天天天天| 国产老女人精品毛片久久| 香蕉影院在线观看| 久久久久久国产免费| 国产精品精品国产一区二区|