精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

關(guān)于LLM-as-a-judge范式,終于有綜述講明白了

人工智能
本文探討了 LLM-as-a-judge 的驚喜微妙之處。我們首先根據(jù)輸入格式(逐點、成對和列表)和輸出格式(包括評分、排名和選擇)對現(xiàn)有的基于 LLM-as-a-judge 進行定義。

評估和評價長期以來一直是人工智能 (AI) 和自然語言處理 (NLP) 中的關(guān)鍵挑戰(zhàn)。然而,傳統(tǒng)方法,無論是基于匹配還是基于詞嵌入,往往無法判斷精妙的屬性并提供令人滿意的結(jié)果。大型語言模型 (LLM) 的最新進展啟發(fā)了 “LLM-as-a-judge” 范式,其中 LLM 被用于在各種任務(wù)和應(yīng)用程序中執(zhí)行評分、排名或選擇。本文對基于 LLM 的判斷和評估進行了全面的調(diào)查,為推動這一新興領(lǐng)域的發(fā)展提供了深入的概述。我們首先從輸入和輸出的角度給出詳細(xì)的定義。然后,我們介紹一個全面的分類法,從三個維度探索 LLM-as-a-judge:評判什么(what to judge)、如何評判(how to judge)以及在哪里評判(where to judge)。最后,我們歸納了評估 LLM 作為評判者的基準(zhǔn)數(shù)據(jù)集,并強調(diào)了關(guān)鍵挑戰(zhàn)和有希望的方向,旨在提供有價值的見解并啟發(fā)這一有希望的研究領(lǐng)域的未來研究。

  • 論文鏈接:https://arxiv.org/abs/2411.16594
  • 網(wǎng)站鏈接:https://llm-as-a-judge.github.io/
  • 論文列表:https://github.com/llm-as-a-judge/Awesome-LLM-as-a-judge

文章結(jié)構(gòu)

圖 1:論文結(jié)構(gòu)

LLM-as-a-judge 的定義

圖 2:LLM-as-a-judge 定義

在這篇工作中,我們提出根據(jù)輸入和輸出格式的區(qū)別對 LLM-as-a-judge 進行了定義。首先,根據(jù)輸入候選樣本個數(shù)的不同,在輸入的層面 LLM-as-a-judge 可以分為逐點和成對 / 列表輸入;另外,根據(jù)模型輸出格式的不同,在輸出的層面 LLM-as-a-judge 的目的可以分為評分,排序和選擇。

Attribute:評判什么

圖 3:LLM 能夠評判各種屬性。

LLM-as-a-judge 已經(jīng)被證明可以在多種不同類型的屬性上提供可靠的評判,在這個章節(jié)中,我們對他們進行了總結(jié),它們包括:回復(fù)的幫助性,無害性,可靠性,生成 / 檢索文檔的相關(guān)性,推理過程中每一步的可行性,以及生成文本的綜合質(zhì)量。

Methodology:如何評判

表 1:LLM-as-a-judge 訓(xùn)練方法

微調(diào):最近許多工作開始探索如何使用微調(diào)技術(shù)來訓(xùn)練一個專門的評判大模型,我們在這一章節(jié)中對這些技術(shù)進行了總結(jié)歸納,包括它們的數(shù)據(jù)源,標(biāo)注者,數(shù)據(jù)類型,數(shù)據(jù)規(guī)模,微調(diào)技術(shù)及技巧等(表 1)。其中我們根據(jù)數(shù)據(jù)來源(人工標(biāo)注和模型反饋)和微調(diào)技術(shù)(有監(jiān)督微調(diào)和偏好學(xué)習(xí))對這些工作進行了詳細(xì)討論。

圖 4:LLM-as-a-judge prompting 方法

提示:提示(prompting)技術(shù)可以有效提升 LLM-as-a-judge 的性能和效率。在這一章節(jié)中,我們總結(jié)了目前工作中常用到幾類提示策略,分別是:交換操作,規(guī)則增強,多智能體合作,演示增強,多輪動態(tài)交互和對比加速。

Application:何時評判

圖 5:LLM-as-a-judge 應(yīng)用和場景

評估:傳統(tǒng) NLP 中的評估通常采用靜態(tài)的指標(biāo)作為依據(jù),然而它們常常不能夠很好的捕捉細(xì)粒度的語義信息。因此,LLM-as-a-judge 被廣泛引入到模型評估的場景中,進行開放式生成,推理過程以及各種新興 NLP 任務(wù)的評測。

對齊:對齊技術(shù)通常需要大量人工標(biāo)注的成對偏好數(shù)據(jù)來訓(xùn)練獎勵或者策略模型,通過引入 LLM-as-a-judge 技術(shù),采用更大的模型或者策略模型本身作為評估者,這一標(biāo)注過程的時間和人力成本被大大優(yōu)化。

檢索:檢索場景同樣得益于 LLM-as-a-judge 對于文本相關(guān)性和幫助性強大的判別能力。其中對于傳統(tǒng)的檢索應(yīng)用,LLM-as-a-judge 通過判斷文檔和用戶請求的相關(guān)性來選擇最符合用戶喜好的一組文檔。另外,LLM-as-a-judge 還被應(yīng)用于檢索增強生成(RAG)的過程中,通過 LLM 自己來選擇對后續(xù)生成最有幫助的輔助文檔。

推理:在推理過程中,LLM 在很多場景下會被賦予使用工具,API 或者搜索引擎的權(quán)限。在這些任務(wù)中,LLM-as-a-judge 可以依據(jù)當(dāng)前的上下文和狀態(tài)選擇最合理可行的外部工具。另外,LLM-as-a-judge 還被廣泛引用于推理路徑的選擇,通過過程獎勵指導(dǎo)模型進行狀態(tài)步驟轉(zhuǎn)移。

基準(zhǔn):評判 LLM-as-a-judge

如表 2 所示,我們總結(jié)了不同針對 LLM-as-a-judge 的基準(zhǔn)測試集,并從數(shù)據(jù) / 任務(wù)類型,數(shù)據(jù)規(guī)模,參考文本來源,指標(biāo)等多個方面對這些數(shù)據(jù)集做了總結(jié)歸納。其中,根據(jù)基準(zhǔn)測試集目的的不同,大致可以分為:偏見量化基準(zhǔn),挑戰(zhàn)性任務(wù)基準(zhǔn),領(lǐng)域特定基準(zhǔn),以及其他多語言,多模態(tài),指令跟隨基準(zhǔn)等等。

表 2:LLM-as-a-judge 數(shù)據(jù)集和基線

展望:挑戰(zhàn)和機遇

偏見與脆弱性:大模型作為評判者,一直受困擾于各種各樣影響評價公平性的偏見,例如順序偏見,自我偏好偏見,長度偏見等。同時,基于大模型的評價系統(tǒng)在面對外部攻擊時的魯棒性也存在一定不足。因此,LLM-as-a-judge 未來工作的一個方向是研究如何揭露和改善這些偏見,并提升系統(tǒng)面對攻擊的魯棒性。

更動態(tài),復(fù)雜的評判:早期的 LLM-as-a-judge 通常只采用比較簡單的指令來 prompt 大模型。隨著技術(shù)的發(fā)展,越來越多復(fù)雜且動態(tài)的 LLM-as-a-judge 框架被開發(fā)出來,例如多智能體判斷和 LLM-as-a-examiner。在未來,一個有前景的研究方向是開發(fā)具有人類評判思維的大模型智能體;另外,開發(fā)一個基于大模型自適應(yīng)難度的評判系統(tǒng)也很重要。

自我判斷:LLM-as-a-judge 長期以來一直受困擾于 “先有雞還是先有蛋” 的困境:強大的評估者對于訓(xùn)練強大的 LLM 至關(guān)重要,但通過偏好學(xué)習(xí)提升 LLM 則需要公正的評估者。理想狀況下,我們希望最強大的大模型能夠進行公正的自我判斷,從而不斷優(yōu)化它自身。然而,大模型具有的各種判斷偏見偏好使得它們往往不能夠客觀的評價自己輸出的內(nèi)容。在未來,開發(fā)能夠進行自我評判的(一組)大模型對于模型自我進化至關(guān)重要。

人類協(xié)同大模型共同判斷:直覺上,人工的參與和校對可以緩解 LLM-as-a-judge 存在偏見和脆弱性。然而,只有少數(shù)幾篇工作關(guān)注這個方向。未來的工作可以關(guān)注如何用 LLM 來進行數(shù)據(jù)選擇,通過選擇一個很小但很具有代表性的測試子集來進行人工評測;同時,LLM-as-a-judge 也可以從其他具有成熟的人機協(xié)同方案的領(lǐng)域受益。

總結(jié)

本文探討了 LLM-as-a-judge 的驚喜微妙之處。我們首先根據(jù)輸入格式(逐點、成對和列表)和輸出格式(包括評分、排名和選擇)對現(xiàn)有的基于 LLM-as-a-judge 進行定義。然后,我們提出了一個全面的 LLM-as-a-judge 的分類法,涵蓋了判斷屬性、方法和應(yīng)用。此后,我們介紹了 LLM-as-a-judge 的詳細(xì)基準(zhǔn)集合,并結(jié)合了對當(dāng)前挑戰(zhàn)和未來方向的深思熟慮的分析,旨在為這一新興領(lǐng)域的未來工作提供更多資源和見解。

責(zé)任編輯:姜華 來源: 機器之心
相關(guān)推薦

2021-06-13 12:03:46

SaaS軟件即服務(wù)

2022-03-27 20:32:28

Knative容器事件模型

2021-10-09 00:02:04

DevOps敏捷開發(fā)

2019-03-04 09:38:42

5G 4GVR

2021-06-29 11:21:41

數(shù)據(jù)安全網(wǎng)絡(luò)安全黑客

2020-11-30 08:34:44

大數(shù)據(jù)數(shù)據(jù)分析技術(shù)

2022-04-12 18:29:41

元數(shù)據(jù)系統(tǒng)架構(gòu)

2022-01-05 18:27:44

數(shù)據(jù)挖掘工具

2022-04-22 11:26:55

數(shù)據(jù)管理架構(gòu)

2022-07-31 20:29:28

日志系統(tǒng)

2021-03-03 21:31:24

量化投資利潤

2021-02-14 00:21:37

區(qū)塊鏈數(shù)字貨幣金融

2021-03-25 11:24:25

爬蟲技術(shù)開發(fā)

2021-10-17 20:38:30

微服務(wù)內(nèi)存組件

2021-08-31 19:14:38

技術(shù)埋點運營

2020-11-03 07:04:39

云計算公有云私有云

2021-09-03 18:38:13

數(shù)據(jù)湖數(shù)據(jù)倉庫

2021-10-12 18:31:40

流量運營前端

2021-12-03 18:25:56

數(shù)據(jù)指標(biāo)本質(zhì)

2022-04-27 18:25:02

數(shù)據(jù)采集維度
點贊
收藏

51CTO技術(shù)棧公眾號

青青在线精品| jizz在线观看视频| 日韩欧美另类一区二区| 久久午夜免费电影| 成人午夜激情免费视频| 国产第一页在线播放| 欧美日韩女优| 亚洲精品免费电影| 欧美极品色图| h片在线免费看| 久热re这里精品视频在线6| 久久亚洲私人国产精品va| 免费无码一区二区三区| 国产资源一区| 色美美综合视频| 日韩在线视频在线| 99riav在线| 99国产精品久久| 久久久久久久久久久久久久久久久久av | 免费日本一区二区三区视频| 91在线观看一区二区| 91久久精品在线| 黄色av网站免费| 国产日韩欧美三区| 欧美激情免费在线| 亚洲不卡在线播放| 欧美一二区在线观看| 日韩精品久久久久久久玫瑰园| 久久精品国产99久久99久久久| av在线日韩| 欧美视频在线观看 亚洲欧| 91精品一区二区三区四区| melody高清在线观看| 91麻豆精品秘密| 福利视频一区二区三区| 99久久夜色精品国产亚洲| 蜜桃在线一区二区三区| 日本精品视频在线观看| 99精品视频99| 亚洲精品乱码| 欧美成人精精品一区二区频| 9l视频白拍9色9l视频| 日本激情在线观看| 国模一区二区三区白浆| 国产精品久久av| 特级西西444www大精品视频免费看| 在线观看视频免费一区二区三区| 蜜臀久久99精品久久久无需会员 | 国产人妻精品午夜福利免费| 久久久久久久久成人| 亚洲一区二区三区四区在线| xxxxxx在线观看| 成人免费网址| 亚洲精品一二三区| 日韩小视频网站| 欧美另类tv| 亚洲高清久久久| www.av毛片| 日韩在线伦理| 色先锋资源久久综合| 日本xxxxxxx免费视频| 哥也色在线视频| 亚洲欧美一区二区三区极速播放 | 国产麻豆精品一区二区| 97av自拍| 日本在线视频1区| 久久精品人人做人人爽人人| 神马影院一区二区| 成人黄视频在线观看| 亚洲综合色噜噜狠狠| 欧美日韩精品在线一区二区 | 成人网址在线观看| 国产国语亲子伦亲子| 成人美女在线观看| 欧美精品一区二区视频| 午夜看片在线免费| 亚洲精品视频免费看| 99在线精品免费视频| 亚洲精品福利电影| 欧美日韩视频专区在线播放| 中文字幕在线观看视频www| 国产一级成人av| 永久555www成人免费| 中文字幕亚洲欧美日韩| 99国产精品久久久久久久成人热| 国产成人高潮免费观看精品| 国产男女无套免费网站| 国产精品一区二区x88av| 精品乱色一区二区中文字幕| 成人精品一区二区三区免费| 亚洲精品久久嫩草网站秘色| 人妻有码中文字幕| 中文字幕日韩亚洲| 日韩精品一二三四区| 在线观看视频你懂得| 亚洲综合在线电影| 777精品伊人久久久久大香线蕉| 911亚洲精选| av在线不卡顿| 国内精品久久久久久久| 久久久久久久久久一级| 粉嫩蜜臀av国产精品网站| 青青成人在线| 男女视频在线| 欧美日韩亚洲国产综合| 日本丰满少妇裸体自慰| 福利欧美精品在线| 色爱av美腿丝袜综合粉嫩av| 日本三级2019| 狠狠色综合日日| 欧美一区二区影视| 国产又色又爽又黄刺激在线视频| 在线观看成人小视频| 亚洲色图欧美另类| 久久久9色精品国产一区二区三区| 国产69久久精品成人| 精品美女www爽爽爽视频| 国产欧美精品日韩区二区麻豆天美 | 日韩一级免费视频| 国产成人aaaa| 一区二区三区国产福利| 免费黄色电影在线观看| 欧美日韩中文字幕综合视频| 小日子的在线观看免费第8集| 国产探花在线精品| 欧美一区二区影院| 欧美特黄一级视频| 夜色激情一区二区| www.51色.com| 91九色精品国产一区二区| 日本一区二区不卡| 欧美熟妇交换久久久久久分类| 亚洲美女视频一区| 日本中文字幕观看| 日本欧美肥老太交大片| 国产精品成人va在线观看| 日批视频免费播放| 亚洲福利视频导航| 国产xxx在线观看| 亚洲国产一成人久久精品| 国产日韩精品在线播放| 国产一区二区网站| 亚洲国产精品成人综合 | 国产亚洲xxx| aaaaaa毛片| 久久精品一级爱片| 中文网丁香综合网| 日本电影久久久| 深夜福利日韩在线看| 欧美成人一区二区视频| 亚洲国产经典视频| av亚洲天堂网| 99热在线成人| 亚洲最大成人免费视频| 97caopor国产在线视频| 精品免费99久久| 日韩大片免费在线观看| 91色九色蝌蚪| 国产av人人夜夜澡人人爽| 成人激情电影在线| 91精品免费看| 色婷婷视频在线观看| 日韩久久久久久| 亚洲精品乱码久久久久久久久久久久 | 日韩视频免费在线观看| av中文字幕观看| 亚洲国产一区在线观看| www.超碰97| 日本不卡高清视频| 色爽爽爽爽爽爽爽爽| 日本在线视频一区二区三区| 97精品在线视频| 国产巨乳在线观看| 樱花草国产18久久久久| 一本色道综合久久欧美日韩精品| 日日摸夜夜添夜夜添亚洲女人| 97久久人人超碰caoprom欧美| 欧美aaa免费| 亚洲日本欧美中文幕| 久久精品国产亚洲AV无码男同 | 在线不卡免费欧美| 国产一级中文字幕| 国产视频一区不卡| av地址在线观看| 久久精品男女| 精品国产一区二区三区在线| 免费福利视频一区| 91精品久久久久久久久中文字幕| 黄色成人在线网| 中文在线不卡视频| 成人免费一级视频| 亚洲手机成人高清视频| 国产在线观看免费播放| 久久久久久婷| 日本免费成人网| 精品国产91| 国产精品美女诱惑| 国产人妖一区| 91成人免费观看网站| 欧美另类极品| 亚洲欧美在线一区| 精品久久久久久亚洲综合网站| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 免费观看国产精品视频| 久久国产精品亚洲人一区二区三区| 国产精品二区在线观看| 日本欧美在线| 日本久久久久久久久| 午夜伦理大片视频在线观看| 在线激情影院一区| 无码国产色欲xxxx视频| 在线电影国产精品| 一区精品在线观看| 色综合天天狠狠| 久久精品这里有| 亚洲免费在线看| 中文字幕第69页| 国产清纯白嫩初高生在线观看91| 大尺度做爰床戏呻吟舒畅| 国产精品一区在线| 国产成人在线综合| 免费观看一级特黄欧美大片| 国产精品免费观看久久| 伊人久久久大香线蕉综合直播| 超碰在线免费观看97| 日韩一区二区中文| 色女人综合av| 一本久久青青| 久久国产一区| 猫咪成人在线观看| 日韩免费在线看| 国产在线看片免费视频在线观看| 欧美日本在线视频中文字字幕| 欧美成人xxx| 日韩中文字幕视频在线| 91在线视频免费看| 中文精品99久久国产香蕉| 啊v视频在线| 国产亚洲在线播放| 阿v免费在线观看| 色妞色视频一区二区三区四区| 国产系列在线观看| 亚洲最大中文字幕| 岛国最新视频免费在线观看| 亚洲天堂av在线播放| 黄色电影免费在线看| 亚洲视频国产视频| 国产二区视频在线观看| 亚洲日本欧美日韩高观看| 精品视频一二三| 夜夜嗨av色一区二区不卡| а天堂8中文最新版在线官网| 国产一级揄自揄精品视频| 国产h视频在线观看| 在线观看亚洲区| 国产高清一区二区三区视频 | 亚洲第一导航| 欧美3p视频| japanese在线播放| 亚洲欧洲综合| 麻豆av免费在线| 日韩电影免费在线观看网站| 日日干夜夜操s8| 国产精品中文有码| 国产一级二级视频| 国产清纯美女被跳蛋高潮一区二区久久w| 国产馆在线观看| 樱桃视频在线观看一区| 亚洲 欧美 视频| 欧美在线啊v一区| 日韩 国产 在线| 欧美性猛交视频| 91极品身材尤物theporn| 欧美一级二级三级蜜桃| 日日躁夜夜躁白天躁晚上躁91| 亚洲天堂日韩电影| 精品孕妇一区二区三区| 久久全球大尺度高清视频| 原纱央莉成人av片| 成人精品久久一区二区三区| 99精品国产一区二区三区2021| 久久综合九色欧美狠狠| 仙踪林久久久久久久999| 国产 日韩 亚洲 欧美| 日韩成人精品在线| 麻豆tv在线观看| 国产欧美一区二区精品仙草咪| 搜索黄色一级片| 欧美日韩视频免费播放| 91精品中文字幕| 亚洲精品中文字幕女同| 黄色精品免费看| 欧美一二三视频| japansex久久高清精品| 日本黄网免费一区二区精品| 欧美黄色精品| 免费黄色一级网站| jlzzjlzz亚洲日本少妇| 老司机成人免费视频| 91国产视频在线观看| 韩国av免费在线| 精品国产一区二区三区在线观看 | 亚洲欧美亚洲| www.99av.com| av高清久久久| 一级黄色录像视频| 欧美吞精做爰啪啪高潮| 五月激情婷婷网| 欧美成人免费在线视频| 巨胸喷奶水www久久久免费动漫| 国产精品10p综合二区| 久久久久蜜桃| 在线看的黄色网址| 久久久久久97三级| 久久精品国产亚洲av麻豆色欲 | 9.1成人看片免费版| 亚洲精品乱码久久久久| 91成人国产综合久久精品| 国产亚洲欧美aaaa| 亚洲天堂导航| 久久精品日产第一区二区三区精品版| 91精品国产自产拍在线观看蜜| 日韩一级片播放| 久久亚洲精品小早川怜子| 中文字幕在线字幕中文| 亚洲成人精品av| 国产盗摄一区二区| 国产成人av一区二区三区| 欧美一区免费| 人妻少妇偷人精品久久久任期| 国产精品高潮久久久久无| 182在线观看视频| 在线看不卡av| 国产二区视频在线观看| 国产精品aaa| 精品日本12videosex| 日本成人在线免费视频| 久久久久久**毛片大全| 日韩欧美国产另类| 伊人亚洲福利一区二区三区| 快播电影网址老女人久久| 日本一区免费看| 水蜜桃久久夜色精品一区的特点| 无码国产69精品久久久久同性| 欧美视频精品一区| 成年人视频网站在线| 国产精品欧美激情| 婷婷六月综合| 亚洲制服在线观看| 亚洲一区国产视频| 三级网站在线看| 日韩av成人在线观看| 国产一区二区三区不卡视频网站| 人妻无码视频一区二区三区| 国产欧美一区二区精品性色超碰| 中文天堂在线资源| 久热99视频在线观看| 午夜视频一区二区在线观看| 阿v天堂2018| 久久这里只有精品首页| 中文字幕视频一区二区| x99av成人免费| 草草视频在线一区二区| 无码人妻精品一区二区三区在线| 久久久久免费观看| 一区二区三区www污污污网站| 久久国产精品影片| 久久中文资源| 三级a在线观看| 亚洲视频免费在线| 欧性猛交ⅹxxx乱大交| 国产成人精品视频在线| 久久人体视频| 奇米777第四色| 在线看一区二区| 欧美人动性xxxxz0oz| 久久偷窥视频| 久久99精品国产麻豆婷婷洗澡| 久草国产在线视频| 国产午夜精品免费一区二区三区 | 中文字幕第15页| 欧美一区二区免费视频| 蜜臀av在线| 日本一区二区免费看| 国产一区二区免费在线| 九一国产在线观看| 久久精品成人欧美大片| 精品国产导航| 蜜桃福利午夜精品一区| 欧美日韩一区二区精品| 黄色免费在线观看网站| 久久综合给合久久狠狠色| 精品亚洲免费视频| 欧美一区二区激情视频| 不卡中文字幕av| 国产欧美高清视频在线| 熟女人妻一区二区三区免费看| 欧洲视频一区二区| 97蜜桃久久| 亚洲小视频在线播放|