精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

你的LLM評估方法過時了嗎?這三個范式轉(zhuǎn)變不容錯過

人工智能
本文的討論重點是 LLMs 的應(yīng)用,而非基礎(chǔ)模型的研究開發(fā)。同時,盡管文章標題如此,但我在本文提到的許多觀點同樣適用于其他生成系統(tǒng)(這得益于我在自動駕駛領(lǐng)域的經(jīng)驗),而不僅僅是 LLMs 的應(yīng)用。

在我的職業(yè)生涯中,我一直致力于為機器學習系統(tǒng)打造評估體系。在擔任 Quora 數(shù)據(jù)科學部門負責人時,我們?yōu)樾侣勗磁判颉V告投放、內(nèi)容審查等構(gòu)建了評估機制。在 Waymo,我們團隊為自動駕駛汽車開發(fā)了評估標準。而在金融科技初創(chuàng)公司 Coverbase,我們利用大語言模型(LLMs)來簡化第三方風險管理的流程。這些經(jīng)歷讓我意識到,在使用大語言模型時,我們需要在評估思路上做出一些細微而重要的調(diào)整。

本文的目的不在于為你的 LLM 應(yīng)用提供具體的評估方法,而是提出以下三種評估范式的轉(zhuǎn)變:

  1. 評估應(yīng)當是主體而非點綴。
  2. 比較差異的基準測試 。
  3. 將人工參與作為評估不可或缺的一部分。

需要說明的是,本文的討論重點是 LLMs 的應(yīng)用,而非基礎(chǔ)模型的研究開發(fā)。同時,盡管文章標題如此,但我在本文提到的許多觀點同樣適用于其他生成系統(tǒng)(這得益于我在自動駕駛領(lǐng)域的經(jīng)驗),而不僅僅是 LLMs 的應(yīng)用。

1.評估應(yīng)當是主體而非點綴

在機器學習的開發(fā)過程中,評估的重要性不言而喻,這一點對于 LLM 來說尤為突出。我認為 LLM 開發(fā)中評估的重要性提升有兩個原因:

a) 評估的比重增加了,因為在構(gòu)建 LLM 應(yīng)用時,可操作的空間相對有限,導(dǎo)致非評估工作的耗時減少。在 LLM 應(yīng)用的開發(fā)過程中,我們通常是在 OpenAI 的 GPT 或 Anthropic 的 Claude 等基礎(chǔ)模型之上進行構(gòu)建,而在應(yīng)用層面可調(diào)整的參數(shù)較少。這些參數(shù)的調(diào)整速度更快(需要注意的是,雖然調(diào)整速度快,但并不意味著能更快地達到理想效果)。例如,修改輸入提示詞的效率遠高于為梯度提升決策樹(Gradient-Boosted Decision Tree)編寫新的人工特征。因此,非評估的工作量減少,評估所占的時間比例自然就提高了。

Image by authorImage by author

b) 評估的絕對重要性也有所提升,因為生成式 AI 的輸出具有極大的多樣性,這使得評估工作變得更加復(fù)雜。與分類或排序任務(wù)不同,生成式 AI 的任務(wù)(比如撰寫關(guān)于某個主題的文章、制作某張圖像、為自動駕駛汽車規(guī)劃行駛軌跡)可能有無數(shù)種合理的輸出結(jié)果。因此,評估實際上是一個將高維空間投射到低維空間的過程。例如,對于 LLM 任務(wù),我們可以評估:“輸出內(nèi)容是否真實可靠?”,“是否含有有害信息?”,“語言表達是否簡潔?”,“是否頻繁使用‘當然!’等詞匯開頭?”,等等。在二元分類任務(wù)中,精確率和召回率是對結(jié)果的無損度量(直接測量你所觀察到的結(jié)果),而我提到的 LLM 任務(wù)的評估指標則是對輸出文本的損失性度量(測量的是你所觀察結(jié)果的簡化版)。準確地進行這種評估要困難得多。

這種評估范式的轉(zhuǎn)變,對于 LLM 應(yīng)用項目團隊的建設(shè),包括團隊規(guī)模和人員招聘,都具有實際的影響。

2.比較差異的基準測試

理想狀況是:我們在一個目標指標上不斷攀升,并持續(xù)改進。

Image by authorImage by author

但現(xiàn)實情況如何呢?

在圖表上,你幾乎連兩個連續(xù)的數(shù)據(jù)點都畫不出來!

以下場景你可能似曾相識:

第一次產(chǎn)品上線后,我們收集到了更多數(shù)據(jù),導(dǎo)致新的指標數(shù)據(jù)與之前的不具備直接可比性。而且,我們無法在新數(shù)據(jù)集上重新運行舊模型 —— 可能是因為系統(tǒng)其他部分已經(jīng)更新升級,無法回退到舊版本來復(fù)現(xiàn)模型;又或者是評估指標依賴于 LLM 作為評判標準,而數(shù)據(jù)集龐大,每次評估的成本過高,等等。

第二次產(chǎn)品上線后,我們決定改變輸出結(jié)構(gòu)。例如,之前我們指導(dǎo)模型輸出“是”或“否”的答案;現(xiàn)在我們讓模型輸出“是”、“否”、“可能”或“我不知道”。因此,之前精心準備的基準測試數(shù)據(jù)集變得不再適用。

第三次產(chǎn)品上線后,我們決定將單個 LLM 調(diào)用拆分為兩個 LLM 調(diào)用的復(fù)合調(diào)用,并需要評估這些子組件。為此,我們需要為子組件評估準備新的數(shù)據(jù)集。

……

問題的核心在于,在 LLM 時代,開發(fā)周期如此之快,以至于很難對同一指標進行持續(xù)追蹤。

那么,我們應(yīng)該如何應(yīng)對?

關(guān)注性能的變動。

換句話說,我們應(yīng)該接受這樣一個事實:在圖表上,我們通常只能看到兩個連續(xù)的數(shù)據(jù)點(譯者注:例如,一個代表當前版本的性能,另一個代表新版本的性能)。關(guān)鍵是要確保每個模型版本都比前一個版本有所改進(基于你當時所掌握的知識),盡管我們很難從絕對意義上了解模型的性能水平。

假設(shè)我有一個基于 LLM 的語言學習輔導(dǎo)程序,它能夠首先判斷輸入內(nèi)容是英語還是西班牙語,然后提供語法建議。一個簡單的評估指標就是“英語/西班牙語”標簽的準確率。現(xiàn)在,如果我修改了提示詞,并想要知道新的提示詞是否提升了準確率。除了手動標注大量數(shù)據(jù)并計算準確率之外,還有一種方法,就是只關(guān)注那些舊提示詞和新提示詞給出不同標簽的數(shù)據(jù)點。這樣雖然無法得知兩個模型的絕對準確率,但我可以確定哪個模型的準確率更高。

Image by authorImage by author

我想明確一點,我并非全盤否定以絕對值為基準的價值。我的意思是,我們應(yīng)該意識到這種做法的成本,而比較差異的基準測試(雖然它不能完全替代前者),通常是一種更經(jīng)濟高效的方法來得出大致的方向性結(jié)論。這種范式的轉(zhuǎn)變,其根本原因之一在于,如果你是從零開始構(gòu)建機器學習模型,那么你通常需要精心準備一個大規(guī)模的訓練集,評估數(shù)據(jù)集往往就是這一過程的自然產(chǎn)物。但這一點在利用預(yù)訓練模型進行零樣本或小樣本學習時并不適用(例如大語言模型)。

再舉一個例子,假設(shè)我有一個基于 LLM 的評估指標:我們用一個獨立的 LLM 來判斷 LLM 語言導(dǎo)師所提供的解釋是否足夠清晰。有人可能會問:“既然評估已經(jīng)自動化,比較差異的基準測試是否仍然比基于絕對值的基準測試更節(jié)省成本?”答案是肯定的。因為現(xiàn)在的評估指標更為復(fù)雜,我們可以不斷優(yōu)化這些指標本身(比如對 LLM 的提示詞進行工程優(yōu)化)。一方面,我們?nèi)匀恍枰獙υu估結(jié)果本身進行評估,比較差異的基準測試能夠告訴我們新的指標版本是否有所改進。另一方面,隨著基于 LLM 的評估指標不斷演進,如果我們只關(guān)注比較 LLM 語言導(dǎo)師模型的相鄰版本,那么就無需費心用新版本的評估指標來補充所有舊版本模型的基準測試結(jié)果。

比較差異的基準測試可以作為一種高效的內(nèi)循環(huán)快速迭代機制,而將成本較高的基于絕對值的基準測試或長期跟蹤方法留到外循環(huán)的低頻次迭代中使用。

3.將人工參與作為評估不可或缺的一部分

如上文所述,想要一勞永逸地篩選出一個完美無缺的黃金數(shù)據(jù)集,用以長期作為基準的想法可能并不現(xiàn)實。篩選工作將是一個持續(xù)且必要的開發(fā)環(huán)節(jié),無論是直接對 LLM 的輸出進行篩選,還是對充當評委的 LLM 或其他更復(fù)雜指標進行篩選。我們應(yīng)該致力于讓評估工具盡可能具備可擴展性;關(guān)鍵在于,即便如此,我們也不應(yīng)幻想能夠完全擺脫人工篩選。我們越快接受這一點,就能越早開始對工具進行正確的投資。

因此,無論我們選用何種評估工具,無論是自研還是外部采購,都應(yīng)確保有一個簡便易用的人工篩選界面。基本的界面可能如下所示:結(jié)合之前提到的比較差異的基準測試,它提供了一個并排比較的面板,用戶可以輕松瀏覽結(jié)果。同時,該界面還應(yīng)支持用戶輕松記錄篩選筆記,以便這些筆記未來可以作為黃金標簽(golden labels)用于基準測試(從而減輕未來的篩選工作負擔)。

更高級的版本應(yīng)當是盲測模式,篩選者不知道哪一邊是哪個版本。我們的數(shù)據(jù)多次證實,如果不進行盲測,即便是開發(fā)人員出于好意,也可能會有下意識地傾向于自己開發(fā)的版本。

這三個范式的轉(zhuǎn)變,一旦被識別,適應(yīng)起來其實并不復(fù)雜。真正的挑戰(zhàn)在于,如何在興奮和快速的開發(fā)節(jié)奏中提前發(fā)現(xiàn)這些轉(zhuǎn)變。我希望分享這些思考能夠幫助那些在工作中面臨類似挑戰(zhàn)的人們。

責任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2015-09-17 17:37:57

工具程序開源

2018-08-01 14:57:57

數(shù)據(jù)科學機器學習社區(qū)

2011-07-12 08:54:35

項目

2023-06-29 17:53:00

VSCode插件程序

2022-09-22 16:17:12

css編程語言開發(fā)

2016-02-29 15:00:48

RSA/信息安全

2024-01-25 18:08:57

CSSHTML文件

2020-01-14 10:17:13

深度學習人生第一份工作人工智能

2024-01-18 00:00:00

開發(fā)框架Port

2011-03-01 09:17:34

Linux命令行

2019-07-02 10:05:11

Linux 開源操作系統(tǒng)

2017-01-06 10:07:39

Linuxwindowsatime

2023-11-03 08:14:44

CSS生成器代碼

2018-01-12 08:29:11

持續(xù)集成工具

2019-10-29 09:00:00

AIOps人工智能

2014-07-10 10:56:21

jQuery

2016-07-21 10:24:42

GitHub編程Java

2022-02-07 10:37:20

Vue UI組件庫框架

2022-06-16 07:32:38

VSCodePython插件

2018-04-28 11:03:58

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲福利视频网| 亚洲一区二区不卡免费| 成人一区二区电影| 久久久精品99| 色婷婷狠狠五月综合天色拍| 色综合色狠狠综合色| 亚洲精品自在在线观看| 精品人妻一区二区三区换脸明星| 亚洲另类自拍| 色妞一区二区三区| 亚洲av成人片无码| 欧美va在线观看| 亚洲网友自拍偷拍| 亚洲精品视频一区二区三区| 好男人www在线视频| 日韩电影在线看| 欧美激情va永久在线播放| 亚洲人成人无码网www国产| 国产免费av国片精品草莓男男| 精品国产31久久久久久| 亚洲精品视频一二三| 亚洲av成人无码久久精品老人| 日本不卡在线视频| 69久久夜色精品国产69| 日韩一区二区三区四区在线| 你懂的一区二区三区| 精品久久久久久久久久久久包黑料 | 亚洲综合另类| 欧美日韩不卡合集视频| 亚洲第一综合网| 欧美人妖在线观看| 欧美一级高清片在线观看| 91淫黄看大片| 亚洲天堂免费电影| 亚洲国产欧美在线| 一区二区三区四区| 成a人片在线观看www视频| 成人丝袜18视频在线观看| 91嫩草在线| 亚洲天堂2021av| 日本亚洲免费观看| 日本久久精品视频| 800av免费在线观看| 国产精品av久久久久久麻豆网| 俺也去精品视频在线观看| 人妻精品久久久久中文| 四虎5151久久欧美毛片| 亚洲国产精品人久久电影| 伊人久久久久久久久| 91亚洲精品在看在线观看高清| 欧美最猛黑人xxxxx猛交| 成人黄色片视频| 色综合桃花网| 福利一区福利二区微拍刺激| 国产欧美日韩网站| f2c人成在线观看免费视频| 一区二区三区四区激情 | 韩国一区二区三区在线观看| 欧美成aaa人片免费看| 国产免费美女视频| 在线中文字幕第一区| 久久久精品国产亚洲| 欧美精品久久久久久久久46p| 天天做天天爱天天爽综合网| 久久久黄色av| 国产亚洲欧美精品久久久久久 | 国产精品无圣光一区二区| 视频一区二区三区在线观看| 在线视频1区2区| 亚洲日本乱码在线观看| 日产精品久久久久久久蜜臀| 大香伊人中文字幕精品| 精品久久香蕉国产线看观看亚洲| 成年人网站免费视频| 久久r热视频| 欧美日韩你懂得| 久久久久无码精品| 青草久久视频| 国产亚洲人成a一在线v站| 综合 欧美 亚洲日本| 91av精品| 97成人超碰免| 在线免费观看av片| 国产99精品国产| 欧美精品欧美精品| 日本激情在线观看| 亚洲一区二区中文在线| 男人天堂999| 亚洲网站三级| 亚洲精品久久久久久下一站 | 国产福利精品av综合导导航| 一区二区三区精彩视频| 粉嫩aⅴ一区二区三区四区 | 超碰免费97在线观看| 亚洲欧美精品午睡沙发| 日韩五码在线观看| 精品69视频一区二区三区| 日韩一区二区三区在线观看| 亚洲天堂网一区二区| 欧美成人自拍| 欧美亚洲国产视频| 国产情侣激情自拍| 久久先锋影音av鲁色资源| 青少年xxxxx性开放hg| 天堂网在线最新版www中文网| 欧美日韩精品一区二区| 一区二区免费在线观看视频| 久久国产精品亚洲人一区二区三区| 欧美激情喷水视频| 最近中文字幕在线免费观看| 成人精品电影在线观看| 最新不卡av| 黄色成人免费网| 亚洲第一精品久久忘忧草社区| 无码少妇一区二区| 国产日韩欧美三级| 99久热re在线精品视频| 蜜桃av在线免费观看| 色视频一区二区| 好吊色视频一区二区三区| 欧美hentaied在线观看| 国产成人亚洲精品| 无码精品人妻一区二区三区影院| 亚洲视频在线观看一区| 99视频免费播放| 美女午夜精品| 欧美激情小视频| 国产美女主播在线观看| 国产精品免费久久| 北条麻妃视频在线| 亚洲免费福利一区| 亚洲91av视频| 高h调教冰块play男男双性文| 亚洲色图视频免费播放| 国产一级做a爰片久久| 亚洲第一二三区| 4438全国成人免费| 天天操天天干天天操| 亚洲一区二区三区爽爽爽爽爽| 亚洲妇熟xx妇色黄蜜桃| 日韩综合一区| 国产精品一区二区久久国产| 国产日本在线| 在线精品观看国产| 午夜在线观看一区| 日韩在线a电影| 日本在线免费观看一区| 日韩欧美看国产| 亚洲色图综合网| 国产美女www| 欧美韩国日本综合| 污版视频在线观看| 99re66热这里只有精品8| 国产精品丝袜高跟| 欧美激情视频在线播放| 欧美精品电影在线播放| 综合五月激情网| 国产成+人+日韩+欧美+亚洲| 日韩欧美精品免费| 日韩精品免费一区二区夜夜嗨 | 91在线云播放| 欧美 日韩精品| 精品理论电影在线| 成人a视频在线观看| 国产成人高清精品| 欧美va亚洲va| 性无码专区无码| 欧美激情一区二区在线| 国产高清av片| 伊人久久亚洲热| 欧美午夜精品理论片a级大开眼界| 经典三级一区二区| 久久久久北条麻妃免费看| 亚洲国产综合一区| 一本色道**综合亚洲精品蜜桃冫| 麻豆一区在线观看| 国产高清精品网站| 欧美 日韩精品| 91精品一区国产高清在线gif| 成人3d动漫一区二区三区91| 成人线上视频| www国产精品视频| 欧美熟妇交换久久久久久分类| 色香蕉久久蜜桃| 青青青在线免费观看| 波多野结衣在线一区| 亚洲色图38p| 欧美精品日本| 日本一区二区三区www| www999久久| 欧美亚洲激情在线| 黄网站免费在线观看| 精品性高朝久久久久久久| 影音先锋黄色网址| 亚洲国产综合视频在线观看| 扒开jk护士狂揉免费| 国产美女精品人人做人人爽| 免费在线观看亚洲视频| 五月综合激情| 欧美精品与人动性物交免费看| 视频欧美精品| 日韩av免费在线看| 青春草视频在线观看| 综合av色偷偷网| 午夜视频1000| 欧美一区二区观看视频| 免费污污视频在线观看| 一区二区三区日韩| 99久久99久久精品免费| 99在线精品观看| 中文字幕第22页| 日韩福利视频网| 鲁一鲁一鲁一鲁一色| 一区二区蜜桃| 亚洲二区三区四区| 日韩最新在线| 国产欧美韩日| 精品国产一区二区三区性色av| 国产精品1234| 一级毛片久久久| 国模gogo一区二区大胆私拍| 国产原厂视频在线观看| 这里只有精品久久| 蜜桃视频在线观看视频| 日韩精品视频在线| 欧美视频xxx| 日韩欧美不卡一区| 国产免费久久久| 欧美区一区二区三区| 久久精品偷拍视频| 色94色欧美sute亚洲线路一ni| 日本熟伦人妇xxxx| 亚洲一区欧美一区| 久久这里只有精品免费| 亚洲欧美日韩在线播放| 黄色裸体一级片| 国产日产精品1区| 一本加勒比北条麻妃| 91在线观看一区二区| 中文字幕第3页| 99精品国产91久久久久久| 亚洲色图欧美日韩| 成人动漫一区二区| 男人网站在线观看| www.色精品| 激情综合丁香五月| 久久亚洲春色中文字幕久久久| 懂色av粉嫩av蜜乳av| 26uuu亚洲综合色欧美| 国产精品无码久久久久一区二区| 91网站最新网址| 免费毛片视频网站| 国产亚洲成av人在线观看导航| 波多野结衣a v在线| 中文字幕的久久| 伊人久久久久久久久久久久久久| 国产精品国产精品国产专区不蜜| 激情无码人妻又粗又大| 亚洲青青青在线视频| 欧美精品99久久久| 亚洲r级在线视频| 亚洲图片在线视频| 欧美性猛交xxxx黑人交| 一级特黄aaa大片| 欧美一级精品大片| 亚洲av成人无码久久精品老人 | rebdb初裸写真在线观看| 91精品国产网站| 日韩制服诱惑| 亚洲综合自拍一区| 高清日韩欧美| 色狠狠久久av五月综合|| 日韩在线高清| 高清无码视频直接看| 奶水喷射视频一区| 伊人成人222| 白白色 亚洲乱淫| 国产jk精品白丝av在线观看| 中文字幕一区二区三区蜜月| 久久午夜鲁丝片午夜精品| 粉嫩av一区二区三区免费野| 国产精品露脸视频| 精品裸体舞一区二区三区| 日韩亚洲视频在线观看| www.日韩.com| 韩国成人二区| 成人精品网站在线观看| 日本国产精品| 7777在线视频| 久久精品人人| 亚洲三级在线视频| 久久亚洲精品国产精品紫薇| 亚洲欧美小视频| 在线看不卡av| 少妇一级淫片免费看| 中文字幕在线视频日韩| 国产三级电影在线播放| 国产这里只有精品| 色橹橹欧美在线观看视频高清| 最近看过的日韩成人| 久久久久国产精品一区二区 | 中文无码av一区二区三区| 日韩欧美美女一区二区三区| 137大胆人体在线观看| 亚州欧美日韩中文视频| 久久久91麻豆精品国产一区| 青青草成人激情在线| 黄色精品免费| 午夜精品中文字幕| 久久精品一区二区三区四区| 久久99久久98精品免观看软件| 欧美日韩高清一区二区| 天堂av在线免费| 欧美成人一二三| 国产一区高清| 日韩亚洲视频| 亚洲一区国产| 在线免费播放av| 亚洲综合免费观看高清完整版在线 | 99国产在线视频| 五月天久久777| 五月婷婷之婷婷| 国产日韩欧美激情| 日韩黄色在线播放| 亚洲国产天堂网精品网站| 97超碰在线公开在线看免费| 成人妇女淫片aaaa视频| 久久综合亚洲| 亚洲 高清 成人 动漫| 成人av资源站| 国产精品第一页在线观看| 日韩一卡二卡三卡国产欧美| 免费在线看a| 国产中文欧美精品| 99视频精品全部免费在线视频| 黄色永久免费网站| 欧美高清在线一区二区| 精人妻无码一区二区三区| 亚洲图片欧洲图片av| 成年美女黄网站色大片不卡| 狠狠久久综合婷婷不卡| 亚洲美女黄色| 人体私拍套图hdxxxx| 香蕉成人伊视频在线观看| 人妻少妇精品无码专区| 午夜剧场成人观在线视频免费观看| av一级亚洲| 免费看国产一级片| 91视视频在线观看入口直接观看www | 日本午夜精品久久久久| 亚洲精品影院| 黄页网站大全一区二区| 波多野结衣在线网址| 日韩亚洲欧美在线| 成人性生交大片免费看网站| 国产精品伊人日日| 国产亚洲成人一区| 亚洲天堂岛国片| 欧美美女一区二区三区| 国产成人无吗| 精品国产乱码久久久久久蜜柚| 亚洲免费婷婷| 精品人妻中文无码av在线 | 亚洲一区二区三区自拍| 少妇高潮一区二区三区99小说| 欧美性一区二区三区| 日韩国产综合| 中文字幕 欧美 日韩| 亚洲大尺度视频在线观看| 日本午夜在线视频| 国产欧美中文字幕| 欧美日韩国产欧| 中日韩精品一区二区三区| 欧美猛男gaygay网站| zzzwww在线看片免费| 日韩精品极品视频在线观看免费| 久草热8精品视频在线观看| 国产网站在线看| 尤物九九久久国产精品的分类| 亚洲精品毛片| 国产精品久久中文字幕| 国产日本欧洲亚洲| 成人毛片在线免费观看| 国产成人在线播放| 欧美aa国产视频| 亚洲最大成人网站| 欧美久久久久中文字幕| 538在线视频| 亚洲精品乱码久久久久久蜜桃91 | 先锋影音国产一区| 99热这里只有精品4| 亚洲精品久久久久国产| 色婷婷成人网| 波多野结衣家庭教师在线播放| 国产精品国产三级国产有无不卡| 视频一区二区免费| 91麻豆桃色免费看| 丝袜亚洲精品中文字幕一区| 久草视频免费在线| 中文字幕在线视频日韩|