精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用AI評估AI,上交大新款大模型部分任務超越GPT-4,模型數據都開源

人工智能 新聞
研究人員開源了一個130億參數規模的大模型Auto-J,能對評估當下大模型的對齊效果。

評估大模型對齊表現最高效的方式是?

在生成式AI趨勢里,讓大模型回答和人類價值(意圖)一致非常重要,也就是業內常說的對齊(Alignment)。

讓大模型自己上。”

這是上海交通大學生成式人工智能研究組(GAIR)提出的最新思路。

但是目前的評估方法還存在透明度不夠、準確性不佳等問題。

所以研究人員開源了一個130億參數規模的大模型Auto-J,能對評估當下大模型的對齊效果。

它可同時分析兩個大模型的回答,分別做出評價并進行對比。

也能評估單個回復。并且在這一任務上的表現超越了GPT-4

目前,該項目開源了大量資源,包括:

  • Auto-J的130億參數模型(使用方法、訓練和測試數據也已經在GitHub上給出);
  • 所涉及問詢場景的定義文件;
  • 每個場景手工構建的參考評估準則;
  • 能夠自動識別用戶問詢所屬場景的分類器等。

用大模型指導大模型回答

在實際任務中,Auto-J不僅可以在兩個不同模型的回復中,指明更優秀的回答,而且會從多個具體維度給出判斷和分析。

同時對于它認為不夠好的回復,能提出改進建議

注:本節提供的示例已由原始英文文本翻譯為中文

具體來看Auto-J在成對回復比較單回復評估任務的效果。

成對回復比較部分給出的問題是:

起草一份給我家人的郵件,告訴他們我已經買好了感恩節的機票。我會在11月22日出發,30日離開。

實驗對比了GPT4ALL-13B-snoozy和Claude-1的回復。

Auto-J給出的判斷是Claude-1的回復更好,原因是信息更豐富、吸引人、個性化。

同時它也給出了具體的分析過程,從目的、語氣、正文內容、個性化、信息豐富度幾個方面評估,并講明了各個方面兩個大模型的優劣。

圖片

單回復評估任務的提問是:

在烤架上烤三文魚最好的方法是什么?

待評估的回復是:

在烤架上烹制三文魚的最好辦法是首先將烤架預熱至中高溫,刷上橄欖油,撒上鹽和胡椒,然后把三文魚皮朝下放在烤架上。讓三文魚烤5-7分鐘,直到皮酥脆,用叉子輕松刺入魚肉。翻轉三文魚,再烤3-4分鐘,配上你喜歡的配菜,享受美味。

對于這段回答,Auto-J給出的評價是“答得害行但是在幾個方面缺乏深度和詳細信息”。

比如沒有提到具體的烹飪溫度或時間,沒有提到三文魚的品質。

而且還給出了具體建議能讓回復更加有個性化:通過詢問用戶有關具體烤肉設備或烹飪三文魚的經驗。

圖片

支持50+場景

在性能表現上,Auto-J在以下兩方面都表現不錯。

功能使用方面

支持50+種不同的真實場景的用戶問詢(query)(如常見的廣告創作,起草郵件,作文潤色,代碼生成等)能夠評估各類大模型在廣泛場景下的對齊表現;

它能夠無縫切換兩種最常見的評估范式——成對回復比較單回復評估;并且可以“一器多用”,既可以做對齊評估也可以做“獎勵函數”(Reward Model)對模型性能進一步優化;

同時,它也能夠輸出詳細,結構化且易讀的自然語言評論來支持其評估結果,使其更具可解釋性與可靠性,并且便于開發者參與評估過程,迅速發現價值對齊過程中存在的問題

性能開銷方面

在性能和效率上,Auto-J 的評估效果僅次于GPT-4而顯著優于包括ChatGPT在內的眾多開源或閉源模型,并且在高效的vllm推理框架下能每分鐘評估超過100個樣本

在開銷上,由于其僅包含130億參數,Auto-J能直接在32G的V100上進行推理,而經過量化壓縮更是將能在如3090這樣的消費級顯卡上部署使用,從而極大降低了LLM的評估成本 (目前主流的解決方法是利用閉源大模型(如GPT-4)進行評估,但這種通過調用API的評估方式則需要消耗大量的時間和金錢成本。)

具體方法

訓練數據總體上遵循如下的流程示意圖:

圖片

△訓練數據收集流程示意圖

場景的定義和參考評估標準:

圖片

圖片

△場景定義與參考評估標準

為了更廣泛的支持不同的評估場景,Auto-J 定義了58種不同的場景,分屬于8大類(摘要,重寫,代碼,創作,考題,一般交流,功能性寫作以及其他NLP任務)。

對于每個場景,研究者手動編寫了一套用作參考的評估標準(criteria),覆蓋了這類場景下常見的評估角度,其中每條標準包含了名稱和文本描述。

評估標準的構建遵循一個兩層的樹狀結構:先定義了若干組通用基礎標準(如文本與代碼的一般標準),而每個場景的具體標準則繼承了一個或多個基礎標準,并額外添加了更多的定制化標準。

以上圖的“規劃”(planning)場景為例,針對這一場景的標準包括了該場景特定的內容與格式標準,以及繼承而來的基礎標準。

收集來自多種場景的用戶問詢和不同模型的回復

Auto-J被定位成能夠在定義的多種廣泛場景上均表現良好,因此一個重要的部分就是收集不同場景下相應的數據。為此,研究者手動標注了一定量用戶問詢的場景類別,并以此訓練了一個分類器用以識別任意問詢的所屬場景。

在該分類器的幫助下,成功從包含了大量真實用戶問詢和不同的模型回復的若干數據集中(如Chatbot Arena Conversations數據集)通過降采樣的方式篩選出了類別更加均衡的3436個成對樣本和960個單回復樣本作為訓練數據的輸入部分,其中成對樣本包含了一個問詢,兩個不同的針對該問詢的回復,以及人類標注的偏好標簽(哪個回復更好或平局);而單回復樣本則只包含了一個問詢和一個回復。

收集高質量的評判(judgment)

除了問詢和回復,更重要是收集作為訓練數據輸出部分的高質量評估文本,即“評判”(judgment)。

研究者定義一條完整的評判包含了中間的推理過程和最后的評估結果。對于成對回復比較而言,其中間推理過程為識別并對比兩條回復之間的關鍵不同之處,評估結果是選出兩條回復中更好的一個(或平局);而對于單回復樣本,其中間推理過程是針對其不足之處的評論(critique),評估結果則是一個1-10的總體打分。

在具體操作上,選擇調用GPT-4來生成需要的評判。

對于每個樣本,都會將其對應場景的評估標準傳入GPT-4中作為生成評判時的參考;此外,這里還觀察到在部分樣本上場景評估標準的加入會限制GPT-4發現回復中特殊的不足之處,因此研究者還額外要求其在給定的評估標準之外盡可能地發掘其他的關鍵因素。

最終,會將來自上述兩方面的輸出進行融合與重新排版,得到更加全面、具體且易讀的評判,作為訓練數據的輸出部分,其中對于成對回復比較數據,進一步根據已有的人類偏好標注進行了篩選。

訓練

研究者將來自兩種評估范式的數據合并使用以訓練模型,這使得Auto-J僅通過設置相應的提示詞模板即可無縫切換不同的評估范式。

另外,還采用了一種類似于上下文蒸餾的(context distillation)技術,在構建訓練序列時刪去了GPT-4用以參考的場景評估標準,僅保留了輸出端的監督信號。

在實踐中發現這能夠有效增強Auto-J的泛化性,避免其輸出的評判僅限制在對評估標準的同義重復上而忽略回復中具體的細節。

同時,對于成對回復比較數據部分,還采用了一個簡單的數據增強方式,即交換兩個回復在輸入中出現的順序,并對輸出的評判文本進行相應的重寫,以盡可能消除模型在評估時的位置偏好。

實驗和結果

針對Auto-J所支持的多個功能,分別構建了不同的測試基準以驗證其有效性:

在成對回復比較任務上,評估指標為與人類偏好標簽的一致性,以及在交換輸入中兩個回復的順序前后模型預測結果的一致性。

可以看到Auto-J在兩個指標上均顯著超過了選取的基線模型,僅次于GPT-4。

圖片

圖片

△成對回復比較任務的結果

在單回復評論生成任務上,將Auto-J生成的評論與其他模型的評論進行了一對一比較,可以看到不管是基于GPT-4的自動比較還是人類給出的判決,Auto-J所生成的評論都顯著優于大部分基線,且略微優于GPT-4。

圖片

△Auto-J在單回復評論生成任務上相比基線的勝率

研究者還探索了Auto-J作為獎勵模型(Reward Model)的潛力。

在常用的檢測獎勵模型有效性的Best-of-N設定下(即基座模型生成多個候選答案,獎勵模型根據自身輸出選擇最佳回復),Auto-J給出的單回復打分比各類基線模型能選出更好的回復(以GPT-4評分為參考)。

同時,其打分也顯示了與GPT-4打分更高的相關性。

圖片

△不同模型作為獎勵模型的表現

最后,開發者也探究了Auto-J在系統級別的評估表現。

對AlpacaEval(一個流行的基于GPT-4評估的大模型排行榜)上提交的開源模型使用Auto-J的單樣本打分進行了重新排序。

可以看到,基于Auto-J的排序結果與GPT-4的排序結果有極高的相關性。

圖片

圖片

△Auto-J與GPT-4對AlpacaEval排行榜提交的開源模型排序之間的相關性及具體排名數據

作者總結和展望

總結來說,GAIR研究組開發了一個具有 130 億參數的生成式評價模型 Auto-J,用于評估各類模型在解決不同場景用戶問詢下的表現,并旨在解決在普適性、靈活性和可解釋性方面的挑戰。

實驗證明其性能顯著優于諸多開源與閉源模型。

此外,也公開了模型之外的其他資源,如模型的訓練和多個測試基準中所使用的數據,在構建數據過程中得到的場景定義文件和參考評估標準,以及用以識別各類用戶問詢所屬場景的分類器。

該項目具體的論文、主頁信息如下:

論文地址:https://arxiv.org/abs/2310.05470
項目地址:https://gair-nlp.github.io/auto-j/
代碼地址:https://github.com/GAIR-NLP/auto-j

責任編輯:張燕妮 來源: 量子位
相關推薦

2023-10-21 12:42:06

數據模型

2023-09-11 15:57:16

人工智能模型GPT-4

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-01-19 12:51:00

AI數據

2023-08-27 14:08:17

開源代碼Meta大模型

2024-01-30 21:18:57

模型智能CMMLU

2024-01-12 19:07:26

GPT-4AI產品

2025-05-30 07:40:56

2023-12-20 13:34:56

2023-05-08 12:47:48

IBM模型

2023-03-30 11:08:49

AI模型訓練

2022-06-01 16:47:53

AI模型開源

2024-12-25 20:01:13

2024-04-02 11:17:18

2024-02-27 11:46:40

2024-06-17 18:04:38

2023-06-16 13:02:22

GPT-5GPT-4AI

2024-09-06 13:00:29

2023-10-14 13:09:53

谷歌模型

2025-04-15 06:13:46

點贊
收藏

51CTO技術棧公眾號

欧美第一淫aaasss性| 日韩一级欧美一级| 亚洲人成网站在线观看播放| 国产精品视频第一页| 欧美激情第二页| 日韩精品视频观看| 亚洲性生活网站| 国产精品刘玥久久一区| 97久久超碰国产精品| 国产精品视频yy9099| 久久久久久久久99| 成人午夜av| 亚洲福利在线看| 手机av在线网| 小早川怜子影音先锋在线观看| 亚洲欧洲性图库| 欧美日韩国产免费一区二区三区 | 一区二区三区国产在线| 日韩色av导航| 中文字幕免费视频| 高潮久久久久久久久久久久久久 | 国产suv精品一区二区69| 亚洲免费一区二区| 欧美黑人xxx| 欧美日韩色视频| 久久91麻豆精品一区| 精品免费国产一区二区三区四区| 亚洲欧美在线精品| 免费h视频在线观看| 亚洲女子a中天字幕| 日韩亚洲视频在线| 四虎精品在线| 东方aⅴ免费观看久久av| 成人日韩在线电影| 高潮毛片又色又爽免费| 夜久久久久久| 性金发美女69hd大尺寸| 久久久久久久久97| 欧美1区视频| 不卡av日日日| 污污的视频在线免费观看| 中国av一区| 日韩毛片在线看| 国产精品1000部啪视频| 国产精东传媒成人av电影| 欧美一区中文字幕| 亚洲第一区第二区第三区| 欧美爱爱视频| 欧美日韩精品电影| 国产日韩一区二区在线观看| 最新欧美色图| 精品久久久久久久中文字幕| 18禁网站免费无遮挡无码中文| 欧洲一区二区三区| 亚洲精品日韩综合观看成人91| 中文字幕中文字幕一区三区| 欧美一级二级三级区| 中文字幕中文在线不卡住| 亚洲精品国产系列| 免费a级在线播放| 成人免费小视频| 在线视频不卡一区二区| 免费黄色网页在线观看| 亚洲青青青在线视频| 裸体裸乳免费看| 色女人在线视频| 亚洲成人激情综合网| 91av资源网| 欧美大片免费| 欧美美女激情18p| 人妻换人妻仑乱| 成人三级av在线| 精品视频久久久久久| 国产jjizz一区二区三区视频| av影片在线一区| 日韩中文av在线| 欧美精品一区二区成人| 亚洲人妖在线| 国产精品久久久久久久app| 国产露脸无套对白在线播放| 国产成人在线视频网址| 久久精品国产理论片免费| 成人在线免费视频| 亚洲激情一二三区| 国产免费黄色av| 国产91精品在线| 日韩视频永久免费| 亚洲专区区免费| 亚洲不卡av不卡一区二区| 高清欧美性猛交| 中文字幕69页| 国产精品一区二区视频| 久久久久久九九九九| 日本亚洲精品| 精品福利在线视频| 国产九九在线观看| 精品人人人人| 日韩中文在线中文网三级| 国产午夜福利一区二区| 美腿丝袜在线亚洲一区| 岛国视频一区免费观看| av片在线看| 亚洲狠狠爱一区二区三区| 三级在线免费看| 国产成人高清精品免费5388| 中文字幕亚洲字幕| 日韩和一区二区| 精品一区二区三区在线观看国产 | 亚洲免费在线视频| 国产精品后入内射日本在线观看| 日本欧美在线| 亚洲精品自拍偷拍| 91porn在线视频| 蜜臀av性久久久久蜜臀aⅴ流畅| 国产精品传媒毛片三区| 亚洲成人三级| 色欧美88888久久久久久影院| 又色又爽又黄18网站| 久久福利影院| 国产91热爆ts人妖在线| 五月婷婷丁香花| 一区二区三区在线免费视频| 美女黄色片视频| 欧美日韩导航| 欧美激情一区二区三区久久久| 亚洲影视一区二区| 国产亚洲午夜高清国产拍精品| 男人添女荫道口女人有什么感觉| 91精品福利观看| 亚洲香蕉av在线一区二区三区| 中文字幕日韩一级| 国产91丝袜在线播放| 欧美h视频在线观看| 精品网站在线| 国产亚洲视频在线| 久久人妻免费视频| 久久久亚洲高清| 浮妇高潮喷白浆视频| youjizz亚洲| 久久精品91久久久久久再现| 亚洲一区中文字幕永久在线| 中文字幕精品一区二区三区精品| 国产乱子夫妻xx黑人xyx真爽| 风间由美一区二区av101| 久久91超碰青草是什么| 国产男女无套免费网站| 亚洲品质自拍视频| 91视频免费入口| 欧美一区二区三区久久精品茉莉花 | 国产精品久久久免费看| 美女网站视频久久| 亚洲日本理论电影| 亚洲精品无播放器在线播放| 自拍偷拍亚洲区| 亚洲无码久久久久| 国产精品成人一区二区艾草| 日韩欧美国产片| 亚州av乱码久久精品蜜桃| 亚洲影院色无极综合| 在线视频国产区| 亚洲成年网站在线观看| 日韩免费av片| 久久久久久久久久久电影| 国产情侣av自拍| 日本一本不卡| 亚洲一区二区三区乱码aⅴ蜜桃女| 菠萝蜜视频国产在线播放| 日韩精品一区在线| 久久国产视频播放| 国产亚洲精品aa| 亚洲欧美国产中文| 国产精品国码视频| 好吊色欧美一区二区三区视频| 性国裸体高清亚洲| 中日韩午夜理伦电影免费 | 免费无码毛片一区二区app| 丁香激情综合国产| 中文字幕乱码人妻综合二区三区| 精品国产一区探花在线观看 | 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 六月婷婷一区| 亚洲一区二区在线看| 欧美特黄不卡| 欧美自拍视频在线观看| 日本不卡不卡| 亚洲成人教育av| 成人黄色片在线观看| 亚洲欧美日本韩国| 在线免费观看黄色小视频| 久久精品国产精品亚洲综合| 久久手机在线视频| 精品国产aⅴ| 粉嫩av四季av绯色av第一区| 九九热线视频只有这里最精品| 欧美成年人网站| 男人天堂网在线| 日韩欧美国产综合| 超碰在线免费97| 亚洲高清免费视频| 四虎地址8848| www久久精品| 性生活一级大片| 首页欧美精品中文字幕| 成人短视频在线观看免费| 欧美老女人另类| 国产精品乱子乱xxxx| 国产91在线精品| 9.1国产丝袜在线观看| 久操视频在线免费播放| 亚洲欧美国产视频| 性做久久久久久久| 欧美日韩黄视频| 亚洲欧美自拍视频| 亚洲香蕉伊在人在线观| 久草手机视频在线观看| 久久蜜桃av一区二区天堂| 久久久久亚洲AV成人网人人小说| 日韩av网站免费在线| 成人黄色av片| 亚洲无吗在线| 欧美日韩视频免费在线观看| 黑丝美女一区二区| 久久精彩视频| 欧美电影免费网站| 国产成人精品免费视频大全最热 | www欧美com| 亚洲国产精品二十页| 国产熟妇久久777777| 波多野结衣91| 国产日韩视频一区| 国产精品66部| 欧美xxxx黑人| 青青草国产精品亚洲专区无| 欧美成人免费高清视频| 亚洲毛片视频| 18禁网站免费无遮挡无码中文| 国产精品videosex极品| 三年中国中文在线观看免费播放| 成人嘿咻视频免费看| 特级西西444www大精品视频| 伊人久久大香线蕉综合网站| 快播日韩欧美| 爽爽窝窝午夜精品一区二区| 国内外成人免费视频| 久久大胆人体视频| 极品尤物一区二区三区| 麻豆一区二区| 麻豆成人小视频| 久久99性xxx老妇胖精品| 欧美一级二级三级九九九| 国产欧美日韩精品高清二区综合区| 久久精品日产第一区二区三区精品版| 国产区精品视频在线观看豆花| 国产精品区一区| 欧洲vs亚洲vs国产| 九九99玖玖| 少妇精品久久久一区二区| 午夜久久资源| 99久久www免费| 欧美在线观看黄| 亚洲美女啪啪| 国产精品无码专区av在线播放 | 伊人精品视频在线观看| 国产精品一区二区91| 香蕉视频免费网站| 99久久国产综合色|国产精品| 黄色录像a级片| 国产视频一区在线观看| 蜜桃av.com| 亚洲一区二区三区四区在线| 成年免费在线观看| 欧洲视频一区二区| 国产乱色精品成人免费视频| 精品免费国产一区二区三区四区| 亚洲人视频在线观看| 永久免费精品影视网站| 超碰porn在线| 91av免费观看91av精品在线| a屁视频一区二区三区四区| 亚洲a级在线观看| 日本亚洲不卡| 曰韩不卡视频| 亚洲精品少妇| 91制片厂毛片| 夫妻av一区二区| 国产精品国产三级国产专业不| 综合分类小说区另类春色亚洲小说欧美| 青娱乐在线视频免费观看| 一本色道久久综合精品竹菊| 一级片aaaa| 日韩精品久久久久久福利| porn亚洲| 午夜精品久久久久久99热| 欧美aaa视频| 超碰97国产在线| 欧洲乱码伦视频免费| 日本手机在线视频| 久久99九九99精品| 中文字幕在线永久| 亚洲免费观看高清| 福利网址在线观看| 欧美v日韩v国产v| 91在线直播| 91精品国产乱码久久久久久久久 | 青青青视频在线播放| 亚洲午夜影视影院在线观看| 免费看av在线| 日韩av中文在线| 2024短剧网剧在线观看| 日本中文字幕成人| 超碰精品在线观看| 自拍偷拍99| 日韩和欧美一区二区三区| 国产情侣久久久久aⅴ免费| 国产精品毛片a∨一区二区三区| 国产乡下妇女做爰毛片| 欧美军同video69gay| 韩国三级av在线免费观看| 久久久久久中文| 精品视频一区二区三区| 亚洲精品乱码视频| 久久国产精品99国产| 91porn在线| 一区二区三区四区五区视频在线观看| 亚洲一线在线观看| 国产亚洲综合久久| 成人自拍av| 欧美一级片免费观看| 翔田千里一区二区| xxxx黄色片| 亚洲国产精品久久一线不卡| 精品国产亚洲av麻豆| www.亚洲人.com| 欧美另类激情| 亚洲精品人成| 日韩黄色免费网站| 国产综合精品久久久久成人av| 色88888久久久久久影院野外| 性高潮久久久久久久久久| 久久久综合免费视频| xxxx日韩| 免费看国产曰批40分钟| av成人免费在线观看| 久久夜靖品2区| 亚洲精品丝袜日韩| 性高爱久久久久久久久| 日韩福利在线| 日韩黄色小视频| 91无套直看片红桃在线观看| 欧美性猛交xxxx乱大交退制版 | 中文字幕在线不卡视频| 在线视频 91| 久久久99免费视频| 欧美日韩午夜电影网| 免费cad大片在线观看| 国产成人av电影免费在线观看| 九九精品在线观看视频| 精品国产91乱码一区二区三区| av资源中文在线天堂| 久久99九九| 日韩激情视频在线观看| 四虎永久免费地址| 欧美刺激脚交jootjob| 波多野结衣中文在线| 久久另类ts人妖一区二区| 欧美综合二区| jizz日本在线播放| 91精品国产91久久综合桃花 | 日本泡妞xxxx免费视频软件| 亚洲午夜国产一区99re久久| 视频在线观看你懂的| 国产精品久久99久久| 中文在线播放一区二区| jjzz黄色片| 色婷婷av一区二区三区大白胸| 97在线观看免费观看高清| 91久久国产精品91久久性色| 午夜久久一区| 国产ts在线播放| 91精品国产欧美一区二区成人| 91探花在线观看| 亚洲v国产v在线观看| 国产精品1区二区.| 中文字幕精品无码一区二区| www.亚洲人.com| 私拍精品福利视频在线一区| 黄色片在线免费| 尤物视频一区二区| 男女污视频在线观看| 国产一区二区丝袜高跟鞋图片| 亚洲九九精品| 午夜剧场免费在线观看| 精品国产电影一区二区| 最新日韩一区| 久操网在线观看| 中文字幕在线观看一区| 天天操天天干天天爱| 成人情趣片在线观看免费| 蘑菇福利视频一区播放| 欧美黄色免费看|