精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大羊駝、羊駝、小羊駝和ChatGPT比差在哪兒?七個類ChatGPT大模型測評

人工智能 新聞
大語言模型「七雄爭霸」,看誰拔得了頭籌。

大型語言模型(LLM)正在風靡全球,它們的一個重要應用就是聊天,并在問答、客服和其他許多方面都有應用。然而,聊天機器人是出了名的難以評估。究竟這些模型在什么情況下最好用,我們目前尚不明晰。因此,LLM 的測評非常重要。

此前一位名叫 Marco Tulio Ribeiro 的 Medium 博主在一些復雜任務上對 Vicuna-13B、MPT-7b-Chat 和 ChatGPT 3.5 進行了測試。結果表明,Vicuna 對于許多任務來說是 ChatGPT (3.5) 的可行替代品,而 MPT 還沒有準備好在現實世界中使用。

近日,CMU 副教授 Graham Neubig 對已有七種聊天機器人進行了詳細測評,并制作了一個實現自動比較的開源工具,最后形成了一份測評報告。


圖片

在這份報告中,測評者展示了一些聊天機器人的初步評估、比較結果,目的是讓人們更容易地了解最近出現的所有開源模型以及基于 API 的模型現狀。

具體來說,測評者創建了一個新的開源工具包 ——Zeno Build,用于評估 LLM。該工具包結合了:(1)通過 Hugging Face 或在線 API 使用開源 LLM 的統一界面;(2)使用 Zeno 瀏覽和分析結果的在線界面,以及(3)使用 Critique 對文本進行 SOTA 評估的指標。


圖片

具體結果參加:https://zeno-ml-chatbot-report.hf.space/

以下是評估結果匯總:

  • 測評者評估了 7 種語言模型:GPT-2、LLaMa、Alpaca、Vicuna、MPT-Chat、Cohere Command 和 ChatGPT (gpt-3.5-turbo);
  • 這些模型是根據它們在客戶服務數據集上創建類似人類的響應的能力進行評估的;
  • ChatGPT 拔得頭籌,但開源模型 Vicuna 也很有競爭力;
  • 測評者發現,使用具有較長上下文窗口的 chat-tuned 模型非常重要;
  • 在對話的前幾個回合,prompt 工程對于提升模型對話的表現非常有用,但在有更多上下文的后期回合中,效果就不那么明顯了;
  • 即使是像 ChatGPT 這樣強大的模型也存在很多明顯的問題,比如出現幻覺、未能探求更多信息、給出重復內容等。

以下是評測的詳細信息。

設置

模型概況

測評者使用的是 DSTC11 客戶服務數據集。DSTC11 是一個對話系統技術挑戰賽的數據集,旨在支持更具信息性和吸引力的任務導向對話,通過利用評論帖子中的主觀知識來實現。

DSTC11 數據集包含多個子任務,如多輪對話、多領域對話等等。例如,其中一個子任務是基于電影評論的多輪對話,其中用戶和系統之間的對話旨在幫助用戶找到適合他們口味的電影。

他們測試了以下 7 個模型

  • GPT-2:2019 年的一個經典語言模型。測評者把它作為一個基線加入,看看最近語言建模方面的進展對建立更好的聊天模型有多大影響。
  • LLaMa:一個最初由 Meta AI 訓練的語言模型,使用的是直接的語言建模目標。測試中使用的是 7B 版本的模型,以下開源模型采用的也是同等規模版本;
  • Alpaca:一個基于 LLaMa 的模型,但進行了指令調優;
  • Vicuna:一個基于 LLaMa 的模型,為基于聊天機器人的應用做了進一步的明確調整;
  • MPT-Chat:一個以類似于 Vicuna 的方式從頭開始訓練的模型,它有一個更商業化的許可;
  • Cohere Command:Cohere 推出的一個基于 API 的模型,進行了指令遵循方面的微調;
  • ChatGPT(gpt-3.5-turbo):標準的基于 API 的聊天模型,由 OpenAI 研發。

對于所有的模型,測評者使用了默認的參數設置。其中包括溫度(temperature)為 0.3,上下文窗口(context window)為 4 個先前的對話輪次,以及一個標準的 prompt:「You are a chatbot tasked with making small-talk with people」。

評價指標

測評者根據這些模型的輸出與人類客服反應的相似程度來評估這些模型。這是用 Critique 工具箱提供的指標完成的:

  • chrf:測量字符串的重疊度;
  • BERTScore:衡量兩個語篇之間嵌入的重疊程度;
  • UniEval Coherence:預測輸出與前一個聊天回合的連貫性如何。

他們還測量了長度比,用輸出的長度除以黃金標準的人類回復的長度,以此衡量聊天機器人是否啰嗦。

更進一步的分析

為了更深入地挖掘結果,測評者使用了 Zeno 的分析界面,特別是使用了它的報告生成器,根據對話中的位置(開始、早期、中期和后期)和人類回應的黃金標準長度(短、中、長)對例子進行細分,使用其探索界面來查看自動評分不佳的例子,并更好地了解每個模型的失敗之處。

結果

模型的總體表現如何?

根據所有這些指標,gpt-3.5-turbo 是明顯的贏家;Vicuna 是開源的贏家;GPT-2 和 LLaMa 不是很好,表明了直接在聊天中訓練的重要性。

圖片

這些排名也與 lmsys chat arena 的排名大致相符,lmsys chat arena 使用人類 A/B 測試來比較模型,但 Zeno Build 的結果是在沒有任何人類評分的情況下獲得的。

關于輸出長度,gpt3.5-turbo 比其他模型的輸出要冗長得多,而且看起來,在聊天方向進行調優的模型一般都會給出冗長的輸出。


圖片

黃金標準響應長度的準確性

接下來,測評者使用 Zeno report UI 進行深入挖掘。首先,他們按照人類回復的長度將準確性分別進行了測量。他們將回復分為短(≤35 個字符)、中等(36-70 個字符)和長(≥71 個字符)三個類別,并對它們的準確性進行了單獨的評估。

gpt-3.5-turbo 和 Vicuna 即使在更長的對話輪次中也能保持準確性,而其他模型的準確性則有所下降。

圖片

接下來的問題是上下文窗口大小有多重要?測評者用 Vicuna 進行了實驗,上下文窗口的范圍是 1-4 個之前的語篇。當他們增加上下文窗口時,模型性能上升,表明更大的上下文窗口很重要。


圖片

測評結果顯示,較長的上下文在對話的中間和后期尤其重要,因為這些位置的回復沒有那么多的模板,更多的是依賴于之前所說的內容。


圖片

當試圖生成黃金標準較短的輸出時(可能是因為有更多的歧義),更多的上下文尤為重要。


圖片

prompt 有多重要?

測評者嘗試了 5 個不同的 prompt,其中 4 個是通用的,另外一個是專門為保險領域的客服聊天任務量身定制的:

  • 標準的:「你是一個聊天機器人,負責與人閑聊。」
  • 友好的:「你是一個善良、友好的聊天機器人,你的任務是用一種讓人感到愉快的方式與人閑聊。」
  • 有禮貌的:「你是一個非常有禮貌的聊天機器人,說話非常正式,盡量避免在回答中犯任何錯誤。」
  • 憤世嫉俗的:「你是一個憤世嫉俗的聊天機器人,對世界有著非常黑暗的看法,通常喜歡指出任何可能存在的問題。」
  • 保險行業專用的:「你是 Rivertown 保險服務臺的工作人員,主要幫助解決保險索賠問題。」

總的來說,利用這些 prompt,測評者并沒有測出不同 prompt 導致的顯著差異,但「憤世嫉俗」的聊天機器人稍微差一點,而量身定制的「保險」聊天機器人總體上稍微好一點。


圖片

在對話的第一個回合中,不同 prompt 帶來的差異尤其明顯,這表明當沒有什么其他上下文可以利用時,prompt 是最重要的。

圖片

發現的錯誤以及可能的緩解措施

最后,測評者使用 Zeno 的 exploration UI ,試圖通過 gpt-3.5-turbo 找到可能的錯誤。具體來說,他們查看了所有 chrf 較低(<0.1)的例子,并手動查看了這些例子以發現趨勢。


圖片

Probe 的失敗

有時模型無法在實際需要時 Probe(探測)更多信息,例如模型在處理號碼這一事件中尚未完善(電話號碼必須是 11 位數字,模型給出的數字長度與答案不匹配)。這時可以通過修改 prompt 來緩解,以提醒模型某些信息所需的長度。

圖片

內容重復

有時,同樣的內容會重復多次,比如聊天機器人在這里說了兩次「謝謝」。

圖片

回答合理,但與人類方式不同

有時候,這種響應是合理的,只是與人類的反應不同。


圖片

以上就是評測結果。最后,測評者希望這份報告對研究者有所幫助!如果你繼續想嘗試其他模型、數據集、prompt 或其他超參數設置,可以跳轉到 zeno-build 存儲庫上的聊天機器人示例進行嘗試。 

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-15 09:39:37

2023-12-03 08:46:20

模型開源

2023-03-31 13:55:00

模型智能

2023-03-22 15:14:00

數據模型

2024-01-08 12:47:02

代碼模型Mistral

2024-01-02 06:30:58

ChatGPTGPT-3.5

2023-08-24 15:57:41

模型文檔檢索

2023-04-21 10:14:22

開源AI

2023-07-28 13:50:53

2023-10-29 22:38:59

2023-12-29 13:25:22

AI模型

2023-10-12 12:13:16

AI訓練

2023-08-15 14:05:27

AI模型

2023-05-25 13:59:12

ChatGPT模型

2023-06-28 18:10:27

羊駝家族大模型集體進化

2023-04-07 13:54:37

模型AI

2023-07-25 14:08:41

羊駝模型

2023-05-26 10:50:38

模型AI

2023-10-17 19:43:03

RACE排序數據

2023-08-21 11:29:50

智能數據
點贊
收藏

51CTO技術棧公眾號

欧美一区在线视频| 成人在线视频一区| 久久久999国产| 久久无码专区国产精品s| xxx在线免费观看| 99精品视频在线免费观看| 国产mv免费观看入口亚洲| 蜜桃av.com| 精品人人人人| 欧美日韩一二三区| 福利视频免费在线观看| 日本一区二区三区在线观看视频| 久久成人精品无人区| 国内成人精品一区| 久久久精品成人| 亚洲**毛片| 中文字幕色婷婷在线视频| 亚洲人成久久| 精品国偷自产在线视频| 91av在线免费| 日韩精品中文字幕吗一区二区| 在线欧美日韩国产| 亚洲欧洲精品一区二区| 亚洲人妻一区二区三区| 国产精品一区免费视频| 国产精品欧美风情| 国产超碰人人爽人人做人人爱| 我不卡神马影院| 亚洲香蕉成视频在线观看| 国产精品久久久久久在线观看| 国产精品99久久久久久董美香| 欧美小视频在线观看| 国产精品69久久久| dy888亚洲精品一区二区三区| 国产欧美日韩视频在线观看| 久久久精品国产一区二区三区| www.欧美国产| 国产麻豆一精品一av一免费| 国产精品一区二区性色av| 成年人av网站| 亚洲深夜影院| 国外成人在线播放| 久久中文字幕无码| 国模一区二区三区| 色中色综合影院手机版在线观看 | 天天干天天操天天操| 亚洲精品一级| 97在线视频免费| 日韩免费视频网站| 99国产精品久久久久久久成人热| 欧美精品videossex性护士| 1024手机在线视频| 午夜精品偷拍| 欧美激情xxxx| 国产系列精品av| 日韩一级大片| 91精品国产高清自在线看超| 亚洲免费激情视频| 西西人体一区二区| 国产精国产精品| 亚洲va男人天堂| 日本高清黄色片| 欧美影院三区| 日韩中文在线观看| 99久久婷婷国产综合| 91国语精品自产拍| 欧美激情一区二区三区久久久 | 欧美日韩在线播放一区| 亚欧美在线观看| 国产精久久久| 亚洲成人黄色网| 人人妻人人澡人人爽人人精品| 欧美日韩播放| xxxx欧美18另类的高清| 真实国产乱子伦对白在线| 亚洲午夜久久久久久尤物| 26uuu日韩精品一区二区| 亚洲天堂五月天| 麻豆国产精品一区二区三区 | 亚洲免费电影在线| 美女黄色免费看| 中文在线资源| 欧美精选一区二区| 亚洲女则毛耸耸bbw| 亚洲动漫精品| 久久久999精品| 青青草成人av| 九九视频精品免费| 国产日韩精品推荐| 午夜小视频在线| 亚洲国产精品嫩草影院| 大肉大捧一进一出好爽动态图| 欧美天堂一区二区| 亚洲精品一区在线观看| 日本爱爱爱视频| 欧美三级网页| 国产精品 欧美在线| 亚洲av永久无码国产精品久久| 久久综合色婷婷| 韩国黄色一级大片| 欧美三区四区| 欧美mv和日韩mv的网站| 天天干天天舔天天操| 一区二区三区网站| 日本一区二区三区四区视频| 精选一区二区三区四区五区| 区一区二在线观看| 国产老妇另类xxxxx| 欧美精品一区二区三区久久| 成人影院在线看| 色欧美片视频在线观看在线视频| 欧美69精品久久久久久不卡| 欧美精品尤物在线观看| 久久免费成人精品视频| 91精品中文字幕| 337p粉嫩大胆噜噜噜噜噜91av| 国产欧美综合一区| 少妇精品视频一区二区免费看| 亚洲第一av网站| 免费在线观看a级片| 日韩精品欧美精品| 精品国产_亚洲人成在线| av免费在线观| 欧美日韩久久不卡| 青娱乐国产视频| 亚洲永久免费精品| 精品午夜一区二区| 96av在线| 欧美一区二区播放| 久久av红桃一区二区禁漫| 日韩国产在线观看一区| 免费av在线一区二区| 僵尸再翻生在线观看| 精品国产一区二区三区久久影院| 中国毛片直接看| 久久精品国产亚洲一区二区三区| 日韩精品欧美一区二区三区| 成人在线爆射| 亚洲视频欧美视频| 国产精品99精品无码视亚| 国产乱色精品成人免费视频| 久久看人人爽人人| 久草青青在线观看| 麻豆一区二区麻豆免费观看| 性欧美长视频免费观看不卡| 人妻精品一区二区三区| 亚洲第一成人在线| 日韩无码精品一区二区| 亚洲国产日韩欧美一区二区三区| eeuss一区二区三区| 成人a在线视频免费观看| 欧美日韩国产免费| 亚洲熟女毛茸茸| 激情综合网天天干| 最新av网址在线观看| 国产三级漂亮女教师| 国产理论在线| 国产一区二区三区四区五区传媒 | 亚洲国产精品成人精品| 精品一区二区三区四| 高清av一区二区| 丁香花在线影院观看在线播放| 牛牛影视一区二区三区免费看| 韩国19禁主播vip福利视频| 人妻视频一区二区三区| 姬川优奈aav一区二区| 国产制服丝袜在线| 中文久久精品| 天天好比中文综合网| 亚洲我射av| 欧美国产日韩xxxxx| 日韩av视屏| 欧美性猛交一区二区三区精品| 99久久精品久久亚洲精品| 国产精品18久久久久久久久久久久 | 亚洲综合色av| а√在线中文网新版地址在线| 亚洲毛片在线观看| 亚洲天堂免费av| 亚洲一区二区三区在线看| 人妻丰满熟妇aⅴ无码| 美洲天堂一区二卡三卡四卡视频 | 国产欧美一区二区色老头| 日本一区高清不卡| 国产精品一区二区精品| 97久久久久久| 69久久精品| 精品国产欧美一区二区| 探花国产精品一区二区| 亚洲综合视频网| 少妇无套高潮一二三区| 第84页国产精品| 久久九九全国免费| 粉色视频免费看| 亚洲精品色图| 一区二区三区四区在线视频| 国产精品jk白丝蜜臀av小说| 国产精品白丝jk喷水视频一区| 在线视频国产区| 亚洲日韩欧美视频| 亚洲精品国产av| 欧美探花视频资源| 天天综合网入口| 亚洲色图.com| 日韩丰满少妇无码内射| 成人免费av网站| 91国内在线播放| 久久久久亚洲av无码专区喷水| aaa一区二区三区| 欧美日韩国产专区| 婷婷社区五月天| 97国产一区二区| 91亚洲精品久久久蜜桃借种| 国产欧美日韩一级| 免费看黄色a级片| 精品日韩一区| 精品视频第一区| 视频一区视频二区欧美| 国产精品香蕉在线观看| 日本不卡网站| 欧美精品激情在线| av电影免费在线观看| 中文字幕成人精品久久不卡| 无码h黄肉3d动漫在线观看| 日韩三级视频在线观看| 91麻豆成人精品国产| 在线视频综合导航| 天天爽夜夜爽夜夜爽精品| 亚洲尤物在线视频观看| 永久看片925tv| 1024成人网| 波多野结衣欲乱| 国产日韩成人精品| 最近中文字幕免费视频| 99久久精品国产导航| 亚洲欧美高清在线| 国产不卡在线一区| 韩国三级hd中文字幕有哪些| 国产裸体歌舞团一区二区| 欧美午夜aaaaaa免费视频| 久久最新视频| 人妻无码视频一区二区三区| 老鸭窝亚洲一区二区三区| 欧洲av无码放荡人妇网站| 国产精品久久777777毛茸茸| 第一区第二区在线| 欧美xxxx做受欧美.88| 日本高清视频在线观看| 中文字幕欧美日韩| 992tv免费直播在线观看| 伊人久久精品视频| gogogo高清在线观看免费完整版| 国产亚洲视频在线观看| 在线日本视频| 久久精品小视频| 天堂av在线电影| 午夜精品一区二区三区在线视频 | 久久天天躁狠狠躁夜夜躁| 日本精品在线| 久久成人精品视频| 久久不射影院| 538国产精品一区二区在线| 卡通欧美亚洲| 国产欧美在线播放| 欧美电影院免费观看| 国产乱子伦精品| 尤物tv在线精品| 亚洲区一区二区三区| 亚洲啊v在线观看| 国产天堂视频在线观看| 在线一区欧美| 尤蜜粉嫩av国产一区二区三区| 国产在线一区二区综合免费视频| 欧美午夜精品一区二区| 久久综合狠狠综合久久激情| 国产精品酒店视频| 亚洲国产精品影院| 欧美人一级淫片a免费播放| 911精品国产一区二区在线| 欧美熟妇交换久久久久久分类 | 欧美成人短视频| 亚洲免费资源在线播放| 丰满少妇乱子伦精品看片| 欧美性生活一区| 亚洲av无码一区二区乱子伦| 亚洲欧洲午夜一线一品| 超碰在线最新| 日韩免费中文字幕| 日韩在线观看中文字幕| 日韩精品一区二区三区色偷偷 | 亚洲精品一区二区三区新线路| 亚洲欧美日韩一区在线| 黄色av免费在线| 欧美怡红院视频一区二区三区| 伊人久久综合网另类网站| 国产亚洲欧美一区二区| 三级电影一区| 久久视频这里有精品| 久久www免费人成看片高清| 久久久久亚洲AV成人无码国产| 亚洲四区在线观看| 无码人妻丰满熟妇奶水区码| 日韩欧美一区二区免费| av在线播放网站| 久久久久久中文字幕| 亚洲国产综合在线观看| 欧美日韩精品免费在线观看视频| 欧美激情偷拍| 91看片在线免费观看| 91在线观看污| 日韩黄色免费观看| 欧美日韩精品一区视频| 日韩a在线观看| 欧美二区在线播放| 一区二区三区日本视频| 五码日韩精品一区二区三区视频| 亚洲精品美女91| 欧美一级片在线免费观看| 国产精品护士白丝一区av| 自拍偷拍18p| 亚洲欧美日韩天堂| 亚洲男人av| 久久综合福利| 亚洲另类视频| 黑人玩弄人妻一区二区三区| 亚洲黄一区二区三区| 91片黄在线观看喷潮| 中文亚洲视频在线| av在线日韩| 污视频在线免费观看一区二区三区 | 亚洲精品欧美激情| 国产一区二区女内射| 日韩在线欧美在线| 日韩亚洲国产免费| 国产四区在线观看| 精品亚洲国内自在自线福利| 亚洲a∨无码无在线观看| 欧美日韩电影在线| 欧美极品另类| 成人网址在线观看| 亚洲国产一成人久久精品| 波多野结衣在线免费观看| 亚洲视频1区2区| 成人做爰69片免费| 国产三级视频在线播放| 亚洲欧美日韩视频一区| av亚洲一区二区三区| 性高潮久久久久久久久| 蜜桃视频一区二区三区| 亚洲女人毛茸茸高潮| 欧美精品aⅴ在线视频| caopo在线| 国产麻豆乱码精品一区二区三区 | 国产一区二区三区18| 91精品店在线| 正在播放一区二区三区| 国产乱码精品一品二品| 精品无码免费视频| 亚洲精品久久久久| 国产亚洲一区二区手机在线观看| 性欧美精品一区二区三区在线播放| 毛片基地黄久久久久久天堂| 91精品少妇一区二区三区蜜桃臀| 欧美一级二级三级蜜桃| 91美女精品| 欧美日韩综合网| 久热成人在线视频| 青娱乐在线视频免费观看| 日韩精品免费在线| 成人国产一区| 91传媒免费视频| 91丨九色丨蝌蚪丨老版| 最新中文字幕免费| 欧美男插女视频| 香蕉久久精品| 午夜精品免费看| 亚洲成av人在线观看| 中文字幕成在线观看| 日韩精彩视频| 韩国精品免费视频| 精品无码人妻一区二区三区| 日韩精品在线视频观看| 久久91视频| 国产玉足脚交久久欧美| 国产无一区二区| 成 人 黄 色 片 在线播放 | 在线黄色的网站| 一区二区三区在线视频111| 成人午夜免费av| 国产精品sm调教免费专区| 欧美精品xxx| 99精品美女| 在线 丝袜 欧美 日韩 制服| 在线不卡中文字幕播放| 中文在线аv在线| av动漫在线免费观看| 中文字幕久久午夜不卡| 色窝窝无码一区二区三区成人网站| 国产精品欧美一区二区三区奶水| 在线播放一区|