精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UC伯克利:給大模型測MBTI,Llama更敢說但GPT-4像理工男

人工智能 新聞
如果給LLM做MBTI,會得到什么結果?UC伯克利的最新研究就發現,不同模型真的有自己獨特的性格
如果你經常在不同大模型之間來回切換,或許會發現不同模型的回復語氣有細微差異,如同有不同的性格。

那么,LLM究竟有沒有「性格」這種維度的特征?最近加州大學伯克利分校發表的新研究VibeCheck就證實了這種推測。

圖片

論文地址:https://arxiv.org/abs/2410.12851

評價LLM,不止于準確度

如何更全面地評價大模型在撰寫故事、解釋概念或編輯文章上的表現?當前的基準測試大多只關心正確性,然而當我們評論一個人類寫作者的時候,關注的維度就會擴展到創造力、寫作風格等眾多維度。

對于那些經常使用不同模型的用戶,他們早已熟悉不同模型回復時表達方式上的差異,比如下面這張圖中,ChatGLM的文字顯得非常全面且嚴謹,透著濃濃的學術風。

圖片

但對于同一個問題,kimi的回復會包含更多具體的例子,但解釋的語言更為簡潔。

圖片

了解這些差異,對于那些使用基座大模型進行下游應用的開發者,會有所幫助。

例如,若我們發現Llama的回復更加友好,那么說明Llama更適合進行客服類任務,而回復更為正式的Claude則更適合編程類任務。

然而該如何系統性地了解這些差異?自然是「用魔法戰勝魔法」,也就是用大模型來評價不同大模型的表現,而這正是VibeCheck在做的事。

下圖展示了VibeCheck的核心模塊,包括給出提示詞、不同大模型做出回復,以及定性評價三部分。

圖片

VibeCheck的核心模塊

給出了一組約200個的提示詞后,研究者收集了不同大模型及人類的回復,并招募了200名人類評審員,兩兩比較這些回復并對「友好性」進行打分后計算平均分。

此外,人類評審員還會對大模型和人類回復的細微差異進行描述,例如,他們發現:

  1. 大模型的回答通常很正式,而人類的回答則更口語化
  2. 大模型提供客觀答案,人類使用主觀表達
  3. 大模型拒絕回答其知識范圍之外的問題

除了人類評審員,VibeCheck還調用了GPT-4o mini來評價不同大模型的回復,結果發現與人類的評估結果相符。也就是說,GPT-4o mini也能發現上述人類評審員總結的細微差異。

下面是VibeCheck考察的10個評估維度,包括

  1. 自信:使用試探性或不確定的語言。
  2. 細節程度:提供簡短或包含細節的回答。
  3. 正式性:隨意、對話式的非正式語言,或復雜,學術性的語言
  4. 情感基調:保持中立或超然,或者在回應中表達熱情或同理心
  5. 創意:堅持標準、可預測的答案,或提供具有新穎想法或想象性場景的回應
  6. 明示性:使用模糊、隱晦的語言,或直接且明確地陳述事物
  7. 幽默詼諧:以直接嚴肅的方式回應,或使用幽默、俏皮語言、文字游戲
  8. 參與程度:被動呈現信息,或通過修辭疑問、互動性語句主動吸引讀者
  9. 邏輯嚴謹:提供結論而缺乏充分論證,或構建有充分支持的論點,推理清晰
  10. 簡潔性:使用冗長的語言和過多的細節,或使用最少的詞匯清晰表達觀點

有了VibeCheck,你可以給出自己定義的問題以及不同大模型的回復,之后由代碼自動生成多維度的評估,具體可參考論文附帶的GitHub倉庫。

圖片

倉庫地址:https://github.com/SutekhVRC/VibeCheck

主流LLM的細微差異

接下來看看三種主流大模型:Llama-3-70B、GPT-4和Claude3-Opus之間的對比。

在使用眾包及游戲排位賽的大模型評價平臺Chatbot Arena上,Llama3的表現被認為優于GPT-4及Claude3。但經由VibeCheck的評估可發現,其中另有玄機。

結果發現,Llama3更愿意參與敏感或暴力話題,對倫理的重視較少,回復更加具有對話性(例如使用更多的你,我這樣人稱代詞)和幽默感,而這些正是Chatbot Arena的用戶所關注的特征.正因為人機偏好對齊做得好,Llama3才能獲得這樣的好評。

接下來,VibeCheck還考察了文本摘要生成、數學及描述圖片這三個具體應用中不同大模型的差異,并根據這些差異解釋了為何用戶對不同大模型存在偏好。

例如,Command X和TNLG是兩個用于文本摘要/總結生成的大模型,然而經過VibeCheck的拆解,可發現:

1)Command X通常明確陳述引言和結論,TNLG則使用斷斷續續的句子

2)Command X能提供具體例子或軼事來說明觀點

3)Command X能夠捕捉到一個故事的多重視角和情感方面,TNLG則更客觀

這些特征決定了,相比TNLG,人類評審員會更加偏好Command X。與此同時,VibeCheck能夠分別以71.29%的和61.42%的準確率預測模型在前述10個維度的PK結果和人類評審員的評價。

而在數學問題上,Llama-405B的回復相比GPT-4o更加詳細,對解題步驟的講解巨細靡遺,而GPT-4偏向于使用如Latex這樣的正式符號。

然而,在數學相關問題上,用戶偏向于使用正式的語氣并頻繁使用符號,對大模型思維過程的過度解釋與人類偏好呈負相關。

VibeCheck能夠以97.09%的準確率預測模型在上述10個維度上的對決結果,并以72.79%的準確率預測用戶偏好。

圖片

在描述圖像的任務中,研究發現GPT-4V更多使用詩意的語言,并將標題結構為一個動態故事,推斷圖像中主體的個性和情感,而Gemini則堅持更直白的描述。

VibeCheck能夠實現接近完美的99.13%模型匹配準確率(相比人類給出的評價)和89.02%偏好預測準確率

圖片

結論

隨著大模型的應用范圍越來越廣,距離我們的日常生活越來越近,我們會不自覺地將大模型擬人化,而人是會具有個性的。

雖然VibeCheck更多關注文字相關的任務,但未來可以使用類似的框架,去評價不同的文生圖及文生視頻模型,考察這些模型的產出是否也存在微妙的「個性」差異。

搞清楚這些差異,就相當于開發了一條全新的藍海賽道,讓當下純粹卷模型準確性的大模型廠商有了差異化競爭的可能,從而讓各種性格的大模型得以百花齊放。

而基于大模型開發具體應用的開發者,也可以關注不同大模型在語氣、氛圍上的細微差異,選擇合適自己應用場景的大模型,或者通過微調,讓大模型在某項指標上有所改進。

例如可以根據VibeCheck的評價結果改進得到更幽默的大模型,而不必招募人類評審員。

更關鍵的是,通過VibeCheck具體的拆解,我們可發現,用戶對不同任務的偏好存在差異。

例如在回答人文類的問題時,更具有對話感、語氣更友好的大模型受歡迎;而在解答數學問題時,回答簡潔且語氣正式的大模型用戶評價更高。

這樣細致的拆解,能夠讓我們更好地進行人機偏好對齊,從而讓大模型能更貼心地為人類服務。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-31 16:15:51

模型圖像

2024-04-07 00:45:00

開源模型

2024-03-25 08:30:00

AI數據

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2024-12-02 08:20:00

2023-04-07 09:28:31

模型訓練

2023-07-15 23:54:57

GPT-4AI谷歌

2023-12-04 13:52:00

模型數據

2025-04-18 08:42:52

模型推理AI

2023-06-08 11:27:10

模型AI

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-08-05 13:45:46

模型AI

2024-03-04 08:15:00

2025-01-22 15:21:00

2023-12-04 18:56:03

AI模型

2025-05-15 09:10:00

2023-08-14 08:04:13

2025-04-30 09:09:00

2023-05-26 17:20:29

模型工具
點贊
收藏

51CTO技術棧公眾號

性chinese极品按摩| 国产久一道中文一区| 亚洲女人毛茸茸高潮| 国产精品久久免费视频| 亚洲综合免费观看高清完整版在线 | 四虎永久免费地址| 国产精品对白| 欧美人伦禁忌dvd放荡欲情| 性一交一乱一伧国产女士spa| 日韩a在线观看| 久久成人免费电影| 欧美亚洲国产日韩2020| 欧美爱爱免费视频| 狠狠色狠狠色综合婷婷tag| 日韩亚洲欧美高清| 亚洲黄色小视频在线观看| 欧美xxxxhdvideosex| 欧美国产精品中文字幕| 国产日韩一区欧美| jizz中国少妇| 全部av―极品视觉盛宴亚洲| 国内精品久久久久久久| 久久国产高清视频| 国产精品免费大片| 亚洲国产欧美一区二区三区同亚洲| 天天色综合社区| xx欧美xxx| 性久久久久久久久| 777久久精品一区二区三区无码 | 香蕉视频一区二区三区| 欧美一区二区精品在线| 五月婷婷激情久久| 日韩免费电影| 欧美日韩免费网站| 九色自拍视频在线观看| 亚洲色图美国十次| 亚洲欧美色图小说| 中文字幕一区二区三区在线乱码| 国产精品影院在线| 久久亚洲综合色| 九色一区二区| 亚洲aⅴ乱码精品成人区| 国产福利一区二区| 91精品国产高清久久久久久91裸体 | 欧美大陆一区二区| 天堂网av在线播放| 成人国产精品免费观看动漫 | 国产成人免费看一级大黄| 久久国内精品视频| 国产视频观看一区| 国产一区二区三区三州| 麻豆久久久久久久| 国产欧美精品久久久| 在线播放一级片| 另类专区欧美蜜桃臀第一页| 国产精品电影久久久久电影网| 亚洲高清毛片一区二区| 国产农村妇女精品一区二区| 欧日韩不卡在线视频| 国产精品久久久久久久久久久久久久久久久 | 久久一区91| 日韩在线观看精品| 蜜臀久久精品久久久用户群体| 中文字幕一区二区av| 色综合天天综合网国产成人网| 激情视频在线播放| 日韩亚洲国产欧美| 2018中文字幕一区二区三区| 中文字幕视频网| 日韩成人av影视| 国产日韩欧美在线视频观看| 99产精品成人啪免费网站| 国产成人精品一区二| 国产一区免费| 韩国三级在线观看久| 国产精品乱码人人做人人爱| 欧美aaa在线观看| 国产偷倩在线播放| 一本色道a无线码一区v| 亚洲欧美自拍另类日韩| 秋霞一区二区三区| 亚洲免费伊人电影在线观看av| 日韩一区二区a片免费观看| 93在线视频精品免费观看| 久久99精品视频一区97| 一区二区三区福利视频| 蜜乳av一区二区三区| 成人午夜电影免费在线观看| 理论视频在线| 亚洲精品成人在线| 日本一区二区黄色| 国产精久久一区二区| 亚洲成人黄色网| 日韩一级片在线免费观看| 国产精品sm| 国产精品久久久久久久久久三级| av网站免费播放| 久久精品一级爱片| 日韩极品视频在线观看| 秋霞午夜一区二区| www.久久网| 国产99久久精品| 日本黑人久久| 青草视频在线免费直播| 日本韩国一区二区三区| 蜜桃视频无码区在线观看| 精品国产91| 国模gogo一区二区大胆私拍 | 911久久香蕉国产线看观看| 韩国福利视频一区| 国产精品久久久久久免费 | 免费看成人午夜电影| 好吊日视频在线观看| 欧美色xxxx| 极品白嫩少妇无套内谢| 首页国产精品| 国产不卡视频在线| 欧美一级视频免费| 亚洲视频在线观看三级| 亚洲视频在线a| 欧美国产不卡| 久久久亚洲国产| 国产精品午夜福利| 国产精品丝袜91| 熟女少妇精品一区二区| 五月亚洲婷婷| 欧美成人网在线| 11024精品一区二区三区日韩| 成人av在线影院| 日本黄大片在线观看| 亚洲精品成人一区| 中文字幕精品国产| 亚洲毛片一区二区三区| 久久免费偷拍视频| 成年人观看网站| 欧洲在线一区| 2019av中文字幕| 无码国产精品一区二区色情男同| 一区二区三区在线视频观看58| 日本不卡一区二区在线观看| 欧美精品系列| 国产精品视频99| 久久国产精品一区| 3d成人h动漫网站入口| 永久免费未视频| 久99久精品视频免费观看| 亚洲欧洲日韩精品| 欧美成人三级| 日韩少妇与小伙激情| 国产精品久久久久久久久久久久久久久久久久 | 久久99久久99小草精品免视看| 日韩精品久久久| 亚洲第一会所| 中文字幕欧美日韩va免费视频| 中文在线观看av| 中文字幕一区二区三区乱码在线 | 国产精品18| 美日韩精品免费观看视频| 国产精品特级毛片一区二区三区| 综合分类小说区另类春色亚洲小说欧美 | 国产在线精品视频| 法国空姐在线观看免费| 日韩中文字幕在线一区| 欧美激情按摩在线| 午夜性色福利影院| 色94色欧美sute亚洲线路一久| 成都免费高清电影| 麻豆一区二区三区| av影院在线播放| 精品国产乱子伦一区二区| 2023亚洲男人天堂| av在线首页| 日韩一二三四区| 五月婷婷开心网| 日本一区二区三区在线不卡| 国产精品嫩草影院8vv8| 国产精品vip| 欧美日韩在线播放一区二区| 免费在线看黄网址| 欧美亚洲二区| 欧美激情久久久| 日本免费不卡| 91精品国产欧美一区二区成人| 久久亚洲成人av| 久久免费电影网| 日韩成人av免费| 99成人精品| 亚洲精品一区二区三区蜜桃久| 91精品啪在线观看国产爱臀| 7m第一福利500精品视频| 成黄免费在线| 精品国产91九色蝌蚪| 亚洲va在线观看| 亚洲免费av网站| 精品人妻少妇嫩草av无码| 九九国产精品视频| 性欧美大战久久久久久久| 精品视频网站| 国产一区二区在线网站| 久久久久久久性潮| 久久免费观看视频| 免费在线观看av片| 日韩不卡中文字幕| 国产精品自产拍| 日韩欧美综合在线视频| 精品国产乱码久久久久久鸭王1| 久久日一线二线三线suv| 欧美激情第一区| 久久一区亚洲| 欧美国产日韩激情| 99久久这里只有精品| 久久亚洲午夜电影| 亚洲国产欧美在线观看| 国产欧美日韩高清| 综合日韩av| 欧美高清在线播放| 久久日韩视频| 日韩在线免费av| 成人性爱视频在线观看| 亚洲精品在线网站| 99久久久国产精品无码网爆| 在线精品视频免费播放| 日本熟妇色xxxxx日本免费看| 亚洲私人黄色宅男| 波多野结衣家庭教师在线观看 | 欧美日韩免费高清一区色橹橹| 国产一级在线观看视频| 亚洲精选免费视频| 天天做夜夜爱爱爱| 国产精品美女久久久久久久久| 三级电影在线看| av在线不卡网| 国产一卡二卡三卡四卡| 国产精品一二一区| 欧美性受xxxx黒人xyx性爽| 看片网站欧美日韩| 国产又黄又猛又粗又爽的视频| 欧美亚洲一级| 欧美 日韩 国产一区| 亚洲综合国产激情另类一区| 男人添女人荫蒂免费视频| 欧美日韩亚洲一区三区| 日本福利视频网站| 一区在线免费观看| 无码人妻少妇伦在线电影| 今天的高清视频免费播放成人| japanese在线播放| 欧美精品三级| 亚洲精品无码国产| av不卡在线看| 欧美aⅴ在线观看| 久久精品一区| 男人女人黄一级| 精品一区二区三区久久| 欧美视频亚洲图片| 国产乱码精品一区二区三区忘忧草 | 狠狠狠色丁香婷婷综合激情| 999在线精品视频| 国产一区二区三区在线观看免费视频| 色噜噜狠狠一区二区三区狼国成人| 精品一区在线看| 久久久久久久久久影视| 波多野结衣亚洲一区| 好吊日免费视频| 国产亚洲女人久久久久毛片| 四虎成人免费影院| 自拍偷拍欧美激情| 日本网站在线免费观看| 色综合色狠狠天天综合色| 中文字幕无码乱码人妻日韩精品| 欧美日韩精品一区视频| 亚洲爱情岛论坛永久| 亚洲大胆人体视频| 国产小视频福利在线| www国产精品com| 欧美xxxx做受欧美88bbw| 欧美又大又粗又长| 伊人久久大香| 精品一区二区三区视频日产| 欧洲杯半决赛直播| 狠狠精品干练久久久无码中文字幕| 亚洲午夜极品| 91最新在线观看| 国产福利视频一区二区三区| 泷泽萝拉在线播放| 亚洲欧洲中文日韩久久av乱码| 国产亚洲精品久久777777| 日本久久一区二区| www.久久久久久| 亚洲欧洲在线视频| 91亚洲天堂| 国产成人福利视频| 亚洲图色一区二区三区| 日本视频精品一区| 欧美日韩国产探花| 国产免费999| 成人黄色在线看| 欧美国产日韩在线观看成人| 欧美日韩美女在线| www.亚洲天堂.com| 国产亚洲欧美日韩一区二区| 欧美黑人猛交| 成人福利网站在线观看11| 亚洲盗摄视频| 国产精品免费看久久久无码| 日韩av中文字幕一区二区三区| 亚洲国产欧美日韩在线| 国产精品女上位| 国产91精品一区| 精品卡一卡二卡三卡四在线| 91精彩视频在线播放| 国产91精品高潮白浆喷水| 精品一区二区三区在线观看视频| 日韩电影大全在线观看| 亚洲大黄网站| 日韩欧美中文在线视频| 中文字幕的久久| 欧美一区二区三区网站| 亚洲第一区第一页| 最新超碰在线| 国产专区欧美专区| 欧美一区电影| 97视频在线免费播放| www.在线成人| 久久综合加勒比| 日韩欧美激情一区| 粗大黑人巨茎大战欧美成人| 国产日产亚洲精品| 欧美美女一区| 91精品无人成人www| 国产亚洲va综合人人澡精品| 精品成人久久久| 亚洲电影成人av99爱色| 欧美1—12sexvideos| 91成人免费看| 欧美日韩午夜| av天堂一区二区| 亚洲图片有声小说| 黄色www视频| 欧美激情精品久久久久久| 玖玖玖视频精品| 欧美一级爱爱视频| 国产福利视频一区二区三区| 国产一区二区播放| 欧美一级日韩免费不卡| mm1313亚洲国产精品美女| 亚洲jizzjizz日本少妇| 欧美高清不卡| 不许穿内裤随时挨c调教h苏绵 | 精品一区二三区| 国产午夜精品视频| 欧洲成人一区| 亚洲欧洲日韩精品| 国产精一品亚洲二区在线视频| 午夜写真片福利电影网| 精品久久久久久久人人人人传媒 | 亚洲电影影音先锋| 91香蕉视频免费看| 亚洲午夜久久久| 天天干免费视频| 国产精品久久国产精品99gif| 区一区二视频| 波多野结衣网页| 午夜伊人狠狠久久| 国产福利免费在线观看| 成人福利网站在线观看| 欧美特黄视频| 国产精品一级黄片| 在线观看av不卡| www久久日com| 国产一区二区三区免费不卡| 老司机精品久久| tube国产麻豆| 日韩av一区二区在线观看| 欧美自拍电影| 国产欧美123| 91丝袜高跟美女视频| 一级欧美一级日韩| 久久免费高清视频| 日本精品三区| 精品国产乱码久久久久夜深人妻| 欧美色播在线播放| 国产精品刘玥久久一区| 精品国产乱码久久久久久久软件| 日韩主播视频在线| 国内偷拍精品视频| 亚洲欧美日韩成人| 日韩一二三区| 成人在线看视频| 一区二区三区在线视频观看58 | 日韩av不卡一区| 中文字幕永久有效| 图片区小说区区亚洲影院| √新版天堂资源在线资源| 国产精品三区四区| 美女视频一区二区| 日韩精品在线观看免费| 麻豆国产精品va在线观看不卡| 校花撩起jk露出白色内裤国产精品 | 麻豆精品一区二区三区视频|