精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

指令跟隨大比拼!Meta發布多輪多語言基準Multi-IF:覆蓋8種語言,超4500種任務

人工智能 新聞
Meta全新發布的基準Multi-IF涵蓋八種語言、4501個三輪對話任務,全面揭示了當前LLM在復雜多輪、多語言場景中的挑戰。所有模型在多輪對話中表現顯著衰減,表現最佳的o1-preview模型在三輪對話的準確率從87.7%下降到70.7%;在非拉丁文字語言上,所有模型的表現顯著弱于英語。

在大語言模型(LLMs)不斷發展的背景下,如何評估這些模型在多輪對話和多語言環境下的指令遵循(instruction following)能力,成為一個重要的研究方向。

現有評估基準多集中于單輪對話和單語言任務,難以揭示復雜場景中的模型表現。

最近,Meta GenAI團隊發布了一個全新基準Multi-IF,專門用于評估LLM在多輪對話和多語言指令遵循(instruction following)中的表現,包含了4501個三輪對話的多語言指令任務,覆蓋英語、中文、法語、俄語等八種語言,以全面測試模型在多輪、跨語言場景下的指令執行能力。

圖片

論文鏈接:https://arxiv.org/abs/2410.15553

Multi-IF下載鏈接:https://huggingface.co/datasets/facebook/Multi-IF

實驗結果表明,多數LLM在多輪對話中表現出顯著的性能衰減。

例如,表現最佳的o1-preview模型在第一輪指令的平均準確率為87.7%,但到第三輪下降至70.7%

此外,非拉丁文字語言(如印地語、俄語和中文)的錯誤率明顯更高,反映出模型在多語言任務中的局限性。這些發現展示了當前LLM在處理復雜多輪和多語言指令任務上的挑戰和改進空間。

Multi-IF的發布為研究人員提供了更具挑戰性的評估基準,有望推動LLM在全球化、多語言應用中的發展。

數據集構建

Multi-IF數據集的構建過程經過了多輪精細的設計和篩選,既有模型也有人類專家的參與。

多輪擴展

首先,研究團隊基于已有的單輪指令遵循數據集IFEval,將每個單輪指令擴展為多輪指令序列。通過隨機采樣和模型生成,研究團隊為每個初始指令增加了兩輪新指令,形成一個完整的三輪對話場景。

首先隨機采樣一個指令類型(Intruction Type)比如「字數限制」、「限制輸出格式為列表」、「添加特定關鍵短語」等等,然后將之前的指令和這個指令類型提供給語言模型,讓它生成一個符合上下文的指令,比如「旅行計劃不超過400詞」;隨機采樣可能導致指令之間存在沖突。

為了確保多輪指令的邏輯一致性和層次遞進性,研究團隊設計了一套兩步沖突過濾機制:

1. 模型過濾:使用Llama 3.1 405B模型自動檢測可能存在矛盾的指令組合。例如,如果第一輪要求生成詳細描述,而第二輪要求簡潔總結,這種沖突指令會被篩選出來。

2. 人工審核:在初步過濾后,團隊通過人工標注對指令進行細化和調整,以確保每一輪指令既具有挑戰性又保持邏輯連貫。

多語言擴展

為了提高數據集的多語言適用性,研究團隊采用了以下方法將數據集從英文擴展至多語言版本:

1. 自動翻譯:使用Llama 3.1 405B模型將原始英語指令翻譯為中文、法語、俄語、印地語、西班牙語、意大利語和葡萄牙語七種語言。

2. 人工校對:翻譯結果經過語言專家的人工審校,以確保在語義和語法上貼合各語言的自然使用習慣,同時消除因翻譯可能帶來的歧義或誤導。

這一多輪擴展和多語言適配的構建流程,使Multi-IF成為全面評估LLM指令遵循能力的強大工具。

圖片

總體實驗結果

在Multi-IF基準上,Meta團隊對14種最先進的大語言模型(LLMs)進行了評估,涵蓋了OpenAI的o1-preview、o1-mini,GPT-4o,Llama 3.1(8B、70B和405B),Gemini 1.5系列,Claude 3系列,Qwen-2.5 72B,以及Mistral Large等。

實驗顯示,整體上o1-preview和Llama 3.1 405B表現最佳,在平均準確率上領先其他模型。特別是在多輪指令任務中,o1-preview和Llama 3.1 405B模型在三輪指令的平均準確率分別為78.9%和78.1%,展現了較高的指令遵循能力。

圖片

多輪對話中的指令遵循

實驗表明,所有模型在多輪對話中的指令遵循準確率隨著輪次增加而顯著下降。這種下降在某些模型中尤為明顯,如Qwen-2.5 72B在第一輪準確率較高,但在后續輪次中的表現迅速下滑。

相比之下,o1-preview和Llama 3.1 405B在多輪任務中的準確率相對穩定,展現出較強的持續指令遵循能力??傮w而言,這些結果說明,多輪對話對當前LLM構成了較大挑戰,模型在多輪次中遵循指令的能力有待提高。

圖片

多輪對話中的指令遺忘

在多輪對話中,模型往往出現「指令遺忘」現象,即在后續輪次中未能遵循前一輪成功執行的指令,研究團隊引入了「指令遺忘率」(Instruction Forgetting Ratio, IFR)來量化這種現象。

IFR值表明,高性能模型如o1-preview和Llama 3.1 405B在多輪對話中的遺忘率相對較低,而有些模型比如Gemini在IFR值上明顯偏高,表現出較高的指令遺忘傾向。

圖片

此外,對于Llama 3.1系列模型,隨著模型規模從8B擴展到405B,其指令遺忘率(即IFR)逐漸降低。這表明,增大模型規模可以有效提升其在多輪對話中保持指令一致性的能力。

多輪對話中的自我糾正

模型在多輪任務中是否能夠糾正之前的錯誤也是一個重要的性能衡量標準,實驗通過計算「錯誤自我修正率」(Error Correction Ratio, ECR)來評估這一能力。

結果顯示,o1-preview和o1-mini在錯誤自我修正方面表現突出,能夠在后續輪次中糾正約25%的之前未遵循的指令。這些模型似乎能夠利用某種“反思”能力來提高指令執行的水平。

圖片

相比之下,其他模型在自我修正方面表現一般,這一結果表明,具備反思能力的模型在多輪任務中能夠更好地處理錯誤并提升指令遵循的穩定性。 

多語言指令遵循

在多語言環境下,模型的指令遵循能力表現出顯著的語言差異。實驗顯示,英語的指令執行準確率普遍最高,尤其是在Llama 3.1 405B模型上,英語準確率接近0.85。法語和意大利語的表現也較為接近英語,而俄語、印地語和中文等非拉丁文字的準確率則明顯較低。

例如,o1-preview模型在俄語和印地語中的準確率低于其在英語、法語等語言中的表現??傮w而言,非拉丁文字語言的錯誤率高于拉丁文字語言,這在多語言指令任務中尤為突出。

實驗結果還表明,不同模型在多語言指令遵循中的表現存在一定差異。o1-preview在所有語言中的表現相對穩定,并在中文、西班牙語、意大利語和印地語中稍勝Llama 3.1 405B,而GPT-4o的表現則略遜于前兩者。

圖片

平均而言,非拉丁文字的語言往往會出現更高的指令遵循錯誤,表明當前模型在多語言環境,尤其是對非拉丁文字的支持方面,仍有提升空間。

這些結果反映出,盡管現有的先進LLM在多語言任務上已經展現出一定的能力,但在處理俄語、印地語和中文等非拉丁文字語言的指令遵循任務時仍存在明顯的局限性。這也為未來多語言模型的改進指出了明確的方向。 

結論

綜上所述,Multi-IF基準通過多輪對話和多語言環境的復雜指令任務,揭示了當前大語言模型在指令遵循能力上的不足之處。

實驗結果表明,多數模型在多輪任務中存在準確率下降和指令遺忘的問題,且在非拉丁文字的多語言任務中表現較差。Multi-IF為進一步提升LLM的多輪對話和跨語言指令遵循能力提供了重要的參考。

作者介紹

圖片

通訊作者Yun He(賀赟)是Meta GenAI團隊的一名研究科學家,博士畢業于Texas A&M University,專注于大語言模型Post-training的研究和應用。

他的主要研究方向包括指令跟隨(instruction following)、推理能力(Reasoning)以及工具使用(tool usage),旨在推動大語音模型在復雜多輪對話中的表現。

圖片

共同一作金帝是Meta GenAI Senior Research Scientist,負責Meta AI Agentic Code Execution和Data Analysis方向,博士畢業于MIT。主要研究方向為大模型后訓練對齊(RLHF,Alignment),模型推(Model Reasoning),和大模型智能體(Agent)方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-23 14:14:14

技術模型

2025-07-10 01:00:00

編程語言PythonJava

2010-12-13 17:12:31

2011-09-21 17:56:07

2009-07-24 16:51:12

ASP.NET論壇程序

2023-09-04 19:19:36

語言模型LLM

2011-01-19 11:10:30

2010-03-18 14:54:46

主流無線技術

2009-11-16 09:05:47

PostgreSQLInnoDB多版本并發控制

2009-07-17 10:36:28

2010-07-14 13:38:51

Perl開發工具

2020-08-04 17:06:40

Merging Rebasing Git

2017-09-10 14:29:03

眼力

2014-01-07 17:08:02

Java開源框架

2010-09-08 15:41:28

SIP協議棧

2010-05-28 11:09:51

SVN功能

2011-11-08 10:29:44

2021-03-15 21:07:17

IT行業薪酬薪水

2010-08-25 16:12:34

職場

2023-05-26 15:53:48

MidjourneyAI圖像
點贊
收藏

51CTO技術棧公眾號

高h调教冰块play男男双性文| 欧美色视频一区二区三区在线观看| 成人超碰在线| 99久久婷婷国产| 国产成人精品一区二区三区| 日本黄区免费视频观看| 91国内精品白嫩初高生| 日本韩国欧美三级| 免费在线看黄色片| se在线电影| 成人免费视频播放| 国产精品日韩在线观看| 日韩黄色三级视频| 欧美电影免费| 日韩高清av在线| 在线视频一二区| 日韩欧美精品电影| 亚洲在线视频网站| 亚洲一区二区不卡视频| 五月激情婷婷综合| 国产精品一品视频| 国产精品久久久久久一区二区| 久久久久久福利| 日韩欧美一区免费| 亚洲精品视频在线播放| 动漫美女无遮挡免费| 久久亚洲资源中文字| 精品久久久久久久久久久久久久| 国产又大又长又粗又黄| 日韩在线无毛| 成人美女视频在线看| 成人午夜激情免费视频| 国模私拍一区二区| 美女精品在线观看| 久久久女女女女999久久| 日韩激情小视频| 日韩理论电影| 亚洲人在线观看| 中文字幕在线免费看线人| 91精品啪在线观看国产手机 | 亚洲一区二区在线看| 三级视频在线播放| 99久久国产综合精品麻豆| 91麻豆蜜桃| 国产av无码专区亚洲av| 九色porny丨国产精品| 国产精品精品一区二区三区午夜版| 日本系列第一页| 国产精品多人| 久久久噜噜噜久久中文字免| 久久免费视频精品| 好看不卡的中文字幕| 九九热精品视频| 国产精品久久久久久久精| 欧美在线资源| 欧美成人一二三| 久久精品一区二区三| 欧美aⅴ99久久黑人专区| 久久综合久久八八| 亚洲成人生活片| 伊人成人在线| 777777777亚洲妇女| 国产精品久久久久久99| 久久精品欧洲| 国产免费久久av| 亚洲无码精品在线播放| 精品一二三四在线| 91性高湖久久久久久久久_久久99| 一级做a爱片性色毛片| 国产在线麻豆精品观看| 99久久精品久久久久久ai换脸| 性一交一乱一乱一视频| av男人天堂一区| 欧美日韩一区在线视频| h网站视频在线观看| 国产精品成人一区二区三区夜夜夜| 宅男av一区二区三区| gogo在线高清视频| 天天综合网天天综合色| 在线免费视频a| 97精品资源在线观看| 日韩欧美第一区| 网站免费在线观看| 三上亚洲一区二区| 欧美激情欧美激情在线五月| 51国产偷自视频区视频| 久久99久国产精品黄毛片色诱| 91在线观看欧美日韩| 欧美性受xxxx狂喷水| 久久久91精品国产一区二区精品| 一区二区冒白浆视频| 免费网站在线观看人| 色综合久久综合网97色综合| 黄色片免费网址| 欧美xxxx在线| 久久精品中文字幕| 香蕉影院在线观看| 国精产品一区一区三区mba视频| 国产乱码一区| 8888四色奇米在线观看| 性久久久久久久| www.99av.com| 美国成人xxx| 久久精品国产亚洲一区二区| 久久久国产精品成人免费| 蜜臀av一区二区在线观看| 国产精品免费一区二区三区在线观看| 国产福利第一视频在线播放| 亚洲国产精品久久不卡毛片| 91制片厂毛片| 香蕉一区二区| 欧美激情va永久在线播放| 精品久久久久久久久久久国产字幕| 国产综合色视频| 欧美色图亚洲自拍| 成年女人在线看片| 日韩欧美高清在线| 极品美妇后花庭翘臀娇吟小说| 国产精品女主播一区二区三区 | 国产精品白浆| 久久久精品中文字幕| 青青国产在线视频| 91在线精品一区二区| 日本免费成人网| 婷婷久久免费视频| 国产香蕉精品视频一区二区三区| 黄色一级片免费看| 成人听书哪个软件好| 午夜久久久久久久久久久| 精品69视频一区二区三区| 国产丝袜一区视频在线观看 | 国产亚洲第一区| 手机在线免费看av| 91精品国产91久久综合桃花| 成人精品一二三区| 麻豆91精品91久久久的内涵| 日本一区免费观看| 亚洲天堂资源| 精品偷拍各种wc美女嘘嘘| 国产无码精品久久久| 国产高清精品在线| 91精品国产毛片武则天| 日韩一区二区三区色| 蜜臀久久99精品久久久无需会员| 国产又色又爽又黄又免费| 国产精品天干天干在观线| 男女污污的视频| 加勒比久久综合| 国产精品第2页| aaa在线观看| 在线成人小视频| 中文字幕人妻一区二| 国产精选一区二区三区| 成年人视频大全| 北条麻妃一区二区三区在线| 97精品视频在线观看| 视频一区二区免费| 色哟哟欧美精品| 丁香激情五月少妇| 久久精品免费看| 日本黄色a视频| 永久免费精品视频| 69国产精品成人在线播放| 久久精品a一级国产免视看成人| 色欧美片视频在线观看 | 亚洲在线观看免费| 亚洲色图14p| 日av在线不卡| 四虎精品欧美一区二区免费| 哺乳一区二区三区中文视频| 欧洲日韩成人av| 国产天堂在线| 91精品国产色综合久久ai换脸| 清纯粉嫩极品夜夜嗨av| 99久久亚洲一区二区三区青草| 农村妇女精品一二区| 四虎国产精品免费观看| 亚洲a区在线视频| 9999在线视频| 日韩中文字幕免费| 四季av日韩精品一区| 欧美亚洲一区二区在线| 欧美一级片在线视频| 91在线视频官网| 九九九九九九九九| 亚洲免费婷婷| 在线观看日韩片| 欧美精品中文| 成人亲热视频网站| 手机看片久久| 美女av一区二区三区| 女人偷人在线视频| 欧美一区二区福利视频| 亚洲AV无码成人精品区东京热| 亚洲三级久久久| 艳妇乳肉亭妇荡乳av| 久久av中文字幕片| 亚洲熟妇av一区二区三区漫画| 成人在线电影在线观看视频| 国产一区二区在线网站| 在线视频 91| 国产精品第四页| 日本免费福利视频| 国产一区二区伦理片| 久久久久久久久久久福利| 自拍偷拍欧美| 日本精品免费| 卡一精品卡二卡三网站乱码| 成人激情视频免费在线| 黑人巨大亚洲一区二区久| 超碰精品一区二区三区乱码| 欧美成人高清电影在线| 中文字幕乱码视频| 日韩欧美黄色动漫| 国产真实乱偷精品视频| 亚洲视频中文字幕| 成年人在线免费看片| 99精品久久99久久久久| 6080国产精品| 九九国产精品视频| 不卡影院一区二区| 亚洲一区自拍| 中文精品无码中文字幕无码专区| 色综合色综合| 婷婷四房综合激情五月| 亚洲激情播播| 精品无码久久久久久久动漫| 欧美不卡在线观看| 91在线精品播放| 日韩在线激情| 91啪国产在线| 亚州精品国产| 91免费精品视频| 国产精品成人3p一区二区三区| 国产精品久久久久久久久久久久久| 欧美调教sm| 性色av一区二区三区| 日本成人不卡| 欧美—级a级欧美特级ar全黄| 18+激情视频在线| 久久亚洲精品毛片| 呦呦在线视频| 欧美另类极品videosbest最新版本| 欧美成人三区| 久久久国产精彩视频美女艺术照福利| 免费在线观看黄色| 久久精品国亚洲| 成人影院在线观看| 久久97精品久久久久久久不卡 | 国产69精品久久久| 国产精品国精产品一二| 久久久久久久久久久网站| 97人澡人人添人人爽欧美| 97国产真实伦对白精彩视频8| 精品三级久久| 欧洲成人性视频| 成人a在线观看高清电影| 国产精品久久久久福利| 国产精品诱惑| 国产精品入口福利| 日韩精品视频在线看| 高清av免费一区中文字幕| 另类ts人妖一区二区三区| 欧美不卡福利| 99热国内精品永久免费观看| 天天想你在线观看完整版电影免费| 国产精品av一区二区| 欧美老熟妇喷水| 免费黄网站欧美| 香蕉视频xxx| www.亚洲在线| 成人免费无遮挡无码黄漫视频| 国产精品免费人成网站| 青娱乐国产精品| 精品久久久久久久中文字幕| 中国女人真人一级毛片| 欧美一级免费大片| 午夜小视频免费| 主播福利视频一区| 免费污视频在线观看| 国产成人精品999| 国产精品亚洲一区二区在线观看 | 亚洲精选一区二区三区| 亚洲毛片在线观看.| 天天在线视频色| 欧美另类极品videosbestfree| 亚洲福利影院| 国产日韩欧美黄色| 精品久久ai| 亚洲精品一区二区三区av| 海角社区69精品视频| 国产av无码专区亚洲精品| 精品综合免费视频观看| 亚洲图片综合网| 1000部国产精品成人观看| 日韩三级免费看| 欧美日韩一区二区欧美激情| 精品国产乱码一区二区三 | heyzo在线| 国产欧美日韩综合精品| 日韩精选在线| 久久久无码中文字幕久...| 香蕉久久夜色精品国产| 亚洲第一天堂久久| 国产亚洲一区二区三区在线观看| 欧美黄色免费在线观看| 欧美日韩精品一区二区三区蜜桃 | 日韩在线观看视频免费| 精品捆绑调教一区二区三区| 亚洲综合社区网| 日本久久精品| 日韩av资源在线| 成人av在线资源网站| 国产美女福利视频| 欧美影片第一页| 日韩资源在线| 国内精品中文字幕| 午夜免费欧美电影| 一区二区三区一级片| 日本va欧美va欧美va精品| 欧美性xxxx图片| 一区二区三区国产| 国产一区二区女内射| 中文字幕av一区二区| 超碰aⅴ人人做人人爽欧美| 国产精品免费一区二区三区观看| 中文字幕日韩一区二区不卡 | 成年丰满熟妇午夜免费视频| 美国三级日本三级久久99| 亚洲av无码一区二区三区人 | 国语自产精品视频在线看| 高清精品久久| 国产福利片一区二区| 久久精品国产一区二区| 天天干天天操天天拍| 欧美中文字幕久久| 大片免费播放在线视频| 日韩av123| 国产99久久久国产精品成人免费 | 国产乱人伦精品一区二区在线观看| 国产人与禽zoz0性伦| 欧美性欧美巨大黑白大战| 国产精品免费观看| 国产精品美女呻吟| 日韩久久综合| 99999精品| 亚洲一区二区三区爽爽爽爽爽| 亚洲国产中文字幕在线| 久久久久五月天| 国产成人精品福利| 久久久亚洲精品无码| 久久先锋影音av| 国产男人搡女人免费视频| 在线观看日韩专区| 国产精品3区| 日韩精品在线中文字幕| 91亚洲国产成人精品一区二三| 黄色一级片免费在线观看| 亚洲欧美中文字幕| 欧美国产视频| 成人在线观看毛片| av日韩在线网站| 天堂网视频在线| 日韩专区在线播放| 九九99久久精品在免费线bt| 亚洲精品无码国产| 久久综合九色综合97婷婷| 国产日韩久久久| 久久精品视频在线播放| 北条麻妃在线一区二区免费播放 | 久久亚区不卡日本| 一区二区视频播放| 欧美成人黄色小视频| 欧美中文一区| 亚洲福利精品视频| 亚洲影视资源网| 毛片在线免费| 亚洲一区二区三区视频| 日韩视频中文| 亚洲色图 激情小说| 美女www一区二区| 亚洲va韩国va欧美va精四季| 天堂成人国产精品一区| 久久噜噜色综合一区二区| 欧美不卡一区二区三区四区| av日韩亚洲| 国产精品一二三在线观看| 99久久免费国产| 国产又粗又长又黄| 91黄色8090| 自产国语精品视频| 性猛交娇小69hd| 亚洲成人av片| 欧美大陆国产| 国产免费毛卡片| 亚洲欧美一区二区三区极速播放| 天天躁日日躁狠狠躁喷水| 91九色国产社区在线观看| 欧美亚洲一区| www.av视频在线观看|