精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

你永遠叫不醒裝睡的大模型!多輪對話全軍覆沒,性能暴跌39%

人工智能 新聞
20萬次模擬實驗,耗資5000美元,證實大模型在多輪對話中的表現明顯低于單輪對話!一旦模型的第一輪答案出現偏差,不要試圖糾正,而是新開一個對話!

ChatGPT將大模型技術推動到「對話」場景,直接引發了AI技術的爆炸式增長。

用戶可以先提出一個粗糙的、不明確的問題,再根據模型的回答逐步完善指令、補充細節,多輪對話也催生出「跟AI打電話」等有趣的應用設計。

不過,現有的大模型性能評估基準仍然是基于單輪對話機制,輸入的指令也更長,信息更完善,其在真實場景中多輪對話的性能仍然沒有得到很好地評估。

最近,研究人員進行了一場超過20萬次的多輪對話模擬實驗,對比了15個頂級開源和閉源大模型在單輪和多輪對話場景中的性能差異,結果發現,所有模型在多輪對話中的表現都明顯低于單輪對話,平均性能在六種生成任務中下降了39%

圖片

論文鏈接:https://arxiv.org/abs/2505.06120

簡單來說,大模型通常在第一次回答問題的時候,就已經定下了基調,過早地嘗試生成最終解決方案,并且在后續回答的時候也會依賴這個結論。

性能下降后,大模型的可靠性也顯著降低,研究人員將這種現象稱之為「對話迷失」,即LLMs在多輪對話中一旦走錯了方向,在后續提示中添加信息也無法糾正,也就沒辦法恢復到正確的問答路徑。

圖片

分片模擬多輪對話

研究人員將現有的單輪基準測試任務重新設計為多種類型的多輪模擬對話場景,以評估大型語言模型(LLMs)在多輪、不明確對話中的表現。

指令分片

GSM8K數據集中具體的(fully-specified)指令文本很長,包括背景、條件、問題等等。

研究人員將原始指令采用一個「半自動化流程」進行切分,每個分片包含原始指令中的一個元素,分片1是指令的高級意圖,模擬用戶的第一次輸入,后續的分片則對意圖細節進行澄清。

圖片

所有分片合在一起,可以表達出與原始指令相同的信息,分片必須滿足五個要素:信息保留、清晰的原始意圖、順序無關(除第一個分片外,其他分片彼此獨立)、最大化分片(盡可能從原始指令中提取信息)、最小化轉換(保持原始指令的風格,避免簡化)。

模擬分片對話

圖片

基于分片指令模擬多輪、不明確對話的過程

對話包括三個角色:

  1. 助手(assistant)是正在被評估的大語言模型
  2. 用戶(user, 由另一個LLM模擬)包含整個分片指令,并負責在對話的每一回合中逐步揭示分片內容
  3. 系統(system)負責對助手的回答進行分類和評估

在第一輪對話中,用戶模擬器向助手展示指令分片1,助手隨后生成文本回答。

系統會將助手的回答歸類為七種可能的回應策略之一:澄清、拒絕、回避、詢問、討論、缺失或嘗試回答。

如果助手給出了一個明確的、完整的解決方案,就調用「答案提取組件」來確定助手回答中對應答案的部分(例如代碼片段或數字),主要是因為大模型通常會在答案中添加額外信息,比如自然語言解釋或后續問題,可能會干擾評估結果。

在后續每一輪對話中,用戶模擬器最多輸入一個分片信息,然后助手的回復類型為「嘗試回答」,則進行評估。

如果任務評估器認為助手的答案嘗試是正確的,或是分片數據耗盡,則多輪對話模擬結束。

研究人員使用一個低成本的大模型(GPT-4o-mini)來實現用戶模擬器,能夠訪問整個分片指令以及到目前為止的對話狀態,并負責對分片數據進行重新措辭,以自然地融入對話中。

圖片

除了用戶消息外,助手在第一輪對話之前還會收到一個最小化的系統指令,提供完成任務所需的上下文,包括數據庫架構或可用API工具列表等。

助手并不知道自己正處于多輪、不明確的對話中,也沒有偏好特定的對話策略。

雖然額外的指令可能會改變模型的行為,但研究人員認為這種變化并不現實,因為在實際場景中,用戶也不可能會考慮輸入這些信息。

策略分類器和答案提取器組件也使用基于提示的GPT-4o-mini實現。

雖然在模擬器中使用基于LLM的組件可以讓對話更加動態,從而提供更真實的模擬,但不可避免地會導致模擬錯誤,可能會影響實驗的有效性。

模擬類型

完全指定(fully-specified, Full),模擬單輪對話場景,即原始指令在第一輪就完整地提供給LLM,用于評估模型的基礎性能。

分片(sharded),模擬多輪、不明確的對話。

合并(concat)模擬基于分片指令的單輪、完全指定的對話。

所有分片被合并成一個單輪指令,以bullet-point形式呈現(每行一個分片),并在前面加上一條指令,要求LLM綜合所有信息來完成任務。

concat模擬是完全指定和分片之間的邏輯中間點,消除了不明確性,但保留了在分片過程中出現的指令重新措辭。

如果一個模型在full和concat模擬中都能成功完成任務,卻無法再分片模擬中完成,就可以認為模型表現不佳的原因,不是因為分片過程中的信息丟失問題,而是源于對話的不明確性和多輪性質。

總結(recap)模擬分片對話,并在最后增加了一個總結輪次,將所有分片指令在一輪中重新陳述,給LLM最后一次回答的機會,可以評估「智能體」式干預能否緩解分片對話中性能下降的問題。

滾雪球(snowball)要求模型對每輪對話都進行總結。

在每一輪中,用戶模擬器不僅引入一個新的分片,還會重新陳述到目前為止對話中已經輸入的所有分片,從而產生「滾雪球」效應,即每輪對話都包含之前所有輪次的信息,再加上一個新的分片,可以評估每輪對話中的「提醒」是否有助于緩解LLM在多輪對話中的失憶問題。

實驗結果

研究人員使用了600條指令,針對三種主要模擬類型(full, concat, shared),從八個模型家族中選擇了總共15種LLMs()進行了實驗,每種模型與每種模擬類型的組合都運行10次模擬,總共進行了超過20萬次模擬對話,總成本約為5000美元。

圖片

從總體上看,每個模型在進行「完全指定」和「分片對話」時,在每項任務中的表現都有所下降,平均下降幅度為39%

研究人員將這種現象稱為「對話迷失」,即在完全指定、單輪對話的實驗室環境中表現出色(90%以上)的模型,在更接近現實的場景(對話不明確且為多輪)中,相同任務上表現不佳。

相比之下,在合并cocnat設置中,模型的表現大致相當,其平均表現達到了完全指定表現的95.1%,也就意味著分片對話中表現下降的原因并不是由于分片指令可能導致的信息丟失,否則合并對話的表現也會相應降低。

還可以觀察到,較小的模型(如Llama3.1-8B-Instruct、OLMo-2-13B、Claude 3 Haiku)在合并對話中的表現下降更為明顯(86%-92%),表明較小的模型在泛化能力上不如較大的模型,即使是重新措辭也會對模型性能產生較大影響。

此外,增加測試時的計算量(推理token)并不能幫助模型應對多輪不明確對話。

實驗中的兩個推理模型(o3和Deepseek-R1)性能下降與非推理模型類似,也證實了僅靠增加測試時的計算量并不能讓模型在多輪對話中制定策略。

推理模型傾向于生成更長的回答(平均比非推理LLMs長33%),同時會混淆模型認知,使其分不清用戶提出的要求和自己在上一輪對話中的思考。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-07-16 09:18:06

2019-08-02 17:48:16

戴爾

2025-07-07 08:42:00

大模型AIChatGPT

2025-03-11 13:49:20

2020-09-09 11:32:41

Android漏洞應用安全

2014-10-13 10:04:42

2018-05-24 14:01:47

服務器英特爾高通

2025-10-15 09:02:25

2009-12-03 10:33:27

2025-07-08 07:33:48

2025-07-17 09:28:09

2024-08-12 12:40:40

2025-09-08 18:08:28

AIClockBenchAGI

2015-07-10 13:09:59

火車WiFi

2025-09-16 09:13:00

2013-01-08 10:41:01

殺毒軟件國產國外

2024-06-11 08:55:00

2009-02-20 15:24:00

IE8火狐瀏覽器

2025-07-04 00:00:00

2025-07-14 07:30:00

點贊
收藏

51CTO技術棧公眾號

午夜激情综合网| 国产精品原创巨作av| 亚洲人午夜精品| 91极品视频在线观看| av网站在线看| 91在线视频播放地址| 国产精品自在线| 精品少妇theporn| 欧美手机在线| 精品国产乱码久久久久久浪潮| 1024av视频| 日本在线天堂| 91丨porny丨国产| 成人久久久久爱| 国产无遮挡呻吟娇喘视频| 国产精品久久久久久影院8一贰佰 国产精品久久久久久麻豆一区软件 | 午夜电影网一区| 亚洲国产另类久久久精品极度| 亚洲爱爱综合网| 日本91福利区| 97色在线视频观看| 国产一二三四区| 成人羞羞动漫| 日韩不卡中文字幕| 精品人妻二区中文字幕| 久久av影院| 一本色道久久综合亚洲aⅴ蜜桃 | caoporn免费在线| av一二三不卡影片| 亚洲综合在线播放| 91国在线视频| 日韩精品免费专区| 欧美一级电影久久| 国产精品111| 欧美三级网页| 久热精品视频在线| 欧美88888| 国产免费av一区二区三区| 亚洲成人网av| 欧美午夜精品一区二区| 国产一区二区在线观| 欧美色倩网站大全免费| 免费av网址在线| 亚洲精品永久免费视频| 午夜视频一区在线观看| 欧美黑人在线观看| 曰本三级在线| 一区二区三区高清不卡| 看一级黄色录像| 黄网页在线观看| 国产精品国产自产拍在线| 色综合666| 99reav在线| 国产精品午夜免费| 一区二区三区四区视频在线观看 | 18国产精品| 欧美一区二区三区公司| 99精品视频国产| 精品国产鲁一鲁****| 在线成人av网站| 国产成人在线综合| 99精品视频在线免费播放| 欧美伦理视频网站| 永久免费的av网站| 国产精品久一| 日韩欧美国产系列| 免费日本黄色网址| 亚洲国产合集| 在线视频精品一| 欧美aaa级片| 亚洲精品二区三区| 色综合久久久久久中文网| 免费看一级一片| 国产精品日本| 国产精品视频成人| 国产乱淫av免费| 国产原创一区二区三区| 国产伦精品一区二区三区免费视频| 农村少妇久久久久久久| 久久亚洲精品小早川怜子| 日韩国产一区久久| 久久久久久久久免费视频| 亚洲一区二区三区美女| 日韩黄色片视频| 欧美日韩破处视频| 日韩精品在线网站| 波多野结衣办公室33分钟| 日韩精品dvd| 欧美日韩成人在线视频| 欧美一区二区三区四| 日本亚洲免费观看| 91久久精品一区二区别| 性感美女一级片| 中文字幕国产一区| 无码粉嫩虎白一线天在线观看| 伊人久久av| 9191成人精品久久| 亚洲精品第二页| 欧美亚洲国产精品久久| 久久99精品久久久久久琪琪| 亚洲自拍一区在线观看| 国产精品亚洲午夜一区二区三区 | 国家队第一季免费高清在线观看| 国产精品九色蝌蚪自拍| 欧美激情视频免费看| 日本精品在线一区| 亚洲第一av网站| 懂色av蜜臀av粉嫩av永久| 亚洲精品123区| 成人精品久久一区二区三区| 日本韩国精品一区二区| 亚洲欧美成人一区二区三区| 日韩精品一区二区三区色欲av| 国产激情综合| 国产一区二区三区在线观看视频 | 欧美丰满高潮xxxx喷水动漫| 97香蕉碰碰人妻国产欧美 | 国产美女www爽爽爽| 成人免费视频免费观看| 一区二区三区四区国产| 午夜日韩成人影院| 精品国产乱码久久久久久浪潮 | 成人免费视频网址| 黄视频在线播放| 亚洲福利视频一区二区| 亚洲黄色av片| 日韩黄色大片网站| 国产精品18久久久久久首页狼| 亚洲精品一区二区三区蜜桃 | 亚洲视频999| 国产一卡二卡在线| 国产传媒一区在线| 自拍偷拍99| 四虎地址8848精品| 国产一区二区日韩精品欧美精品| 欧美一级视频免费观看| 成人动漫精品一区二区| 国产精品视频一二三四区| 懂色av色香蕉一区二区蜜桃| 色偷偷av亚洲男人的天堂| 波多野结衣家庭主妇| 久久综合久久综合久久综合| 久艹视频在线免费观看| 国产乱人伦精品一区| 欧美黑人狂野猛交老妇| 亚洲国产日韩在线观看| 一区二区三区在线观看视频| 成年人性生活视频| 欧美日韩第一区| 99久久精品免费看国产四区| 成人片在线看| 日韩一区二区在线观看| 污软件在线观看| 狠狠色综合日日| 一区二区三区一级片| 国产免费av国片精品草莓男男| 久久精品成人一区二区三区| 国产精品爽爽久久| 一区二区三区中文免费| 91亚洲一线产区二线产区| 激情综合久久| 美脚丝袜一区二区三区在线观看| 欧美13videosex性极品| 亚洲丝袜在线视频| 久久久久久在线观看| 欧美国产成人在线| 免费看涩涩视频| 一精品久久久| 高清国产在线一区| 成av人片在线观看www| 日韩av在线播放资源| 青青视频在线免费观看| 国产精品少妇自拍| aaaaaaaa毛片| 国产亚洲精品久久久久婷婷瑜伽| 久久精品国产美女| 欧美国产日韩电影| 久久精品欧美视频| 天天综合天天色| 在线观看国产日韩| 国产成人av免费在线观看| 成人久久18免费网站麻豆| 能在线观看的av| 久久精品国内一区二区三区水蜜桃| 99超碰麻豆| 日韩pacopacomama| 久热精品视频在线观看一区| 天天干,夜夜操| 在线精品观看国产| 欧美片一区二区| 久久久久久麻豆| 亚洲av毛片在线观看| 亚洲免费在线| 久久国产精品免费观看| 香蕉久久夜色精品国产使用方法| 国产精品自拍偷拍| 高清在线视频不卡| 久久精品亚洲一区| 性猛交xxxx| 欧美一区二区在线看| 欧美日韩一级黄色片| 亚洲激情自拍偷拍| 日本成人午夜影院| 不卡的看片网站| www.污污视频| 日韩精品1区2区3区| 欧美国产日韩激情| 小处雏高清一区二区三区| 麻豆av一区二区| 亚洲第一二区| 成人福利网站在线观看11| 中文不卡1区2区3区| 久精品免费视频| 天堂а√在线资源在线| 亚洲精品在线91| 亚洲欧美高清视频| 69堂国产成人免费视频| 无码人妻一区二区三区线| 亚洲成a天堂v人片| 欧美成人三级视频| 中文字幕中文字幕在线一区| a级大片在线观看| 成人激情小说网站| 成人免费播放视频| 精品在线观看视频| 色婷婷狠狠18| 水野朝阳av一区二区三区| 日韩欧美国产综合在线| 午夜精品999| 91传媒免费视频| 91精品综合| 日本免费在线视频观看| 日韩国产一区二区| 亚洲欧洲国产精品久久| 欧美理论电影大全| 日本三级中国三级99人妇网站| 激情亚洲另类图片区小说区| 国产v亚洲v天堂无码| 91精品国产乱码久久久竹菊| 96sao精品视频在线观看| 婷婷激情成人| 91亚洲精品一区二区| 欧美啪啪网站| 成人两性免费视频| 精品中文在线| 97中文在线观看| 日本超碰一区二区| 97超碰人人看人人| 1204国产成人精品视频| 国产免费一区二区| 日本亚洲不卡| 欧美日韩电影一区二区| 精品一区二区三区在线| 亚洲精品成人自拍| 香蕉视频官网在线观看日本一区二区| 91制片厂免费观看| 国产精品99免费看| 久久久久久免费看| 亚洲欧美日韩综合国产aⅴ| 日本三级免费观看| 日韩国产在线观看| 亚洲午夜激情影院| 国产iv一区二区三区| 亚洲精品久久一区二区三区777| 懂色av中文一区二区三区| 国产高清成人久久| 久久综合九色综合久久久精品综合 | 精品午夜视频| 国产伦一区二区三区色一情| 亚洲婷婷丁香| 综合色婷婷一区二区亚洲欧美国产| 97色伦图片97综合影院| 中文字幕日韩精品无码内射| 91久久亚洲| 能在线观看的av网站| 久久99国产精品久久| 香蕉网在线视频| 99免费精品在线| 免费在线观看a视频| 亚洲欧洲av一区二区三区久久| 欧美色图亚洲天堂| 欧美视频在线免费看| 在线免费观看一级片| 欧美大肚乱孕交hd孕妇| 四虎成人免费在线| 日韩在线观看av| 国产精品电影| 国产乱肥老妇国产一区二| 999在线精品| 欧美男人的天堂| 亚洲国产不卡| 欧美日韩黄色一级片| 精品一区二区综合| 在线观看国产免费视频| 国产精品久久久一区麻豆最新章节| 国产亚洲精品码| 在线观看日韩一区| 懂色av一区二区三区四区| 国产一区二区日韩| caoporn视频在线| 国产精品免费视频xxxx| 巨人精品**| 91成人在线视频观看| 日本成人在线不卡视频| 中文字幕a在线观看| 国产精品电影一区二区三区| 五月婷婷激情网| 日韩午夜中文字幕| 午夜免费视频在线国产| 97av在线视频| 日韩中文字幕无砖| 超碰成人在线免费观看| 久久久久久穴| 老熟妇精品一区二区三区| 日韩一区在线免费观看| 超碰在线观看91| 亚洲精品国产成人| 欧美78videosex性欧美| 成人黄色免费在线观看| 成人3d动漫在线观看| 欧美色图色综合| 国产不卡视频在线播放| 亚洲天堂网av在线| 在线精品视频免费播放| 精品资源在线看| 国内精品久久久久久中文字幕| 国产一区二区av在线| 中文字幕99| 毛片基地黄久久久久久天堂| 高潮毛片无遮挡| 欧美视频在线看| 飘雪影视在线观看免费观看| 欧美激情在线一区| 亚洲电影一区| 日本大片免费看| 国产精品亚洲第一区在线暖暖韩国| 亚洲精品国产精品乱码在线观看| 色哟哟国产精品| 国产香蕉视频在线看| 清纯唯美亚洲激情| 国产一区二区欧美| 免费在线激情视频| 久久久高清一区二区三区| 久久免费激情视频| 亚洲欧美精品在线| 欧美色片在线观看| 色一情一乱一伦一区二区三区丨| 久久久久久9| av永久免费观看| 色网综合在线观看| 超碰在线影院| 成人免费淫片aa视频免费| 久久久久电影| 国产麻豆剧传媒精品国产| 一区二区三区在线观看国产| 免费看av毛片| 欧美专区日韩视频| 成人看的羞羞网站| 黄色一级片免费的| 一区二区三区欧美视频| 人妻中文字幕一区| 国产91精品不卡视频| 国产尤物久久久| 日韩一区二区三区久久| 亚洲色图视频网| 人妻夜夜爽天天爽| 日韩av电影手机在线| 第一社区sis001原创亚洲| 日韩精品aaa| 午夜视黄欧洲亚洲| 毛片在线播放网站| 成人激情电影一区二区| 国产精品久久| 熟女俱乐部一区二区视频在线| 欧美视频一区二区三区| 亚洲色图美国十次| 欧美福利一区二区三区| 免费人成黄页网站在线一区二区| 午夜免费激情视频| 日韩电影大全免费观看2023年上| 日韩欧美一区二区三区免费观看 | 91在线视频免费看| av免费观看久久| 久久亚洲精品伦理| 免费三级在线观看| 亚洲男人天堂九九视频| www欧美在线观看| 日韩欧美亚洲天堂| 中文字幕亚洲电影| 天天操天天干天天爽| 国产玖玖精品视频| 国产精品久久久久毛片大屁完整版| 国产精品av久久久久久无| 欧美一级国产精品| 户外露出一区二区三区| 搞av.com| 最新不卡av在线| 邻家有女韩剧在线观看国语| 成人av电影免费| 男男成人高潮片免费网站|