精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎? 精華

發布于 2024-9-10 12:10
瀏覽
0收藏

1. 背景

大語言模型在工業界應用的一個主要障礙就是大語言模型(LLMs)不遵循標準化輸出格式。這種不一致性,使得輸出解析變得更為復雜,也削弱了這些模型的可靠性。

所以,大家普遍會采用結構化輸出的方式來規避這一問題,也就是使用格式化限制,比如以標準化格式進行輸出,比如:Json、XML等。

這些限制可以通過多種方式來實現,比如指示模型遵循帶有格式限制指令的指定格式,或者使用像JSON模式這樣的標準解決方案。這些方案讓LLMs能夠更加順利的融入到實際AI應用中去。

那么,這種格式限制指令,是否會影響LLMs生成內容的質量?

比如下圖,GPT-3.5-turbo 在這個 GSM8K數學問題上用標準自然語言輸出時,可以給出正確答案,但是一旦添加了格式限制,GPT-3.5-turbo就輸出了錯誤答案。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

1.1 對比的格式限制方法

為了系統性研究這個問題,作者針對三種格式限制方法進行對比研究:

  • ? 約束性解碼(JSON模式,):在生成階段添加超參的方式來實現的,確保模型生成的內容符合預設的JSON格式。
  • ? 格式限定指令(FRI,Format-Restricting Instructions):通過提示詞來指導模型用JSON、XML、YAML等標準格式生成內容,與約束性解碼相比,這種方法更為寬松。
  • ? 自然語言轉格式(NL-to-Format):首先指導大型語言模型以自然語言形式回答問題,隨后再將其回答轉換為目標格式的模式。

1.2 測試的數據集

作者對比了兩大類任務,分別是:推理任務和分類任務。

1.2.1 推理任務

  • ? GSM8K :數學問題集合,測試大型語言模型生成必要的中間推理步驟。
  • ? Last Letter Concatenation :該任務要求大型語言模型通過串聯一系列單詞的最后字母來生成一個字符串,以此測試其符號推理能力。
  • ? Shuffled Objects:評估在給定初始狀態和一系列打亂事件的情況下推斷最終狀態的能力。

1.2.2 分類任務

  • ? DDXPlus :醫療診斷數據集,大型語言模型必須依據給定的患者資料從 49 種可能的疾病中選出最合適的診斷。由
  • ? MultiFin :一個多項選擇的金融數據集,要求將給定的段落分類為五個類別之一。
  • ? Sports Understanding :用于測試大型語言模型判斷與體育相關的人工構建句子是否合理的能力。
  • ? NI - Task 280 :基于給定段落的多項選擇刻板印象分類任務。納入此任務,是因為發現它對提示格式的變化較為敏感,性能變化高達 56% 。

1.3 測試的模型

對 gpt-3.5-turbo-0125  、claude-3-haiku-20240307 、gemini-1.5-flash 進行了比較。

對于開源模型,使用 LLaMA-3-8B-Instruct 和 Gemma-2-9B-Instruct ,并借助 Text-Generation-Server 進行推理,因其支持 JSON 模式 。

1.4 評估指標

對于基于分類的任務(體育理解、DDXPlus、自然指令任務 280 和 MultiFin),將準確率作為主要指標。

對于Last Letter Concatenation和 GSM8K,使用精確匹配指標,即最終答案必須與實際答案完全字符串匹配。

2. 格式限制對最終結果的影響

通過對比三種逐步放寬的提示方式——JSON 模式、FRI 以及 NL 到格式的轉換,來探究格式限制對大型語言模型(LLM)性能的影響。

2.1 推理任務

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

我們在具有精確匹配分數的數據集上對這些方式進行評估,如上圖中呈現的 GSM8K 和Last Letter Concatenation。

在Last Letter Concatenation任務中,JSON 模式的表現明顯遜于 FRI(JSON)。經檢查,發現 100%的 GPT 3.5 Turbo JSON 模式響應將“答案”鍵置于“原因”鍵之前,導致了零樣本直接回答,而非零樣本思維鏈推理。

將 NL 到格式與不受限制的自然語言響應相比較,發現大多數模型的性能近乎相同,因為兩者均從相同的初始自然語言響應得出答案。然而,NL 到格式偶爾會引入生成錯誤,致使 LLaMA 3 8B Instruct 的性能略低,而其他模型在兩種設定下保持了一致的分數。

格式限制的程度和實施方式能夠顯著影響大型語言模型的性能,尤其在推理任務中。

結構化輸出中的鍵的順序以及推理與格式遵循的解耦,成為在提供結構化響應的同時保持大型語言模型能力的重要因素。

2.2 分類任務

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

在評估分類數據集時,觀察到了與推理任務不同的趨勢,如上圖所示。值得注意的是,在 DDXPlus 數據集中,啟用 JSON 模式時,Gemini 1.5 Flash 的性能顯著提升。在其他分類數據集中,JSON 模式具有競爭力,在某些情況下,超越了其他三種方法。

JSON 模式通過限制可能的答案從而減少答案選擇中的錯誤,提高了分類任務的性能。

相反,自然語言響應可能會引入干擾,導致解析錯誤。

格式限制對大型語言模型性能的影響取決于任務:嚴格的格式可能會阻礙推理密集型任務,但能提高需要結構化輸出的分類任務的準確性。

2.3 對較寬松格式限制的影響

為進一步探究格式限制所帶來的影響,考察了 Soft Restrict 設置的一種變體,即從提示描述中移除模式限制。不再提供特定的模式(比如:“以以下模式用 JSON 格式回復您的答案:{‘reason’:…,‘answer’:…}”),而是單純指示大型語言模型以目標格式語言進行輸出(比如:“以 JSON 格式回復您的答案。”)。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

上表展示了在 GSM8K 數據集上移除模式限制后的效果。對于 Claude 3 Haiku、GPT-3.5 Turbo 以及 LLaMA 3 8B Instruct 而言,在不同的提示擾動下,平均得分顯著提升,標準差降低。

這些結果表明,雖然結構化輸出對下游處理可能有益,但過于嚴格的模式可能會妨礙大型語言模型的性能,尤其在推理密集型任務中。

這一發現意味著,在希望獲得易于解析的結構化輸出與保留大型語言模型固有推理能力之間,必須達成平衡。

在處理復雜推理任務時,或許應考慮采用較寬松的格式限制,同時仍保持一定程度的結構,以利于下游處理。

2.4 不同格式的比較

通過對比不僅是 JSON,還有 XML 和 YAML 格式來消融格式語言。由于這三種語言有著不同的語法規則和限制。推斷每個模型的表現可能各異,例如 Claude-3-Haiku 將 XML 用于工具使用模式,所以回過頭來看,未見到任何一種結構格式能在所有模型中始終表現出色,如下圖。對于 Gemini 模型,發現 JSON 更具一致性,但并非總是優于其他格式。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

發現在分類任務中,由于答案空間的限制,JSON 模式的表現比文本好很多。

然而,在推理相關任務中,JSON 模式未能遵循先推理后回答的順序,致使最終性能大幅下降。

2.5 結構格式與解析錯誤率

最初推測文本與結構化格式之間的性能差距可能源于答案提取過程中的解析錯誤。

然而,對不同格式和模型的錯誤率分析表明,解析錯誤并非主要因素。

實際上,Gemini 1.5 Flash 和 GPT 3.5 Turbo 在這三種格式中均幾乎不存在解析錯誤。在 LLaMA 3 8B 的設置中,JSON 格式下 Last Letter 任務的解析錯誤率僅為 0.148%,但卻存在高達 38.15%的性能差距。

表明格式間的性能差異主要并非源于解析錯誤,而是格式限制對大型語言模型推理和生成過程的影響。

最新研究:大語言模型使用Json格式輸出會降低模型性能嗎?-AI.x社區圖片

通過提示 Claude-3-Haiku 為 Claude 3 Haiku 和 LLaMA 3 8B(解析錯誤百分比最高的兩個模型)重新格式化任何存在解析錯誤的輸出,觀察到 JSON 和 YAML 格式的得分有所提高,如上圖 所示。這種方法展現了在不犧牲特定格式優化優勢的情況下提升結構化輸出可靠性的潛力。

3. 結論

格式的限制,尤其是約束解碼(JSON 模式),會阻礙推理能力,卻能提升分類任務的準確率。

較寬松的格式限制通常能提高性能,并減少推理任務中的差異。

解析錯誤雖非性能差異的主因,但通過糾正提示可得以緩解。

在 LLM 應用中平衡格式遵循、推理能力與成本效率的重要性。

本文轉載自??大語言模型論文跟蹤??,作者:HuggingAGI ????

收藏
回復
舉報
回復
相關推薦
欧美一卡二卡在线| 中文字幕第一区第二区| 久久久免费在线观看| 给我免费观看片在线电影的| 欧美电影免费观看网站| 国产精品国产自产拍高清av王其 | 精品福利一区二区三区| 黄色一级在线视频| 日本在线免费播放| 成人免费毛片app| 国产精品精品一区二区三区午夜版| 久久av红桃一区二区禁漫| 一区中文字幕电影| 日本高清视频一区二区| 日韩精品久久一区二区| 精品久久av| 成人免费不卡视频| 国产在线精品一区免费香蕉| 国产成人精品a视频一区| 久久中文字幕av| 亚洲精品色婷婷福利天堂| 中文字幕一区二区三区四| 成人爽a毛片免费啪啪| 亚洲欧美一区二区三区国产精品 | 欧美大黑bbbbbbbbb在线| 亚洲国产日韩欧美综合久久| 在线免费观看av网| 日本精品网站| 欧美日韩精品二区| 成人短视频在线观看免费| 95在线视频| 久久亚洲一级片| 99中文字幕| 国产欧美综合视频| 久久精品999| 国产精品久久久久久久天堂| 日韩在线视频免费播放| 欧美日韩 国产精品| 色香阁99久久精品久久久| 成人在线一级片| 日韩av黄色在线| 亚洲高清久久网| 三上悠亚 电影| 97久久精品一区二区三区的观看方式 | 久久免费看少妇高潮v片特黄| 教室别恋欧美无删减版| 日韩电影中文字幕一区| 国产精品手机在线观看| av一级亚洲| 精品国产污网站| 韩国黄色一级片| 91精品导航| 欧美成人精品高清在线播放 | av不卡一区二区三区| www 成人av com| 亚洲av综合色区无码一二三区| 国精产品一区一区三区mba视频| 国产精品免费电影| 中文字幕一区二区人妻| 免费成人在线视频观看| 国产精品久久二区| 91黄色在线视频| 国产一区二区三区精品视频| 亚洲一区二区三区在线视频| 精品久久久久成人码免费动漫| 国产成人综合视频| 激情伦成人综合小说| 天堂av中文在线资源库| 久久久久久久综合日本| 亚洲第一导航| 国产美女av在线| 亚洲综合激情另类小说区| 日韩欧美视频免费在线观看| 色www永久免费视频首页在线 | 欧美成人黄色小视频| 成人观看免费视频| 国产精品vip| 欧美中文字幕在线| 中文字幕一区二区三区免费看| 久久av资源网| 国产精品日韩高清| 久久久久久久久亚洲精品| 久久女同精品一区二区| 一区二区三区四区视频在线| 超碰在线最新| 欧美日韩亚洲91| jizz大全欧美jizzcom| 狂野欧美xxxx韩国少妇| 日韩高清有码在线| 久久嫩草捆绑紧缚| 亚洲第一区色| 国产精品av在线| 国产99久一区二区三区a片| 99国产欧美另类久久久精品| 亚洲国产欧美不卡在线观看| 人人澡人人添人人爽一区二区| 精品日韩美女的视频高清| 欧美日韩亚洲一二三| 日本免费一区二区三区视频| 亚洲人成亚洲人成在线观看| 国产精品精品软件男同| 亚洲视频1区| 成人午夜激情网| 四虎在线视频| 日韩久久一区二区| 日本一本二本在线观看| 老司机亚洲精品一区二区| 亚洲日本成人女熟在线观看| 青青草成人免费| 日本美女一区二区三区| 精品国产aⅴ麻豆| 黄黄的网站在线观看| 日韩欧美在线免费| 亚洲乱妇老熟女爽到高潮的片| 国产精品日韩精品中文字幕| 欧美黑人极品猛少妇色xxxxx| 无码人妻丰满熟妇精品| 波多野结衣在线aⅴ中文字幕不卡 波多野结衣在线一区 | 日本中文字幕网址| 国产精品成人**免费视频| 亚洲欧美日韩中文视频| 国产网站在线看| 国产一区二区三区精品视频| 先锋在线资源一区二区三区| av中文字幕在线观看第一页| 日韩欧美中文字幕制服| 91麻豆精品久久毛片一级| 午夜亚洲福利在线老司机| 成人影片在线播放| 高潮毛片在线观看| 欧美老年两性高潮| 妖精视频在线观看免费| 日韩激情av在线| 欧美18视频| 182在线视频观看| 亚洲成年人在线| 九九久久免费视频| 国产精品一卡二卡在线观看| 在线观看欧美一区| 九七影院97影院理论片久久| 亚洲欧洲在线视频| 在线观看日本视频| 91看片淫黄大片一级在线观看| 国产不卡一区二区视频| 亚洲一区 二区| 欧美富婆性猛交| 亚洲第一成年人网站| 一区2区3区在线看| 国产乱国产乱老熟300部视频| 亚洲精品97| 亚洲一区二区免费在线| 性欧美ⅴideo另类hd| 欧美一级片免费看| 久久97人妻无码一区二区三区| 国产精品小仙女| 污污污污污污www网站免费| 4438全国亚洲精品观看视频| 欧美贵妇videos办公室| 亚洲免费国产视频| 天天综合色天天综合| 亚洲精品理论片| 日韩精品亚洲一区| 在线观看亚洲视频啊啊啊啊| 亚洲ww精品| 欧美肥婆姓交大片| 无码国产伦一区二区三区视频| 精品久久久久久久久久国产| 亚洲欧美视频在线播放| 视频一区中文字幕国产| 亚洲成色www久久网站| 99tv成人影院| 欧美国产日韩免费| 四虎成人免费在线| 欧美色男人天堂| 黄色录像免费观看| 成人精品小蝌蚪| 欧美精品色婷婷五月综合| 欧美一级精品| 99中文字幕| 中文日产幕无线码一区二区| 一区二区三区视频免费在线观看 | 精品动漫一区二区三区在线观看| 日本三级欧美三级| 久久精品一区二区三区四区| 爱爱爱爱免费视频| 亚洲成色精品| 日韩一区二区三区高清| 久久久精品区| 全亚洲最色的网站在线观看| 欧美日韩xx| 亚洲福利视频在线| 亚洲熟女乱色一区二区三区久久久| 亚洲精品欧美激情| 亚洲国产欧美视频| 韩国女主播成人在线观看| 丝袜人妻一区二区三区| 欧美老女人另类| 国产精品对白一区二区三区| 午夜av成人| 97久久久免费福利网址| 久草资源在线| 精品一区二区电影| 精品毛片在线观看| 欧美视频中文字幕| 精品国产免费观看| 樱桃国产成人精品视频| 精品无码人妻一区| 成人午夜视频在线| 五月天视频在线观看| 免费日韩一区二区| 国产精品自拍合集| 欧美a级片视频| 欧美日韩一区二区三区在线视频| 精品中文字幕一区二区三区| 欧美影院在线播放| 黄污视频在线观看| 日韩视频在线观看免费| 日本啊v在线| 亚洲成人中文字幕| jizz中国少妇| 欧美电影在线免费观看| 国产精品无码一区| 福利一区福利二区微拍刺激| 国产精品三区在线观看| 国产欧美一区二区精品性色| 制服丝袜第二页| av一区二区三区| 男男受被啪到高潮自述| 黄一区二区三区| 国产视频手机在线播放| 久久亚洲一区| 毛片av免费在线观看| 国产亚洲精品v| 国产视频九色蝌蚪| 日韩天堂av| 91免费黄视频| 亚洲激情婷婷| 欧美一级片免费播放| 狠狠88综合久久久久综合网| 中文字幕av久久| 欧美第十八页| 一级黄色录像免费看| 99精品视频精品精品视频| 视频一区不卡| 99精品在线| 伊人情人网综合| 久久性感美女视频| 成人在线观看www| 伊人久久大香线蕉精品组织观看| 国产高清免费在线| 自拍欧美日韩| 日韩专区第三页| 夜久久久久久| 美女福利视频在线| 肉肉av福利一精品导航| 欧美黑人又粗又大又爽免费| 日韩精品一二三四| 日本超碰在线观看| 国产精品一二三四五| 极品人妻一区二区| 成人黄色av网站在线| 99久久国产精| 国产欧美日韩在线视频| 国产第一页精品| 亚洲视频免费观看| 久草免费新视频| 欧美性jizz18性欧美| 看黄色一级大片| 91精品国产综合久久精品性色| 国产成人久久精品77777综合| 欧美第一区第二区| 香蕉久久国产av一区二区| 亚洲欧美精品在线| 欧美黄色激情| 久久久久久久久久久av| 久久毛片亚洲| 国产日韩欧美视频| 成人在线tv视频| 欧美一区二区福利| 欧美 日韩 国产 一区| 国产自产在线视频| 日本不卡高清视频| 麻豆传媒在线看| 久久影院午夜片一区| 亚洲一二三四五六区| 亚洲国产精品久久人人爱 | 久久欧美肥婆一二区| 亚洲欧美国产日韩综合| 国产精品性做久久久久久| 熟妇高潮精品一区二区三区| 中文字幕一区二区三区乱码在线 | 一本色道综合久久欧美日韩精品| 国产欧美一区二区精品婷婷| 亚洲色婷婷一区二区三区| 日韩欧美国产激情| 国产特黄一级片| 亚洲欧美综合区自拍另类| 成人免费看片| 国产盗摄xxxx视频xxx69| 视频在线一区| 日韩欧美在线电影| 99热这里只有成人精品国产| 在线观看免费av网址| 99riav一区二区三区| 久久99久久99精品免费看小说| 欧美日韩一区二区精品| 国产欧美综合视频| 亚洲性线免费观看视频成熟| 日本孕妇大胆孕交无码| 国产精选久久久久久| 色婷婷综合久久久久久| 麻豆视频传媒入口| 蜜桃久久久久久| 欧美bbbbb性bbbbb视频| 亚洲国产aⅴ天堂久久| 国产伦精品一区二区三区四区| 亚洲视频在线观看免费| 182在线播放| 高清国产一区| 一区二区蜜桃| 三上悠亚av一区二区三区| 99免费精品在线观看| 懂色av懂色av粉嫩av| 欧美日韩亚洲综合| 国产九九在线| 5566日本婷婷色中文字幕97| 永久免费精品视频| 蜜桃网站在线观看| 激情综合色综合久久综合| www.99热| 在线免费精品视频| 欧美偷拍视频| 欧美一级在线播放| 美女扒开腿让男人桶爽久久动漫| 国产xxxx振车| 国产成人av自拍| 欧美日韩激情在线观看| 欧美一区二区久久| 国产鲁鲁视频在线观看特色| 成人免费激情视频| 久久精品国内一区二区三区水蜜桃| 免费一级特黄录像| 中文字幕免费一区| 国产精品成人久久久| 亚洲香蕉伊综合在人在线视看| sese综合| 热re99久久精品国产99热| 久久久久国内| 成人做爰69片免网站| 欧美性受xxxx黑人xyx| yw在线观看| 成人性生交大片免费看视频直播 | 精品一区二区三区在线| 少妇人妻大乳在线视频| 成人手机在线视频| 六月丁香在线视频| 日韩精品视频免费| 91精品影视| 亚洲欧美日韩国产成人综合一二三区| 日本午夜一区二区| 奇米网一区二区| 91精品国产入口在线| 蜜臀av国内免费精品久久久夜夜| 丁香婷婷久久久综合精品国产| 在线成人国产| 9.1成人看片免费版| 欧洲一区在线电影| 岛国中文字幕在线| 国产精品视频免费观看| 亚洲一区观看| 日本女人性生活视频| 日韩欧美在线网站| 国产美女高潮在线观看| 日产精品久久久一区二区| 蜜臀av一区二区在线观看| 超碰在线国产97| 亚洲精品久久久久久久久久久 | 国产一区欧美二区三区| 68国产成人综合久久精品| 日本50路肥熟bbw| 色成人在线视频| 97超碰资源站在线观看| 精品视频在线观看| 日本视频免费一区| 久久久久性色av无码一区二区| 精品亚洲国产视频| 豆花视频一区| 国产福利视频在线播放| 综合精品久久久| 凸凹人妻人人澡人人添| 国产欧美精品在线播放| 国产精品theporn| 卡一卡二卡三在线观看| 日韩一区二区中文字幕| 日本黄色免费在线| 中文字幕日韩精品一区二区| 成人毛片老司机大片| 中文无码精品一区二区三区| 久久久久久网址| 成人影院在线|