精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM推理性能受輸出格式影響,JSON最嚴重

人工智能 新聞
這是臺灣大學和Appier AI Research新研究中的一幕,他們發現——格式限制這玩意兒會降低LLMs的推理能力,且限制越嚴推理越差。

輸出格式不同,竟然還能影響大模型發揮?!

兩種提示下讓大語言模型(LLMs)解同一道數學題,問題如下:

Eliza每周工作的前40小時,每小時的工資是10美元,加班費每小時x1.2。如果Eliza這周工作了45小時,她這周的收入是多少?

思維鏈prompt:“按照以下格式提供輸出,逐步推理:…回答:最終答案是…”。

格式限制prompt:“按照以下有效的JSON格式提供輸出:…(具體JSON格式見圖)“。

正確答案是460,可以看出,思維鏈(讓模型一步步思考)奏效,格式限制(“以JSON格式輸出”)卻失敗了!!

圖片

這是臺灣大學和Appier AI Research新研究中的一幕,他們發現——

格式限制這玩意兒會降低LLMs的推理能力,且限制越嚴推理越差。(主打一個叛逆)

不過好消息是,能治。

他們發現,最佳解決方案是搞個“二次轉換”(倒爺是吧),即LLMs首先用自然語言回答問題,然后再將答案轉換為目標格式。

在這個過程中,他們對比了GPT-3.5 Turbo、Claude 3 Haiku、Gemini 1.5 Flash等不同模型在生成不同格式數據時的性能差異,結果又發現

GPT喜歡YAML、Claude喜歡XML、Gemini/Gemma喜歡JSON。(主打各有所愛)

看完研究,有網友點出了它對平衡結構化生成和任務推理的意義:

圖片

格式限制會降低LLMs推理能力

上述研究已發表在arXiv上,論文主要揭示了,在格式限制下,LLMs的推理能力顯著下降,尤其是在JSON模式下。

圖片

一直以來,將LLMs納入工業應用程序的一個主要障礙是它們缺乏對標準化輸出格式的遵守。

一種常見解決方法是結構化生成,即通過格式限制讓LLMs以JSON或XML等標準化格式提供輸出。

不過話說回來,雖然有多種方式可以實現這種限制,但后續影響卻無人研究。(限制是否影響模型性能呢?)

說干就干,研究人員采用3種常見方法來評估不同格式限制對下游性能的影響:

  • JSON-mode:通過預定義的標記空間限制LLMs的輸出
  • FRI:指導LLMs生成符合特定模式的標準化格式響應
  • NL-to-Format:兩步過程,首先用自然語言回答問題,然后轉換為目標格式

對了,還要加上自然語言(NL),它是最不受限的格式,允許模型以自然語言自由地回答問題。

評估對象是GSM8K(包含自然語言環境中的數學問題)和Last Letter Concatenation(最后一個字母連接任務)這兩個需要精確匹配答案的數據集,以及Shuffled Objects(洗牌對象追蹤任務)。

圖片

他們發現,在這些涉及推理的任務中,更寬松的提示通常會得到更好的結果。

同時,JSON模式在大多數情況下表現最差,其次是格式限制指令(FRI),然后是自然語言到格式(NL to Format)轉換,以及自然語言(NL)提示。

研究還發現,不同的LLMs對不同的數據格式表現出不同的偏好。

例如,GPT更喜歡YAML格式,Claude更喜歡XML格式,而Gemini/Gemma則更傾向于JSON格式。

不過,在分類任務中,格式限制可能提高了準確性,因為它減少了可能的答案選擇,從而降低了錯誤率。

圖片

他們進一步總結了格式限制會降低模型推理能力的原因,主要包括:

  • 限制了模型生成必要中間推理步驟的能力。
  • 強制的格式要求可能與模型自然生成答案的方式不兼容。
  • 格式錯誤可能導致即使推理正確,答案也因為格式問題而被判定為錯誤。

好消息:能治

針對這一問題,他們提出了幾種應對之策:

首先,前面提到了JSON模式在大多數情況下表現最差,最后才是自然語言到格式(NL to Format)轉換。

那么反過來說,解決格式限制的最佳方案就成了NL to Format,即LLMs首先用自然語言回答問題,然后再將答案轉換為目標格式。這種方式允許推理與格式遵守分離,從而表現更佳。

此外,結構化輸出中的鍵順序對LLMs的回答方式有重要影響。

例如在使用GPT-3.5 Turbo時,100%的JSON-mode響應錯誤地將“answer” 鍵位于 “reasoning” 之前,這導致模型直接給出答案,而不是展示思考過程。

研究還表明,格式限制導致的解析錯誤不是性能差異的主要原因。

例如,在LLaMA 3 8B模型中,Last Letter任務的JSON格式解析錯誤率僅為0.15%,但與自然語言響應相比,性能差距達到了38.15%。

圖片

而且可以通過糾正提示來減輕這些錯誤,例如對于Claude-3-Haiku模型,在Last Letter任務中,通過糾正步驟,JSON和YAML格式的準確率分別提高了+2.8%和+44.8%。

圖片

以上也意味著,在應用LLMs時,需要在易于解析的格式和保留固有推理能力之間找到平衡點。

最后,研究人員在論文中提醒了:

相比于正則表達式,LLMs作為答案解析器能夠提供更加深入和準確的文本理解,不僅僅局限于表面的模式匹配,而是能夠真正理解答案的含義和上下文。

論文:https://arxiv.org/abs/2408.02442

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-09 13:40:26

2025-09-03 10:02:19

2021-09-17 12:54:05

AI 數據人工智能

2024-11-21 14:00:00

模型AI

2025-04-21 09:07:00

2023-11-30 18:25:57

數據訓練

2025-04-07 09:00:00

數據測試工具

2023-09-10 12:37:38

模型英偉達

2024-12-02 12:37:42

2025-05-29 09:14:17

2024-01-08 13:33:00

數據訓練

2011-06-03 09:37:33

諾基亞Android蘋果

2020-05-29 15:40:40

NVIDIA

2025-10-23 08:50:32

2025-08-04 08:40:00

2019-10-14 09:58:00

機器學習人工智能計算機

2024-08-29 12:58:35

2025-06-04 08:35:00

2025-04-15 09:12:00

模型AI強化學習

2025-03-19 10:10:43

點贊
收藏

51CTO技術棧公眾號

精品视频在线播放免| 亚洲国产精品久久久久秋霞影院 | 欧美特级一级片| 波多野结衣在线一区二区 | 久久国产精品视频| 国产亚洲色婷婷久久99精品91| 妺妺窝人体色777777| 在线观看美女av| 国产精品一线| 欧美丝袜第三区| 97碰在线视频| eeuss影院www在线播放| 国产精品一级黄| 日av在线播放中文不卡| 欧美 日韩 国产 一区二区三区| 成人午夜网址| 欧美丰满一区二区免费视频| 国产www免费| 黄色网址视频在线观看| ww亚洲ww在线观看国产| 91精品国产综合久久久久久丝袜 | 狠狠色狠狠色综合人人| 伊人网免费视频| 国产欧美成人| 精品自在线视频| 国产又粗又硬视频| 少妇精品导航| 亚洲成人久久网| 激情文学亚洲色图| 香蕉视频亚洲一级| 午夜不卡av在线| 国产 国语对白 露脸| 中国日本在线视频中文字幕| 91视频一区二区| 国产精品入口免费| www.超碰在线.com| 国产一区二区美女| 国产欧美中文字幕| 中文字字幕在线观看| 久久久久91| 欧洲精品毛片网站| 日韩高清精品免费观看| 女同性一区二区三区人了人一 | 精品人在线二区三区| 亚洲a∨日韩av高清在线观看| 亚洲综合av一区| 亚洲欧美日韩动漫| 99精品国产视频| 国产精品一区视频网站| 午夜精品久久久久久久99热黄桃| 国产一区二区女| 亚洲一区二区三区久久| 国产精品久久久久久在线| 免费成人在线网站| 国产欧美日韩91| 136福利视频导航| 九九九久久久精品| 亚洲xxxxx| 黄色成人一级片| av激情亚洲男人天堂| 国产一区福利视频| 色播色播色播色播色播在线 | 白白色免费视频| 最新国产精品视频| 在线观看日韩www视频免费| 亚洲av无码国产精品麻豆天美| 狠狠做六月爱婷婷综合aⅴ| 亚洲欧洲在线免费| 亚洲精品自拍视频在线观看| 99久久影视| 欧美激情xxxx| 成人羞羞视频免费| 好吊色视频在线观看| 欧美精品福利| 91成人免费观看网站| 一级片在线观看免费| 青娱乐精品在线视频| 成人激情春色网| 丰满肉嫩西川结衣av| 99久久精品免费看国产| 欧美日韩一区二| 日本不卡在线| 一区二区三区国产豹纹内裤在线| 很污的网站在线观看| 一二三四视频在线中文| 欧美亚洲一区二区在线| 国产日韩一区二区三区在线播放 | 中文字幕精品三区| 艳母动漫在线观看| 国内激情视频在线观看| 欧美日韩在线综合| 中文字幕一二三| 亚洲裸色大胆大尺寸艺术写真| 一本一本久久a久久精品综合小说| 欧美一区免费观看| 一本一本久久| 成人a级免费视频| 香蕉国产在线视频| 亚洲欧洲一区二区在线播放| 蜜桃传媒一区二区三区| 日韩毛片在线| 亚洲精品国产精品国产自| 国产视频123区| 宅男噜噜噜66一区二区| 91精品久久久久久久久久久久久| 人人妻人人澡人人爽人人欧美一区| 日本一区二区三区视频视频| 男人天堂av片| 亚洲成人精品综合在线| 国产视频在线一区二区| 欧美色图一区二区| 免费看欧美女人艹b| 国产伦精品一区二区三区照片91 | 国产精品97| 欧美一级电影免费在线观看| 国产成人午夜视频网址| 樱花视频在线免费观看| 丰满放荡岳乱妇91ww| 亚洲福利av在线| 天堂网在线最新版www中文网| 在线成人av网站| 亚洲一级黄色录像| 国产欧美一级| 黄色国产精品一区二区三区| 97超碰在线公开在线看免费| 欧美日韩小视频| 国产精品免费无码| 国产精品亚洲欧美| 国产中文一区二区| 好看的中文字幕在线播放| 欧美一区二区二区| 欧美做爰啪啪xxxⅹ性| 免费国产亚洲视频| 先锋影音网一区| 新片速递亚洲合集欧美合集| 精品在线观看国产| www.日本精品| 97aⅴ精品视频一二三区| 亚洲色欲久久久综合网东京热| 麻豆国产精品| 久久av在线看| av网站免费大全| 最新日韩在线视频| 色婷婷一区二区三区在线观看| 色呦哟—国产精品| 国产精品综合不卡av| 伊人免费在线| 欧美精品国产精品| 国产一区二区三区在线视频观看| 狠狠色丁香久久婷婷综| 先锋影音男人资源| 亚洲视频精选| 国语自产精品视频在线看一大j8| 男人天堂网在线视频| 亚洲成人av中文| 亚洲制服丝袜在线播放| 国产精品呻吟| 日韩欧美一区二区在线观看| 成人网ww555视频免费看| 色阁综合伊人av| 国产精品久久久久久久免费| 亚洲精品乱码久久久久久日本蜜臀| 久久成年人网站| 欧美午夜不卡| 精品久久久久久一区二区里番| 悠悠资源网亚洲青| 亚洲一区av在线播放| 夜夜狠狠擅视频| 一区二区三区在线视频免费| 欧美xxxxx精品| 久久精品卡一| 中文字幕精品一区日韩| caoporn成人免费视频在线| 97精品久久久中文字幕免费| 精品电影在线| 9191国产精品| 国产精品久久久免费视频| 国产亚洲一二三区| 久久婷婷中文字幕| 亚洲国产清纯| 亚洲二区自拍| 国产精品白丝一区二区三区| 热久久这里只有| 久久黄色美女电影| 亚洲成人在线视频播放| 啪啪小视频网站| 尤物av一区二区| 精品无码一区二区三区| 久久99精品久久久久| 成年人看的毛片| 精品一二三区| 成人久久一区二区| 午夜欧美激情| 久久精品中文字幕| 丝袜+亚洲+另类+欧美+变态| 欧美精品久久久久久久久老牛影院| 日韩av黄色片| 亚洲欧美日韩一区二区| 草草地址线路①屁屁影院成人| 老色鬼精品视频在线观看播放| 国产黄色片免费在线观看| 精品产国自在拍| 国产精品视频免费一区二区三区| 精品视频一区二区三区四区五区| 久久久日本电影| 调教视频免费在线观看| 日韩精品视频中文在线观看 | 久久精品国产99国产| 国产午夜福利100集发布| 日韩理论电影大全| 久草精品电影| 中文久久电影小说| 成人福利在线视频| a欧美人片人妖| 久久久久久久影院| 黄av在线播放| 在线视频免费一区二区| 色就是色亚洲色图| 精品国偷自产国产一区| 国产女人18毛片水18精| 在线观看一区日韩| 久久亚洲天堂网| 亚洲第一成年网| 欧美日韩在线视频免费播放| 国产精品初高中害羞小美女文| 三级网站在线免费观看| 北条麻妃一区二区三区| 青娱乐国产精品视频| 久久国产生活片100| 成人一区二区三| 亚欧成人精品| 91av资源网| 99精品国产在热久久| 99在线免费视频观看| 欧美69视频| a级片一区二区| 一本一道久久综合狠狠老| 中文字幕一区二区三区有限公司 | 91高清视频免费观看| 不卡av免费观看| 久久久中文字幕| 国产黄色大片在线观看| 欧美另类交人妖| 亚洲www色| 欧美激情在线有限公司| 日本伦理一区二区| 高清一区二区三区四区五区| a毛片不卡免费看片| 久久免费视频在线| 欧美久久天堂| 欧美有码在线观看视频| 久九九久频精品短视频| 国产成+人+综合+亚洲欧洲| 欧美天堂视频| 国产精品老女人精品视频| 国产乱子精品一区二区在线观看| 国产精品自在线| 日本99精品| 国产精品美女xx| 一本久久青青| 亚洲国产日韩美| 永久91嫩草亚洲精品人人| 日韩在线视频在线| 99精品视频免费观看| 欧在线一二三四区| 美国十次了思思久久精品导航| 性生生活大片免费看视频| 国产福利91精品| 亚洲国产果冻传媒av在线观看| 久久久午夜精品理论片中文字幕| 国产三级av在线播放| 国产精品久久久爽爽爽麻豆色哟哟| 杨钰莹一级淫片aaaaaa播放| 亚洲动漫第一页| 国产亚洲欧美日韩高清| 欧美一区二区三区在线观看| www.av网站| 亚洲人成在线电影| 久久久久久久久免费视频| 久久男人资源视频| 成人看片网页| av资源一区二区| 久久不见久久见国语| 欧美xxxx吸乳| 国产女优一区| 欧美又黄又嫩大片a级| 99久久国产综合精品女不卡| 亚洲不卡的av| 五月开心婷婷久久| 91九色蝌蚪91por成人| 精品久久人人做人人爽| 国产精品99999| 欧美丰满少妇xxxxx| 欧美成人精品三级网站| 92福利视频午夜1000合集在线观看| 欧美成人午夜77777| 亚洲aⅴ天堂av在线电影软件| 欧美日韩精选| 亚洲视频在线a| 丁香婷婷综合网| 五月天婷婷丁香网| 欧美午夜精品伦理| 国产高清视频免费| 最好看的2019年中文视频 | 欧美国产综合| 亚洲性图一区二区| 久久综合网色—综合色88| 久久久久久久久久久久久女过产乱| 欧美性极品xxxx做受| 亚洲成人黄色片| 日韩在线视频网| 日本高清不卡一区二区三区视频 | 精品国内自产拍在线观看视频| 国产小视频免费| 国模一区二区三区白浆| 一区二区精品免费| 黄色精品一区二区| 亚洲av无码一区二区三区性色| 中文字幕日韩在线视频| 在线视频超级| 国产原创精品| 在线免费观看欧美| 日韩av加勒比| 中文字幕一区二区三区精华液| 黄色免费av网站| 亚洲黄色片网站| 久草免费在线色站| 亚洲在线观看视频网站| 欧美大人香蕉在线| 午夜免费高清视频| 日本一区二区免费在线观看视频| 成人精品在线看| 日韩成人性视频| aa级大片免费在线观看| 国产美女精品久久久| 午夜精品婷婷| 苍井空张开腿实干12次| 一区二区在线观看不卡| www.日本在线观看| 欧美大胆在线视频| 亚洲精品不卡在线观看| 久久久天堂国产精品| 国产福利不卡视频| 欧美日韩中文视频| 亚洲精品91美女久久久久久久| 丁香花视频在线观看| 国产精品一区免费观看| 亚洲黄色影院| 色呦呦一区二区| 一本色道a无线码一区v| 国产在线高清| 国产在线一区二区三区| 亚洲va在线| 在线观看一区二区三区四区| 亚洲第一久久影院| 天堂91在线| 国产精品久久久久久久美男| 日韩欧美二区| 不卡的一区二区| 午夜在线成人av| 精品福利视频导航大全| 国产剧情日韩欧美| 欧美1区免费| 第四色在线视频| 91黄色免费观看| 国产素人视频在线观看| 国产伦精品一区二区三区视频免费 | 你懂的视频在线播放| 国产精品老女人视频| 欧美在线看片| 三叶草欧洲码在线| 欧美视频在线一区二区三区| 黄色动漫在线| 精品国产乱码久久久久久蜜柚| 日韩中文字幕不卡| 精品欧美一区二区久久久久| 日韩av在线免费播放| 日韩网站中文字幕| 亚洲激情免费视频| 95精品视频在线| 亚洲天堂国产精品| 久久久久久久久久久亚洲| sdde在线播放一区二区| 成人日韩在线视频| 亚洲国产视频a| av二区在线| 国产精品免费在线播放| 全国精品久久少妇| 欧美日韩大片在线观看| 国产小视频91| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | 亚洲一区二区三| 亚洲欧美日韩国产一区二区| 永久av免费网站| 日韩精品极品视频免费观看| 国产亚洲亚洲国产一二区| 久久久噜噜噜www成人网| 亚洲欧洲综合另类| 美女毛片在线看| 99热国产免费|