精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI越聰明越不聽話!新研究:最強推理模型指令遵循率僅50%

人工智能 新聞
大模型越擅長復雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

如果面前有兩個AI助手:一個很聰明但經常不守規矩,另一個很聽話但不太聰明,你會怎么選?

最近,上海人工智能實驗室香港中文大學的研究團隊發布了論文《Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models》,通過一個全新的評測基準MathIF揭示:

大模型越擅長復雜推理,越容易忽略用戶的指令要求,“聰明”和“聽話”之間存在明顯的矛盾。

這項工作的靈感,源自實際使用推理模型(如o3)過程中的一個意外發現:相比許多經過強化推理訓練的大模型,GPT-4o在執行具體指令時反而更加“聽話” 。也正是這種“越聰明、越不聽話”的真實體驗,讓研究團隊開始系統性地研究推理能力與指令跟隨之間的關系。

這一研究也引來??知名博主的轉發:

圖片

研究揭示越擅長數學推理的模型反而越難完全遵守指令,同時分析了模型大小與服從性的非正相關現象,強調了推理能力與指令遵循之間的權衡。

MathIF:衡量推理模型“聽話程度”的新基準

MathIF基準專門針對數學推理任務,考察AI模型是否嚴格遵循用戶給出的指令要求。這些要求包括格式語言長度特定關鍵詞使用,均可通過程序自動驗證。

MathIF由來自不同難度的數學題目組成,涵蓋了從簡單的數學問題(GSM8K)到復雜的數學競賽題目(AIME)。每個題目都會附帶具體而明確的指令,比如:“答案必須以一句中文完整作答,不能有多余解釋。”

此外,MathIF還設計了單一指令、雙重指令和三重指令的組合情形,以測試模型在不同約束復雜程度下的表現。模型不僅需要正確解題,還要嚴格遵守這些指令要求。

自動評分程序會精確檢查答案是否符合每個具體的指令標準,分別以硬準確率(HAcc)軟準確率(SAcc)衡量模型的服從程度:HAcc 表示是否全部指令都被滿足,而 SAcc 則反映每條指令的平均滿足比例。

圖片

△圖表1 MathIF 的指令類型

越聰明越不聽話?實驗揭示“聰明”與“聽話”的矛盾

研究團隊使用MathIF評測了23個當前主流的大模型。這些模型包括不同的參數規模和訓練方式,涵蓋從數十億到數百億參數的各種類型。

實驗結果令人意外:在數學推理能力表現越出色的模型,反而更難完全遵守用戶給定的指令要求。即使是表現最佳的模型Qwen3-14B,也只能成功遵守一半的指令提示。

此外,模型的大小與其遵守指令的能力并不呈正相關,甚至有時會出現負相關——即更大的模型并不一定更守規矩。一些較小的模型反而更善于嚴格執行用戶的指令。

指令遵循(instruction-following)與數學推理能力(mathematical reasoning)之間存在一種權衡關系(trade-off)。也就是說,當模型在推理能力上表現得更強時,它往往更容易忽略或違反用戶的具體指令。

圖片

△圖表2 23個大推理模型在MathIF上的表現

模型按服從性(HAcc + SAcc)表現從高到低排序。表中?符號表示該模型僅通過監督微調(SFT)訓練,未使用推理導向的強化學習方法。粗體+下劃線標記則分別代表各列指標中的前兩名與后兩名。

為什么聰明模型更“不聽話”?

研究團隊進一步分析了這個現象背后的原因:

原因一:推理導向的訓練模式

研究發現,旨在強化模型推理能力的訓練方式(如監督微調(SFT)和強化學習(RL)),雖然顯著提升了模型的“智力”,卻在一定程度上削弱了其對具體指令的敏感性。

這類模型往往更專注于如何準確解題,而容易忽視諸如格式、字數等細節要求。正如圖3所示,無論是SFT還是RL,推理導向訓練雖然提升了解題表現,卻普遍導致模型在指令遵循能力(HAcc與SAcc)上的下降。

圖片

△圖表3 推理導向訓練策略的對比

其中Avg. Acc.表示在所有基準任務上的平均表現。綠色和紅色背景分別表示相較于基礎模型性能的提升和下降。

原因二:長推理鏈降低服從性

模型輸出的推理過程越長(“鏈式思考”越復雜),越容易“忘記”指令要求。長段的復雜推理過程,容易讓模型注意力分散,最后導致違背用戶指令。如下圖,將模型的推理結果按照長度進行分桶,推理長度越長,模型的指令遵循準確率越低。

圖片

△圖表4 不同推理鏈長度區間下的HAcc和SAcc表現

長度分桶編號越大表示生成的推理鏈越長。

研究團隊通過實驗進一步驗證了這一現象:當模型被引導生成更長的推理過程時,其遵循指令的準確率會明顯下降。

具體做法是,在模型推理結束前人為添加“wait”等提示,迫使其繼續延長思考過程,從而生成更長的推理鏈。如下圖所示,“思考越多”,模型對指令的執行反而越不準確。

圖片

△圖表5 模型指令跟隨能力的變化趨勢

此外,研究團隊還通過在訓練階段控制模型的推理長度,進一步觀察其指令跟隨能力的變化。

具體而言,他們在強化學習(RL)的 rollout 階段設置最大生成長度限制,超過該長度的回復將無法獲得獎勵,從而間接壓縮模型的推理鏈長度。

從下圖可以看出,限制推理長度有助于顯著提升模型的指令遵循能力(HAcc和SAcc)。當最大長度控制在1k以內時,模型在服從性方面的表現甚至超過了原始基線模型。

然而,這種提升也帶來了代價:模型的數學推理能力明顯下降,表現出“聽話”和“聰明”之間的權衡關系。

圖片

△圖表6 RL訓練中最大響應長度的影響

紅色區域表示相較于基礎模型(Original)性能下降,顏色越深表示下降幅度越大。

這些現象進一步印證了研究團隊的結論:偏向生成更長推理鏈的推理導向訓練,往往會在無意中削弱模型對指令的遵循能力,凸顯了推理能力與指令服從性之間長期存在的權衡關系

小技巧:讓模型更“聽話”的簡單方法

研究者也嘗試了一個簡單的方法改善模型的“聽話程度”:在模型推理結束后,輸出答案之前,再次重復一遍指令要求。

結果顯示,這種方法拉近了指令和回復的距離,確實有效提升了模型的指令遵守能力,但同時也稍微降低了模型回答問題的準確率。模型為了遵守規則,不得不犧牲一點自己的數學推理能力。

圖片

△圖表7 通過在推理后重復指令提升指令遵循能力。

當前主流的推理導向訓練方式,雖然顯著提升了模型的解題能力,卻不可避免地削弱了其對指令的遵循能力。AI的“聰明”與“聽話”之間,正面臨一場難以調和的矛盾。

未來,MathIF基準有望構建既能深入思考,又能嚴格守規矩的大模型。

論文地址:https://arxiv.org/pdf/2505.14810

Github地址:https://github.com/TingchenFu/MathIF

責任編輯:張燕妮 來源: 量子位
相關推薦

2011-08-17 13:51:14

2025-06-27 08:40:00

模型推理AI

2009-04-15 20:56:40

Linux系統用戶

2025-06-11 09:08:00

AI模型數據

2025-05-08 06:00:00

AI幻覺AI人工智能

2025-07-01 08:37:13

2025-10-15 08:44:37

AI模型數據

2024-07-25 12:35:33

2009-04-13 12:05:09

Linux服務器用戶

2023-08-31 07:16:32

人工智能AI算力

2021-08-16 20:45:52

AI人工智能

2024-07-29 07:04:00

大模型AI訓AI人工智能

2025-06-11 08:56:54

2025-09-18 10:10:31

2025-06-11 14:39:50

AILLMMistral

2021-08-16 15:47:02

AI決策人工智能

2025-03-11 08:37:42

2021-02-22 11:00:39

機器學習人工智能AI

2025-05-30 02:00:00

獎勵模型RRMAI

2025-05-29 03:00:00

混合推理模型LHRMAI
點贊
收藏

51CTO技術棧公眾號

欧美国产日产图区| 国产日韩高清一区二区三区在线| 欧美乱妇一区二区三区不卡视频| 在线观看亚洲视频啊啊啊啊| 国产精品午夜福利| 亚洲综合小说| 亚洲摸下面视频| 日韩av一卡二卡三卡| 97蜜桃久久| 国产精品久久久久aaaa| 国产九色精品| 亚洲综合视频在线播放| 国产亚洲一区在线| 日韩在线观看免费高清| 国产麻豆剧传媒精品国产av| 成人在线视频免费| 午夜不卡av免费| 亚洲激情图片| 亚洲 欧美 激情 另类| 久久99国产精品尤物| 欧美在线观看日本一区| 日韩在线中文字幕视频 | 久久久综合亚洲91久久98| 一区二区自拍偷拍| 免费久久99精品国产自在现线| 久久色精品视频| 中文字幕网站在线观看| 动漫3d精品一区二区三区乱码| 欧美区一区二区三区| 苍井空浴缸大战猛男120分钟| 污污片在线免费视频| 国产片一区二区| 就去色蜜桃综合| 亚洲国产精品久久久久久久 | 欧美午夜电影在线| 97中文字幕在线| 快射视频在线观看| 欧美高清一级片在线观看| 久久久水蜜桃| 亚洲欧美色视频| 成人短视频下载| 国产精品v欧美精品∨日韩| 国产又粗又猛又黄又爽无遮挡| 亚洲永久免费精品| 97成人超碰免| 免费在线黄色片| 中文字幕免费一区二区| 久久亚洲一区二区三区四区五区高| 久久久久久久久福利| 国产精品免费99久久久| 亚洲一级黄色片| 蜜桃无码一区二区三区| 经典一区二区| 亚洲精品一区二区三区婷婷月| 尤物网站在线观看| 国产精品久久久久久久久久白浆 | 五月天婷婷激情网| 成人免费av资源| 国产一区二区精品在线| 欧美 中文字幕| 99久久99久久精品国产片果冻| 成人自拍视频网站| 丰满人妻一区二区三区无码av| 丰满放荡岳乱妇91ww| 国产高清一区视频| 午夜视频免费看| 久久久无码精品亚洲日韩按摩| 蜜桃精品久久久久久久免费影院| 你懂的在线看| 国产精品沙发午睡系列990531| 亚洲精品一区二| bt在线麻豆视频| 亚洲国产精品一区二区尤物区| 成年人看的毛片| 神马电影网我不卡| 欧美日韩高清一区二区| 亚洲精品第三页| 成人av动漫| 亚洲色图13p| 91狠狠综合久久久| 亚洲视频中文| 91精品国产免费久久久久久| 欧美一级做a爰片免费视频| 久草热8精品视频在线观看| 不卡一区二区三区视频| 在线观看xxx| 国产精品女上位| 成人毛片100部免费看| 老牛影视精品| 欧美日韩成人综合| 国产综合内射日韩久| 亚州av一区| 日韩在线观看免费高清| 国产真实乱人偷精品视频| 久久免费高清| 国产精品久久久久免费a∨| 国产99对白在线播放| 久久蜜臀精品av| 超级碰在线观看| 欧美黑人粗大| 日韩欧美国产一二三区| 瑟瑟视频在线观看| 自拍日韩欧美| 国产精品久久不能| 黄色一级a毛片| 中文字幕日本乱码精品影院| 每日在线观看av| 欧洲亚洲精品| 日韩精品视频三区| 日本a级片视频| 日本女优在线视频一区二区| 国产精品v欧美精品∨日韩| 午夜免费福利在线观看| 欧美色另类天堂2015| 国产精品久久久久久久99| 免费短视频成人日韩| 欧美高跟鞋交xxxxhd| 伊人网免费视频| 久久日一线二线三线suv| 欧美黄色免费网址| 国产精品成人3p一区二区三区| 亚洲女同精品视频| 黄色激情视频在线观看| 国产一区在线观看视频| 亚洲乱码一区二区三区三上悠亚| 综合另类专区| 亚洲精品福利视频| 豆国产97在线 | 亚洲| 激情综合色播五月| 亚洲日本无吗高清不卡| 你懂得影院夜精品a| 精品亚洲永久免费精品| 国产一国产二国产三| 国产精品夜夜爽| 强开小嫩苞一区二区三区网站| 国产韩日精品| 伊人伊成久久人综合网小说| 狠狠人妻久久久久久| 99久久久精品免费观看国产蜜| 菠萝蜜视频在线观看入口| 国产一区二区在线观| 久久久精品影院| 国产精品美女一区| 综合婷婷亚洲小说| 九九热免费在线观看| 国产精品伦理久久久久久| 国产精品视频精品| av影片免费在线观看| 欧美日韩一本到| 欧美一区二区三区观看| 国内精品免费在线观看| 手机看片日韩国产| 亚洲国产aⅴ精品一区二区| 欧美日本高清视频| 丰满人妻一区二区三区无码av| 亚洲国产aⅴ成人精品无吗| wwwxx日本| 亚洲视频播放| 日韩动漫在线观看| 国外成人福利视频| 久久视频中文字幕| 午夜精品小视频| 亚洲成av人片在线| 日本黄色网址大全| 青娱乐精品在线视频| 亚洲一卡二卡三卡| 精品一区二区三区在线观看视频 | 在线观看日韩片| 麻豆国产一区| 午夜精品在线视频| 国产在线你懂得| 91精品国产麻豆国产自产在线| 麻豆视频在线观看| 久久丝袜美腿综合| 久久人人爽av| 亚洲伦理精品| 日韩欧美第二区在线观看| 国产精品久久免费视频 | 欧美日韩午夜爽爽| 日韩在线你懂的| 成人国产亚洲精品a区天堂华泰| 国产原创视频在线观看| 亚洲国产精品va在线| 天天爱天天做天天爽| 亚洲麻豆国产自偷在线| 精品视频站长推荐| 麻豆精品久久精品色综合| 免费的av在线| 亚洲精品国产动漫| 91免费在线视频网站| 狠狠操一区二区三区| 伊人久久男人天堂| 丰满少妇高潮在线观看| 91久久免费观看| 久久久久久久久久91| 国产欧美一区二区三区在线看蜜臀 | 日本美女久久| 欧美激情欧美激情在线五月| 能在线看的av| 欧美成人福利视频| 天天射天天干天天| 亚洲国产视频一区| 国产不卡在线观看视频| 波多野结衣91| 国产精品探花在线播放| 久久久久久一区二区| 成年人深夜视频| 成人在线视频免费观看| 国产一区视频观看| 国产色99精品9i| 国产精品久久不能| 日本黄色免费在线| 欧美精品在线看| 川上优的av在线一区二区| 精品99一区二区| 91精品国产乱码久久| 色婷婷久久一区二区三区麻豆| 欧美日韩精品在线观看视频| 中文字幕免费不卡| 鲁大师私人影院在线观看| 国产精品综合视频| 亚洲精品20p| 日本不卡视频在线| 亚洲五月天综合| 美女精品在线观看| 免费观看国产精品视频| 欧美日韩蜜桃| 欧美与动交zoz0z| 91亚洲国产成人久久精品| 欧洲久久久久久| 精品在线99| 欧美亚洲免费高清在线观看| 久久草在线视频| 国产高清一区视频| 91精品国产自产在线丝袜啪| 亚洲尤物视频网| 色综合一区二区日本韩国亚洲| 国产精品福利在线观看| 亚洲成人激情社区| 国产精品日韩| 婷婷久久五月天| 国产精品中文字幕亚洲欧美| 麻豆av福利av久久av| 亚洲精品国产动漫| 欧美国产二区| 国产精品片aa在线观看| 日韩av一区二区三区美女毛片| 伊人久久大香线蕉| 日韩精品av一区二区三区| 国产免费av一区二区三区| 欧美午夜精品理论片a级大开眼界| 美女扒开腿让男人桶爽久久动漫| 国产精品久久久久久久免费大片| 中文字幕日韩在线| 国产精品夜夜夜一区二区三区尤| 中文字幕久久精品一区二区| 国产精品久久久久久久久婷婷| 红杏aⅴ成人免费视频| 精品国产一区二区三区麻豆免费观看完整版| 成人在线视频中文字幕| 国产综合18久久久久久| 免费看日本一区二区| 日本一区二区三区视频在线观看 | 国产精品sm调教免费专区| 在线免费一区三区| 特级西西444www高清大视频| 欧美性xxxxx极品少妇| 一级黄色大片网站| 91麻豆精品国产自产在线观看一区| 国产欧美第一页| 亚洲国产成人在线播放| 亚欧洲精品视频| 色综久久综合桃花网| a视频在线观看| 欧美亚洲另类激情另类| 国产黄色一区| 成人免费91在线看| 国产调教一区二区三区| 五月天色婷婷综合| 亚洲理伦在线| 91高清国产视频| www.日韩精品| 欧美性生给视频| 香港成人在线视频| 91亚洲国产成人久久精品麻豆| 337p亚洲精品色噜噜| 五月婷婷狠狠干| 日韩中文在线中文网在线观看| 深夜国产在线播放| 国产99视频精品免视看7| 精品一区91| 日本一区网站| 欧美日本国产| 北条麻妃在线一区| 国产不卡视频在线观看| 国产ts在线播放| 亚洲最大网站| 91精品国产自产91精品| 成人免费在线观看视频| 国产一区二区三区高清| 欧美激情黄色片| 成人观看免费完整观看| 国产一区二区精品久久| 一区二区三区伦理片| 亚洲综合一二区| 亚洲一区二区色| 日韩高清中文字幕| 色呦呦在线观看视频| 国产成人免费91av在线| 老司机aⅴ在线精品导航| 人人妻人人澡人人爽精品欧美一区| 先锋影音久久久| 亚洲成年人av| 亚洲免费观看高清完整版在线观看熊 | 日韩成人综合| 国产精品97在线| 国产99久久精品| 五月综合色婷婷| 欧洲生活片亚洲生活在线观看| 色呦呦视频在线| 欧美大片在线看免费观看| 国产成人免费| 欧美日韩精品不卡| 99精品热6080yy久久| 免费不卡av网站| 自拍av一区二区三区| 亚洲av无码乱码国产精品fc2| 日韩电影中文字幕av| av3级在线| 粉嫩av免费一区二区三区| 亚洲视频在线免费| 久久久久久久久久一区二区| 欧美国产一区二区在线观看| 久久久久久久久电影| 一个人看的www视频在线免费观看| 国产高清自拍99| 亚洲五月婷婷| av av在线| 亚洲一区二区三区在线看| 国内精品久久久久久久久久久| 久久精品人人爽| 亚洲伦理网站| 中文字幕久精品免| 国产一区中文字幕| 真实国产乱子伦对白在线| 日韩一区二区三区电影| sm国产在线调教视频| 91丨九色丨国产| 国产精品videosex极品| 久久久久无码国产精品一区李宗瑞 | 日韩三级.com| 精精国产xxxx视频在线中文版| dy888夜精品国产专区| 在线国产精品一区| 国产十八熟妇av成人一区| 激情久久av一区av二区av三区| 色欲av永久无码精品无码蜜桃| 97视频在线观看免费高清完整版在线观看| 国产精品xxxav免费视频| 亚洲free嫩bbb| 米奇精品一区二区三区| 欧美亚洲日本黄色| 狠狠做深爱婷婷综合一区| 中文字幕第100页| 亚洲激情图片一区| 色呦呦中文字幕| 国产精品爱啪在线线免费观看| 日韩在线综合| 岛国精品一区二区三区| 精品国产乱码久久久久久婷婷| 精品乱码一区二区三四区视频| 国产精品视频色| 欧美日本在线| 中文字幕xxx| 欧美伦理视频网站| 后进极品白嫩翘臀在线播放| 精品一卡二卡三卡四卡日本乱码 | 色呦呦视频在线观看| 久久国产精品高清| 蜜乳av一区二区| 久久久久久天堂| 亚洲视频欧美视频| 国产成人免费av一区二区午夜| 亚洲熟妇国产熟妇肥婆| 国产精品久久久久一区二区三区共| 亚洲免费黄色片| 国产精品久久久久久久久久久新郎| 天天操综合网| 欧美性xxxx图片| 666欧美在线视频| 国产污视频在线播放| 亚洲乱码一区二区三区| eeuss影院一区二区三区| 中文字幕+乱码+中文| 欧美精品福利视频| 欧美国产美女| 深爱五月激情网| 精品区一区二区| 丰满少妇一区| 成人在线免费观看av|