精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

低Token高精度!字節復旦推出自適應推理框架CAR

人工智能 新聞
來自字節、復旦大學的研究人員提出自適應推理框架CAR,能根據模型困惑度動態選擇短回答或詳細的長文本推理,最終實現了準確性與效率的最佳平衡。

過度依賴CoT思維鏈推理會降低模型性能,有新解了!

來自字節、復旦大學的研究人員提出自適應推理框架CAR,能根據模型困惑度動態選擇短回答或詳細的長文本推理,最終實現了準確性與效率的最佳平衡。

圖片

推理能力的進步極大提升了大語言模型(LLMs)和多模態大語言模型(MLLMs)在各類任務中的表現。

但已有研究發現,長CoT推理并非總能提升準確率,甚至會削弱模型處理簡單任務的能力(可能產生冗長輸出)。

為此,研究人員提出了CAR這一基于置信度的自適應推理框架,它首先生成簡短回答并評估困惑度,僅在模型置信度低(困惑度高)時觸發推理。

在多模態視覺問答、關鍵信息提取及文本推理等多個基準測試中,CAR超越了單純的短回答與長推理方法,在準確性與效率之間取得了最佳平衡。

先導實驗設置

這項研究聚焦文本密集型視覺問答(VQA)和關鍵信息抽取(KIE)領域,選取8個具有代表性的公開數據集開展先導實驗。

其中,DocVQA、InfoVQA、ChartQA、VisualMRC等4個數據集構成VQA數據集,覆蓋文檔、圖表、信息圖等多種視覺文本形態;SROIE、CORD、FUNSD、POIE等4個數據集組成KIE數據集,主要用于票據、表格等結構化信息抽取任務。

以這些數據集為基礎,研究對Qwen2.5-0.5B模型進行微調,并在域內(如DocVQA、ChartQA)和域外(如POIE、InfoVQA)數據集上開展性能評估。

評估過程中,要求模型分別生成簡短答案和包含長文本推理過程的答案兩種輸出形式。

實驗完成后,系統性統計各數據集的準確率(Accuracy)和回答的困惑度(Perplexity,PPL)——PPL 值越低,表明模型對生成答案的置信度越高。

圖片

實驗分析結果顯示,PPL與準確率之間存在顯著的強負相關性

從數據集層面分析,準確率與PPL呈現明顯的逆向關系(見圖1),即數據集整體準確率越高,其平均PPL值越低;深入數據集內部觀察,預測正確樣本的平均PPL分數顯著低于預測錯誤樣本(見圖2)。

基于上述發現,研究創新性提出一種基于PPL的動態推理決策機制。

具體而言,當模型輸出的PPL值超過設定閾值(研究以測試集PPL分布的75%分位數作為閾值)時,判定為低置信度場景,觸發長文本推理模式,以減少誤判風險;若PPL值低于閾值,則判定為高置信度場景,直接輸出簡短答案,提升推理效率。

實驗結果表明,采用該動態決策機制后,模型在絕大多數數據集上的性能均實現顯著提升。

以下為PPL取75%分位數為閾值下的性能對比:

圖片

提出自適應推理框架CAR

基于上述探索性的發現,這項研究工作擬開發一個使用困惑度(PPL)的動態推理決策框架Certainty-based Adaptive Reasoning(CAR),其目標是能夠在推理過程中自適應地在短文本推理和長文本推理之間切換。

如圖3(a)所示,研究人員首先使用包含簡短答案的示例和包含長文本推理解答的示例來訓練大語言模型(LLM)或多模態大語言模型(MLLM)。

隨后,借助訓練集的困惑度(PPL),估計正確和錯誤簡短答案的PPL分布,這些分布用于決策制定。

具體來說,如果估計的分布確定簡短答案是正確的,所提出的方法會直接輸出該正確答案。否則,它會執行長文本推理。推理過程如圖3(b)所示。

圖片

模型訓練

研究人員將同時包含簡短答案和長文本推理解答標注的訓練示例進行混合,構建新的數據集。隨后采用標準指令微調流程,模型接收由輸入文本和輸出文本組成的序列,優化目標為交叉熵損失:

圖片

模型訓練完成后,對訓練集中所有樣本進行短答案推理,生成預測答案并計算其困惑度值PPL。

Token序列的困惑度定義為:

圖片

高斯分布建模

設二元變量C表示短答案是否正確(C=1為正確,C=0為錯誤),假設正確與錯誤答案的PPL分布均服從高斯分布:

圖片

概率密度函數分別為:

圖片

最后,通過訓練數據估計其中參數(假設n1和n0分別為訓練集中正確與錯誤回答的數量):

圖片

推理過程

對新輸入x,推理步驟如下:

1、短回答推理:模型生成短回答,并計算相應的PPL為PPLnew

2、概率計算:根據貝葉斯定理,將PPLnew代入概率密度函數,計算后驗概率;

圖片

其中,先驗概率分別為:

圖片

3、決策規則:如果短回答的正確概率高于其可能錯誤的概率,直接輸出短回答;否則觸發模型的長推理。

實驗結果

下表展示了多模態數據集上的性能表現。

首先,CARQwen2VL相比CARShort和CARLong的優越性能,證明了使用困惑度(PPL)作為推理路徑選擇指標的有效性。

此外,所提出的方法保持了還使用了更少的輸出Token數量(平均86.9個token),僅為Qwen2-VLLong所使用Token數量的15%。

圖片

下表展示了基于文本的推理任務性能對比。

CAR方法表現出穩健的性能。具體地,使用Qwen2.5-7B模型時平均準確率達81.1%(上圖);使用Llama3.1-8B時達74.9%,均優于短答案基線模型以及長文本推理模型(下圖)。

此外,CAR的性能均優于TALE和COD等先進的Token縮減方法。

圖片圖片

小結一下,這項研究提出基于置信度的自適應推理框架(CAR),該框架可根據模型置信度動態切換短回答與長文本推理模式。

通過困惑度(PPL)量化模型對答案的置信度,CAR在高置信度時直接輸出短回答以提升效率,低置信度時觸發長文本推理以確保準確性。

按照研究團隊的說法,CAR打破了“長文本推理必然性能更好”的固有認知,為大模型推理提供了更靈活高效的解決方案,推動大模型推理向智能化、輕量化方向發展。

論文地址:https://arxiv.org/abs/2505.15154

責任編輯:張燕妮 來源: 量子位
相關推薦

2021-02-19 09:17:48

微軟Edge瀏覽器

2025-05-26 17:16:51

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-01-21 08:00:00

自適應框架框架開發

2022-10-19 16:51:10

Linux優化

2024-10-21 12:30:52

2022-12-12 11:31:39

數據學習

2017-06-06 10:30:12

前端Web寬度自適應

2025-06-03 03:15:00

2025-06-09 09:17:44

2025-09-08 09:02:00

2024-11-04 08:30:00

2023-12-12 13:51:00

AI訓練

2012-05-09 10:58:25

JavaMEJava

2014-09-05 10:10:32

Android自適應布局設計

2010-08-30 09:52:03

DIV高度自適應

2010-08-30 10:26:20

DIV自適應高度

2023-07-31 08:24:34

MySQL索引計數

2024-09-13 15:36:36

點贊
收藏

51CTO技術棧公眾號

亚洲一级理论片| 欧美日韩午夜爽爽| 久久精品五月天| 日韩欧美中文| 日韩丝袜情趣美女图片| 成人在线观看你懂的| 免费在线视频你懂得| 老司机午夜精品99久久| 久久久久久999| 阿v天堂2014| 视频一区视频二区欧美| 色综合天天综合在线视频| 久久好看免费视频| 国产精品久久久久久在线观看| 日韩天堂在线| 亚洲综合免费观看高清在线观看| 欧洲一区二区在线| 午夜久久久久久噜噜噜噜| 久久精品道一区二区三区| 久久夜精品香蕉| 性欧美13一14内谢| 亚洲精品一二三**| 欧美性视频一区二区三区| 欧美黄网在线观看| 国产精品无码2021在线观看| 国产成人免费av在线| 国产91热爆ts人妖在线| 国产精品50页| 亚洲国产老妈| 中文字幕成人精品久久不卡| 少妇一级淫免费观看| 电影91久久久| 精品视频在线免费看| 成人性生活视频免费看| 在线不卡日本v二区707| 国产精品亲子伦对白| 牛人盗摄一区二区三区视频| 亚洲精品一区二区三区四区| 国产一区二三区好的| 国产精品久久久久久av福利软件| 成年人午夜视频| 欧美日韩国产欧| 久久艳片www.17c.com| 久久免费手机视频| 国产最新精品| 亚洲欧洲在线播放| 国产精品三级在线观看无码| 大香伊人久久精品一区二区| 日韩一区二区免费在线观看| 一级黄色片国产| 国内精品伊人| 欧美色男人天堂| 性欧美videossex精品| 亚洲天堂资源| 色综合久久综合中文综合网| 日本在线xxx| 久草在线资源福利站| 亚洲一区二区三区四区五区黄| 日本精品免费视频| 免费看美女视频在线网站| 国产精品入口麻豆原神| 亚洲精品视频一二三| av在线电影观看| 久久99精品久久久久久| 国产精品日韩精品| 国产成人av免费| 美女一区二区三区在线观看| 国产精品免费福利| ,一级淫片a看免费| 精品一区中文字幕| 96sao精品视频在线观看| 精品人妻aV中文字幕乱码色欲| 国产精品系列在线观看| 99se婷婷在线视频观看| 空姐吹箫视频大全| 99re亚洲国产精品| 欧美日韩精品不卡| 一级毛片视频在线| ...xxx性欧美| 国产精品69久久久| 在线免费看h| 91黄色小视频| 久久久久久久久久一区二区| 人人爱人人干婷婷丁香亚洲| 精品少妇一区二区三区| 日本不卡视频一区| 精品久久电影| 久久亚洲影音av资源网| 色播视频在线播放| 日本欧美韩国一区三区| 91人人爽人人爽人人精88v| 成人av免费播放| 91香蕉视频污在线| 亚洲精品日韩精品| 九色porny丨入口在线| 精品视频一区 二区 三区| 一级片免费在线观看视频| 国产精品极品| 色婷婷综合久久久久| 久久综合色综合| 美日韩精品视频| 91久久久精品| 先锋av资源站| 亚洲人成在线播放网站岛国| 黄色大片在线免费看| 黄色精品视频网站| 欧美zozo另类异族| 天天操天天干天天操天天干| 欧美欧美全黄| 国产九九精品视频| 香蕉人妻av久久久久天天| 国产精品久久久久桃色tv| 国产欧美日韩网站| 看片一区二区| 亚洲精品影视在线观看| www.99re7| 日本中文字幕一区| 韩国一区二区三区美女美女秀| 日本美女在线中文版| 婷婷综合久久一区二区三区| 天天操精品视频| 日韩av黄色在线| 亚洲天天在线日亚洲洲精| 日本一级特级毛片视频| 亚洲综合日本| 亚洲a一级视频| 黄色在线免费观看大全| 亚洲人精品一区| 啊啊啊国产视频| 青青操综合网| 久久久亚洲影院你懂的| 少妇又紧又色又爽又刺激视频| 国产99久久精品| 亚洲国产精品视频一区| www在线观看黄色| 色婷婷久久综合| 国产麻豆xxxvideo实拍| 在线国产一区| 国产一区二区在线免费| 国产在线观看免费网站| 性久久久久久久久| 无码人妻丰满熟妇区毛片蜜桃精品 | 国产成人在线观看免费网站| 欧美日韩综合另类| 国产不卡123| 欧美日韩一级大片网址| 欧美一区二区三区粗大| 性色一区二区三区| 国产一区二区不卡视频| 久草在线新免费首页资源站| 欧美一区二区大片| 999久久久国产| 日韩电影在线观看一区| 欧美精品久久| 亚洲精品日产| 精品视频在线播放免| 日本中文字幕网| 成人黄色在线网站| 喜爱夜蒲2在线| 欧洲精品99毛片免费高清观看 | 中日韩免视频上线全都免费| 91精品国产91久久久久久吃药| 国产97免费视频| 日日骚欧美日韩| 久久久久高清| 免费污视频在线一区| 亚洲男人7777| 福利网址在线观看| 久久久99精品久久| 日本www.色| 精品亚洲成人| 91精品综合久久久久久五月天| 老司机福利在线视频| 7777精品伊人久久久大香线蕉超级流畅 | 一本色道久久综合| 精品乱子伦一区二区三区| 天堂在线中文网官网| 亚洲精品视频播放| 欧美人一级淫片a免费播放| 国产亚洲精久久久久久| 亚洲欧洲日本精品| 91偷拍一区二区三区精品| 69视频在线播放| 美州a亚洲一视本频v色道| 一本到不卡精品视频在线观看| 性欧美一区二区| 美女在线视频一区| 欧美一区二区三区综合| xvideos.蜜桃一区二区| 国产91色在线免费| 在线毛片网站| 日韩久久久精品| 日韩精品视频播放| 国产日韩成人精品| 国产精品69页| 中文字幕午夜精品一区二区三区| 9a蜜桃久久久久久免费| 岛国av在线网站| 亚洲色图欧美制服丝袜另类第一页| 国产男人搡女人免费视频| 国产精品久久久久久久久久免费看 | 黄色av网址在线观看| 美女91精品| 影音先锋欧美在线| a看欧美黄色女同性恋| 日本不卡高字幕在线2019| 欧美jizz18性欧美| 精品国产网站在线观看| 天天操天天摸天天干| 日韩一区在线看| 国产精品成人无码专区| 丝袜国产日韩另类美女| 日日噜噜夜夜狠狠久久丁香五月 | 日本不卡视频一二三区| 韩国黄色一级大片| 偷拍视屏一区| 91啪国产在线| 9i看片成人免费高清| 伦理中文字幕亚洲| 黄色片在线播放| 欧美成人精精品一区二区频| 亚洲一级片免费看| 婷婷一区二区三区| 永久久久久久久| 国产亚洲欧美日韩日本| 四虎成人免费视频| 日本午夜一区二区| 四虎永久在线精品无码视频| 亚洲激情在线| 一本久道高清无码视频| 影视一区二区| 四虎永久免费网站| 粉嫩的18在线观看极品精品| 91久久大香伊蕉在人线| 91p九色成人| 欧美亚洲午夜视频在线观看| 日本伦理一区二区| 欧美理论电影在线观看| youjizz在线播放| 亚洲国产日韩欧美综合久久 | 国产剧情av在线播放| 最近中文字幕日韩精品 | 粉嫩高潮美女一区二区三区 | av伦理在线| 日韩视频免费在线| 高清美女视频一区| 亚洲欧美999| 色欲av永久无码精品无码蜜桃| 欧美精品久久一区二区三区| 欧美男人亚洲天堂| 亚洲一区二区影院| 麻豆changesxxx国产| 1024成人网色www| 欧美性生交大片| 国产日本一区二区| 玖玖爱在线观看| 久久九九国产精品| 日韩精品卡通动漫网站| 波多野结衣在线aⅴ中文字幕不卡| 日本在线视频播放| 国产一区二区调教| 一级做a爱视频| 久久成人久久鬼色| 中文av字幕在线观看| 男人的天堂久久精品| 欧美日韩中文不卡| 精品一区二区三区在线视频| 在线观看国产一级片| 麻豆精品国产91久久久久久| 日本肉体xxxx裸体xxx免费| 蓝色福利精品导航| 国产成人在线综合| 韩国精品久久久| 一级日本黄色片| 国产成人精品一区二| 亚洲永久无码7777kkk| 2020国产精品自拍| 精品无码国产污污污免费网站| 国产色产综合产在线视频| 99久久精品免费视频| 国产精品黄色在线观看| 亚洲综合视频网站| 玉米视频成人免费看| 国产精品成人av久久| 狠狠色狠狠色综合日日小说| 国产成人精品777777| 欧美日高清视频| 国产伦精品一区二区三区视频孕妇| 欧美日韩视频免费观看| 国产精品久久久久久久天堂| 成人线上视频| 91精品在线观看视频| 9999久久久久| 久久综合九色综合久99| 日韩理论片av| 欧美日韩福利在线| 日韩国产在线一| 图片区乱熟图片区亚洲| 成人午夜电影网站| 国产精品1000部啪视频| 亚洲欧美日韩人成在线播放| 国产污片在线观看| 欧美中文字幕一区二区三区| 国产福利第一页| 精品调教chinesegay| 欧美激情视频在线播放| 国内精品美女av在线播放| 日本综合久久| av观看久久| 成人动漫免费在线观看| 红桃一区二区三区| 先锋亚洲精品| 成人av毛片在线观看| 国产日韩欧美综合在线| 欧美黄色一区二区三区| 91久久精品一区二区三区| 99精品免费观看| 国产亚洲xxx| aaa在线播放视频| 成人亚洲激情网| 亚洲美女15p| 免费网站在线观看视频| 蜜臀精品一区二区三区在线观看| 在线观看成人动漫| 亚洲精品写真福利| 国产一级做a爱片久久毛片a| 日韩精品一区二区三区在线观看 | 5g国产欧美日韩视频| 国产精品一区2区3区| 日韩激情视频一区二区| 免费精品视频最新在线| aaaaaav| 亚洲sss视频在线视频| 国产熟女一区二区三区四区| 亚洲视频综合网| 爱啪啪综合导航| 国产91精品入口17c| av成人亚洲| 狠狠色综合网站久久久久久久| 99国产**精品****| 黄色一级大片在线观看| 成熟亚洲日本毛茸茸凸凹| 我家有个日本女人| 欧美日韩国产综合一区二区三区| 免费成人av电影| 7777精品视频| 欧美有码在线| 国产人妻777人伦精品hd| 精品一区二区三区久久久| 超薄肉色丝袜一二三| 欧美特级限制片免费在线观看| 欧洲成人av| 欧美与欧洲交xxxx免费观看| 极品国产人妖chinesets亚洲人妖| 黄色小视频大全| 国产毛片一区二区| 疯狂撞击丝袜人妻| 欧美日韩你懂得| 秋霞成人影院| 国产精品视频在线观看| 黑人操亚洲人| 无限资源日本好片| 国产精品理论在线观看| 国产精品高潮呻吟AV无码| 日韩一区二区欧美| 六九午夜精品视频| 在线观看成人av电影| 国产精品2024| 免费在线观看黄色av| 亚洲福利视频专区| 国产激情在线播放| 日本精品一区二区三区不卡无字幕| 日韩激情一二三区| 国产激情av在线| 欧美年轻男男videosbes| 怡红院在线观看| 国产精品一区二区三区免费观看| 伊人影院久久| 韩国一区二区三区四区| 午夜精品一区二区三区电影天堂| 四虎影院在线播放| 日本中文字幕成人| 亚洲精品亚洲人成在线| 天天干天天玩天天操| 亚洲欧美另类小说| 欧洲成人一区二区三区| 午夜精品理论片| 国产一区二区三区四区五区传媒| 亚洲第一狼人区| 一区二区三区欧美日| 日色在线视频| 国产日韩欧美视频| 欧美日韩调教| 亚洲午夜精品在线观看| 一本色道久久加勒比精品| 成人av毛片| 国产精品av一区| 亚洲一区欧美激情| 久久视频精品在线观看| 日韩视频免费直播|