精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫

在線學(xué)習(xí)

文章資源問答課堂專欄直播

51CTO

鴻蒙開發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營

鴻蒙開發(fā)者社區(qū)訂閱號

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開發(fā)者社區(qū)視頻號

51CTO軟考題庫

賬號設(shè)置退出

面對無解問題大模型竟會(huì)崩潰？港中文&華為聯(lián)合提出首個(gè)大模型推理可靠性評估基準(zhǔn)

2025-07-17 09:21:11

人工智能新聞

本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn)，希望借此拋磚引玉，引出更多對新生代推理模型可靠性的關(guān)注和優(yōu)秀工作，讓人們更加信任模型的輸出，讓 AI 更好地服務(wù)于人類～?

本文作者是香港中文大學(xué)博士三年級薛博陽，導(dǎo)師為黃錦輝教授，目前在倫敦大學(xué)學(xué)院進(jìn)行訪問交流，他的研究方向包括可信大模型，模型不確定性，對話系統(tǒng)等，在 ACL, EMNLP, TASLP 等會(huì)議期刊作為第一作者發(fā)表多篇論文，并長期在知乎寫作大模型、機(jī)器學(xué)習(xí)等專欄文章，個(gè)人主頁為：https://amourwaltz.github.io

研究問題

面對無解問題最強(qiáng)模型也會(huì)束手無策？

今年初以 DeepSeek-r1 為代表的大模型在推理任務(wù)上展現(xiàn)強(qiáng)大的性能，引起廣泛的熱度。然而在面對一些無法回答或本身無解的問題時(shí)，這些模型竟試圖去虛構(gòu)不存在的信息去推理解答，生成了大量的事實(shí)錯(cuò)誤、無意義思考過程和虛構(gòu)答案，也被稱為模型「幻覺」問題，如下圖（a）所示，造成嚴(yán)重資源浪費(fèi)且會(huì)誤導(dǎo)用戶，嚴(yán)重?fù)p害了模型的可靠性（Reliability）。

對于復(fù)雜的推理任務(wù)，一個(gè)可靠的模型應(yīng)當(dāng)在思考分析后，對可解問題給出正確答案，對不可解問題則指出無解；如果問題超出模型能力范圍無法判斷可解性，一個(gè)次優(yōu)的選擇就是拒答以避免誤導(dǎo)用戶，如上圖（b）和（c）所示，這樣回復(fù)才是可靠的，同時(shí)也能抑制幻覺發(fā)生。

近期由港中文和華為諾亞實(shí)驗(yàn)室聯(lián)合提出的 ReliableMath 基準(zhǔn)，旨在探究大模型推理任務(wù)的可靠性。該工作文章和數(shù)據(jù)集均已開源，并持續(xù)在 leaderboard 上更新最新模型結(jié)果，目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性測試結(jié)果，歡迎大家關(guān)注補(bǔ)充～

論文題目：ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
論文作者：Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
論文地址：https://arxiv.org/pdf/2507.03133
GitHub 地址：https://github.com/AmourWaltz/ReliableMath
數(shù)據(jù)集地址：https://huggingface.co/datasets/BeyondHsueh/ReliableMath
Leaderboard 地址：https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性評估準(zhǔn)則

知之為知之，不知為不知，是知也

此前大模型可靠性的研究集中在知識(shí)任務(wù)上，探究是否知道某個(gè)知識(shí)，缺乏對更難的推理任務(wù)的探索。由于推理問題本身可能無解，并且問題可解性以及模型能否回答都需要經(jīng)過推理才能得出，增加了研究挑戰(zhàn)。

根據(jù)前文對推理任務(wù)可靠性的定義，本工作提出一套推理任務(wù)可靠性的評估準(zhǔn)則，如下圖所示，將問題分為可解（A）和不可解（U），將模型回復(fù)分為成功（S），拒答（R）和失敗（F）。成功表示對可解問題匹配到正確答案或?qū)Σ豢山鈫栴}指出其無解，這是最好的情況；次優(yōu)是拒答，即對可解和不可解問題都回復(fù)我不知道；其余回復(fù)均認(rèn)為是失敗。

分別使用精度（Prec.）和謹(jǐn)慎度（Prud.）來表示成功率和拒答率，評估可靠性時(shí)優(yōu)先看精度，其次看謹(jǐn)慎度。

ReliableMath 數(shù)據(jù)集

首個(gè)高質(zhì)量數(shù)學(xué)無解問題集

由于缺乏無解的數(shù)學(xué)問題，本文提出一個(gè)評估數(shù)學(xué)推理可靠性的數(shù)據(jù)集 ReliableMath，包含可解和不可解的問題?？山鈫栴}從當(dāng)前開源數(shù)學(xué)問題集中收集，不可解問題通過對可解問題進(jìn)行改寫構(gòu)造獲得，改寫方式有兩種：刪除必要數(shù)學(xué)條件或增加與已知條件矛盾的條件，如下圖所示。

為了得到高質(zhì)量的無解問題，本文提出一套完整的無解解問題構(gòu)造流程，如下圖所示，包含三步：1）通過對現(xiàn)有可解問題進(jìn)行改寫使其不可解；2）對改寫問題使用模型驗(yàn)證，并過濾掉不合格的問題；3）對過濾數(shù)據(jù)再次進(jìn)行人工驗(yàn)證評估問題是否無解，保留確實(shí)無解的問題，這樣就得到了高質(zhì)量的無解問題構(gòu)成 ReliableMath 數(shù)據(jù)集。

ReliableMath 包含不同難度的數(shù)學(xué)任務(wù)，包括奧賽級的 AIME、AMC、Minerva、及高中級的 MATH。人工標(biāo)注時(shí)，對判斷問題無解的難度也進(jìn)行了標(biāo)注，對那些很容易判斷出無解的，比如幾何題缺失圖片信息等，難度標(biāo)為 0，而對于需要經(jīng)過思考才能判斷無解的，難度標(biāo)為 1，數(shù)據(jù)統(tǒng)計(jì)可參考原文。

實(shí)驗(yàn)分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了實(shí)驗(yàn)，并指出以下幾條關(guān)鍵發(fā)現(xiàn)：

對模型直接輸入無解問題時(shí)（standard prompt），模型幾乎不具備拒答或指出不可解的能力，可靠性極差；我們發(fā)現(xiàn)模型能注意到無解問題本身存在問題，但不敢承認(rèn)其無解或拒答，反而是會(huì)不斷地回溯、反思導(dǎo)致生成大量無意義的思考過程，直到截?cái)嗷蛱摌?gòu)一個(gè)答案，造成嚴(yán)重浪費(fèi)和幻覺，損害了可靠性；
當(dāng)在提示詞中加入允許模型拒答或指出問題無解的指令后（reliable prompt），我們發(fā)現(xiàn)在可解問題上的可靠性變化不大，但大部分模型在不可解問題上可靠性有明顯提升，盡管仍低于可解問題的可靠性，并且生成序列長度也有明顯下降，說明使用 reliable prompt 可以在不損害可解問題性能的前提下，提高不可解問題的可靠性，并減少過度思考。
對較大的模型，使用 reliable prompt 后慢思考模型的可靠性普遍高于對應(yīng)快思考模型，如 Deepseek-r1 vs. Deepseek-v3；而對于小模型，使用 reliable prompt 后慢思考模型在不可解問題上的可靠性仍然很差，并沒有高于對應(yīng)的快思考模型，如 Distill-7b vs. Qwen-7b，意味著小模型可靠性有進(jìn)一步提升空間。
較簡單的數(shù)學(xué)測試集的可靠性要高于較難的測試集的可靠性。

此外，本文也對 ReliableMath 數(shù)據(jù)集做了分析，下圖（a）分別測試了使用移除必要條件和增加矛盾條件兩種改寫方式構(gòu)造的問題的可靠性，結(jié)果表明移除條件構(gòu)造的不可解問題可靠性偏低，這是因?yàn)槟Ｐ蛢A向于假設(shè)缺失條件虛構(gòu)答案。圖（b）分別展示了不同難度的無解問題的可靠性，發(fā)現(xiàn)難度為 1 的不可解問題可靠性偏低，即這些問題需要模型經(jīng)過推理才能發(fā)現(xiàn)問題無解，這種情況更難也符合預(yù)期，說明大模型與人類在識(shí)別問題無解難度的相關(guān)性是一致的，盡管人工評估難度存在主觀性。

可靠性對齊

如何提高大模型可靠性？

本文最后提出一個(gè)提高可靠性的對齊策略，在開源訓(xùn)練集上構(gòu)造一批無解問題。在較強(qiáng)的模型上蒸餾獲得成功回復(fù)，然后在小模型上自采樣獲得拒答回復(fù)，最后使用監(jiān)督學(xué)習(xí)訓(xùn)練小模型提升可靠性，如下圖所示。經(jīng)過對齊后，小模型的可靠性也得到顯著提升。

結(jié)語和展望

本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn)，希望借此拋磚引玉，引出更多對新生代推理模型可靠性的關(guān)注和優(yōu)秀工作，讓人們更加信任模型的輸出，讓 AI 更好地服務(wù)于人類～

責(zé)任編輯：張燕妮來源：機(jī)器之心

模型 AI 推理

點(diǎn)贊

51CTO技術(shù)棧公眾號

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營

一区二区在线观看免费视频播放| 天天综合久久| 天天综合色天天综合色h| 国产伦理久久久| 天天干天天干天天操| 婷婷精品在线观看| 欧美性感一区二区三区| 在线观看成人av电影| 亚洲天堂avav| 国产精品xvideos88| 亚洲精品视频在线播放| jizz欧美激情18| 成人影院在线看| 不卡欧美aaaaa| 国产精品久久视频| 欧美成人aaa片一区国产精品| av毛片精品| 在线观看中文字幕不卡| 国内外成人激情免费视频| 神马久久久久久久久久| 久久99精品久久久久久动态图| 色偷偷91综合久久噜噜| 欧美性生交xxxxx| 搜成人激情视频| 亚洲女爱视频在线| 欧美精品在线一区| 超碰人人人人人人| 日韩中文字幕91| 欧美大片大片在线播放| 丁香激情五月少妇| 麻豆精品av| 91精品国产综合久久久蜜臀图片| 青青草视频在线免费播放| 中文字幕日本在线| 91看片淫黄大片一级| 亚洲一区二区三区乱码aⅴ| 日韩精品在线观看免费| 欧美极品一区二区三区| 中文字幕欧美日韩精品| 成人免费av片| 亚洲伊人影院| 欧美一区2区视频在线观看| 成人在线激情网| √8天堂资源地址中文在线| ㊣最新国产の精品bt伙计久久| 久久本道综合色狠狠五月| 国产高中女学生第一次| 久久精品国产色蜜蜜麻豆| 国产精品欧美在线| 日韩和一区二区| 亚洲视频免费| 欧美成人全部免费| 久艹在线观看视频| 欧美午夜精品一区二区三区电影| 亚洲精品一区二区三区精华液| 欧美美女性视频| 秋霞国产精品| 一本色道久久综合精品竹菊| 免费成人午夜视频| 国产伦子伦对白在线播放观看| 亚洲手机成人高清视频| 一区二区三区在线观看www| av在线之家电影网站| 国产欧美日韩不卡免费| 日本成人黄色| 国产高清自拍视频在线观看| 久久精品视频网| 欧美日韩一区二区视频在线观看 | 国产欧美高清视频在线| 亚洲老头同性xxxxx| 内射中出日韩无国产剧情| 欧美自拍一区| 亚洲男人天堂2024| 欧美多人猛交狂配| 精品视频免费| 色偷偷偷综合中文字幕;dd| 精品手机在线视频| 98精品久久久久久久| www日韩中文字幕在线看| 五月天色婷婷丁香| 欧美在线亚洲综合一区| 久久久亚洲影院| 偷偷操不一样的久久| 久热精品在线| 国产精品自产拍在线观看中文| 看黄色一级大片| 免费xxxx性欧美18vr| 91久久精品一区| 亚洲成人一级片| 91网站在线播放| 色综合久久88色综合天天提莫| www.亚洲.com| 亚洲精选视频免费看| 日韩中文字幕在线免费| 网友自拍亚洲| 91精品在线观看入口| 挪威xxxx性hd极品| 国产影视一区| 欧美成人sm免费视频| 日韩精品视频播放| 欧美aⅴ一区二区三区视频| 91久久国产精品91久久性色| 五月婷婷在线观看视频| 日本一区二区三区四区| 免费cad大片在线观看| 三级在线观看视频| 欧美日韩在线直播| 久久久高清视频| 大胆日韩av| 久久99久久99精品中文字幕| 丁香六月婷婷综合| 极品少妇一区二区| 看高清中日韩色视频| 老司机福利在线视频| 狠狠色狠狠色综合日日小说| 91国内在线播放| 日韩美脚连裤袜丝袜在线| 精品国产依人香蕉在线精品| 伊人手机在线视频| 国产一区二区在线观看免费| 免费亚洲精品视频| 色www永久免费视频首页在线| 欧美日韩一区二区免费在线观看| 激情五月俺来也| 久久a爱视频| 超碰91人人草人人干| 中文字幕在线看人| 高清不卡在线观看av| 一区二区三区欧美成人| 小早川怜子影音先锋在线观看| 欧美日韩精品一区二区三区四区| 精品无码av一区二区三区| 欧美aaaaaaaaaaaa| 日韩av片永久免费网站| 黄色美女一级片| 亚洲视频狠狠干| 亚洲成人福利在线观看| 欧美黄色录像| 欧美激情视频在线| 国产口爆吞精一区二区| 国产日产欧美一区| av免费观看网| 国产毛片精品| 欧美黄色片视频| а√中文在线资源库| 亚洲欧美日韩国产一区二区三区| a√天堂在线观看| 国产精品一线| 亚洲18私人小影院| 黄色小视频免费观看| 一区二区三区国产豹纹内裤在线 | 老**午夜毛片一区二区三区 | 日韩在线视频在线| 伊人久久大香线蕉综合影院首页| 亚洲欧洲在线看| 亚洲天堂一区在线观看| 91美女精品福利| 男人天堂999| 亚洲毛片免费看| 日韩av电影免费观看高清| 日韩精品123| 欧美午夜片在线免费观看| 国产网站无遮挡| 99在线|亚洲一区二区| 精品国产一区二区三区四区精华 | 亚洲天堂男人的天堂| 无码人妻精品一区二区三区9厂| 9久草视频在线视频精品| 国产人妻777人伦精品hd| 99re8这里有精品热视频免费 | 欧美精品色网| 国产二区不卡| 黄色漫画在线免费看| 日韩第一页在线| 久草视频一区二区| 国产视频在线观看一区二区三区| 欧美xxxxx在线视频| 成人女性视频| 91人成网站www| 日韩电影免费观看| 日韩电影中文字幕在线| www.国产毛片| 国产精品电影一区二区| 久久精品久久99| 日韩视频二区| 日韩精品伦理第一区| 国产精品欧美一区二区三区不卡| 久久五月天色综合| 日本xxxxwww| 日本道精品一区二区三区| 又色又爽的视频| 国产激情一区二区三区| 亚洲午夜精品久久久久久人妖| 丝袜美腿一区二区三区动态图 | 久久国产精品波多野结衣av| 91在线看国产| 色播五月激情五月| 亚洲黄色高清| 午夜精品视频在线观看一区二区| 色综合视频一区二区三区日韩| 久久国产精品久久精品| 无码国产伦一区二区三区视频| 色婷婷激情一区二区三区| 中文字幕在线观看2018| av电影天堂一区二区在线观看| 999香蕉视频| 一区二区电影| 欧美日韩电影一区二区| 国产区一区二| 日韩免费不卡av| 在线网址91| 亚洲午夜小视频| 精品黑人一区二区三区在线观看| 大桥未久av一区二区三区| 国产中文av在线| 91尤物视频在线观看| 欧美性受xxxxxx黑人xyx性爽| 伊人激情综合| 中文字幕剧情在线观看一区| 日韩深夜影院| 91传媒视频免费| 97人人做人人爽香蕉精品| 国语自产在线不卡| 成人看av片| 一区二区成人精品| 天天干天天爱天天操| 在线成人av网站| 亚洲高清在线看| 婷婷中文字幕综合| 青青草激情视频| 国产精品午夜久久| 法国伦理少妇愉情| 成人av在线观| 久久久久中文字幕亚洲精品| 久久国产福利国产秒拍| 欧美视频免费播放| 亚洲精品系列| 国产精品日韩三级| 亚洲成人免费| 亚洲精品一区二区三区蜜桃久| 国内精品麻豆美女在线播放视频 | 日韩成人免费在线视频| 亚洲精品乱码久久久久久黑人| 无码人妻在线视频| 97精品久久久久中文字幕| 国内自拍偷拍视频| 国产精品系列在线播放| 欧美又黄又嫩大片a级| 麻豆精品新av中文字幕| 男人插女人下面免费视频| 亚久久调教视频| 91专区在线观看| 最新亚洲一区| 免费看一级大黄情大片| 一本一道久久综合狠狠老精东影业| 99热都是精品| 夜间精品视频| 91免费版看片| 欧美日韩亚洲一区| 国产乱子伦精品无码专区| 欧美日韩蜜桃| 国产在线播放观看| 一区二区久久| 99久久久无码国产精品6| 国产美女精品| 成年人免费大片| 日本在线播放一区二区三区| 色噜噜狠狠永久免费| 韩国av一区二区| 极品白嫩的小少妇| 9久草视频在线视频精品| 成年人网站免费看| 国产欧美日韩在线看| 黄色片网站在线播放| 亚洲男人的天堂一区二区| 国产一级生活片| 疯狂蹂躏欧美一区二区精品| 无码人妻av免费一区二区三区 | 欧美精品久久久久久久自慰| 一本色道88久久加勒比精品| 亚洲五月天综合| 九一九一国产精品| 欧美xxxx日本和非洲| 99久久免费精品| 亚洲色成人网站www永久四虎 | 久久久av电影| 波多野结衣办公室33分钟| 99久久久国产| 成人xxxxx色| 日本欧美高清| 亚洲一区二区三区色| 国产一区美女| 日本在线视频www| 国产精品自拍在线| 88av在线播放| 国产精品网站导航| 国产在线综合网| 在线视频观看一区| 国内毛片毛片毛片毛片| 日韩电影在线观看中文字幕 | 一区二区三区四区五区精品视频| 国产男女无遮挡| 精品一区二区久久久| 97精品人妻一区二区三区蜜桃| 99re免费视频精品全部| www.涩涩爱| 精品福利樱桃av导航| 亚洲永久精品视频| 亚洲精品久久久久久久久| 91sp网站在线观看入口| 久久久欧美一区二区| 在线一区视频观看| 国产精品国产精品| 93在线视频精品免费观看| 国产精品无码一区二区在线| 国产综合久久久久久久久久久久| 99久久免费看精品国产一区| 中文字幕一区二区三区不卡| 一级黄色在线视频| 欧美zozo另类异族| 午夜视频在线观看网站| 91国内免费在线视频| 久久一级大片| 久久亚洲综合色| 亚洲熟妇无码av在线播放| 日韩av午夜在线观看| 少妇被狂c下部羞羞漫画| 自拍偷拍亚洲激情| 精品无码一区二区三区的天堂| 欧美一区二区精品在线| 国产理论电影在线观看| 69av成年福利视频| 7777精品| 最新av网址在线观看| 精品亚洲成a人在线观看| 一级肉体全黄裸片| 欧美性色视频在线| 天堂在线观看av| 久久理论片午夜琪琪电影网| 日韩精品中文字幕一区二区 | 在线一级成人| 日本午夜激情视频| 成人性生交大片免费看中文网站 | 亚洲免费高清视频在线| 中文字幕免费播放| 夜夜躁日日躁狠狠久久88av| 日韩在线免费| 欧美午夜精品久久久久久蜜| 欧美在线高清| 午夜视频在线免费看| 一区二区日韩电影| 成人午夜视频一区二区播放| 欧美激情第6页| 91成人短视频| www.av毛片| 99r国产精品| 国产精品第5页| 亚洲欧美日韩精品久久| 国产高清不卡| 日韩国产精品一区二区| 日韩二区三区四区| 亚洲一二三精品| 欧美人妇做爰xxxⅹ性高电影| yes4444视频在线观看| 国产精品中文字幕久久久| 999国产精品视频| 一区二区三区国产好的精华液| 亚洲欧美综合另类在线卡通| 国产欧美久久久精品免费| 美女福利视频一区| eeuss鲁片一区二区三区| 国产福利在线| 欧美激情中文字幕一区二区| 一级α片免费看刺激高潮视频| 色久欧美在线视频观看| 粉嫩一区二区三区在线观看| 国产xxxx振车| 成人精品免费视频| 国产精品va无码一区二区三区| 亚洲视频在线观看视频| 日日夜夜亚洲| 韩日视频在线观看| 久久亚区不卡日本| 国产尤物视频在线观看| 欧美高清一级大片| 四虎5151久久欧美毛片| 岛国av在线免费| 亚洲国产视频一区| www.成年人视频| 欧美在线视屏| 黄色在线观看av| 91精品国产综合久久精品图片| 国产在线观看免费麻豆| 国产视频不卡| 麻豆精品在线播放| 日韩成人免费在线视频| 日韩在线播放一区| 福利在线一区| 天天干天天操天天做| 黄色精品在线看|