精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

面對無解問題大模型竟會(huì)崩潰?港中文&華為聯(lián)合提出首個(gè)大模型推理可靠性評估基準(zhǔn)

人工智能 新聞
本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn),希望借此拋磚引玉,引出更多對新生代推理模型可靠性的關(guān)注和優(yōu)秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務(wù)于人類~?

本文作者是香港中文大學(xué)博士三年級薛博陽,導(dǎo)師為黃錦輝教授,目前在倫敦大學(xué)學(xué)院進(jìn)行訪問交流,他的研究方向包括可信大模型,模型不確定性,對話系統(tǒng)等,在 ACL, EMNLP, TASLP 等會(huì)議期刊作為第一作者發(fā)表多篇論文,并長期在知乎寫作大模型、機(jī)器學(xué)習(xí)等專欄文章,個(gè)人主頁為:https://amourwaltz.github.io

研究問題

面對無解問題最強(qiáng)模型也會(huì)束手無策?

今年初以 DeepSeek-r1 為代表的大模型在推理任務(wù)上展現(xiàn)強(qiáng)大的性能,引起廣泛的熱度。然而在面對一些無法回答或本身無解的問題時(shí),這些模型竟試圖去虛構(gòu)不存在的信息去推理解答,生成了大量的事實(shí)錯(cuò)誤、無意義思考過程和虛構(gòu)答案,也被稱為模型「幻覺」 問題,如下圖(a)所示,造成嚴(yán)重資源浪費(fèi)且會(huì)誤導(dǎo)用戶,嚴(yán)重?fù)p害了模型的可靠性(Reliability)。

圖片

對于復(fù)雜的推理任務(wù),一個(gè)可靠的模型應(yīng)當(dāng)在思考分析后,對可解問題給出正確答案,對不可解問題則指出無解;如果問題超出模型能力范圍無法判斷可解性,一個(gè)次優(yōu)的選擇就是拒答以避免誤導(dǎo)用戶,如上圖(b)和(c)所示,這樣回復(fù)才是可靠的,同時(shí)也能抑制幻覺發(fā)生。

近期由港中文和華為諾亞實(shí)驗(yàn)室聯(lián)合提出的 ReliableMath 基準(zhǔn),旨在探究大模型推理任務(wù)的可靠性。該工作文章和數(shù)據(jù)集均已開源,并持續(xù)在 leaderboard 上更新最新模型結(jié)果,目前已新增了 Qwen3、豆包、Gemini 等一系列模型的可靠性測試結(jié)果,歡迎大家關(guān)注補(bǔ)充~

圖片

  • 論文題目:ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models
  • 論文作者:Boyang Xue, Qi Zhu, Rui Wang, Sheng Wang, Hongru Wang, Fei Mi, Yasheng Wang, Lifeng Shang, Qun Liu, Kam-Fai Wong
  • 論文地址:https://arxiv.org/pdf/2507.03133
  • GitHub 地址:https://github.com/AmourWaltz/ReliableMath
  • 數(shù)據(jù)集地址:https://huggingface.co/datasets/BeyondHsueh/ReliableMath
  • Leaderboard 地址:https://huggingface.co/spaces/BeyondHsueh/ReliableMath-Leaderboard

可靠性評估準(zhǔn)則

知之為知之,不知為不知,是知也

此前大模型可靠性的研究集中在知識(shí)任務(wù)上,探究是否知道某個(gè)知識(shí),缺乏對更難的推理任務(wù)的探索。由于推理問題本身可能無解,并且問題可解性以及模型能否回答都需要經(jīng)過推理才能得出,增加了研究挑戰(zhàn)。

根據(jù)前文對推理任務(wù)可靠性的定義,本工作提出一套推理任務(wù)可靠性的評估準(zhǔn)則,如下圖所示,將問題分為可解(A)和不可解(U),將模型回復(fù)分為成功(S),拒答(R)和失敗(F)。成功表示對可解問題匹配到正確答案或?qū)Σ豢山鈫栴}指出其無解,這是最好的情況;次優(yōu)是拒答,即對可解和不可解問題都回復(fù)我不知道;其余回復(fù)均認(rèn)為是失敗。

圖片

分別使用精度(Prec.)和謹(jǐn)慎度(Prud.)來表示成功率和拒答率,評估可靠性時(shí)優(yōu)先看精度,其次看謹(jǐn)慎度。

圖片

ReliableMath 數(shù)據(jù)集

首個(gè)高質(zhì)量數(shù)學(xué)無解問題集

由于缺乏無解的數(shù)學(xué)問題,本文提出一個(gè)評估數(shù)學(xué)推理可靠性的數(shù)據(jù)集 ReliableMath,包含可解和不可解的問題??山鈫栴}從當(dāng)前開源數(shù)學(xué)問題集中收集,不可解問題通過對可解問題進(jìn)行改寫構(gòu)造獲得,改寫方式有兩種:刪除必要數(shù)學(xué)條件或增加與已知條件矛盾的條件,如下圖所示。

圖片

為了得到高質(zhì)量的無解問題,本文提出一套完整的無解解問題構(gòu)造流程,如下圖所示,包含三步:1)通過對現(xiàn)有可解問題進(jìn)行改寫使其不可解;2)對改寫問題使用模型驗(yàn)證,并過濾掉不合格的問題;3)對過濾數(shù)據(jù)再次進(jìn)行人工驗(yàn)證評估問題是否無解,保留確實(shí)無解的問題,這樣就得到了高質(zhì)量的無解問題構(gòu)成 ReliableMath 數(shù)據(jù)集。

圖片

ReliableMath 包含不同難度的數(shù)學(xué)任務(wù),包括奧賽級的 AIME、AMC、Minerva、及高中級的 MATH。人工標(biāo)注時(shí),對判斷問題無解的難度也進(jìn)行了標(biāo)注,對那些很容易判斷出無解的,比如幾何題缺失圖片信息等,難度標(biāo)為 0,而對于需要經(jīng)過思考才能判斷無解的,難度標(biāo)為 1,數(shù)據(jù)統(tǒng)計(jì)可參考原文。

實(shí)驗(yàn)分析

揭示大模型推理可靠性的缺陷

本文在一系列慢思考和快思考模型上做了實(shí)驗(yàn),并指出以下幾條關(guān)鍵發(fā)現(xiàn):

圖片

  1. 對模型直接輸入無解問題時(shí)(standard prompt),模型幾乎不具備拒答或指出不可解的能力,可靠性極差;我們發(fā)現(xiàn)模型能注意到無解問題本身存在問題,但不敢承認(rèn)其無解或拒答,反而是會(huì)不斷地回溯、反思導(dǎo)致生成大量無意義的思考過程,直到截?cái)嗷蛱摌?gòu)一個(gè)答案,造成嚴(yán)重浪費(fèi)和幻覺,損害了可靠性;
  2. 當(dāng)在提示詞中加入允許模型拒答或指出問題無解的指令后(reliable prompt),我們發(fā)現(xiàn)在可解問題上的可靠性變化不大,但大部分模型在不可解問題上可靠性有明顯提升,盡管仍低于可解問題的可靠性,并且生成序列長度也有明顯下降,說明使用 reliable prompt 可以在不損害可解問題性能的前提下,提高不可解問題的可靠性,并減少過度思考。
  3. 對較大的模型,使用 reliable prompt 后慢思考模型的可靠性普遍高于對應(yīng)快思考模型,如 Deepseek-r1 vs. Deepseek-v3;而對于小模型,使用 reliable prompt 后慢思考模型在不可解問題上的可靠性仍然很差,并沒有高于對應(yīng)的快思考模型,如 Distill-7b vs. Qwen-7b,意味著小模型可靠性有進(jìn)一步提升空間。
  4. 較簡單的數(shù)學(xué)測試集的可靠性要高于較難的測試集的可靠性。

此外,本文也對 ReliableMath 數(shù)據(jù)集做了分析,下圖(a)分別測試了使用移除必要條件和增加矛盾條件兩種改寫方式構(gòu)造的問題的可靠性,結(jié)果表明移除條件構(gòu)造的不可解問題可靠性偏低,這是因?yàn)槟P蛢A向于假設(shè)缺失條件虛構(gòu)答案。圖(b)分別展示了不同難度的無解問題的可靠性,發(fā)現(xiàn)難度為 1 的不可解問題可靠性偏低,即這些問題需要模型經(jīng)過推理才能發(fā)現(xiàn)問題無解,這種情況更難也符合預(yù)期,說明大模型與人類在識(shí)別問題無解難度的相關(guān)性是一致的,盡管人工評估難度存在主觀性。

圖片

可靠性對齊

如何提高大模型可靠性?

本文最后提出一個(gè)提高可靠性的對齊策略,在開源訓(xùn)練集上構(gòu)造一批無解問題。在較強(qiáng)的模型上蒸餾獲得成功回復(fù),然后在小模型上自采樣獲得拒答回復(fù),最后使用監(jiān)督學(xué)習(xí)訓(xùn)練小模型提升可靠性,如下圖所示。經(jīng)過對齊后,小模型的可靠性也得到顯著提升。

圖片

結(jié)語和展望

本文提出首個(gè)大模型推理任務(wù)的可靠性基準(zhǔn),希望借此拋磚引玉,引出更多對新生代推理模型可靠性的關(guān)注和優(yōu)秀工作,讓人們更加信任模型的輸出,讓 AI 更好地服務(wù)于人類~

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2022-07-17 13:07:26

模型開源

2024-07-15 07:52:00

2024-01-26 16:33:00

2023-12-01 09:36:59

華為云大模型混合云華為云行業(yè)高峰論壇

2025-08-18 08:40:00

模型AI算法

2024-09-12 12:46:36

2025-01-13 07:00:00

2025-09-23 09:06:00

AILLM系統(tǒng)

2024-07-11 11:53:56

2025-02-28 08:00:00

大語言模型DeepSeek機(jī)器學(xué)習(xí)

2025-08-01 09:03:16

2024-05-27 12:45:53

2025-01-21 13:15:16

搜索版Search-o1框架

2025-08-04 08:22:00

模型AI指南

2024-10-05 11:30:00

模型訓(xùn)練

2025-03-17 08:48:00

大模型AI生成

2010-12-28 19:50:21

可靠性產(chǎn)品可靠性

2025-05-14 09:15:00

2021-12-01 10:05:12

模型人工智能計(jì)算
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

一区二区在线观看免费视频播放| 天天综合久久| 天天综合色天天综合色h| 国产伦理久久久| 天天干天天干天天操| 婷婷精品在线观看| 欧美性感一区二区三区| 在线观看成人av电影| 亚洲天堂avav| 国产精品xvideos88| 亚洲精品视频在线播放| jizz欧美激情18| 成人影院在线看| 不卡欧美aaaaa| 国产精品久久视频| 欧美成人aaa片一区国产精品| av毛片精品| 在线观看中文字幕不卡| 国内外成人激情免费视频| 神马久久久久久久久久| 久久99精品久久久久久动态图| 色偷偷91综合久久噜噜| 欧美性生交xxxxx| 搜成人激情视频| 亚洲女爱视频在线| 欧美精品在线一区| 超碰人人人人人人| 日韩中文字幕91| 欧美大片大片在线播放| 丁香激情五月少妇| 麻豆精品av| 91精品国产综合久久久蜜臀图片| 青青草视频在线免费播放| 中文字幕日本在线| 91看片淫黄大片一级| 亚洲一区二区三区乱码aⅴ| 日韩精品在线观看免费| 欧美极品一区二区三区| 中文字幕欧美日韩精品| 成人免费av片| 亚洲伊人影院| 欧美一区2区视频在线观看| 成人在线激情网| √8天堂资源地址中文在线| ㊣最新国产の精品bt伙计久久| 久久本道综合色狠狠五月| 国产高中女学生第一次| 久久精品国产色蜜蜜麻豆| 国产精品 欧美在线| 日韩和一区二区| 亚洲视频免费| 欧美成人全部免费| 久艹在线观看视频| 欧美午夜精品一区二区三区电影| 亚洲精品一区二区三区精华液| 欧美美女性视频| 秋霞国产精品| 一本色道久久综合精品竹菊| 免费成人午夜视频| 国产伦子伦对白在线播放观看| 亚洲手机成人高清视频| 一区二区三区在线观看www| av在线之家电影网站| 国产欧美日韩不卡免费| 日本成人黄色| 国产高清自拍视频在线观看| 久久精品视频网| 欧美日韩一区二区视频在线观看 | 国产欧美高清视频在线| 亚洲老头同性xxxxx| 内射中出日韩无国产剧情| 欧美自拍一区| 亚洲男人天堂2024| 欧美多人猛交狂配| 精品视频免费| 色偷偷偷综合中文字幕;dd| 精品手机在线视频| 98精品久久久久久久| www日韩中文字幕在线看| 五月天色婷婷丁香| 欧美在线亚洲综合一区| 久久久亚洲影院| 偷偷操不一样的久久| 久热精品在线| 国产精品自产拍在线观看中文| 看黄色一级大片| 免费xxxx性欧美18vr| 91久久精品一区| 亚洲成人一级片| 91网站在线播放| 色综合久久88色综合天天提莫| www.亚洲.com| 亚洲精选视频免费看| 日韩中文字幕在线免费| 网友自拍亚洲| 91精品在线观看入口| 挪威xxxx性hd极品| 国产影视一区| 欧美成人sm免费视频| 日韩精品视频播放| 欧美aⅴ一区二区三区视频| 91久久国产精品91久久性色| 五月婷婷在线观看视频| 日本一区二区三区四区| 免费cad大片在线观看| 三级在线观看视频| 欧美日韩在线直播| 久久久高清视频| 大胆日韩av| 久久99久久99精品中文字幕| 丁香六月婷婷综合| 极品少妇一区二区| 看高清中日韩色视频| 老司机福利在线视频| 狠狠色狠狠色综合日日小说| 91国内在线播放| 日韩美脚连裤袜丝袜在线| 精品国产依人香蕉在线精品| 伊人手机在线视频| 国产一区二区在线观看免费| 免费亚洲精品视频| 色www永久免费视频首页在线| 欧美日韩一区二区免费在线观看| 激情五月俺来也| 久久a爱视频| 超碰91人人草人人干| 中文字幕在线看人| 高清不卡在线观看av| 一区二区三区欧美成人| 小早川怜子影音先锋在线观看| 欧美日韩精品一区二区三区四区| 精品无码av一区二区三区| 欧美aaaaaaaaaaaa| 日韩av片永久免费网站| 黄色美女一级片| 亚洲视频狠狠干| 亚洲成人福利在线观看| 欧美黄色录像| 欧美激情视频在线| 国产口爆吞精一区二区| 国产日产欧美一区| av免费观看网| 国产毛片精品| 欧美黄色片视频| а√中文在线资源库| 亚洲欧美日韩国产一区二区三区| a√天堂在线观看| 国产精品一线| 亚洲18私人小影院| 黄色小视频免费观看| 一区二区三区国产豹纹内裤在线 | 老**午夜毛片一区二区三区 | 日韩在线视频在线| 伊人久久大香线蕉综合影院首页| 亚洲欧洲在线看| 亚洲天堂一区在线观看| 91美女精品福利| 男人天堂999| 亚洲毛片免费看| 日韩av电影免费观看高清| 日韩精品123| 欧美午夜片在线免费观看| 国产网站无遮挡| 99在线|亚洲一区二区| 精品国产一区二区三区四区精华 | 亚洲天堂男人的天堂| 无码人妻精品一区二区三区9厂| 9久草视频在线视频精品| 国产人妻777人伦精品hd| 99re8这里有精品热视频免费 | 欧美精品色网| 国产二区不卡| 黄色漫画在线免费看| 日韩第一页在线| 久草视频一区二区| 国产视频在线观看一区二区三区| 欧美xxxxx在线视频| 成人女性视频| 91人成网站www| 日韩电影免费观看| 日韩电影中文字幕在线| www.国产毛片| 国产精品电影一区二区| 久久精品久久99| 日韩视频二区| 日韩精品伦理第一区| 国产精品欧美一区二区三区不卡| 久久五月天色综合| 日本xxxxwww| 日本道精品一区二区三区| 又色又爽的视频| 国产激情一区二区三区| 亚洲午夜精品久久久久久人妖| 丝袜美腿一区二区三区动态图 | 久久国产精品波多野结衣av| 91在线看国产| 色播五月激情五月| 亚洲黄色高清| 午夜精品视频在线观看一区二区| 色综合视频一区二区三区日韩| 久久国产精品久久精品| 无码国产伦一区二区三区视频| 色婷婷激情一区二区三区| 中文字幕在线观看2018| av电影天堂一区二区在线观看| 999香蕉视频| 一区二区电影| 欧美日韩电影一区二区| 国产区一区二| 日韩免费不卡av| 在线网址91| 亚洲午夜小视频| 精品黑人一区二区三区在线观看| 大桥未久av一区二区三区| 国产中文av在线| 91尤物视频在线观看| 欧美性受xxxxxx黑人xyx性爽| 伊人激情综合| 中文字幕剧情在线观看一区| 日韩深夜影院| 91传媒视频免费| 97人人做人人爽香蕉精品| 国语自产在线不卡| 成人看av片| 一区二区成人精品| 天天干天天爱天天操| 在线成人av网站| 亚洲高清在线看| 婷婷中文字幕综合| 青青草激情视频| 国产精品午夜久久| 法国伦理少妇愉情| 成人av在线观| 久久久久中文字幕亚洲精品| 久久国产福利国产秒拍| 欧美视频免费播放| 亚洲精品系列| 国产精品日韩三级| 亚洲成人免费| 亚洲精品一区二区三区蜜桃久| 国内精品麻豆美女在线播放视频 | 日韩成人免费在线视频| 亚洲精品乱码久久久久久黑人| 无码 人妻 在线 视频| 97精品久久久久中文字幕| 国内自拍偷拍视频| 国产精品系列在线播放| 欧美又黄又嫩大片a级| 麻豆精品新av中文字幕| 男人插女人下面免费视频| 亚久久调教视频| 91专区在线观看| 最新亚洲一区| 免费看一级大黄情大片| 一本一道久久综合狠狠老精东影业| 99热都是精品| 夜间精品视频| 91免费版看片| 欧美日韩亚洲一区| 国产乱子伦精品无码专区| 欧美日韩蜜桃| 国产在线播放观看| 一区二区久久| 99久久久无码国产精品6| 国产美女精品| 成年人免费大片| 日本在线播放一区二区三区| 色噜噜狠狠永久免费| 韩国av一区二区| 极品白嫩的小少妇| 9久草视频在线视频精品| 成年人网站免费看| 国产欧美日韩在线看| 黄色片网站在线播放| 亚洲男人的天堂一区二区| 国产一级生活片| 疯狂蹂躏欧美一区二区精品| 无码人妻av免费一区二区三区 | 欧美精品久久久久久久自慰| 一本色道88久久加勒比精品| 亚洲五月天综合| 九一九一国产精品| 欧美xxxx日本和非洲| 99久久免费精品| 亚洲色成人网站www永久四虎 | 久久久av电影| 波多野结衣办公室33分钟| 99久久久国产| 成人xxxxx色| 日本欧美高清| 亚洲一区二区三区色| 国产一区美女| 日本在线视频www| 国产精品自拍在线| 88av在线播放| 国产精品网站导航| 国产在线综合网| 在线视频观看一区| 国内毛片毛片毛片毛片| 日韩电影在线观看中文字幕 | 一区二区三区四区五区精品视频| 国产男女无遮挡| 精品一区二区久久久| 97精品人妻一区二区三区蜜桃| 99re免费视频精品全部| www.涩涩爱| 精品福利樱桃av导航| 亚洲永久精品视频| 亚洲精品久久久久久久久| 91sp网站在线观看入口| 久久久欧美一区二区| 在线一区视频观看| 国产精品国产精品| 93在线视频精品免费观看| 国产精品无码一区二区在线| 国产综合久久久久久久久久久久| 99久久免费看精品国产一区| 中文字幕一区二区三区不卡| 一级黄色在线视频| 欧美zozo另类异族| 午夜视频在线观看网站| 91国内免费在线视频| 久久一级大片| 久久亚洲综合色| 亚洲熟妇无码av在线播放| 日韩av午夜在线观看| 少妇被狂c下部羞羞漫画| 自拍偷拍亚洲激情| 精品无码一区二区三区的天堂| 欧美一区二区精品在线| 国产理论电影在线观看| 69av成年福利视频| 7777精品| 最新av网址在线观看| 精品亚洲成a人在线观看| 一级肉体全黄裸片| 欧美性色视频在线| 天堂在线观看av| 久久理论片午夜琪琪电影网| 日韩精品中文字幕一区二区 | 在线一级成人| 日本午夜激情视频| 成人性生交大片免费看中文网站 | 亚洲免费高清视频在线| 中文字幕免费播放| 夜夜躁日日躁狠狠久久88av| 日韩在线免费| 欧美午夜精品久久久久久蜜| 欧美在线高清| 午夜视频在线免费看| 一区二区日韩电影| 成人午夜视频一区二区播放| 欧美激情第6页| 91成人短视频| www.av毛片| 99r国产精品| 国产精品第5页| 亚洲欧美日韩精品久久| 国产高清不卡| 日韩国产精品一区二区| 日韩二区三区四区| 亚洲一二三精品| 欧美人妇做爰xxxⅹ性高电影| yes4444视频在线观看| 国产精品中文字幕久久久| 999国产精品视频| 一区二区三区国产好的精华液| 亚洲欧美综合另类在线卡通| 国产欧美久久久精品免费| 美女福利视频一区| eeuss鲁片一区二区三区| 国产 福利 在线| 欧美激情中文字幕一区二区| 一级α片免费看刺激高潮视频| 色久欧美在线视频观看| 粉嫩一区二区三区在线观看| 国产xxxx振车| 成人精品免费视频| 国产精品va无码一区二区三区| 亚洲视频在线观看视频| 日日夜夜亚洲| 韩日视频在线观看| 久久亚区不卡日本| 国产尤物视频在线观看| 欧美高清一级大片| 四虎5151久久欧美毛片| 岛国av在线免费| 亚洲国产视频一区| www.成年人视频| 欧美在线视屏| 黄色在线观看av| 91精品国产综合久久精品图片| 国产在线观看免费麻豆| 国产视频不卡| 麻豆精品在线播放| 日韩成人免费在线视频| 日韩在线播放一区| 福利在线一区| 天天干天天操天天做| 黄色精品在线看|