精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果再發(fā)論文:精準定位LLM幻覺,GPT-5、o3都辦不到

人工智能 新聞
就在近日,蘋果又發(fā)布了一篇引發(fā)學界與業(yè)界關注的重磅論文。

蘋果這幾天真是進入了論文高產(chǎn)期,時不時就有新的研究發(fā)布出來。

就在近日,蘋果又發(fā)布了一篇引發(fā)學界與業(yè)界關注的重磅論文。

這篇論文非常有意思,它用強化學習訓練模型,讓模型能夠準確標出答案中哪些部分是幻覺(hallucinated)。

其核心突破在于:模型不再只是籠統(tǒng)地提示有錯誤,而是能直接指出具體哪一段文字是錯誤的。這對于需要修改輸出或進行事實審查的用戶來說,大大節(jié)省了時間。

論文提出的方法名為 RL4HS,它使用了片段級獎勵(span-level rewards)和類別感知的 GRPO(Class-Aware Group Relative Policy Optimization),從而避免模型偷懶、只輸出無錯誤預測。

該方法在片段級幻覺檢測任務上,甚至超過了 GPT-5 和 o3。

總體而言,片段級獎勵 + 類別平衡機制讓模型真正學會了核查依據(jù)并精確指出錯誤內(nèi)容,這是讓大語言模型更可靠、更可審計的重要一步。

來源:https://x.com/rohanpaul_ai/status/1974652007068967315

接下來我們看看論文內(nèi)容。

論文摘要部分,作者表示大語言模型常常會生成幻覺內(nèi)容,即與事實不符、缺乏支持的信息,這會削弱模型輸出的可靠性。以往的大多數(shù)研究都將幻覺檢測視為一個二分類任務(即判斷是否存在幻覺),但在許多實際應用中,人們需要識別具體的幻覺片段(hallucinated spans),這實際上是一個多步驟決策過程。

這自然引出了一個關鍵問題:顯式推理是否能幫助完成幻覺片段檢測這一復雜任務?

為了解答這個問題,來自蘋果等機構的研究者首先對有無思維鏈推理的預訓練模型進行了評估,結果表明:具備 CoT 推理的模型在多次采樣時,往往能至少生成一個正確答案。

受到這一發(fā)現(xiàn)的啟發(fā),研究者提出了一個新的框架 RL4HS(Reinforcement Learning for Hallucination Span detection)。

該框架通過強化學習機制,利用片段級(span-level)獎勵函數(shù)來激勵模型進行推理。RL4HS 基于組相對策略優(yōu)化(GRPO)方法構建,并引入了類別感知策略優(yōu)化,以緩解獎勵不平衡問題。

在 RAGTruth 基準測試集(涵蓋摘要生成、問答、數(shù)據(jù)到文本等任務)上的實驗結果顯示:

  •  RL4HS 的表現(xiàn)優(yōu)于預訓練的推理模型與傳統(tǒng)監(jiān)督微調(diào)方法;
  •  這表明,對于幻覺片段檢測任務,基于片段級獎勵的強化學習機制是必要且有效的。

  • 論文地址:https://arxiv.org/pdf/2510.02173
  • 論文標題:Learning to Reason for Hallucination Span Detection

RL4HS 框架

本研究的核心問題之一是:顯式推理是否有助于識別幻覺片段。

作為初步實驗,研究者選取了 Qwen2.5-7B 和 Qwen3-8B 兩種模型,在是否啟用思維鏈兩種模式下進行評估。研究者讓大模型(Qwen 系列)分別在先推理后判斷和直接判斷兩種模式下工作。

針對每個輸入,本文對模型進行 K 次采樣,并根據(jù) Span-F1 指標選擇最佳預測結果。相應的 Span-F1@K 結果如圖 1 所示。

結果顯示,當 K=1 時,思維鏈推理對 Qwen2.5-7B 模型沒有帶來性能提升,對 Qwen3-8B 模型的提升也較為有限。然而隨著 K 值增大,Span-F1@K 指標的差距顯著擴大,這證明思維鏈推理在多次采樣時至少能產(chǎn)生一次準確預測的潛力。這些結果為采用強化學習方法來激發(fā)大語言模型在幻覺片段檢測方面的推理能力提供了明確依據(jù)。本文在 Qwen2.5-14B 和 Qwen3-14B 模型上也進行了相同實驗,觀察到了類似現(xiàn)象。

此外,本文還采用了 GRPO,其學習目標定義如下:

盡管 GRPO 在組內(nèi)對優(yōu)勢值進行了標準化處理,但本文發(fā)現(xiàn)預測類型會顯著影響優(yōu)勢值的大小,如圖 3 所示。

這種偏差源于獎勵函數(shù) r_span 固有的不對稱性。在非幻覺類別中,模型只需預測一個空片段列表即可獲得高獎勵;而在幻覺類別中,模型必須精確定位并輸出正確的片段范圍。后者是更困難的目標,細微誤差就會導致基于 F1 的獎勵大幅降低。因此,GRPO 會過度激勵模型做出非幻覺預測,最終形成高精確率但召回率被抑制的偏差行為。

為了解決這種不平衡問題,本文提出了類別感知策略優(yōu)化(Class-Aware Policy Optimization,簡稱 CAPO)。該方法為非幻覺類別的樣本引入一個縮放因子 α,用于調(diào)整其對應的優(yōu)勢值,從而緩解獎勵偏差。本實驗中使用 α = 0.5。

實驗

實驗數(shù)據(jù)集如下所示:

實驗主要采用 Qwen2.5-7B-Instruct 和 Qwen2.5-14B-Instruct 作為基礎模型。

 作為對比,本文還評估了以下幾類模型:

  • 預訓練推理模型:Qwen3-8B、Qwen3-14B 和 QwQ-32B;
  • 商用推理模型:GPT-5、o3、GPT-4o-mini 以及 GPT-5-mini。

表 1 報告了 RAGTruth 在摘要、問答和數(shù)據(jù)轉文本等任務中的幻覺檢測結果。

  • 預訓練指令微調(diào)模型: Qwen2.5-7B/14B-Instruct(無論是否使用 CoT)在任務中的表現(xiàn)都較差,F(xiàn)1 分數(shù)低于 30,這表明僅依靠提示并不足以實現(xiàn)精確的片段級定位。
  • 預訓練推理模型:具備推理能力的模型(如 QwQ-32B、Qwen3-8B、Qwen3-14B)在幻覺檢測任務中能夠遷移部分推理能力。例如,Qwen3-14B 在摘要任務上的 F1 提升至 35.8,而 Qwen2.5-14B-Instruct 僅為 32.9。然而,這些模型的表現(xiàn)仍落后于微調(diào)模型,這說明僅具備一般推理能力還不足以勝任片段級幻覺檢測任務。
  • 微調(diào)基線模型:監(jiān)督微調(diào)顯著提升了性能,在 14B 規(guī)模下 F1 達到 55.4。
  • RL4HS 模型:RL4HS 在所有基線模型之上表現(xiàn)出一致的優(yōu)勢,包括專有模型 GPT-4o/5-mini、GPT-5 和 o3。RL4HS-7B 在三個任務上的平均 F1 達到 55.9,顯著優(yōu)于 SFT 的 50.1。在 14B 規(guī)模下,RL4HS-14B 在摘要、問答和數(shù)據(jù)到文本任務上分別取得 57.6、54.8 和 62.6 的成績,超越了 Qwen3 系列以及表現(xiàn)最強的 GPT-5 和 o3 模型。

下圖表明 CAPO 有效地解決了優(yōu)勢分布分析中揭示的不平衡問題。 


為了更好地理解 RL4HS 所學習到的推理行為,本文在 RAGTruth 數(shù)據(jù)集上進行了定性結果分析(見表 3)。這一示例聚焦于一個具體的不一致問題。

預訓練模型。在微調(diào)之前,預訓練模型未能識別這一不一致。雖然它檢查了結構化的營業(yè)時間和用戶評價,但忽略了一個關鍵事實:結構化數(shù)據(jù)中并沒有任何與餐飲服務相關的屬性。因此,模型未標注出任何幻覺片段。

RL4HS。相比之下,RL4HS 成功識別出了提供餐飲服務這一聲明是幻覺內(nèi)容。其推理過程與人工設計的啟發(fā)式檢測流程高度一致

這一案例表明,RL4HS 的推理不僅停留在表面解釋層面。不同于生成籠統(tǒng)或無關的說明,它能夠執(zhí)行系統(tǒng)化的、一致性檢驗式的推理,與傳統(tǒng)幻覺檢測流程中使用的啟發(fā)式規(guī)則高度契合。這說明在片段級獎勵機制下,RL4HS 所學到的推理行為是真實的、可靠的。

了解更多內(nèi)容,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-08-14 09:31:24

GPT-5AI

2011-05-10 15:26:30

藍影鼠標微軟

2025-02-13 09:10:47

2025-08-07 01:00:00

2025-04-07 07:18:48

2025-09-09 09:01:00

2022-04-07 13:22:06

5G物聯(lián)網(wǎng)蜂窩

2025-08-15 12:50:19

2025-06-19 09:06:00

2025-04-22 09:18:57

2025-08-11 08:42:00

GPT-5AI模型

2013-08-29 11:32:19

企業(yè)移動App定位

2016-05-12 09:33:11

IBM大型機實時分析

2025-04-21 16:25:58

OpenAI測試模型

2025-04-21 09:27:00

2024-01-22 13:57:00

模型訓練

2016-06-02 14:11:34

銳捷網(wǎng)絡機車無線定位

2025-02-10 01:00:00

OpenAIGPT-5GPT-4.5

2025-07-21 09:11:00

點贊
收藏

51CTO技術棧公眾號

精品欧美一区二区在线观看视频 | 欧美日韩久久一区二区| 亚洲精品高清国产一线久久| 一炮成瘾1v1高h| 亚洲精品资源| 日韩在线观看免费高清完整版| 国偷自产av一区二区三区麻豆| 一根才成人网| 一区二区在线电影| 欧美视频1区| www男人的天堂| 视频一区二区三区在线| 欧美成人精品在线播放| 国产精品扒开腿做爽爽| 日韩最新av| 欧美私模裸体表演在线观看| www插插插无码免费视频网站| 国产精品麻豆一区二区三区 | 人妻丰满熟妇aⅴ无码| 日本电影久久久| 欧美日韩免费在线| 色哟哟免费网站| av男人的天堂在线| 26uuu国产日韩综合| 99视频在线| 国产又粗又猛又爽又黄的| 亚洲在线国产日韩欧美| 欧美激情图片区| 国产白丝一区二区三区 | 亚洲我射av| 91激情在线视频| 69堂免费视频| caoprom在线| 亚洲精品乱码久久久久| 亚洲一区在线免费| 国产黄色免费在线观看| 99久久精品国产精品久久| 亚洲最大av网| 国产精品老熟女视频一区二区| 老妇喷水一区二区三区| 91豆花精品一区| 国产第100页| 欧美三级不卡| 欧美激情区在线播放| 国产97免费视频| 一区二区电影在线观看| 久久伊人精品视频| www深夜成人a√在线| 四虎国产精品免费观看| 中国日韩欧美久久久久久久久| 制服丝袜第二页| 五月天亚洲色图| 亚洲精品日韩久久久| 亚洲自拍偷拍一区二区| 一区三区在线欧| 亚洲一二三在线| 亚洲ⅴ国产v天堂a无码二区| 成人a'v在线播放| 在线成人激情视频| 97在线观看免费高| 欧美99在线视频观看| 九九久久国产精品| 黄色小视频在线免费看| 国产日韩1区| 日本人成精品视频在线| 波多野结衣小视频| 久久丁香综合五月国产三级网站| 国产男人精品视频| 国产三区在线播放| 成人h动漫精品一区二区| 国产三区精品| 国产在线视频网站| 国产精品久久久久久久久晋中| 免费观看中文字幕| a级大胆欧美人体大胆666| 欧美日韩精品在线播放| 国产超碰在线播放| 成人噜噜噜噜| 亚洲精品电影久久久| 一区二区三区四区免费| 国产精品x453.com| 国产做受高潮69| 中文字幕一区二区人妻视频| 美女国产一区二区| av资源一区二区| 美女毛片在线看| 国产精品久久久久一区二区三区共| 桥本有菜av在线| 9999热视频在线观看| 色素色在线综合| 成年人性生活视频| 中日韩免视频上线全都免费| 最近2019中文字幕第三页视频| 色婷婷在线视频观看| 亚洲经典视频在线观看| 国产精品成熟老女人| 99riav国产| 久久嫩草精品久久久精品一| 一级做a爰片久久| 老司机深夜福利在线观看| 在线观看亚洲一区| 制服丝袜在线第一页| 第一sis亚洲原创| 高清视频欧美一级| 在线免费看91| 97成人超碰视| 超碰人人爱人人| 成人在线黄色| 欧美精品一区二区蜜臀亚洲| 天堂资源在线视频| 亚洲国产高清视频| 亚洲在线www| 粉嫩一区二区三区国产精品| 黄色一区二区三区| 三上悠亚 电影| 久久亚洲精品中文字幕蜜潮电影| 97精品视频在线| 国产浮力第一页| 国产精品天干天干在观线| 草草久久久无码国产专区| 国产一区二区av在线| 在线午夜精品自拍| 男人午夜免费视频| bt7086福利一区国产| 无码人妻精品一区二区蜜桃百度| 欧美videos粗暴| 国产亚洲美女久久| 亚洲国产成人无码av在线| 国产69精品久久久久毛片| 一区二区精品在线| 欧美日一区二区三区| 亚洲色图在线观看| 一二三区免费视频| 久久综合中文字幕| 欧美日韩国产精品激情在线播放| 136福利精品导航| 欧美日韩成人在线视频| av免费观看在线| 樱桃国产成人精品视频| 黄色片免费网址| 伊人成综合网| 99r国产精品视频| 婷婷丁香在线| 精品乱人伦小说| 国产精品suv一区二区69| 高清国产一区二区三区| 免费的一级黄色片| 99re热精品视频| 欧美国产日韩一区二区| 成人av手机在线| 亚洲综合在线五月| yy1111111| 老司机精品久久| 日韩免费三级| 精品福利在线| 美女精品久久久| 超碰福利在线观看| 欧美日韩日本国产| 自拍偷拍视频亚洲| 蜜臀精品久久久久久蜜臀| 一区二区国产日产| 深夜福利一区二区三区| 久久久这里只有精品视频| 午夜激情小视频| 欧洲一区在线观看| 三级在线观看免费大全| 成人性生交大合| 精品视频一区二区在线| 欧美少妇性xxxx| 91免费看国产| av资源在线看片| 在线电影av不卡网址| 91禁在线观看| 亚洲成人资源在线| 久久午夜福利电影| 国产揄拍国内精品对白| 男人天堂av片| 精品久久中文| 9a蜜桃久久久久久免费| 欧亚av在线| 中文字幕久精品免费视频| 国产av一区二区三区| 欧美日韩综合视频| 欧美视频一区二区在线| 成人免费看的视频| 亚洲狼人综合干| 国产精品v日韩精品v欧美精品网站 | 精品中国亚洲| 国产精品久久久久久久久男| 天堂va在线| 亚洲欧美日韩网| 精品人妻一区二区三区麻豆91 | 中文字幕在线观看免费| 一区二区三区美女视频| 久久丫精品忘忧草西安产品| 国产不卡在线一区| 国产精品人人爽人人爽| 一区二区亚洲| 中日韩在线视频| 欧美日韩一本| 91精品国自产在线观看| 忘忧草在线www成人影院| 欧美黄色性视频| 一级毛片视频在线观看| 亚洲高清av在线| 99re只有精品| 欧美日韩一区二区三区四区五区 | 国产一区二区高清视频| 精品久久99| 日韩美女在线观看| 高h视频在线播放| 久久九九免费视频| h视频网站在线观看| 日韩精品在线观| 精品国产99久久久久久宅男i | 99久久久国产精品无码网爆| 色综合中文字幕国产| 国产一级特黄a高潮片| 国产精品欧美一区喷水| 日韩人妻无码一区二区三区| 国产成人av一区二区三区在线 | 免费一级特黄录像| 国产日韩视频| 国产成人一区二区三区别| 亚洲成人最新网站| 亚洲欧洲久久| 日产午夜精品一线二线三线| 免费久久99精品国产自| 成人av综合网| 国产精品传媒毛片三区| 日本精品一区二区三区在线观看视频| 国产精品免费一区| 成人va天堂| 国产不卡视频在线| 亚洲午夜天堂| 91大神福利视频在线| 免费看男女www网站入口在线| 欧美韩国理论所午夜片917电影| 成人免费视屏| 欧美xxxx18性欧美| 在线黄色网页| 九九热视频这里只有精品| 在线观看中文| 久久久久久国产精品美女| 色呦呦在线播放| 久久免费视频网站| jizz一区二区三区| 91高清视频在线免费观看| 91桃色在线观看| 69视频在线播放| 综合日韩av| 国产精品99久久久久久久久| 欧美色999| 成人午夜在线视频一区| 国产成人视屏| 国产伦精品一区二区三区在线| 成人免费在线电影网| 国产在线资源一区| 色先锋久久影院av| 视频一区二区三区在线观看| 欧美成人激情| 轻点好疼好大好爽视频| 亚洲一级电影| aaaaaa亚洲| 精品一区二区久久久| 久久久久无码精品| av在线一区二区三区| 中文字幕av久久爽一区| 136国产福利精品导航| 久青草视频在线观看| 姬川优奈aav一区二区| 一级一级黄色片| 91麻豆精品国产91久久久使用方法| 亚洲黄色小说网| 亚洲欧美国产一本综合首页| av中文资源在线| 久久99热精品这里久久精品| 五月天av在线| 成人在线国产精品| 黑人久久a级毛片免费观看| 欧美午夜精品久久久久免费视 | 欧美尿孔扩张虐视频| 亚洲国产午夜伦理片大全在线观看网站| 999国产精品| 国产a级片网站| 日韩电影一区二区三区四区| 被黑人猛躁10次高潮视频| 国产成人精品亚洲777人妖| 免费a级黄色片| 亚洲美女屁股眼交| 日韩 国产 欧美| 欧美高清www午色夜在线视频| 欧美熟妇乱码在线一区| 色妞色视频一区二区三区四区| 97天天综合网| 成人啪啪免费看| 天海翼亚洲一区二区三区| 免费看av软件| 肉色丝袜一区二区| 亚洲精品激情视频| 国产精品午夜在线观看| 日本三级视频在线| 欧美久久久久久久久中文字幕| 偷拍精品一区二区三区| 日韩性生活视频| 中文日产幕无线码一区二区| 99久久综合狠狠综合久久止| 日韩精品1区| 成年人网站免费视频| 国产乱淫av一区二区三区| 谁有免费的黄色网址| 午夜视频在线观看一区二区 | 9色porny自拍视频一区二区| 亚洲天堂网av在线| 欧美天天综合网| 欧美美女搞黄| 97视频在线观看免费| 日本一区二区三区播放| 亚洲一区三区在线观看| 老司机亚洲精品| a视频免费观看| 亚洲h在线观看| 亚洲AV无码精品国产| 欧美成人合集magnet| 精品福利在线| 午夜老司机精品| 蜜臀a∨国产成人精品| 欧美性猛交xxxx乱| 疯狂欧美牲乱大交777| 欧美一区,二区| 久久久在线观看| 国产成人一二片| 免费拍拍拍网站| 成人综合婷婷国产精品久久免费| 成熟的女同志hd| 制服丝袜中文字幕一区| 91在线观看| 91九色国产视频| 亚洲h色精品| www.五月天色| 亚洲免费电影在线| 亚洲精品无遮挡| 色综合久久88| 国产乱人伦精品一区| 日本免费a视频| 99久久久精品| 黄色片免费观看视频| 亚洲奶大毛多的老太婆| 韩国美女久久| 日韩欧美亚洲日产国| 秋霞影院一区二区| 亚洲综合第一区| 在线播放欧美女士性生活| 国产cdts系列另类在线观看| 91免费看蜜桃| 亚洲另类黄色| wwwwxxxx国产| 欧美三区在线视频| 国产视频在线播放| 国产成人免费电影| 亚洲在线网站| 国产视频不卡在线| 欧美一区欧美二区| 毛片网站在线看| 欧美日韩在线观看一区| 美女一区二区视频| 欧美成人免费观看视频| 精品国产人成亚洲区| 中文一区一区三区高中清不卡免费| 欧美精品二区三区四区免费看视频| 蜜桃av一区二区三区| 日本福利片在线观看| 亚洲第一精品夜夜躁人人爽| 激情都市亚洲| 黄色免费高清视频| 9色porny自拍视频一区二区| 真实的国产乱xxxx在线91| 久久综合久中文字幕青草| 国产精品115| 国产一线二线三线在线观看| 亚洲美女视频在线| 韩国三级在线观看久| 97久久天天综合色天天综合色hd| 99精品视频免费观看视频| 四季av中文字幕| 日韩精品一区二区三区视频| 惠美惠精品网| 成人一级生活片| 国产视频一区二区三区在线观看| 国产三级漂亮女教师| 人九九综合九九宗合| 一区二区国产在线| 99久久精品免费视频| 日韩欧美国产综合| av免费在线一区| 日韩国产一级片| 亚洲视频香蕉人妖| 国产一区二区三区福利| 翡翠波斯猫1977年美国| 久久国产三级精品|