精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

開源模型「幻覺」更嚴重,這是三元組粒度的幻覺檢測套件

人工智能 新聞
BSChecker:細粒度大模型幻覺檢測工具與基準測試排行榜

大模型長期以來一直存在一個致命的問題,即生成幻覺。由于數據集的復雜性,難免會包含過時和錯誤的信息,這使得輸出質量面臨著極大的挑戰。過多的重復信息還可能導致大型模型產生偏見,這也算是一種形式的幻覺。如何檢測和有效緩解大模型的生成幻覺問題一直是學術界的熱門課題。

近日,亞馬遜上海人工智能研究院推出細粒度大模型幻覺檢測工具 BSChecker,包含如下重要特性:

  • 細粒度幻覺檢測框架,對大模型輸出文本進行三元組粒度的幻覺檢測。
  • 幻覺檢測基準測試集,包含三種任務場景,滿足用戶的不同需求。
  • 兩個基準測試排行榜,目前涵蓋15個主流大模型的幻覺檢測結果。

另外,BSChecker的作者們在Gemini推出后也很快做了自動檢測的幻覺測試。

圖片

幻覺檢測框架示意圖

  • 項目地址:https://github.com/amazon-science/bschecker-for-fine-grained-hallucination-detection
  • 排行榜地址:https://huggingface.co/spaces/xiangkun/BSChecker-Leaderboard

技術亮點

更細的粒度:與傳統的段落或句子級別的分析方法不同,BSChecker 將大模型的輸出文本分解成知識三元組。進行這樣的細粒度檢測不僅能驗證單個知識的真實性,還為進一步的精確分析提供了可能。

通常我們將幻覺檢測的最小單元稱為一個聲明(claim)。在前人的工作中,有使用輸出文本中的句子作為聲明的(SelfCheckGPT),也有使用模型從輸出文本中抽取更短的子句作為聲明的(FActScore,FACTOOL)。BSChecker 探索了使用知識三元組表示聲明的方法,這個想法受到知識圖譜的啟發,在知識圖譜中三元組被用來封裝事實和知識單元。知識三元組采用(主語,謂詞,賓語)的結構,捕捉輸出文本中的細粒度信息。以下示例展示了一句句子和其對應的細粒度三元組表示:

吳京在電影《戰狼》中飾演了主角冷鋒。

圖片

三元標簽模式:不同于傳統幻覺檢測方法將整個輸出文本分類為是否存在幻覺這兩種類別標簽,BSChecker 對輸出文本中的每一個聲明都進行幻覺檢測并分類。通過這種方式,輸出文本和其相應的參考文本之間的關系可以可視化為下圖:

圖片


圖中輸出文本和參考文本之間的交集是可以直接驗證的部分,其中又分為蘊涵(Entailment,圖中綠勾?)和矛盾(Contradiction,圖中紅叉?)兩類,具體取決于聲明是否得到參考文本的支撐。然而,在實際應用中,參考文本可能并不總是能提供足夠的證據來驗證所有聲明。在這種情況下,這些聲明的真實性需要額外的參考文本才能進行評估(橙色問號),我們將這樣的聲明稱為中性(Neutral)。

這三個類別與事實核查(Fact Checking)領域中的支撐(Support)、反駁(Refute)和信息不足(Not Enough Information)這三個概念密切相關,并且它們在自然語言推理(NLI)中也有應用。BSChecker 使用這種三元標簽模式取代傳統的二分類標簽,使得輸出文本與參考文本之間的關系得到更精確的表達。 

更廣泛的覆蓋范圍:BSChecker 根據輸入大模型的上下文的數量和質量,設定了三種不同的場景,分別是無上下文(如開放性問答任務),帶噪聲的上下文(如檢索增強生成任務)和準確上下文(如文本摘要、信息抽取任務)。

圖片

三種場景對比示意圖

基于這三種場景,作者構建了一個基準數據集,包括 300 個示例,每種場景對應 100 個示例。這些示例是從下表中列出的數據源中隨機抽取的:

圖片

BSChecker 工作流程

BSChecker 具有模塊化的工作流程,分為三個可配置的模塊:聲明抽取器 E,幻覺檢測器 C,以及聚合規則 τ。這三個模塊互相解耦合,可以通過增強其中的部分模塊對整個框架進行擴展和改進。

圖片

BSChecker 工作流程圖

其中兩個主要模塊是:

  • 基于大模型的聲明抽取器:作者發現大模型很擅長提取聲明三元組,在當前版本中,他們使用 GPT-4 和 Claude 2 作為聲明抽取器。
  • 基于人工或模型的幻覺檢測器:對于給定的聲明三元組和參考文本,標注者可以相應地進行標注,如下圖所示。該標注工具也將很快發布。基于模型的幻覺檢測器將在后續的自動評估排行榜章節中介紹。

圖片

無上下文場景下的評估過程

人工評估結果

BSChecker 目前收錄了 2100 個經過細粒度人工標注的大模型輸出文本,涵蓋了 7 個主流大模型,如 GPT-4、Claude 2、LLaMA 2 等。基于這個結果,作者構建了一個交互式的排行榜,見下圖。人工評估排行榜包含兩個可交互的選項:1)上文中提到的三種任務場景,以及三種場景上平均的結果(頂部選項);2)評估指標(左側 “排名依據” 選項)。下圖顯示了依據蘊涵排名得到的排行榜。

圖片

根據人工評估結果,作者得出了以下發現:

上下文信息對于輸出符合事實的文本至關重要

平均而言,從無上下文到帶噪聲的上下文,再到準確上下文,評估結果為矛盾的比例從 21% 降至 11%,再到 5%。

圖片

在真實性方面,最新的商業閉源大模型比大多數開源大模型更強

最新的商業大模型,如 Claude 2、GPT-4 和 GPT-3.5-Turbo,相較于大多數開源大模型,產生了更少的幻覺。具體而言,商業大模型在準確上下文場景中表現良好。例如,GPT-4 在這個場景中幾乎沒有幻覺(0.9% 矛盾和 1.2% 中性)。LLaMA 2 70B 在排行榜上與商業大模型結果接近,特別是在提供上下文的情況下。

圖片

GPT 系列大模型的真實性穩步提高

GPT-4 比 GPT-3.5 更好,而 GPT-3.5 又遠遠優于 InstructGPT。作者從相關文獻中尋找并總結了一些可能的解釋,詳見代碼倉庫中的 README。其中一個實驗是:他們將相同的文本輸入 GPT-4,并要求它解釋,這是一種修改過的檢索增強生成(RAG)場景。有趣的是,GPT-4 犯了一個明顯的錯誤,它宣稱在真實性方面 InstructGPT 比 GPT-3.5 更好。

圖片

即使對于最新的商業大模型,無上下文場景仍然具有挑戰性

雖然 GPT-4 和 Claude 2 在很大程度上領先于開源大模型,但 GPT4 仍然有超過 10% 的錯誤,這是一個不可忽視的錯誤比例。Claude 2 相對保守,犯的錯誤(即矛盾)較少,但往往提供更多無法驗證的輸出文本。

圖片


自動評估排行榜

人工標注有助于深入了解大模型的幻覺,但對于評估更多的大模型而言,它們不具備可擴展性。BSChecker 框架允許插入基于模型的幻覺檢測器,作者發現大模型和自然語言推理(NLI)模型都是不錯的選擇。它可以在命令行輕松配置,從而形成一個完全自動化的端到端幻覺檢測框架。

以下動圖顯示了由 GPT-4 作為聲明抽取器和幻覺檢測器得到的排行榜。作者現在在排行榜上評估了 15 個大模型。用戶可以方便地使用他們的工具將自己檢測的結果放在排行榜上。

圖片

自動幻覺檢測框架的性能如何?

作者使用 Kendall's tau 來衡量自動排行榜與人工評估排行榜之間的一致性。具體地,他們使用了 scipy.stats.kendalltau,它可以返回兩個排名之間的 p 值(表示置信度)和 tau 值(表示相關性)。下面的熱度圖顯示了聲明抽取器(列)、幻覺檢測器(行)和任務場景(水平條)的各種組合結果,他們展示了其中高置信度(p 值 < 0.05)的組合。有趣的是,這些高置信度的條目也都顯示出了很高的相關性(tau>0.3)。例如,想要在無上下文場景中依據矛盾比例排名,用戶可以使用 GPT-4 聲明抽取器和 GPT-4 或 NLI 幻覺檢測器;想要排名準確上下文場景中的蘊涵比例,可以使用 Claude 2 聲明抽取器和 GPT4 幻覺檢測器。

圖片

他們使用 BSChecker 的自動檢測框架對 Gemini 進行了幻覺檢測,將 GPT-4 作為聲明抽取器和幻覺檢測器,在無上下文場景下按照矛盾比例進行排名(和上述推薦設置一致),得到的結果與 Gemini 報告中的實驗結果一致。他們還進一步對其中的 10 個輸出文本進行了人工標注,其中共包含 118 個聲明三元組,標注結果顯示自動檢測和人工標注的一致性達到了 90.7%。

BSChecker 使用方式

用戶現在可以在 GitHub 代碼倉庫中訪問 BSChecker,也可以通過 pip 進行安裝。使用方式可參閱 README 中的 Quick Start 部分。其中包含如何使用 BSChecker 提取知識三元組、在三元組級別檢測幻覺以及評估自定義大模型的詳細說明。此外,用戶可以將自定義的評估結果添加到自動評估排行榜中,與其他結果進行比較。

合作邀請:共同推動 BSChecker 的發展

作者相信,細粒度的檢測和準確定位幻覺是有效緩解幻覺的第一步。BSChecker 仍有很大的改進空間,他們熱情地邀請大家參與開源貢獻。以下是一些可能的方向:

  • 開源聲明抽取器和幻覺檢測器:目前,性能最好的配置使用了閉源的商業大模型,作者在當前版本中也包含了一個基于自然語言推理的幻覺檢測器,盡管速度更快,但在處理長文檔時仍存在較大的性能差距。
  • 錯誤記憶追溯:對于無上下文場景,使用搜索引擎查找最新的參考文獻是一種非常簡略的解決方案。但理想情況下,我們應該回到大模型的訓練數據,去追溯有問題的記憶。
  • 三元組抽取的優化:三元組是簡潔的,但在處理更復雜的語義時存在困難。它們也是對文本的一個采樣,因此不能涵蓋文本中的全部語義,也不善于處理上下文中的細微差別。
  • 幻覺檢測證據的定位:將三元組映射回文本可能并不容易,例如在處理多步推理時存在挑戰。
  • 對齊人工評估結果:在復雜環境中,特別是在復雜上下文中縮小檢測器和人工評估者之間的差距。
  • 擴展任務覆蓋:大模型在許多不同的任務和場景中被使用。由于資源限制,本研究在某些領域的覆蓋范圍較小。例如,在當前的基準測試集中,僅有 6 個示例涵蓋了摘要任務。
  • 平衡真實性與有益性:BSChecker 目前僅評估幻覺的數量,這可以通過生成真實但無益的文本來操縱評估結果,正如作者觀察到的一些大模型的表現那樣。因此,對于 BSChecker 來說,引入一個關于有益性的評估標準可能很重要。

作者表示,如果有任何反饋,可以隨時通過 GitHub issues 聯系他們。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-05 09:14:14

2025-10-03 08:34:14

2025-06-27 08:40:00

模型推理AI

2025-05-08 06:00:00

AI幻覺AI人工智能

2024-12-31 08:20:00

暹羅網絡機器學習神經網絡

2025-03-19 08:43:17

檢索增強生成RAG大型語言模型

2024-06-17 14:07:41

2024-01-02 13:19:00

AI模型

2024-01-04 16:41:29

大型語言模型自然語言處理

2023-05-24 15:15:55

2025-06-13 08:06:41

2023-09-27 10:23:06

人工智能語言模型

2025-02-28 08:20:00

2025-11-10 09:00:00

AI大模型幻覺

2023-11-18 09:30:42

模型AI

2023-10-30 11:37:12

2025-09-08 09:43:02

OpenAI大模型幻覺

2025-06-13 01:33:00

2023-10-10 12:47:07

谷歌論文

2025-09-09 09:01:00

點贊
收藏

51CTO技術棧公眾號

国产亚洲欧美日韩美女| 五月天激情小说综合| 国产一区二区在线免费| 91视频免费在线看| 加勒比中文字幕精品| 五月综合激情网| 亚洲国产欧美日韩| 亚洲精品综合久久| 日本中文在线一区| 性色av一区二区三区红粉影视| 欧美激情 一区| 成人高潮a毛片免费观看网站| 色妞www精品视频| 日本美女爱爱视频| a黄色在线观看| 国产精品888| 日韩av黄色在线观看| 永久看片925tv| 欧美伦理影院| 亚洲精品美女网站| 国产成人强伦免费视频网站| 日韩成人影音| 亚洲成人动漫精品| 手机在线视频你懂的| 精品视频三区| 99国产精品久| 亚洲自拍偷拍在线| 小泽玛利亚一区二区三区视频| 亚洲日本黄色| 欧美激情xxxx性bbbb| 亚洲欧美日韩第一页| 亚洲免费福利一区| 精品国产亚洲在线| 五月天六月丁香| 日韩国产一二三区| 欧美制服丝袜第一页| 欧美牲交a欧美牲交| 久久不射影院| 亚洲精品日韩专区silk | 黄色网一区二区| 91精品国产全国免费观看| 好男人www社区| 色在线免费观看| 亚洲成人av福利| www.好吊操| 色呦呦在线看| 亚洲欧美日韩中文播放| 亚洲色图自拍| 91社区在线观看播放| 久久久久成人黄色影片| 麻豆91av| 青梅竹马是消防员在线| 久久蜜桃av一区二区天堂| 久久波多野结衣| 黄色av一区二区三区| 高清成人免费视频| 国产精品日韩欧美一区二区三区| 可以免费观看的毛片| 成人a免费在线看| 国产一区二区三区色淫影院| 午夜视频1000| 国产亚洲综合色| 五月婷婷一区| 国内精品久久久久久野外| 日韩毛片视频在线看| 欧美日韩午夜爽爽| h片在线观看视频免费免费| 婷婷久久综合九色国产成人| 69堂免费视频| 韩国女主播一区二区| 欧美午夜理伦三级在线观看| 97超碰人人爽| 亚洲va欧美va人人爽成人影院| 精品久久五月天| 亚洲av无码一区二区三区观看 | 精品国产三级a在线观看| 精人妻一区二区三区| 老牛国内精品亚洲成av人片| 亚洲免费精彩视频| 亚洲欧洲综合网| 欧美日韩一区二区高清| 97香蕉超级碰碰久久免费软件 | 成人在线观看av| 亚洲色图 校园春色| 国产日产亚洲精品系列| 妞干网这里只有精品| 男女免费观看在线爽爽爽视频| 午夜精品福利久久久| 国产又黄又猛视频| 免费精品一区| 日韩精品高清在线观看| 91ts人妖另类精品系列| 激情久久久久| 国产精品一区二区三区在线播放| 国产成人精品免费看视频| 2021国产精品久久精品| 亚洲精品影院| 草草在线视频| 51午夜精品国产| 狠狠人妻久久久久久综合蜜桃| 久久国产精品成人免费观看的软件| 久久福利视频网| 老熟妇仑乱一区二区av| 激情成人午夜视频| 欧洲一区二区日韩在线视频观看免费 | 黄色在线视频网址| 国产盗摄女厕一区二区三区| 日韩三级在线播放| 极品在线视频| 日韩天堂在线观看| 亚洲色图 激情小说| 精久久久久久| 91精品中国老女人| 久草视频视频在线播放| 香港成人在线视频| 日本在线视频播放| 色喇叭免费久久综合| 欧美中文字幕在线观看| 亚洲高清精品视频| 国产精品久久毛片av大全日韩| 99精品在线免费视频| 中文字幕久久精品一区二区| y97精品国产97久久久久久| 亚洲 欧美 成人| 成人av电影在线网| 欧洲精品视频在线| 欧洲亚洲精品久久久久| 亚洲人成绝费网站色www| 久久一二三四区| 国产一区不卡视频| 在线观看欧美亚洲| www成人在线视频| 亚洲欧美在线第一页| 日本熟妇乱子伦xxxx| 国产精品一区二区视频| 最新黄色av网站| 亚洲成人精品综合在线| 日韩视频在线免费观看| 中文字幕观看视频| 中文字幕欧美激情一区| 国产精品igao| 欧美日韩伦理| 欧洲成人午夜免费大片| 网站黄在线观看| 精品久久久久久久久久国产| 中文字幕第3页| 亚洲看片免费| 久久99精品久久久久久秒播放器 | 欧产日产国产精品98| 在线看片成人| 国产综合18久久久久久| 欧美裸体视频| 亚洲欧美日韩中文视频| 国产嫩bbwbbw高潮| 国产日产欧美一区| 69久久久久久| 图片区亚洲欧美小说区| 91九色单男在线观看| 国产精品刘玥久久一区| 日韩一级二级三级| 国产对白videos麻豆高潮| 成人av在线资源网| 粗暴91大变态调教| 999精品色在线播放| 亚洲在线一区二区| av电影在线免费| 亚洲精品理论电影| 日韩欧美国产另类| 中文字幕一区二区视频| 91精品国产高清91久久久久久 | aaa毛片在线观看| 国产一区二区三区91| 国产日韩欧美一二三区| 欧美24videosex性欧美| 亚洲国产精品资源| 波多野结衣高清视频| 亚洲色欲色欲www| 在线观看一区二区三区四区| 先锋亚洲精品| 欧美日韩视频免费在线观看| 国产精品流白浆在线观看| 日本免费久久高清视频| 麻豆网站在线| 亚洲高清不卡av| 波多野结衣小视频| 亚洲激情图片小说视频| 久久亚洲AV成人无码国产野外| 欧美96一区二区免费视频| 777久久精品一区二区三区无码| 老牛影视av一区二区在线观看| 国产精品夫妻激情| 欧美aaaaaaa| 中文字幕日韩av电影| 精品人妻av一区二区三区| 日韩欧美在线视频| 2018天天弄| 国产欧美日韩综合精品一区二区| 97免费公开视频| 日韩福利电影在线观看| 国产aaa免费视频| 99视频精品全部免费在线视频| 国产伦精品一区二区三区照片| www.一区| 91sao在线观看国产| 老司机精品视频在线观看6| 日韩精品中文字幕视频在线| 国产情侣一区二区| 91国偷自产一区二区三区成为亚洲经典 | 91精品国产91久久久久久久久 | 欧洲专线二区三区| 444亚洲人体| 欧美91在线|欧美| 8090成年在线看片午夜| 主播国产精品| 神马久久桃色视频| 邻居大乳一区二区三区| 亚洲国产精品小视频| 精品女同一区二区三区| 在线不卡的av| 国产91av在线播放| 在线观看亚洲a| 中文字幕视频网| 亚洲成a人片综合在线| 色欲一区二区三区精品a片| 国产午夜亚洲精品午夜鲁丝片| 五月开心播播网| 成人av在线资源| 久久无码专区国产精品s| 国产一区二区三区四区在线观看| 最近中文字幕一区二区| 久久一日本道色综合久久| 日本在线xxx| 影音先锋亚洲精品| 欧美黄网在线观看| 91成人国产| 国产免费xxx| 综合久久一区| 日韩中文字幕亚洲精品欧美| 欧美一区不卡| japanese在线播放| 欧美成人有码| 欧美视频在线第一页| 国产一区日韩欧美| 成人免费网站入口| 精品成人国产| 国产毛片久久久久久国产毛片| 国产一区欧美| 激情伊人五月天| 在线一区视频| 久久久久免费精品| 日本不卡中文字幕| 亚洲男人天堂av在线| 狠狠色丁香婷婷综合| 肉色超薄丝袜脚交| 国产乱码精品一区二区三| 91福利视频免费观看| 国产成人免费高清| 中文字幕人妻一区二区三区| 91毛片在线观看| 黄色片网站免费| 成人免费一区二区三区在线观看| 免费看特级毛片| 亚洲一区中文日韩| 三级黄色在线视频| 91久久精品国产91性色tv | 天堂av在线网| 日本免费在线精品| 日本午夜精品久久久久| 91天堂在线观看| 成人爽a毛片免费啪啪红桃视频| 精品乱子伦一区二区三区| 国产99久久| 亚洲精品偷拍视频| 亚洲久久一区二区| 一区二区三区视频网| 国产精品一区专区| 国产精品第七页| 国产精品久久久久aaaa樱花| 精品视频一区二区在线观看| 一本色道久久综合亚洲91| 97超碰人人草| 亚洲精品动漫100p| 日本福利专区在线观看| 国内精品模特av私拍在线观看| 久久电影tv| 亚洲一区国产精品| 综合伊思人在钱三区| 自拍视频一区二区三区| 亚洲第一黄网| 久热精品在线播放| 成人免费高清视频在线观看| 日韩一区二区a片免费观看| 亚洲黄色小视频| 国产成人a v| 亚洲高清久久网| 美女免费久久| 欧洲日韩成人av| 一区二区三区亚洲变态调教大结局 | 91久久在线视频| 中文有码一区| 日本福利视频在线观看| 日本成人中文字幕| 国产老熟女伦老熟妇露脸| 亚洲日本一区二区三区| 中文字幕日韩免费| 欧美tk丨vk视频| 在线看av的网址| 欧美一区视频在线| 成人在线超碰| 亚洲一区三区电影在线观看| 亚洲综合不卡| 久久久无码人妻精品无码| 136国产福利精品导航| 欧美brazzers| 日韩av在线一区| 大香伊人久久| 亚洲影院色无极综合| 日韩欧美视频在线播放| 国产亚洲欧美在线视频| 成人性生交大片免费看中文| 免费精品在线视频| 欧美性猛交xxxxxx富婆| 欧美婷婷久久五月精品三区| 午夜精品一区二区三区在线| 亚洲日本视频在线| 三级网在线观看| 精品一区二区三区免费播放| 人妻av无码一区二区三区| 欧美日韩国产区| 秋霞网一区二区| 久久久久久美女| 成人性生交大片免费看中文视频| 男女裸体影院高潮| 国产在线一区观看| 久久99久久99精品免费看小说| 欧美主播一区二区三区美女| 国产h在线观看| 日韩av免费在线| 国产一区二区电影在线观看| 免费男同深夜夜行网站| 国产三级一区二区| 香蕉污视频在线观看| 一道本无吗dⅴd在线播放一区 | 亚洲在线一区二区| 欧美女激情福利| 日韩无码精品一区二区| 亚洲成av人片在线观看| 日韩一卡二卡在线| 9.1国产丝袜在线观看| 亚洲人成网www| 国产 porn| 国产精品电影一区二区| 国产又黄又粗又长| 欧美另类极品videosbest最新版本| 影音先锋欧美激情| 成人午夜精品久久久久久久蜜臀| 成人午夜碰碰视频| 久久精品视频1| 在线观看久久av| 国产在线一区不卡| 很污的网站在线观看| 91视频免费观看| 自拍偷拍校园春色| 久久精品电影网站| 视频一区中文字幕精品| 日本a视频在线观看| 国产午夜精品一区二区三区嫩草 | 国产制服91一区二区三区制服| 国产 欧美在线| 中文字幕精品无码一区二区| 在线观看欧美视频| 一区二区三区四区视频免费观看| 五十路熟女丰满大屁股| 国产日韩影视精品| 精品久久人妻av中文字幕| 国内精品久久久久影院 日本资源| 你微笑时很美电视剧整集高清不卡| 国产精品视频分类| 一区二区三区久久| 深夜福利在线看| 91精品美女在线| 日韩一区二区免费看| 性少妇xx生活| 亚洲国产精品久久久久久| www成人在线视频| 精品成在人线av无码免费看| 国产日产精品一区| 成人激情四射网| 国产99久久精品一区二区 夜夜躁日日躁| 久久精品国产www456c0m| 在线观看免费视频黄| 欧美亚洲禁片免费| 久久大胆人体| 中文字幕不卡每日更新1区2区| 成人av资源网站| 国产精品无码久久久久成人app| 51色欧美片视频在线观看| 伊人久久大香线| 中文字幕第20页| 欧美精品一区二区三区很污很色的 |