精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

語義熵識破LLM幻覺!牛津大學新研究登Nature

人工智能
近日,來自牛津大學的研究人員推出了利用語義熵來檢測LLM幻覺的新方法。作為克服混淆的策略,語義熵建立在不確定性估計的概率工具之上,可以直接應用于基礎模型,無需對架構進行任何修改。

時至今日,大語言模型胡編亂造的情況仍屢見不鮮。

不知大家面對LLM的一本正經胡說八道,是輕皺眉頭,還是一笑而過?

俗話說,大風起兮云飛揚,安得猛士兮走四方。LLM幻覺任何時候都要除掉,不除不行。

試想,當你搜索一個簡單語法時,網頁上排名前幾的都是由大模型生成的錯誤答案,測過之后才發覺浪費了生命。

如果LLM涉及了醫學、法律等專業領域,幻覺將造成嚴重的后果,所以相關的研究也從未停止。

近日,來自牛津大學的研究人員在Nature上發表了利用語義熵來檢測LLM幻覺的新方法。

圖片圖片

論文地址:https://www.nature.com/articles/s41586-024-07421-0

牛津大學計算機科學家Sebastian Farquhar等人,通過設計基于LLM確定的語義熵(相似性),來度量大模型答案中語義層面的不確定性。

做法是讓第一個LLM針對同一問題多次產生答案,并由第二個LLM(裁判)來分析這些答案的語義相似性。

同時,為了驗證以上判斷的準確性,再啟用第三個LLM,同時接收人類的答案和第二個LLM的評判結果進行比較,做到了無監督,但有理有據。

圖片圖片

整個過程簡單來說就是:如果我想檢查你是否在胡編亂造,我就會反復問你同一個問題。如果你每次給出的答案都不一樣......那就不對勁了。

實驗結果表明,本文采用的語義熵方案優于所有基線方法:

圖片圖片

在Nature的一篇評論文章中,皇家墨爾本理工大學計算機技術學院院長Karin Verspoor教授表示,這是一種「Fighting fire with fire」的方法:

「結果表明,與這些簇相關的不確定性(語義熵)比標準的基于單詞的熵更能有效地估計第一個LLM的不確定性。這意味著即使第二個LLM的語義等價計算并不完美,但它仍然有幫助。」

不過Karin Verspoor也指出,用一個LLM來評估一種基于LLM的方法似乎是在循環論證,而且可能有偏差。

「但另一方面,我們確實能從中受到很多啟發,這將有助于其他相關問題的研究,包括學術誠信和抄襲,使用LLM創建誤導或捏造的內容」。

Fighting fire with fire

LLM的幻覺通常被定義為生成「無意義或不忠實于所提供的源內容的內容」,本文關注幻覺的一個子集——「虛構」,即答案對不相關的內容很敏感(比如隨機種子)。

檢測虛構可以讓基于LLM構建的系統,避免回答可能導致虛構的問題,讓用戶意識到問題答案的不可靠性,或者通過更有根據的搜索,來補充或恢復LLM給出的回答。

語義熵和混淆檢測

為了檢測虛構,研究人員使用概率工具,來定義并測量LLM所產生內容的語義熵——根據句子含義計算的熵。

因為對于語言來說,盡管表達方式不同(語法或詞匯上不同),但答案可能意味著相同的事情(語義上等效)。

而語義熵傾向于估計自由形式答案的含義分布,而不是單詞或單詞片段的分布,符合實際情況,同時也可以看作是隨機種子變異的一種語義一致性檢查。

如下圖所示,一般的不確定性衡量方法會將「巴黎」、「這是巴黎」和「法國首都巴黎」視為不同的回答,這并不適合語言任務。

圖片圖片

而本文的方法可以讓答案在計算熵之前根據含義進行聚類。

另外,語義熵還可以檢測較長段落中的混淆。如下圖所示,將生成的長答案分解為事實陳述。

對于每個事實陳述,LLM會生成對應的問題。然后另一個LLM對這些問題給出M個可能的答案。

圖片圖片

最后,計算每個特定問題答案的語義熵(包括原始事實),與該事實相關的問題的平均語義熵較高表明為虛構。

直觀上,本文方法的工作原理是對每個問題的幾個可能答案進行采樣,并通過算法將它們聚類為具有相似含義的答案,然后根據同一聚類(簇)中的答案是否雙向相互關聯來確定答案。

——如果句子A的含義包含句子B(或者相反),那么我們認為它們位于同一語義簇中。

研究人員使用通用LLM和專門開發的自然語言推理 (NLI) 工具來測量語義關聯性 。

實驗評估

語義熵可以檢測跨一系列語言模型和領域的自由格式文本生成中的混淆,而無需先前的領域知識。

本文的實驗評估涵蓋了問答知識(TriviaQA)、常識(SQuAD 1.1 )、生命科學(BioASQ)和開放知識域自然問題 (NQ-Open)。

還包括檢測數學文字問題 (SVAMP) 和傳記生成數據集 (FactualBio)中的混淆。

TriviaQA、SQuAD、BioASQ、NQ-Open和SVAMP均在上下文無關的情況下進行評估,句子長度96±70個字符,模型使用LLaMA 2 Chat(7B、13B和70B)、Falcon Instruct(7B和40B)以及Mistral Instruct(7B)。

實驗采用嵌入回歸方法作為強監督基線。

評估指標

首先,對于給定答案不正確的二元事件,使用AUROC來同時捕獲精確度和召回率,范圍從0到1,其中1代表完美的分類器,0.5代表無信息的分類器。

第二個衡量標準是拒絕精度曲線下的面積 (AURAC),AURAC表示如果使用語義熵來過濾掉導致最高熵的問題,用戶將體驗到的準確性改進。

圖片

上圖結果是五個數據集的平均值,表明語義熵及其離散近似都優于句子長度生成的最佳基線。

其中AUROC衡量方法預測LLM錯誤的程度(與虛構相關),而AURAC衡量拒絕回答被認為可能導致混淆的問題,所帶來的系統性能改進。

對實驗中的30種任務和模型組合進行平均,語義熵達到了0.790的最佳AUROC值,而樸素熵為0.691、P(True) 為0.698、嵌入回歸基線 為0.687。

在我們不同模型系列(LLaMA、Falcon和Mistral)和尺度(從7B到70B參數)中,語義熵具有穩定的性能(AUROC在0.78到0.81之間)。

圖片圖片

上表給出了TriviaQA、SQuAD和BioASQ在LLaMA 2 Chat 70B上測試的問題和答案示例。

我們可以從中發現語義熵如何檢測含義不變但形式變化的情況(表的第一行),

當形式和含義一起變化時(第二行),熵和樸素熵都正確預測了虛構的存在;

當形式和含義在幾個重新采樣的代中都保持不變時,熵和樸素熵都正確預測了虛構的不存在(第三行)。

而最后一行的示例顯示了上下文和判斷在聚類中的重要性,以及根據固定參考答案進行評估的缺點。

圖片

上圖展示了語義熵的離散變體有效地檢測了FactualBio數據集上的虛構。

離散語義熵的AUROC和AURAC高于簡單的自檢基線(僅詢問LLM事實是否可能為真)或P(True) 的變體,具有更好的拒絕準確性性能。

結論

語義熵在檢測錯誤方面的成功表明:LLM更擅長「知道他們不知道什么」,——他們只是不知道他們知道他們不知道什么(狗頭)。

語義熵作為克服混淆的策略建立在不確定性估計的概率工具的基礎上。它可以直接應用于任何LLM或類似的基礎模型,無需對架構進行任何修改。即使當模型的預測概率不可訪問時,語義不確定性的離散變體也可以應用。

參考資料:

https://www.science.org/content/article/is-your-ai-hallucinating-new-approach-can-tell-when-chatbots-make-things-up

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-01-13 13:00:00

AI模型訓練

2018-10-10 13:57:32

區塊鏈技術智能

2023-09-08 16:37:54

AI數據

2025-10-22 02:00:00

AI全球大裁員AI就業影響

2024-11-25 15:00:00

模型智能體

2024-06-11 07:45:00

2024-11-29 14:10:00

神經網絡AI

2021-03-23 13:49:21

人工智能機器學習

2022-09-30 11:55:36

AI算力

2022-04-11 11:37:13

AI研究NLP

2024-06-05 19:45:08

2025-02-10 13:40:00

2022-02-10 15:15:41

人工智能強化學習谷歌

2022-10-13 16:01:38

技術大腦

2025-10-11 18:05:23

智能論文AI

2021-10-13 17:28:33

AI 數據人工智能

2019-09-20 09:57:21

微軟開源Windows

2025-05-15 09:10:00

2025-05-13 15:10:50

AI用戶模型

2025-08-14 12:03:50

點贊
收藏

51CTO技術棧公眾號

日本熟妇毛茸茸丰满| 亚洲av午夜精品一区二区三区| 欧洲天堂在线观看| 麻豆91精品视频| 九九热99久久久国产盗摄| 午夜视频在线观看国产| 国产欧美日韩另类| 国产毛片毛片毛片毛片| 国色天香一区二区| 亚洲欧美日韩高清| 伊人成人免费视频| 亚洲风情在线资源| 亚洲男同1069视频| 欧美日韩高清免费| 超碰在线播放97| 裸体一区二区| 九九热精品在线| 国产交换配乱淫视频免费| 成人在线视频国产| 欧美午夜激情小视频| 正在播放一区二区三区| 午夜视频福利在线观看| 激情都市一区二区| 国产成人中文字幕| 国产在线视频二区| 国产精品7m凸凹视频分类| 日韩电影免费观看在线观看| 久久久久xxxx| 三上悠亚国产精品一区二区三区| 有坂深雪av一区二区精品| 少妇免费毛片久久久久久久久| 欧美视频久久久| 国内国产精品久久| 国产精品一区二区三区毛片淫片 | 亚洲高清999| 欧美无砖专区一中文字| 午夜肉伦伦影院| 国产精品高颜值在线观看| 中文字幕一区免费在线观看| 欧美一区二区三区成人久久片| 日日夜夜精品免费| 高清免费成人av| 91久久精品国产91久久性色tv| 久久午夜鲁丝片| 天堂成人国产精品一区| 欧洲日韩成人av| 中文在线第一页| 亚洲在线观看| 日本精品免费一区二区三区| 久久草视频在线| 99香蕉国产精品偷在线观看| 欧美激情精品久久久久久大尺度| 日韩a级片在线观看| 婷婷亚洲五月色综合| 最近的2019中文字幕免费一页| 久久精品视频18| 国产精品美女久久久久久不卡 | 色综合天天在线| 97超碰青青草| 在线天堂资源| 色噜噜狠狠色综合中国| 成人久久久久久久久| 亚洲一区站长工具| 色悠悠亚洲一区二区| 超碰网在线观看| 日韩高清不卡| 欧美情侣在线播放| 精品亚洲一区二区三区| 免费人成在线观看视频播放| 亚洲国产精品精华素| 亚洲制服丝袜一区| 国产精品久久中文字幕| 欧美13videosex性极品| 狠狠躁夜夜躁久久躁别揉| 久久久久久久久久久久久国产精品 | 777久久精品一区二区三区无码| 成人在线app| 一区二区成人在线观看| 男女激情免费视频| 伊人久久视频| 欧美日韩精品一二三区| 伊人免费视频二| 99re8这里有精品热视频免费| 精品日本一线二线三线不卡| 污片免费在线观看| 成人嫩草影院| 欧美日本国产在线| 精品成人久久久| 日本视频一区二区| 5566中文字幕一区二区| 亚洲av电影一区| 国产精品伦理在线| 免费看欧美黑人毛片| 香蕉久久免费电影| 日韩欧美亚洲一区二区| 在线免费观看成年人视频| 久久福利影院| 91精品国产色综合| 在线观看国产精品视频| 成人毛片视频在线观看| 色之综合天天综合色天天棕色 | 高清电影在线免费观看| 亚洲男同性视频| 成人一级片网站| 日韩中文字幕无砖| 国产亚洲福利一区| 国产在线观看你懂的| 日本不卡一二三区黄网| 粉嫩高清一区二区三区精品视频 | 日韩一区视频在线| 三级黄色在线视频| 国产精品一区二区在线观看不卡 | 色婷婷av一区二区三区软件 | 久久精品亚洲精品国产欧美 | 8x8ⅹ拨牐拨牐拨牐在线观看| 欧美性视频一区二区三区| 岛国大片在线免费观看| 成人久久综合| 热久久99这里有精品| 午夜久久久久久噜噜噜噜| 欧美国产激情一区二区三区蜜月| 国产一级爱c视频| 国产日韩欧美中文在线| 中文字幕日韩欧美在线视频| 日韩黄色a级片| 国产精品亚洲成人| 宅男av一区二区三区| 日韩精品影片| 日韩乱码在线视频| 日韩免费不卡视频| 国产成人亚洲综合a∨猫咪| 欧洲亚洲一区| 暖暖成人免费视频| 亚洲国产成人久久综合一区| 婷婷伊人五月天| 激情国产一区二区| gogogo免费高清日本写真| 久久野战av| 一区二区三区精品99久久| 国产成人自拍视频在线| 成人短视频下载| www插插插无码免费视频网站| 激情视频亚洲| 久久久成人的性感天堂| 国产一区二区三区视频免费观看| 国产精品视频一二三区| 无码人妻精品一区二区三区66| 性人久久久久| 庆余年2免费日韩剧观看大牛| 青草久久伊人| 欧美综合一区二区| 国产亚洲精品精品精品| 免费观看成人av| 一本一本a久久| 亚洲午夜国产成人| 久久久精品在线观看| av网站免费播放| 亚洲永久免费av| 艳妇乳肉豪妇荡乳xxx| 99国产精品视频免费观看一公开 | 天天综合天天综合色| 国产不卡一二三| 香蕉久久国产| 欧美日韩一区 二区 三区 久久精品| 91gao视频| 亚洲欧美成人影院| 精品av久久707| 国产无遮挡呻吟娇喘视频| 91香蕉视频污| 玩弄japan白嫩少妇hd| 欧美熟乱15p| 91久久在线播放| 啪啪免费视频一区| 亚洲精品一区二区三区99| 免费在线不卡视频| 国产区在线观看成人精品| 亚洲欧美视频二区| 欧美黄色aaaa| 欧美h视频在线| 91精品麻豆| 97在线看福利| 国产高清在线| 日韩一区二区三区四区| 日韩欧美中文字幕一区二区| 久久综合九色综合欧美就去吻| 日本新janpanese乱熟| 亚洲中无吗在线| 精品午夜一区二区| 91九色综合| 久久久久久久久久久免费 | 国产精品午夜在线| 潘金莲一级淫片aaaaa| 亚洲影视在线| japanese在线视频| 网红女主播少妇精品视频| 国产精品三级在线| 香蕉成人app免费看片| 亚洲女成人图区| www.天堂在线| 欧美日韩综合一区| 国产精品50页| 国产精品久久久久天堂| 国产激情视频网站| 国产资源精品在线观看| 成人在线看视频| 伊人久久成人| 亚洲成年人专区| 国产精品手机在线播放| 国产高清一区二区三区| 国产亚洲欧美日韩精品一区二区三区| 欧美激情亚洲国产| 日本在线人成| 亚洲视频综合网| 色一情一乱一区二区三区| 欧美精品日韩一本| 中文字幕在线天堂| 狠狠色噜噜狠狠狠狠97| 免费人成视频在线| 综合色天天鬼久久鬼色| 91成人在线免费视频| av在线综合网| 深夜视频在线观看| 韩国精品一区二区| 久久这里只精品| 日韩av不卡一区二区| 国产免费一区二区三区视频| 亚洲日本激情| 妺妺窝人体色www看人体| 国产美女永久免费| 久久精品国产99国产精品| 久久美女福利视频| 国产日韩亚洲欧美精品| 国产免费一区二区视频| 欧美激情第8页| 日韩精品第1页| 亚洲电影影音先锋| 五月天男人天堂| 天天av综合| 在线观看成人av电影| 成人综合专区| 亚洲乱码国产乱码精品天美传媒| 国产一区二区观看| 欧美xxxx黑人又粗又长精品| 日韩福利视频一区| 久久婷婷国产综合尤物精品| 欧美大胆视频| 久久久久久久久一区| 久久av国产紧身裤| 久久精品国产精品青草色艺| 久久精品国产亚洲5555| 精品日本一区二区三区| 老汉色老汉首页av亚洲| 久久国产精品精品国产色婷婷| 狠狠一区二区三区| 久热国产精品视频一区二区三区| 欧美美女啪啪| 欧美亚洲国产免费| 日本一本不卡| www.-级毛片线天内射视视| 欧美在线国产| 国产 日韩 欧美在线| 一本久道综合久久精品| 国产精品动漫网站| 免费观看一级特黄欧美大片| 四虎1515hh.com| 成人精品视频一区| 国产精品815.cc红桃| 亚洲国产精品99久久久久久久久| 538精品视频| 亚洲欧美福利一区二区| 国产第100页| 日本高清成人免费播放| 97超碰资源站| 亚洲第一男人av| 毛片免费在线| 久久久久999| 日韩在线伦理| 国产精品一区二区3区| 精品亚洲a∨一区二区三区18| 国产九色91| 欧美日韩国产免费观看视频| 精品久久免费观看| 夜久久久久久| www.色就是色.com| 99久久综合精品| 欧美日韩视频免费| 天天综合天天综合| 亚洲精品99久久久久| 超碰在线国产| 国产做受高潮69| 99久久久国产精品免费调教网站| 亚洲一区国产精品| 国产va免费精品观看精品视频 | 国产这里只有精品| 欧美一区 二区| 在线免费观看成人网| 一区二区动漫| 男插女视频网站| 国产婷婷色一区二区三区在线| 黑鬼狂亚洲人videos| 日韩欧中文字幕| 成 人 黄 色 片 在线播放| 亚洲欧美日本精品| 国产乱码在线| 成人国内精品久久久久一区| 天堂99x99es久久精品免费| 欧美 另类 交| 日韩精品视频网站| 黄色av网址在线观看| 亚洲丝袜制服诱惑| 天天爱天天做天天爽| 亚洲成人亚洲激情| 国产在线观看a视频| 国产精品69久久| 日本国产精品| 日本a在线免费观看| 精品一区二区三区欧美| 久久精品国产亚洲AV熟女| 亚洲中国最大av网站| 99在线精品视频免费观看软件| 亚洲人成在线观看| 在线天堂新版最新版在线8| 国产精品美女诱惑| 女人色偷偷aa久久天堂| av免费一区二区| 中文字幕免费不卡在线| 一级片视频在线观看| 亚洲国产日韩一区| bl在线肉h视频大尺度| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 欧美私模裸体表演在线观看| 性xxxx18| 91av视频在线| 日韩电影不卡一区| 香港三级韩国三级日本三级| 成人国产精品免费观看动漫| 久草资源在线视频| 日韩免费一区二区| 性欧美videos高清hd4k| 成人情视频高清免费观看电影| 欧美大片专区| 国产成人精品一区二区三区在线观看| 专区另类欧美日韩| 国产免费视频一区二区三区| www.99久久热国产日韩欧美.com| 国产福利亚洲| 久久免费看毛片| 国产精品综合在线视频| 国产大学生自拍| 欧美成人vr18sexvr| 久久免费电影| 精品一区二区视频| 久久成人亚洲| 在线看片中文字幕| 777色狠狠一区二区三区| 91精品久久久久久粉嫩| 99九九视频| 国产视频一区在线观看一区免费| 青青草视频成人| 色婷婷精品久久二区二区蜜臀av | 蜜臀91精品国产高清在线观看| 农村妇女精品一二区| 国产偷v国产偷v亚洲高清| 亚洲天堂免费av| 久久国产精品免费视频| 中文字幕一区二区三区四区久久 | 在线看的片片片免费| 日韩精品一区二区三区在线播放| 婷婷在线播放| 久久久水蜜桃| 久久国产精品99久久久久久老狼 | 日韩欧美国产黄色| av免费在线一区二区三区| 91欧美精品午夜性色福利在线| 国内自拍一区| 日本理论中文字幕| 欧美一卡二卡三卡四卡| 欧美日韩国产观看视频| 亚洲成人网上| 成人免费毛片高清视频| 一级黄色大片视频| 久久成人免费视频| 偷拍自拍一区| 亚洲男人天堂2021| 欧美日韩中文字幕日韩欧美| 9色在线视频网站| 国产精品久久亚洲| 日韩二区三区在线观看| 日本黄色片免费观看| 亚洲欧洲中文天堂| 日本一区二区三区播放| 日韩av资源在线| 亚洲欧美日韩在线不卡| 亚洲av毛片成人精品| 亚洲最大的av网站| 日韩中文字幕亚洲一区二区va在线 | 欧美激情中文网| 成人激情免费视频| 国产精品久久久免费观看| 欧美精品乱码久久久久久按摩|