精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

To Believe or Not to Believe?DeepMind新研究一眼看穿LLM幻覺

人工智能 新聞
DeepMind發表了一篇名為「To Believe or Not to Believe Your LLM」的新論文,探討了LLM的不確定性量化問題,通過「迭代提示」成功將LLM的認知不確定性和偶然不確定性解耦。研究還將新推導出的幻覺檢測算法應用于Gemini,結果表明,與基線方法相比,該方法能有效檢測幻覺。

大語言模型產生幻覺、胡說八道的問題被詬病,已經不是一天兩天了。

前有ChatGPT編造法律案件,后有谷歌搜索建議披薩放膠水。

就連號稱模型更安全、幻覺更少的Claude系列,在Reddit上也能看到不少吐槽。

圖片

LLM輸出虛假信息的問題,似乎并不能在短時間內徹底解決。

這就給很多場景下的應用帶來了巨大的障礙,尤其是法律、醫療、學術這樣比較嚴謹的知識領域。如果答案有錯,還不如不用。

那么能不能有一種方法,至少為LLM的輸出劃定一個置信區間呢?

6月5日,DeepMind發表了一篇名為「To Believe or Not to Believe Your LLM」,就開始著手解決這個問題。

如果無法強迫LLM堅持輸出真實信息,知道它什么時候在胡說八道也很重要。

圖片

論文地址:https://arxiv.org/abs/2406.02543

這篇論文由DeepMind Foundations團隊出品,帶頭人是加拿大阿爾伯塔大學教授Csaba Szepesvari,他也是這篇論文的作者之一。

圖片

論文探討了大語言模型中的不確定性量化問題,也就是說,旨在確定LLM的響應何時會出現較高的不確定性。

不確定性分為兩個范疇,一個是認知不確定性(epistemic uncertainty),另一個是偶然不確定性(aleatoric uncertainty)。

前者是指對基本事實的不了解,比如,不清楚事實或者語言不通所造成的不確定性,可能來源于訓練數據量或者模型容量不足。

后者則是一種不可約的隨機性,比如同一個問題存在多種可能的答案。

LLM的工作本質是對文本的概率分布進行建模,因此會很自然地通過統計不確定性的視角看待問題的真實性。

以前的許多工作通過啟發式的方法計算LLM回答的對數似然性,但這一般只適用于偶然不確定性較低的情況,也就是有「標準答案」的問題。

對于有多個正確答案的問題,需要將認知不確定性和偶然不確定性解耦。

因此,團隊推導出了一種信息論度量(information-theoretic metric)方法,能可靠地檢測出認知不確定性占多數的情況,這時我們就可以說,模型的輸出沒有那么可靠,Not to Believe!

這種方法根據什么來計算?

其實,可以完全基于模型的輸出來考察,只需根據之前的回答進行一些特殊的迭代prompting即可。

有了這個量化方法,無論是面對有單一答案的問題,還是有多個可能答案的問題,都可以檢測出回答中的幻覺,也就是認知不確定性很高的情況。

這和此前的不確定性量化策略相比,形成了鮮明對比,因為之前的方法都不能檢測出多答案情況下的幻覺。

DeepMind Foundations團隊進行了一系列實驗,證明了他們方法的優勢。

此外,研究還揭示了如何通過迭代prompting放大LLM指定給定輸出的概率,這可能會引起人們的興趣。

方法概述

首先,我們需要形成這樣一個共識:

如果從基本事實(語言)中獲得對同一查詢的多個回復,那么它們應該是相互獨立的。

也就是說,在概率論解釋中,對于一個固定的查詢,這些多個回復的聯合分布必須是一個乘積分布。

基于這一點,我們就可以將其用于衡量LLM的輸出與基本事實之間的距離。

由語言模型實現的序列模型允許我們構建多個響應的聯合分布,基于LLM先前的響應和概率鏈規則,對LLM進行迭代prompting。

具體來說,先給定查詢要求模型提供一個響應,然后將查詢和相應輸入給LLM,要求提供另一個響應,然后給定查詢和前兩個響應提供第三個響應,依此類推。

關鍵思路是,在對LLM進行迭代prompting的過程中,激發模型重復潛在回答,可以觀察到不同的行為模式,反映不同程度的認知不確定性。。

如果模型對某個查詢的認知不確定性較低,那么在prompting中重復一個不正確的回答不會顯著增加其概率。

但是,如果認知不確定性較高,重復一個不正確的回答就會大大增加其概率。

下面是這一過程的prompt模板:

圖片

不斷誘導LLM

下面的例子可以更好地解釋這一過程——

給定問題:「英國的首都是什么?」通過在提示中重復錯誤答案(如巴黎),正確答案倫敦仍然保持很高的概率。

這意味著該模型的答案是確定的,它的認知不確定性較低。

相反,如果答案的概率發生了變化,那么模型就具有高度的認識不確定性。

圖片

如上圖最左邊的示例所示,當我們將錯誤回答的重復次數增加到100次的時候,正確回答「倫敦 」的條件歸一化概率從100%下降到大約 96%。

在這些示例中,最初對查詢的回答的認識不確定性較低,即使在錯誤信息重復出現的情況下,正確回答的概率仍然很大。

可是當面對更有挑戰性的問題時,模型就不那么容易「堅持己見 」了。

比如,問LLM「愛爾蘭的民族樂器是什么?」,它回答「豎琴」和 「尤利安管  」的概率都很大(第一個答案是正確答案)。

這一次,通過多次在提示中加入錯誤的回答,正確答案的概率迅速下降到接近于零。

圖片

認知不確定性度量

在對LLM進行完上述觀察,研究者推導出了一種信息論度量方法。

通過測量模型的輸出分布對重復添加以前的(可能不正確的)提示回答的敏感程度,來量化認知不確定性。

更確切地說,如果LLM對之前的回復不敏感,模型就有了所需的獨立性,并且LLM得出的聯合分布可以任意接近基本事實。

如果正相反,上下文中的響應嚴重影響了模型的新響應,那么直觀地說,LLM對其參數中存儲的知識的置信度很低,因此LLM派生的聯合分布不可能接近基本事實。

這一觀察結果可用于區分高不確定性的兩種情況:一種是偶然不確定性高,另一種是認知不確定性高。

最后,利用這一指標,論文介紹了一種基于互信息分數的幻覺檢測算法M.I.。

通過應用鏈式規則,他們定義了多個響應的「偽聯合分布 」,同時將之前的響應納入提示。

這種偽聯合分布的互信息可作為認知不確定性的下限。互信息的估計值可用作得分,表示LLM對給定查詢產生幻覺的信念強度。

結果

論文在開放域問答基準上讓Gemini 1.0 Pro進行閉卷回答,對這種基于互信息(MI)的方法進行了評估,包括TriviaQA、AmbigQA以及基于WordNet創建的一個多標簽數據集。

實驗中共使用了3種基線方法作為對比:T0表示貪婪方法選擇的LLM回答,S.E.表示使用2023年提出的「語義熵」方法(semantic-entropy)選擇的前10個回答,S.V.表示2022年提出的「自我驗證」方法(self-verification)的一個版本。

對LLM的回答主要使用兩個方面衡量,一是準確率,二是召回率。

準確率表示查詢中正確決策的百分比,召回率則表示沒有棄權的查詢的百分比。

結果表明,與基線方法相比,該方法能有效檢測幻覺(認識不確定性較高的輸出),尤其是在處理包含單標簽和多標簽查詢的數據集時。

在TriviaQA和AmbigQA數據集上,論文提出的M.I.方法與S.E.方法基本表現相當,但明顯優于T0和S.V.。

而后兩個數據集包含大量的高熵、多標簽查詢,此時M.I.方法明顯優于S.E.方法。

圖片

將LLM輸出回答的熵進行分區后,分別查看兩種方法的召回率和錯誤率,可以更直觀地看到M.I.方法在高熵查詢中的優越性能,不僅很少犯錯誤,而且召回值更高。

圖片

這篇論文相對于考慮LLM整體不確定性的一階方法,將認知不確定性和任意不確定性分開考量,從而確定了LLM認知不確定性的可證明的下界。

此外,在認知不確定性視角下提出的基于互信息的棄權方法,能讓LLM在混合單標簽/多標簽查詢任務上取得更好的表現。

責任編輯:張燕妮 來源: 新智元
相關推薦

2020-05-21 12:59:51

邊緣存儲存儲物聯網

2018-04-26 10:38:34

2020-07-08 13:26:47

Python

2023-10-06 13:35:11

AI數據

2025-11-06 09:02:00

2024-04-09 15:16:58

AI論文

2015-08-21 13:10:14

APM數據

2015-08-19 14:01:14

APM

2025-03-20 10:03:44

2024-09-18 10:40:00

AI生成

2024-07-10 13:20:45

2017-08-01 15:55:14

互聯網

2023-06-07 07:21:28

USB接口版本

2018-01-11 15:15:13

2010-07-23 10:47:52

病毒

2023-05-08 12:43:14

2022-08-22 15:47:48

谷歌模型

2019-06-10 08:04:26

分布式鎖JVM服務器

2025-11-17 08:59:00

AI數據模型

2022-04-29 15:51:16

模型自然語言人工智能
點贊
收藏

51CTO技術棧公眾號

一道在线中文一区二区三区| 久草视频视频在线播放| 婷婷综合成人| 亚洲国产成人av好男人在线观看| 91精品国产自产在线老师啪| 日本爱爱小视频| 亚洲免费看片| 亚洲精品日日夜夜| 9a蜜桃久久久久久免费| 国产亚洲精品成人| 老司机在线精品视频| 精品国产福利视频| 蜜桃av噜噜一区二区三| 欧美a视频在线观看| 国产欧美高清视频在线| 欧美在线你懂得| 亚洲成人a**址| 一区二区日韩视频| 亚洲欧美文学| 精品处破学生在线二十三| 成人免费在线网| 头脑特工队2免费完整版在线观看| 男女精品网站| 少妇av一区二区三区| xxx中文字幕| 菠萝菠萝蜜在线观看| 成人免费高清在线观看| 欧洲精品久久久| 欧美另类69xxxx| 青草综合视频| 亚洲愉拍自拍另类高清精品| 久久精品ww人人做人人爽| 青青草视频在线观看免费| 天天操综合网| 亚洲国产精品yw在线观看| 亚洲精品乱码久久久久久自慰| 色综合久久影院| 成人精品国产一区二区4080| 国产99久久精品一区二区永久免费| 亚洲女人久久久| 久久人人爽人人爽人人片av不| 欧美综合亚洲图片综合区| 男女激烈动态图| 深夜福利在线视频| 国产一区二区美女| 欧美在线一区二区视频| 久久国产精品国语对白| 国产九一精品| 日韩一级在线观看| 久草在在线视频| 黑人精品视频| 中文字幕日韩av资源站| 欧美福利精品| 亚洲男人天堂久久| 麻豆国产精品官网| 欧美伊久线香蕉线新在线| 一级片久久久久| 欧美电影在线观看免费| 日韩三级精品电影久久久| 免费看a级黄色片| 爱草tv视频在线观看992| 国产精品久久久一区麻豆最新章节| 国内成+人亚洲| 国产三级视频在线播放| 日本特黄久久久高潮| 久久欧美在线电影| 懂色av懂色av粉嫩av| 清纯唯美亚洲综合一区| 亚洲欧美日韩精品久久亚洲区 | 欧美日韩伦理片| 国产高清成人在线| 91色视频在线观看| 亚洲成人av影片| 国产精品视频久久一区| 国内免费精品永久在线视频| 国产成人久久久久| 久久精品国产亚洲夜色av网站| 亚洲欧洲国产一区| 精品无码人妻一区| 欧美日韩导航| 91精品国产综合久久国产大片| av污在线观看| 成人黄色毛片| 欧美日韩一区二区三区四区五区| www日韩在线观看| 日韩成人影音| 欧美午夜精品久久久久久孕妇| 日本中文字幕亚洲| 俄罗斯一级**毛片在线播放| 亚洲综合男人的天堂| 日韩精品一区二区免费| 免费污视频在线| 性做久久久久久| 国产二区视频在线| 亚洲小说区图片| 亚洲综合自拍偷拍| 丁香六月激情婷婷| 樱花草涩涩www在线播放| 亚洲第一福利视频在线| 男人添女人下面高潮视频| a天堂资源在线| 日韩欧美综合在线视频| 欧美一级黄色影院| 日韩电影精品| 日韩欧美亚洲一区二区| 师生出轨h灌满了1v1| 综合激情网...| 亚洲精品www| 日韩中文字幕有码| 久久久久久美女精品| 欧美巨大黑人极品精男| 日韩免费在线视频观看| 亚洲人成免费| 国产成人亚洲综合青青| 91尤物国产福利在线观看| 麻豆精品在线播放| 99国产在线视频| 欧美熟妇交换久久久久久分类| 久久综合色之久久综合| 日韩片电影在线免费观看| 欧美成人三区| 亚洲美女视频在线| 给我免费播放片在线观看| 六月婷婷综合| 7777精品伊人久久久大香线蕉超级流畅| 免费在线观看日韩av| 免费成人高清在线视频theav| 综合网中文字幕| 欧美成人精品欧美一级私黄| 午夜在线精品偷拍| 成人免费高清完整版在线观看| 日本黄色免费视频| 国产午夜精品一区二区三区嫩草| 9l视频自拍9l视频自拍| 在线中文字幕播放| 91精品国产综合久久精品app| av在线网站观看| 一区二区在线| 欧美做受高潮1| 国产成人精品无码高潮| 91免费观看视频| 国产又爽又黄ai换脸| 欧洲性视频在线播放| 亚洲国产成人porn| 一个色综合久久| 日本成人a网站| 亚洲色图35p| 欧美成人综合色| 蜜桃一区二区三区四区| 国产日韩精品久久| 久草中文在线| 天天爽夜夜爽夜夜爽精品视频| 看看黄色一级片| 亚洲电影男人天堂| 欧美精品videofree1080p| 亚洲特级黄色片| 久久综合色婷婷| 国产 日韩 欧美在线| 国产精品一级在线观看| 在线观看欧美日韩| 中文字幕国产在线观看| 成人av网站免费观看| 一本二本三本亚洲码| 国产韩日精品| 国产丝袜一区视频在线观看| 久久久精品人妻一区二区三区四| 精品综合久久久久久8888| 欧美一区二区视频在线| 精精国产xxx在线视频app| 日韩欧美在线不卡| 午夜剧场免费在线观看| 免费在线成人| 久久99久久99精品蜜柚传媒| wwwww亚洲| 日韩午夜激情av| 欧美一区免费观看| 韩国成人精品a∨在线观看| 欧美一区二区三区在线播放 | 亚洲影视在线观看| www.久久com| 国内精品视频在线观看| 青青在线视频一区二区三区| 四虎精品成人免费网站| 欧美日韩国产一区在线| 中国av免费看| 欧美视频在线观看| 成人资源av| 136福利第一导航国产在线| 在线成人午夜影院| 日韩在线视频网址| 精品综合免费视频观看| mm131午夜| 在线精品视频一区| 欧美精品亚州精品| 亚洲黄色在线免费观看| 午夜日韩在线观看| 国产综合内射日韩久| 影音先锋亚洲精品| 国产精品日韩欧美一区二区| www在线观看黄色| 亚洲精品午夜精品| 波多野结衣影片| 国产精品久久久久久久久久免费看 | 中文字幕欧美日韩一区二区| 中文成人在线| 欧美激情xxxxx| 亚洲三区在线播放| 欧美丝袜丝交足nylons图片| 中国毛片直接看| 成人黄色大片在线观看| 国产精品69页| 中文字幕一区二区精品区| 国产激情美女久久久久久吹潮| 人人超在线公开视频| 日韩成人小视频| 日韩乱码一区二区三区| 亚洲精品国产一区二区精华液| 国产视频久久久久久| 日韩不卡手机在线v区| 国产精品av免费| 国产精品chinese在线观看| 清纯唯美亚洲激情| 在线xxxx| 亚洲欧美中文另类| 国产精品萝li| 能在线观看的av| 久久久久国产| 日韩精品在在线一区二区中文 | 国产精品自产拍在线观看| 欧美bbbxxxxx| 日韩中文综合网| 麻豆app在线观看| 精品国产精品网麻豆系列| 在线观看黄色国产| 欧美性猛xxx| 久久精品免费在线| 亚洲天堂福利av| 精品丰满少妇一区二区三区| 91亚洲男人天堂| 亚洲AV成人精品| 极品少妇一区二区| 色综合手机在线| 久久久人人人| 久草热视频在线观看| 在线观看一区视频| 国产资源第一页| 希岛爱理av一区二区三区| 日本不卡一区二区三区视频| 思热99re视热频这里只精品| 国产91视觉| 日韩国产在线不卡视频| 国产深夜精品福利| 欧美jizz18| 国产精品一区av| 欧美aaaaaa| 国产日韩在线看| 丰满少妇一区| 国产精品入口夜色视频大尺度| 欧美影视资讯| 国产精品h在线观看| 久久久一本精品| 青青a在线精品免费观看| a欧美人片人妖| 日韩美女视频免费在线观看| 成人片免费看| 国产精品高潮呻吟久久av无限| 成人啊v在线| 国产精品普通话| 精品乱码一区二区三区四区| 国产精品看片资源| 欧美日韩尤物久久| 国产精品久久中文| 二区三区精品| 99在线观看视频| 精品视频在线你懂得| 久久久精品国产一区二区三区| 日韩系列在线| 人禽交欧美网站免费| 日韩国产欧美| 久久天天东北熟女毛茸茸| 欧美激情自拍| av免费观看国产| 老牛国产精品一区的观看方式 | 免费欧美在线视频| wwwwwxxxx日本| 国产麻豆成人传媒免费观看| 韩国三级视频在线观看| 26uuu色噜噜精品一区| x88av在线| 亚洲日本韩国一区| 久久9999久久免费精品国产| 黑丝美女久久久| 在线免费观看视频网站| 欧美成人高清电影在线| 日韩精品视频无播放器在线看 | 精品国产av色一区二区深夜久久| 91免费视频网| 99久久婷婷国产综合| 亚洲最快最全在线视频| 中文字幕免费高清网站| 日韩一区二区视频| 青青青草原在线| xvideos亚洲人网站| 九色porny视频在线观看| 国产精品久久久久久久久久久久久| 日本精品国产| 奇米精品在线| 国内精品久久久久久久影视蜜臀 | 久久久久国产精品| 日韩av一二三四区| 激情成人午夜视频| 欧美bbbbb性bbbbb视频| 亚洲女女做受ⅹxx高潮| 黄色在线免费观看| 欧美一区二区播放| 黄视频在线播放| 久久久久久久影院| 亚洲午夜国产成人| 久久久久久高清| 你懂的视频一区二区| 国产成人无码av在线播放dvd| 国产成人免费在线观看不卡| 手机免费观看av| 舔着乳尖日韩一区| 性欧美xxxx视频在线观看| 9765激情中文在线| 91久久久久久久久久久| 狠狠操综合网| 成人黄色av片| 国产成人免费高清| 午夜三级在线观看| 91久久精品一区二区三| 五月激情六月婷婷| 欧美福利视频在线观看| 黄色成人小视频| 日韩电影大全在线观看| 亚洲日本久久| 亚洲成人精品在线播放| 亚洲欧洲国产日韩| 日本一区二区三区久久| 亚洲欧美国产一本综合首页| 大香伊人中文字幕精品| 91免费人成网站在线观看18| 日韩一区自拍| 欧美三级理论片| 国产视频一区在线播放| 偷偷操不一样的久久| 精品欧美一区二区久久| a级在线观看| 95av在线视频| 91精品国产调教在线观看| 手机在线看福利| 久久婷婷国产综合国色天香| 国产一级片毛片| 亚洲毛片一区二区| 亚洲性色av| 玛丽玛丽电影原版免费观看1977 | 182在线视频| 亚洲高清在线视频| 亚洲精品字幕在线观看| 欧美国产精品日韩| 国内精品麻豆美女在线播放视频| av在线播放天堂| 99这里只有久久精品视频| 亚洲视频免费播放| 亚洲精品久久久久久久久久久久 | 国产一级18片视频| 精品一区二区电影| 欧美大片免费高清观看| 欧美性色黄大片人与善| 久久青草久久| 美女100%露胸无遮挡| 欧美美女网站色| 在线视频中文字幕第一页| 国产精品对白刺激久久久| 日韩一级精品| 国产色视频一区二区三区qq号| 欧美综合天天夜夜久久| 毛片激情在线观看| 99久久精品无码一区二区毛片| 亚洲黄色免费| 亚洲精品视频久久久| 欧美日韩免费一区二区三区视频| 快射av在线播放一区| 成人区精品一区二区| 国产视频亚洲| 色撸撸在线视频| 精品欧美乱码久久久久久1区2区| 中文在线а√在线8| 亚洲免费久久| 福利电影一区二区三区| 视频一区二区三区四区五区| 最新中文字幕亚洲| 免费精品一区| 国产女大学生av| 国产精品乱人伦中文| 亚洲免费视频网| 国产97在线|日韩| 午夜精品偷拍| 欧洲女同同性吃奶|